機械学習で物体検知の学習をしている際に、データセットとそれを用いて学習したパラメーターは商用利用できるのか、著作権ってどうなってるのか気になったので調べてみました。
memo書き程度なので、そうなの?ぐらいの感覚でお願いします。
ただ修正・質問は気軽にしていただければと思います!
著作権
まず明確にしておきたい著作権について、各国で規制が異なるので気をつけたいところ。
結論、日本以外は営利目的での使用はかなりグレーなところ。
つ、使いづらい。
日本
機械学習など情報解析を目的としていれば、著作権などのあるコンテンツでも自由に使用できる。
文化庁第30条の4で言われているので間違いない

こちらでも言われているようにまさにパラダイス、珍しく機械学習に関しては素早い対応がなされた。
ただ日本にいるからといって安心はできないようで、この記事によると、サーバの所在地を著作物の利用行為を行う「利用行為地」とする考え方もあり、日本の著作権法が思わぬところで適用されなかったりするよう。
欧州
イギリスでは「非商業的な目的による調査を唯一の目的として」とされているらしい。
EU加盟国の一部では、研究目的以外の情報解析について、権利者が著作物などに対して明示的に権利を留保している場合、営利目的の情報解析については権利者が禁止できるとされている。
- 欧州委員会「Copyright in the Digital Single Market Directive」:
https://digital-strategy.ec.europa.eu/en/policies/copyright-legislation - イギリス知的財産庁「Exceptions to copyright: Research and private study」:
https://www.gov.uk/guidance/exceptions-to-copyright
アメリカ
アメリカでは情報解析に関する明文規定はなく、基本的に「フェアユース」の原則に基づいて事案ごとに裁判所で判断されます。近年はAI学習目的の利用をフェアユースとする判例も増えていますが、確立された明確なルールはないため、商用利用の場合は特に注意が必要です。
- 米国著作権局「More Information on Fair Use」:
https://www.copyright.gov/fair-use/more-info.html - 米国著作権局「Fair Use Index」:
https://www.copyright.gov/fair-use/
データセット
その辺に落ちてるデータセットを使う際に気をつけたいのが、利用規約とCreative Commonsである。
データセットも有名なものから色々あり、
- MSCOCO
- VOC
- ImageNet
- OpenImages
- CIFAR-10
- Kaggle上で提供されているもの
- etc…
それぞれ利用規約も様々である。ImageNetは商用利用禁止だし、KaggleもDatasetによってLicenseがバラバラ。
結局は使うデータについてどんな権利があって、利用規約が明記されているかを調べなくてはならない。
例えばCreative Commonsである。
Creative Commons ライセンス
この作品使っていいよ!でもこの条件の元でね!というライセンスです。とはいえ、厳格な規定ではなく、使用者の安全が保証されるものではないので、ちゃんと利用規約とか他の法律は自分で気にする必要があります。
全ての詳細は下記公式HPに記載されているので参照ください。

例えば、OpenImages Datasetなんかでいうと画像とアノテーションは CC BY 4.0であり、
作成者や作品のクレジットを明記してくれれば使っていいよという意思表示になります。
まとめ
グレーすぎる。
もちろん一番安全なのは自分で撮った写真に自分でアノテーションつけて、学習。
ですが、なかなか骨が折れる作業なので、目的にあったデータが簡単に手に入れば非常に助かりますよね。
もう色々複雑すぎて無理だ!!ってなる気持ちはとてもわかります。が、中には自由に使用してくれてOK!っていうデータもあるので、
ライセンスを見極める力を身につけ、適切に活用していきましょう。
最新の法的状況や特定のデータセットのライセンスについては、常に公式情報を確認することをお勧めします。
コメント