AI企業と大手出版社のライセンス契約はたぶんマズい

著者： Michael Weinberg

日本語訳： yomoyomo

AI 企業と大手出版社のライセンス契約は、ほぼ皆にとってマズいことになるかもしれない。その契約で小切手を直接受け取ることがない人にとっては特に。

Getty Images や音楽レーベルなど大手コンテンツ企業からの初期の著作権訴訟が未だ絶賛継続中だが（定期的に新たな訴訟が起こされている）、最近では大手のコンテンツ保有者と AI 企業の間でライセンス契約が結ばれるのも続いている。

個々のコンテンツ企業にとってその契約が賢明かは脇に置くとして、こうしたライセンス契約が、当事者以外のほぼ全員に悪い結果をもたらすのを私は恐れている。こうした合意を締結する企業の大半は（世論の圧力に利用可能な）比較的大規模な文化的権力と、（モデルをトレーニングするのに必要な作品量に比べれば）比較的小規模な作品群を代表しており、AI 企業にとってもっともらしい脅威と認められるに十分な法的権限に支えられている。それにより、コンテンツ企業はどのモデルであれ、実際の貢献度に見合わない補償金を要求できる立場にある。

この力学に起因する契約によって、少数の企業がトレーニングデータセットに対する比較的小規模な貢献に不釣り合いな額の補償金を要求できるようになる。そうすることで、そのライセンスは無認可でモデルのトレーニングを行うことへのフェアユースの弁護を弱体化しかねず、それは彼らより小さな企業が AI 市場に参入するのをより難しくする。

こうした契約が、モデルをトレーニングするのに使用したデータを作成した誰もが著しい補償金を受け取る可能性を増やしもするなら、これは前向きな展開かもしれない。* しかし、トレーニングするデータセットのデータを作成した大多数の人たちや企業が関与する前に、契約にサインするメディア企業が手にできるライセンス料の大半を吸い上げるのを可能にするので、こうした契約がそういう結果をもたらす可能性を限界まで下げることになりそうである。もっともありそうなのは Spotify の場合と同じような結果で、大手レコード会社と一握りの有名アーティストが多額の補償金を受け取り、それ以外が受け取るのは雀の涙（あるいはまったくなし）というものだ。

ライセンス料の上昇

AI モデルのトレーナーからライセンス料をもらいたいと思っている人なら、こうした契約を前向きな展開と見るのは簡単である。契約は、データにライセンスが必須という前例を作り、他の皆に適用されるデータの相場を決めるかもしれない。

しかしながら、目下のところ、こうした契約が大手（あるいはやや大手の）メディア企業や権利保持者以外の基準を定めると見る根拠はないように思われる。こうした契約が、独立系のアーティストや、既存の文化的、法的な影響力を持たない人達にとって基準を定めることはない。どのみち、こうした契約の条項は公開すらされない。

こうした契約は、大手メディア企業や権利保持者が、利用可能なライセンス料をできるだけ多く吸い上げるために列の先頭に躍り出たのだと考えるのがよいのかもしれない。受け取るライセンス料のパーセンテージを最大化するのが彼らの動機であって、自分たち以外の皆を代表して基準を定めるとか、他の人のためにパイを大きくするといったことではないのだ。実際、契約の対象外の人が主張できる価値は1ドルたりとも、AI 企業との契約には含まれない。

その結果、大手メディア企業は手に入れられるライセンス料を増やすべく、「クリエイターにはお金が支払われるべき」という美辞麗句を利用する一方で、トレーニングデータの一部で支払いを受けるのを他の誰にとっても少し難しくしている。

これはマズいと思う！おまけに、こうした契約は、そもそもモデルの作成を可能にするフェアユースの弁護を弱体化するかもしれないのだ。

競争の阻止

モデルをトレーニングするのに使用されるデータを巡る著作権訴訟は、そのトレーニングがフェアユースの範疇に含まれるかどうかにすべてがかかっている。もしデータでモデルをトレーニングする行為がフェアユースなら、トレーナーはデータの権利保持者から許可を得る必要はない（私は、これが法律の読み方としても、政策としても正しいと思う）。もしトレーニングがフェアユースでないなら、トレーナーはモデルをトレーニングするのに使用するすべてのビットについて権利保持者から許可を得る必要がある。

フェアユースかどうかの判断は、四つの要素の考査が適用されるが、その一つはデータの潜在的市場での使用の影響である。AI 企業の弁護士は、AI のトレーニングデータの市場が確立するの回避するのを念頭にこうした契約を作成していると私は確信している（契約上利用可能な公開情報は、API など一括データ転送を通じてデータにアクセスするのを容易にする観点で構成されることを示唆しており、データ自体へのライセンスではない）。それでもなお、こうした契約の存在は、トレーニングデータのライセンスが機能する市場が存在すると法廷が判断する公算を確かに少し高めるだろう。

もしそうだとして、それ以外のフェアユースの要素の過半数がフェアユースの認定に不利に働くと法廷が判断したら、大規模なトレーニングデータのライセンス料を支払える企業だけが、新しい AI モデルのトレーニングをできることになる。こうなると AI への新規の市場参入を事実上阻止することになるので、これはおそらくマズい政策の結果ということになると私は思う。それに、ライセンスを得る手続きの難度は、困難から不可能の間のどこかになるだろう。

それらすべてが、こうした契約をほぼ全員にとってマズいものにする。直接支払いを受けない創作者にとってマズいし、AI 分野の新たな競争を歓迎する人にとってもマズいし、インターネット上の情報の非消費的な利用はフェアユースで保護されるべきと大枠考える人にとってもマズい。

* 私は今のところ、モデルをトレーニングするのに使用されるデータを作成した全員に補償するのはマズい考えだと思うのだけど、多くの人にとってそれが魅力的な選択肢である理由は理解している。