生成AI時代におけるWikipediaの価値

著者： Selena Deckelmann

日本語訳： yomoyomo

以下の文章は、Selena Deckelmann による Wikipedia's value in the age of generative AI の日本語訳である。

Wikipedia に含まれるすべての情報を独力で執筆可能な生成的人工知能があるとして、それは今日の Wikipedia と同じものになるでしょうか？

これは哲学的問題みたいに思えるかもしれませんが、生成的人工知能と大規模言語モデル（LLM）の最近の進歩のおかげで、今ではかなり実際的な問題です。人間の反応を予測して模倣する生成 AI 技術が広く受け入れられたおかげで、多分に Wikipedia 由来に見えるテキストを今ではほぼ苦もなく作成できます。

この疑問に対する私の答えはシンプルです。いいえ、それは同じにはなりません。

公開の場で何十万ものボランティアの助けを借りながら、自由に知識を生み出し、共有し、時間をかけて磨きをかけるプロセスが、20年かけて Wikipedia や他の多くの Wikimedia 財団のプロジェクトを根本的に形作ってきました。Wikipedia は、信頼できる情報源のある知識を含んでいますが、それは人間によって作り出され、議論され、キュレートされているからこそです。Wikipedia は公開かつ非営利のモデルに基づいていますが、それはつまり、Wikipedia はアクセスや共有が自由であり、今後もずっとそうだということです。そして、機械生成コンテンツがあふれるインターネットにおいて、これは Wikipedia がさらに一層価値を持つことを意味します。

この六か月、一般の人たちは、広大なデータセット上で訓練された、テキストを読み、要約し、生成できる何十もの LLM を知ることになりました。Wikipedia は、300を超える言語版がある、インターネットで最大の公開コーパスの一つです。現在まで、どの LLM も Wikipedia のコンテンツで訓練されており、Wikipedia はほとんどの場合、そのデータセットで最大の訓練データソースです。

これらの新システムのいずれかが、Wikipedia の記事の生成に挑戦するのは明白です。もちろん、それは人間が挑戦してきたことです。そして、多くの読者がじかに経験してきたように、こうした試みは、LLM を用いてウィキペディアンが知識と呼ぶもの、信頼できる情報源に基づく百科事典の文書と画像を生み出すことにまつわる多くの課題を浮き彫りにします。以下に LLM の弱点をいくつか挙げます。

LLM からの出力は現在ファクトチェックされておらず、それは生成 AI を使って自分の仕事をやらせてみた人たちの話が広く報道されている通りです。お礼状、楽しい休暇の計画、エッセイを書きだすための概要といった、出力結果が参考になり、害にならない、失敗しても大事にならない状況はいくらでもあります。しかし、そううまくいかない状況も存在します。例えば、LLM が判例をでっち上げ、それを実際の法廷で答弁書に使用した弁護士は、最終的に罰金を科せられました。別の事例では、救急外来を受診した患者の症状について、生成 AI システムがまずい診断を下すのをある医師が実証しました。時が経つにつれ、これらのシステムは前よりずっと良くなり、さまざまな状況でもっと信頼できる情報源になるだろうと私は思います。より良い情報源の需要が、オンラインで利用可能な研究や書籍のアクセスを向上させるのに、ワクワクする可能性を感じます。しかし、それに至るまで時間がかかりますし、あらゆる人に恩恵をもたらす形で改善するよう、規制当局や大衆から相当な圧力がかかるのは確実です。
LLM は、訓練していない情報を使ってプロンプトに答えることはできません。これはつまり、全文をオンラインで入手できない世界中の書籍、インターネット以前の研究に関するコンテンツ、英語以外の言語の情報はすべて、代表的な LLM が「知る」ところではないことを意味します。その結果、今日 LLM の訓練に使用されるデータセットは、多くの分野――雇用、医療、犯罪の量刑など――で現行の不平等やバイアスを増幅させる可能性があります。これもいつかは変わるのかもしれませんが、現在 Wikipedia の執筆にあらゆる言語の人たちが用いるありとあらゆる情報に自由にアクセスし、LLM を訓練できるようになるのはかなり先の話になります。そしてその場合でさえ、バイアスを軽減するのに追加作業が必要になるでしょう。
最後に、LLM の出力で訓練した LLM は顕著に性能が悪くなり、一度「知った」ことさえ忘れるという「モデル崩壊」と呼ばれる現象が明らかになっています。これはつまり、LLM の改善には、人間によって書かれたオリジナルのコンテンツを安定供給する必要があるということになり、これは Wikipedia などの人間が生成するコンテンツ源の価値を一層高めることになります。それはまた、世界中の生成 AI 企業が、オリジナルの人間によるコンテンツという、我々の情報エコシステムでもっとも重要な要素のソースを持続可能かつ長期的に成長させ続ける方法を考える必要があるということでもあります。

以上は、LLM がどう使えるかをインターネットユーザーが探求する上で解決する必要がある問題の一部に過ぎません。インターネットユーザーは、人々の厳しく吟味されてきた信頼できる情報源をますます高く評価することになると我々は信じています。Wikipedia のポリシーと人間のボランティアを支援するために機械学習を利用してきた十年以上にわたる我々の経験は、この未来に価値ある教訓を示唆しています。

生成 AI 利用の原則

機械生成コンテンツや機械学習ツールは、Wikipedia や他の Wikimedia 財団のプロジェクトにとって目新しいものではありません。Wikimedia 財団で我々は、人間主導のコンテンツモデレーションと人間による運営を中心とすることで、とても多くの人たちにとって Wikipedia をこれほど価値ある資産たらしめてきたのと同じ原則に沿って、機械学習や AI のツールを開発してきました。我々は責任あるやり方で人々の知識ニーズを満たすべく、人間の貢献や相互関係を前面に押し出すことを目指して、生成 AI プラットフォームを含む新たな手法の実験を継続します。Wikipedia の編集者は、すべての機械生成コンテンツを掌握しています――AI によってなされたどんな仕事も、編集者が編集、改善、監査しています――し、Wikipedia のコンテンツ生成に使用される機械学習ツールを管理するポリシーと体制を作っています。

こうした原則があることで、現行並びに新興の大規模言語モデルの利用に関する格好の出発点を形成できます。まず第一に、LLM はそのモデルが以下の3つの重要な手法で人々を支援するのを考慮すべきです。

持続可能性。生成 AI 技術には、コンテンツを作成する人間のモチベーションに悪い影響を与える可能性があります。より多くの人たちがその知識をコモンズに提供するのを持続し、そう促すために、LLM は知識を育て、生み出すよう人間の参加を増やし、支援することに目を剥けるべきです。LLM は、決して人間が知識を生み出すのを妨げたり、人間にとって代わるべきではありません。これは、常に人間に最新情報を伝え、彼らの貢献を適切に評価することで可能です。Wikimedia 財団の活動の戦略的使命に従い、人間が知識を共有するのを支援し続けるだけでなく、我々の情報エコシステム全体を拡大し続けることが求められており、それが LLM があてにする最新の訓練データを生み出すことになります。
公平性。LLM は情報の入手可能性を拡大し、知識の探求者に情報を届ける革新的な方法を提供できます。そのため、こうしたプラットフォームは、情報の偏りを固定化したり、知識格差を広げたり、伝統的に排斥されてきた歴史や視点をないことにし続けたり、人権侵害の一因とならないようチェック＆バランスを組み込む必要があります。LLM はまた、不正確で極めて不公平な結果をもたらしかねない訓練データ中のバイアスを識別し、処理し、正す方法も検討すべきです。
透明性。LLM やそのインタフェースは、人間がモデルの出力のソースを把握し、出力を検証し、訂正するのを許可すべきです。どのように出力結果が生成されるかの透明性が増せば、我々が有害なシステムの偏りを把握し、その後軽減する助けになります。これらのシステムの利用者が訓練データや出力結果に存在する可能性がある偏りの原因や重要性を評価できるようにすることで、システムの作り手もその利用者もツールの理解と思慮深い利用の一端を担えます。

信頼できる未来のビジョン

人間の貢献こそがインターネットの根幹です。人間はオンラインの成長や拡大を推進し、学びやビジネスや他者とつながるための信じられない場を作り上げてきたエンジンなのです。

生成 AI は Wikipedia にとって代われるでしょうか？挑戦は可能ですが、誰も心底望まない代替品に終わるのが関の山でしょう。新しいテクノロジーに必然的なものは何もありません。それどころか、何がもっとも重要かを選択するのはすべて我々次第なのです。我々は、生成 AI システムの主要な目標として、後知恵ではなく――持続的に、公平に、そして透過的に――人間の理解や世界に戻す知識の貢献の優先順位をつけることができます。これは LLM の偽情報やハルシネーションの増加を軽減し、人間の創造性が生み出される知識で評価されるようにする助けとなりますし、もっとも重要なのは、LLM も人間も同じく最新の、進化する、信頼できる情報エコシステムを長期にわたりあてにし続けられるようにすることです。

Selena Deckelmann は、Wikimedia 財団の最高製品責任者兼最高技術責任者です。

[翻訳文書 Index]　[TOPページ]

初出公開：　2023年07月25日、　最終更新日： 2023年07月25日
著者： Selena Deckelmann
日本語訳： yomoyomo (E-mail: ymgrtq at yamdas dot org)

この作品はクリエイティブ・コモンズ表示 - 継承 4.0 国際ライセンスの下に提供されています。