生成AI時代におけるWikipediaの価値

著者: Selena Deckelmann

日本語訳: yomoyomo


以下の文章は、Selena Deckelmann による Wikipedia's value in the age of generative AI の日本語訳である。


Wikipedia に含まれるすべての情報を独力で執筆可能な生成的人工知能があるとして、それは今日の Wikipedia と同じものになるでしょうか?

これは哲学的問題みたいに思えるかもしれませんが、生成的人工知能と大規模言語モデル(LLM)の最近の進歩のおかげで、今ではかなり実際的な問題です。人間の反応を予測して模倣する生成 AI 技術が広く受け入れられたおかげで、多分に Wikipedia 由来に見えるテキストを今ではほぼ苦もなく作成できます。

この疑問に対する私の答えはシンプルです。いいえ、それは同じにはなりません。

公開の場で何十万ものボランティアの助けを借りながら、自由に知識を生み出し、共有し、時間をかけて磨きをかけるプロセスが、20年かけて Wikipedia や他の多くの Wikimedia 財団のプロジェクトを根本的に形作ってきました。Wikipedia は、信頼できる情報源のある知識を含んでいますが、それは人間によって作り出され、議論され、キュレートされているからこそです。Wikipedia は公開かつ非営利のモデルに基づいていますが、それはつまり、Wikipedia はアクセスや共有が自由であり、今後もずっとそうだということです。そして、機械生成コンテンツがあふれるインターネットにおいて、これは Wikipedia がさらに一層価値を持つことを意味します。

この六か月、一般の人たちは、広大なデータセット上で訓練された、テキストを読み、要約し、生成できる何十もの LLM を知ることになりました。Wikipedia は、300を超える言語版がある、インターネットで最大の公開コーパスの一つです。現在まで、どの LLM も Wikipedia のコンテンツで訓練されており、Wikipedia はほとんどの場合、そのデータセットで最大の訓練データソースです。

これらの新システムのいずれかが、Wikipedia の記事の生成に挑戦するのは明白です。もちろん、それは人間が挑戦してきたことです。そして、多くの読者がじかに経験してきたように、こうした試みは、LLM を用いてウィキペディアンが知識と呼ぶもの、信頼できる情報源に基づく百科事典の文書と画像を生み出すことにまつわる多くの課題を浮き彫りにします。以下に LLM の弱点をいくつか挙げます。

以上は、LLM がどう使えるかをインターネットユーザーが探求する上で解決する必要がある問題の一部に過ぎません。インターネットユーザーは、人々の厳しく吟味されてきた信頼できる情報源をますます高く評価することになると我々は信じています。Wikipedia のポリシーと人間のボランティアを支援するために機械学習を利用してきた十年以上にわたる我々の経験は、この未来に価値ある教訓を示唆しています。

生成 AI 利用の原則

機械生成コンテンツや機械学習ツールは、Wikipedia や他の Wikimedia 財団のプロジェクトにとって目新しいものではありません。Wikimedia 財団で我々は、人間主導のコンテンツモデレーションと人間による運営を中心とすることで、とても多くの人たちにとって Wikipedia をこれほど価値ある資産たらしめてきたのと同じ原則に沿って、機械学習や AI のツールを開発してきました。我々は責任あるやり方で人々の知識ニーズを満たすべく、人間の貢献や相互関係を前面に押し出すことを目指して、生成 AI プラットフォームを含む新たな手法の実験を継続します。Wikipedia の編集者は、すべての機械生成コンテンツを掌握しています――AI によってなされたどんな仕事も、編集者が編集、改善、監査しています――し、Wikipedia のコンテンツ生成に使用される機械学習ツールを管理するポリシーと体制を作っています。

こうした原則があることで、現行並びに新興の大規模言語モデルの利用に関する格好の出発点を形成できます。まず第一に、LLM はそのモデルが以下の3つの重要な手法で人々を支援するのを考慮すべきです。

  1. 持続可能性。生成 AI 技術には、コンテンツを作成する人間のモチベーションに悪い影響を与える可能性があります。より多くの人たちがその知識をコモンズに提供するのを持続し、そう促すために、LLM は知識を育て、生み出すよう人間の参加を増やし、支援することに目を剥けるべきです。LLM は、決して人間が知識を生み出すのを妨げたり、人間にとって代わるべきではありません。これは、常に人間に最新情報を伝え、彼らの貢献を適切に評価することで可能です。Wikimedia 財団の活動の戦略的使命に従い、人間が知識を共有するのを支援し続けるだけでなく、我々の情報エコシステム全体を拡大し続けることが求められており、それが LLM があてにする最新の訓練データを生み出すことになります。
  2. 公平性。LLM は情報の入手可能性を拡大し、知識の探求者に情報を届ける革新的な方法を提供できます。そのため、こうしたプラットフォームは、情報の偏りを固定化したり、知識格差を広げたり、伝統的に排斥されてきた歴史や視点をないことにし続けたり、人権侵害の一因とならないようチェック&バランスを組み込む必要があります。LLM はまた、不正確で極めて不公平な結果をもたらしかねない訓練データ中のバイアスを識別し、処理し、正す方法も検討すべきです。
  3. 透明性。LLM やそのインタフェースは、人間がモデルの出力のソースを把握し、出力を検証し、訂正するのを許可すべきです。どのように出力結果が生成されるかの透明性が増せば、我々が有害なシステムの偏りを把握し、その後軽減する助けになります。これらのシステムの利用者が訓練データや出力結果に存在する可能性がある偏りの原因や重要性を評価できるようにすることで、システムの作り手もその利用者もツールの理解と思慮深い利用の一端を担えます。

信頼できる未来のビジョン

人間の貢献こそがインターネットの根幹です。人間はオンラインの成長や拡大を推進し、学びやビジネスや他者とつながるための信じられない場を作り上げてきたエンジンなのです。

生成 AI は Wikipedia にとって代われるでしょうか? 挑戦は可能ですが、誰も心底望まない代替品に終わるのが関の山でしょう。新しいテクノロジーに必然的なものは何もありません。それどころか、何がもっとも重要かを選択するのはすべて我々次第なのです。我々は、生成 AI システムの主要な目標として、後知恵ではなく――持続的に、公平に、そして透過的に――人間の理解や世界に戻す知識の貢献の優先順位をつけることができます。これは LLM の偽情報やハルシネーションの増加を軽減し、人間の創造性が生み出される知識で評価されるようにする助けとなりますし、もっとも重要なのは、LLM も人間も同じく最新の、進化する、信頼できる情報エコシステムを長期にわたりあてにし続けられるようにすることです。

Selena Deckelmann は、Wikimedia 財団の最高製品責任者兼最高技術責任者です。


[翻訳文書 Index] [TOPページ]

初出公開: 2023年07月25日、 最終更新日: 2023年07月25日
著者: Selena Deckelmann
日本語訳: yomoyomo (E-mail: ymgrtq at yamdas dot org)
クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンスの下に提供されています。