偏った言語モデルは、インターネットトレーニングデータから生じる可能性があります

昨年、Google はBERTを発表しました。これは、検索システムのほぼ5年間で最大の変更であり、現在では、ほぼすべての英語ベースのクエリに対応しています。ただし、BERTのような言語モデルは大規模なデータセットでトレーニングされており、この方法で言語モデルを開発することには潜在的なリスクがあります。

AI研究者のTimnitGebruがGoogleから離れたことは、これらの問題と、偏った言語モデルがマーケターとユーザーの両方の検索にどのように影響するかについての懸念に関係しています。

尊敬されているAI研究者と彼女のGoogleからの脱退

彼女は誰。 Googleを離れる前、Gebruは2018年に画期的な研究を発表したことで最もよく知られており、顔分析ソフトウェアは、浅黒い肌の男性では1%未満であるのに対し、浅黒い肌の女性では35%近くのエラー率を示していました。 。彼女はまた、スタンフォード人工知能研究所のミョウバンであり、テクノロジー企業の従業員の多様性とその欠如を批判し、AI分野で黒人の存在感を高めることに専念する非営利団体であるBlack inAIの共同創設者でもあります。彼女は2018年にGoogleに採用され、完全な学問の自由を約束して、同社の最初の黒人女性研究者になったとワシントンポスト紙は報じました

彼女がGoogleで働いていない理由。彼女が共著した論文(「確率的オウムの危険性について:言語モデルは大きすぎる可能性があるか?」)をめぐるGoogleとの論争の後、大規模なデータセットで言語モデルをトレーニングすることに関連するリスクの可能性について議論した後、Gebruは彼女の「辞任」が迅速化されました—彼女は当時休暇中であり、2か月以内に会社の倫理的人工知能チームの共同リーダーに昇進していました。

Google AIのシニアバイスプレジデントであるジェフディーンは、パブリックレスポンスで、この論文は「関連する研究を無視しすぎた」、「最近の研究を考慮しなかった」、そして論文は1日前にレビューのために提出されたと述べました。その締め切りまで。彼はまた、GebruがGoogleでの仕事を続けるために満たすべきいくつかの条件を挙げたと述べました。これには、論文のレビュープロセスの一環としてDeanが相談したすべての人を明らかにすることも含まれます。 「Timnitは、私たちがこれらの要求を満たさなかった場合、彼女はGoogleを離れ、終了日に働くと書いています。 Googleを辞任するという彼女の決定を受け入れ、尊重します」と彼は言いました。

一連のツイートの中で、彼女は「辞任していなかった。最初に簡単な条件を求めていた」と述べ、「ここに条件があると言った。あなたが彼らにうまく会えるなら、私はこの論文から私の名前を外します、そうでなければ、私は最後の日に働くことができます。それから彼女[Gebruのスキップレベルマネージャー]は私の直属の部下に私の辞任を受け入れたというメールを送りました。」

売り上げアップするならホームページ制作で長崎市

さらにコメントを求められたとき、グーグルは追加するものが何もなく、代わりにディーンの公の反応とCEOのサンダーピチャイからのメモを指摘した。

グーグルからの彼女の分離の性質は論争されていますが、ゲブルは今、異議を唱え、 結果に直面した元グーグル従業員の数が増えています。 AI倫理のリーダーであり、この分野で数少ない黒人女性の1人であるという彼女の疎外されたグループと地位の擁護も、Googleの多様性、平等、包摂の慣行に注目を集めています。

Gebruの論文は、Googleテクノロジーの魅力的なイメージを描いている可能性があります

まだ公開されていない研究論文は、大規模なデータセットを使用した言語モデルのトレーニングに関連するリスクの概要を示しています。

環境への負担。 MIT Technology Reviewによると、Gebruと彼女の共著者が調査した懸念の1つは、潜在的な環境コストでした。 Gebruの論文は、Emma Strubell et al。の2019年の論文を参照しています。この論文では、特定のタイプのニューラルアーキテクチャ検索方法をトレーニングすると、サンフランシスコとニューヨーク間の往復315便とほぼ同じ626,155ポンドのCO2が生成されることがわかりました。

画像:MITテクノロジーレビュー。

偏った入力は、偏ったモデルを生成する可能性があります。インターネットからのトレーニングデータを使用する言語モデルには、人種差別主義者、性差別主義者、偏見のある言語が含まれている場合があります。これらの言語は、検索エンジンアルゴリズムなど、使用されている言語モデルに現れる可能性があります。問題のこの側面は、マーケターにとって潜在的に深刻な影響をもたらすため、私たちが焦点を当てるものです。

偏ったトレーニングデータは、偏った言語モデルを生成する可能性があります

Microsoftの検索およびAI担当バイスプレジデントであるRanganMajumder氏は、「既存のインターネットテキストからトレーニングされた言語モデルは、絶対に偏ったモデルを生み出します」と語り、「これらの事前トレーニングされたモデルの多くは、「マスキング」によってトレーニングされます。彼らがテキストの空白を埋めるために必要な言語のニュアンスを学んでいることを意味します。バイアスは多くのことから生じる可能性がありますが、彼らがトレーニングしているデータは間違いなくそれらの1つです。」

「偏ったデータを自分で見ることができます」と、Mozの元シニアSEO科学者であるBritneyMuller氏は述べています。上のスクリーンショットでは、「エンジニア」という用語に最も密接に関連する関連エンティティに分離されたGoogleのWord2VecコーパスのT-SNE視覚化、キース、ジョージ、ハーバート、マイケルなどの男性に通常関連付けられている名が表示されています。

もちろん、インターネットの偏見は性別に限定されません。「経済学の偏見、人気の偏見、言語の偏見(たとえば、ウェブの大部分は英語であり、「プログラマー英語」は「プログラマー英語」と呼ばれます。理由)。 。 。ほんの数例を挙げると」とBerteyのマネージングディレクターであるDawnAnderson氏は述べています。これらのバイアスがトレーニングデータ内に存在し、それらでトレーニングされたモデルが検索エンジンアルゴリズムで採用されている場合、それらの素因は検索の自動提案やランキングおよび検索プロセスに表示される可能性があります。

マーケターのための「検索エンジンのパイの小さな部分」。 「これらの大規模モデルがどこにでも展開されている場合、モデルが学習したトレーニング資料のロジックそのものによって、検索におけるこれらのバイアスを強化するだけであると考えられます」とアンダーソン氏は述べています。潜在的に、バイアスの強化の永続的なサイクル。」

これは、Googleなどの検索エンジンがDiscoverフィードなどの機能を通じて提供するカスタマイズされたコンテンツでも発生する可能性があります。 「これは当然、より近視眼的な結果/展望につながるでしょう」とミュラーは言いました。など、より深い社会的格差につながります。」 「マーケターにとって、この潜在的な道は、コンテンツがより線条のある方法で提供されるため、検索エンジンのパイのさらに小さな部分につながります」と彼女は付け加えました。

偏ったモデルが検索アルゴリズムに組み込まれると(まだ行われていない場合)、多くのSEOの目的が損なわれる可能性があります。 「[SEO]業界全体は、ビジネスに収益をもたらす可能性のあるキーワードでウェブサイトをGoogleでランク付けすることを中心に構築されています」と、デジタルコンサルタント会社Tough&Competentの創設者であるPeteWatson-Wailesは述べています。積極的に人々の権利を剥奪し、人間の行動を指示するモデルのためにサイトを最適化する。」

ただし、これは比較的よく知られている懸念事項であり、企業はそのようなバイアスの影響を減らすためにいくつかの試みを行っています。

解決策を見つけるのは簡単ではありません

言語モデルの偏りを克服する方法を見つけることは、これらのモデルの有効性にさえ影響を与える可能性のある困難な作業です。 「これらのテクノロジーを開発している企業は、データ視覚化テクノロジーやその他の形式の「解釈可能性」を使用して、これらの大規模な言語モデルをよりよく理解し、可能な限り多くのバイアスを排除しようとしています」とミュラー氏は述べています。 、軽減するには費用がかかりますが(言うまでもなく、比較的不可能です)、これらの企業に非常によく役立っている現在の最先端テクノロジーの一部も失われます(OpenAIのGPT-3およびGoogleの大規模言語モデル)。」

誤解を避けるためにGmailのスマート作成機能で性別代名詞を削除するなど、言語モデルに制限を設けることは、1つの潜在的な救済策です。 「しかし、これらのバンドエイドソリューションは永遠に機能するわけではなく、バイアスは現在予測できない新しい興味深い方法で忍び寄り続けます」と彼女は付け加えました。

バイアス関連の問題の解決策を見つけることは、インターネットプラットフォームにとって継続的な問題です。 RedditとFacebookはどちらも人間を使ってモデレートし、ユーザーを違法なコンテンツや偏ったコンテンツから保護するために、終わりのない戦いを繰り広げています。 Googleは検索結果の品質に関するフィードバックを提供するために人間の評価者を使用しますが、アルゴリズムはユーザーを保護するための主要な防御線です。

その点でGoogleがFacebookやRedditよりも成功しているかどうかは議論の余地がありますが、他の検索エンジンに対するGoogleの優位性は、競合他社よりも高品質の検索結果を提供していることを示唆しています(ただし、ネットワーク効果などの他の要因も役割を果たします) )。マーケットリーダーとしての地位を維持するためには、利益を得るテクノロジーが公平であることを保証するためのスケーラブルな方法を開発する必要があります。

大規模なデータセットで言語モデルをトレーニングすることに関連するリスクを公に認めることは、それらが環境的、社会的、またはその他のものであるかどうかにかかわらず、企業がそれらを無力化する責任を維持するのに役立ちます。 GebruのGoogleからの離脱が、Googleの公開基準や、Gebruが提供した究極の(AI Jeff DeanのGoogle SVPが示唆したように)ではなく、会社の潜在的に不愉快なイメージを伝える彼女の論文の内容に関するものであった場合、事件は暗い絵を描きます自社の1つからの潜在的に不愉快な発見が一般に公開される可能性に直面したときの、倫理的なAIに対する同社の取り組みについて。


著者について

George Nguyenは、検索エンジンランドの編集者であり、オーガニック検索、ポッドキャスティング、eコマースを扱っています。彼のバックグラウンドはジャーナリズムとコンテンツマーケティングです。業界に入る前は、ラジオパーソナリティ、ライター、ポッドキャストホスト、公立学校の教師として働いていました。