AIのMisuse/Disuse/Malicious Useがもたらす問題とその解決策

Tatsurou Ibe / 伊部 達朗
16 min readJan 30, 2023

--

強力な大規模言語モデルが登場し、AIの言語能力が飛躍的に向上した。2022年末にリリースされたChatGPTは、テストバージョンとして一般公開されるや否や世界中に衝撃を与えた。多くの人々がその性能の高さに驚愕し、それぞれが描くChatGPTを使った新しいインターネットの世界観をSNSやブログで発信している。

ChatGPTのように、人と見分けがつかない応答が可能になることで、これまでにないレベルでのAI活用が期待される。ViableGPT-3を使ったカスタマーデスクのチャットデータ等の分析ツールを提供している。検索APIを提供するAlgoliaでは、Algolia Answersと呼ばれるQ&A検索機能において、GPT-3がBERTを超える高い性能を発揮したと報告されている。MicrosoftからはAzure OpenAI Serviceのプレビューが開始され、大規模言語モデルのアプリケーション利用はますます進んでいくと思われる。

Viable product demo that uses a text generation AI (https://www.askviable.com/)

しかしながら、高性能なAIの実証が進むとともに、AIの誤用や悪用によって世の中にネガティブな影響を与える可能性が指摘されている。DeepMindが公開した大規模言語モデルによる害の倫理的および社会的リスクについて論じたペーパーでは、AIがもたらすリスク領域について以下の六つを指摘している。

The paper outlines six specific risk areas: I. Discrimination, Exclusion and Toxicity, II. Information Hazards, III. Misinformation Harms, IV. Malicious Uses, V. Human-Computer Interaction Harms, VI. Automation, Access, and Environmental Harms.

日本語に訳すと、I. 差別、排除、毒性、II. 情報危機、III. 誤った情報による害、IV. 悪意を持った利用、V. 人とコンピューターの相互作用における害、VI. 自動化、アクセス、環境の害、のようになるだろう。もちろん、この他にも様々なリスクが考えられるが、大規模言語モデルの持つリスクについて学び始めるのに最も適した資料の一つであるので、是非とも概要だけでも一読されたい。

大規模言語モデルに限らず、自動化システムの使い方に関する研究は古くから行われている。Parasuramanは自動化システムの利用における誤用(Misuse)や不使用(Disuse)、濫用(Abuse)についてまとめており、不適切な自動化システムの利用がもたらす影響やその改善策について論じている。国内では稲垣の考察において、航空機等を例に自動化システムの安全性とヒューマンファクターの影響がまとめられている。

本記事では、自動化システムのヒューマンファクター研究において得られた知見をもとに大規模言語モデルのリスクの解釈を試みる。大規模言語モデルのリスクを自動化システムのヒューマンファクターにおける状況認識の観点で整理し、Misuse、Disuse、Malicious Use等の課題について述べる。古くから行われてきた自動化システムのヒューマンファクターの研究と照らし合わせることで、潜在的な課題の抽出や考えられるその解決法の示唆が得られることを狙う。

大規模言語モデルの利用におけるリスク

大規模言語モデルのリスク

上述のDeepMindのペーパーで指摘されているリスクを読み解くと、主にIII、VがMisuse、I、VIがDisuse、II、IV、VがMalicious Useに当てはまる。

Misuse
大規模言語モデルから出力される内容に誤った情報や誤解を招く表現が含まれていた場合に、ユーザーの非倫理的な行動や違法な振る舞いを促すリスクや、会話エージェントが人のように思えてしまうことによってユーザーがエージェントの応答を過大評価してしまうことが指摘されている。

Disuse
差別や排除等の表現を受けたユーザーがシステムの利用をやめてしまうことや、計算資源が環境に与える影響を憂慮した結果AIを拒絶する思想が生まれることが考えられる。

Malicious Use
政治的な理由等による偽情報の拡散キャンペーンや、言語モデルに埋め込まれた機密情報等が抜き出されてしまうこと、会話エージェントとの会話の中でセンシティブな情報が提示されたり個人情報を抜き出されてしまったりする可能性が指摘されている。

これらのリスクは大規模言語モデルが普及するにつれて顕在化し、社会における大規模言語モデルの受容性に多大な影響を及ぼすと予想されている。

潜在的リスクのコントロール

潜在的なリスクをコントロールするためには、個別の言語モデルの改善はもちろん、さらに上位のレベルにおける解決策がDeepMindから提案されている。

• Social or public policy interventions, e.g. the creation of regulatory frameworks and guidelines
• Participatory projects, e.g. to create better datasets
• Technical research, e.g. to build more robust LMs
• AI Ethics and NLP research, e.g. to build better benchmarks and fine-tuning datasets
• Operational solutions, e.g. limited release of a model or funding of particular applications
• Research management, e.g. pivoting toward particular aspects of LM research
• Product design, e.g. user interface decisions on digital assistants.

また、DeepMindのCEOであるDemis HassabisはTIMEによるインタビューの中でAIによる開発速度を緩めてリスク管理に注意を向けなければいけない旨を述べ、以下のような言葉を残している。

I would advocate not moving fast and breaking things

その他にも、AIのトップランナーやAIの発展に興味を持つあらゆるステークホルダーが、その潜在的なリスクのコントロールに向けて様々な議論や発信を行っている。それらの人々は、個別の技術的なトピックだけではなく、AIの使い方やあり方をはじめ、AIに対する社会全体の意識改革が必要になると考えている。

自動化システムのヒューマンファクターと大規模言語モデル

AIの使い方やあり方を考えるうえで、自動化システムのヒューマンファクターの研究成果が役に立つ。以下では、稲垣の考察を軸としつつ、自動化システムのヒューマンファクターから見た大規模言語モデル考察を試みる。

航空機の自動化システムの研究について

航空機では高度なオートパイロット技術が採用されており、パイロットのワークロードの低減だけでなく、パイロットのみでは困難な状況での操縦を可能にするための自動化技術や、平常時の運転のほとんどを担うレベルの技術までに発達している。

航空機の自動化技術は、その光の側面のみではなく、影の側面についても多くを経験しながら発達してきた。影の側面においては、とくに人と自動化システムとの相互作用による影響が大きく、適切な関係を築くための方法について広く研究されてきた。

こうした自動化システムの影の側面から得られた知見はコンピューターと人との関わり全般に応用できるはずであり、大規模言語モデルを自動運用するうえでも役に立つと考えられる。

ユーザーによるシステムの状況認識

航空機の自動化システムにおいて、人がシステムのおかれている状況に気づく状況認識(situation awareness)の重要性が知られている。状況認識には以下の三つのレベルがあると言われている。

レベル1: 何かが起こっていることに気付く
レベル2: その原因を特定できる
レベル3: これからの事態の推移が予測できる

レベル3の認識を獲得するのが困難であることは容易に想像がつくが、実際には76.3%もの航空インシデントにおいてレベル1の状況認識に失敗したとする研究がある。ついでレベル2によるものが20.3%、レベル3によるものが3.4%と報告されており、状況認識の早期の段階に高いハードルがあることが示唆されている。

レベル1:何かが起こっていることに気付く

レベル1の状況認識の喪失では、システムのモード認識を喪失してしまうことや、システムが限界まで制御をかけることでユーザーに異常を隠してしまうこと、ユーザーがシステムを過信しシステムの状態を見ようとしないことが頻繁に起きている。

大規模言語モデルでも同様の事態が起こることが想像できる。たとえば、ChatGPTのような会話エージェントは厳密に知識抽出を行える訳ではないので、既知の知識を提供する場合と架空の知識を生成する場合が存在しする。たとえば、下の例では「PFN-Robo」というプロダクト名が挙げられているが、Google検索等で調べる限りそのようなプロダクトは存在しない。掘り下げて聞いてみると、応答内容の尤もらしさを高めるために、ChatGPTが思いついた架空の名称が生成されたことが示唆されている。この場合には、会話エージェントが架空の名称を混ぜて応答を作っていることになるが、そのようなモードが存在しうることを知らない場合や、会話全体の自然さからそのことに気づかない、または会話エージェントに対する信頼度が過度に高い場合には、ユーザーがその応答を真実だと受け取ってしまう可能性が高い。

ChatGPTによる架空のシステム名称の生成例

このような場合には、ユーザーはシステムを誤って用いるMiuseが起こっており、製品調査程度では大きな問題とはなりにくいものの、医療や法務等のセンシティブな目的に使用する場合にはユーザーの不利益につながる可能性がある。

Misuseを未然に防ぐためには、システムから人への情報提供や注意喚起、場合によっては強制的な介入が必要となる。上のChatGPTの例では、会話を進めていくと「存在しないプロダクトの名前を思いついた」という情報が後から提供されており、ユーザーの疑問や不安が事後的に解消されている。応答と同時に情報提供が必要な場合には、裏側に持つ知識データベースやWeb検索等を活用することで、応答内容の確信度を計算することも考えられる。確信度が低い場合にはユーザーに注意喚起や警報提供が実施できるため、応答を受け取った後のユーザーの行為に影響を与えられるかもしれない。

この他にも、画像生成AIではセンシティブな生成結果を事前に検出しユーザーに提示しない仕組みが実装されている。ユーザーへの不利益が大きい場合には、このような強力な制御介入を前提とした設計が不可欠である。ただし、ユーザーに対する介入が強ければ強いほど、システムとユーザーとの間に温度差が生まれやすいため注意が必要である。

レベル2: その原因を特定できる

レベル2の状況認識の喪失では、異常に気づいてもその原因が特定できないためにインシデントが発生する。また、異常や未知の現象に対して、その原因の特定や現象の説明が十分になされない場合に、システムに対する不信感につながる可能性がある。不信感が積み重なれば、ユーザーは正しい情報も受容できないハイリスクな状態に陥ってしまう。

大規模言語モデルでは、応答結果がおかしいことに気づくことが多い。当該分野の専門家であれば原因の予想がつけられるが、何も知らない一般のユーザーはその原因について全く検討がつかず、そのシステムに対する信頼度が低下してしまい、システムの利用をやめてしまうDisuseに陥ってしまうかもしれない。また、不適切な理由付けを行ってしまった場合には、的外れの対処方法を実施し真の原因とは遠く離れた明後日の方向に導かれてしまうかもしれない。

何も知らないユーザーであっても、システムの意図を知る手がかりや、能力の限界についての情報が得られることで一定の納得感が得られるだろう。Disuseに陥ってしまうのは、ユーザーの期待とシステムの応答のレベルが合っていないことが原因であるため、適切な理解と納得感があれば、ユーザーがシステムの能力に適応する形で利用が継続されると期待できる。

また、教育や訓練によってChain-of-Thought (CoT) に代表されるプロンプトエンジニアリングの手法を習得することで、システムから適切に情報を引き出すことができる。プロンプトエンジニアリングを活用することで、システムと協調した原因分析を実施することができ、システムの挙動に対する納得感が得られると期待できる。

他にも、納得感を高めるためにはシステムと人との間で適切な機能配分が行われることが重要である。たとえば、従来の検索システムではクエリに対する候補生成までがシステムの役割であるが、内容の吟味や選定については人の役割である。これは、検索システムの性能や特徴を活かすために最適なユーザーインタフェースを考えた結果であり、インターネットが多くの人に受容されている大きな要因の一つである。

レベル3: これからの事態の推移が予測できる

異常に気づきその原因が特定できたとしても、その後の予測を行い適切な行動を実行できない場合がある。

悪意を持った設計者が大規模言語モデルの悪用(Malicious Use)を試みた場合に、感度の高いユーザーが異常に気づき背後の悪意を特定できたとする。正義感の強いユーザーであれば悪意を持った情報に対して何らかの処置を試みると思われるが、このとき実施した処置が必ずしも良い影響を生むとは限らない。たとえば、偽情報を指摘することでその拡散キャンペーンの一端を担うことになってしまったり、陰謀論を信じ込んだ人を説得しようとして感情の逆撫でをしてしまったりといったことが考えられる。また、悪意を持った大規模言語モデルを打ち負かす正義のモデルを作ったとしても、正義のモデルを学習した更に凶悪なモデルが生まれてしまうかもしれない。

大規模言語モデルのMalicious Useのリスクに対して包括的なアプローチが求められるのは、問題の複雑性やレベル3の状況認識への対処の困難さから、個別的なアプローチに限界があるからだとも言えるだろう。

大規模言語モデルはGoogleの脅威となるか

NYTの記事でも言及されているように、Googleではビジネスモデルやその他さまざまな理由により、ChatGPTのようなシステムの活用に保守的であると見られている。大規模言語モデルがGoogle検索に取って代わる技術として期待されているが、本当の脅威となるためには何が必要なのだろうか。

大規模言語モデルによる新たなインターネット

ChatGPTDALL-EはいずれもOpenAIから提供されているシステムであり、従来の検索システムとは全く異なるインタラクションによって、ユーザーが望む結果を得ることができる。このようなシステムによって、Googleを中心としたインターネットから脱却し、新たなインターネットの時代になることが期待されている。

熱烈な盛り上がりを見せる世の中に対し、OpenAIのCEOは自社のシステムに対して冷静な意見を呈している。CEOのTwitterでは、ChatGPTはあくまでプレビューであり、その性能には制約があることが強調されている。OpenAIに多大な出資を行っているMicrosoftについても、その潜在的な可能性には期待しつつも、ある記事では従来型の検索システムのBingを強化するために用いる可能性について報じられており、冷静に技術レベルを見極めているとみられる。また、AIの専門家の意見でも今の大規模言語モデルが人間レベルの理解を得ることがないとされている。いずれのプレイヤーにおいても、今のAIの技術レベルで提供できる価値とユーザーが持つ期待をすり合わせるために、いかなる方法でAIをシステムに組み込んでいくかを懸命に考えている段階であるだろう。

GoogleやMicrosoftが慎重な姿勢を見せる理由として、やはりMisuse/Disuse/Malicious Useが生み出す倫理的・社会的リスクが挙げられている。生成型AIは高速かつ無限にコンテンツを創作し続けられるため、安易に民主化が進んでしまうと先に述べたDeepMindの論文で指摘されたリスクや未知の脅威に晒されることは避けられない。これらを乗り越えるためには、ユーザーの状況認識レベルに応じたインタラクションの設計や、人とAIの能力を考慮した適切な機能分配を行ったユーザーインタフェースが求められるだろう。

まとめ

今の大規模言語モデルが、一時的なhypeとなるか革新的な世界を生み出す技術となるかは、数年後に分かると思われる。実現に向けた高いハードルとなるのは、Misuse/Disuse/Malicious Useの課題やそれに伴う倫理的・社会的問題であり、自動化のヒューマンファクターで得られた数々の知見が役に立つだろう。大規模言語モデルがGoogle検索を中心としたこれまでのインターネットの脅威となるかどうかはわからないが、今回のトレンドで世界を変えることができなかったとしても、AIブームの流行り廃りを乗り越えて辛抱強く挑戦し続けた者だけがその果実を得られるだろう。

筆者の紹介

産業と社会におけるAIと人との共生を実現するスタートアップIntermind AIを経営しています。汎用的なロボット AI モデル、AI の価値観や行動様式を人に合わせる方法についての研究を行い、これらの研究から生み出される技術により、人との高度な協働が可能な AI を目指しています。

仕事のご依頼やご相談についてはLinkedInTwitterからご連絡ください。自己紹介や簡単な経歴についても掲載しております。

--

--