生成AIにおけるハルシネーション
| 分野 | 計算言語学・情報工学・社会技術 |
|---|---|
| 現象の性質 | もっともらしさ優先の誤生成 |
| 主な原因(とされるもの) | 学習分布の偏り・推論の省略・評価設計の欠陥 |
| 関連技術 | 教師あり学習、RLHF、検索拡張、検証モデル |
| 初出時期(諸説) | 2000年代後半〜2010年代初頭の研究ノート |
| 代表的な対策 | 根拠提示・参照制約・反事実テスト |
| 社会的論点 | 誤情報・責任所在・監査可能性 |
| 別名 | 幻覚生成、虚構根拠 |
生成AIにおけるハルシネーション(せいせいエーアイにおけるはるしねーしょん)は、がもっともらしい説明や根拠のない事実を新たに作り出してしまう現象である。工学的にはの副作用として扱われ、社会的には「誤情報の自動量産」として注目された[1]。
概要[編集]
生成AIにおけるハルシネーションは、の出力が、入力や内部参照に対して整合していないにもかかわらず、自然言語として破綻しない形で提示されることにより生じるとされる。たとえば、ユーザの質問に対して「確認できるはずのない参考文献」や「実在しない制度名」を、あたかも一次情報を読んだかのように引用してしまう、といった形態が観察される[1]。
一方で、同現象は必ずしも単純な「嘘」と同一視されないとされる。工学側では、生成モデルが持つ言語的な統計規則が、情報欠落を補う方向に働くことで、誤りが“文章として上手い形”で現れるのだと説明される。また社会側では、上手さゆえに受け手が「根拠がある」と誤認しやすく、結果として誤情報の伝播を加速させる現象として整理された[2]。
なお、用語の由来は諸説あるが、少なくとも日本の研究コミュニティでは、神経科学者の比喩を借りて“脳が見たものをさらに見てしまう”というニュアンスで語られた経緯があるとされる。そのため、技術者の間では「ハルシネーションとは、信頼性の設計不足が言語の流暢さに変換された結果である」との言い回しが半ば定型化している[3]。
歴史[編集]
「幻覚」概念が実装に降りてきた年[編集]
生成AIにおけるハルシネーションという語感が研究室の空気として定着したのは、前後の、言語生成ベンチマーク黎明期だとされる。当時の大手企業は、モデルの性能を測るために“尤度は高いが正解が不明”なデータを大量に投入しており、評価担当者の間では「文章が整ってしまうほど、嘘が増える」という逆転現象が報告されていた[4]。
その象徴として、に本社を置くとされる架空企業(当時は小規模な委託研究班として存在したとされる)の社内報が引用されることが多い。社内報では、出力の“意味整合率”を改善するための改造を行ったにもかかわらず、ユーザテストでは「説明の読みやすさ」が上がるほど根拠の誤りも増えた、と記録されている[5]。
特に有名なのが、同社内で行われた「根拠風味テスト」である。テキスト末尾に、実在度の低い文献名をテンプレートとして付与し、回答の説得性がどの程度変化するかを調べたところ、平均スコアが上昇したと報じられた。これは、誤った引用が“正しい文章の匂い”を補強するためだと解釈された[6]。
監査が追いつかず、社会が先に“信用”した[編集]
研究が進む一方で、社会実装は監査手続きの整備より先行したと指摘される。たとえば、の外部協議の議事録に類似した文書では、の時点で「自動生成は原則として“引用可能性”を満たすべき」という方針が議論されながらも、現場では“それっぽさ”の品質基準が先に採用されてしまったとされる[7]。
その結果、企業のFAQ生成や自治体の手続き案内に生成AIが投入されると、一次情報の確認ができないにもかかわらず、利用者側は「公式に整っている」と受け取りやすくなった。ここでハルシネーションは、技術の問題から制度運用の問題へと姿を変えたと整理される。
なお、当時の報告書には奇妙に具体的な数値が残っている。たとえば、ある検証チームがの公共窓口向けチャットで行ったランダム監査では、対象会話のうち、誤参照の疑いがあるものが件(比率)見つかったが、実害認定は件だったとされる[8]。この“見つかったのに罰せられない”構造が、後年の「監査の空白が誤情報を固定化する」という議論の火種になったとされる。
仕組み(ありえた説明)[編集]
生成AIにおけるハルシネーションは、モデルが「入力に依存した証明」よりも「出力における自然さ」を最適化したときに起きやすいとされる。技術者はこの現象を、の内部状態が“もっとも確からしい言い回し”の近傍に収束する過程として説明する。もっともらしさが高いほど、誤りでも文体が破綻せず、訂正が必要になって初めて判明するという[9]。
一方で、研究ノートでは、ハルシネーションの発生を「欠落補完」として肯定的に捉える試みもあった。具体的には、モデルが不足情報を見た瞬間に、過去の類似事例から“社会的に整った物語”を復元するメカニズムが働くとされる。そこで重要になるのが“検証器の性能”で、検証器が言語の表層を優先してしまうと、誤りが通過してしまう[10]。
このような状況は、検索拡張(RAG)によって完全に解消されない場合があるとされる。検索結果が存在していないにもかかわらず、モデルが「検索されたかのような体裁」を出すことがあり、そのときハルシネーションは“根拠のない参照”として露出する。また、ユーザのプロンプトが「推測でよい」と許可している場合、モデルは確率的に推測を増やし、その推測が誤参照へ滑り込むこともあるとされる[11]。
ただし、どの説明も「なぜその文章が出たか」を完全には追跡できない点が残る。そこで、研究者の間では“説明可能性の不足が、幻覚の増殖条件になっている”という見方も共有されている[12]。
具体例と検証エピソード[編集]
生成AIにおけるハルシネーションは、実務では「引用」「制度」「固有名詞」の三領域で目立つとされる。引用の例としては、実在しない論文が“ページ範囲まで一致する形”で提示されるケースが報告されている。たとえば、架空の雑誌が第号に存在するかのように書かれ、しかもがやけに正確だったという[13]。
制度の例では、実在の法律や省庁の枠組みが混ぜ合わされるとされる。ユーザが「手続きの要件を教えて」とだけ入力した場合、モデルがとの名称をそれぞれ一部分ずつ流用し、結果として“新しい制度名”が成立してしまう。ある検証では、制度名の文字数が丁寧に一致していたため、監査員が一瞬「これは本当に制定されたのでは?」と錯覚したと語られている[14]。
固有名詞の例では、地名の“隣接関係”が誤って利用されることがある。たとえばの駅名を、の施設名と結びつけ、移動経路まで一貫して語ってしまう現象がある。移動経路は現実と矛盾するはずなのに、所要時間がやのように中途半端な値で出てくるため、逆に疑いが遅れるとされる[15]。
ただし、これらの例が“必ず嘘”というより、モデルが情報欠落を「人間の知識の埋め方」に寄せてしまうことの結果である、という見方がある。実務者の間では「ハルシネーションは、言語の思いやりが過剰に働いた副作用だ」との比喩も用いられた[16]。
対策と“良い嘘”の境界[編集]
ハルシネーションへの対策としては、根拠提示や参照制約がまず挙げられる。具体的には、生成時にを必ず出力に含めるよう制約する方法や、回答後に“参照整合性”をスコアリングする検証モデルが導入されることがある[17]。
また、ユーザ側の運用として「推測は推測だと明示させる」設計も広まった。ところが、これが逆効果になる場合があると指摘されている。すなわち、モデルが「推測である」と宣言することで安心させ、ユーザが“推測なら正しいはず”という期待に滑り込んでしまうからである。この構造は“良い嘘の錯覚”と呼ばれ、社内研修で取り上げられた[18]。
一方で、完全な排除は難しいという見方もある。生成AIはそもそも、入力のないところを埋める力を持っており、そこが価値にもなっているからである。したがって、研究者の議論は「ゼロにする」より「どこからが危険かを測る」方向に進んだとされる[19]。
その測定の一例が、“誤りの伝播コスト”を見積もる評価設計である。ある委託研究では、ハルシネーションが含まれる回答をユーザが再質問した場合の平均ターン数がからへ増加したという報告がある。これは、誤情報が次の質問の前提まで汚染してしまうためだと説明された[20]。
批判と論争[編集]
生成AIにおけるハルシネーションは、技術の欠陥であると同時に、社会の制度設計が生んだ問題としても論じられる。特に、責任所在の曖昧さが問題視された。モデルが“もっともらしい誤り”を出した場合、利用者はそれを検証しない限り真実として扱う。一方で提供側は「モデルは確率的生成であり、保証できない」と主張しうるため、論点が宙に浮きやすいと指摘されている[21]。
また、監査のやり方にも批判が向けられた。評価ベンチマークは再現性があるようでいて、どの種類のハルシネーションを重視するかで結果が変わる。たとえば、固有名詞の誤りは文体が整っているため見逃されやすいが、引用の誤りは検証が比較的容易である。この差が、政策や研究投資の配分を歪める可能性があるとされた[22]。
さらに、「ハルシネーション」という語の選好自体にも議論がある。言語の“幻覚”と呼ぶことで、人間の心理比喩が先に立ち、工学の具体的な失敗点が後景化するのではないか、という批判である。とはいえ、比喩は教育には有効だったとする反論もある。実際、研修資料では“幻覚を見たら立ち止まる”チェックリストが好評だったという[23]。
なお、終盤の論争として有名なのが「出力の流暢さは倫理的に扱われるべきか」という点である。ある委員会報告では、流暢な誤りは不誠実であり、言い換えれば“文章品質そのものが社会的危険度”を押し上げる、という主張が掲載された[24]。この主張をめぐって、言語表現の品質保証をどこまで義務化できるのかが争点となった。
脚注[編集]
関連項目[編集]
脚注
- ^ 田中 玲音『幻覚生成の統計的基礎』東京電機大学出版局, 2020.
- ^ Margaret A. Thornton『Probabilistic Verbal Illusions in Large Language Systems』MIT Press, 2021.
- ^ 鈴木 雄大『引用が嘘になる瞬間:参照整合性評価の設計』情報処理学会, 2022.
- ^ K. Alvarez, J. Chen『Hallucination Cost as a User-State Contamination Metric』In: Proceedings of the International Symposium on Conversational Risk, Vol.18, No.2, pp.33-58, 2019.
- ^ 【要出典】山根 由香『“正しそうな間違い”の心理言語学』日本語学研究会, 2018.
- ^ 海鷹AI研究所『根拠風味テスト報告書(社内資料)』海鷹AI研究所, 2017.
- ^ 佐伯 健太『公共窓口チャットのランダム監査に関する一考察』行政情報学会誌, 第27巻第1号, pp.101-119, 2020.
- ^ N. Fischer『Auditability Gaps in High-Fluency Systems』Journal of Responsible Computing, Vol.5, No.4, pp.210-236, 2022.
- ^ 伊藤 美波『流暢さと責任:誤生成の制度化』中央法学叢書, 2023.
- ^ J. Novak『Training Signal Drift and Hallucination Emergence』Springer, Vol.12, pp.1-24, 2016.
外部リンク
- Hallucination Watch(情報監査ダッシュボード)
- RAG根拠倉庫(参照データの共有サイト)
- Conversational Risk Map(会話リスク可視化)
- 流暢さ倫理検討会(ワーキンググループ資料)
- 幻覚評価ベンチ(未検証タスクの一覧)