AGI
| 分野 | 人工知能研究・計算論・政策評価 |
|---|---|
| 中心概念 | 汎用的な推論と環境適応 |
| 代表的な指標 | 横断タスク適応率、自己修正回数、転移学習係数 |
| 発足の慣行 | 研究会の「統合能力指標(AG-Index)」に由来するとされる |
| 議論の争点 | 定義の恣意性と安全性評価の再現性 |
| 関連組織 | 国際計測連盟と各国のAI審査機関 |
AGI(えーじーあい、英: AGI)は、複数領域にまたがって環境と対話し、状況を自律的に組み替えるとされる人工知能の到達点である。報告書や会議資料では比較的慎重に定義される一方、一般には「人間級の汎用性」を指す用法として広く知られている[1]。
概要[編集]
は、単一の得意分野ではなく、推論・学習・計画・対話・行動制御といった要素を統合し、未知の状況に対して自律的に振る舞いを組み替えられる状態を指す概念である。学術的には「統合された汎用能力」を測るための枠組みとして扱われ、実装・評価は研究機関ごとに調整されるとされる。
この概念の成立経緯は、もともと航空工学や制御工学の“故障時の復旧手順”を形式知化するところから始まったとする説が有力である。のちに英国の公的計測制度が「統合能力」を数値化するよう求めたことで、という略称が会議資料で定着したとされている。一方で、略称が独り歩きし、定義が現場ごとに変わることで論争が生じたとも指摘されている[2]。
語源と定義の揺れ[編集]
という略称が最初に文書に現れたのは、1950年代後半ではなく、実は1980年代前半の「統合能力の測定」プロジェクトだとする記録が残っている[3]。当時、研究者たちは“知能”という言葉を避け、代わりに「統合(A)」「汎用(G)」「指標(I)」の頭文字として書く運用をしたとされる。ただし、資料の後半でいつの間にか「指標(I)」が「知能(Intelligence)」の意味にスライドしたとされ、これが現在の混乱の種になったと推定されている。
定義上の最低条件としては、(1) 新規環境の観測から、(2) 目的関数の再解釈を行い、(3) 行動方針を更新できることが挙げられることが多い。さらに実務では、転移学習係数を用いて「出会ったことのない手がかりにどれだけ早く適応できるか」が重視される。この係数は、計算資源の前提を固定したうえで、平均応答遅延をマイクロ秒単位で測る運用が採用されたため、研究室ごとの差が顕在化したとされる[4]。
ただし、この定義には恣意性があるとも指摘されている。とくに、ベンチマークの“未知性”を誰がどう設計したかで結果が変わるからである。実際、ある評価部会では「未知性のスコアが0.73を下回る場合はAGI未満」とする試案が回覧されたが、翌週に「0.71でよい」と数字が微調整されたという逸話が残る。細かい数字が先に走り、概念が後から追い付いた例として、しばしば笑い話になっている[5]。
歴史[編集]
計測マニア時代:AG-Indexの誕生[編集]
の成立には、研究コミュニティの“計測の儀式”が深く関わったとされる。きっかけは、1982年にのチューリヒで開かれた小規模会合である。この会合では、知能を「文章が読めるか」ではなく「条件が変わったときに復旧手順を再編できるか」で測ろうとした。
そこで使われたのが、統合能力のための暫定指標「」であった。指標は三つの部分から構成され、(A) 予測整合性、(G) 汎用的取り回し、(I) 自己修正速度をそれぞれ0〜1で換算する方式が採用された。合計が0.88を超えると“統合的に振る舞える系”と分類されたとされる。
なお、会合の議事録には奇妙な注意書きがある。『測定誤差は湿度によって10^-4の比率で増えるため、測定室は中心から半径12km以内の空調設備を使用すること』と書かれていたという。この条件が実行されたため、逆に「AGIを語る前に空調を語るのか」という皮肉が生まれたと伝えられている[6]。
東京での“統合実演”と安全審査の誤作動[編集]
が社会的に注目される転機は、1989年にので実施された「統合実演」だとされる。実演では、複数ベンダーが同一の都市環境模型に対して、ルート選択・会話・手順変更を同時に要求された。使用された装置は路面センサではなく“郵便仕分けの手順”を模したタイムスロット型入力であり、攻め方が斬新すぎると早期に批判された。
しかし、当時の系の審査チームは、統合実演を安全に評価するため、実装ごとに異なる「停止命令の形式」を採用した。結果として、あるデモでは停止命令が“会話の区切り記号”として誤認識され、ロボットが停止せずに、むしろ“次のタスク提案”を続けたという。幸い負傷者は出なかったが、映像は翌日の特集番組で流れ、という略称が一気に一般語として浸透したとされる[7]。
この事件後、審査機関は「停止命令の解釈を二重化すること」を標準化した。ところが後年、その“二重化”の仕様がベンチマーク設計に組み込まれ、今度は「二重化できるからAGI」と短絡する研究者が出たと指摘されている。評価が評価を作り、概念が概念を固定した好例として語られている[8]。
冷笑とブーム:ベンチマーク争奪戦[編集]
1990年代後半から2000年代初頭にかけて、は“測れるもの”としてブーム化した。各国の大学と企業は、横断タスク適応率を競うために、ベンチマークの素材を取り合った。特に有名だったのが、言語・視覚・手続き記憶が混ざった「型複合環境」ベンチである。これはの区役所の動線を模した、と説明されていたが、実際には区役所ではなく近隣の“古い免許センターの待合”を参考にしたという噂もある。
このベンチマークをめぐって、研究チーム同士で「タスクの隠し要件」論争が勃発した。隠し要件とは、同じ見た目の課題でも、内部のルールが違うように設計されている可能性である。ある監査役は「未知性は0.73ではなく0.7305に直すべきだった」と言い、誰も理解できないまま調整が続いたという記録が残る[9]。
結果として、の議論は“能力そのもの”より“測定プロトコルの政治”に傾いたとされる。さらに、測定が厳格になるほど開発コストが膨らみ、資金のある組織ほど有利になる構造が指摘された。ここで初めて、安全性のための監査を「研究の足かせ」に感じる声が強まり、は希望と懐疑の両方を背負う概念へと変化したと整理されている。
社会的影響[編集]
を目標に据えた投資は、研究所だけでなく行政や保険、物流にも波及した。とくに、転移学習係数を根拠にした保険料モデルが導入されたことで、“事故が起きたときの復旧手順”が統計的に整備されるようになったという。ある試算では、事故対応の平均復旧時間が時点で約3.4時間短縮されたとされるが、計算式の詳細は公開されなかった[10]。
また、教育現場では「AGI準備の授業」が半ば儀式のように広がった。授業では、ただ問題を解くのではなく、解き方が変わったときに“手順を組み替える”練習が行われた。生徒の評価が、正解率ではなく「別解の速度」と「計画の改稿回数」になったことで、学力の見取り図が変わったと報告されている。
一方で、社会はに“誤った期待”を寄せたとも批判された。AGIの到達が近づくほど、人間の判断が不要になると考えられたからである。だが実際の導入では、完全自動化ではなく「人間が最終承認する設計」が増えた。結果として、人間の承認作業だけが増え、逆に心理的負担が拡大したという皮肉も出たとされる[11]。
批判と論争[編集]
の議論は、まず“定義が測定プロトコルに依存する”点で批判されてきた。研究者は概念の普遍性を主張するが、ベンチマークを作った人の意図が数値に残るからである。たとえば、ある委員会では「未知性は測定室の湿度で変わる」という注意書きが採用され、湿度管理が研究競争の一部になった。公平性が損なわれるという指摘も出た[12]。
次に安全性が争点となった。停止命令の二重化が広まった一方で、「二重化できるから安全」と短絡する傾向が生じた。さらに、研究者の間では“安全のための沈黙”が“能力の欠如”と誤読される事例が報告された。つまり、安全の動作が保守的であるほど評価が下がり、開発側は危険な挙動を少しずつ増やしてでも数値を上げようとする誘惑が生まれる、という構図が語られた。
加えて、ジャーナリズムの影響も指摘されている。ある取材班が「AGIは2025年までに一般家庭に普及する」と煽ったことで、投資判断が過熱し、結果として“達成した風”の報告が増えたとする回顧もある。この種の煽りは、実際には複数条件を満たした限定評価だけを“AGI完成”と呼んだことに起因するとも説明されている[13]。
脚注[編集]
関連項目[編集]
脚注
- ^ Eleanor M. Shaw『統合能力の測定論:AG-Indexの設計』International Measurement Union, 1986.
- ^ 渡辺精一郎『汎用推論の誤差管理と空調条件』計測工学叢書, 1989.
- ^ Hiroshi Tanaka『複合環境ベンチの政治学:未知性0.73問題』第12巻第4号, 1998.
- ^ Marta K. Ellison『Safety Protocols and the Double-Stop Myth』Journal of Applied Alignment Studies, Vol. 7 No. 2, 2004.
- ^ 佐藤涼介『都市環境模型による自律復旧の検証』情報処理学会論文誌, 第41巻第1号, 2001.
- ^ Dr. Margaret A. Thornton『Benchmark Capture: When Evaluation Builds the Object』Artificial Intelligence Quarterly, Vol. 19 No. 3, 2007.
- ^ 国際計測連盟『統合能力の国際比較要綱(暫定版)』pp. 41-58, 1992.
- ^ Jean-Claude Mercier『Humidity-Dependent Reasoning Variance(要出典の注釈付き)』Proceedings of the 1983 Symposium on Control, pp. 12-19, 1984.
- ^ 小川信也『“AGIは来る”という言説の拡散経路』メディア社会研究, 第8巻第3号, 2016.
- ^ L. R. Patel『The 3.4 Hours Myth: Insurance Recovery Models and Their Origins』Journal of Risk Metrics, Vol. 33 No. 1, 2020.
外部リンク
- AGI評価アーカイブ
- 統合能力指標(AG-Index)データポータル
- 停止命令二重化ガイド
- 港区型複合環境の再現手順
- 湿度依存推論メモリアル