AI-23
| 分類 | 統合推論規格(プロトコル/評価体系) |
|---|---|
| 対象領域 | 行政要約・優先度付け・意思決定支援 |
| 策定組織 | 日本統合推論規格協議会(仮) |
| 初回公開 | (報告書ベース) |
| 主要実証地域 | 浜通り一帯 |
| 評価指標 | AUR-23(曖昧理解応答率) |
| 運用方式 | エッジ推論+監査ログ |
| 関連コード体系 | AI-23 / AI-23b / AI-23Δ |
AI-23(えいにじゅうさん)は、を拠点に試験運用された「曖昧判断のための統合推論器」として知られる人工知能規格である。特にの実証網で採用が進み、行政文書の要約や災害時の優先度付けに適用されたとされる[1]。
概要[編集]
は、複数の推論手法(ルール、確率、事例検索)を「曖昧な入力」に対して破綻なく束ねるための統合規格とされる。規格名の「23」は、起案時に参照された標準データセットのうち第23版に由来すると説明されてきたが、のちに別の由来も提示されたとされる[1]。
導入の目的は一見すると実務的である。すなわち、自治体が扱う文章は「丁寧だが不完全」「条件が抜けがち」「被害状況が時刻で揺れる」といった曖昧さを含むため、モデルの正確性だけでなく“理解の一貫性”を評価できる仕組みが必要だった、とされる。もっとも、評価方法が複雑であったことから、現場では「正しさ」よりも「監査のしやすさ」が先に重視されるようになったとの指摘もある[2]。
概要(選定基準と掲載範囲)[編集]
本項では、AI-23に関わる「規格本文」「実証報告」「監査フレーム」「派生コード」を中心に記述する。AI-23という語は、研究者の間では“特定の技術パッケージ”というより“評価の作法”として扱われる場合が多いとされるため、社会実装の文脈における記録も併せて扱う[3]。
一覧的な意味では、AI-23は単一のアルゴリズムではない。むしろ、入力の曖昧さを検出し、応答の根拠を監査ログに落とし、さらに「誤りの種類」を統計的に分類する、という一連の手続きがセットになっていると説明された。なお、AI-23bでは監査ログの圧縮率が前面に出た一方、AI-23Δでは推論温度の扱いが変更されたとされる[4]。
歴史[編集]
起源:23が“年”ではなく“理由”になった日[編集]
AI-23は末、の霞が関周辺で開催された「曖昧行政文書の監査整合ワークショップ」で構想されたとされる。参加者の一人である渡辺精一郎(架空、当時は監査補助技術に関する検討員)は、行政文書の誤解を“誤り率”ではなく“説明率”として測るべきだと主張したとされる[5]。
そこで決まった評価の骨子がAUR-23(曖昧理解応答率)である。AUR-23は、同一の質問でも入力が5%だけ違うと応答が揺れるかどうかを見積もる指標として定義された。興味深いことに、AUR-23の係数は「調整誤差の平均が0.023」のときに“監査官が読みやすい整合点”になる、と社内で強調されたという[6]。この“0.023”の根拠は文書上は明確でないが、なぜか後年まで引用された。
また別の説として、AI-23の「23」は「説明責任の質問が23回に達すると現場が諦める」という観測に由来するともされる。もっとも、この観測は内の庁舎2棟で行われ、対象者は延べ47名、質問の間隔は平均19分であったと記録されているため、検証としては脆弱であるとも指摘された[7]。
発展:福島の“浜通り実証網”が規格を完成させた[編集]
AI-23の最大級の実証は浜通り一帯で行われたとされる。実証では、災害対応の一次文書(被害報告、交通規制、避難所の更新)を、時刻が異なる状態でも一貫した要約に整えることが目標とされた[8]。
現場の運用は、エッジ端末で推論し、監査ログだけをクラウドへ送る方式とされた。ログには「判断の根拠」だけでなく、「判断が曖昧とされた理由コード(例:文末保留=7、時間推定=3、主語欠落=12)」が含まれる。なお、理由コードの割り当てはAI-23の“自動学習”ではなく、監査官が月2回手作業でレビューするとされ、レビュー遅延が平均で6時間37分に達した週があったと報告されている[9]。
この実証の成功により、AI-23は「行政文書に対する推論器」から「行政監査に組み込める推論器」へと性格を変えた、と解釈されることが多い。結果として、自治体側には“AIを信じるか”ではなく“AIの監査手順を信じるか”という別の論点が生まれたとされる。さらに、監査手順が細かいほど職員が安心するという皮肉も指摘された[10]。
社会への影響:誤りではなく“誤りの形”が問題になった[編集]
AI-23は、誤答をゼロにするよりも「どの種類の曖昧さが原因で、どう誤解を生むか」を統計化することに重点が置かれたとされる。そのため、モデルの精度が同じでも“分類の当たり外れ”が評価の中心になっていった。
この方針は行政だけでなく、やへ波及した。波及時、各自治体は自前で“理由コード表”を調整したが、その結果、ある市では「時間推定=3」が多発し、別の市では「主語欠落=12」が多発した。理由コードの差が“現場の文章の癖”を表すのか、“AI-23のクセ”なのかが議論となり、結局は両方だと結論づけられた[11]。
さらに、AUR-23の数値が高いほど文章が“監査向き”になるという逆説が生まれた。職員がAIの出力を参考にすると、文章が監査用に寄っていき、現場の自由度が下がる、という批判につながったとされる。もっとも、AI-23を導入した庁舎の会議で、議事録の平均文長が19%短くなったという報告は、皮肉にも歓迎されたとされる[12]。
批判と論争[編集]
AI-23への批判は大きく二つに分けられる。第一に、監査ログが詳細すぎるため、現場では“説明を読むコスト”が増えたとされる。特に、理由コードを追うことで要約そのものより作業が膨らみ、結果として更新が遅れるという指摘があった[13]。
第二に、AUR-23が“曖昧理解”を測るはずであるにもかかわらず、実際には“監査官が読みやすい形”を優先してしまう、と疑われた。ここで、AI-23bの改善として「ログの圧縮率を22.7%に設定することで読みやすさが最大化する」とする提案が出たが、圧縮率22.7%の根拠が社内メモに依存していたため、出典の不備として問題になったとされる[14]。
なお、最も笑える論争として、「AI-23は本来“曖昧さを減らす”ための規格なのに、導入後は文章があえて曖昧になるよう誘導するのではないか」という観察があった。具体例として、同じ担当者が作成した報告文で「と考えられる」「可能性がある」が導入前の2.1倍に増えたという。もっとも、この観察は担当者がAI出力の“監査用語”を真似しただけだと説明されたが、真偽の断定には至っていない[15]。
脚注[編集]
関連項目[編集]
脚注
- ^ 日本統合推論規格協議会『AI-23 規格本文(試案)』第一編集局, 2013年.
- ^ 渡辺精一郎「曖昧行政文書における説明責任の測定設計」『行政情報学会誌』Vol.12 No.4, pp.11-39, 2014年.
- ^ M. Thornton「Ambiguity-First Reasoning Protocols for Auditability」『Journal of Applied Governance AI』Vol.3 No.1, pp.77-112, 2016年.
- ^ 佐藤茂樹「AUR-23と“読みやすさ”の相関について」『情報処理学会論文誌』第55巻第2号, pp.201-224, 2017年.
- ^ K. Nakamura「Edge Inference with Audit Log Streaming: A Case Study in Hamadori」『International Symposium on Decision Support』pp.58-63, 2018年.
- ^ 林田玲子「理由コード表の設計原理—経験則の数値化」『監査工学研究』Vol.9 No.3, pp.5-29, 2019年.
- ^ 田中範明『行政要約のための統合推論実装』東洋官庁出版, 2020年.
- ^ 渡辺精一郎『AUR-23完全活用マニュアル(第2版)』霞が関図書, 2021年.
- ^ R. Singh「Compression Ratios and Human Legibility in Overspecified Logs」『Human Factors in Systems』Vol.8 No.2, pp.140-160, 2019年.
- ^ (タイトルが微妙におかしい)『AI-23 規格の地平(改訂版)』福島アーカイブ出版, 2012年.
外部リンク
- AI-23アーカイブ(実証報告集)
- AUR-23計算ツールの配布ページ
- 統合推論規格協議会 公式議事録
- 浜通り実証網 端末ログ研究会
- 理由コード体系 共有リポジトリ