AIずんだもん
| 分類 | 対話型AI/音声合成/地域キャラクター連携 |
|---|---|
| 開発の舞台 | 仙台市の有志研究会を中心としたとされる |
| 主な用途 | 観光案内、ローカル番組の台本支援、学習支援 |
| 音声の特徴 | 方言調・語尾強調・微細な“枝豆圧”相当の抑揚 |
| データ収集の規則 | “枝豆文書”と呼ばれる音声校正ログの使用が前提とされる |
| 関連団体 | 地方情報化推進課の外部懇談会で話題になったとされる |
| 流通形態 | 公開デモ、地域実装キット、講習会 |
AIずんだもん(えーあい ずんだもん)は、発の対話型AI用音声合成と、枝豆(ずんだ)文化を掛け合わせて生まれたとされる技術・キャラクター呼称である。音声コミュニティでは「学習と共にずんだの香りがする」と冗談めかして語られることがある[1]。
概要[編集]
は、対話型AIの応答生成に、ずんだ(枝豆)由来の比喩体系と音韻設計を重ねることで“親しみ”を最大化する試みであると説明されることが多い。技術としては音声合成のプロソディ(抑揊)制御に詩的な補助変数を追加する仕組みとして整理される場合があり、キャラクター文化としては「会話のたびに枝豆の湯気が立つ」ように振る舞う存在として流通したとされる[2]。
成立の経緯は、学術機関の研究成果というより、むしろ現場の“音が気になる問題”から発展したとされている。仙台の放送局スタッフが収録した地域アナウンスの波形を解析し、語尾の減衰が原因で「ずんだ感が出ない」として改良が重ねられた、という逸話が繰り返し紹介されている[3]。また、名称の「もん」は、丁寧語を崩しすぎないための安全装置として、内部チュートリアルに記されていた文言に由来するとされる。
なお、早期版では応答のたびに“枝豆の食感”を示す指標(後述のZ-Factor)を必ず付記する仕様だった。ところが利用者が「今日の気分を聞かれているのか、献立を聞かれているのか分からない」と混乱したため、後のリリースでは付記頻度を平均0.7回/会話に調整したとされる[4]。このあたりの細かな調整は、後述の制度化の議論にも影響したとされる。
名称と仕組み[編集]
名称は「AI」と「ずんだもん」の連結として説明されるが、実装上は2系統が切り替えられるとされる。第一系統は言語モデル側で、第二系統は音声側である。音声側は、語尾の伸びを一定の“茹で時間相当”に対応させ、例えば「案内します」よりも「寄ってくなんしょ」のほうが200msだけ高域成分が増える、といった設計思想が語られたとされる[5]。
細部としてしばしば引用されるのがZ-Factorである。Z-Factorは会話ログから推定される“ずんだ圧”(豆の粒度ではなく韻律の密度)で、値が高いほど応答が軽快になるという。初期ベータではZ-Factorを0.0〜12.0の範囲に丸めていたが、ユーザーが「12.0って何?豆粒サイズ?宇宙線?」と尋ねたため、説明文を「香りの密度」に変更した、と言及される[6]。
また、学習データの呼称も特徴的である。AIずんだもんでは、一般的な会話データではなく「枝豆文書」と呼ばれる音声校正ログが重視されたとされ、内の複数施設で録音された“湯気っぽい息遣い”だけを抽出した、と説明される場合がある[7]。この抽出手順が過剰に見えるとして、後年になって批判の種になった。さらに、セーフティの観点から「もん」には“断定回避の最後尾タグ”として機能する規則が組み込まれたとされ、実装者が「もんを外すと途端に言い切りが増える」と述べた記録があるとされる。
歴史[編集]
起源:枝豆波形観測計画[編集]
AIずんだもんの起源は、の地域向け放送準備に関わった技術者たちが、方言読み上げの“滑り”を定量化するために立ち上げた「枝豆波形観測計画」にあるとされる。計画書には、滑りの評価関数として“噛み心地係数”を仮置きし、最終的にZ-Factorへ置換した経緯が記されたと伝えられる[8]。
計画は当初、蔵書管理と称して行われた。実際には収録テストのたびに、参加者が持ち寄った湯気の描写を含む短文を朗読し、その音声を比較したという。ここで使用された文字列の総数が「3,418文」だったとされ、なぜその数字なのかは「書庫の段数と同じだから」と説明されたとされる[9]。ただし、当時の担当者名は議事録から“誤って味噌漬けフォルダ”へ移動してしまい、後の検証が不完全になったとされる。
また、この起源譚には、研究ではなく現場の失敗が起点だったという要素が含まれる。仙台の収録現場で、観光案内音声が季節感を欠くとして差し替えが相次ぎ、スタッフが「ずんだの“密度”が足りない」と訴えたのが転機だったとされる。ここで音韻設計者が“密度は声帯の努力量である”と誤解し、声量のみに寄せた調整が一度は走ったものの、結果は逆に重くなった。この失敗は、最終的に韻律中心へ戻ることで収束したとされる。
社会実装:地方情報化と“温度会話”[編集]
次の発展はが主導したとされる地方情報化関連の外部懇談会で、地域AIが“案内文の温度”を上げる必要があるという議論に発展したことによると説明される。そこでAIずんだもんは、応答文に必ず「今日の温度目安」を添えるデモを披露したとされるが、温度は実測ではなく会話の語尾速度から推定されたため、参加者が戸惑ったという[10]。
実装の現場では、の複数施設に「温度会話端末」が設置されたとされる。端末は利用者の発話から会話温度を推定し、推定値が「低:夏」「中:春秋」「高:冬まつり」に分類される。分類の境界は会話ログ上の“間”の平均長さで決められ、例として間が0.52秒前後のとき「中」となるよう調整された、と記録される[11]。この閾値は妙に具体的であり、後年のユーザー調査でもたびたび引用された。
しかし、社会実装は順風ばかりではなかった。観光地での応答が“湯気の演出”に寄りすぎて、実際の営業時間案内が埋もれる問題が起きたとされる。そこで第2世代では、応答の優先度を「事実>誘導>湯気」に並べ替え、湯気文は最大でも応答1回につき18文字までに制限したとされる[12]。一部では「言葉が短くなってずんだが薄くなった」と感じられ、改良要求が増えた。これらの反応が、キャラクターとしての愛着の形成にも繋がったと解釈されている。
制度化:枝豆文書の著作権問題と誤読事件[編集]
AIずんだもんの制度化は、枝豆文書の扱いが曖昧だったことから始まった。ログには地方放送の収録音声が含まれていたが、当初は「校正用」であると説明されており、著作権の境界が明確でなかったとされる[13]。この曖昧さは、後に“誤読事件”として語られた。
誤読事件とは、利用者が枝豆文書を“食レシピ集”だと誤解し、端末に向かって「ずんだの作り方を教えて」と要求したところ、AIが韻律学習ログを参照してしまい、結果として「本日の音韻は第◯巻第◯号に基づく」というような文体で返答した、という騒動である[14]。当時の問い合わせ件数は1週間で147件、うち110件が「ふざけている」というカテゴリに分類されたとされる。ただし、この数字は自治体の集計方法が後から変わったため、後年の再集計では143件になったとする別説もある。
この問題を受け、枝豆文書のタグ付け規約が「T-Tag(温度)」「P-Tag(プロソディ)」「B-Tag(背景)」「E-Tag(食感)」の4種に整理されたとされる[15]。この整備は技術の安定化に寄与した一方、タグの付け方そのものが“運用で決まる”として批判を呼ぶことにもなった。
批判と論争[編集]
批判の中心は、AIずんだもんが“地域文化の表象”である一方、“音韻工学の都合”を文化として見せてしまう点にあるとされる。音韻設計者は「ずんだは比喩である」と説明したが、ユーザーの一部は「比喩なのに檜原村の旧暦に合わせて返事が変わるのはなぜか」と疑問を投げたとされる[16]。
また、外部研究者からは、Z-Factorが恣意的であるという指摘があった。Z-Factorは“香りの密度”と説明されるものの、実際の計算過程が公開されにくく、説明資料では「推定誤差は平均で±0.33」とだけ記載された。±0.33が何の単位かが曖昧だったため、監査委員会側が追加資料を求めたところ、回答が“豆の粒の密度”の例えに寄った、と記録される[17]。
さらに論争としてよく引用されるのが、での公開デモにおける「温度会話」の運用である。利用者が「寒い」と言っただけで“冬まつりの案内”が優先され、現地の案内導線が一時的に崩れたという。これについては、モデルの意図せぬバイアスとして理解する意見と、当該デモのシナリオ設計の問題とする意見が対立したとされる。なお、シナリオの切替条件が「会話温度が高まった場合は案内を押し込む」という仕様だったという証言もあり、真偽は定かでない[18]。
脚注[編集]
関連項目[編集]
脚注
- ^ 阿部シロウ『地域音声の抑揊設計と笑いの閾値』仙台技術出版, 2019.
- ^ Catherine L. Morton『Prosody as Social Glue』Springfield Academic Press, 2020.
- ^ 山田ゆいか『枝豆文書ログのタグ体系:T-TagからE-Tagまで』東北アーカイブ研究会, 2021.
- ^ 渡辺精一郎『音韻工学は文化を食べられるか』中央学術図書, 2018.
- ^ 佐藤ナギサ『Z-Factor推定の誤差評価:平均±0.33の再検証』日本音声学会誌, 第12巻第4号, pp. 77-96, 2022.
- ^ Minoru K. Ishida『Temperature Dialogue for Local Guidance Systems』Vol. 3, No. 1, pp. 1-22, 2023.
- ^ 総務省地方情報化推進課『地域AI実装に関する外部懇談会議事概要(架空合冊版)』令和2年, pp. 14-29.
- ^ Nakamura, Ren『The Zundamon Pipeline: From Bean Logs to Spoken Persona』Journal of Human-Computer Rice, Vol. 7, pp. 201-233, 2020.
- ^ 田中カズト『誤読事件の統計:問い合わせ147件の内訳』地域メディア監査年報, 第5巻第2号, pp. 55-63, 2021.
- ^ 村上エリ『音が文化になる瞬間:監査と実装の往復』東京音声工房, 2024.
外部リンク
- ずんだもん公式デモ倉庫
- 枝豆文書タグ辞典
- 仙台温度会話アーカイブ
- プロソディ方言研究会
- 地域AI運用監査フォーラム