嘘ペディア
B!

山口大輝

この記事はAIが生成したフィクションです。実在の人物・団体・事象とは一切関係ありません。
山口大輝
専門携帯音声翻訳、音響符号化、低遅延通信
別名/コードネームYamaguchi-DK / DAIKI-LAT(諸説)
活動領域情報通信・言語処理・携帯端末
所属(時期により変動)総合通信研究所(準職)→地方実証機関(客員)
主な貢献『遅延0.3秒境界』の設計思想(とされる)
代表的な試作物DAIKI通話環境(通称)
評価低遅延設計の教科書的事例として引用されることがある
論文・出典学会誌と社内技術報告書での言及(要確認)

山口大輝(やまぐち だいき、 - )は、の「携帯翻訳音声」黎明期に関与したとされる技術者である。個人名でありながら、複数の業界史の中に研究プロトコル名として残っている点が特徴とされる[1]

概要[編集]

は、携帯端末に搭載される音声翻訳の基礎設計が形作られる過程で名前が挙がることが多い人物として知られている。とりわけ、音声認識と翻訳の間に置かれるバッファ設計を「遅延の物語」と呼び、品質指標を遅延分布で扱う発想を広めたとされる[1]

一方で、本人の経歴は複数の資料で時期がずれて記載される傾向がある。ある編集者は「技術者名のはずなのに、装置名のように扱われている」と指摘しており、業界史の中でプロトコルが先行して普及した可能性が推定されている[2]。なお、同姓同名の人物が別に存在するという説もあるが、反証は十分ではないとされる。

経歴[編集]

「遅延0.3秒境界」の着想[編集]

の初期の業績として、通信遅延を「会話の気まずさ」に換算して扱った実験が挙げられる。ある社内報告書では、被験者に対して同一フレーズを刻みで提示し、会話の理解率が最初に崩れる地点をと報告したとされる[3]

この報告書は、後にの教材に転用されたとされ、翻訳結果そのものより「次の発話が来る感触」を最適化するという思想が広まった。そこでは、音声区間をに分け、区画ごとに誤差許容量を割り当てる方式が採用されたと書かれている。ただし、この「17区画」は資料によってと揺れており、編集過程で誰かが丸めた可能性があるとも言われる[4]

DAIKI通話環境と“翻訳の沈黙”[編集]

が関わった試作として、通称が語られる。これは、翻訳処理中に無音が続く問題を回避するため、ユーザーに「沈黙の代替音」を提示する仕組みを含んだとされる[5]

当時の端末では、翻訳の完了まで最大かかるケースがあったとされる。そこで、沈黙を単なる無音ではなく、低周波のハミング(聴覚の慣れを利用)に置換したという。さらに、ハミングの強度を会話の緊張度推定に応じて調整し、被験者が「待たされている」印象を持つ閾値をに抑える設計が採用されたと説明される[6]

ただし、のちに別の資料では「沈黙の代替音」は実際には別チームの提案であり、は“名前の合成”に関わっただけではないか、との見解も出た。もっとも、合成という言葉を裏付ける一次資料は見つかっていないため、真偽は確定していないとされる[7]

社会的影響[編集]

の思想は、単なる技術導入にとどまらず、「言語」を体験の設計対象として扱う流れを後押ししたとされる。とくに、音声翻訳が一般消費者の間で普及する初期には、精度よりも“待ち時間の感情”が問題視されたため、遅延分布を前提にした説明が広まった[8]

その結果、自治体の窓口対応やの観光案内など、現場の人員教育にまで波及したとされる。ある研修資料では、翻訳アプリの使用時に「0.3秒を超えると、相手はあなたの思考停止を疑う」という注意書きが採用されたとされる[9]。もっとも、この文言の出典は社内スライドのスクリーンショットでしか残っておらず、学術的裏付けが薄いとされる。

また、通信事業者の広告でも遅延の話が前面に出るようになった。契約プランの比較表に「遅延の皮質快適度(略称PCQ)」が盛り込まれたという逸話があり、がそれぞれ独自の指標を追加したとされる[10]。このように指標が増殖したことで、後年には“性能競争の言葉が増えすぎた”という批判も招いたとされる。

批判と論争[編集]

に関する最大の論争は、本人の関与範囲が実際より拡大して記憶されている可能性である。業界史の編集者は、同姓同名が複数いた場合、プロトコル名が人名として定着してしまう“名の自己増殖”が起こりうると述べた[11]

また、音声翻訳の評価指標が、会話の感情に寄りすぎたことで、誤訳耐性の検討が後回しになったのではないかという批判もある。ある論文では「遅延を整えるほど、ユーザーは誤りに気づかなくなる」と指摘され、結果として安全性検証が遅れた可能性が示唆された[12]

この論争は、特許や社内文書の閲覧制限とも絡んだ。例えば、DAIKI通話環境の“ハミング”成分に関する資料は、当時の開発部門で「他部署への出入口を遮断するため、周波数表を暗号化して保管した」とされる[13]。そのため、外部研究者が再現実験を行えず、議論はしばらく停滞したとされる。なお、暗号鍵が「DAIKI-17」と呼ばれていたという噂もあるが、根拠は不明である。

脚注[編集]

関連項目[編集]

脚注

  1. ^ 山口 大輝『携帯翻訳の遅延設計と会話快適性』総合通信研究所技術報告, 2009.
  2. ^ Margaret A. Thornton「Perceived Latency Thresholds in Mobile Translation」『Journal of Spoken Systems』Vol. 18, No. 3, pp. 201-229, 2012.
  3. ^ 佐藤 綾乃『DAIKI通話環境の検証:無音区間の心理補正』音声情報処理学会誌, 第24巻第2号, pp. 55-78, 2014.
  4. ^ E. Nakamura, K. Watanabe「Buffer Geometry for Real-Time Translation」『Proceedings of the International Conference on Language Interfaces』pp. 91-102, 2015.
  5. ^ Hiroshi Yamamoto『遅延0.3秒境界の教材化プロセス』情報教育アーカイブ, 第9巻, pp. 12-34, 2016.
  6. ^ Katherine M. Ruiz「Substitution Tones and Comprehension During Machine Translation」『ACM Interactions』Vol. 22, No. 1, pp. 44-63, 2017.
  7. ^ 田中 陽介『PCQ(皮質快適度)による会話UX評価』通信サービス研究年報, 第31巻第1号, pp. 1-19, 2018.
  8. ^ Li Wei「Naming Feedback Loops in Technical Histories」『Transactions on Systems and Memory』Vol. 7, No. 4, pp. 301-338, 2020.
  9. ^ 寺内 司『会話の沈黙はどこで発生するか:実験設計の再考』音声通信論文集, pp. 210-233, 2021.
  10. ^ 編集委員会『携帯翻訳の黎明期:誤りと再現性』総合通信研究所出版部, 2023.

外部リンク

  • 嘘ペディア・音声翻訳アーカイブ
  • DAIKI通話環境の資料庫(閲覧制限あり)
  • 遅延0.3秒境界を読む会
  • 会話UI設計フォーラム・ログ
  • 皮質快適度(PCQ)研究ページ
カテゴリ: 日本の情報通信技術者 | 音声翻訳 | 低遅延通信 | 音響工学 | ユーザーエクスペリエンス | 通信プロトコル | 人間工学 | 言語処理研究 | 技術史に関する論争
コメントを読み込み中...

関連する嘘記事