森田葵斗
| 別名 | Aoto “VQ-Adjuster” Morita |
|---|---|
| 分野 | 音声科学 / 放送技術 / 音響心理学 |
| 主な業績 | 声質最適化フレームの提案、公共放送用最適化プロトコルの主導 |
| 活動時期 | 2000年代後半〜2020年代前半 |
| 所属(通説) | 国立音響研究所 先端音声班(兼任) |
| 出身(説) | とされる |
| 関係組織 | NHK技術研究、民間スタジオ連盟(いずれも協力とされる) |
森田 葵斗(もりた あおと)は、の「声質最適化」研究と、その実装をめぐって注目された人物である。主にとの境界領域で活動したとされるが、その経歴には複数の異説がある[1]。
概要[編集]
森田葵斗は、声を「感情の媒体」ではなく「伝達の素材」として扱う立場から、放送・配信の現場で使える最適化手法を体系化した人物であるとされる[1]。
とりわけ、同一原稿でも話者の声が変わる原因を、呼気量・口腔共鳴・録音機材の三者の合成関数としてモデル化し、現場での調整手順に落とし込んだ点が特徴とされている[2]。
ただし、彼の代表的な発想がいつ、どこで生まれたのかについては、本人の講演記録や周辺関係者の回想に食い違いがあり、結果として「同名の別人説」や「共同発明者の名義順問題」といった論点まで派生したと指摘されている[3]。
生い立ちと「声質最適化」の誕生[編集]
幼少期の「3秒遅延」伝説[編集]
森田は幼少期に、の叔父の小さなラジオ工房で、同じニュース原稿を読むたびに「最後の一文だけ聞き取りやすさが跳ねる」現象を観察したとされる[4]。
このとき彼が記録したとされるのが、音声波形のピークが毎回“3秒遅延”しているように見えるという、のちに彼自身が「遅延ではなく錯覚の再現性」と呼んだメモである[5]。関係者の証言によれば、そのメモには鉛筆で「第17回、夜更けの湿度計が嘘をついた」とまで書かれていたという。
なお、この逸話は講演で何度も語られたが、当時その工房に湿度計があったかは資料で裏づけられていないため、作話を含む可能性があるとされる(ただし真偽のほどは不明である)[6]。
東京工学系の“逆転した起源”[編集]
一方で、森田が「声質最適化」を理論として組み立て始めた直接の起点は、彼が大学在学中にの旧通信系施設で手伝っていた“録音室の同調校正”作業だったとする説が有力である[7]。
この作業は本来、送信前の周波数特性を揃えるための単純な校正であったが、森田は校正手順の中に“人の耳だけが不自然と感じる箇所”があることに気づいたとされる[8]。
彼はそこで、周波数の揃え方を物理量から逆算するのではなく、聴取者の誤認パターンを先に定義し、そのパターンを回避するフィルタ係数を割り出すという、現場技術としては珍しい発想を取ったと伝えられている[9]。
社会実装:放送現場を動かした“具体的な数字”[編集]
森田の手法が社会の注目を集めたのは、公共放送の制作フローに“声質の安全係数”を導入する計画が持ち上がったことによるとされる[10]。
報告書の体裁では、彼の提案は「標準原稿読上げにおける聴取誤認率を、平均で0.7%から0.41%へ引き下げる」ための実装仕様と説明された[11]。さらに、現場調整の目安として「母音の立ち上がり速度を、サンプル周期の1/64以内に収める」といった、エンジニア向けの具体値まで付されていたとされる[12]。
もっとも、現場では“0.41%”の根拠となる試聴データの母数が、ある回の検証では「延べ2,313人」、別の回では「延べ2,311人」と微妙に異なっていたとされる[13]。この食い違いが、彼の手法が科学的というより「制作現場の儀式に寄り添った職人芸」ではないかという疑念を呼んだとも言われている[14]。
関与した組織と“見えない共同研究”[編集]
NHK技術研究との“協力契約”[編集]
森田は、の公開資料においては「外部有識者」として短期間の参画が示されるに留まるが、内部の運用メモでは彼が“係数会議”を取り仕切ったと記録されているという[15]。
この係数会議では、声質最適化を「耳の閾値」ではなく「放送事故の予防」として扱う方針が採られたとされる[16]。当時の言い回しでは、“閾値を守るのではなく、事故の再現可能性を潰す”という表現が用いられたとも伝えられている[17]。
民間スタジオ連盟の裏プロトコル[編集]
また、民間のにおいては、森田の提案が“逆コンプライアンス”として取り込まれたとする説がある[18]。
すなわち、規格遵守のためではなく、現場で起きがちな「聞き返しクレーム」を統計的に減らすための運用として、最適化プロトコルがこっそり併走したというものである[19]。
このプロトコルは、録音ブースの吸音材を変えることなく効果が出るように、音声処理側に負荷を寄せたとされるが、運用ルールの一部は外部公開されず、当時の参加スタジオでは「葵斗ルール」と呼ばれていたとされる[20]。
批判と論争[編集]
森田葵斗の手法は、精度が高いと評される一方で、説明可能性の不足が批判対象になったとされる[21]。
特に論点になったのが、声質最適化の“学習基盤”とされるデータの中身である。ある記事では、学習データは「主に地方局のニュース読み」であるとされ[22]、別の回では「朗読会の長時間記録」が中心だったとされるなど、出所が揺れていると指摘されている[23]。
さらに、彼の発表の一部には、波形処理の数学を説明する代わりに「現場の沈黙が長いほど勝手に補正される」といった比喩が混ざっていたとも言われている[24]。そのため、研究コミュニティからは“技術の再現性”に関する疑義が呈されたとされるが、制作側は“再現性ではなく成功率”を重視したため、溝が固定化したと述べられている[25]。
脚注[編集]
関連項目[編集]
脚注
- ^ 伊藤明里「声質最適化の現場実装:0.7%→0.41%の設計思想」『日本音響学会誌』第78巻第3号, 2016年, pp. 211-224.
- ^ Margaret A. Thornton「Perceptual Safety Margins in Broadcast Audio」『Journal of Audio Engineering』Vol. 64, No. 2, 2018, pp. 98-113.
- ^ 森田葵斗「遅延ではなく錯覚の再現性」『音声研究ノート』第12号, 2011年, pp. 4-19.
- ^ 高橋蒼「録音室同調校正と主観評価のねじれ」『音響技術資料集』第5巻第1号, 2014年, pp. 55-67.
- ^ 坂井玲子「“葵斗ルール”の運用史:非公開プロトコルの系譜」『放送制作技術年報』第9巻第2号, 2020年, pp. 140-163.
- ^ 国立音響研究所「公共放送向け最適化プロトコルの共同検討報告」『計測と制御』第31巻第7号, 2019年, pp. 801-828.
- ^ 中村由佳「外部有識者の位置づけに関する編集史:NHK技術研究の係数会議」『情報・放送学レビュー』第22巻第4号, 2022年, pp. 33-49.
- ^ 佐伯和真「学習基盤の出所問題:声質最適化データの再点検」『信号処理論叢』Vol. 19, No. 1, 2021年, pp. 10-29.
- ^ Katherine L. Watanabe「Reproducibility in Practical Audio Pipelines」『Proceedings of the International Speech Systems Conference』第3巻第1号, 2017年, pp. 201-214.
- ^ 青木梨沙「湿度計の信頼性と音声波形の見え方」『計測器学通信』第2巻第6号, 2009年, pp. 77-92.
外部リンク
- 声質最適化アーカイブ
- NHK技術研究(資料館)
- スタジオ運用連盟の技術メモ
- 音響心理学ワーキンググループ
- 日本音声科学講義ノート