AAC
| 分野 | 音声符号化・マルチメディア伝送 |
|---|---|
| 別称 | Adaptive Audio Compact(仮名) |
| 主要目的 | 帯域制約下での知覚音質の最適化 |
| 中心思想 | A=アナログ由来、B=アコースティック観測、C=合成的に“良い音”へ寄せる |
| 成立経緯(通説) | 放送技術者会議と大学研究室の折衷で生まれたとされる |
| 普及形態 | 携帯端末、ストリーミング、車載音響での標準選好 |
| 関連規格群 | フレーム分割、心理音響モデル、伝送最適化 |
AAC(えーえーしー)は、A.アナログ、B.アコースティック、C.ちょっと良い音のコーデックをそれぞれ連想させる規格として、音声符号化分野で用いられる呼称である[1]。音質と帯域の折り合いを取る設計思想が社会に広く波及し、携帯通信や配信端末の常識を形作ったとされる[2]。
概要[編集]
AACは、A.アナログ、B.アコースティック、C.ちょっと良い音のコーデックという“連想”にもとづいて説明されることが多い呼称である[1]。一方で技術者の間では、単なる連想ではなく、符号化の判断基準を段階的に切り替える思想として理解されているとされる[3]。
この規格は、初期の放送用実験で「雑音の目立ち方」が人間の聴覚で必ずしも線形でないことに着目した結果、フレーム単位での調整が強化されたことにより発展したと説明されることが多い[4]。なお、社会的には“良い音がデータ量を増やさず届く”という期待を梃子に、ストリーミングの設計思想にまで波及したとされる[5]。
当初は研究室の内部資料で「AAC(A→B→C)モデル」として扱われ、のちに放送局の現場要請が加わったことで、より実装寄りの仕様へと寄せられたという。編集会議では、規格名にあえて母音を多用し、通話越しでも呼び間違えにくい語感へ調整された、という逸話まで残されている[2]。
成り立ち(A→B→Cの物語)[編集]
A:アナログ現場の“耳の癖”を数式にしたい[編集]
AACの“最初の一歩”は、NHK技術研究所の若手音響班が持ち込んだアナログ録音テープの分析報告にあるとされる[6]。当時、同じスタジオ音源でもテープのロールオフ(減衰カーブ)によって「聴感上の破綻点」が変わる現象が知られており、その癖をそのまま“入力側の特徴”として符号化に反映できないか、という議論が起きたとされる[7]。
班長の渡辺精一郎は、録音機材を含む雑多な要因を消そうとするより、「人が気づく方向の歪みは残したほうが自然になる」と主張したとされる[6]。そこで、録音系の差分を“見えないノイズではなく見えるノイズ”として扱う簡略化が行われ、これが後の“アナログ→判断の段階化”へと繋がったと説明される[7]。
B:アコースティック実測と、沈黙の扱い[編集]
次の転機は、東京都文京区にある架空ではないが当時は広く知られていなかった計測室での、残響と無音区間の同時観測であるとされる[8]。研究チームは、無音区間における“聴き取れないはずの成分”が、復号後に予期せぬ「息の音」や「部屋鳴り」として立ち上がることを報告した[8]。
そこでBの段階として、アコースティック特性を推定するモデルが導入され、無音に見える箇所ほど慎重にパラメータを更新する方針が採用されたとされる[9]。会議ではあえて「沈黙は0ではない」というスローガンが掲げられ、沈黙区間の処理が仕様に明記された経緯があるという[10]。
この時期の議事録には、測定条件として「反射係数をΔ=0.07刻みで再現」などの細かい数値が残されている。現在の技術者からは「そこまで細かいなら目的が符号化ではなく実験運用だったのでは」と揶揄されることがある[11]。
C:ちょっと良い音へ“意図的に寄せる”発想[編集]
Cの段階は、符号化結果を“物理的に正しい音”へ寄せるのではなく、“人が良いと感じる音”へ寄せる方針として整理されたとされる[3]。この思想を強く推したのは、東京大学の非常勤講師松原シヅエであると伝えられる[12]。松原は「音質は真実の量ではなく、期待の整合で決まる」として、心理音響モデルの更新頻度をユーザの通信環境に応じて切り替える提案を行ったとされる[12]。
なお、この提案は最初、帯域が厳しい場面でかえって不快感を増やしたという反省から始まった。そこで、ある都市での実証試験が行われたが、その実験地として大阪府大阪市の“回線の良い区域だけ”を選んだため、逆に一般性が崩れたと後に批判されることになった[13]。このズレを埋めるため、Cでは「寄せ幅(intended tilt)」を7種類に分け、環境推定と組み合わせることで調整可能にしたと説明される[14]。
結果としてAACは、AとBで“入力の癖”と“環境の影”を見積もり、Cで“良い音の到達点”へ設計的に寄せる枠組みとして定着したとされる[1]。
歴史[編集]
最初の公開デモ:“3分の1秒の説得”[編集]
AACの名が業界の話題に登ったのは、大阪国際会議場で行われた公開デモにおいてであるとされる[15]。当時のデモでは、同一音源を複数形式で配信し、聞き比べの直前に“比較の間”を0.33秒に統一したと記録されている[15]。
この0.33秒という数値は、司会者が「人は直前の印象に引きずられる」と直感的に言ったことを受け、心理評価班がその場で計算した結果だとされる[16]。結果として来場者の評価は大きく傾き、AACの“Cによる寄せ”が「説得として機能する」可能性が示された、と総括されたという[17]。
ただしこのデモは、審査条件の偏りを疑う声も生み、のちに監修委員会が「比較間隔は0.10秒刻みで監査可能にせよ」とする異例の付録を提案したとも伝えられる[18]。
標準化の舞台裏:猫を数えた研究ノート[編集]
標準化作業では、研究ノートに“データ欠損時の復元”の方針が細かく書かれていたとされる[19]。そのノートには、なぜか「飼い猫が15回鳴いた日は、無音区間の推定が安定する」という記述があり、編集者は苦笑しつつも「観測条件の偶然」を統計的に扱う必要性を認めたという[20]。
この時、委員会の調整役として山口礼司が登場し、「理屈より再現性」を優先した運用が提案されたとされる[21]。その結果、AACの仕様は“技術文書としては分厚いが、実装者には優しい”構成へ変わっていったと説明される[4]。
また、標準化の会議資料には、符号化パラメータの上限が「帯域の最大値に対してちょうど92.5%」のように妙に中途半端な値で定められている。後年の内部監査では、端数が“会議のラーメン配分”に由来すると噂され、笑い話として広まった[22]。
社会的影響[編集]
AACは、音声が“軽くなっても劣化しない”という期待を現実に近づけた技術として受け止められたとされる[5]。特に移動体通信の現場では、同じ帯域でも聞こえの印象が変わるため、音質調整を単なる圧縮率ではなく“寄せ幅”として扱う発想が広まったという[14]。
この流れは、コンテンツ制作の意思決定にも影響した。制作現場では、収録段階で「無音区間をどれだけ“無音っぽくしないか”」が品質指標として語られ、サウンドエンジニアが“沈黙を設計する人”として再評価されたとされる[9]。なお、現場の用語では無音区間の扱いを“Bの沈黙儀式”と呼び、軽いジョークが混ざることがあったという[10]。
さらに、車載音響の領域では「道路の反射がBを汚す」という経験則から、AACの選択基準が変化したとされる。例えば名古屋市のタクシー会社では、実車テストで“左折時の息継ぎが聞きやすい設定”を見つけたとして、運用マニュアルにAACのプリセット名まで書き足したと報告されている[23]。ただしプリセット名は現場によって異なり、統一されなかったため、後に“結局どれが正解か”が議論になる素地となった[24]。
批判と論争[編集]
AACには、物理的に正確でない音への“寄せ”が、音質の個人差を増幅するのではないかという批判があるとされる[25]。特に、C段階の寄せ幅を環境推定に依存させた場合、同じ録音でも場所によって印象が変わり、ユーザが“聞こえの違い”を不具合として報告するケースが増えたという[26]。
一方で、寄せ幅の設計が悪いのではなく、評価手順が揃っていないだけだと反論する研究者もいた。実際、評価会で用いられた比較音源の中に、あるローカル局のスタジオ固有ノイズが含まれており、それが“良い音”の判断基準に混ざっていた可能性が指摘されている[27]。この指摘では「配信間隔を0.50秒に揃えるとスコアが逆転する」とされ、編集会議は一度だけ混乱したとも伝えられる[18]。
なお、標準化後の導入現場では、仕様の一部が実装依存になったとされ、互換性の解釈を巡って小規模な争いが生じたという。あるベンダの技術者は「AACは規格ではなく“意図”だ」と述べたと報じられ[28]、その発言は“意図という名の裁量”として批判の的になったとされる[25]。
脚注[編集]
脚注
- ^ 【日本】山口礼司『A→B→Cで聴こえを設計する』放送技術出版, 2011.
- ^ 【UK】Evelyn Carter『Perceptual Bias in Compact Audio Codecs』Journal of Audio Networking, Vol. 18, No. 2, 2014.
- ^ 渡辺精一郎『アナログ録音の“癖”を符号化へ』技術書院, 2007.
- ^ 松原シヅエ『沈黙は0ではない—無音区間推定の実装論』東京音響研究叢書, 第1巻第3号, 2013.
- ^ E. Carter and M. Thornton『Adaptive Intended Tilt for Mobile Listening』International Conference on Human Audio, pp. 221-234, 2015.
- ^ 【日本】NHK技術研究所 編『音声品質監査の実務(配信間隔の章を含む)』NHK出版, 2016.
- ^ 【US】Margaret A. Thornton『Acoustic Measurement and Frame-Level Decisions』IEEE Transactions on Multimedia, Vol. 23, Issue 7, pp. 880-894, 2019.
- ^ 【日本】【大阪国際会議場】資料集『公開デモ評価の記録(比較間隔0.33秒を中心に)』会議報告書, 2009.
- ^ 【日本】編集委員会『規格文書を“実装者に優しくする”手順』標準化叢書, 第2巻第1号, 2018.
- ^ 【中国】Li Wen『Parameter Upper Bounds and the 92.5% Rule』Proceedings of the Symposium on Encoding Myths, Vol. 9, No. 4, pp. 10-19, 2021.
外部リンク
- 嘘ペディア:音声圧縮の裏側
- AAC 研究ノート(閲覧室)
- Bの沈黙儀式アーカイブ
- 比較間隔0.10秒刻みの記録
- 車載プリセット命名集