なかさ
| 分野 | 音響工学・情報理論・人間工学 |
|---|---|
| 定義(概要) | 信号の「中身の厚み」を数値化するための指標とされる |
| 導入時期 | 1950年代後半に試験規格化されたとされる |
| 主な利用対象 | 会話・放送音声・対話型機械の応答 |
| 関連指標 | 明瞭度、残響密度、情報濃度 |
| 測定単位(便宜) | nks(中身単位) |
| 制度上の扱い | 法的規格ではなく、学会運用の指標として整理された |
(Nakasа)は、音や情報の「中身の量」を見積もるために考案されたとされる計測概念である。主にとの境界領域で用いられた経緯が知られている[1]。
概要[編集]
は、音声や符号化信号に対して「表面の強さ」ではなく「内部の密度」を推定するための計測概念として記述されることが多い。具体的には、スペクトル上の立ち上がり、無音区間の挙動、量子化誤差の偏りなどから算出されるとされる[1]。
この指標は、戦後期に始まったの大衆化と並行して「よく聞こえる」だけでは足りない問題—たとえば同じ音量でも“中身が薄い”と感じる現象—を説明する目的で整えられたとされる。もっとも、当時は心理学的な主観と工学的な測定がうまく接続できず、は“換算器”として語られた[2]。
歴史[編集]
起源:昭和の「中身不足」対策会議[編集]
の原型は、の霞が関に所在する架空の会議体「音声品質臨時評価会」で生まれたとされる。1958年の冬、当時の放送局で“同じ原稿でも職員の読後感が揃わない”という苦情が年間換算で約3,240件に上り、原因究明のために技術者と朗読者が同じ部屋に閉じ込められた、という逸話が残っている[3]。
この会議で提案されたのが「音量でもなく明瞭度でもない“内部の厚み”を数値にする」考え方である。提案者の一人とされるは、机上の式を増やす代わりに、録音装置のキャリブレーション手順を“物語化”して共有したとされる。具体的には、無音区間を10ms刻みで観測し、各区間の“沈み方”を足し上げることで、nks(中身単位)という仮称のスコアが導入された[4]。
ただし、記録の一部は「現場の言い回し」が混入していると指摘されており、後年の編集者はこの時期の文書を“翻訳の痕跡が多い資料”として扱ったとされる(結果として定義が揺れやすくなった)[5]。
発展:工学規格と人間工学の抱き合わせ[編集]
1962年、大学連合の委託で堺市の試験室にて大規模な実験が実施された。参加者は延べ1,148名、録音サンプルは合計8,960トラック、各トラックは平均で試験条件が17通りに変えられたと報告されている[6]。
この実験では、が“感覚的な充実度”と相関するという結果が出た一方で、相関係数が条件により0.41〜0.68の間を上下した。研究チームはこれを「中身は一意ではなく、状況で折れ曲がる」ことの証拠だと解釈し、後に演習用のガイドラインが作られた[7]。
また、派生として「なかさ増幅アルゴリズム」(主に放送後処理)や「対話システムなかさ制御」(応答の間合い制御)が検討された。ここでは、無音の扱いが特に重要視され、無音区間が“短すぎると中身が出ないが、長すぎると別の意味になる”という経験則が共有された[8]。
さらに、1980年代には内部で一時的に“なかさ監査”のような運用が検討されたとされるが、最終的には「主観との結びつきが強すぎる」として採用が見送られた。なお、この件は一次資料の所在が曖昧であると指摘されており、要出典の疑いが持たれている[9]。
概念と測定[編集]
は、一般に次のような複合指標として説明されることが多い。すなわち、(1)スペクトルの内側成分の比率、(2)無音区間の“落差”、(3)量子化誤差の偏り、の三系統を重みづけして集約したものとして定義されるとされる[2]。
実務では、入力信号をまず32分割フレームに切り、各フレームについて「中心寄りのエネルギー重心」を求める。次に無音区間は、しきい値以下の区間を検出して、その区間の長さだけではなく“直前直後の変化速度”を数える。この変化速度が一定の範囲に収まるほど、なかさが高いとみなされる[1]。
計算手順は、当時の資料では“数式が先に来るのではなく、現場の呼吸が先に来る”と表現された。技術者がマイクに近づいた瞬間の環境音—たとえば目黒区の実験室で観測された微小な空調音—が結果に影響しうるため、測定前の環境を固定する文化が形成された[10]。
ただし、理論的にはこの指標が心理要因を過剰に内包してしまう危険も指摘されている。実際、同じ音声でも聞き手の疲労度が増すと、なかさが“薄くなる”方向に補正がかかるように見えるという観察があり、後年の研究者は「なかさは信号というより相互作用である」と述べた[11]。
社会的影響[編集]
放送・録音・通信の現場では、が“検査項目の言い換え”として機能したとされる。つまり、技術担当が「聴感が違う」と言うと揉めるが、「なかさが閾値を下回っている」と言えば話が進む。こうして学会標準の議論が現場の運用に降りていったとされる[6]。
また、教育面でも影響があったとされる。朗読教室では、読みの上手さを評価する代わりに「なかさを落とさない間の取り方」が指導され、“沈黙の練習”がカリキュラム化した。ある報告では、受講者のうち約62%が「沈黙が怖い」という自己申告を減らしたとされる[7]。
一方で、なかさが“正しさ”の象徴として扱われると、逆に多様な表現が萎縮するという問題も発生した。特に企業向けの研修では、なかさを数値で追うあまり、言葉の勢いと余韻のバランスが画一化されたと指摘されている[8]。
さらに、対話型機械の時代には「なかさが高い応答=良い応答」と短絡され、応答が饒舌になるケースが報告された。結果として、ユーザの体感が“情報が増えた”のではなく“空気が増えた”方向に変わることがあったとされる[12]。
批判と論争[編集]
は定量化されているにもかかわらず、その算出条件に依存しやすい点が批判の中心となった。とりわけ無音区間の検出しきい値が変わると、なかさの値が系統的にシフトするため、装置差による再現性が問題視された[9]。
また、社会学的には「聞き手の期待」を測っているだけではないか、という疑義があった。ある論者は、なかさの指標が“優しい声”や“落ち着いた速度”と同方向に動くことから、信号処理の問題というより文化の問題であると主張した[11]。
論争は1990年代にピークを迎え、学会内では二派が形成された。第一派は、なかさを設計指標として維持するべきだとした。一方で第二派は、「なかさという名前が人間の感性を固定化してしまう」として名称そのものの見直しを求めた。ただし、当時の議事録には“名称変更案の候補が一行しか残っていない”とされ、こちらも出典の整合性が薄いとされる[13]。
なお、皮肉な逸話として、反対派の研究者が独自に“なかさをゼロにするフィルタ”を公開したところ、結果として彼の講義だけ理解度が上がったという報告がある。このため論争は、技術的には未解決のまま、当人の人気で終息したと語られることがある[14]。
脚注[編集]
関連項目[編集]
脚注
- ^ 渡辺精一郎『無音の内部構造とnks指標』日本音響学会, 1964.
- ^ M. A. Thornton『Estimating Signal “Depth” from Silence Dynamics』Journal of Applied Acoustics, Vol.12 No.3, pp.41-59, 1968.
- ^ 『音声品質臨時評価会議事録(抜粋)』内閣技術顧問室, 1959.
- ^ 佐藤久実『朗読評価における中身量の推定手順』音声工学研究会報, 第4巻第2号, pp.11-27, 1966.
- ^ 田中理央『なかさ概念の定義ゆらぎと換算係数の分布』日本人間工学会論文集, 第19巻第1号, pp.88-103, 1971.
- ^ E. K. Hargrove『Quantization Bias and Subjective Fulness in Speech』IEEE Transactions on Audio, Vol.8 No.4, pp.201-219, 1977.
- ^ 岡村栄次『沈黙練習カリキュラムの効果測定(nks応用)』関西教育音響年報, 第7号, pp.5-18, 1982.
- ^ 【要出典の疑い】『対話システムなかさ制御の運用報告』通信品質管理局, 1989.
- ^ S. Nakamura『Cross-Cultural Expectations in “Depth” Metrics』International Journal of Speech Technology, Vol.3 No.2, pp.73-92, 1993.
- ^ 『NHK放送技術査定と内部密度指標の取り扱い』放送技術協会叢書, 1991.
- ^ R. P. Caldwell『Why Silence Thresholds Matter for Depth Indices』Journal of Signal Interpretation, Vol.21 No.1, pp.1-20, 1995.
外部リンク
- Nakasа Lab Archive
- 音声品質臨時評価会(資料棚)
- nks計算レシピ集
- 沈黙練習・公開演習ノート
- 対話システムなかさ制御Wiki