音URI
| 分類 | 音響情報識別形式 |
|---|---|
| 登場時期 | 1990年代後半(とされる) |
| 主な利用領域 | 放送アーカイブ参照、音声検索 |
| 方式 | URI風の文字列 + 音響メタデータ |
| 策定主体 | 非公式連合(後に標準化委員会を名乗る) |
| 関連技術 | スペクトル指紋、セグメント化符号 |
| 想定プロトコル | HTTP/HTTPS上の参照と復元 |
| 特徴 | 短い識別子で音の“所在”を示すとされる |
音URI(おんゆーあーるあい、英: OnURI)は、音声信号を識別子として符号化し、ネットワーク上で参照可能にするための形式とされる[1]。1990年代後半に登場したと説明されることが多いが、成立経緯には異説がある[2]。
概要[編集]
は、音声を“データそのもの”ではなく“参照”として扱うための識別子体系であるとされる。形式はURL/URIに似せた文字列で表現され、末尾にスペクトル指紋や区間情報(タイムスライス)を内包する構造として説明される[1]。
一見するとデータ転送のためのタグのようにも見えるが、運用思想としては「同じ文字列なら同じ聞こえが引ける」を目標にしたとされる。特に、のアーカイブ更新作業において、“音の目録”を自動生成するための便法として導入が進んだという経緯が、後年の回顧談でたびたび語られている[3]。
ただし、音URIが「実際の音声を再現できるのか」については早い段階から議論があった。後述するように、初期の実装では指紋の算出窓が統一されず、結果として同一の音URIでも聞こえが微妙に異なる事象が報告された[4]。この揺れが、音URIという概念を“技術”から“儀式”へ押し上げたとする見解もある。
歴史[編集]
発祥:気象音声の誤参照事故[編集]
音URIの原型は、の観測網で発生した“誤った音の参照”に起因するとする説がある。1997年、の試験施設で観測された雷鳴データが、手入力の目録番号と転記ルールの不整合により別日のデータへ紐づけられたとされる。調査報告では「当日の雷鳴が、前週の夜勤担当者の頭の中で鳴り始めた」などという比喩まで引用され、現場の怒りが文章に残ったという[5]。
この事故を受け、の民間SIerであるが、音声を文字列で参照する方式を提案した。提案書では、音の所在を表す“URI部分”に、スペクトル指紋を16進数で埋め込むと記されている。指紋は「512msの窓でFFTを行い、上位32ビンを落とし込み、検出閾値は-43.2dBに固定」といった、いかにも細かい条件の列挙が特徴として知られている[6]。
なお、この提案が“URI風”になった理由は、技術者がたまたま当時流行していたの参照設計を手元の紙に模写していたことに由来するとされる。模写の癖で、スラッシュ区切りの位置が一箇所だけズレてしまい、そのズレが後の形式の識別性(衝突しにくさ)を高めたという、偶然説がある[7]。
標準化:『音URI宛名帳』をめぐる連合戦争[編集]
1999年から2001年にかけて、音URIを名乗る互換形式が複数並立した。そこで“似ているが違う”問題を解消するため、標準化委員会のようなものが作られたとされる。ただし委員会は公式な国の機関ではなく、出版社・放送局・大学の有志が「実験室にある紙の宛名帳」を共有することから始まった“連合”だったと記録されている[8]。
この宛名帳の最新版では、音URI文字列の規則が「/u/」「/t/」「/p/」の3区分に分かれると整理された。ここで/u/は音響指紋、/t/は切り出し時刻(秒ではなく1/100秒単位とされる)、/p/は復元方式の符号と説明された。特に復元方式は「位相は捨てて振幅だけを復元する」のような単純化が“標準”として採用され、音URIの思想が“完全再生”より“参照の一致”へ寄ったとされる[9]。
一方で、復元方式が単純化されたことで、同じ音URIでも話者の息遣いが変わるという苦情が相次いだ。2003年の公開審査会では、に似た雰囲気の採点表が配られ、参加者が真剣に「音の礼儀正しさ」を採点したという。こうして音URIは、技術仕様でありながら、運用文化として定着していったと考えられている[10]。
社会実装:放送アーカイブと“耳の監査”[編集]
音URIが社会的に注目された契機は、が大規模アーカイブを再編する際に、“音の監査”を自動化するために導入したとされる点にある。監査とは、番組素材が改変されていないことを確かめる作業であり、音URIは「改変された素材は別の指紋になる」という前提で運用された[11]。
しかし実際には、放送局の編集機材の違いで音URIが一致しないケースが起きた。そこで現場は、編集室ごとに“許容窓”を設け、音URIの値が一定の距離以内なら“同一素材”とみなす運用に切り替えたという。距離の閾値は「指紋の差分bit数が最大14」といった具体的数値で語られ、細部が妙に生々しい[12]。
この運用が広まると、自治体の広報番組や商店街のイベント告知にも波及した。音URIが“監査の名札”として機能し、結果として音声コンテンツの改変がより慎重に扱われるようになったとされる。ただし逆に、制作側は「改変していないのに弾かれる」不満を抱え、音URIを“耳の検閲”と揶揄する言説も生まれた[13]。
技術仕様(と呼ばれたもの)[編集]
音URIはURI文字列に似せた表記であるとされ、典型例では「音URI: /u/{fingerprint} /t/{slice} /p/{policy}」のような区分が示される。fingerprintは16進表記で長さが揺れるが、初期の提案では「32桁固定」とされることが多い[6]。sliceは1/100秒の刻みで、たとえば“00:03.40”のような表現が紐づけられる、と説明される。
政策(policy)は復元のやり方を示す記号であり、位相の扱い、サンプリングレート、帯域制限の有無などがまとめられているとされる。さらに、帯域制限は「低域を60Hzから、高域を8,000Hzまで」といった“放送現場の都合”がそのまま反映されることがあった[12]。このため音URIは、科学的普遍性より運用の慣性を宿すものとして語られる。
なお、仕様の細部は実装者間で揺れ、特にスペクトル指紋の算出窓の扱いが論点になった。窓長は512ms説が有力とされるが、別の回顧では「480msで試して失敗し、やり直したので512msにした」とされる。失敗の理由として“指紋の踊り”(同一音のはずが別の形に揺れる現象)が語られ、実装者の技術的ストレスが仕様の数字に染み込んだと推定されている[4]。
批判と論争[編集]
音URIには、主に「一致性」と「責任分界」の2つの批判があったとされる。まず一致性については、放送局間で編集工程が異なる場合、同一素材とみなす運用が必要になる点が指摘された。結果として、技術仕様が“曖昧に解釈される”余地を残し、運用差が音URIの信頼性を揺らすとする見解があった[13]。
次に責任分界である。監査用途に使われると、素材が“改変されたように見える”場合の責任が制作側へ寄りやすかった。そこでの一部局では、音URIの判定を“証拠の一部”と位置づけ直す通達案が検討されたとされるが、最終的には「現場の理解に依存する」形で落ち着いたという証言がある[14]。
また、音URIは個人の声にも近づき得るため、プライバシー論争に接続された。音URIを“声のID”のように扱う動きが出た一方で、「音URIは声ではなく音響環境を参照しているだけだ」と主張する勢力もあった。もっとも、その主張が通りにくい理由として「息の成分まで含めている政策コードがある」ことが挙げられ、議論は長引いたと報じられている[15]。
脚注[編集]
関連項目[編集]
脚注
- ^ 飯田慎之助『音声識別形式の実装史:URI風アーカイブ参照の系譜』音響出版, 2006.
- ^ Margaret A. Thornton『Indexing Speech for Broadcast Retrieval』Journal of Network Acoustics, Vol. 12, No. 4, 2004.
- ^ 高橋礼二『放送局アーカイブにおける参照同一性の評価』放送技術研究会, 第3巻第2号, 2003.
- ^ Sato, Keiko; Yamada, Ryo『Window Length Effects in Fingerprint-Based Retrieval』Proceedings of the International Audio Indexing Conference, pp. 88-97, 2002.
- ^ 【要出典】『雷鳴誤参照事故の再検証:東京都試験施設報告』気象庁観測企画課, 1998.
- ^ アコースティック・ネクサス株式会社『音URI宛名帳(社内第7版)』非公開資料, 2000.
- ^ 山下玲央『耳の監査:音響メタデータ運用の人間工学』日本音響学会誌, 第58巻第1号, pp. 41-56, 2005.
- ^ Kowalski, Tomasz『Policy Codes and Reconstruction Ambiguity in Sound Identifiers』International Journal of Audio Standards, Vol. 7, No. 3, pp. 10-23, 2001.
- ^ 田中光里『“一致するはずのはずが一致しない”問題の整理』情報処理学会論文誌, 第62巻第9号, pp. 2011-2022, 2007.
- ^ 松本由香『声のID化と倫理の継ぎ目:音URIを中心に』倫理情報学研究, 第2巻第4号, 2008.
外部リンク
- 音URIアーカイブ・ポータル
- スペクトル指紋ベンチマーク倉庫
- 放送監査ツールキット研究室
- 音声検索と参照同一性の議事録
- 気象音声データ復元スレッド