ちちちちちいt
| 分類 | 擬声記号列(音声符号化・言語研究の交差領域) |
|---|---|
| 主な観測媒体 | 放送音声のログ、会議録の自動起こしデータ |
| 初出とされる時期 | 1992年頃(初期報告) |
| 関連組織 | 、、複数の音声研究室 |
| 用途(推定) | 無意味音の代替ID、検証用トークンとしての運用 |
| 社会的反響 | 一部で“呪文”として拡散し、研究会以外にも波及 |
(ちちちちちいーてぃー)は、音声符号化の現場で観測されたとされる奇妙な“擬声記号列”である。1990年代以降、や大学の情報系講座において、言語学的・工学的両面から断続的に研究が続けられてきたとされる[1]。
概要[編集]
は、意味を持たないと同時に、なぜか“意味があるように見える”挙動を示したとされる音声データの記号列である。とくに、短区間の無音・ノイズに挟まれた場合に、同一の文字列として再現されやすいことが特徴とされる[2]。
研究の初期では、記号列は単なる誤変換だと見なされたが、ログを精査すると一定の条件下で再現率が上がることが報告された。具体的には、内で収録された会議音声のうち、マイクのゲインを“12段階”の中央に固定した場合に限り、同一列への収束率が88.3%に達したとされる[3]。
また、擬声としての側面も指摘されており、音声学の講義では「母音の揺れを吸収する緩衝語」といった説明が試みられた。こうした説明は一見もっともらしい一方で、実際の生成条件は公表されず、後年になって“語り部”のように運用が引き継がれたとされる[4]。
語源・成立[編集]
“誤り訂正のための語”という見立て[編集]
最初期の説では、は音声処理系の誤り訂正(FEC)をテストするために、わざと作られた“擬声ID”であるとされる。語源に関しては、当時の放送技術者が「チャンネル分岐のたびに、同一の再現性を持つ母音列が要る」と考えたことが契機になったと説明される[5]。
一方で、別の記録では語源は研究室の学園祭に遡るとされる。1991年のの公開デモで、参加者の発声がマイク閾値をまたぐたびに同じ文字列が生成され、それを模様として掲示したところ、翌週から技術メモに“ちちち…”と書き足されていったという。なお、このとき掲示された紙片の右上にだけ小さく「いt」と印字されていたことが、後の研究で“二次的な偶然”として再解釈された[6]。
“t”は単なる文字ではないという主張[編集]
記号列の末尾にある“t”については、機械学習の学習データの中で「破裂音の境界を示す極性ラベル」だった可能性があるとする見解がある。たとえば、音声波形のゼロクロス数を基準に、最後の20フレームでのみ特定のラベルに対応した結果、文字として“t”が残ったと推定される[7]。
ただし異論もあり、“t”は入力欄のフォントが環境依存で崩れた結果だとされる。研究会の議事録では、フォント変更を“1回”だけ行ったPCで再現したという報告もあるが、どのPCかは伏せられており、追試が難航した経緯が知られている[8]。
歴史[編集]
1990年代:放送ログからの発掘[編集]
1992年、の音声アーカイブ更新作業で、古い録音の文字起こし結果が再計算された際、特定のノイズ条件下でが“毎回同じ位置”に出現したとされる。技術者のメモには「出現率は平均で41.7%だが、特定日(計測室の湿度が56〜58%の範囲)では68.9%に跳ねる」と記されていた[9]。
この発見は、大学の音声研究室にも波及した。たとえばの関連プロジェクトでは、“無意味トークン”を用いた頑健性評価が流行し、検証用の短文テンプレートにを織り込む文化が生まれたとされる[10]。
2000年代:研究会の“合言葉”化[編集]
2000年代前半には、研究会の場で参加者が「測る前に言う」としてを発声する慣習が広まったとされる。これは、発声が喉のウォームアップになり、測定直後の音響特徴が安定するからだ、と説明された[11]。
ただし、社会に与えた影響は技術面だけではない。2004年にで開催された音声系シンポジウムでは、一般参加者の中から「これを言うと“認識が当たる”」という噂が生まれ、会場外の屋台で“ちちち…”が流行語として扱われたとされる[12]。この噂は後に否定されたが、当時の写真には屋台ののれんに「ちちちちちいt」の手書きが写っているとの指摘がある。
研究と応用[編集]
は、意味を持たないはずの記号であるにもかかわらず、音声認識・字幕生成・データ品質管理の“検証材料”として扱われたとされる。たとえば、データ前処理の品質指標として「一致度スコア」を用いる場合、は短いのに判別性が高く、回帰テストに適していると説明された[13]。
実際の運用では、音声のサンプリング周波数を“48kHz”に固定し、無音区間の長さを3段階(0.2秒、0.4秒、0.6秒)に分けたとき、0.4秒条件で出現が最も安定したと報告されている[14]。この条件設定は一部で“呪文の設計”のように語られ、研究者の間でテンプレ化された。
さらに、情報セキュリティ側では、音声入力の不正検知に関連して「人間の発話っぽくないのに安定する入力」を必要とする場面があるとされ、が“テスト用擬似人間音声”の部類に置かれたことがあったと推定される[15]。ただし、具体のアルゴリズムは非公開であり、後に“偶然の再現性”に依存していたとの指摘もある[16]。
批判と論争[編集]
批判は主に、が“測定の都合で生まれた記号”に過ぎないのではないか、という点に集中している。たとえば、ある編集委員会の内部メモでは「再現性が高いのはデータ側の偏りで、記号自体の本質ではない」として、命名の妥当性が問われたとされる[17]。
また、社会的に“当たる合言葉”のように扱われたことへの反発もあった。2006年頃、誤解を防ぐために公開資料からの表記を伏せる提案が出たが、当時の広報担当者が「伏せると逆に都市伝説が育つ」と判断したとされ、結果として一部の大学で関連記述が残ったとされる[18]。
さらに一部では、末尾の“t”がデータベースの仕様変更(文字コード)由来である可能性が指摘された。もっとも、当時の文字コードはUTF-8が主流とされるため、矛盾を感じる読者もいるだろう、とだけ記しておく研究者もいた。なお、その矛盾は“だからこそ儀式っぽい”として、逆に研究会の人気を高めたという見解も存在する[19]。
脚注[編集]
関連項目[編集]
脚注
- ^ 山岸秀一『放送音声アーカイブの品質再計算手法』日本放送出版, 1996.
- ^ Katherine R. Morrow『On Nonsense Tokens in Robust Speech Evaluation』Journal of Applied Phonetics, Vol.12 No.4, 2001, pp. 211-238.
- ^ 佐藤綾乃『無意味トークンに関する学習データ設計』情報処理学会論文誌, 第43巻第7号, 2002, pp. 1552-1569.
- ^ 田中伊織『湿度条件が自動転写へ与える影響:1992年事例の再検証』音響通信研究, 第9巻第2号, 2004, pp. 33-51.
- ^ Lina Bekker『The Zero-Cross Boundary Labeling Hypothesis』Proceedings of the International Conference on Audio Systems, Vol.7, 2007, pp. 98-110.
- ^ 小川真澄『研究会の合言葉が測定値を安定させる可能性』音声工学研究会報告, 第18号, 2008, pp. 5-17.
- ^ Eiji Nakamura『UTF-8-era Ambiguities in Legacy Transcription Logs』ACM Transactions on Signal Studies, Vol.25 No.1, 2010, pp. 1-16.
- ^ 内田俊介『“ちちちちちいt”という現象の統計的記述』国立情報学研究所紀要, 第3巻第11号, 2012, pp. 77-93.
- ^ M. J. Hartwell『Scripts, Spells, and Speech Meters』New Linguistic Press, 2014, pp. 40-61.
- ^ 鈴木礼二『擬声IDの設計指針:音響的境界と検証文化』東京学術出版, 2018.
外部リンク
- ちちちちちいt研究会アーカイブ
- 擬声記号データベース(試験公開)
- 放送音声品質検証ポータル
- 音声工学シンポジウム資料庫
- 都市伝説と工学フォーラム