来栖・マイン・クリス
| 別名 | K-M-K符号化(仮称) |
|---|---|
| 分野 | 計算言語学・情報理論 |
| 対象 | 文体・癖・言い回し |
| 主要概念 | 癖ベクトル/来栖層/マイン圧縮/クリス写像 |
| 成立年(推定) | 1994年 |
| 発表媒体 | 国際会議プロシーディングス |
| 中心地(学術圏) | カリフォルニア州サンノゼ |
| 関係組織 | ナノ言語工学研究所(NIEL) |
来栖・マイン・クリス(くるす・まいん・くりす)は、北米の計算言語学コミュニティで「自然言語を“個人の癖”ごとに再符号化する技法」として扱われてきたとされる概念である。提唱者の名は複数形で語られることが多く、ととがそれぞれ異なる研究室出身であった点が特徴とされる[1]。
概要[編集]
来栖・マイン・クリスは、文章を「意味」ではなく「本人らしさ(癖)」を手掛かりに分解し、再び統計的に結線し直す、という一連の手順を指す用語とされる。特に、同じ語彙でも話者によって現れる“間”や“選好”を、連続値の潜在変数へ落とし込む考え方が核になっていると説明される[1]。
技法の理解においては、が提案した「来栖層(Kurs Layer)」、が開発した「マイン圧縮(Main Compression)」、が構成した「クリス写像(Krys Mapping)」の三要素が同時に語られることが多い。もっとも、語源や初出の文献では必ずしも三要素が同一順序で記述されておらず、編集者の手癖で並びが入れ替わっていることが指摘されている[2]。
歴史[編集]
“癖ベクトル”の発明が必要だった理由[編集]
1990年代初頭、近郊の企業が、当時の音声認識モデルに「同一人物の訂正履歴が反映されない」という苦情を大量に寄せたとされる。そこで(NIEL)は、訂正履歴そのものよりも、その人が訂正するときに出る微細な言い淀みを扱う方向へ研究方針を転換したとされる[3]。
この方針転換の“技術的な言い訳”として持ち出されたのが、紙の辞書ではなく「会話ログの温度」を測るという雑な発想であった。具体的には、ログを1秒ごとに切り分け、各区間での沈黙率・語の立ち上がり速度・句読点の遅延を合算して、合計でちょうど次元の特徴量に丸めることが提案された。丸めの理由は、研究室の冷蔵庫が壊れてデータの追加採取が止まり、最終的に“手元の成分だけで組める数”へ強制的に近づけたからだ、という逸話として語られる[4]。
この「7.83次元」が後に、“癖ベクトル”の原型だとされる。ただし当時の報告書では小数が丸められ、次の版では8次元に切り替わっている。そのため、後年の論争では「そもそも来栖・マイン・クリスは最初から整数だったのではないか」と揶揄されるようになった。編集過程の混乱が、技法の神秘性を増幅したとも言われる[5]。
三者の役割分担と、偶然の“順序入れ替え”[編集]
こと来栖精一郎は、当初から「文体を層として扱う」発想に親和性があったとされる。彼の論文ノートでは、通常のエンコード層の上に“話し手の癖だけを通す層”を置くという構図が描かれており、この層が後にと呼ばれた[6]。
一方、ことM. Meinは、通信工学出身であったため、癖ベクトルを送信する際の転送誤差を嫌っていたとされる。そこで彼は、分解した癖ベクトルを一段階圧縮し、復元時の揺らぎを“癖として許容する”という方針を採ったとされる。これがであり、当時のデモでは圧縮率がに固定されていたという。理由は、試作機のメモリ上限がちょうど62%ぶんしか確保できなかったためだ、と研究会で語られたとされる[7]。
ことC. Krysは、圧縮された癖ベクトルを「元の文へ戻す」ための写像として数学的枠組みを整備した人物とされる。彼のノートでは、写像を“固有の話し方への近道”と見なすため、写像の分岐数が通りになるように設計されたと記録されている。ただし後年、このは元の整数が消しゴムで削れて別の値に読まれ、学会発表では19と報告された。つまり、三者の役割分担は概ね合っているが、並びと数値の一部は後編集で揺れているというのが、百科事典的な要約になっている[8]。
このように、三者の要素は“同時に成立した”ように語られる一方で、実際の資料では順序が入れ替わっていることがあり、それが来栖・マイン・クリスという束ね語の成立に寄与したとされる。
技法の仕組み[編集]
来栖・マイン・クリスは、まず入力文をへ通し、単語の意味ではなく“癖の出方”を推定する。次にその癖ベクトルをへかけ、保持すべき情報量を意図的に削る。最後に削られた癖に対してを適用し、文体として自然に見える再構成文を生成する、と説明されることが多い[2]。
このときの特徴は、削られた情報が“欠損”として扱われない点にある。むしろ復元誤差を癖として受け入れ、復元の揺れを話者の個性に結びつける設計が採られるとされる。たとえば復元で生じる語尾の選好差が、平均誤差以下である場合には「その人らしさが保持された」と判断する、という運用指標が作られたと報告されている[9]。
また、学術用語としては、圧縮後の潜在変数のハミング重みがに集中するよう調整する手順が紹介されたとされる。実装上は“たまたまそうなった”可能性もあるが、後の解説では「数学的に必然」と書かれてしまい、初心者が読んで納得してしまうタイプの文章になったと言われる[10]。
社会的影響[編集]
来栖・マイン・クリスは、言語技術を「同じ言葉を違う意味にする」ためではなく、「同じ意味を違う話者らしさで語り直す」ために使う、という方向へ議論を押し広げたとされる。とりわけ企業においては、カスタマーサポートの応答文が“担当者が変わると人格が変わる”問題を抱え、その対策として採用されたという[11]。
一方、採用現場では皮肉な誤用も生じた。報道担当者が、来栖・マイン・クリスで生成した文章を「誰が書いたか」を伏せる目的に使ったところ、逆に話者の癖が強く残り、追跡が容易になったとされる。つまり“匿名化”のつもりが“個性の署名化”になってしまったわけである。この失敗は、の分野で教訓として語り継がれている[12]。
さらに、大学の授業でも、作文指導がテンプレ化するという副作用があったとされる。学生が「自分の癖」を探す代わりに、癖ベクトルの推定が高得点になるよう“それっぽい話し方”を学習してしまい、結果として作文の多様性が減った、という指摘が出たと報告されている。ここでも、議論の出発点が7.83次元のような“端数の伝説”にあったため、後から読むと笑えるほど伝承が増幅したとされる[4]。
批判と論争[編集]
批判の中心は、来栖・マイン・クリスが“言語の癖”を過剰に実体化してしまう点にある。つまり、癖ベクトルが個人の固有性を反映しているという主張が、データ依存の後付けに見えるという指摘である[13]。
また、出典の揺れが問題視されたこともある。たとえば、の年次報告書では、発表年がとされる一方で、別の講演資料ではとして引用されている。さらに同じ研究室の別メンバーが「そもそも初期の圧縮率は62%ではなく61%だった」と証言したことがあり、追試のたびに小数の桁が変わっていったとされる[7]。
さらに、極端に笑える論争として、「クリス写像は意図的に分岐数を奇数へ寄せた」という主張が挙げられる。これは数理的理由では説明されず、研究室の蛍光灯が奇数枚(たまたま枚)だったからだという“真面目に語られる”エピソードにより信憑性が揺れた。結果として、技法の妥当性ではなく研究室の生活環境が学会の議題に上るという、いかにも百科事典らしい騒動が起きたとされる[8]。
脚注[編集]
関連項目[編集]
脚注
- ^ 来栖精一郎「来栖層による文体推定の層構造」『Journal of Style Engineering』, 第12巻第2号, 1994年, pp. 113-141.
- ^ M. Mein「マイン圧縮:潜在変数の転送誤差を文体として再解釈する」『Proceedings of the Symposium on Linguistic Coding』, Vol. 7, No. 1, 1995年, pp. 201-238.
- ^ C. Krys「クリス写像と話者個性の可逆性—分岐構成の系統的検討」『International Journal of Natural Language Maps』, 第3巻第4号, 1996年, pp. 59-88.
- ^ 石堂彩香「癖ベクトルの次元選択:7.83という端数の意味」『計算言語学研究報告』, 第48号, 1997年, pp. 1-22.
- ^ R. Nayar and P. Sato「A Bayesian View of Signature-Like Writing」『Computational Pragmatics Letters』, Vol. 21, Issue 3, 1999年, pp. 77-102.
- ^ 中村凪「匿名化は署名化になる:K-M-K符号化の現場誤用」『情報通信倫理学会誌』, 第9巻第1号, 2002年, pp. 33-56.
- ^ E. Hargrove「Reconstruction Error Thresholds for Style Preservation」『ACM Transactions on Spoken Text』, Vol. 4, Issue 2, 2004年, pp. 140-166.
- ^ D. L. Moreno「Odd-Branch Mappings and Laboratory Lighting」『Journal of Improbable Systems』, Vol. 12, No. 9, 2007年, pp. 901-919.
- ^ 『NIEL年次報告書:サンノゼ部署の言語圧縮プロジェクト』ナノ言語工学研究所, 1994年.(当該年次報告書では発表年が記載違いとされる)
- ^ 佐倉明人「分岐数の歴史:17と19の間」『言語工学史叢書』, 第1巻第1号, 2011年, pp. 201-214.
外部リンク
- K-M-K符号化アーカイブ
- 来栖層チュートリアル倉庫
- NIEL資料閲覧ポータル
- Style Coding Forum(ログ)
- 計算言語学研究報告 データバンク