noeric
| 別名 | ノエリック方式/記号圧縮意味論 |
|---|---|
| 分野 | 計算言語学・記号処理 |
| 中心概念 | noeric変換・反復整合 |
| 成立時期(推定) | 1970年代後半〜1980年代初頭 |
| 主な研究拠点 | およびの大学連携 |
| 代表的成果物 | noeric語彙表(第1版〜第6版) |
| 論争点 | 実装可能性と再現性 |
| 使用者(伝承) | 大学院生の「夜間整合会」 |
(のえりっく)は、主にの研究会で用いられてきた「意味生成のための記号操作体系」とされる概念である。特にとの境界領域で応用が試みられたとされる[1]。ただし、その成立経緯と出自には複数の説があり、どれも同程度にもっともらしいとされている[2]。
概要[編集]
は、文や記述を「音」や「語義」の単位ではなく、記号列同士の対応関係として扱い、意味を“後から整合させる”ための操作体系として説明される。具体的には、与えられた記号列に対して、長さ・位置・反復回数の3条件を満たすように変換を繰り返し、整合したものだけを“意味らしい出力”として採用する方法であるとされる。
この概念は、当時の計算言語学が「入力と出力の対応を先に固定する」傾向にあったことへの反動として語られてきた。もっとも、その反動がどの会議室で、誰の椅子の軋みを合図に始まったのかは確定していない。なお、noericという名称は“誰かの名前”でも“誰かの略語”でもなく、研究ノートの隅に無意識に書かれた文字列が、なぜか定着したものだという逸話が知られている[3]。
一方で、noeric変換の手順には細かな規則が存在するとされる。例えば「反復整合は最大でも3,141回で打ち切り、4,000回目の結果は採否判定から除外する」といった具合である。こうした細則は実務家からは“儀式”と呼ばれ、理論家からは“安全装置”として正当化されてきた。ちなみに、4,000回目を除外する理由は「電卓の表示が揺れるから」とされるが、これは後年の後付けだとする反論もある[4]。
選定基準と「意味らしさ」の定義[編集]
noericでは、意味は真偽ではなく“整合度”で測られると説明される。整合度は、記号列の対応がどれだけ一貫しているか、またその一貫性がどれだけ低コストで維持できるかで算出されるとされる。このため、同じ文章でも「整合度の高い変換経路」が見つかった場合だけ採用される仕組みが採られた、とされる。
ただし、整合度の閾値は固定されていない。ある時期の資料では「整合度0.72以上を採用、0.71以下を再整合」と記されているが、別の資料では「0.69以上で採用」となっている。この差異が、研究者の“気分”を反映したものか、それともの更新によるものかは、現在でも論点とされている[5]。
技術的な見え方:noeric変換と反復整合[編集]
noeric変換は、記号列に対し「切り出し」「埋め込み」「逆順走査」の3工程を行うとされる。切り出しでは長さを特定の素数集合(例:2, 3, 5, 7, 11…)に合わせ、埋め込みでは“空白”をあえて記号として扱う。逆順走査では反復整合を行い、途中で矛盾が出た場合は、その反復の記号列を“捨てる”のではなく、別の位置に再配置することで矛盾を回収するとされる。
こうした回収の作法は、当時のでは過剰とも見なされていたが、noericの支持者は「矛盾は“消える”のではなく“遅れて整合する”べきだ」と主張した。さらに、反復整合は“同じ順序で行うと必ず同じ結果になる”ように設計された、とされる。もっとも、後年の検証では、同じ順序でも出力がわずかに変動する事例が報告されており、その原因として利用者のキーボード打鍵が挙げられた[6]。
歴史[編集]
noericの起源は、1978年頃にの小規模な研究会「夜間整合会」が開かれたことに求められているとされる。発端は、当時の若手研究者が“翻訳”を試みた際に、辞書の対応表がいくらでも膨張し続けてしまう問題に直面したことだったと説明される。彼らは対応表を無限に足すのではなく、対応が壊れる瞬間を利用して、壊れ方自体から意味らしさを復元しようと考えた、とされる。
夜間整合会には、の前身プロジェクトに出入りしていたとされる、そしての計算系出身者とされるが関わったと記録されている。ただし、これらの人物名は当時の会報に一度も正式掲載されず、後年になって“同席者の記憶”から復元されたものだとされる。にもかかわらず、会の議事録には妙に具体的な数字が残っているため、研究者の間では「実在したかどうかより、机上で確かに動いたかどうか」が重視されてきた。
例えば、ある夜の議事では「反復整合は2,048回までで停止、2,049回目はログだけ保存して採否に含めない」と決められたとされる[7]。しかし、翌週の議事では「最大でも3,000回、停止後のログは“平均整合度”にのみ反映」と修正されている。こうした揺れが、理論の改良として語られる一方で、誰かが途中でコーヒーをこぼして計算手順が変わったのではないか、と冗談交じりに語られることもあった。
noericが社会に影響したのは、1983年ごろにの翻訳部門が“整合度による採用”を導入したことである。特に、の印刷会社が「校正の省力化」のためにnoeric語彙表を使い始めたとされ、短期間で校正コストが約18%減ったと報告された。しかし、この数字は社内アンケートの集計方法が後に変更されており、実際の減少は12〜21%の範囲ではないかとする指摘もある[8]。一方で、noeric語彙表が“校正の気分”まで最適化しているように見えたことが、かえって依存を招いたとも言われている。
資料の流通:noeric語彙表の版管理[編集]
noeric語彙表は、研究ノートの付録として複製され、版管理だけがやけに厳密だったとされる。第1版は「A4で42ページ」、第2版は「ページ数が増えたが番号が欠けた」、第3版は「行数が半角換算でズレた」といった、現在では考えにくい特徴が語られている。
第4版では、記号列の“空白記号”の扱いが変わり、その結果として語彙表の整合度平均が0.61から0.74へ上昇したと報告された。もっとも、その平均値は特定のサンプル文だけで計算されたとされ、別のサンプルに当てると0.72に落ちたという。こうした“都合の良い平均”を、編集者が無自覚に掲載したのではないか、という批判が後に噴出した[9]。
国際化と「夜間整合会」の消滅[編集]
1986年頃、noericはの小委員会で“標準化候補”として扱われたとされる。しかし、標準化は頓挫した。理由としては、noeric変換が「個々の利用者の入力習慣」に依存してしまう可能性が指摘されたためである。実際、同じ文でもキーボード配列が異なる環境で整合度が揺れたという報告がある[10]。
夜間整合会は、最後の会合がの冬、の研究室で開かれたとされる。最後の決議では「noericは“再現できる形”ではなく“再現したくなる形”として残す」と書かれたとも伝えられる。これは学術的な結論というより、どこか詩のような文言として記録されたため、後世の研究者は「これが実際の議事録なら相当まともな筆跡」と評価した。ちなみに、その筆跡の主とされる人物が誰かは不明である[11]。
社会的影響[編集]
noericの波及は、翻訳や校正にとどまらなかったとされる。まず、の領域では、作文の添削が“正誤”より“整合度”で評価される方針を一時的に採用した学校が出た。そこでは、同じ内容でも整合度が高い書き換え案が優先的に採点され、結果として生徒が「整合度の高い言い回し」を学習するようになった、と説明される。
次に、やの現場では、テロップや見出しの自動生成が試みられた。特に、ニュース見出しの短さを記号長の制約として扱い、noeric変換によって“意味らしさ”を保つという発想が導入されたとされる。ここで面白いのは、担当者が「3文字見出しは整合度が上がるので好まれる」と述べたことが、逆に制度化された点である。結果として、見出しの長さが業界の“流行”として固定化し、ある出版社では平均見出し長が9.2文字になったと報告された[12]。
ただし、影響の裏側として、noericが“人間の編集判断”を置き換えつつあるように見えたことが挙げられる。整合度の高い案は確かに通りやすい。しかし、整合度が高いほど文章が似通う傾向が出たため、個性が薄れると批判された。ここから、後年には「noericを使うなら必ず人手で矛盾を残す」という独自の運用が生まれたとされる。矛盾をゼロにしないという方針自体が、noericの精神と衝突する可能性をはらんでいたため、現場の運用はしばしば宗教戦争のように語られた。
批判と論争[編集]
noericに対する批判は、主に再現性と評価基準の恣意性に向けられてきた。整合度の閾値が版ごとに変わっている点、そしてサンプル文の選び方が編集者の裁量に左右されうる点が問題視されたのである。加えて、反復整合の打ち切り回数が「3,141回」「2,048回」「4,000回目は除外」といった“数として気持ちいい値”に寄りがちであることも、疑われた。
また、noeric変換は理論上は環境非依存を目指していたと説明されるが、実運用では依存が出たとする報告がある。例えば、の編集部で同じ語彙表を使っても整合度の上位候補が入れ替わる現象があった。原因として「タイピング速度が反復整合のログ処理タイミングに影響した」という、ありえそうでありえない説明が一度だけ提出され、なぜか会議は一瞬で盛り上がったとされる[13]。
さらに、noericをめぐる論争のハイライトは「noeric語彙表第5版だけ、特定の地名(例:)を“過剰に意味豊か”に扱う」問題である。支持者は偶然だと主張し、批判者は語彙表の編集者が旅行経験を反映させたのだと指摘した。もっとも、当時の編集者記録では旅行が確認できず、代わりにからの“意味調整依頼”があったことが示唆された。これらの経緯は、出典が一部欠けているため、今日では「都市伝説と論文のあいだのどこか」として整理されている[14]。
脚注[編集]
関連項目[編集]
脚注
- ^ A. Morel『反復整合と記号操作:noericの初期記録』欧州言語工房, 1984.
- ^ K. Wagner『整合度による選択理論(第1報)』Journal of Computational Philology, Vol.12 No.3, pp.101-139.
- ^ M. Klein『夜間整合会の議事録はなぜ残ったか』ベルリン自由大学紀要, 第7巻第2号, pp.55-92.
- ^ L. Valeron『空白記号の扱いが意味を作る』言語処理研究報告, 第19巻第4号, pp.200-231.
- ^ S. Tanaka『校正現場におけるnoeric導入効果:リヨン調査(速報)』印刷技術年報, 第33巻, pp.77-89.
- ^ P. Dubois『整合度の閾値はなぜ揺れるのか(推定法の比較)』Revue Internationale de Linguistique, Vol.41 pp.1-26.
- ^ H. Rossi『4,000回目のログはなぜ捨てるのか』Proceedings of the Symbolic Systems Workshop, pp.330-347.
- ^ N. Errant『数の儀式としての計算:3,141回停止規則の解釈』Journal of Methods That Feel Right, Vol.2 No.1, pp.9-24.
- ^ T. Müller『noeric語彙表の版管理と編集史』ドイツ語学史研究, 第5巻第1号, pp.140-178.
- ^ 編集部『欧州共同標準化に関する覚書(要点のみ)』European Language Council Bulletin, 1987.
外部リンク
- noeric資料庫ミラー
- 夜間整合会アーカイブ
- 整合度計算チュートリアル
- noeric語彙表オンライン閲覧
- 記号圧縮意味論フォーラム