縺?○??∈縺?∈縺倥e?ゑス??縺医>縺
| 分野 | 文書科学・符号化手法 |
|---|---|
| 別名 | 縺医暗号/ねじれ指数法 |
| 対象 | 文字化けを含む連続文字列 |
| 提唱時期 | 1970年代(復元現場) |
| 想定利用者 | 公文書管理・古書館・監査室 |
| 関連概念 | 異体字正規化/再ハイフネーション |
| 主要指標 | ねじれ指数(MI) |
| 運用地域 | 主に、一部 |
『縺?○??∈縺?∈縺倥e?ゑス??縺医>縺』(英: Motsure-Index Hyphenation Cipher)は、文字化けを材料にした暗号化・文書再生手順としての文書技術界で知られている概念である[1]。1970年代の古文書復元事業から派生したとされ、現在では「文字列のねじれ」を指標化する実務用語としても用いられている[2]。
概要[編集]
『縺?○??∈縺?∈縺倥e?ゑス??縺医>縺』は、文字コードの読み取り失敗(いわゆる文字化け)から情報を拾い上げるための「復元手順」を指す語である[3]。一見するとランダムな記号列であるが、実務では「ねじれ」や「欠け」を定量化し、再配置の規則に落とし込むことで意味が復元されるとされる。
成立の経緯としては、の前身プロジェクトで「判読不能」扱いのフィルム台帳が大量に積み上がったことが契機になったと説明される[4]。そこで技術職員のが、化けた文字列を捨てず、むしろ“ねじれ具合”を数値化すべきだと提案したのが始まりであるとされるが、同時に「縺医>縺」の部分が現場の合言葉だったともいわれている。
本手順が扱うのは、単なる文字修復ではなく、文書の真正性を確かめる監査の補助としての役割である。具体的には、復元後に得られる文字列の一致度が「」という指標で評価され、一定閾値を超えると“復元可”として扱われたとされる[5]。なお、閾値の設定は現場ごとに微妙に異なり、ここが後述する論争の中心となった。
歴史[編集]
誕生:フィルム台帳の“判読不能祭り”[編集]
1976年、東京都内の倉庫でが保管していたフィルム台帳の一部が、保管用ラベルの剥離により識別不能になったとされる[6]。監査室は「再撮影すべき」と結論づけたが、期限が押していたため、の技術班は「化けてもいいから現状を救え」という方針を採用した。
この時期に登場したのが、後に『縺?○??∈縺?∈縺倥e?ゑス??縺医>縺』と呼ばれる“手順の雛形”である。台帳の各行を一定長(当時の手書き台帳に合わせて1行あたり最大32文字相当)に切り出し、文字化けが起きた箇所を「欠け」として記録した。ついで「欠けの連なり長」を用いてねじれ指数MIを計算し、MIが17.5以上なら復元優先、16.9以下なら別ルート探索、という運用が行われたという[7]。
ただし、当時のMI算出は手作業であり、の試験班では同じ入力でもMIが平均で0.7上下したという記録が残る。ここから、手順が“数値の呪い”として語られるようになったといわれる[8]。
発展:ねじれ指数を監査に転用した官僚的現実[編集]
1982年ごろ、系の監査実務で「復元した文字列の根拠提示」が求められるようになり、MIが監査文書の添付資料として転用された[9]。監査報告書の様式には、復元過程を“読み手が検証できる形”にする必要があったため、縺?○??∈…のような断片化した記号列をそのまま載せ、MI計算の表を付す方法が普及した。
この頃にと同僚のが共同でまとめた社内手引き『再ハイフネーションの実務基準(第3版)』では、ねじれ指数MIを「復元一致度に対する補正項」として扱う案が示された。ところが、この案は現場によって適用条件が異なり、結果的に同一文書でも復元可否が食い違ったとされる。
なお、当時は“縺医>縺”という語が合言葉として先行しており、MI計算の式より先に運用が広まった。編集段階で符号化担当の書記が「何か医療っぽい語感が必要だった」と発言したとされ、ここが後の奇妙な語源論争に繋がった[10]。
社会的影響:図書館の“復元税”と争点化[編集]
1990年代に入り、古文書館や大学図書館で復元業務が増えると、本手順は費用の見積りにも影響したとされる。具体的には、復元作業を「MI上位(MI≧17.0)」と「MI下位(MI<17.0)」に分け、それぞれ人件費単価を変える運用が広まったという[11]。一部地域ではこの差額が“復元税”と呼ばれ、利用者団体から不透明だとの批判が出た。
また、データ移行で文字コード体系が変更されるたびにMIの値が揺れる問題が表面化した。たとえばの大学共同リポジトリでは、同じテキストでも変換器の違いでMIが最大2.3変化したと報告され、復元の再現性が問われた[12]。このことから、手順は「意味の復元」だけでなく「責任の所在を分散する装置」だとも評された。
一方で、復元手順の可視化は監査の透明性を高めたという評価もある。『縺?○??∈…』の記号列を“根拠そのもの”として提出する文化が広がり、判読不能データが完全廃棄されにくくなったとする声も出た。もっとも、どこまで救えるのかは制度設計に依存し、最終的には予算配分の論理に吸収されたとされる。
批判と論争[編集]
本手順には、科学的再現性の観点で複数の批判がある。特に、MIの算出方法が現場の“切り出し規則”(1行あたりの文字数相当、欠けの定義、記号の扱い)に強く依存する点が問題視された[13]。同じ符号列でも切り出し境界がずれるとMIが変化し、その結果として復元可否が揺れるため、手順が恣意性を含むという指摘があった。
また、語源に関しても論争が起きた。「縺医>縺」の“医”が本当に医療由来なのか、それとも当時のタイピング担当が医療番組のフレーズを口癖にしていたにすぎないのか、複数の説がある[14]。編集者の一人は、出典として提出されたメモが“筆圧の跡”まで一致したため信憑性が高いと主張したが、別の研究者は「筆圧一致は物理的にあり得るが、語源の証明にはならない」と反論した。
さらに、監査実務ではMIが「復元の優先順位」になりすぎたことで、MIが低い資料が事実上の後回しにされるという弊害が指摘された。結果として、現存情報の偏りが助長されたとの批判が出ている。なお、これらの批判に対し、運用側は「そもそもMIは指標であり、価値判断ではない」と応答しているとされるが、現場では“指標が価値を作る”との皮肉が広まった[15]。
脚注[編集]
関連項目[編集]
脚注
- ^ 田崎里守「再ハイフネーションの実務基準とねじれ指数の導入」『文書技術年報』第12巻第2号, pp.41-59, 1983年。
- ^ 松原朋成「文字化け断片の根拠提示に関する監査文書設計」『情報監査研究』Vol.7 No.1, pp.12-27, 1989年。
- ^ Kensuke Nakamura, “On MI-based prioritization for archival recovery,” 『Journal of Document Encoding』Vol.3, No.4, pp.201-219, 1991.
- ^ Elena Morozova, “Hyphenation artifacts and archival decision rules,” 『International Review of Text Systems』Vol.18, No.2, pp.77-98, 1996.
- ^ 山岡和臣「欠けの定義をめぐる現場差の実証(1976–1981)」『日本符号化学会誌』第9巻第3号, pp.88-103, 1998年。
- ^ 佐伯真理子「復元税と予算配分:MI下位資料の扱い」『図書館運用論集』第21巻第1号, pp.5-31, 2002年。
- ^ Catherine Li, “Reproducibility of cipher-corrective heuristics,” 『Proceedings of the Symposium on Legacy Data』pp.33-52, 2008.
- ^ 橋場正人「ねじれ指数の温度依存仮説」『文書科学研究通信』第2号, pp.1-9, 2011年。
- ^ 菊池澄「縺医>縺という合言葉の社会史」『記号民俗学研究』第5巻第1号, pp.120-134, 2014年。
- ^ R. Varga, “A note on restoration invariants and the MI threshold,” 『Archivum Digest』Vol.1, No.9, pp.1-6, 2017.
外部リンク
- 文書ねじれ研究会ポータル
- 国立公文書館・復元手順アーカイブ
- 監査実務フォーラム(MI閾値討議)
- 古写真保全センターの技術メモ
- 再ハイフネーション研究所