エダギスタン
| 分野 | 言語地理情報学(架空)・行政データ品質保証 |
|---|---|
| 提唱の中心 | 京都市周辺の研究会(1960年代末に端緒) |
| 関連用語 | 由来揺れモデル・地名誤同定・語源逆推定 |
| 主要な応用先 | 自治体の地名台帳照合、災害記録の統合 |
| 典型的な指標 | EPI(Etymology Probabilistic Index) |
| 慣行的な測定単位 | 1エダギ(edagi)= 由来確率の変動幅 0.1 |
| 登場文献の例 | 『由来の揺れと公共記録』など |
エダギスタン(英: Edagistan)は、言語学と地理情報科学の境界で観測される「由来の揺れ」を扱う概念である。京都市の小規模研究会から始まり、のちに行政データの品質保証にまで波及したとされる[1]。
概要[編集]
エダギスタンは、地名や固有名詞が、記録媒体・聞き取り手・翻字規則の違いによって“本来の由来”からずれていく現象を、確率として扱う枠組みであるとされる。とくに、行政資料の統合作業において「同じ地名のはずなのに、出どころの説明が噛み合わない」事態を、モデル化することを目的としている[1]。
この概念は、語源学の厳密さと、実務上の曖昧さのあいだを埋める方法論として位置づけられたとされる。推定では、由来の一致度は“文献が何冊あるか”ではなく、“説明の形がどれだけ揺れているか”で測るべきであると主張された[2]。一方で、揺れを指数化すること自体が「語源を数値の奴隷にしている」との批判も早い段階で生じたという指摘がある[3]。
歴史[編集]
端緒:京都の倉庫で見つかった「同名異由来」[編集]
京都市の旧文書庫(現京都府庁舎裏の収蔵区画とされる)で、同一の川名が3系統の由来説明を持つ資料群として整理され直したことが、最初期の観測事例だとされる。記録は1968年の棚卸しで、該当ケースが「全体の0.42%(第7列・第3段・計19件)」と報告されたとされるが、この数字は当時の帳票書式に依存していた可能性がある[4]。
この整理を主導したのは、京都大学の非常勤講師であった渡辺精一郎(架空名。実務家寄りの人物像として語られる)である。渡辺は、語源説明を「誰が」「何を見て」「どの語尾で」言い換えるか、という手続きの痕跡として保存しようとしたとされる。やがて、収集した“由来説明の揺れ”が、地図上の接続関係(支流・旧街道)と一定の相関を示す可能性が見出され、これがのちにへと拡張されたと記述される[5]。
制度化:行政照合の「品質保証」として採用[編集]
1970年代初頭、地方自治体の地名台帳が統合される流れの中で、総務省系の照合プロジェクトでは「人手の目視に依存する照合」を減らす必要があるとされ、エダギスタン的な指数化が採用されたとされる。とくに1983年頃、大阪市の区境改定に伴う台帳照合で、照合が再作業になった件数が「年間 3,214件(対前年比 +19.7%)」として報告されたことが、指数化の予算化を後押ししたと語られている[6]。
また、エダギスタンの普及には、官僚的な文書様式と相性が良かった面があるとされる。文書審査では「由来説明の形」が観点として求められることが多く、そこに確率モデルを当てはめることで、審査の口実が作れたという見立てもある[7]。ただし、確率モデルが独り歩きし、「EPIが高いほど正しい」と短絡する運用が一部で発生し、結果として“正しさ”が“揺れやすさ”に置き換わったという反省も記録されている[8]。
応用の拡大:災害記録統合と「語源逆推定」[編集]
1990年代後半、気象庁の災害アーカイブ整備で、地名の表記ゆれに起因する重複データが問題化した。ここで、エダギスタンは単なる一致判定ではなく、由来の説明が食い違うなら「どの経路でその説明が作られたか」を推定するへと発展したとされる。
語源逆推定の手続きは、(1) 台帳の表記ゆれをクラスタ化し、(2) 説明文の構文類型を抽出し、(3) “翻字の癖”に基づいて元の由来を逆算する、という流れと説明される。ある研究ノートでは、東日本の台風災害に関する記録で、重複削減率が「37.4%(対象ファイル 58,020件中 21,716件が統合)」と報告されたとされる[9]。ただし、この数値は“統合の定義”が複数あったため単純比較が難しい、という注記も同時に残されている[10]。
批判と論争[編集]
エダギスタンに対する批判として最も多いのは、指数化によって「由来の正しさ」が「由来の説明の揺れ」で置換される点である。批判者は、語源学が本来持つ反証可能性や史料批判の作法が、EPIの数値で“事実っぽく”見える形に圧縮されてしまう危険を指摘したとされる[11]。
また、運用側の論争としては「行政の品質保証」が、言語の多義性を“誤り”として扱う傾向を強めたのではないか、という問題がある。例えば、が行ったとされる地名再整理では、語源説明が揺れる地区を「要補正」と分類し、補正基準が事実上“文書の好み”に寄ることがあったという[12]。さらに、反対派は「1エダギ(edagi)が0.1の変動幅という換算は都合が良すぎる」として、単位設計の恣意性を笑いの種にしたと記されている[13]。
一方で擁護側は、エダギスタンは“正しさの独占”ではなく、統合のための透明な妥協であると主張したとされる。実務では、完璧な語源確定よりも、データが矛盾していること自体を早期に検出する方が重要であるからだという。しかし、透明性を標榜しつつ、EPIが高く出た結果が現場の判断を固定してしまう、という逆説が指摘されている。
脚注[編集]
脚注
- ^ 渡辺精一郎『由来の揺れと公共記録』日本官庁資料協会, 1986.
- ^ Margaret A. Thornton『Probabilistic Etymology in Cartographic Archives』Springfield Academic Press, 1991.
- ^ 佐藤梨央『地名誤同定の実務設計:EPI運用ガイド』行政情報研究所, 1989.
- ^ 鈴木健二『語源逆推定と構文類型:京都モデルの検証』地理情報学会誌, 第12巻第3号, pp. 44-63, 1997.
- ^ 田中章夫『行政照合の品質保証:目視から指数へ』総務系紀要, 第7巻第1号, pp. 1-28, 1984.
- ^ Li Wei『Etymology Probability and Disaster Record Linkage』International Journal of Archival Data, Vol. 9, No. 2, pp. 201-229, 2002.
- ^ 木村めぐみ『翻字の癖が作る由来:回路図としての語源』言語工学研究, 第5巻第4号, pp. 77-96, 2008.
- ^ 『由来確率単位論:1 edagi の再定義』情報計測学会, 第3回研究会資料集, pp. 12-19, 2011.
- ^ Hiroshi Nakanishi『Quality Assurance for Municipal Gazetteers』Tokyo Methods Review, Vol. 18, No. 1, pp. 10-35, 2005.
- ^ Gloria Martínez『Public Record Consistency and the Limits of Indexing』Journal of Bureaucratic Linguistics, Vol. 4, No. 9, pp. 501-533, 2013.
外部リンク
- 京都由来揺れ研究会アーカイブ
- EPI試算サイト(公開サンプル)
- 語源逆推定デモポータル
- 行政台帳照合ベンチマーク館
- 1 edagi換算表(非公式)