重複
| 分類 | 情報科学・統計・法務運用・流通実務にまたがる概念 |
|---|---|
| 中心となる論点 | 重なりの“原因”と“影響”の切り分け |
| 関連語 | 冗長性, 再出現, 二重計上, コピー&ペースト |
| 用途 | 監査、校正、データ統合、品質保証 |
| 語の成立 | 近世の帳簿文化と戦後の行政文書改革が背景とされる |
| 社会的インパクト | コスト増、誤認、逆に検知技術の発展を促した |
| よくある誤解 | 単なる“同じものの繰り返し”に限らない点 |
(じゅうふく)は、ある情報・物・行為が、意図せずまたは意図的に同一性を保ったまま重ねて現れる現象である。学術的にはやと隣接する概念として扱われることが多い[1]。なお、この語が日常語として定着するまでの過程には、思いがけない官庁の関与があったとされる[2]。
概要[編集]
は、同一のものが“そのままの形”で複数回現れる場合だけを指すと考えられがちである。しかし実務の辞書では、厳密には「同一性が残る重なり」と「同一性が崩れる重なり」を分けて扱うことが多いとされる[3]。
この分け方が確立した経緯には、官庁の帳票統一が関わっていたとされる。具体的には所管の暫定委員会が、1947年当時の文書の“写し癖”に対処するため、重複を原因別にタグ付けする仕様書を定めたという伝承がある。ただし、当時の文書に実際のタグが存在したかは、後年の監査で「見つからなかった」ともされるため、資料の整合性には揺れがある[4]。
重複が社会にもたらす影響は、単なる誤りの増加にとどまらない。むしろ、重複検知の手法が技術・制度の両面で洗練され、結果としてやの基盤が整った、という見方もある[5]。一方で、過剰な重複排除が別の問題を生むことも指摘されている。
歴史[編集]
帳簿の呪いと“二重印”運用(17世紀〜)[編集]
重複が歴史的に重要視され始めたのは、17世紀の帳簿文化に由来すると説明されることがある。特に、の両替商の家業では、同一勘定の照合を早める目的で「同じ印影を二度押す」簡易照合術が流行したとされる[6]。
この術は当初、事故防止のために導入されたが、やがて「二度押しが重複かどうか」という議論を生んだ。つまり、印影が同一であっても、押すタイミングが違えば“重複”とみなすのか、という基準が揺れたのである。のちにの帳簿係連盟が、印影一致率を“最頻値”で判断するという奇妙に統計的な指針を作成し、1783年の記録では照合の誤差を0.13%に抑えたとされる[7]。
ただし、ここでいう「誤差0.13%」が、検知漏れなのか検知過剰なのかが不明であり、評価の再現性が欠けるとも指摘されている[8]。それでも、重複が社会制度の中で“測れる対象”になっていった転機だとする解釈がある。
行政文書の“写し文化”と重複タグ(1947年〜1965年)[編集]
戦後の行政文書では、写しを前提とする運用が多く、重複が頻発したとされる。そこで前身の一部局が、文書番号の付け方を「中身が同じなら同じ番号、ただし手続き経路が違うなら枝番号」と整理した。しかし、これが逆に「同じ番号の紙が増える」ことになり、現場ではが増えたという証言がある[9]。
この反省を受け、1952年に“重複タグ”という概念が行政内で試行されたとされる。重複タグは、紙面の余白に朱色の小さな印を打ち、「重複の種類(人為・機械・保管・転記)」を分類するものだったと説明される[10]。興味深い点として、仕様書では朱印の面積を「1.8平方ミリメートル(±0.2)」とまで規定したとされ、ここまで細かい指定が現場の反発を生んだと語られている[11]。
一方で、後年の資料調査では、朱印の規定が記された文書が3つの異なる保管庫で見つかり、その3つが互いに“微妙に違う”と報告された。つまり、重複タグ自体が重複を生み、さらに重複を議論する状況になった、という笑い話のような経緯が伝えられている[12]。
計算機時代の重複検知:SNA-77構想[編集]
計算機の普及により、重複は“見れば分かる”から“検知して処理する”対象へと移行した。1960年代後半、関連の研究班が「データが同じでも、実体が同じとは限らない」問題を整理するため、SNA-77(Syntactic Neighbor Algorithm 1977)構想を提案したとされる[13]。
この構想では、重複の判定にハッシュを使う前の段階として、「語順の揺れ」を許容しつつ、先頭から23文字目までを比較するという妥協案が採用されたとされる。さらに、比較結果が閾値を超えた場合の処理を“並べ替え優先”とし、最終的に重複が残るケースを約0.7%許容する計画だったという[14]。
ただし、その0.7%は「実際には1.1%だった」とする技術メモも残っている。技術的には些細な差であるが、重複は制度運用で火種になりやすいため、研究班は翌年、閾値の決定権を「計算担当」と「監査担当」に分けたとされる[15]。この分業が、その後の重複検知システムの設計思想に影響したとみられている。
社会的影響[編集]
は、社会のいたる所でコスト構造を変える。典型的には、同じ書類の発行や同じ請求の再送が積み重なり、処理時間が増えることで間接費が膨らむ。しかし逆に、重複を“検知できる状態”にすることで、手続きの見通しが改善した事例も多いとされる[16]。
特に系の給付データでは、重複による誤給付が問題視されたことがきっかけで、データ統合の標準化が進んだという。ある内部報告では、名寄せの試験期間(1978年の一ヶ月)に、重複疑い件数が内で月間約3,200件発生したと記され、そのうち最終的に重複と確定したのは約54.6%だったとされる[17]。
ただし、この比率は後年の監査で「確定の定義が揺れていた可能性がある」と注記された。重複疑いの段階は統計的、確定段階は運用的であり、重複が“制度の言葉”として揺れたことを示す例だとされている[18]。
また、重複は創作にも波及していると解釈されることがある。例えば、校閲界隈では「重複箇所は誤植の温床である」として、敢えて重複表現を検出し、言い回しを統一する校正術が広まったとされる[19]。結果として、同じ表現の繰り返しが減ったように見える一方で、文体が画一化するという別の批判にもつながった。
批判と論争[編集]
重複を排除する取り組みは、しばしば過剰に運用されると指摘されている。たとえば、データ統合で“同一”とみなされたものが、実は別制度の文脈で意味を持つ場合があるからである。ここで、重複排除は価値を削る行為になり得るとされる[20]。
また、重複検知の精度を巡って、研究者同士の対立も起きたと報じられている。ある講演録では、重複判定の誤差率を「0.7%以内」と主張した一方で、別の研究者は「その0.7%は“検知対象の選び方”で変わる」と反論したとされる[21]。つまり、重複は数学の問題ではなく、何を重複と呼ぶかという“合意形成”の問題でもある、という論点である。
さらに、重複という語がもつ直感性が、現場で誤解を生むこともある。「同じだから重複」と判断してしまうと、参照関係(出典)や権限(承認)などの差が捨てられる。これにより、監査では“重複しないように整えた結果、説明責任が弱まった”とされるケースも報告された[22]。
なお、最も風刺的な論争として、行政内部で「重複は人間の怠慢の証拠である」とする標語が掲示されたが、皮肉にもそれが重複掲示だったため、撤去までに3日を要したという逸話がある[23]。この種の出来事は、重複という概念が社会の比喩としても定着していることを示す例として語られる。
脚注[編集]
関連項目[編集]
脚注
- ^ 高倉健次『重複という制度:帳簿からデータへ』河出学術文庫, 2003.
- ^ Margaret A. Thornton『Administrative Redundancy in Postwar Japan』Oxford University Press, 2011.
- ^ 林田みさき『文書運用における同一性の判断』情報処理学会誌, 第58巻第4号, pp. 112-129, 2017.
- ^ 内閣府文書管理暫定委員会『朱印による重複分類要領(試案)』内閣府, 1952.
- ^ Y. Sato and K. Tanaka『Duplicate Detection Beyond Hashing: A Practice-Oriented View』ACM Computing Surveys, Vol. 49, No. 2, pp. 1-26, 2016.
- ^ Masanori Ueda『SNA-77構想の再検討』電気通信学会論文誌, 第21巻第1号, pp. 44-63, 1980.
- ^ 稲垣進『印影照合の統計的基準:1783年メモの読み替え』日本史研究, 第97巻第3号, pp. 201-219, 1999.
- ^ 田中博之『監査現場の“重複排除”が生む説明責任の揺れ』監査研究所紀要, 第12巻第2号, pp. 77-95, 2020.
- ^ Christine DuPont『Redundant Words, Singular Meanings』Cambridge Scholars Publishing, 2018.
- ^ 佐藤一樹『重複タグ:朱色余白の統治学』中央法令出版, 1962.
- ^ (書名の一部が不完全とされる)『重複の数理と運用』丸善, 1975.
外部リンク
- 重複研究アーカイブ
- 行政文書監査ガイド
- 名寄せ実務データベース
- 校閲史の裏面館
- SNA-77資料室