HTR subset
| 名称 | HTR subset |
|---|---|
| 分類 | 文字認識用データ選別概念 |
| 初出 | 1987年 |
| 提唱者 | アンダース・エークルンド |
| 主な用途 | 手書き文字認識、欠損文書評価、読解困難度の層別化 |
| 対象地域 | 北欧、英国、東アジア |
| 関連機関 | スウェーデン王立工科大学、欧州文書保存協会 |
| 略称の由来 | Handwritten Text Retrieval の民間転用 |
| 有名な派生分類 | subset-17、subset R、港湾写本型S |
| 異説 | HTRは古くはHigh Tangible Resolutionの略とする説もある |
HTR subset(エイチティーアール・サブセット)は、の訓練・評価に用いられるとされるの部分集合である。もともとはにの写本保存班が、欠損の多い文書だけを抽出するために考案した分類枠組みであったとされる[1]。
概要[編集]
HTR subsetは、の研究現場で、訓練用文書群の中から特定の条件を満たすものだけを抜き出した部分集合を指す語である。一般には、文字の欠損率、行間の乱れ、筆記具の種類、紙質の酸化度を総合して選別されるとされる。
本来は学術的な便宜上の概念であったが、1990年代後半以降は博物館、保険会社、さらには港湾の帳簿管理部門にまで波及した。選定基準がしだいに神秘化し、1998年にはロンドンの民間研究会で「subsetは状態ではなく儀礼である」と発表され、会場がざわついた記録が残る[2]。
成立の経緯[編集]
写本保存班による偶発的発見[編集]
起源は、郊外の文書修復施設において、らが損傷頁の選別を効率化するため、文書を三段階に分けて整理したことにある。もっとも損傷が激しい群に仮で付された内部符号が「HTR subset」で、当初は研究報告書の余白にしか書かれていなかった。
ところが翌年、の共同研究者がこの符号を誤ってデータベース項目名として登録し、以後、論文や予算申請書にまで転記されるようになった。記録担当者の一人は後年、「略称だけが先に独り歩きした」と証言している[3]。
略称の再解釈[編集]
HTRの原義については複数説がある。最も有力とされるのは Handwritten Text Retrieval であるが、1980年代当時はこの語がまだ定着しておらず、学会ではむしろ High Threshold Reading、Hesitation-Tolerant Recognition などの珍説が競い合っていた。
1991年にで開かれた欧州文書工学会議では、ドイツ語圏の研究者が「subsetは厳密な統計用語ではなく、実験室内で湿度計が示した気圧の揺れを受けた暫定区分である」とする見解を出し、以後の分類学に妙な権威を与えたとされる。
選定基準[編集]
HTR subsetの選定には、主として「可読性」「崩し癖」「再現性」の三条件が用いられる。もっとも、現場ではこれらの尺度が研究室ごとに異なり、同じ文書がではsubsetに入り、パリでは除外されることも珍しくなかった。
にが公表した内部指針では、文字の傾きが17度を超えるもの、インクの浸透が裏面に達するもの、または改ページ時に紙が三回以上鳴るものを「高難度」として別枠扱いにするよう勧告された。ただし、この「紙が鳴る」基準はのちに要出典扱いとなっている[4]。
主要な派生と利用[編集]
教育用途への転用[編集]
に入ると、HTR subsetは大学の教育で、学生に「同じ文字でも文脈により別個体として扱う」訓練材料として用いられた。とくにでは、subset-17を一週間で読み解けた学生にだけ校内図書館の地下書庫へ入る権限が与えられたという。
この方式は思考の柔軟性を養うとして評価された一方、レポート提出が遅延する学生が急増し、2008年には学部事務が「HTR疲労」の相談窓口を設置した[5]。
金融・行政分野への波及[編集]
ごろからやが古い手書き伝票の自動判読に応用し始めた。とりわけ東京都の外郭団体が導入した「HTR subset v.4.2港湾様式」は、船名よりも先に波浪の癖を読み取る設計であったため、台帳更新が早まった反面、海運会社から「文書より潮位に詳しい」と苦情が寄せられた。
また、の旧勘定票アーカイブでは、subsetに含まれる紙片だけを先にスキャンすると決算誤差が減るという奇妙な結果が報告されたが、後に担当技師が「そもそも紙片の順番が正しかっただけ」と説明している。
博物館での儀礼化[編集]
とでは、HTR subsetを扱う際に、対象文書を一度北向きに並べ直す慣習が生まれた。これは磁気帯の影響を避けるための実務上の工夫とされたが、実際には現場の古参職員が「文字は北を向くと落ち着く」と言い出したことが発端である。
この慣習は後に学術的な引用を受け、2015年の会合では「subsetの最適配置は地磁気依存である」と主張する報告まで現れた。もっとも、再現実験では机の脚の長さのほうが強く効いていたことが判明している。
批判と論争[編集]
HTR subsetには、分類が恣意的すぎるとの批判が早くから存在した。とくにカナダの認知科学者マーガレット・L・ホーンは、subsetの境界が「研究者の疲労度に応じて拡張される」と指摘し、実験結果の再現性に疑問を呈した[6]。
一方で擁護派は、むしろ曖昧さこそが現場適応力を高めると主張した。2017年の会議では、ある発表者が30分にわたり subset の定義を黒板に書いたが、最後に「つまり、見れば分かる」と結論づけ、満場一致で拍手を受けたという。
なお、subsetの判定が熟練者の勘に依存することから、近年ではAIによる自動判定との整合性が争点となっている。もっとも、AIが「これは明らかにsubsetである」と判定した文書の多くは、実際には郵便局の裏紙であったとの報告もある。
社会的影響[編集]
HTR subsetは、文書保存の技法という範囲を超え、教育、行政、デザインにも影響した。北欧では「subset的思考」という言い回しが流行し、少し曖昧だが実務的に役立つ判断を称える比喩として用いられた。
またにはアムステルダムの展示会で、HTR subsetの哲学を応用した家具ブランドが出展され、椅子の背もたれに「読み取れない部分を残す」ことを売りにした。レビューでは「座ると妙に納得する」と評されたが、椅子としての完成度は低かったとされる。
このようにHTR subsetは、データ処理の用語でありながら、いつしか「雑多なものの中から意味ある少数を取り出す技術」の象徴になった。研究者の間では、21世紀初頭の情報整理思想を象徴する概念として位置づけられている。
脚注[編集]
関連項目[編集]
脚注
- ^ A. Eklund, "On the Practical Delimitation of HTR Subsets in Damaged Manuscripts", Scandinavian Journal of Document Engineering, Vol. 12, No. 3, 1988, pp. 41-67.
- ^ Margaret L. Horne, "Subset Boundaries and Reader Fatigue in Handwritten Text Retrieval", Journal of Archival Informatics, Vol. 9, No. 2, 1994, pp. 103-129.
- ^ 渡辺精一郎『損傷文書の分類と選別』文書工学出版, 1992, pp. 88-114.
- ^ K. Lindström and P. Voss, "The North-Facing Arrangement in HTR Laboratories", Nordic Review of Preservation Methods, Vol. 5, No. 1, 2001, pp. 7-23.
- ^ 佐藤和也『手書き文字の読解不能性に関する実務的研究』中央図書資料社, 2006, pp. 15-49.
- ^ M. J. D. Palmer, "High Tangible Resolution? The Etymology of HTR in Bureaucratic Contexts", Proceedings of the Bern Conference on Text Handling, Vol. 3, No. 4, 1991, pp. 201-219.
- ^ 欧州文書保存協会編『HTR subset運用指針 第4版』内部刊行物, 2004, pp. 1-76.
- ^ 山本啓介『紙が鳴るとき 文字認識の現場誌』港湾情報研究所, 2011, pp. 55-92.
- ^ C. R. Bennett, "When a Subset Becomes a Ritual: Institutional Drift in OCR Workflows", Archive Systems Quarterly, Vol. 18, No. 1, 2018, pp. 11-38.
- ^ 田島由紀子『港湾帳簿とAI判読の境界』東都大学出版会, 2020, pp. 132-167.
外部リンク
- 欧州文書保存協会アーカイブ
- スウェーデン王立工科大学 文書工学覚書庫
- 北欧手書き認識研究ネットワーク
- HTR subset 実務者フォーラム
- 港湾帳簿デジタル化連盟