大草宏一
| 生誕年 | |
|---|---|
| 活動領域 | 公共データ運用規程、匿名化ガバナンス |
| 主な関与組織 | 総務省 公共情報倫理室、地方自治体データ審議会 |
| 代表的な取り組み | 「二段階匿名化」運用標準の策定 |
| 評価 | 透明性と再現性を両立した枠組みとして参照される |
| 論争点 | 匿名化の精度指標が現場に過剰適用されたとの批判 |
| 所属 | (推定)公益情報研究所 共同研究員 |
大草宏一(おおくさ こういち、 - )は、の「公共データの倫理運用」をめぐる制度設計で知られる人物である。とくに系の検討会を起点に、匿名化手法の運用規程を実務に落とし込んだとされる[1]。
概要[編集]
大草宏一は、公共領域のデータ活用において「匿名化は技術ではなく運用である」と主張し、その思想を規程として定着させた人物として知られている[1]。とりわけ、匿名化の品質を数値で扱うための指標体系を提案し、自治体の説明責任を支える仕組みとして扱われた。
一方で、大草の作る指標が「現場では数値だけが独り歩きする」との指摘もあり、結果としてデータ公開が抑制された事例があるとされる[2]。このため、大草宏一は、制度設計の成功と副作用の両面を体現する人物として語られることが多い。
本記事では、大草宏一の経歴と影響を、検討会の議事録風の語彙と、やけに具体的な運用数値を交えつつ整理する。なお、その詳細には複数の回顧証言が存在するとされ、当時の資料の所在も一部で揺れているとされる[3]。
経歴[編集]
前史:川沿いで「逆算」する癖[編集]
大草宏一は、内の町工場で育ち、大学では統計と通信工学をまたいで学んだとされる[4]。本人の回顧として「河川の増水ログを、雨雲の移動速度から逆算する研究をしていた」と語られたことがあるが、その裏付けは乏しいとされる。
興味深いのは、彼が匿名化の発想を「研究室の紙片」に結びつけた点である。すなわち、鍵付きのノートを作るより先に、メモの“余白”の癖(書式の間隔、筆圧の跡)まで観測すべきだと考えた、という伝承が残っている[5]。この視点が後年の「二段階匿名化」思想に繋がったと説明されることが多い。
また、の古い河川計測所でアルバイトをしていた際、台帳をスキャンしたデータの“読み取り誤差”が統計の偏りを生むことを初めて実感したとされる[6]。この誤差を「偶然の自由度」と呼び、後に匿名化品質の指標設計に転用したという。
制度への参入:総務省の「白紙委員会」[編集]
大草宏一が制度側に入ったのは、の内部調整で「白紙委員会」と呼ばれる準備会が発足した時期とされる[7]。この会は名称だけが先行し、初回の議題がなぜか「住民票の写しの“待ち時間”統計の出し方」になったと回顧されている。
当時、自治体が公開するデータは粒度がばらばらであり、説明責任の観点から「なぜこの削り方なのか」が説明できない状態だったとされる。そこで大草は、匿名化を“工程”として設計する必要があるとして、工程1では属性を丸め、工程2では出力の整合性を点検するという「二段階匿名化」を提案したとされる[1]。
この二段階匿名化の品質指標として導入されたのが、「逆同定耐性(RDR: Reverse De-identification Resistance)」である。ある回顧では、RDRは“成功率”ではなく“再現困難性”として定義され、公開前に試験データで最低でも 99.72% の不一致が確認されるべきだと主張したとされる[8]。ただし、この数値の根拠資料は長らく所在不明となっている。
自治体全国展開:データ審議会の勘定[編集]
大草宏一の提案は、の運用マニュアルに転記される形で広まったとされる[9]。転機となったのは、監査対応のために「公開可能性の判定ログを残す」ことが求められた局面である。
ここで大草は、ログの粒度を細かくする代わりに、記録すべき“失敗”も定義した。具体的には、公開申請が却下された場合でも「却下理由カテゴリ」を必ず1つ付与し、そのカテゴリは全体で 17 種に分類するという取り決めが提案されたとされる[10]。自治体の担当者は「政治的理由で止められないための保険」として受け止めたとされる。
なお、この分類がのちに「却下が増えた」という批判に繋がった。ある県では、RDRの閾値を厳格に運用した結果、統計公開が前年比で 14.3% 減少したと報告され、大草の規程が“守りすぎる設計”であると見られた時期があったとされる[11]。
二段階匿名化の仕組み[編集]
二段階匿名化は、単にIDを消すのではなく「出力が個人に辿り着かない形に整える」という発想として説明されることが多い[12]。工程1では属性の丸め(年齢を5歳刻みにする等)と、位置情報の“格子化”が行われる。工程2では、工程1後のデータに対して“逆に辿る人”がいた場合を想定し、整合性チェックと、統計的な一貫性の検定を行う。
大草はこの検定を、単一の指標で語るのではなく、複数の観点を“点数化して並列”する方式を推したとされる。たとえば、再同定困難性(RDR)を 50 点満点、属性丸めの粗さを 30 点満点、整合性チェックの厳格度を 20 点満点で評価する採点表が作られたとされる[13]。しかも、満点は「理想値」ではなく「監査で説明しやすい運用値」として計算されるのが特徴だった。
さらに、大草は「匿名化後も説明は止めない」として、公開データには“削った理由”を短文で添付するテンプレート案を提示したとされる[14]。そのテンプレートには、たとえば「本データは住居推定につながる可能性があるため、位置情報を 1/8 格子単位で丸めています」などと書かれると伝えられている。もっとも、現場では文章が長くなりすぎて、結局は要約版に差し替えられた自治体もあったという。
社会的影響[編集]
大草宏一の影響は、匿名化技術の研究だけでなく、公開のプロセス設計にまで及んだと評価されている[15]。従来、データ活用は「作って終わり」になりがちだったが、彼の規程は“作る前”と“作った後”の監査可能性を制度に組み込む方向を強めたとされる。
特に、の一部部署では、データ公開の稟議書に「二段階匿名化の工程番号」と「RDR採点表の写し」を添付する運用が一時期導入されたとされる[16]。この結果、公開担当者が「削ったのは誰か」ではなく「どう検証したか」を説明できるようになった、という肯定的な声があった。
一方で、説明責任の強化が逆に“萎縮”を生むという問題も指摘された。ある市では、RDR閾値を守るためにデータを出せる粒度が細かすぎると判断され、医療統計の更新が 3 か月遅れたとされる[17]。大草はこの遅れ自体を「監査コストの前倒し」として正当化したが、利用者からは「前倒しであっても遅れは遅れ」と批判されたとされる。
批判と論争[編集]
批判の中心は、匿名化の指標が“目的のための手段”を超えて、手段そのものになってしまう点にあったとされる[18]。研究者の間では「RDRは再同定の可能性を測っているのか、それとも説明用の整合性を測っているのか」という問いが投げかれたとされる。
また、運用数値の一部が「なぜその閾値なのか」説明困難であると指摘された。たとえば、ある公開ガイドラインでは「RDRが 99.72% を下回る場合、原則として公開しない」と明記されていたとされるが、その“99.72%”がいつのデータから得られたのかは、当事者によって語りが異なる[8]。この点について、大草は「細かい数字は現場の交渉を短縮するため」と述べたと回想されるが、学会側からは納得感が得られなかったとされる。
さらに、実装の現場では、自治体の担当者が指標表の採点を優先してしまい、「住民の便益」より「監査の通りやすさ」が前面に出た時期があったとする指摘もある。ある新聞は、の試行で却下理由カテゴリが 17 種全てに“同じような言い回し”で埋められたと報じたとされる[19]。ただし、この記事の裏取りは十分でなかったとされ、後に編集部が謝意を表したとも言われるが、詳細は明らかにされていない。
脚注[編集]
関連項目[編集]
脚注
- ^ 大草宏一「公共データにおける二段階匿名化の運用設計」『情報管理研究』第54巻第2号, 2011年, pp. 31-58.
- ^ 佐伯明人「RDR指標導入の実務的含意」『自治体情報政策年報』Vol.18, 2013年, pp. 91-120.
- ^ 田中梨紗「匿名化品質の点数化と説明責任」『Public Data Governance Review』Vol.7 No.1, 2016年, pp. 1-23.
- ^ 島田正幸「ログに残すべき“失敗”の分類」『監査技術ジャーナル』第22巻第4号, 2014年, pp. 205-233.
- ^ Minato, K. and Thornton, M. A. 「Operational Anonymization and Reverse Identification Risk」『Journal of Administrative Data Ethics』Vol.3 No.2, 2018年, pp. 45-77.
- ^ 小泉健太「削った理由テンプレートの標準化」『情報公開実務』第9巻第3号, 2015年, pp. 67-96.
- ^ 公共情報倫理室編『自治体における匿名化運用指針(試案)』総務省, 2010年, pp. 12-40.
- ^ Editorial Board「二段階匿名化の普及と課題」『統計広報』第41巻第1号, 2012年, pp. 7-19.
- ^ Zhang, Y. 「De-identification Metrics in Public Sector Publishing」『Proceedings of the Privacy Operations Workshop』Vol.2, 2019年, pp. 112-130.
- ^ (タイトルが微妙)大草宏一『匿名化は数式より現場である』中央大学出版, 2009年, pp. 3-28.
外部リンク
- 公共データ運用規程アーカイブ
- 匿名化実装ガイドライン倉庫
- 自治体データ審議会メモリアル
- RDR採点表スプレッドシート博物館
- 情報管理研究 試読ポータル