松尾 健太郎
| 専門分野 | 公共データ衛生/計量監査/行政プロトコル |
|---|---|
| 活動領域 | 行政データ連携、個人情報取り扱い最適化 |
| 所属(当時) | 一般社団法人 透明行政研究会(通称・透明研) |
| 主要な貢献 | データ“清浄度”指標(KCI)の実装 |
| 影響を受けた領域 | 統計品質管理、監査工学、情報セキュリティ |
| 主な論点 | 標準化の過剰適用と現場負荷 |
| 代表的な施策(関係) | 自治体データ清掃パイプライン事業 |
松尾 健太郎(まつお けんたろう、 - )は、の「公共データ衛生」分野で功績が知られる人物である。特に系の実証枠組みにおいて、数値の“清浄性”を測る標準化に関与したとされる[1]。
概要[編集]
松尾 健太郎は、行政が扱う統計・台帳・住民関連情報を対象に、形式的な正しさではなく「衛生的なデータ状態」を測る考え方を提唱した人物として知られている。衛生の比喩を用いる点が特徴であり、データの“臭い”を検知する比喩が、のちに研修資料の定番となったとされる[1]。
その中心にあるのが、データ清浄度指標(KCI)と呼ばれるスコアである。KCIは欠損率・重複率・単位不整合・時点ズレ・語彙揺れ等を統合し、さらに現場の「入力者が直感で気づく確率」を推定する係数を含むとされる[2]。もっとも、公式資料では係数の由来について要出典の注記が残っていると指摘されている。
松尾は、当初は研究者として登場したが、やがて制度設計側へ軸足を移し、行政システム更新の際に“清掃工程”を契約要件化する提案を行ったとされる。これにより、データ連携のプロジェクトが「作る」から「育てて保つ」に変わったとの見方がある一方、現場からは「契約が増えた」との不満も出たとされる[3]。
経歴[編集]
初期の関心:数字の“匂い”[編集]
松尾は出身として言及されることが多く、学生時代に統計の講義へ執拗に通ったとする証言がある。特に、授業で使われたサンプル表が、同じ列なのに単位が年ごとで変わっていたことに強い違和感を覚えた、とされる[4]。
その発端として、松尾が当時「臭気指数」ならぬ「数値の臭気」を測れるはずだと考えた、という逸話が残っている。のちに本人の発言として、単位の揺れは“口臭”と同じで、発生源が遠くても気づける、と語ったとされる。ただし、記録の出所が明確でないことから、講演録に依存した推測との指摘もある[5]。
なお、松尾が初めてKCIの原型をノートに書き留めたのはの春であるとされる。日付は「3月第2水曜、午後6時17分」と細かく書かれているが、現物の所在は確認されていないとされる[6]。
行政との接続:透明行政研究会[編集]
(通称・透明研)は、透明性の高い行政運用を掲げる団体であるが、設立当初は松尾が“監査工学”側の人脈を持っていたとされる。松尾が同団体へ加わったには、自治体データの連携が一気に増え、品質事故が「形式上は正しいが現場が困る」形で顕在化していた時期であったとされる[7]。
透明研では、データの品質を「正しさ」だけでなく「扱いやすさ」で評価する実験が行われた。松尾はそこで、データ清掃に要する作業時間を、入力回数ではなく“修正の精神負荷”に換算する試算を提示したとされる。具体的には、1データ項目あたり平均0.43分の清掃時間に、0.12の“再確認係数”を掛ける方式が採用されたと報告されている[8]。
さらに、の関連会議で「清浄度指標を契約条項に入れられるか」という議論が起き、松尾は複数自治体へヒアリングを行ったとされる。その際、の窓口担当者が“数字が増えるほど責任が増える”とこぼした場面が、松尾の指標設計に影響したとされる[9]。
社会的影響[編集]
KCIによる「清掃の標準化」[編集]
松尾の提案により、自治体や外部委託先に対して、データ投入前の清掃工程が「納品条件」として位置づけられるようになった。ここでいう清掃は、単なる欠損補完ではなく、単位換算・時点統一・語彙統一・コード体系の整形を含むとされた[2]。
KCIの算出では、重複検出に使うハッシュの方式が明確化されたとされる。特に、連携先で同一人物が別IDで登録されるケースを想定し、「ID差分率が0.8%を超えると清浄度が頭打ちになる」という経験則が用いられたと報じられている[10]。この値は複数自治体の“実測”とされるが、元データは公開されていないとも言及されている。
この標準化は、データ連携事故の抑制に貢献したと評価される一方、清掃工程を契約に入れた結果、ベンダー側の見積が複雑化したという反論もある。このため、松尾は「KCIは罰点ではなく改善指標である」と繰り返し説明したとされる[11]。
“清浄度”が生む文化:研修と合言葉[編集]
制度が進むと、研修現場では独自の文化が生まれた。松尾が監修に関わったとされる教材では、データ清掃の最初に「匂いを吸う」工程が置かれた。これは、データを分析する前に、担当者が“間違えやすい箇所”を紙のチェック表で予習する手順であると説明された[12]。
研修の最後には「KCI 70は合格、ただし匂いは残る」という合言葉が配られたとされる。ここでいう匂いは、指標に表れにくい現場の違和感のことを指す、とされる。もっとも、合言葉の出典は不明であり、編集会議の議事録には「記憶に依存」との注記があったとされる[13]。
一方で、合言葉が独り歩きし、現場が“数字だけ合わせる”方向に傾いたという指摘もある。松尾はこれを「清掃の儀式化」と呼び、次第に補足資料で“意味の説明責任”を強調するようになったとされる[14]。
批判と論争[編集]
批判は主に、KCIのスコアが現場を縛ることへの懸念に集中した。具体的には、KCIが一定閾値を超えないデータは「差戻し」になる運用が自治体間で広がり、結果としてデータ連携の速度が落ちたという声があったとされる[15]。
また、松尾が用いた係数の一部に関して「経験則の域を出ていないのではないか」という論点が出た。たとえば、語彙揺れの重みを決めるために、現場調査の回答を“匂いカテゴリ”へ分類したとする記述が報告されているが、分類基準が明確ではないとされる。学会側では、統計モデルとして妥当か否かが議論されたとされる[16]。
さらに、松尾の影響を受けた契約書のテンプレートが、の一部自治体で過剰に導入されたという指摘がある。具体例として、契約に「週次清浄度報告(KCIトレンド表)」が盛り込まれ、作業量が増えたという問題が報告された[17]。これに対し松尾は、清浄度報告は“事故の前兆を見るため”であると反論したとされるが、反論の根拠となる公開資料は多くないとされている。
脚注[編集]
関連項目[編集]
脚注
- ^ 山本玲奈『行政データの衛生学:KCIと現場の距離』株式会社リバース・ガバメント, 2012.
- ^ Matsuo, K.『On Data Hygiene Metrics for Public Records』Journal of Civic Informatics, Vol.12 No.3, pp.41-66, 2016.
- ^ 佐伯真琴『統計事故の予防手順:匂いのない数字を目指して』東京大学出版会, 2014.
- ^ 透明行政研究会『KCI導入ガイドライン(暫定版)』透明研資料, 第1版, 2009.
- ^ 鈴木康介『データ清掃パイプラインの契約要件化に関する研究』情報処理学会論文誌, Vol.58 No.9, pp.2107-2125, 2017.
- ^ Thornton, M. A.『Audit Engineering and Metric Drift』International Review of Compliance Engineering, Vol.21 Issue 2, pp.99-118, 2019.
- ^ 江藤由紀『自治体の差戻し文化と品質指標』日本行政監査学会紀要, 第10巻第1号, pp.77-95, 2020.
- ^ 松尾健太郎『公共データ衛生の設計指針:清浄度は罰ではない』行政情報システム学会, 2011.
- ^ (タイトルが一部不明)『匂いを吸う工程の効果検証:KCI 70の妥当性』現場研究報告書, Vol.3, pp.1-23, 2013.
- ^ 河合健『語彙揺れの重み付けと重複検出の実務』統計実務研究, 第5巻第4号, pp.330-352, 2018.
外部リンク
- 透明行政研究会公式アーカイブ
- 公共データ衛生フォーラム
- 行政プロトコル標準化ポータル
- 統計品質管理ワーキンググループ
- 監査工学ケーススタディ集