大関健太
| 生誕 | (推定) |
|---|---|
| 国 | |
| 分野 | 非公式官房統計/社会実装/情報行動分析 |
| 主な所属 | 内閣府周辺民間連携窓口(通称:官房サテライト) |
| 代表的概念 | 「臨時整合性スコア」 |
| 活動期間 | 〜(最盛期) |
| 関連組織 | 、 |
| 備考 | 本人の経歴は断片的で、複数の出典で食い違うとされる |
大関健太(おおぜき けんた、英: Kenta Ōzeki)は、日本の「非公式官房統計」研究で知られるデータ職人である。複数の大学・民間シンクタンクにまたがって活動し、と呼ばれる手法を広めたとされる[1]。
概要[編集]
は、行政資料や新聞記事などの「公に整形された情報」だけでなく、間接的に滲む統計の癖を拾い上げる方法論で知られている。彼の提案は、従来の学術的統計学では扱いにくい領域に踏み込み、のちにという言葉でまとめられたとされる[1]。
一方で、大関は自分の研究を「非公式官房統計」と呼んだため、行政側からは当時から慎重に見られていた。特に、彼が作成したとされるは、出典の明示性よりも「整合が起こる確率」を重視する点で批判を受けたことが指摘されている[2]。
大関の活動は、に置かれた複数の連携窓口を起点に進んだとされ、の手続き文書が「静かな仕様書」として流用されていたという内部証言が残されている。なお、彼が本名かどうかは、研究者の間でたびたび議論されたとされる[3]。
人物像と研究の特徴[編集]
大関健太の研究は、数式よりも「改行の癖」「見出しの階層」「脚注の長さ」といった体裁の差から始まると説明されることが多い。彼はそれらを「統計の皮膚」と呼び、文章から数値の歪みを逆算する訓練を体系化したとされる[4]。
また、大関は、官庁が公開する集計表のうち、列見出しが省略されがちなものを好んだとされる。たとえば、が公開する港湾別の貨物量表で、列名が欠ける箇所にだけ特定の空白が現れることがあり、彼はこれを「情報の呼吸」としてモデル化したとされる[5]。
彼の作業環境は極めて細かい規格であったと伝えられている。あるメモでは、データ整形の際にを含むコメント行を残すべきだと書かれており、これは「数学的な無駄が、後から再現性を救う」という主張だったとされる。もっとも、このメモが本物かは要確認とされることもある[6]。
歴史[編集]
生まれた経緯:官房の「沈黙」を読む[編集]
大関健太の方法論が生まれた背景には、前後に起きた「統計の過剰整形」への反発があったとされる。国の広報は読みやすさを優先し、表現が滑らかになるほど元の集計手順が見えなくなる。そこで彼は、逆に滑らかさの残骸を追う実務を始めたと説明されている[7]。
彼の原型となったのは、の研究室での非公式な試作であるとされ、当時の指導役としてという人物名が挙げられることがある。ただし、渡辺は別分野の研究者として登録されており、同一人物かは判然としないとされる[8]。
また、彼は行政手続きの文書保管ルールを「暗号化されていない暗号」と見なしたとされ、特にの書式テンプレートが改訂されるタイミングに着目したという。ある年の改訂は、表紙の脚注が1文字だけ増えたことから始まったと彼は述べたとされるが、裏取りが難しいとして注記が付くこともある[9]。
発展:海運統計から「臨時整合性スコア」へ[編集]
彼の研究は、の臨時会議室で行われたという逸話に紐づけて語られることが多い。会議の目的は、貨物データのブレを「説明可能性」の観点で再整理することだったとされるが、実態としては、表の中でだけ発生する微細な欠損パターンを集めることにあったと推定されている[10]。
このとき大関は、欠損がランダムではなく「整合の癖」によって生じると考え、を設計したとされる。スコアは、(1) 行の並び替えに対する安定性、(2) 見出し階層の一致度、(3) 単位表記の揺れの頻度、の3指標の合成であり、重みは過去ログから推定すると説明された[11]。
さらに、彼はスコアの閾値を「68.2」と設定したとされる。理由は、当時の暫定報告書が68.2%の確率で上司の承認を通る、という社内雑談を根拠にしたからだとされる。もっとも、その雑談が存在したかどうかは、後年になって異なる証言が出たため「伝聞」として扱われている[12]。
社会への影響:数字の“説得力”が変わった[編集]
大関の手法が注目されたのは、単に分析が当たったからではなく、説明が通るように整理できた点にあるとされる。従来、データは「結論→根拠」の順で提示されることが多かった。しかし大関は、先に「なぜ説明が不安定になりうるか」を示すことで、逆説的に信頼を得る設計を行ったとされる[13]。
このため、彼の影響は統計部門だけでなく、やにも波及した。ある大手コンサルの内部資料では、大関のスコアを会議の冒頭に提示することで、意思決定までの時間が平均で17分短縮したとされる。しかし、算出手順は公開されておらず、要出典の状態で参照されることがある[14]。
また、彼の影響で「公式に矛盾しない範囲で、説明の筋を通す」文化が加速したという見方がある。これにより一部の行政文書は、従来よりも微妙に読みやすい構文へ寄せられたと指摘されているが、同時に“検証できない説得”が増えたとの反論もある[15]。
批判と論争[編集]
批判の中心は、大関健太の方法論が「統計の体裁」を過度に重視し、実データの誤差を覆い隠す可能性がある点にあった。特には、整合する確率を測る指標であり、真の値を直接保証しない。そのため、スコアが高い説明ほど「正しそうに見える」危険があるとされる[16]。
また、彼が参照したとされる資料の出所が曖昧だった。大関は、の公開データに加え、港湾に近い民間倉庫が提出している“非公開の月次集計”が混ざっていた可能性を匂わせたとされる。これに対し、監査部門からは「民間の整形の癖が混入すると、政策の責任分解が崩れる」との指摘があった[17]。
さらに、彼のキャリアについても疑義が出た。ある学会報告では、彼はに海外研修を完了したことになっていたが、別の年譜ではに同研修が行われている。編集者の1人は「時系列が滑っている」と短くコメントしたとされるが、当該資料は閲覧制限となっている[18]。
研究の具体例(逸話ベース)[編集]
大関の代表的な実務例として、の説明会資料が挙げられる。資料は「改善率」と「体感改善」を並列に示していたが、脚注の長さがわずかに偏っていたため、彼は“数字が説得用に曲げられている”可能性を検出したとされる。実際、当該資料の脚注は全体のうち平均で0.62行分だけ長く、その偏りを手がかりに修正が提案されたという[19]。
別の逸話では、彼が街頭調査の自由記述をもとに、実際の配送遅延の傾向を推定したとされる。推定の鍵は「『すぐ』という語が出る回数」ではなく、「『すぐ』の直後に出る句読点の種類」だったとされる。ここでの面白さは、句読点の種類が統計上のカテゴリとして整理され、臨時の分類語彙表が作られた点にある[20]。
また、彼は“数字が眠る場所”に関心を持ったと伝えられている。たとえば、会計年度報告で最終行にだけ出る繰越額の桁数が、翌年度の説明の言い回しと相関することがあり、彼はこれを「繰越文法」と呼んだとされる。繰越文法による予測では、翌年度の説明が「昨年比でわずかに鈍化」する確率が53%と算出されたとされるが、計算根拠は外部に残っていないとされる[21]。
脚注[編集]
関連項目[編集]
脚注
- ^ 伊藤彩花『非公式官房統計の技法:体裁から読む統計学』中央政策出版, 2012.
- ^ Kenta Ōzeki『On Temporary Consistency Scores』Journal of Applied Philology, Vol.4 No.2, pp.31-58, 2011.
- ^ 山田直人『説明が通る数字:説得の文体論と政策』政策測度叢書, 第3巻第1号, pp.77-96, 2015.
- ^ 渡辺精一郎『欠損の呼吸:港湾データ整合性の経験則』海運技術紀要, Vol.18 No.9, pp.201-229, 2004.
- ^ Margaret A. Thornton『Institutional Templates and Hidden Variance』International Review of Public Metrics, Vol.12 No.4, pp.10-44, 2013.
- ^ 【内閣府】広報文書研究会『行政文書における脚注の設計指針(試行版)』行政文書研究資料, pp.1-62, 2009.
- ^ 鈴木みなと『統計の皮膚:改行・見出しの機械学習的再解釈』データ工学時評, 第7号, pp.55-88, 2017.
- ^ 大関健太『臨時整合性スコアの臨床応用:会議での意思決定短縮』会議分析学会報, Vol.2 No.1, pp.3-24, 2016.
- ^ 田中啓介『繰越文法の基礎と誤用リスク』会計言語学ジャーナル, Vol.9 No.3, pp.99-130, 2018.
- ^ R. Thompson『Footnote Length and Credibility Dynamics』Proceedings of the Workshop on Policy Coherence, pp.1-12, 2010.
外部リンク
- 嘘統計アーカイブ・官房サテライト
- 臨時整合性スコア研究会(仮)
- 海運統計公社 データ体裁ギャラリー
- 日本政策測度研究所 体裁解析デモサイト
- 文書監査の現場Q&A(非公開転記)