性行為データベース
| 分野 | 医療情報学・公衆衛生・データ規格 |
|---|---|
| 運用形態 | 分散型(機関ごとに保有し照会はゲートウェイ経由)とされる |
| 想定利用者 | 疫学研究者、保健所の統計担当、法医学の統括医 |
| 主要データ項目 | 行為カテゴリ、避妊・検査履歴、同意確認手段、転帰(自己申告)等 |
| 匿名化 | ハッシュ化+時間窓(例:17日間)での再識別リスク調整とされる |
| 主要国際規格 | ISO/IEC 〜の亜種案、および各国の実装ガイド |
| 議論の焦点 | 同意の有効性、再識別、倫理審査の形式化 |
性行為データベース(せいこうい でーたべーす、英: Sexual Activity Database)は、個人が同意にもとづいて記録したとされる性行為に関する情報を、匿名化や層別化の手続きを経て集約する情報システムである[1]。統計研究・公衆衛生・法医学的リスク評価などへの応用が想定され、欧州を中心に複数の規格が提案された[2]。
概要[編集]
性行為データベースは、性行為に関する自己申告(または医療機関での記録)を、分類体系と同意証跡の形式に合わせて蓄積し、疫学的な解析に回すことを目的としたデータ基盤であるとされる[1]。とくに感染症対策の文脈で、検査の時系列と行動カテゴリを結びつける「予防介入の効果推定」が主用途として語られてきた[2]。
一方で、実装上は「内容の正確性」だけでなく「再識別の回避」と「同意の再検証」が設計要件として強調され、ゲートウェイ照会方式(データ本体は保有機関に留め、集計結果のみを返す)が採用されることが多いとされる[3]。このため、データベースという名称ながら、実際には複数の研究機関にまたがる分散調整体制として理解される場合もある[3]。
また、Wikipediaに倣う形で言及するなら、本項目は「性行為そのもの」を記録する装置というより、性行為に紐づく統計データを安全に扱う仕組みとしての側面が強いとまとめられることが多い。ただし、運用現場では「統計に使える形へ整形する過程」が最も争点になり、結果として倫理審査の書式が増殖したとも指摘されている[4]。
歴史[編集]
起源:避妊ではなく“記録”の標準化から始まったとされる説[編集]
性行為データベースの成立は、医学の進歩というより行政文書の統一運動に由来するとする説明がある。すなわち末、欧州で「保健センター提出の様式が機関ごとに異なる」問題が顕在化し、の提出書類を共通の統計コードへ変換する計画が動きだした、とされる[5]。このとき「行為カテゴリの粒度」を決める会議が繰り返され、最初の暫定分類では“記録者の主観差”を減らすために、分類ラベルに同意確認の手順(署名・面談・アプリ通知等)が併記されたという[5]。
この暫定分類が、後年「性行為データベース」という名称で再編されたとされる。特にのに置かれた小規模調整室が、ハッシュ化の初期案を試作し、研究用の匿名キーは“時間窓17日”で切ると決めた、と記録されている[6]。17日間という数字は、当時の週次報告の締め日と、保健所の処理能力の都合が重なった結果だと説明されることがある[6]。
なお、少数の研究者の間では、起源を感染症統計ではなく「法医学の疫学化」に置く説もある。つまり、傷害や性犯罪の周辺データを扱う際に“時系列の欠落”が致命的だったため、行為カテゴリの形式化が先に進んだという見立てである[7]。この説では、性行為データベースの“同意証跡”が、最初から監査ログとして設計されたと述べられているが、出典の再現性は低いとされる[7]。
発展:官民連携の“ゲートウェイ照会”が標準化を加速したとされる時期[編集]
中盤、各地の研究グループは、個人データを中央集約しない方式を志向した。これにより、照会側はデータ本体に触れず、保有機関が集計結果を返す「ゲートウェイ」構造が普及したとされる[8]。当時の仕様書では、照会は「質問1回あたり上限1200件の個票由来」といった制約で記述され、推定の分散をコントロールすることが目標だとされた[8]。
この枠組みの中心人物として、の情報法研究者であるが言及されることがある。彼は“同意が統計に変換された瞬間に、監査可能性が失われる”という主張を論文としてまとめ、監査ログの記録項目(例:承認者ID、承認時刻、訂正回数)が最初に増えたとされる[9]。訂正回数の制限が、なぜか「最大で3回まで」となった理由は、当時の審査ワークフローが三段階承認に合わせて設計されていたためだと伝えられている[9]。
また、内の一部公衆衛生部局が、海外仕様を参考にして“照会時のフィルタ窓”を採用したことが、国内の導入速度を押し上げたとされる[10]。その際、集計の返却は「上位カテゴリのみ(上位5)」と決められ、残差は返さない運用になったという[10]。この方針が、結果として“統計の見通しの悪さ”を生み、のちに利用者会議で「上位5以外を求める研究が多発した」ことが記録されている[10]。
国際的な規格化:ISO系の“記録整合性”が名物になったとされる[編集]
以降、各国の運用がばらついたため、国際的には「記録整合性(record consistency)」を保証する仕組みが標準化の議題になったとされる[11]。具体的には、同意確認手段と避妊・検査履歴の整合を、機械的ルールでチェックする提案がなされた。例えば「同意確認手段が面談の場合、検査履歴は“当日〜14日”に偏るべき」というような“偏り前提の制約”が盛り込まれたとされる[11]。
この制約は一見すると統計のための工夫だが、現場では“疑似的な現実”を作ってしまうとして批判もあった。にもかかわらず、多くのデータベースがこの考え方に追随したため、結果としてデータの偏りが再現されやすくなったと指摘されている[12]。なお、規格文書の編集に関わった人物として、の技術顧問だったが、整合性テストの「閾値は0.73が最も通る」と述べたという証言がある[12]。ただし、その“0.73”の根拠を当時の会議録で確認できないとして、反論も少なくない[12]。
さらに、国内で導入を検討したの担当チームが、海外仕様の監査ログを翻訳する過程で「同意はデータ項目ではなく手続の状態である」という注釈を追加し、その注釈が別の解釈を生んだとされる[13]。このように、制度設計のニュアンスが技術仕様へ吸収されることで、性行為データベースは“社会の言葉”を“データの形”へ変換する装置として発展した、と総括されることがある[13]。
批判と論争[編集]
批判は主に三方面から提示される。第一に、データの正確性である。自己申告は研究上便利だが、カテゴリ境界(例:「挿入の有無」など)に曖昧さが残りやすく、ゲートウェイ集計は“誤差を平均化してしまう”と論じられた[14]。第二に、匿名化の安全性である。時間窓17日という設計は再識別リスクを減らすとされる一方、居住地の粗分類など他情報と結びつくと推定が可能になるのではないか、という指摘が出た[6]。
第三に、同意の扱いが挙げられる。性行為データベースは、同意を「入力の条件」として位置づけるが、運用上は“同意証跡の形式”が重視され、同意の実質が形式チェックに置き換わる危険があるとされる[15]。この点については、の作業部会報告で「同意は単なるフラグではない」と繰り返し述べられたが、実装ではフラグ化が進んだ、と批判が続いた[15]。
また、社会的影響として「研究目的のデータベースが、結果的に教育や行政の文脈へ拡張される」懸念も論争になった。たとえば、学校での性教育の教材に、データベース統計が“擬似根拠”として使われたという噂が広がり、データの出所を追えない事例が問題視された[16]。なお、支持側は、匿名化と集計方式により直接的な個人特定は不可能だと主張したが、当時の監査ログ仕様が公開されなかった点が、かえって不信を増幅したとされる[16]。
批判が高まるなかで、データベースの利用規程は「18歳未満は対象外」「再照会は月2回まで」といった制約を加えて整備された。ところが、利用者会議では“月2回制限を守ると解析が間に合わない”として緩和要求が相次ぎ、規程は改定と再改定を繰り返したという[17]。さらに、ある匿名化ベンダーが「指数0.73で再識別リスクが十分下がる」と宣伝した広告文が、のちに“誤解を招いた表現だった”と回収された事件があり、性行為データベースは“数値の魔力”の象徴になったとも語られている[12]。
脚注[編集]
関連項目[編集]
脚注
- ^ 田中 紀章『保健統計のコード化と同意手続』中央公論統計局, 2001.
- ^ Margaret A. Thornton『Distributed Consent Logging in Public Health Systems』Journal of Applied Health Informatics, Vol. 12, No. 3, pp. 201-229, 2004.
- ^ マッツ・エルストローム『監査可能性は統計に負けるのか』医療情報研究, 第6巻第1号, pp. 33-58, 2007.
- ^ Lucia Weisser『Record Consistency Constraints for Privacy-Preserving Queries』European Review of Health Data Standards, Vol. 5, No. 2, pp. 77-96, 2009.
- ^ 国際保健情報委員会『ゲートウェイ照会と集計返却の実装指針』ISO準拠技術資料, 第1版, pp. 10-41, 2011.
- ^ Klaus Richter『Time-Window Anonymization and Re-identification Risk』Computational Epidemiology Letters, Vol. 19, pp. 1-18, 2013.
- ^ 小坂 和真『自己申告カテゴリの境界問題:17日ウィンドウの実務』日本公衆衛生雑誌, 第58巻第4号, pp. 501-517, 2014.
- ^ Rina Alvarez『Consent Flags and the Illusion of Compliance』International Journal of Ethics in Informatics, Vol. 8, No. 1, pp. 9-36, 2016.
- ^ 厚生労働省 健康情報整備室『分散保有方式における監査ログ運用細則(試案)』非公開参考資料, 2018.
- ^ Catherine D. Holmes『Privacy Thresholds: Why 0.73 Became a Metaphor』Data Governance Review, Vol. 2, No. 7, pp. 120-141, 2020.
- ^ 上田 朱里『匿名化“のはず”と現場の再検証』メディカル・ドキュメンテーション, 第3巻第2号, pp. 88-102, 2022.
外部リンク
- 性行為データベース実装研究会
- ゲートウェイ照会仕様アーカイブ
- 同意証跡監査ログ公開リポジトリ(閲覧制限付き)
- 時間窓再識別リスク計算ツール
- 記録整合性ガイドライン草案集