後発実験
| 分野 | 実験計画論・臨床研究倫理・工学評価 |
|---|---|
| 主な狙い | 再現性の補強、遅延効果の探索 |
| 特徴 | 初回実施後に“後発”の追試を組み込む |
| 関連概念 | 追試、遅延評価、ウォッシュアウト |
| 発祥とされる起点 | 火薬実験の監査手法(19世紀末) |
| 典型的な期間 | 48時間、14日、90日など段階設定 |
| 議論点 | コスト増、選択バイアス、倫理手続の複雑化 |
後発実験(こうはつじっけん)は、観測や試験を一度は完了させながら、一定期間を置いてから“後から”同一条件を再現し直すことで、再現性や潜在的影響を検証しようとする試行とされる。方法論としては実験計画・臨床研究・工学評価などにまたがり、学術界で議論されてきたとされる[1]。
概要[編集]
後発実験は、研究者が「初回の結果」をもとに結論を急ぐことを避けるために設計されるとされる。とりわけ、初回実験では見えなかった効果が時間差で顕在化する場合、あるいは環境条件のわずかな変動が後から効いてくる場合に有効であるとされてきた[1]。
一方で、後発実験は“後からやり直す”という性格上、統計的には追試(replication)と同義に扱われがちである。ただし、後発実験では「同一の手順を、同一の粒度で再現する」ことが強調されるため、プロトコルの記録様式やデータ欠損の扱いが研究会ごとに細分化されている点が特徴とされる[2]。なお、現場の技師は「再現性とは、結果よりも器具の気分だ」と冗談めかして語っていたとされる[3]。
そのため後発実験は、医学・工学・心理学など多様な領域で用語として定着したとされるが、各分野で意味のニュアンスがずれることも多い。たとえば臨床研究では「遅延有害事象の確認」を重視し、工学評価では「疲労や腐食の立ち上がり」を狙うなど、後発の目的が異なるためである[4]。
歴史[編集]
起源:監査官が“結果を信じるまで”待った日[編集]
後発実験の起源は、19世紀末の周辺で行われた火薬の“監査手続”に求める説がある。海軍省の下部組織である(当時の正式名称はと記録される)が、納入前の火薬ロットについて「点火試験を一度は通すが、結果に署名するのは48時間後」と定めたことが、手続としての初出だとされる[5]。
この手続は、点火直後に出る爆発音の周波数が、湿度の変化で遅れて“丸まり直す”現象を監査官が目撃したことに端を発するとされる。とくに1887年の冬、記録係のが、測定器の石英管の温度が“±0.3℃”程度ずれただけで、48時間後の再計測が別ロット級に見えたと日誌に書いたことが知られている[6]。ただし当時は日誌が少なすぎるため、史料性には「脚色の可能性」が指摘されている[7]。
もっとも、監査官が待ったのは物理現象だけではないとされる。署名に至るまでの“待ち時間”が職員の心理に影響し、結果報告の抑制効果が出たという社内記録があり、これが後発実験における「時間差が意思決定を整える」という後年の理屈へつながったと考えられている[8]。
学術化:遅延効果を“設計”するための学会が生まれた[編集]
後発実験が学術的手法として体系化されたのは、1900年代初頭の「遅延効果の設計」ブームを経てからだとされる。1921年、の学術サークルが中心となり、後発の検証を“単なる再試験”ではなく“計画変数”として扱う議論が整理された。これがのちにと呼ばれる研究集会へ発展したとされる[9]。
同集会の中心人物には統計家のが関わったとされる。彼女は米国の雑誌に「遅延はデータの敵ではなく、タイミングのパラメータである」との趣旨を寄稿し、後発実験で設定する待機期間の設計に、最大で“3段階(例:48時間→14日→90日)”の階層構造を提案したとされる[10]。この段階構造は、当時の実験設備の保守周期(乾燥室の点検が月2回、校正が四半期ごと)と偶然一致していたため、採用が進んだとも言われている[11]。
また、1954年にはの前身部局にあたる保健行政系の委員会が、医療領域での後発実験に倫理手続きを付与する通達を出したとされる。そこでは「患者の同意は初回だけでなく、待機期間を含む“再確認”が必要」と書かれていたとされる[12]。ただし当時の同意書の雛形が現存しないため、通達文の原本性は議論されている[13]。
分野拡張:工学では“腐食の気配”、臨床では“遅れて出る副作用”[編集]
工学では、後発実験は材料試験の分野で特に受け入れられた。たとえばにあるでは、鋼材の塗装試験に後発実験を組み込むことで、初回の塗膜剥離が見えなくても、90日後の“毛細管状のふくらみ”が検出できることを示したとされる[14]。
この研究所の報告書では、剥離率を“1 cm²あたり何ミリ落ちたか”という極めて具体的な指標で記述しており、調査担当の技師が「数字を細かくすると、言い訳も細かくなる」と内心を漏らしたと伝えられている[15]。なお、同研究所は当時、測定に使う顕微鏡の倍率が“×1600”固定だったため、結果の見え方が装置に依存していた可能性が指摘されている[16]。
臨床研究では、後発実験は遅延有害事象の監視と結びついた。ある大学病院の症例シリーズでは、初回投与から14日目にだけ現れる軽度の皮膚炎が、90日後に“記憶のバイアス”として再燃する可能性が議論されたという[17]。この見立てが、後発実験のプロトコルに「被験者への説明文の文体を統一する」項目を追加させた、という逸話が残っている[18]。
実施の考え方[編集]
後発実験では、初回実験の成功失敗に関係なく、一定期間を置いて同一条件を再現することが求められるとされる。手続上は、(1)初回の記録密度を高め、(2)待機期間中の環境ログを保持し、(3)再計測時に“初回と同じ手順の癖”を再現する、という三段階で語られることが多い[19]。
とくに(3)が後発実験の肝だとされる。たとえば同じ温度計でも、読み取り者によって“見る角度”が変わることがあり、これが再計測に影響するという。実験計画論の講義では、参加者に「温度計の目盛りを読むときのまばたき回数を揃えよ」といった冗談じみた課題が出されたとされるが、実務では“観察者の交代禁止”や“撮影ログで読み取りを固定”に落とし込まれたと報告されている[20]。
また、待機期間の選定は恣意的になりやすい点が問題とされる。そこで後発実験の実務者は、待機期間を「理論で決める」のではなく「装置の校正周期・物流の遅延分布・試薬の劣化曲線」から逆算することを推奨する規定が作られたとされる[21]。ただし逆算は便利な反面、「その期間に合わせた結果しか見えない」という批判を生む温床にもなっている[22]。
具体的な事例[編集]
後発実験の典型事例としては、心理学系の“記憶の遅延再評価”と、工学系の“疲労の立ち上がり確認”が並列で語られることが多い。たとえばの研究室が行った記憶課題では、初回に提示した刺激の再認率が、翌日には落ちるものの、さらに14日後には一部の被験者で再上昇が見られたと報告されたとされる[23]。ここで後発実験を採用した理由は、「実験室に戻るまでの通勤ストレスが介入している可能性」を排除するためだったとされる[24]。
工学では、後発実験が“壊れ方”を発見する技として使われることがある。たとえばの発電関連設備の検査では、初回の負荷試験で異常が出なかったバルブが、90日後にだけ微小な漏れ(目視不能の領域)を生じたとされる[25]。現場では漏れ検出を「石灰粉の染みの面積(mm²)」で測ろうとし、面積が“7.4 mm²”のときだけ安全判定を超えたと記録された。もっともこの数値は、粉の粒径が日替わりで変わる条件に左右された可能性があると後から指摘された[26]。
医療現場でも、後発実験は一見奇妙な手当てに結びつくことがある。ある治験審査の議事録では、待機期間の14日目に被験者へ渡す冊子の紙質を、初回同様の“坪量195 g/m²”に揃えるよう求めた条項が採択されたとされる[27]。これは皮膚反応の違いが服の擦れに影響する可能性を疑ったためだったという。ただし当該条項の根拠文献は見つからず、「たぶん前回の担当者がこだわっただけ」とも囁かれたとされる[28]。
批判と論争[編集]
後発実験には、必ずコストと実務負荷が増えるという批判がある。待機期間を含めるために人員配置や保管設備が必要となり、研究費の消耗が早まる。とくに医療分野では再同意や追加フォローアップが必要となり、結果として“後発をやれる研究機関だけが強い”構図になりやすいと指摘されている[29]。
また、後発実験は選択バイアスの温床になることがある。初回で良い結果が出なかった場合に研究者が“やっぱり中止”する誘惑が生じるためである。このため一部では、初回の結果にかかわらず必ず後発段階へ進める「無条件スイッチ規定」を作ったとされる[30]。ただし、無条件規定が採用されると今度は倫理的負担が増え、何をもって“同一条件”と呼ぶかが曖昧になるという別の論点が生じる[31]。
さらに、後発実験の定義が現場で揺れている点も議論されている。あるレビュー論文では、待機期間が“平均で±14日以内”なら後発実験とみなすべきだと主張されたとされるが、別の研究者は「平均ではなく、分布の裾まで固定しないと意味がない」と反論したとされる[32]。ここでの噛み合わなさが、用語の定着と混乱の両方を生んだと説明されることが多い[33]。
なお、最も面白い論争として「後発実験は統計のためではなく、研究室の酒席のために作られた」という都市伝説がある。週末に再測定を組むと飲食の調整が楽になるため、結果として待機期間が人間の生活リズムに最適化された、という説である。この主張は根拠が薄いものの、後発実験の待機期間が“48時間”“14日”“90日”のように丸い値に集中しがちであることが、反証できない材料として扱われている[34]。
脚注[編集]
関連項目[編集]
脚注
- ^ 高橋宗次『再現性を時間で測る—後発実験の設計原理』東邦学術出版, 1968.
- ^ Margaret A. Thornton「Delayed Parameters in Late-Onset Verification」『Journal of Applied Methodology』Vol.12 No.3, 1923, pp.44-61.
- ^ 渡辺精一郎『火薬監査と48時間の記録』海軍火薬監督局史料編, 1892.
- ^ 山口眞琴『遅延有害事象の追跡と再同意』中央医書, 1959, pp.101-137.
- ^ 佐伯和秋「待機期間の分布が与える推論への影響」『統計技報』第7巻第2号, 1974, pp.1-19.
- ^ 港湾構造物安全研究所『塗装剥離90日目の観察報告(内部資料)』港湾安全出版, 1981.
- ^ Nakamura, Eiji「Observer-Dependent Reading in Repeated Measurements」『International Review of Instrumentation』Vol.3 No.1, 1990, pp.9-27.
- ^ 【厚生】委員会『臨床追跡における倫理手続の暫定指針』保健行政研究会, 1954.
- ^ “後発実験学会”編集委員会『遅延はデータの敵か—議事録集(第1回)』学術会館印刷, 1922.
- ^ Devereux, Claire『Late-Onset Experiments and Social Scheduling』University Press of Westfield, 2007, pp.203-221.
外部リンク
- 後発実験データ辞典(架空)
- 追試プロトコル倉庫
- 待機期間設計フォーラム
- 実験計画論セミナー録音館
- 遅延効果・症例アーカイブ