判断甲子園
| 分野 | 意思決定・教育評価・公開討論 |
|---|---|
| 主催 | 公益財団法人 未来学習振興財団(MFST) |
| 開催頻度 | 年1回(夏季) |
| 対象 | 全国の高等学校(主に2年生相当) |
| 会場 | 兵庫県神戸市の海浜学術ホール |
| 競技形式 | ケース判断+口頭防衛(タイム制) |
| 審査基準 | 根拠整合・反証耐性・説明の簡潔性 |
| 起点とされる年 | 1989年 |
判断甲子園(はんだん こうしえん)は、日本で独自に発展した「判断」を競う年次コンペティションである。全国の高校生が「文章」「データ」「倫理ケース」を用いて審査員の評価指標に沿った判断を提示し、その精度と説明可能性を競うとされる[1]。
概要[編集]
判断甲子園は、いわゆる「正解当て」ではなく、「なぜそう判断するか」を点数化することを目的とした大会として説明される。出場者は配布された判断ケースに対し、判断の結論だけでなく、根拠の選別手順や反証への耐性を短時間で提示することが求められる。
本大会が社会的に注目されたのは、教育現場においてルーブリック評価が導入される流れと並走し、さらに企業のコンプライアンス研修にも転用されたためである。とくに「説明可能性」の重視が、判断の“速さ”より“納得の筋道”を優先する文化を作ったとされている[1]。
一方で、判断が競技化された結果として「正しさより、正しく見せる技術」が育つのではないかという懸念も早くから指摘された。のちにこれが、勝敗の統計的偏りや審査員交代による採点ゆらぎとして観測されることになる[2]。
歴史[編集]
起源:夜間校内放送と“訂正テープ”運動[編集]
判断甲子園の起源として、最初に語られるのが1989年の「夜間校内放送」改革である。改革を主導したとされるのは、当時大阪府豊中市で校内放送を運用していた教員グループと、音声検証技術を扱う民間企業の技術者だった。
彼らは“訂正テープ”という仕組みを校内に導入し、誤報が出た場合に生徒がその場で「誤りの判断」を説明し直す回路を作ったとされる。ここで重視されたのが、判断の根拠を「三段階(採用・却下・保留)」に分ける書式である。のちにこの三段階が、大会の採点モデルへと転用されたとする説がある[3]。
さらに、放送の台本をめぐって生じた「同じ結論でも説明の長さが違う」問題が、後の“簡潔性ボーナス”の原型になったと推定されている。なお、このとき生徒の発話時間は厳密に秒単位へ丸められ、平均が「17.4秒」で落ち着いたという記録が残っているとされる[4]。
拡張:海浜学術ホールと“反証耐性”の採点化[編集]
大会運営が全国規模になったのは、主催側が会場を兵庫県神戸市の海浜学術ホールへ移してからだとされる。そこでは、判断ケースが紙ではなく、透明スクリーンへ投影される形式へ変わった。この設計により、出場者がどの情報を見落としたかを運営が再現しやすくなったとされる[5]。
また採点方法の中心に置かれたのが「反証耐性」である。反証耐性は“反対意見を受けても判断が崩れないか”を、審査員が用意した「二次の質問」で測る仕組みとして定式化された。
ここで現場に起きた細かな問題が、かえって制度を面白くしたとされる。具体的には、審査員の質問テンポが一定ではなく、合否に影響した疑いが生まれた。そこで運営は、質問の音声サンプルを「60サンプル×3段階」に分け、当日の採点表にも“質問強度”の列を追加したとされる[6]。当時の内部資料では、質問強度の分布が「平均0.61、分散0.09」と記されていたという。
社会への波及:企業研修への転用と“判断の儀式化”[編集]
判断甲子園は教育の枠を超え、企業の意思決定研修へ転用された。転用を後押ししたのは、公益財団法人未来学習振興財団(MFST)が作成した「説明可能性スコア」の簡易版である。これが社内の会議体に持ち込まれ、会議は“判断ケース”として進行するようになったといわれる。
その結果、社会では「決断」よりも「決め方の提示」が評価される場面が増えたとされる。ただし同時に、判断が“儀式化”し、形式を守ること自体が目的化するという批判も生じた。
とくに、自治体で導入された「行政判断ケース訓練」では、出場者の代わりに職員が登壇し、裁量の説明が競技風に整理されてしまった。内部資料では、訓練の再現率(同条件で判断が一致する割合)が「初回42%から第4回68%へ上がった」とされるが、これは判断力というより“型”が浸透しただけではないかという見方もある[7]。
競技形式[編集]
大会は予選・準決勝・決勝の三段階で構成され、各段階で提示される判断ケースの性質が変化する。予選は比較的短いケース(300〜520字程度)で、準決勝は小規模データ(グラフ3種+注釈5つ)を含む。決勝では倫理的ジレンマが混ぜられ、「あなたが担う責任範囲はどこまでか」が問われるとされる[8]。
口頭防衛では、結論提示から最初の根拠までに「10秒以内」というタイム制限がある。制限を超えると、結論自体が加点対象でも“根拠整合”が半減すると運営が明記している。このルールが、判断を“熟慮”から“圧縮”へ導く要因になったと分析されている。
また、ケースには必ず「情報の欠落」が仕込まれる。出場者は欠落を補う推測をしてよいが、推測の区別(断定・推定・保留)が採点に直接影響する。なお、断定率は「採用根拠のうち断定が占める割合」として算出され、断定率が高すぎると“反証耐性”が減点されるとされる[9]。
評価指標と採点の“癖”[編集]
審査基準は大きく分けて「根拠整合」「反証耐性」「説明の簡潔性」から構成されるとされる。根拠整合は、提示された情報と結論の間に矛盾がないかを確認する項目である。反証耐性は、審査員が提示する反対条件に対し、判断がどう変形するかを評価する項目である。
説明の簡潔性は、文章の長さそのものではなく“情報の密度”で測られるとされる。具体的には、1文あたりの概念数(名詞・動詞のカウント)を基準にし、密度が中庸のチームほど加点されるという。
この採点モデルが、運営側にとっても扱いにくいことが問題化した。大会後の報告会では、「密度の計算に使った形態素解析器のバージョンが違うと結果が変わった」という指摘が出たとされる。実際、MFSTの講習資料には、解析器の変更履歴が「1.3.7→1.3.8」で、評価が平均で「+0.7点」動いたと記されていたという[10]。
批判と論争[編集]
判断甲子園には、学術的な批判が複数ある。第一に、判断の“質”を説明の形へ寄せすぎているのではないかという点である。説明が上手い者が勝ちやすく、根拠の実体が薄いケースが評価される可能性があると指摘されている[11]。
第二に、審査員が“反証耐性”をどの程度まで許容するかが、制度上ブラックボックスになりやすいという問題である。審査員が持ち込む二次質問の種類が偏ると、特定の判断スタイルに有利・不利が生じる可能性があるとされる。
第三に、準決勝で使用されるデータの“作り込み”が争点化した。具体的には、ある年のデータケースで、グラフの縦軸が「0起点ではなく、2.5から開始」になっていたため、出場者の推定が意図せず揺れたという不満が出た。大会公式は「教育上の工夫」であるとしていたが、当該年の予選敗退者の保護者が公開質問状を提出し、議論は数週間続いたとされる[12]。
脚注[編集]
脚注
- ^ 森田亮平『反証耐性で読む教育評価』MFST出版局, 1992.
- ^ Katherine R. Wells, “Explainability Under Time Pressure in Adolescent Debates,” Journal of Decision Instruction, Vol. 8, No. 2, pp. 41-63, 1997.
- ^ 山崎貴志『判断の儀式化とルーブリック政治』学術書房, 2001.
- ^ 田中渉『夜間校内放送と訂正テープ運動』校務研究叢書, 1990.
- ^ 中村梢『海浜学術ホールにおける採点再現性』公開審査研究会誌, 第5巻第1号, pp. 12-29, 2005.
- ^ Adriana López and Jun Park, “Question Intensity Normalization for Panel Scoring,” International Review of Rubric Design, Vol. 13, No. 4, pp. 210-233, 2009.
- ^ 【曖昧】“Handan Koshien Scoring Manual” MFST Technical Notes, Vol. 1, pp. 1-88, 2013.
- ^ 小西由香『行政判断ケース訓練の再現率:数字の物語』自治体人材政策研究, 第12巻第3号, pp. 77-99, 2016.
- ^ R. S. Hart, “Morphological Parser Drift and Its Educational Consequences,” Computational Pedagogy Letters, Vol. 22, No. 1, pp. 5-19, 2018.
外部リンク
- MFST公式アーカイブ
- 海浜学術ホール公開資料室
- 判断甲子園運営フォーラム
- 審査員トレーニング・ポータル
- 教育評価データバンク