テストは本当に必要なのか
| 分野 | 教育評価論・社会制度史 |
|---|---|
| 主題 | テスト(筆記/口頭/技能)の必要性 |
| 中心論点 | 能力測定、説明責任、選抜の正当性 |
| 登場の背景 | 大量教育・資格制度の拡張 |
| 関連概念 | ルーブリック、ポートフォリオ、監査可能性 |
| 主要な論者(架空) | カリン・ヴォルツ、渡辺精一郎、牧野リラ |
| 特徴 | 数字と運用の細部に踏み込む批評が多い |
| 典型的な論争 | “測れるものだけが学力か”という反問 |
(てすとはほんとうにひつようなのか)は、学習評価におけるの必然性を問い直す思想的論点である。1920年代から断続的に提起されてきたとされるが、実際には“検査”を中心に制度が組み替えられる過程で拡大した概念として説明される[1]。
概要[編集]
は、学校や企業の評価プロセスにおいてが担ってきた役割が、そもそも必要性に基づくのか、それとも制度維持の都合で残存しているのかを検討するための論点である。
一見すると、学力を測る道具が「便利だから使われる」だけでなく、監査可能な“数”へと変換することで責任の所在を固定する装置として機能している点に焦点が当てられることが多い。特にの監督文書では「学習成果の可視化」という語が繰り返され、テストはその中心として位置づけられるとされる[2]。
ただし本論点は単なる反テスト運動ではない。たとえば、テストがないと成績の裏付けが取れず、教員の裁量が過度に拡張される危険があるという“賛成側の条件”も同時に議論される。そのため、肯定・否定の両面から制度設計に踏み込む議論が積み重ねられてきたと整理される。
このようには「評価の技術」ではなく「社会の配分」まで含む問いとして扱われ、教育制度が大衆化するほど重要度が増す論点として説明されることが多い。なお、反論としては「テストの必要性は統計で示せる」という主張もあり、会議資料にはやけに細かい数字が添えられる傾向がある[3]。
用語の定義と“必要性”の測り方[編集]
本論点におけるは、単なる確認問題ではなく「同一条件で再現可能な採点」を伴う評価手続き全般を指す、とされる。ここには筆記試験のみならず、口頭試問、技能チェック、オンライン監督下のログ採点なども含まれる。
「必要性」はさらに三種類に分けて論じられることが多い。第一に、(誰をどこへ進めるかを決めるための手続き)、第二に、(第三者が結果を追認できる形で説明責任を果たすため)、第三に、(学習行動を整流するため)である。
各必要性は、実務上「何が測れて何が測れていないか」で争点化される。たとえば技能評価では、手順の正確さと安全性を分けて点数化する試みが行われ、採点者間のばらつきが許容範囲に収まるかが確認されるとされる[4]。
さらに、必要性が高いと判断するための基準として「再現率」「逸脱率」「監査コスト」などが用いられ、特定の研究では“テストを継続した場合の費用対効果”が、1単元あたり約0.83ポイントの改善として試算されたとされる。もっとも、この数値は引用元が追えないため、となり得るという指摘もある[5]。
歴史[編集]
起源:大量教育を支えた“採点可能性”[編集]
の問題意識は、近代的な大量教育の導入と同時に育ったとされる。特に、系統の官僚機構が全国試験網を整備した過程で、評価は“紙面上で完結すること”が重要視されたと説明される。
このとき鍵になったのが「採点可能性(grading feasibility)」という内部用語である。会議記録では、教員がその場で説明しなくても、後日別の担当者が同じ答案から同じ点数を再現できる仕組みが必要だとされ、そのための標準化が急速に進められたとされる[6]。
なお、標準化のために導入されたのが“二段採点”である。一次採点は同一教科内の担当が行い、二次採点は地区監査員が実施する運用が定着したとされる。ここでテストが「必要」になった理由は、単に成績管理のためではなく、監査が成立するほど運用が縮減される点にあった、と語られる。
一方で、標準化が進むほど評価が点数中心に傾き、「点数化されない学び」が見えにくくなる副作用も生まれた。これが後年、「必要性そのものを問い直す」論調を呼び込む土壌になったと整理される。
発展:企業研修から逆輸入された“ログ採点”[編集]
1950年代後半から、学校教育の評価思想は企業研修へ接続されるようになったとされる。工場の技能教育では、作業ログを記録し、逸脱の瞬間を検出することで“行動”を点数化できると主張された。
この流れは、港湾物流を扱うの研修プログラムに波及したとされる。同局の資料では、研修の最終評価を「動作時間」「危険接近回数」「標準手順逸脱回数」の三軸で点数化し、合計が100点に統一されたと記録されている[7]。
ただし論点はここで一段変化した。テストは知識確認のためではなく、監査のために必要になっていったのである。つまり“結果を追跡できるか”が中心となり、テストは徐々に「記録装置」へと変わっていった、と説明される。
この時期にが提示したとされる“必要性の二重化モデル”は、学校でも企業でも評価が「選抜」と「監査」に同時に働くため、テストは手段ではなく制度の要になり得ると述べるものであった。しかし同モデルは、後に一部で「現場の声を数値に変換する都合のよさがある」と批判された[8]。
また、1970年代には全国一斉テストの配布枚数が「1校あたり平均412.7枚(冬期)」というように細分化され、物流担当の都合が評価の設計に影響したとも記録される。この“数字の細かさ”が、むしろ疑念を呼んだとされる[9]。
現代:ポートフォリオは“テスト風監査”になった[編集]
21世紀に入ると、やを用いた多面的評価が推進された。にもかかわらずが消えなかったのは、代替手段が“監査可能性”を満たすためにテストに似ていく傾向を持ったからだとされる。
具体例として、自治体主導の学力把握事業では、提出物の評価に「審査員間一致率」を導入したと報告されている。ある県の試行では一致率が87.2%に達したとされ、達成条件が「提出フォームの入力順を統一する」ことであったとされる[10]。この運用は、実態として“行動が揃うほど一致する”仕組みであり、学びの多様さとは別に最適化されていた可能性があると議論された。
また、オンライン評価ではログが監査の代替として機能し、結果として「ログを見るためのミニテスト」が増えるという逆説が指摘された。こうして、テストは消えたのではなく形を変えた、という整理が広がったとされる。
なお、反対意見としては「テストは教育の骨格であり、廃止すれば格差が拡大する」と主張されることがある。しかし賛成側の根拠として示される統計が、地区ごとに集計方法が揺れているという指摘もあり、必要性の議論は完全には決着していないと説明される。
社会的影響と“現場の手触り”[編集]
が問題になるのは、理論の対立以上に、学校や企業の現場で評価が“時間の配分”として現れるからだとされる。テストの準備が授業の大半を占めるようになると、学習は理解よりも再現に向かいやすいという指摘がある。
その一方で、テストがあることで、学習の方向性が可視化されるという利点も語られる。特に保護者説明が必要な場面では、数字がコミュニケーションを短縮するため、「必要性がある」と判断されやすいとされる[11]。
ただし、コミュニケーションが短縮されるほど、「なぜ点が伸びないのか」の対話が省略される危険もある。この省略が蓄積すると、テストは改善の手段ではなく、現場の不満を処理する装置に変わっていく、と述べられることが多い。
また、採点負担の問題も大きい。ある試行では、答案1枚あたりの読み取り時間が平均3分42秒であり、提出締切から一次採点開始までの待機が中央値で9日だったと報告されている[12]。これらの数字は運用の都合を示す一方、「本当に学びを測っているのか」という問いを強める素材になったとされる。
批判と論争[編集]
本論点には、少なくとも三種類の批判が存在するとされる。第一に、は、テストが“比較”と“格付け”を生むため、学習意欲を損なうと主張する。しかし反論として、比較や選抜が完全に不要であるわけではない、という指摘がある。
第二に、は、テストがないと監査が成立せず、説明責任が崩れるため、結果的に汚職や恣意が増えるとする。この議論では、監査員が「同一採点基準で再現できること」を重視する。
第三に、という批判がある。ポートフォリオやルーブリックは多面的であるはずが、審査員の経験に依存し、結局“暗黙の採点”へ戻ってしまう、と指摘される。
この三つは互いに噛み合わないまま進行し、論争は制度設計の“言い換え”へと移っていくことがある。たとえば、ある省庁の内部文書では「テスト」という語を避けて「到達確認の手続き」と呼び換えたうえで、実運用は従来と同じであったとされる[13]。このような言葉の操作が、むしろ「必要性を隠しているのではないか」という反感を生むと指摘されることが多い。
なお、最も有名な逸話として、が学会で「テストは必要か不要かではなく、必要に見せるための配線である」と述べたと伝えられる。もっとも、その講演録は見つかっておらず、聞き書きのみが出回っているとされる[14]。
脚注[編集]
関連項目[編集]
脚注
- ^ 田中由紀『採点可能性の社会史:評価制度の隠れた設計』東都大学出版局, 2012.
- ^ Margaret A. Thornton『Accountability by Numbers: The Emergence of Test-Based Audits』Oxford Academic Press, 2016.
- ^ 渡辺精一郎『学習成果の可視化とその副作用』学芸図書, 1999.
- ^ 佐伯明人『学校評価の物流学:全国一斉手続きと現場』日本教育工学会出版, 2007.
- ^ Karin Voltz『Double-Layer Necessity in Educational Measurement』Journal of Comparative Educational Systems, Vol.12 No.3, pp.41-68, 1984.
- ^ 山田歩『ログ採点の倫理:オンライン監督下の点数化』教育政策研究, 第7巻第1号, pp.22-55, 2020.
- ^ 牧野リラ『ポートフォリオが再びテスト化する理由』教育監査年報, Vol.3 No.2, pp.101-130, 2013.
- ^ 文部科学省『到達確認手続きに関する運用指針(試案)』—, 2008.
- ^ 東京臨海物流監督局『技能評価プロトコル報告書(第4版)』東京臨海出版, 1959.
- ^ Graham Ellison『Reproducibility and Grading: A Practical History』Cambridge Studies in Assessment, Vol.5, pp.77-96, 2001.
- ^ 『教育評価用語辞典(改訂第9版)』学術書房, 2018.
- ^ 小野寺桂『統計で語る“必要性”の誤差』教育測定通信, 第2巻第12号, pp.5-19, 2011.
外部リンク
- 採点可能性アーカイブ
- 教育監査研究フォーラム
- ルーブリック運用部屋
- ポートフォリオ監査レポート館
- ログ採点・実装史サイト