精密採点DX-G
| 分野 | 教育評価・検定運用 |
|---|---|
| 開発組織 | 採点研究協同組合(運用委託先含む) |
| 対象 | 記述式・口述式の部分採点 |
| 登場期 | 2000年代後半 |
| 特徴 | 採点規則を“対数スケール化”して差を可視化する |
| 方式 | ルールベース+統計補正+監査ログ |
| 社会的論点 | 正確性と説明可能性のトレードオフ |
| 後継 | 精密採点DX-G改(G2運用) |
(せいみつさいてん ディーエックス ジー)は、の教育・検定現場で用いられるとされる採点支援システムである。主に記述式課題の採点ばらつきを抑える目的で普及したが、運用設計をめぐり度々議論の的となった[1]。
概要[編集]
は、答案に対する採点者の判断を“スコアの揺れ”として捉え、規準からの距離を段階的に補正する仕組みとして説明される[1]。表面上は採点の標準化ツールであるが、実際には採点者の作法(読解の癖や読み飛ばしパターン)までログ化して、次回採点の前に自動で注意喚起する運用が組み込まれていたとされる。
名称の「DX」は、運用現場で“判定のデジタル化”を指す社内用語から来たとされる一方、「G」は重み付け係数を段階(グレード)で保持する思想を指すと説明される[2]。また同システムは、採点規則を直接点数に変換するのではなく、いったん“準距離”へ変換した後に点数へ戻すため、出力が直感的でないケースがあるとされる。ここが導入当初から賛否を呼んだ。
運用イメージとしては、にある採点センターで各答案がスキャンされ、監査ログが系の研修端末へ同期される流れがよく語られる[3]。このとき、答案の文字数だけでなく、句読点の密度や改行位置まで統計対象に含める設定があるとされ、細かな調整項目が多いことで知られていた。
成立と歴史[編集]
“揺れ”を数式化する現場の工夫[編集]
の原型は、2007年ごろにの小規模検定会場で起きた採点差問題に端を発したとする見解がある[4]。ある数学系検定で、同一答案が採点者Aでは満点相当、採点者Bでは平均点相当となる事例が続出し、その原因が“読みの順番”にあると疑われたという。
当時、運営は採点者を入れ替えるだけでは解決しないと判断し、答案ごとに「準備のしやすさ」を測る指標を作ったとされる。その指標は、文字の出現順をもとに“対数尤度の距離”へ写像するもので、完成版ではこれがGグレードの重みへ接続されたと説明される[5]。要するに、同じ内容でも採点者がどのタイミングで着目するかにより、システム側の期待分布が変わる設計だったとされる。
さらに、監査ログには「何行目で決めたか」を保存する欄があり、ある導入チームはこれを“五行決裁”と呼んだとされる。議事録では、決裁を行う行を第4行、第7行、第10行の三群に分け、合計の偏差が0.83点を超えた採点者は翌回に再研修を受ける運用が検討された、と記録されている[6]。もっとも、この“0.83点”の根拠については、後年「現場で偶然一致した数」との異説も残る。
全国展開と“細かすぎる設定”の固定化[編集]
2009年以降、が中心となって、全国の検定会場へ段階的に展開したとされる[7]。しかし移植には手作業が残り、移植担当は「設定表の行数が328行に達した」と報告したとされる。そこで、表を減らすのではなく“増やす”ことで誤差を吸収する方針が採られ、最終的に設定項目は計1,146個へ膨れたという[8]。
この時期には、採点者の疲労によるブレを補正するため、「午後2時17分からの減衰」を仮定する補正モデルが導入されたとされる[9]。ただし減衰は時間だけではなく、会場の空調温度(摂氏23.6度基準)と照明の色温度(ケルビンで4,200基準)にも依存するとされ、実務上は温度計と照明計が点検対象に加わったと記されている[10]。
一方で、会場側は設定の膨大さにより運用ミスが起き、最初の月だけで“Gグレードの参照先を一つずらしてしまう”事故が3件起きたとされる[11]。このときの復旧作業があまりにも早く終わったため、現場では「Gはずれても戻る」という迷信が広まった。その迷信が、後の改修を“復元優先”に傾けたとされる。
仕組みと仕様(解釈としてのDX-G)[編集]
は、採点者の判断を“点数”ではなく“準距離”へ落とし込むことで差分を調停する方式として理解されている[1]。具体的には、採点基準をベクトル化し、答案の特徴(語彙密度、否定表現の出現、論理接続の順序)からスコアの準距離を算出する。その後にGグレードの重み(係数表)を適用して、最終得点が生成されるとされる。
また、説明可能性の観点から「採点者が最終的に見た根拠スニペット」を画面に表示する機能があるとされる[2]。このスニペットは、答案のどの部分が“距離の縮小に効いたか”を逆算して提示するため、採点者にとっては理解しやすいと評価された。ただし運用上は、逆算が働きすぎるせいで「根拠らしさ」が先行し、採点者が本来の読み筋を捨ててしまう危険があると指摘された。
さらに、監査ログには「訂正回数」「再読発生」「注意喚起の既読率」などの項目が含まれるとされる。ある研修資料では、既読率が97%を下回ると“説明が足りない”扱いになる、と記された[3]。この97%という値は、統計的妥当性の議論よりも「現場の心理的閾値」として採用されたとされ、数値だけが妙に正確である点が笑い話になった。
なお一部では、DX-GのGが「グラム」だと誤解されたことも知られる。答案を1ページあたり何グラムの紙として扱うかが採点の誤差に影響する、という冗談が広まり、会場の紙質(坪量)を測る運用が一時期採られたとする記録がある[4]。もちろん同制度の正式文書では否定されているが、その否定文書自体が“否定のための誤読”を招いたとされる。
導入の影響と社会的反応[編集]
導入直後、は採点ばらつきを抑えたとして評価され、研修会の参加者は「採点者の入れ替えでも差が小さくなった」と報告したとされる[5]。たとえば、の運用試験では、同一問題での採点者間分散が“月次で平均14.2%減”となったと記録されている[6]。
一方で、学校現場では「正確さが増した結果、学習指導が“出力の癖”へ寄ってしまう」という懸念が広がった。具体的には、DX-Gが好む文章構造(結論→根拠→反証の順)に合わせる指導が加速し、内容そのものよりも“距離を縮める書き方”が優先されると指摘された[7]。この風潮は、国語科の授業だけでなく、の記述課題でも波及した。
また、採点者側では“システムの注意喚起に依存する”問題が報告され、あるベテランは「人間の目で読んでいるのに、目が自動で止まる」と表現したとされる[8]。ただしこの発言は採用会見の記録ではなく、後年のインタビューで語られたことになっているため、同時代性に疑問が呈された。
さらに行政面では、監査ログが詳細であることから、採点結果の統計が監査目的で使われるのではないかという懸念が出た。とくにの関連委員会は、ログの保管期間を巡って「5年」と「10年」の間で揺れたとされる[9]。最終的に運用は折衷案の“8年”に落ち着いたと記録されるが、なぜ8年なのかは明確ではないとされる[10]。
批判と論争[編集]
には複数の批判が存在するとされる。第一に、準距離への写像が直感から遠く、採点者や受験者が“なぜその点が出たか”を理解しにくい点が問題視された[11]。第二に、ログが詳細であるため、監査が教育の現場を萎縮させるのではないかという論点があった。
第三の論点として、数値の細かさが逆に信頼を壊すという指摘がある。たとえば、研修資料には「注意喚起の初動は0.31秒以内が望ましい」といった記述があり、これをそのまま採用した運用は“初動の速さ”を競う形になったとされる[12]。その結果、採点者の読解は早くなったが、誤読も増えた週があったという。
また、Gグレードの係数表がブラックボックス化しやすい点が批判され、係数表の公開を求める声も上がった。これに対し運営側は「公開すると“距離を縮めるための対策文章”が増える」と説明したとされる[13]。しかしその説明は、説明責任の観点からは不十分とされ、会合では「隠すのが正確さのためなのか、対策のためなのか」という鋭い質問が出たと記録されている。
なお、最大の笑いどころとして、DX-Gの導入担当者が「Gは“グロテスク”の略です」と冗談を言ったせいで、社内資料が一時期“グロテスク・モード”として配布された、とする逸話がある[14]。現場ではその直後にモードが戻されたが、変更ログだけが残っており、後日外部監査で指摘されかけた。真偽は不明とされるものの、周辺の証言だけは妙に一致している。
脚注[編集]
関連項目[編集]
脚注
- ^ 採点研究協同組合『精密採点DX-G運用要領(改訂第3版)』採点協同組合出版, 2010.
- ^ Margaret A. Thornton『Inter-Rater Variance and the Log-Distance Model』Journal of Educational Metrics, Vol.12, No.4, pp.211-239, 2012.
- ^ 渡辺精一郎『“準距離”による記述採点の標準化』教育評価研究, 第27巻第1号, pp.45-72, 2011.
- ^ 李明洙『Audit Logging in Computer-Assisted Scoring Systems』Proceedings of the International Conference on Assessment Tools, Vol.6, pp.88-101, 2013.
- ^ 田中めぐみ『採点者の癖をどう扱うか:DX-G設計思想の考察』日本教育工学会誌, 第19巻第2号, pp.130-156, 2014.
- ^ Sofia N. Kwon『Time-of-Day Effects in Human Scoring and Digital Correction』Educational Statistics Review, Vol.5, No.1, pp.1-18, 2015.
- ^ 文部科学省初等中等教育局『教育評価の監査運用に関するガイドライン(試案)』文部科学省, 2012.
- ^ 採点研究協同組合『監査ログの保管期間に関する整理(8年案)』採点協同組合出版, 2011.
- ^ 山崎克己『係数表の公開が誘発する“対策文章”の増殖モデル』検定制度研究, 第8巻第3号, pp.77-96, 2016.
- ^ Noboru Sato『DX-G and the Mystery of the 0.83 Threshold』Journal of Odd Educational Methods, Vol.2, No.7, pp.301-309, 2017.
外部リンク
- 精密採点DX-Gアーカイブ
- 採点研究協同組合 監査ログポータル
- 教育評価トラブルシューティング室
- Gグレード係数 掲示板
- 模範答案最適化フォーラム