東京大学教育学部 教育評価講義 講義ノート (2025年度)

(以下のセクションの数字はまとまりを示すものであって,講義回を示すものではありません。)

1. 教育関係者が身につけることが求められる教育評価の知識と技能

全米教育測定協議会(NCME: National Council on Measurement in Education)による Foundational Competencies in Educational Measurement を読み,大学での教育評価測定に関する講義で学生に身につけさせるべきコンピテンシーを検討する。

  • 参照する文献
    • Ackerman, T. A., Bandalos, D. L., Briggs, D. C., Everson, H. T., Ho, A. D., Lottridge, S. M., Madison, M. J., Sinharay, S., Rodriguez, M. C., Russell, M., Davier, A. A., & Wind, S. A. (2024). Foundational Competencies in Educational Measurement. Educational Measurement, Issues and Practice, 43(3), 7–17. https://doi.org/10.1111/emip.12581
  • 論文の内容
    • この論文は,全米教育測定協議会が検討してまとめた,大学学部レベルの教育評価測定に関する講義で学生に身につけさせるべきコンピテンシーの一覧である。このコンピテンシーは(1)対話と協力,(2)技能,(3)教育測定の3つのドメインで構成されており,(3)教育測定に関するコンピテンシーはさらに(A)文脈:歴史的・文化的,政治的行政的側面,(B)妥当性・公正性の側面,(C)理論的・方法論的側面,(D)正確性・一般化可能性的側面,(E)心理統計的側面の5つの下位領域が設定されている。教育測定に関するコンピテンシーの5つの下位領域を検討すると以下の通りである。
    • A. 文脈:歴史的・文化的,政治的行政的側面:教育評価に関する知識として,歴史的,文化的,政治行政的側面のものが必要と述べられ,具体的な題材例として(a)知能検査の歴史と誤用,(b)政治や行政に及ぼす影響の肯定的,否定的の両側面についてが挙げられている。また,classroom assessment (日本語では学習評価という)についてもこの領域に含まれるとされ,テスト実施の方法なども扱うとされている。
    • B. 妥当性・公正性の側面:教育測定を妥当に行う方法やテストスコアの妥当な解釈と公正な利用についての知識が必要と述べられている。
    • C. 理論的・方法論的側面:学習の理論は測定道具の開発と妥当性の確保に重要と述べられている。
    • D. 正確性・一般化可能性的側面:一般化可能性,信頼性係数,誤差を扱うと述べられている。
    • E. 心理統計的側面:古典的テスト理論,現代テスト理論,心理統計を扱うと述べられている。
  • このスタンダードにもとづきながら,本講義で扱うべきと思われる内容
    • A. 文脈:歴史的・文化的,政治的行政的側面
      • 教育測定と評価の歴史という点で,教育測定運動 (Thorndikeに代表されるもの) を取り上げる必要があると思われる。したがって,以下のような課題を学生に課すこととした。
        • [課題1]教育測定運動とはどのようなもので国内外の学校教育に対してどのような影響をもたらしたのかを, 江口潔 (2010). 教育測定の社会史─田中寛一を中心に 田研出版; 田中寛一 (1926) 教育的測定學 松邑三松堂 など(いずれも図書館蔵書あり)を参考に調べまとめる。
        • 論文で例示されている,知能検査の歴史とその過程における人権侵害的誤用については重要と思われるが,講義日程に余裕があったら扱うこととする。
      • 政治や行政に及ぼす教育評価の肯定的,否定的影響は学生の関心も高いと思われる。したがって,以下のような課題を学生に課すこととした。
        • [課題2]全国的,国際的な学力検査が重視されるようになった教育行政的背景とこれらが重視されることでもたらされたポジティブ,ネガティブな影響を調べまとめる。
      • 教育評価測定の中でも学習評価 (classroom assessment) は重要な領域であるため,この講義で扱う必要がある。したがって,以下のような課題を学生に課すこととした。
        • [課題3]以下の論文を読んでClassroom assessmentで何が重要なのかをまとめる。
          • Wilson, M. (2018). Making measurement important for education: The crucial role of classroom assessment. Educational Measurement: Issues and Practice, 37(1), 5–20. https://doi.org/10.1111/emip.12188(図書館契約電子ジャーナルに収載)
          • Brookhart, S. M. (2020). Feedback and measurement. In S. M. Brookhart & J. H. McMillan (Eds.), Classroom assessment and educational measurement (pp. 63–78). Routledge.(図書館契約電子ブックに収載)
    • B. 妥当性・公正性の側面
      • 別に開講されている教育測定の講義で扱うべき内容であると思われるため,この講義では扱わないこととした。
    • C. 理論的・方法論的側面
      • 認知心理学の教育測定に対する意義を扱うとよいと考え,以下の課題を学生に課すこととした。
        • [課題3]Snow, R. E., & Lohman, D. F. (1989). Implications of cognitive psychology for educational measurement. In R. L. Linn (Ed.), Educational measurement, 3rd ed. (pp. 263–331). Macmillan. の第1節,第2ー5節,第3節を読んで認知心理学の教育測定に対する意義をまとめる。
      • このほかに適性処遇交互作用についても扱うべきと思われるが,講義日程的に余裕があったら扱うこととする。
    • D. 正確性・一般化可能性的側面
      • 別に開講されている教育測定の講義で扱うべき内容であると思われるため,この講義では扱わないこととした。
    • E. 心理統計的側面
      • 別に開講されている教育測定の講義で扱うべき内容であると思われるため,この講義では扱わないこととした。
  • 上記の4課題の他にも,以下のような話題を取り上げるとよいのではないかとの意見が学生から出された。これらについては講義日程に余裕があったら扱うこととする。
    • 教育によって高まった,広がった,深まった能力はそもそも測定可能なのだろうか。
    • 認識的不正義(知識を伝達し経験を意味づける認識実践が偏見によって歪められる不正義)という哲学的視座からの教育評価・測定に関する議論
    • 数値によらない学習評価のありかた
    • いわゆる high-stakes testing がもたらす様々な影響
    • 評価が被評価者に与える影響
    • 評価者と被評価者の関係のありかた
    • Feedback と grading

2. 教育評価の歴史的・政策的側面

2.1 教育測定運動の国内外の学校教育に対する影響

講義の要約

教育評価の歴史的・政策的側面として,教育測定運動の国内外の学校教育に対する影響を江口(2010),田中(1926)を主要文献として検討した。

教育測定運動とはThorndikeの「全て存在するものは分量的に存在する。分量的に存在するものはこれを測定することができる。」というキャッチフレーズのもとで,教育のあらゆる場面に標準偏差を単位とした客観的な測定を導入し,教育内容の改善や効果の向上を目指した運動である。Thorndikeに大きな影響を受けた田中寛一は,人の優劣正否は楯を覆ってもなお定まらないものであるとも述べた上で,それでもなお児童生徒の変化の方向とその度合いを知ること,測定の行われた時点からその子供の将来を推察することの必要を主張した。測定の範囲は教科学力のみならず情操的,操行的な側面についても必要を指摘し,教科学力の中でも技能面については成果物見本を用いた測定方法としてThorndikeらが示した具体策を紹介している。さらに田中寛一は教育測定を教育内容のみならず教育方法や学習者の態度改善をも目的とすることを主張し,これは現在で言うところの形成的評価と呼ばれるものを同様の発想である。一方で,能力とは何かという定義が十分ではないままに測定が行われたという側面も指摘できる。

引用文献
  • 江口潔 (2010). 教育測定の社会史─田中寛一を中心に 田研出版
  • 田中寛一 (1926) 教育的測定學 松邑三松堂

2.2 能力・学力とは何か

講義の要約

2.1節(教育測定運動の国内外の学校教育に対する影響)で話題となった大正末期から昭和初期のメンタルテストについて,小学生全集編輯部(編) (1929). メンタルテスト集 小学生全集編輯部(編)  小学生全集 第83巻 興文社 の実物を手に取りながら,具体的な項目を検討するとともに,当時の中学校入試にメンタルテストを導入しようとする動きがなぜ起こったのか(第一次大戦後の産業構造の変化にともなう進学希望者の増と中学校数不足にともなう尋常小学校での教科学習の受験対策化の是正のための教科学力以外の選抜方法を導入しようとした)を解説した。

このように戦前の能力観・学力観について検討したうえで,城戸 (1969),田中 (2003) を講読し,教育測定運動以後の教育測定に対する教育心理学からの問題意識と,標準偏差を単位とした指標の代替としての真正の評価論までの流れを概説し,教育心理学が重視するテストによる能力測定の意義を考察した。

なお,「メンタルテスト集」は講義で扱ったものと異なる版と思われるが,以下のwebpageで実物の閲覧が可能。
https://dl.ndl.go.jp/pid/1717322

引用文献
  • 城戸幡太郎 (1969). 学力の問題 教育心理学研究, 1(1), 1-8. https://doi.org/10.5926/jjep1953.1.1_1
  • 小学生全集編輯部(編) (1929). メンタルテスト集 小学生全集編輯部(編)  小学生全集 第83巻 興文社
  • 田中耕治 (2003) 「学力」という問い─学力と評価の戦後史からの応答─ 教育学研究, 70(4), 473–483. https://doi.org/10.11555/kyoiku1932.70.473

2.3 教育評価と教育行政

講義の要約

全国的,国際的な学力検査が重視されるようになった教育行政的背景とこれらが重視されることでもたらされたポジティブ,ネガティブな影響を検討した。
1980年代後半から,教育政策の効果を国際比較して自国の教育政策を評価しようとする動きが起こり,10年ほどの準備期間を経て実施されたのがPISAである。この調査のインパクトとして特に挙げることができるのが,第1回調査結果公表後のドイツにおけるPISAショック,そして第2回調査結果公表後の日本におけるPISAショックであろう。ドイツでのPISAショックは,3つの領域全てで調査参加国の平均を下回るという結果が,これまで世界で最も優れていると自認してきたドイツの教育関係者に大きな影響を与え,学校教育にコンピテンシーの概念を導入し,全国共通の到達目標を示すといった改革の実施を促した。一方で,PISAの上位国では教育政策に刷新性がなくなるといった指摘も見られる。
PISAはいわゆる学力の一部分を測定しているに過ぎないものの,ドイツや日本でのPISAショックと呼ばれる現象が起こった事からも分かるように,その結果は国レベルの教育政策に与える影響は大きい。日本では第二期教育振興基本計画で,国際的な学力調査の平均得点を調査国中トップレベルにすること,習熟度レベルの上位層を増加させと下位層減少させることが成果指標として取り上げられている。しかし,PISAのスコアが上がることと教育の質向上は短絡的に結びつけられるものではない。PISAの持つ国際比較可能性と経年比較可能性という特徴のうち,特に後者に着目して教育政策に対する結果という観点で結果を活用するべきではないかといった意見が講義内で出された。
日本でのPISAショックの影響を受けた政策の一つが,全国学力調査であるといえる。全国学力調査は1996年にEBEの必要を説いたHargreavesの講演,2001年の政策評価法の制定,2005年前後の義務教育国庫負担金制度見直しの議論の中で強調されるようになった財政負担の効果検証の必要,2000年代後半からの国内でのEBE推進の動き,その中での第2回PISAでの日本の読解リテラシーの順位急落にともなう学力低下論の高まりといった複合的な要因が,悉皆で行う全国学力調査の実施につながったと考えられる。この調査を行うことでいわゆる教育格差と呼ばれる問題が浮き彫りになった点には意義が認められる。しかし,PISAの特質でもある経年比較可能性がない調査は,都道府県や学校の序列化や競争の加熱をもたらしたという側面も指摘できる。また,地方分権を推進する教育改革の動きの中で,全国学力調査は教育行政の中央集権化を促していないかといった意見が講義内で示された。
この講義で一貫した問題として扱っている,教育測定研究における形成的評価と総括的評価の議論の混在という問題は,行政的な要請の強さもあって,解きほぐすことがなかなか難しいが,様々な要因の綱引きの中で解決策を見出すことができるだろうか。

3. 教育評価に関連する教育心理学理論

3-1 認知心理学の教育測定に対する意義

講義の要約

Snow & Lohman (1989) を講読し,古典的テスト理論に代表される教育心理学的な測定と,認知過程のモデル化を目指す認知心理学とが結びつくことで,教育測定研究の新たな展開と教育場面で重視される測定の変革がうながされるかを検討した。

この論文は実験心理学と相関心理学の統合によって教育心理学に新たなパラダイムがもたらされたことを取り上げ,教育心理学的な測定と認知心理学の統合が,学習の結果を示す測定から,学習可能性を示す測定への発展をもたらすことを指摘していると思われる。Snow は Cronbach とともに適性処遇交互作用の初期の研究を行ったほか,適性研究の第一人者として知られており,実験心理学と相関心理学の統合という考え方を取り上げている点で,Cronbach の影響を強く受けていることがうかがえる(Snow は Cronbach よりも20歳若かったが,Cronbach よりも4年若くして亡くなっており,Snow の追悼論文集の編者は Cronbach であった)。

Snow らがこの論文で主張しているのは,おおむね以下のようなことである。

  • 従来の教育心理学的な測定が個人を相対的に位置づけたり,測定のためにテスト項目を単純化しているという問題があり,テストは認知課題である以上認知心理学的な根拠が必要である。
  • 知識の領域固有性を踏まえつつ,誤答分析を重視し,よりよく問題解決できるようになる仕組みを明らかにする必要があり,これが実現することで認知過程を想定した学習者支援が可能となる。
  • 測定は能力の表れ (sign) を捉えるのではなく,処理過程を取り出す (sampling) ものとすべきではないか。

このような主張は,この講義で頻繁に取り上げてきた形成的評価と総括的評価を混在させることの問題を,社会的に合意できる形で改善するパースペクティブであるとも考えられる。ただし,この論文では diagnostic という用語が頻出しており,教育心理学的な測定と認知心理学の統合によって,個々の学習者の特定の強みや弱点,学習プロセス,認知能力などを詳細に特定し,それに基づいて個別化された指導や介入を行うことが可能となるとも述べられている。これは教育というよりは医療に寄った考え方ではないかと思われる。欠けたものや不足しているものを埋めるのではなく,人を「よく」することを目的とする教育が医療的な見方に引きずられないようにするためにどうするかという課題が残されていると思う。

引用文献

Snow, R. E., & Lohman, D. F. (1989). Implications of cognitive psychology for educational measurement. In R. L. Linn (Ed.), Educational measurement, 3rd ed. (pp. 263–331). Macmillan.

4. クラスルームアセスメント

4-1 学習評価の役割と効果

講義の要約

測定は評価のための一方法と捉えられることが多いと思われるが,ここでは 測定を形成的評価に使うことの重要性を論じた Brookhart (2020),Wilson (2018) を講読し,学習を促進する教育測定の在り方と,大規模調査や High stakes testing と形成的評価との関係を議論した。Brookhart (2020) は,測定とは特性を数値で示すことであり,科学者間で意味が共有可能となる手続きであることを指摘し,数値が示す構成概念の程度を解釈したうえで学習者に対して自己調整的な学習方略を利用できるようなフィードバックを行うことが重要であると主張している。Wilson (2018) も測定の意義については Brookhart (2020) と同様の主張をしているが,この点に加えて,とりわけ大規模テストを行うことでの数値化が,カリキュラムや学習指導をゆがめている実態が多く見られることも指摘している。これは,測定は能力の程度を数量的に示す手続きだが,数値だけにとどめずに解釈を加えてはじめてカリキュラム,学習指導,学習活動の改善につなげる形成的評価の実現につながるものの,測定の結果得られる数値を高めることに対する要求が往々にして強く働き,結果として測定がカリキュラム,学習指導,学習活動を,学校教育で本来行うべき姿とは異なる形にゆがめてしまう問題である。

これらの論文を読む限り,classroom assessment は形成的評価を主目的に,学習の改善につながるフィードバックを行い,学習を促進するようなものである必要と,assessmentという営為に対する被評価者の関与の度合いを高める必要を主張している。しかし,いわゆる「測定即評価」のようなものは批判され続け,また総括的評価と形成的評価は異なると主張され続けているにもかかわらず,教室で行うアセスメントは学習を促進することと教室で行われたことに対する説明責任を果たすことの両方が,そして,教育目標である能力を伸ばすこととその先の進路の実現のために数値を高めることの両方が,同時的に求められているために,総括的評価と形成的評価の区分けが実践的に行いにくいという問題が指摘できる。さらに,目標基準準拠の評価を行った場合でもその目標自体が学習活動や思考の幅に対する制約として働きかねないという問題も残る。教育評価・測定において形成的評価と総括的評価(特に選抜を目的としたもの)が混在し続けているという問題は,簡単に解決できるようなものではないと思われる。しかし,特に Wilson (2018) はいわゆる「評価の三角形」をうまくまわすには理論的基盤が重要であることを指摘しており,教授学習に関する諸理論がより精緻なものとなれば,形成的評価と総括的評価を混在させることの問題を変革する視座を社会的に合意できる形で提供できるのではないかとも考えられる。

引用文献
  • Brookhart, S. M. (2020). Feedback and measurement. In S. M. Brookhart & J. H. McMillan (Eds.), Classroom assessment and educational measurement (pp. 63–78). Routledge.
  • Wilson, M. (2018). Making measurement important for education: The crucial role of classroom assessment. Educational Measurement: Issues and Practice, 37(1), 5–20. https://doi.org/10.1111/emip.12188

5. Further issues

5.1 Further issues として取り上げるべき内容

講義の要約

この講義は,全米教育測定協議会(NCME)による,大学学部レベルの教育評価測定に関する講義で学生に身につけさせるべきコンピテンシーの一覧にもとづいて進めてきた。この一覧では,(1)対話・協力,(2)技能,(3)教育測定の3ドメインが示されている。さらに,教育測定ドメインには(A)文脈:歴史的・文化的,政治的行政的側面,(B)妥当性・公正性の側面,(C)理論的・方法論的側面,(D)正確性・一般化可能性的側面,(E)心理統計的側面の5つのサブドメインが挙げられている。
この講義では,(A)文脈:歴史的・文化的,政治的行政的側面として教育測定運動の国内外の学校教育に対する影響,能力・学力とは何か,教育評価と教育行政を,(C)理論的・方法論的側面として認知心理学の教育測定に対する意義を検討してきた。また,このコンピテンシー一覧に対して批判的に検討した Brookhart (2024) で重要と指摘されている classroom assessment の役割と効果についても検討した。なお,(B)妥当性・公正性の側面,(D)正確性・一般化可能性的側面,(E)心理統計的側面の3ドメインについては,隔年開講の教育統計講義で扱う内容と思われるため,この講義の対象外としている。
今回はこれまでに扱った内容をあらためてNCMEのコンピテンシー一覧に位置づけ直し,教育評価に関するコンピテンシーとしてどのようなことが身についたのかを整理した。そのうえで,学部で教育評価を学んだと言えるようにするためにさらに扱うべき内容を検討した。その結果,(C)理論的・方法論的側面に対する学習を深めるために,評価が学習者に与える影響(テスト不安,テスト観など)を扱うこととした。加えて,学校教育の成果として見なされる能力の変遷や幼児教育における能力のとらえ方などについて,認知能力・非認知能力の枠組みで検討することとした。

引用文献

Brookhart, S. M. (2024). Commentary: Where Does Classroom Assessment Fit in Educational Measurement? Educational Measurement, Issues and Practice, 43(3), 18–22. https://doi.org/10.1111/emip.12626

5.2 評価が学習者に与える影響

講義内容

NCMEの示した教育評価コンピテンシーの枠組みでいうところの(C)理論的・方法論的側面に対する学習を深めるために,評価が学習者に与える影響を,教育心理学研究掲載の複数の論文を講読し検討した。学習観とは何かということを整理した上で,学校段階,環境,指導,そして教育課程内で受けるテストに影響を受けて形成されること,用いる学習方略や思考の深さに影響を与えることを説明した。その後の議論は,望ましいテスト観を身につけたり,テスト不安を軽減したりするためには,学習者がテストを信頼するということが必要ではないかといった内容に発展した。医療をはじめとした文脈での検査と比べて測定対象が曖昧であること,テストの内容や採点結果が出題者や採点者によってばらつくこと,学習内容との一致度が明確とは限らない(習っていないことが出題され評価されてしまう,など)ことといった学力検査が持つ難点が,学習者(受検者)のテスト観やテスト不安に影響する可能性が考えられるという意見が出された。受検者側に信頼されるテストの条件を明らかにするとともに,仮にこのようなことが明らかとなった際にはこれを指導に反映させるような介入を行うことで,テスト観やテスト不安にどのような影響を与えるのかを検討することは,教育心理学の研究として興味深いのではないかと思われる。

5.3 教育の成果として重視される能力の変化と総括的評価の要否

講義内容

Heckman による研究が嚆矢となって,知能や学力以外の能力が長期的な社会的・経済的成功など多面的な効果をもたらすことが明らかにされてきた。このような知能や学力以外の能力は教育経済学では non-cognitive skills と呼ばれ,日本では非認知能力と呼ばれている。もっとも,skills であるので非認知能力「群」と訳したほうが誤解がなかったのではないかと思われる。non-cognitive skills は各国の教育政策に影響を与えているが,研究知見の普及のみならずOECDの提言によるところも大きく,日本もその例外ではない。non-cognitive skills は「自己に関わる心の力」(自分のことを大切にし、気持ちをコントロールし,自身を高めようとする心の性質)と「社会性に関わる心の力」(集団に溶け込み,他者との関係を作り維持する力)の2側面からなるというとらえ方もあるが(遠藤, 2017),これらは現行の指導要録の評価の観点の一つである「主体的に学習に取り組む態度」とも関係すると思われる。そのため,総括的評価の際にこの観点も対象とすることは,学力以外に重要と考えられる能力を評価するという点で重要と思われる。しかし,学力と比較して測定が困難といった理由から,最近ではこの観点を評定の対象から外すべきという議論も起こっている。新たな能力観が示され,その重要性が普及し,それら能力を育成する実践が増えている現状にあって,教育的に重要と考えられる能力を全て総括的評価の対象とするのか,一部だけにとどめるのか,全てを対象とした場合と一部を対象とした場合の利点と難点,といったことを議論する必要が生じていると思われる。

6. まとめ

講義内容

この講義では「教育評価が教育心理学の研究領域の一つである理由を説明した上で,教育心理学的な教育評価研究の歴史と動向,教育実践的観点からの妥当性,認知心理学との関連,学習評価が被評価者に与える影響をまとめ,全米教育測定協議会の示す大学学部レベルの教育評価測定に関する講義で学生に身につけさせるべきコンピテンシーの「教育測定」領域に含まれる歴史的・文化的,政治的行政的側面,理論的・方法論的側面のサブドメインに示された内容を十分に身につけた証拠となるレポートを執筆してください」という最終課題を提示している。この最終課題に取り組む手がかりを得るために,この講義で扱った内容を1枚の板書にまとめる作業を行った。全学生が3回,各々が大事だと思ったこと,板書された内容のつながり,まとまり,補足をする板書を行い,この講義で扱った内容を概念的に理解できるようにまとめた。