教育心理学
早稲田大学大学院教育学研究科 修士課程
教育心理学
早稲田大学大学院教育学研究科 修士課程
この講義でのファイルのやりとりは,研究室のシステムを使います。
https://lab.educpsychol.com/app/pdf/
1 教育心理学のクラスへようこそ
1.1 このクラスの概要
- このクラスは,教育心理学を専攻としない院生であっても,学校教育の基盤としての教授・学習心理学の基本的概念,諸理論,研究知見を学べるように構成しています。
- 教育心理学の学習経験や知識を有無は問いません。様々な専門の院生が参加することで,参照する文献に示された知見をもとにしながら議論を深め,教室で教えることと学ぶことについて多面的に理解し,専門的な考え方が形成されるようにしたいと考えています。
- シラバスはこちらの通りですが,扱う文献は最新のものに差し替えます。
- 担当教員の Vita と,研究室 webpage。
- 2025年度の講義ノートを公開しています。
1.2 講読する文献
1.2.1 様々な学習方略の効果比較(Dunlosky et al., 2013)
この論文は,様々な学習方略の有効性に関する総括的レビューである。この講義の終盤にまとめとして用いる。この論文は教師をはじめとした教育にかかわる者として重要な示唆が多く含まれることため,院生が分担して逐語訳を作成し共有できるようにする。
- Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving students’ learning with effective learning techniques: Promising directions from cognitive and educational psychology. Psychological Science in the Public Interest, 14(1), 4–58. https://doi.org/10.1177/1529100612453266
1.2.2 系統的レビューとメタ分析について(Adesope et al., 2017)
いわゆる練習テストの効果が高いのは検索練習(retrieval practice)が起こるためと考えられている。この論文を用いて,系統的レビューとメタ分析について解説するとともに,その効果の背景を説明し,以後この講義で扱う論文を読み取れるようにする。この論文は担当教員が解説する。
- Adesope, O. O., Trevisan, D. A., & Sundararajan, N. (2017). Rethinking the use of tests: A meta-analysis of practice testing. Review of Educational Research, 87(3), 659–701. https://doi.org/10.3102/0034654316689306
1.2.3 効果的な教材の特徴
1.2.3.1 図の有無や種類,特徴による効果の違い(Lei et al., 2025)
テキストに図を追加することが理科の学習成果に与える影響を検討したメタ分析。図があることの学習成果に対する効果と,図の種類,特徴による効果の違いを検討している。注意,二重表象,認知負荷の観点からこれらの効果の背景を検討する。
- Lei, H., Chen, L., Chiu, M. M., Fang, L., & Ding, Y. (2025). Effects of Adding Illustrations to Texts on Students’ Science Achievement: A Meta-Analysis. Educational Psychology Review, 37(3), Article 71. https://doi.org/10.1007/s10648-025-10053-z
1.2.3.2 学習内容とは関係のない挿絵の効果(Cheng et al., 2026)
テキストや提示教材には学習者の注意を引くことを目的として学習内容そのものとは関係のない挿絵を入れることがあるが,これは本当に効果的なのか,メタ分析による研究知見を認知負荷理論の観点から検討する。
- Cheng, C., Wu, Y., Wang, R., & Wang, Z. (2026). Seductive details, cognitive load, and learning outcomes: A multi-level meta-analysis and MASEM. Educational Psychology Review, 38, 28.
1.2.4 学習者自身が用いる学習方略の効果
1.2.4.1 生成効果(Schindler & Richter, 2023)
学習者が学習すべきテキスト内容を受動的に受け取るのではなく,自ら生成する場合,学習はより効率的になることを生成効果という。この効果の平均的な大きさと調整変数効果に関する知見から,生成効果のメカニズムについて検討する。
- Schindler, J., & Richter, T. (2023). Text generation benefits learning: A meta-analytic review. Educational Psychology Review, 35(2), Article 44. https://doi.org/10.1007/s10648-023-09758-w
1.2.4.2 ノートテイキングの効果:手書きとデジタル(Flanigan et al., 2024)
ノートテイキングを手書きで行うか,タイピングで行うかのどちらが効果が高いかを検討したメタ分析。復習の有無や学習成果の種類による効果の違いも検討している。この効果の違いを処理水準仮説の観点から検討する。
- Flanigan, A. E., Wheeler, J., Colliot, T., Lu, J., & Kiewra, K. A. (2024). Typed versus handwritten lecture notes and college student achievement: A meta-analysis. Educational Psychology Review, 36(3), 78. https://doi.org/10.1007/s10648-024-09914-w
1.2.5 個人差要因の影響
1.2.5.1 個人差要因と数学学力の関連(Breit et al., 2025)
学力には様々な個人差要因が影響すると考えられているが,影響の大きさは様々である。言語能力・読解力,事前知識,教科関連語彙,知能,創造性,実行機能・ワーキングメモリ,空間認知能力,自己概念,ビッグファイブ性格特性などの数学学力に与える影響についてのメタ分析の結果から,個人差要因と学力との関係を包括的に検討する。
- Breit, M., Schneider, M., & Preckel, F. (2025). Mathematics achievement and learner characteristics: A systematic review of meta-analyses. Learning and Individual Differences, 118, Article 102621. https://doi.org/10.1016/j.lindif.2024.102621
1.2.5.2 学力の変わりにくさ(Scherrer et al., 2025)
学習をすればするほど,当然であるができることは増えていくので,能力としての学力は高まる。しかし,同一学年内での順位のようなものはどの程度入れ替わるのか。言い換えれば,相対的な学力はどの程度変化するのか。このような問いに応えようとしたメタ分析の結果を検討し,教育的介入のあり方と難しさを議論する。
- Scherrer, V., Breit, M., & Preckel, F. (2025). The stability of students’ academic achievement in school: A meta-analysis of longitudinal studies. Educational Research Review, 48, Article 100687. https://doi.org/10.1016/j.edurev.2025.100687
1.2.6 教室の中の他者の影響
1.2.6.1 ピアフィードバック(Lu et al., 2026)
Wisniewski et al. (2020) では学習者に対して教師が与えるフィードバック(\(d=0.47\))よりもピアフィードバック(\(d=0.85\))の方が効果が高いことが示されているように,教室で学習者どうしが与えるフィードバックの効果は一般に思われている以上に高いことが明らかとなっている。その効果の背景を,ピアフィードバックが学習者の情意要因に与える影響に関するメタ分析による知見から検討する。
- Lu, Z., Lei, H., Chiu, M. M., Mao, W., & Wang, S. (2026). Meta-analyses of peer assessment and affective outcomes: Motivation, self-efficacy, and anxiety. Educational Psychology Review, 38(1), Article 14. https://doi.org/10.1007/s10648-025-10098-0
1.2.6.2 子どもどうしの相互交渉を行う学習の効果(Tenenbaum et al., 2020)
子ども同士の相互交渉による学習は,構成主義的学習理論の枠組みにおいて重要視されており,とりわけピアジェおよびヴィゴツキーの理論的立場と深く関連している。ピアジェは,子ども同士の相互交渉の方が,子どもと大人の相互交渉よりも効果的であると考えた。これは,大人との相互交渉では子どもが受け身になりやすいためである。一方,ヴィゴツキーは,子どもと大人の相互交渉の方が学習をより促進すると考えた。また,相互交渉による学習では,子どもに合意形成を経た結論の導出を求める場合と,必ずしもそれを求めない場合がある。道徳性の発達に関する研究知見を敷衍すると,社会認知的葛藤場面では,合意形成を図る過程においてより努力的な思考が必要となり,その結果として均衡化が生じるため,認知能力の発達に寄与すると考えられる。ここでは,相互交渉による学習の効果を検討した62本の論文(71研究)のメタ分析の結果示された,子ども同士の相互交渉による学習の平均的な効果と調整変数効果を検討する。
- Tenenbaum, H. R., Winstone, N. E., Leman, P. J., & Avery, R. E. (2020). How effective is peer interaction in facilitating learning? A meta-analysis. Journal of Educational Psychology, 112(7), 1303–1319. https://doi.org/10.1037/edu0000436
1.2.6.3 子どもどうしの人間関係と学力(Wentzel et al., 2021)
子どもどうしがフィードバックを与え合ったり,相互交渉を行いながら学習をするには,人間関係が良好であることが求められるはずである。ここでは,仲間から社会的に受容されることと学力との関係についてのメタ分析の結果を検討し,多数の学習者がともに過ごす教室のありかたを議論する。
- Wentzel, K. R., Jablansky, S., & Scalise, N. R. (2021). Peer social acceptance and academic achievement: A meta-analytic study. Journal of Educational Psychology, 113(1), 157–180. https://doi.org/10.1037/edu0000468
2 講義予定
| 回 | 月日 | 内容 | 論文 | 担当 |
|---|---|---|---|---|
| 1 | 4月14日 | 講義の進め方の説明 教育心理学とは何か |
||
| 2 | 4月21日 | 系統的レビューとメタ分析について | Adesope et al. (2017) | 教員 |
| 3 | 4月28日 | 発表準備 Dunlosky et al. (2013) の逐語訳のアサイン |
||
| 4 | 5月12日 | 効果的な教材の特徴(1) | Lei et al. (2025) | |
| 5 | 5月19日 | 効果的な教材の特徴(2) | Cheng et al. (2026) | |
| 6 | 5月26日 | 学習者自身が用いる学習方略の効果(1) | Schindler & Richter (2023) | |
| 7 | ||||
| 8 | 6月9日 | 個人差要因の影響(1) | Breit et al. (2025) | |
| 9 | 6月16日 | 個人差要因の影響(2) | Scherrer et al. (2025) | |
| 10 | 6月23日 | 教室の中の他者の影響(1) | Lu et al. (2026) | |
| 11 | 6月30日 | 学習者自身が用いる学習方略の効果(2) | Flanigan et al. (2024) | |
| 12 | 7月7日 | 教室の中の他者の影響(2) | Tenenbaum et al. (2020) | |
| 13 | 7月14日 | 様々な学習方略の効果 4月にアサインした逐語訳を提出し内容を検討 |
Dunlosky et al. (2013) | |
| 14 | 7月21日 | まとめ |
3 教育心理学とは
3.1 教師の仕事における教育心理学の位置づけ
4段階教授法(明瞭・連合・系統・方法)や「教授のない教育というものの存在は求められないし,また教育のない教授も認められない」というフレーズで著名な Herbart は,1806年に著した Allgemeine Pädagogik aus dem Zweck der Erziehung abgeleitet1 で,「科学2としての教育学は,実践哲学と心理学を拠り所にする。前者は陶冶3の目的を示し,後者はその過程4,方法5,難しさ6を示す。」と述べているようである。もっとも,現在の心理学は Wundt が興した実験心理学から発展したものであること,心理学の起こりは Wundt が1875年にライプツィヒ大学に着任し心理学実験室を設け,1879年に大学の講義科目として心理学演習が設置されたあたりとされていることからも, Herbart の言う「心理学」と現在の「心理学」や,実験心理学からの流れを引き継ぐ教育心理学とは別物である7。
Herbart の「教育の方法を心理学に」という主張に見られる心理学とは,表象力学と言われるものであり,人の中に形成される表象は,表象どうしが互いに結びついたり打ち消しあったりするという動的な過程を経て体系として形成されるという考え方である。そして,学習とは新しい表象が既存の表象と結びつくことで成立するものであると考えた。このような考え方は,実験心理学の影響を受けて発展した行動主義的な学習研究とは深い関係は見られないものの,現在の認知主義的な学習研究の考え方に近いと考えられる。
上記の内容から導かれるのは,教育哲学と教育心理学は,教授が必ずともなう学校教育を構想し実践するために不可欠であり,教職科目の基幹科目であるということである。そして,教師の仕事の大半は教科指導であるが,その中で教師は生徒に,「学識で圧倒し,分からせることで振り向かせる」ことをし続けなければならない。この「分かる」仕組みや,その過程に対する働きかけ方を,実証的に記述し理論化するのが教育心理学である。
3.2 教育心理学の枠組み
教育心理学はおおむね,以下に示す2つのモデルを参照し,それぞれのモデルにおける変数を考慮し,また調整しながら学習成果を高めるメカニズムを明らかにしようとする研究領域と言える。
3.2.1 学習率(Carroll, 1963)
学習率は学習に必要な時間に対して実際に学習に費やした時間によって高低が生じるというモデルである。
\(Degree\ of\ learning = f(\frac{time\ actually\ spent}{time\ needed})\)
一般的には,学習に費やす時間を増やせば学習は成立しやすい(学習率が上がる)と考えられがちである。そのため,多くの学校では学習時間を増やそうとして,授業時数や持ち帰り学習の時間を多くするという手立てがとられることが多い。しかし,単に学習時間を増やせば学習成果が高まるのではなく,実質的な学習時間,すなわち,知識の付加と再構成につながる処理が行われる時間が確保されなければ,学習成果にはつながらない。課題従事行動8をうながしたり,浅い処理ではなく深い処理をうながしたりといったことが必要である。このようなことをうながす具体的な手立てを構想し実践するための理論的背景を,教師は知っていなければならない。
また,学校での学習では,限られた時間の中で多くのことを学ぶことが求められる。そのため,学習時間を増やそうとしても限界がある。そのため,このモデルの分母である「学習に必要な時間」を減じることで学習率を高める策をとる必要がある。そのためには新情報を与える際の提示の仕方や,認知負荷を軽減するための手立ての取り方といった教授方略を教師が用いるとともに,学習者自身が効率的に学習を進めるための学習方略を利用できるようにする必要がある。このような教授・学習方略が学習者の処理のありようを規定し学習成果につながる機序も教師は理解し,具体的な実践につなげる必要がある。
3.2.2 適性処遇交互作用(Cronbach & Snow, 1977)
適性とは所与の条件下での学習成果を予測しうる学習者の個人差を指し,処遇とは教授法,学習方法,時間などの操作可能な学習条件を指す。そして学習成果が適性と処遇の組み合わせによる効果として現われることを適性処遇交互作用(ATI)という。行動が引き起こされる条件を明らかにするために人為的に条件を設定し,条件と行動との因果関係や主効果を明らかにすることをめざす実験心理学のアプローチと,知能などの個人差要因の高低と学力検査得点の高低といった変数間の相関関係を明らかにすることをめざす相関研究のアプローチを統合したパラダイムである。
個人差によって適合する教授法は異なるにもかかわらず,教授法研究においては,すべての学習者に対して効果的な万能薬的教授法の開発がめざされ,学習成果に影響を与えうる適性は誤差としてしか扱われてこなかった。一方,適性研究においては一定の学習成果に到達するために必要な適性を明らかにすることに主眼がおかれ,処遇に対しては関心が十分に払われてこなかった。これらの研究のアプローチとは異なり,学習成果に影響を及ぼしうる適性と処遇の両方を研究の俎上に載せることで,個に応じた学習指導を検討する際の方針を提供しうる研究をめざすことが,ATIの教育的意義である。
ATIの典型的な例を示すと Figure 1 のようになる。横座標が適性Aの高低,縦座標が学習成果\(O\)の高低,2本の直線が処遇(\(T_1\),\(T_2\))ごとの\(O\)のAへの回帰直線,縦座標の曲線が処遇ごとの\(O\)の分布,横座標の曲線が適性Aの分布である。この場合,\(O_1\)より\(O_2\) の方が高いため,処遇の主効果が見られるといえる。また,いずれの直線も右肩上がりであることから,適性の主効果も見られるといえる。しかし,2本の回帰直線の交点を境にして,適性高群においては\(T_1\)の方が,低群においては\(T_2\)の方が\(O\)が高く,適性Aの高低によって処遇Tの効果が異なる。このように回帰直線の交差や非平行性が見られることを交互作用という。
このパラダイムに立つと,学習者の適性に関する情報を取得し,その適性にあわせた指導を行うといった最適化を行うとよいという示唆が導かれがちである。しかし,適性そのものが教育によって変化しうる可変的な特性であり,安定した個人差要因とは言えないという問題がある。このような不安定な個人差要因を前提として最適化を図ることは合理的とは言いがたい。さらに,実際の学習指導は単一の教授法によって行われるものではなく,複数の教授方略と,学習者が用いる学習方略とが組み合わされながら展開されるものである。このような考え方に立つと,重要なのは,様々な指導方略,学習方略が学習成果をもたらす機序と,その機序に与える個人差要因の影響を理解したうえで,これらを複数組み合わせた際にうながされる処理のありようを学術的かつ合理的に組み立てて構想する必要を指摘することができる。
4 系統的レビューメタ分析・練習テストの効果(Adesope et al., 2017)
- 以下の内容は録音データをAIで文字起こしと要約を行って作成したものであり,正確性は保証しない。
- Adesope, O. O., Trevisan, D. A., & Sundararajan, N. (2017). Rethinking the use of tests: A meta-analysis of practice testing. Review of Educational Research, 87(3), 659–701. https://doi.org/10.3102/0034654316689306
4.1 はじめに──論文のどこに注目するか
本日扱う論文には,冒頭に背景とリサーチクエスチョンが5つ並んでいるが,まずそれらをいったん読み飛ばし,669ページの Figure 1 に注目してほしい。この図は,系統的レビュー(システマティックレビュー)の手順を示した,いわゆる PRISMA 図と呼ばれるものである。この図が何を意味しているのかを理解することが,メタ分析研究を読み解く第一歩となる。
4.2 系統的レビュー(システマティックレビュー)の手順
4.2.1 メタ分析とは何か
メタ分析とは,研究知見の統計的な統合,すなわちリサーチシンセシスの一形態である。研究知見を集めて統合するという作業自体は,卒業論文のレビューを書く際にも皆が経験している。一般的には,PsycINFO や類似のデータベースでキーワードを検索し,中心となる論文から引用文献をさかのぼり,指導教員から推薦された代表的な論文を加えていく,という手順を取ることが多い。この方法は決して悪くはないが,自分でたどっていくだけでは抜け漏れが避けられない。
サイエンスにおいて重要なのは再現性である。したがって,レビューの方法も再現可能でなければならない。メタ分析の大きなポイントのひとつは,この再現性にある。再現性を高め,かつ的確な文献選定を担保するために,系統的な手続きが踏まれる。
4.2.2 データベースの決定
まず,検索対象とするデータベースを決める。この論文では668ページ中ほどに記載があるように,ERIC,PsycARTICLES,PsycINFO,Web of Science が用いられている。どのデータベースを使えるかは所属機関の契約状況に依存する面があり,早稲田大学のように契約が充実している機関ではここに挙げられたものはすべて利用可能である。
4.2.3 検索式(ブーリアン検索)の確定
次に検索式,すなわちキーワードの組み合わせを決定する。この論文では AND や OR といった演算子を用いた,いわゆるブーリアン検索の式が記述されている。重要なのは,この検索式を論文中に必ず残しておくことである。検索式を残すことにより,第三者が同じ手続きをたどれるようになる。
4.2.4 文献の抽出と絞り込み
検索式を用いて論文を抽出した結果,この研究ではおおむね1717本が得られ,これが次ページの Figure 1 の起点となる数字にほぼ対応している。ここから,以下の手順で文献を絞り込んでいく。第一に,複数のデータベースを使っているため必然的に生じる重複を除く。第二に,適格性基準(除外基準)に照らして,タイトルとアブストラクトのレベルで不適合のものを抜く。2017年当時はいきなり本文を読むのは困難だったため,アブストラクト段階での除外が行われ,1200本程度が除外され,388本が残った。第三に,契約している電子ジャーナルの都合等で入手できない50本程度が落ち,333本が全文精読された。最終的に,対象群を設けて量的に比較している研究という絞り込みを経て,118本が分析対象として残った。
ここで強調されるのは,どのデータベースを使い,どのような検索式を立て,どのような基準で除外したかが論文中にすべて明記されているという点である。これにより第三者が追試を行っても同じような手続きで同じ論文群が残る,すなわち同じデータが再現されることになる。こうしたレビューを系統的レビュー(システマティックレビュー)と呼ぶ。
4.2.5 系統的レビュー以前の文献収集
補足として,データベースが電子化される以前は,文献収集の様相はまったく異なっていた。分野ごとの研究論文目録(心理学,教育学,英語学などで文部省等が編集したもの)が毎年刊行されており,図書館でそれをめくりながら該当しそうな論文をメモし,次に図書館の目録カードで所蔵棚を調べ,ブックトラックを押して書庫を回り,該当雑誌を抜き出し,コピー機で複写して元に戻す,という手順が取られていた。こうした時代にも系統的な文献レビューに取り組んだ研究者はいたが,容易な作業ではなかった。ジャーナルの電子化とデータベースの整備があってはじめて広く可能になった研究手法である,という点を押さえておきたい。
4.3 統計的統合としてのメタ分析
4.3.1 なぜ共通尺度化が必要か
系統的に集めた文献群を,次に統計的に統合する。ここで問題となるのは,各研究の用いたテストや指標の尺度が一致しないことである。たとえばある研究では実験群の平均が15点(SD = 5),統制群の平均が10点(SD = 4)だったとする。別の研究では実験群の平均が68点(SD = 20),統制群が42点(SD = 18)だったとする。満点も幅も異なるため,そのまま平均差を足したり引いたりしても意味をなさない。物差しが違うからである。
4.3.2 効果量──標準偏差を単位とした共通尺度
そこで心理学では,平均差を標準偏差で割ることで単位を揃える。これが効果量 d の基本的な考え方である。標準偏差というのは,正規分布を仮定すれば平均から上下1 SD の範囲にデータの約68%が含まれるという,分布の幅を示す量である。この標準偏差を物差しとして用いれば,異なる研究の効果を共通の尺度に乗せることができる。論文の670ページには g の計算式が載っているが,g は d に補正係数をかけたもので,本質的な考え方は同じである。
日本の読者にとってとりわけ馴染みやすいのは,偏差値との関係である。偏差値は,個人の素点から平均点を引き,標準偏差で割り,10 を掛け,50 を足して求められる。効果量 d を10倍すれば,ちょうど平均偏差値差に相当することになる。したがって d = 0.5 は偏差値にして 5 ポイントの差,d = 0.85 は 8.5 ポイントの差と読み替えられる。
4.3.3 効果量の算出と平均化の例
たとえば先ほどの例で,差を取って SD で割ると,1本目の研究では (15−10)/5 = 1.00,2本目の研究では (68−42)/20 ≈ 1.30 となる(厳密には単純な SD ではなく,サンプルサイズで重みづけされたプールド SD を用いる)。これらを平均すれば,研究群全体の平均的な効果量が算出される。こうして算出された平均効果量が,たとえば d = 0.85 であれば,実験群と統制群の分布がおよそ0.85標準偏差ずれていることを意味し,これは分布として見るとそれなりに大きなずれということになる。
4.3.4 効果量の解釈──欧米と日本
この効果量の大きさをどう解釈するかについては,解釈基準をめぐる議論がある。英国などでは,1標準偏差のずれはおおむね学齢1年分(12か月分)の伸びに相当する,という解釈が提示されることがある。ただし,この解釈基準はそのまま信頼できるものではない。標準偏差単位の学力の伸びは学年によって異なり,低学年では大きく,学年が上がるにつれ小さくなる。また,短期間の実験用テストでは差が大きく出やすく,1年分のまとめのテストでは差は小さくなる,といった測定上の違いもある。したがって,一律に「1 SD = 1学年分」と扱うのは適切ではない。
日本の文脈では,偏差値というなじみのある尺度があるため解釈はむしろ容易になる。効果量 d = 0.85 は偏差値差にして 8.5 ポイントに相当する,と言えば受験経験のある学生には直感的に理解できる。少し頑張って伸びたと感じるのがおおむね偏差値 5 ポイント程度であり,学校で何もしなかった場合と丁寧に教わった場合を比べたときの平均的な効果量は d = 0.4 前後と言われる。こうした感覚的な目安を持つことで,効果量の大きさを具体的に読み取ることができる。
4.4 練習テストの効果──本論文の結果
4.4.1 平均効果量
以上の手順を踏まえて改めて本論文を見ると,118本の研究を集め,統計的に統合し,平均的な効果を算出したということになる。671ページの Figure 2 は,118本の研究それぞれの効果量の分布を示している。練習テストをやったほうが成績が悪くなったケースも一部あり,マイナス側にも値が存在するが,中央的な値としては M = 0.74 程度,重みづけを施した値では g = 0.61 程度となっている。要するに,練習テストを用いて学習した者は,何もしなかった者と比べて,平均で偏差値にして6ポイント程度高い成績を示した,ということである。先ほどの「頑張って伸びたと感じるのが偏差値5程度」という感覚と比べても,やや高めの値であり,練習テストにはそれなりの効果がありそうだ,と読み取れる。
4.4.2 メタ分析の価値──一本一本の研究では言えないこと
メタ分析の面白さは,一本一本の研究単体では大したことが言えないというところにある。個々の研究では効果の大きさもばらつき,対象も小学生・中学生・高校生・大学生とさまざまで,教科や国によっても条件は異なる。しかし,それらをならしてみるとおおむねこれくらいの効果がある,ということが言える。これは実は大きなことである。こうした平均的効果を教育的介入のさまざまなトピックについて一覧化したのが,John Hattie の Visible Learning である。
加えて,メタ分析の文献には副次的な利点もある。平均効果量を計算するためには,一本一本の研究の効果量が集計されており,引用文献リストも整っている。したがって,その分野におけるきちんと選ばれた実証研究のリストとしても活用でき,後続研究の出発点として有用である。
4.5 調整変数分析(モデレーター分析)
4.5.1 平均から「ずれ」へ
メタ分析の関心は,平均的な効果を求めることから,その平均がどのような要因によってどれだけ動くか,へと移ってきている。これが調整変数分析(モデレーター分析)である。結果は本論文の674ページ Table 2 に示されている。
各研究には,誰が実施したか,どのような形式の練習テストを用いたか,対象は小・中・高・大のいずれか,といった属性が付与されている。これらの属性をコーディングすると,118行からなる一つのデータセットになる。このデータに対して,目的変数を効果量,説明変数を各属性として分析を行えば,属性ごとの効果の違いを検討できる。
4.5.2 練習テストの形式による違い
本論文では,練習テストの形式(フリーリコール,キューリコール,多肢選択,短答)による違いが検討されている。フリーリコールは手がかりなしでの自由再生,キューリコールは手がかり付き再生,多肢選択肢(multiple-choice; MC)は選択式,短答式は空欄補充的な書き取り形式である。
結果を見ると,多肢選択形式で練習した場合の効果量はおおむね g = 0.70,短答形式では g = 0.48 となっている。Table 2 に示される95%信頼区間を見ると,多肢選択は0.6〜0.8程度,短答は0.38〜0.58程度であり,両者の信頼区間は重ならない。これは統計的に見て,5%水準で有意差があることを意味する。平均効果量は g ≈ 0.61 だが,その内訳としては,多肢選択のほうが短答よりも明確に効果が大きい,ということになる。
4.5.3 直感との対比
この結果は直感とやや反するように感じられるかもしれない。穴埋め・短答のほうが自分で思い出して書く必要があり,頭を使っているように思える。しかし,データは多肢選択のほうが効果が大きいことを示している。では,なぜそうなるのかを,次節で教育心理学的に検討する。
4.6 なぜ多肢選択のほうが効果が大きいのか──処理の深さ
4.6.1 多肢選択問題の構造
よく作られた多肢選択問題の構造を丁寧に見ていくと,問題文(設問文)があり,しばしば図表が添えられ,そのうえで選択肢 A〜D が並んでいる。きちんと作られた選択肢では,完全な正解が1つ,うろ覚えの受験者が引っかかってしまうような惜しい誤答(正解に近いが一部が誤っている選択肢)がいくつか,そしてうろ覚えではそこまでは正しく書かれているがその先が違う,といった選択肢が巧みに配置されている。
したがって受験者は,選択肢と設問文,設問中の図表,選択肢同士,を行ったり来たりしながら総当たりで比較し,どれが最も整合的かを判断しなければならない。再生型の短答問題で「徳川家康」と書いて終わるのとは,作業の質が異なっている。
4.6.2 エラボレーション(精緻化)という概念
学習における処理の深さ(depth of processing)には,深い処理(deep)と浅い処理(surface)の区別がある。多数の情報をつなぎ,比べ,選ぶ作業を繰り返す深い思考は,エラボレーション(elaboration,精緻化,あるいは「練り上げる思考」)と呼ばれる。精緻化された処理を経た情報のほうが,記憶として定着しやすい。多肢選択問題を解く過程は,うまく作られていればこのエラボレーションを自然に引き起こす。これが,練習テストとしての多肢選択が短答を上回る一因と考えられる。
4.6.3 良質な多肢選択問題の条件
もっとも,これは「多肢選択ならどれでも効果が高い」という意味ではない。良質な多肢選択問題には条件がある。たとえば,選択肢の長さを揃えることで,長さから正誤が透けて見える手がかりをなくす。うろ覚えの受験者が引っかかるような,内容的に練り上げられた誤答選択肢を用意する,といった点である。4択で偶然に正答する確率は一見25%だが,良問ではうろ覚えの受験者は引っかけ選択肢に誘導されるため,実際の当てずっぽうの正答率は25%より低くなる傾向がある。
反対に,選択肢を増やせば当てずっぽうの正答率は数字上は下がるが,良質な誤答選択肢を多数作るのは容易ではない。結局雑な選択肢が混ざり,機能しない選択肢を抜けば事実上の2〜3択になってしまい,かえって当てずっぽうで当たる確率が上がる,ということも起こる。したがって選択肢の数を増やせばよいという単純な話ではない。
4.7 練習テストはなぜ効くのか──検索練習(retrieval practice)
練習テストの効果を別の比較対象との関係で見ると,より広い含意が見えてくる。関連するメタ分析研究の多くは,練習テスト条件を再学習条件(restudy,教科書の読み直し)と比較している。その場合でも練習テストのほうが効果が大きく,効果量はおおむね0.5程度と報告されている。
教科書を読み直すだけの学習は,既知の情報に触れ「知っている,わかった」で終わりがちであるのに対し,練習テストは,自分の知識を一度ワーキングメモリに取り出す作業を伴う。自分が何を覚えているか,どこまで思い出せるかを自分自身で探索する,という検索(retrieval)の過程が,学習を深める。この過程を検索練習(retrieval practice)と呼ぶ。
短答・穴埋めは,外から与えられた刺激に対して自分の知識を呼び出すという意味で,処理としてはやや浅いかもしれない。しかし,それでも「思い出す」という検索の要素を含むため,単なる再読よりは効果が高い。多肢選択は,それに加えて比較・統合の作業を要するため,さらに深い処理を誘発する。
ここまでをまとめると,練習テストは効果があるが,それは頭を使うから効果がある,そして練習テスト形式の中でも頭をより使うものほど効果が大きい,ということになる。
4.8 メタ分析の三点セットと,その限界
4.8.1 メタ分析の構成要素
以上を整理すると,メタ分析研究は次の三点セットで構成されていることが分かる。第一に,系統的レビューによる文献の網羅的収集。第二に,効果量を介した統計的統合による平均効果量の算出。第三に,調整変数分析(モデレーター分析)による「平均からのずれ」の検討。この三つが揃うことで,分野全体の平均的知見と,その内部での体系的な違いの双方を論じることができる。
4.8.2 メタ分析という手法の意義と注意点
メタ分析は,パンデミック期に急増した手法でもある。対面での実験・調査が困難な時期にあっても,既存研究の統計的統合は実施可能だったためである。調査を行わずに理論化に近づけるという点で非常に有力な手法であり,院生が学位論文として取り組む方法としても,対面での協力依頼の負担を負わずに済むという実務的な利点がある。
一方で注意も必要である。メタ分析は既存研究の統合であるため,突拍子もない自由な発想による新規実験のような,イノベーションを生み出す力は相対的に弱い。また,ある領域を過度にメタ分析で食い尽くしてしまうと,そこから新しい研究が生まれにくくなる,という副作用も起こりうる。日本国内の研究は,研究間のオリジナリティの差が大きく,メタ分析の対象としてまとめにくいという事情もある。したがって,海外の文献にまで範囲を広げて取り組むことで,有用な展開が見える可能性がある。メタ分析は万能ではないが,使いどころをわきまえれば非常に強力な手法である,という位置づけで捉えたい。
4.9 まとめ
本日の講義では,系統的レビューとメタ分析の手順(データベース決定,検索式の設定,適格性基準による絞り込み,PRISMA 図の意味),統計的統合の原理(効果量による共通尺度化とその解釈),そして練習テスト(practice testing)に関するメタ分析を例に,平均効果量と調整変数分析から導かれる知見(練習テストは再読よりも効果的であり,形式の中でも多肢選択がより効果的である),さらにその背景にある教育心理学的概念(処理の深さ,エラボレーション,検索練習)までを扱った。
次回以降は,各自にアサインされた文献を読み,その内容を報告・検討していく予定である。アサインされる候補文献はハンドアウトに掲載されているので,各自手元にダウンロードし,タイトルを見たうえで読んでみたい順に第一希望・第二希望を決めておいてほしい。来週その場でアサインを確定し,その後実際に読み始めることにする。
5 効果的な教材の特徴
5.1 挿し絵や図の効果 (Lei et al., 2025)
- 以下の内容は録音データをAIで文字起こしと要約を行って作成したものであり,正確性は保証しない。
- Lei, H., Chen, L., Chiu, M. M., Fang, L., & Ding, Y. (2025). Effects of adding illustrations to texts on students’ science achievement: A Meta-Analysis. Educational Psychology Review, 37(3), Article 71. https://doi.org/10.1007/s10648-025-10053-z.
5.1.1 問題の所在──「テキストに図がある」とは何を意味するか
テキストに図や絵が添えられているという,一見ごく単純な事柄の背後には,実は教育心理学のさまざまな理論が関わっている。思いつきで挿絵を入れることが必ずしも望ましくないことを,まず理論的な枠組みから整理しておきたい。
5.1.1.1 効果を支持する側の理論
第一に,二重符号化(dual coding)である。情報の経路がひとつより二つあるほうがよく覚える,という考え方であり,テキストだけよりも絵が併存するほうが記憶に残りやすいと予測される。第二に,先行オーガナイザー(advance organizer)である。学習内容に先立って大まかな概念枠を与えることが,本体の理解を促進するという考え方で,教員採用試験などでもよく出てくる用語である。第三に,精緻化(elaboration)である。日本語の「精緻化」という訳語よりも,情報をつなげて練り上げる思考,と捉えたほうが意味を取りやすい。情報がひとつより二つのほうが,組み合わさり,深い処理に至る。これらは挿絵・図表の効果を支持する方向に働く理論である。
5.1.1.2 効果に懐疑的な側の理論
一方で,効果を疑わせる理論もある。代表的なものが認知負荷(cognitive load)である。図があることで情報がまとまったチャンクとなり,ワーキングメモリの容量を節約できる場合もあれば,逆に「この絵は何だ」と考え込んでしまってワーキングメモリの容量を食い,結果として認知負荷を増やしてしまう場合もある。どちらに転ぶかは状況依存である。注意の問題もある。絵があることでテキストに集中できる場合もあれば,視線があちこちに移り散漫になる場合もある。実際にどこを見ているかはアイトラッキングで追える領域だが,注意がどう動くかは一筋縄では言えない。さらに冗長性(redundancy)の問題がある。学習が進んだ読み手にとっては,絵はむしろ余計であり,文を読むほうが楽である,ということが起こりうる。
要するに,挿絵を一枚入れるという行為だけでも,考慮すべき要因は多い。少なくとも,思いつきで絵を入れるのは望ましくない,というのが出発点となる。
5.1.2 メタ分析の手続きと全体効果
5.1.2.1 文献収集の特徴
本論文のメタ分析は,データベースを用いた系統的な検索の結果,最初におよそ7,850本の候補が抽出され,そのうち7,400本が一次基準(実証研究でない,平均値・標準偏差・人数が報告されていないなど,効果量の算出に必要なデータが揃わないもの)で除外され,最終的に63本が分析対象として残ったという経過をたどっている。なお,英語論文だけでなく日本語論文を対象に含めている点は,メタ分析としては比較的珍しい。これにより,英語圏中心のメタ分析でこれまで得られてきた知見が,日本語文献を加えても変わらないかを検討できるという利点がある。
5.1.2.2 全体効果量とその解釈
論文の Figure 2 を見ると,本研究は理科を対象に,挿絵・図表ありなしを比較した結果,全体の効果量は g = 0.232,95%信頼区間は 0.17〜0.30 となっている。信頼区間がゼロを含まないため,統計的に見て効果はプラスであると判断できる。逆に信頼区間にゼロを含めば,点推定値の大きさにかかわらず統計的にはゼロと評価される。したがって,挿絵・図表は理科のテキスト理解にプラスの効果を持つ,というのが平均的な結論となる。
5.1.3 調整変数分析──効果はどこで動くか
本論文の特徴は,各研究の効果量を一行ごとに記載した Table 1 が用意されており,著者名・効果量・国の一人当たりGDP・文化的背景・図表の種類・使用したテストの種類などが整理されている点にある。この表はそのままデータセットになっており,回帰分析が可能な構造になっている。これにより,平均効果量がどのような要因によってどれだけ動くのかを検討できる。
5.1.3.1 国の一人当たりGDP
一人当たりGDPが高い国ほど,挿絵・図表の効果は大きい傾向が示されている。標準化された回帰係数の値は,GDPが1標準偏差上がると効果量が0.07ほど上昇するという方向で読み取れる。この背景としては,論文中では印刷の質という説明が与えられている。すなわち,GDPが高い国では教科書や教材の図版が鮮明で精密に印刷されており,それが効果に寄与している,という解釈である。日本の古い教材の図版が現在の水準から見るとやや粗いことを思い浮かべると,印刷の質という変数の重みは想像しやすい。
ただし,これに加えて別の解釈経路も指摘されうる。GDPは,教材の印刷品質だけでなく,健康指標,家庭の社会経済的地位,子どもの学力そのものなどとも結びついている。したがって,GDPを投入することは,これらの背景要因に対する一種の統計的統制として機能している側面もあると考えられる。一般的な分析で社会経済的地位を統制するのに近い意味合いを,メタ分析の文脈で持たせようとした努力と捉えるのが妥当だろう。
5.1.3.2 学年段階──小学校では効果が見えない
学年段階で見ると,興味深い結果が現れる。小学校段階に絞ると,図表の効果量の信頼区間はゼロを含む,すなわち統計的にはゼロと評価される。中学校・高校では効果量が約0.2でプラス,大学では約0.27でさらに大きい。直感的には,低学年のほうが絵があったほうがよさそうに見えるが,テキストの内容理解という観点ではそうではない。
ただし,ここには注意が必要である。小中高を対象とする研究は実態として学校現場での調査が中心になりやすく,大学生を対象とする研究は実験室実験になりやすい。一般に,実験は調査より効果量が高めに出やすいため,大学生での効果量がやや過大評価されている可能性は否定できない。それでも,学年段階が上がるほど効果が大きくなる傾向自体は,おおむね妥当に読み取れる。
小学校段階で効果が見えない理由については,後段で扱う「読み手側の表象形成」の問題と関連づけて考えることができる。
5.1.3.3 図表の役割──説明型・組織化型・関係なしの絵
図表の役割別に見ると,内容と整合する説明型・組織化型の図はおおむね同様にプラスの効果を持つのに対して,内容と関係のない(不一致な)挿絵は効果量がマイナス,すなわち逆効果となる。
「関係のない挿絵」とは,たとえば学校の先生が自作のプリントに,学習内容と無関係な花の絵やキャラクターを載せるような場合を指す。動機づけや注意喚起のためという理由で行われがちだが,テキストの理解という点ではむしろ妨げとなる。装飾としての絵は,教育心理学的には支持されない,というのがここからの含意である。
5.1.3.4 図表の種類──略図/概念図(pictorial diagram)と写真
図表を種類で分けると,フローチャートや略図・概念図といったpictorial diagram 系の図は効果量がおおむね 0.297 と比較的大きい。一方で,写真の効果量は 0.056 程度で,信頼区間がゼロを含み,統計的には効果がないと判断される。理科の教材という文脈で,しかも写真にすら有意な効果が見出されないというのは,注目に値する結果である。
写真が機能しにくい理由としては,情報量の多さが挙げられる。たとえば心臓の写真を一枚見せられても,心臓が複雑な臓器であることはわかっても,弁の役割や血管の構造といった学習対象が一目瞭然になるわけではない。むしろ弁だけ,血管だけを抜き出して描いた略図のほうが,学習対象の理解には資する。情報が過剰になれば,解釈の負荷が上がってしまう。
5.1.3.5 色──白黒のほうが効果が大きい
カラー対白黒の対比も興味深い。図表のあるなしを比較したときの全体効果量は g = 0.23 だったが,白黒の図に絞るとこの値が約0.308へと上がり,カラーの図に絞ると約0.069にまで下がる。カラーのほうが一般的な効果を下回るのである。
注意点として,ここでは略図と写真の区別と色の区別が完全には独立に統制されておらず,純粋にカラーか白黒かの効果を取り出すには回帰分析的なアプローチが必要になる。とはいえ,色の数が増えること自体が,注意の分散と認知負荷の上昇を招き,テキスト理解にとってはむしろ妨げとなる可能性は十分示唆される。教材作成において,カラーをふんだんに使うほうがよいという素朴な感覚は,慎重に問い直したほうがよい。
5.1.3.6 測定するテストの種類──保持テストと転移テスト
測定側の変数として,保持(想起)テストと転移テストの区別も検討されている。保持テストは知識の再生を測るテストで,効果量はおおむね0.13,信頼区間の下端がゼロを少し上回るかどうかというあたりにある。一方,転移テスト,すなわち応用問題を測るテストでは,効果量が約0.298と明確に大きい。
この対比は,挿絵・図表の効果のメカニズムを考えるうえで示唆的である。
5.1.4 「なぜ図表が効くのか」──深い処理という仮説
転移テストで効果が大きいということは,図表が単なる暗記の補助ではなく,応用が利く深い理解を促していることを意味する。応用が利くということは,学習過程で深い処理が生じているということであり,深い処理を生む仕掛けとして適切な図表が機能している,という仮説に行き着く。
ここでいう「適切な図表」とは,説明を補助する図,組織化を助ける図,白黒の見やすい略図といった,内容の構造を可視化するタイプの図表である。逆に,内容と無関係な装飾的挿絵や,情報量が過剰な写真は,深い処理を促すどころか,注意の分散や認知負荷の増大を通して妨害的に働きうる。図表をひとつ入れるという行為が,教育心理学的に見ると単純ではない,という冒頭の論点が,ここでメタ分析の結果と理論の双方から裏付けられることになる。
5.1.5 教科ごとの含意
平均的な結論を踏まえたうえで,各教科に引き寄せて考えると,また異なる含意が浮かび上がる。
5.1.5.1 理科
本論文の対象は理科であり,結論はそのまま当てはまる。説明補助型の略図・概念図は有効である一方,情報量の多い写真や,内容と無関係な装飾的挿絵は効果が乏しい,あるいは逆効果となる。
5.1.5.2 社会科
社会科では,教科書や資料集に写真が多用される傾向がある。米騒動の写真を導入として読み解かせるなど,写真そのものが資料的読解の対象となる扱いがある。歴史上の人物の肖像も,それが本人かどうかは別として,キャラクターとして親しみを持たせる役割を担いうる。国の仕組みや人物の相関関係,勢力の対立構造などを概念図で示すことの効果も大きいと考えられる。教科の特性が,図の役割を変えるという論点が,ここで明瞭になる。
5.1.5.3 言語教育(日本語・英語)
言語教育では,図の扱いは目的によって質的に変わる。初級段階では場面理解を助けるために写真や絵が必要となるが,上級になりアカデミックな内容が増えるほど,図の必要性は下がり,むしろ冗長になる場合もある。
また,英語教育においては,初等段階で「リンゴの絵を見せて,日本語を介さず apple と言わせる」というような,暗示的教育の手段としてイラストが使われる。さらに,絵の描写そのものをスピーキング・タスクとして用いる場合もある。これは重要な区別を含んでいる。本論文での研究はあくまで「説明の補助としての図」を対象としているが,言語教育においては絵そのものがタスクとして機能する。説明補助としての図と,タスクとしての図は,別の枠組みで扱う必要がある。
5.1.5.4 国語
国語では,現代文・文学領域では図は比較的少なく,古典では当時の資料を直接見せるという意図から写真が多くなる。また,説明的文章を扱う中学校段階の教科書では,視覚資料を多用するものが教材として評価される傾向がある。資料を複合的に読み解く力,いわゆる非連続テキストを読み解く力が求められていることが背景にあり,図表は理解の対象でもあり,ツールでもある,という二重の位置づけを持つ。
5.1.5.5 低学年で効果が見えない理由──表象形成の発達
最後に,小学校段階で効果が見えない結果に戻る。テキストを読むという行為は,文を読んで頭の中に表象を作ることである。読みの力が十分でない段階では,表象そのものを文から立ち上げることが難しい。したがって,低学年では「対象そのもの」を絵として示すことが,むしろ必要となる場面が多いと考えられる。本研究の結果は「テキストの理解」を対象とした限定的な枠組みでの結論であり,低学年の学習一般に当てはめるべきではない,という限定が必要である。同時に,教育的には,徐々に自分で表象を形成できるように導いていくことも課題となる。
5.1.6 まとめ
本日の講義では,教材における挿し絵・図表の効果を扱ったメタ分析論文を題材に,三つの軸を通して検討を行った。第一に,図表の効果をめぐる教育心理学の諸理論として,二重符号化・先行オーガナイザー・精緻化が効果を支持する側に,認知負荷・注意の分散・冗長性が効果に懐疑的な側に位置することを整理した。第二に,メタ分析の結果として,理科教材における挿絵・図表は全体としてプラスの効果(g = 0.23)を持つが,その効果は学年段階・国のGDP・図表の役割・図表の種類・色・測定するテストの種類によって体系的に動くことを確認した。とりわけ,説明補助型の略図・概念図が有効である一方,内容と無関係な装飾的挿絵は逆効果であり,情報量の多い写真や多色のカラー図は効果が小さいか妨害的にすら働くことが示された。第三に,これらの結果は,図表が深い処理を媒介して転移可能な理解を生むという仮説と整合的であり,各教科の特性を考えると,説明補助・タスク・資料的読解の対象という異なる役割を区別したうえで論じる必要があることを指摘した。一本の論文のメタ分析的知見であっても,教科や対象学齢を変えて読み直すことで新しい問いが生まれてくる,というのが今回の検討から得られる重要な示唆である。
5.2 学習内容と関係のない絵やテキストを教材に入れることの効果についてのメタ分析と認知負荷理論からの検討 (Cheng et al., 2026)
- 以下の内容は録音データをAIで文字起こしと要約を行って作成したものであり,正確性は保証しない。
- Cheng, C., Wu, Y., Wang, R., & Wang, Z. (2026). Seductive details, cognitive load, and learning outcomes: A multi-level meta-analysis and MASEM. Educational Psychology Review, 38(1), Article 28. https://doi.org/10.1007/s10648-025-10099-z.
5.2.1 問題の所在──「装飾的要素」とは何か
前回扱った挿絵・図表の論文と決定的に異なるのは,本論文が扱うのが学習内容と関係のない絵や写真,テキストだという点である。一般に,こうした装飾的要素には良い面と悪い面の両方があると考えられている。良い面として論文では「overall learning experience(全体的な学習経験)」への寄与が挙げられるが,これは漠然とした概念であり,その代表は動機づけへの影響,すなわち学習を楽しいものにし,やる気を高めるという経路である。一方,悪い面としては,注意が散漫になること(attention diversion),そして認知処理を阻害すること,とりわけ認知負荷(cognitive load)を高めることが挙げられる。本論文の核心はこの認知負荷にある。
5.2.2 認知負荷理論の枠組み
5.2.2.1 認知負荷とワーキングメモリ
ワーキングメモリは,おおむね 7±2 程度とされる限られた容量を持ち,長期記憶という大容量の貯蔵庫と連携しながら,その都度の処理を担う。認知負荷とは,このワーキングメモリにかかる負荷のことであり,容量を食いつくしてオーバーフローすると処理が立ち行かなくなる。処理しきれない状態に陥ると,人には身体的な反応が現れる。テストで全く解けず困窮したときに心拍数が上がり,精神性発汗が生じて鉛筆が滑る,といった現象である。認知負荷そのものを手汗が直接代表するわけではないが,メンタルワークロードがかかった状態は生理指標にある程度反映されるため,学習中の心拍や皮膚電気活動(手汗)の測定を通じて認知負荷を推定する研究が行われている。
ここで重要なのは,認知負荷がかかること自体は一概に悪いとは言えない,という点である。ある程度の負荷がかからなければ,人は物事を深く考えず,結果として能力も伸びない。問題は負荷の「種類」である。
5.2.2.2 三種類の認知負荷
認知負荷理論では,負荷を三種類に区別する。
第一に,内在的負荷(intrinsic load)である。これは課題そのものの難しさに由来する負荷である。人はある程度難しくなければ深く考えないため,内在的負荷は学習にとって必ずしも有害ではない。
第二に,学習関連負荷(germane load)である。課題内在・課題外在という訳語は分かりにくいため,ここでは「学習関連負荷」と呼ぶ。これは課題解決に必要な負荷であり,ワーキングメモリを実際に使って処理を進める,頭を使うことに伴う負荷である。これは学習に資する負荷である。
第三に,外在的負荷(extraneous load)である。これは学習内容とも課題とも関係なく生じる負荷で,一般に「不適切な指導に伴う負荷」と説明される。認知負荷理論の主張は,単に負荷がかかること一般を問題にするのではなく,この外在的負荷こそが有害だ,という点にある。学習内容と無関係な絵やテキストは,まさにこの外在的負荷を高めるため望ましくない,というのが理論的な予測である。
5.2.3 メタ分析の結果
5.2.3.1 全体効果
メタ分析の全体効果(overall effect)として,学習内容と関係のない絵やテキストは,効果量 d・g いずれで見てもマイナスであった。偏差値に換算しておよそ1.6ポイント程度下げる方向であり,いずれにせよ装飾的要素を載せることは概してマイナスに働く,という結論がまず示される。問題は,このマイナスが何によってどう変動するか,すなわち調整変数分析である。
5.2.3.2 絵かテキストか
調整変数分析(論文 Table 5)によると,関係のない絵(picture)と関係のない面白話的テキスト(seductive text)のいずれも効果量はマイナスで,テキストのほうがやや悪い傾向はあるものの,統計的にはほぼ同等である。いずれにせよ,学習内容と無関係なものを載せるのは望ましくない,という方向は一貫している。
5.2.3.3 言語・文化による違い
言語別に見ると,英語・ドイツ語の文献では関係のない絵やテキストの悪影響が大きい一方,中国語の文献ではそれほど顕著ではない,という結果が示されている。この差の解釈は確定的ではない。サンプルサイズの違いで説明できる可能性もあり,また表意文字である漢字はそれ自体が図像的・表意的な性質を持つため,同じ「テキスト」と言っても性質が異なる可能性も論点として挙がった。教材文化の違い(学習内容と無関係な装飾を教材に載せる慣行の有無)も関与しうるが,地域や場面によって差があり,単純化はできない。確定的な結論ではなく,今後の検討課題として位置づけられる論点である。
5.2.3.4 学問領域による違い
前回の論文が理科を対象としていたのに対し,本論文は自然科学・社会科学・人文学を対象としている。自然科学では効果量がおよそ −0.14,社会科学では −0.12 程度でいずれもマイナスだが,人文学ではおよそ −0.06 で,信頼区間を考慮すると統計的にはゼロと判定される。つまり人文学では,学習内容と無関係な絵やテキストの有無が学習成果(outcomes)にほとんど影響しない。
この領域差については複数の解釈が議論された。第一に,人文学(国語など)の教材ではそもそも学習内容と完全に無関係な絵が載ること自体が稀であり,「関係がない」という条件を厳密に作ること自体が難しい,という指摘である。色やイメージの図でも生徒の読みに関わってしまうため,国語では「無関係」が成立しにくい。第二に,教師の指導実践の介在である。仮に無関係な素材があっても,国語の教師は力技で学習内容と結びつけた授業を展開してしまう傾向があり,結果として無関係な素材が無害化される,という見方である。第三に,社会科における歴史上の人物の肖像のように,そもそも「無関係」かどうかの線引きが曖昧な素材が含まれており,自然科学(因数分解のプリントに花の写真を載せるような明確に無関係なケース)とは事情が異なる,という点である。これらの解釈は,自然科学・社会科学のようなサイエンス系で装飾的要素の悪影響が明確に出やすいという結果と整合的である。
5.2.3.5 学校段階
学校段階別では,中等教育・大学などの区分のうち大学段階で効果量が有意になっているが,これは主としてその段階の研究数が多いことによる見かけの効果であり,段階そのものの本質的な差として強く解釈すべきではない。
5.2.4 パス解析(SEM)による媒介メカニズムの検討
本論文のもう一つの重要な分析が,論文 Figure 3 に示されたパス解析(構造方程式モデリング)である。これは,調整変数分析の結果を用いて,装飾的要素が学習成果に至る経路を,三種類の認知負荷を媒介変数として検討したものである。各一次研究でどの種類の負荷がかかったかの推定方法には原著者への問い合わせという以上の詳細が記されておらず,その点には留保が必要だが,結果を信頼するならば次のことが読み取れる。
第一に,無関係な情報が内在的負荷を高めることはない(ほぼゼロ)。内在的負荷自体は課題の難しさを反映するため,難しい課題ほど成績が下がるという関係(負の効果)は存在するが,装飾的要素がそれを高めるわけではない。
第二に,無関係な情報は外在的負荷を強く高める(係数およそ0.47)。そして外在的負荷の上昇は,学習成果をさらに下げる。これが装飾的要素の悪影響の中心的な経路である。
第三に,無関係な情報が学習関連負荷を高めることはなく(統計的にゼロ),また学習関連負荷と学習成果の関係もこの分析ではゼロであった。
以上から,学習内容と無関係な情報は,学習を阻害する種類の認知負荷(外在的負荷)を確実に高め,それを介して実際に学力を低下させている,という因果的な道筋がメタ分析的に示されたことになる。
5.2.4.1 考察における動機づけ変数の扱い
論文全体の結論は明確に「装飾的要素は外在的負荷を介して学習を阻害する」という方向にある。にもかかわらず,考察部分では「動機づけ変数が媒介的役割を果たしている可能性がある」と述べられている。本論はほぼ一貫して認知負荷の負の経路を示してきたため,終盤で動機づけが持ち出される構成にはやや唐突さがある。これは論文の読み方として一つの示唆を含む。動機づけ理論と認知負荷理論は通常切り離して扱われ,動機づけは処理の「促進」に,認知負荷理論は処理の「しにくさ」(ワーキングメモリが何によって占有されるか)に着目する枠組みである。両者がトレードオフの関係にあるのかという問いは,それ自体が重要な研究上の論点である。終盤で動機づけが言及される背景には,査読過程で関連要因への言及を求められ,考察に組み込んだ可能性も考えられる。論文中で論旨と異なる記述が唐突に現れる箇所を,査読の痕跡として読むという視点も,論文読解の一つの技法となる。
5.2.5 教育的含意
5.2.5.1 外在的負荷の具体像──装飾的要素にとどまらない
外在的負荷を生むのは,装飾的な絵やテキストだけではない。不適切な指導全般がこれに該当する。たとえば,グループワークの手順が明瞭でない指示によって学習活動が止まってしまう場合,テストを返却する際に正誤だけを示して何が正解かが分からないまま復習を求める場合など,見通しが持てない指導は外在的負荷を高める。教室環境も関与しうる。掲示物が多すぎてどこに注意を向ければよいか分からない状況も,注意が分散するという意味で外在的負荷を生む。教師は学習を妨げようとしてこうした実践を行っているのではなく,学校生活を楽しくし動機づけを高めるという「良かれ」という意図で行っている点に留意が必要である。
5.2.5.2 無関係な情報が持ちうる正の機能
一方で,議論の中では,学習内容と無関係な情報が必ずしも一方的に有害とは限らないという論点も検討された。第一に,無関係な情報がかえって学習者の注意をその教材へ引き寄せ,関与のきっかけになりうるという可能性である。第二に,教科の拒絶(「もう見たくもない」という回避)を防ぐ機能である。最初は外発的なきっかけであっても,関与が始まることで内発的な面白さに移行することがあり,いったん拒絶していた対象でも,何かのきっかけから関心が広がる場合がある。日本語教育などでは,初級レベルで柔らかい絵を用いることで学習者の既有の言語知識を引き出し,「楽しいかもしれない」と感じてもらう,という意図的な使い方も報告された。社会科では教師のキャラクター性や雑談の面白さが学習継続の動機につながるという見方も示された。したがって,一般的な結論としては無関係な挿絵は避けるべきだとしても,現場の教師が良かれと思って行っている実践には,専門家なりの根拠や合理性がある可能性も否定できず,研究知見をもって現場実践を全面否定してしまうことには慎重であるべきだ,という点が確認された。
5.2.5.3 アウトカムを何にするか──重要な論点
本講義で最も重要な論点として浮かび上がったのは,メタ分析が依拠するアウトカム(学習成果)の選び方である。本論文を含む多くの研究で,アウトカムは学力系のテスト,とりわけ大学生対象の実験では「実験で扱った課題についての定着テスト」が用いられる。これは大学の教科の成績そのものではなく,また学校現場で測られる学力とも性質が異なる。
メタ分析は一定数以上の研究を集める必要があるため,測定が容易で研究蓄積の多い学力系指標に依存しやすい構造を持つ。しかし,学校教育の目的は学力の向上だけではない。日本の学校教育の目標が「人格の完成」とされるように,良い人間関係を築く力など,学力に還元できない多元的な成果がある。大学で育てるべき力はとりわけ多元的である。したがって,「学力が高まったからそれで良し」としてよいのか,他の成果指標を用いたら結果はどう変わるのか,という問いを常に保持しておく必要がある。メタ分析の知見を読む際には,その結論がアウトカムの選び方に強く依存していることを意識し,学力指標に縛られすぎないという態度が求められる。
5.2.6 まとめ
本日の講義では,学習内容と無関係な絵やテキスト(装飾的要素・seductive details)の効果を扱ったメタ分析論文を,認知負荷理論の枠組みに即して検討した。第一に,認知負荷を内在的・学習関連・外在的の三種に区別し,装飾的要素は外在的負荷を高めるがゆえに有害だという理論的予測を整理した。第二に,メタ分析の結果として,装飾的要素の全体効果はマイナスであること,絵とテキストで大きな差はないこと,言語・文化や学問領域(自然科学・社会科学では明確にマイナス,人文学ではほぼゼロ)によって効果が体系的に変動することを確認した。さらに,パス解析により,装飾的要素は外在的負荷を媒介して学習成果を低下させるという因果経路が示された一方,考察での動機づけ変数への言及の唐突さを,論文読解上の論点として検討した。第三に,教育的含意として,外在的負荷は装飾だけでなく不適切な指導全般から生じること,無関係な情報が注意誘導や教科拒絶の回避という正の機能を持ちうること,そして何より,メタ分析の結論がアウトカムの選び方に強く依存しており,学力指標に縛られず多元的な成果を問い続ける必要があることを確認した。一本の論文の知見であっても,アウトカムの妥当性や教科特性,文化差という観点から読み直すことで,新しい問いが生まれてくる,というのが今回の検討から得られる重要な示唆である。
6 学習方略
6.1 生成効果 (Schindler & Richter, 2023)
- 以下の内容は録音データをAIで文字起こしと要約を行って作成したものであり,正確性は保証しない。
6.1.1 生成効果(generation effect)とは何か
生成効果とは,Slamecka & Graf (1978) を端緒として知られる現象で,単語をただ読むよりも,自分で生成したほうがよく覚える,というものである。古典的な単語生成パラダイムでは,たとえば LONG の対義語として「SHORT」とそのまま提示されるか,あるいは「LONG の対義語で S から始まる4文字の単語は何か」として一部を欠落させた形で提示される。後者のように学習者自身が情報を作り出す条件のほうが,記憶成績がよい。
なぜそうなるのかを理解するには,人間の記憶の基本構造を押さえておく必要がある。外から入ってきた情報は,容量の限られたワーキングメモリ上で,自分の長期記憶から取り出された既有知識と「つなぐ・比べる・選ぶ」という処理を受け,その結果として情報のまとまり(チャンク)が長期記憶へと統合されていく。記憶の装置がワーキングメモリと長期記憶という複数の領域から成るとするこの考え方を二重貯蔵モデル(multi-store model)と呼ぶ。脳科学的にも,ワーキングメモリの機能は複数の部位が分散して担っていることが分かってきている。
学習において重要なのは,記憶は深く処理するほど残る,という原則である。そして「記憶している」とは,記名・保持・想起の全過程を含む。覚えていても取り出す手がかりを失えば引き出せないだけ,という状態があり得るため,記憶がないことを完全に証明するのは難しい。
6.1.2 検索練習(retrieval practice)と精緻化(elaboration)
生成効果と密接に関わる現象として,検索練習(retrieval practice)がある。これは,教科書を再読するよりも,練習問題を解いたほうが成績がよい,という現象であり,この10数年で研究が急速に進んだ領域である。
検索練習が効くのは,外から入ってきた情報をいったんワーキングメモリに取り入れ,それに見合った自分の知識を長期記憶から取り出し,両者をつないでいく,という処理が起こるためである。単に取り出すだけではなく,外の情報と関連付け,結びつけることが,記憶への定着を強化する。この「つなぐ・関連付ける・練り上げる」処理を,教育心理学では精緻化(elaboration)と呼ぶ。「精緻化」という訳語よりも,英語の原義に近い「練り上げる」というイメージのほうが意味を捉えやすい。あんこを練って一体化させていくように,ばらばらの情報を結びつけて一体化させていく思考過程である。 生成効果は,この精緻化が自然に起こるために生じる,と理解できる。「LONG の対義語で S から始まる4文字」と示されたとき,学習者はまず「Sで始まる」という外部の手がかりを受け取り,長期記憶から自分の知識を探索して取り出し,穴埋めとして「SHORT」と統合する。外部情報と既有知識のあいだに精緻化が起こり,結果として記憶に残りやすくなる。
一方で,注意しておくべき点もある。検索練習が効果的だからといって,学校教育の本義が練習テストを大量に課すことに還元されるわけではない。「練習テスト的な頭の使い方をする」ことが効果を生むのであり,テスト自体を目的化するのは適切な理解ではない。
6.1.3 生成効果研究のテキスト理解への拡張
ここまでは単語レベルの話であるが,学校教育で扱う学習対象は単語ではなくテキスト(長文)である。テキスト生成(text generation),すなわち欠落した文字や単語を補完したり,順序が崩された文を並べ替えたりする活動が,テキスト理解にも同様の効果をもたらすかについては,約45年にわたり研究が積み重ねられてきた。本論文 (Schindler & Richter, 2023) はそれらを統合的に検討したメタ分析である。
検索可能だった候補1,986本から最終的に20研究・74サンプル・129効果量が分析対象として残された。分析は3段階で構成される。Step 1 で全体効果量を推定し,Step 2 で複数の調整変数(モデレーター)ごとの効果を見,Step 3 でメタ回帰分析により複数の調整変数を同時に投入して,各効果が独立に残るかを確認する,という構造である。
6.1.4 全体効果量と調整変数分析の主要結果
6.1.4.1 全体効果量
129効果量を統合した結果,テキスト生成の全体効果量は \(g = 0.41\) (95% CI [0.31, 0.52])であり,中程度のプラスの効果を示した。テキストをただ読むよりも,文字補完・単語補完・文/文字並び替えといった生成課題を介して学習したほうが,記憶成績はおよそ偏差値4ポイント程度高くなる,という見当である。
ただし注意したいのは,ここで扱われているのは,あくまでも「テキストの内容を覚える」という意味での効果であり,たとえば「ごんぎつね」の文をばらばらにして並び替えさせれば内容は覚えるかもしれないが,それは国語教育における作品理解とは別の話である。テキスト生成効果は,テキストを学習材料として記憶・理解する文脈での効果として位置づけて読む必要がある。
6.1.4.2 生成課題の種類
生成課題の種類別では,文字補完(\(g = 0.36\))・単語補完(\(g = 0.43\))・文の再配列(\(g = 0.51\))・文字/単語の再配列(\(g = 0.84\))の順で効果量が大きくなる。文字/単語再配列が最も大きい値を示すが,効果数が8と少なく,推定の信頼性には留保が必要である。Step 2 単独では全体としての種類差は有意ではない。
6.1.4.3 テキストジャンル
テキストジャンルで分けると,物語文(g = 0.51)・説明文(g = 0.36)で,説明文よりも物語文のほうが効果がやや大きいが,この差自体は統計的に有意ではない。重要なのは,ジャンルそのものの主効果ではなく,次に述べる課題との交互作用である。
6.1.4.4 ジャンル×生成課題の交互作用──本論文の核心
本論文で最も注目すべき結果は,テキストジャンルと生成課題の交互作用である。説明文の研究内で生成課題を見ると,文字補完が \(g = 0.23\) にとどまるのに対し,文の再配列は \(g = 0.77\) と大きく上回り,その差は統計的に有意である。一方,物語文の研究内では順序が逆転し,文字補完が \(g = 0.57\),文の再配列が \(g = 0.36\) となる(こちらの差は有意ではない)。つまり「補完か再配列か,どちらが効果的か」は一律には決まらず,テキストのジャンルによって順位が入れ替わる。
教育心理学の研究で交互作用を見出すことには大きな意味がある。組み合わせによって効果の方向や大きさが変わるという知見は,単純な主効果よりも理論的に豊かな含意を持つからである。
6.1.4.5 そのほかの調整変数
そのほか,テキストの長さでは中程度の長さ(301〜600語)で \(g = 0.63\) と最大となり,900語を超えるとほぼ効果が消える(ただし900語超は効果数12と少なく解釈に注意)。意図性では,意図的学習(\(g = 0.29\))よりも偶発的学習(\(g = 0.46\))のほうが効果が大きい傾向が見られた。学習評価課題では,自由再生課題(\(g = 0.60\))が手がかり再生課題(\(g = 0.27\))よりも明らかに大きな効果を示した。学習時間制限の有無では効果量に差がなく,生成効果が単なる学習時間(time-on-task)の差では説明できないことが示唆される。保持間隔・理解水準・研究デザインでは大きな差は見出されなかった。
6.1.5 ジャンル×タスク交互作用の理論的背景
ジャンル×タスク交互作用は,本論文が理論的に依拠する McDaniel と Einstein の material appropriate processing(MAP)framework と McDaniel & Butler の contextual framework から予測される。これらの枠組みは,テキスト生成のような「望ましい困難(desirable difficulty)」が学習を促進するのは,その課題が刺激する認知処理が学習に必要であり,かつそれが教材自体や学習者によってすでに十分には促進されていない場合に限る,と主張する。
学習成立には2種の処理があるとされる。第一に,個別の項目(命題)単位の処理(item-specific processing, propositional processing),第二に,項目間の関係を組織化し統合する処理(relational processing)である。
文字補完課題は,学習者の注意を個別の単語・命題に向けるため,命題単位の処理を刺激する。これに対し文の再配列課題は,ばらばらにされた文の内容を組織化し統合する必要があるため,関係処理を刺激する。
テキストのジャンルにもこれと並行する性質がある。物語文には馴染みのある物語スキーマがあるため,関係処理は自然に促されるが,命題単位の処理は相対的に弱い。したがって物語文の学習を強化するには,命題処理を補う文字補完が効きやすい。一方,説明文には学習者がよく整理されたスキーマを持たないことが多く,注意は個別の概念や術語に向きやすい一方で,それらの間の関係処理は自然には起こりにくい。したがって説明文の学習を強化するには,関係処理を補う文の再配列が効きやすい。 本論文のメタ分析は,説明文における「文字補完 vs 文の再配列」の差を統計的に有意に確認し,物語文における方向性も予測と整合的であった(差は有意ではないが)ことを示した点で,MAP/contextual framework に部分的な実証的支持を与えた研究となっている。
6.1.6 メタ回帰分析(Step 3)──モデルの取捨選択
Step 3 は,Step 2 で個別に得られた調整変数の効果が,複数の変数を同時に投入しても残るかを検討するメタ回帰分析である。本論文では Model 1〜4b の6つの入れ子モデルが比較される。 モデルの良否はデータへの当てはまり(分散説明率, R²)で評価される。表2を見ると,\(R^2_{between}\) はモデル1の0.51から最終モデル4bの0.88まで段階的に上昇する。ここで採択されるのは Model 4b である。これは,ジャンルとタスクの交互作用項を投入したモデルであり,主効果のみを扱う 4a に比べて,理論的に意味のある交互作用が検出されたモデルが選ばれたという点に意味がある。
ここで留意すべき方法論的論点として,説明変数を増やせばモデルの説明力は機械的に上がる,という点がある。予測精度を高めたいのか,現象の本質をシンプルに説明したいのかによって,変数選択の方針は変わる。教育の世界ではモデルの説明率は0.2〜0.3程度に留まることが多いが,それは捉えきれない要因が多いためであり,それでも十分意味のある分析になる。一方,自然科学の領域では決定係数0.9を下回るモデルは「モデルではない」と評する立場すらある。学問領域によってモデルへの要求は大きく異なるのである。サイエンスの観点からは,ただ変数を増やして当てはまりを上げるよりも,理論的に意味のある変数構成でシンプルに現象を説明するほうが望ましい,という考え方も根強い。本論文が Model 4b を最終モデルとして採択したのも,単に説明率が高いからではなく,理論的に重要な交互作用を含むモデルだから,という観点で読むのが適切である。
6.1.7 教育的示唆
本論文のメタ分析から導かれる教育的示唆は,いくつかの層に分けて整理できる。
第一に,テキスト学習においても生成効果は中程度に存在し,しかも単なる学習時間の差では説明できない。読むだけではなく,テキストを自分で操作する活動を組み込むことには,相応の意味がある。
第二に,生成課題の有効性はテキストのジャンルに依存する。説明文には文の再配列,物語文には文字補完が,それぞれ理論的にも経験的にも相性がよい。教材のジャンルとタスク設計のミスマッチを避けることが,生成効果を引き出す鍵となる。
第三に,テキストの長さには適切な範囲があり,900語を大きく超える長文では生成効果は減衰しうる。ワーキングメモリへの負担が過重になる可能性があり,教材設計上は中程度の長さが扱いやすい。 第四に,この知見はあくまで「教材の内容を覚える・理解する」という枠組みで成立する話である。語学教育のように言語スキル自体の習得を目的とする領域では,ばらばらにされた英文を読まされても,十分な語学力がなければ理解不能になるだけであり,生成効果のロジックは直接には適用されない。また,国語教育で物語作品を読み味わう活動と,物語文を学習材料として記憶する活動は別物である。研究知見をそのまま教室実践に適用するのではなく,教科や活動の目的に応じて適切な範囲で参照する姿勢が求められる。
6.1.8 生成効果研究の一般的な学習論への示唆
生成効果が示している最も根本的な示唆は,自分で知識を作らないと身につかないということである。 関連する別系統の研究では,単に数字を読むより計算結果として数字を求めるほうが効果が高く,計算結果のほうが単語生成よりもさらに効果が高い,ということが報告されている。一方,無意味綴りをルールに従って並び替える「生成」には,ほとんど効果がない。ここから読み取れるのは,生成それ自体に効果があるのではなく,意味のある生成,すなわち自分で意味づけが起こる生成にこそ効果がある,ということである。これは有意味学習や精緻化と同じ原理を指している。加えて,生成によって学習されたものは長期保持にも比較的強く,直後テストとの成績差が小さい(忘れにくい)ことも報告されている。この観点は,生成 AI が広く普及した現在の学習文脈にも示唆を持つ。生成 AI を,自分の思考を補助し,データ処理や定型作業を肩代わりさせる目的で使うのは,研究や学習の生産性を高めうる。一方で,自分が読んで理解し統合すべき文献を AI に要約・生成させて済ませてしまえば,生成効果の逆,すなわち精緻化を経ない知識の表面的な通過,が起きてしまう。本来読むべきもの・考えるべきものを生成してしまうと,学習者の中に何も残らない。教育心理学はまさにこのことを「なぜ生成しなければ身につかないのか」という形で説明できる学問領域であり,生成 AI 時代の学習を設計するうえで,その知見はむしろ重要性を増している。
6.1.9 まとめ
生成効果は,外部情報と既有知識をつなぐ精緻化処理が起こるために生じるものであり,検索練習と同じ系譜にある学習現象である。本論文のメタ分析は,テキスト材料においても全体として \(g = 0.41\) の中程度の効果を示し,これが単なる学習時間の差では説明できないことを確認した。さらに,ジャンルと生成課題の交互作用として,説明文には文の再配列,物語文には文字補完が相性のよい組み合わせとなることを示し,material appropriate processing 枠組みに部分的な実証的支持を与えた。メタ回帰分析の構成からは,変数を増やして説明率を上げることと,理論的に意味のあるモデルを選ぶこととの違いという,方法論上の重要な論点も読み取れる。教育的には,教材のジャンルとタスクのマッチング,テキストの長さの選択,そして教科の目的に応じた知見の適用範囲を意識することが鍵となる。より根本的には,生成効果は「自分で意味のある生成をしないと知識は身につかない」という学習論の一般原理を支えており,生成 AI が学習過程に深く入り込みつつある現在こそ,その含意は重い。
7 個人差要因の影響
7.1 個人差要因と数学学力の関連(Breit et al., 2025)
7.1.1 本論文の位置づけ──相関係数による関係の検討
本論文はいわゆる r ファミリーの効果量に対するメタ分析,すなわち相関係数を統合する研究である。したがって扱っているのは X と Y の関係であって因果ではない,という点をまず押さえておく必要がある。介入の効果量を統合する d ファミリーの効果量に対するメタ分析とは区別される枠組みであり,ある変数 X が高ければ Y も高いという共変関係を示すものとして読むのが妥当である。
7.1.2 個人差要因の3分類──知識・技能,適性,パーソナリティ
本論文は数学学力に関連する66の個人差変数を,大きく3つのカテゴリに分類している(論文 Table 2 を参照)。
第一に,知識・技能(knowledge and skills)である。教科の知識や,学習・経験を通じて身につけられる技能が含まれる。
第二に,適性(aptitudes)である。一般に学習成果を予測する変数を適性と呼ぶ。外国語学習で歴史的に使われてきた Language Aptitude Test なども同じ語感である。適性のうち中心的な構成概念が知能である。知能をいわゆる「頭の良さ」と直訳することもあるが,ビネによる知能検査の発祥は,学校の通常学級に入れるかどうかを判別する目的にあった。それ以前,通常学級と特別支援学級の振り分けは経験と勘で行われており,それを科学的根拠で行う必要があるという問題意識から知能検査は作られた。発達・教育心理学そのものが,知能検査の登場とともに約120年の歴史をもつ。
第三に,パーソナリティ(personality)である。日本語でかつて「人格」と訳されてきたものに相当するが,現在では「パーソナリティ」と片仮名で呼ぶことが多い。
7.1.3 主要な結果──カテゴリ別の関連の強さ
論文の Table 2 を見ると,3カテゴリと数学学力との関連はおおむね次のように整理できる。
知識・技能カテゴリは全体として効果量が大きく,相関係数で見るとおよそ0.5を超える水準のものが多い。適性カテゴリはおおむね中から大の範囲にあり,やや「大」寄りに分布する。これに対しパーソナリティカテゴリは全体として効果量が小さく,相関係数で言えば0.2前後に多く分布する。もちろんパーソナリティカテゴリの中にも大きな効果量を示す変数はあるが,全体の傾向としてはこの方向性が明確である。
個別の変数について見ると,最も大きな関連を示すのは言語能力(言語的学業成績や読解力)と数学の事前知識(prior knowledge)であり,相関係数はおよそ0.6を上回る。これに次いで知能および創造性がおおむね0.5前後,数学的自己概念および自己調整学習が0.4程度に位置する。これらが本論文の上位に並ぶ変数群である。
パーソナリティ変数では,ビッグファイブ(外向性,開放性,調和性,誠実性,神経症傾向)の影響はおおむね相関係数0.1を超える程度にとどまる。これに対し,数学不安(math anxiety)は符号が逆向きで,おおむね -0.28 と,不安が高いほど学力が低いという中程度の負の関連を示す。
数学的自己概念が大きな効果を示す一方で言語的自己概念は数学学力とほとんど関連しないという結果も興味深い。これは内的・外的参照枠モデル(internal/external frame of reference model)から説明される現象で,学習者は自分の成績を他者と比べるだけでなく,自分の他領域での成績とも比べるため,得意でない領域での自己評価が引き下げられる,という機序による。
7.1.4 メタ−メタ分析(meta-meta-analysis)という方法の意義
本論文の対象は約465万8千人分のデータに及ぶ。30本の論文を選んだと書かれているが,その30本一本一本が既にメタ分析であり,その下に多数の一次研究を含んでいる。すなわち本論文はメタ分析のさらにメタ分析(systematic review of meta-analyses)を行ったものである。
ではなぜメタ分析をさらにメタ分析するのか。この問いは,研究の妥当性をめぐる古典的な枠組みに照らすと明快に整理できる。良い研究とは一般に,内的妥当性(internal validity)と外的妥当性(external validity)の両方が高い研究である。内的妥当性は因果推論の確からしさ・推定精度の高さを指し,外的妥当性はある研究の知見が他の領域や対象集団にも一般化できる度合いを指す。
しかし,一人の研究者がこの両方を高い水準で同時に達成することはほとんど不可能である。研究には必ず予算・時間・対象の制約がある。とりわけ大学生を対象とする研究が多くなりがちなのは,研究機関の周囲に協力可能な大学生がいるからであり,小中高生や一般成人を対象に同等の規模で研究を実施することは容易ではない。
一つの研究で得られた知見をもって「日本の大学生は」「子どもは」と語ろうとすると,すぐに外的妥当性の問題に直面する。メタ分析は,似たような研究を多数集めて統合することで,年齢層・国・学校段階を超えた広がりを与えるため,外的妥当性を高める方向に強く働く。そしてメタ−メタ分析は,そのプロセスをさらにもう一段重ねるものであり,知見の外的妥当性を高めるための強力な手立てとなる。
なお,本論文では文献検索(PsycINFO に加え Google Scholar による補完検索)で414件の候補を抽出し,選別基準に従って最終的に30本のメタ分析を採択している。採択基準には「メタ分析であること」「数学学力の測定を含むこと」「心理学的個人差変数を扱うこと」「臨床群や介入研究に限定されないこと」「同一変数について複数のメタ分析がある場合は効果数の多い(通常はより新しい)ものを採用すること」「効果数10以上を本文で扱うこと」などが含まれている。
7.1.5 「関係の強さの順位付け」をどう読むか──教育心理学的な解釈
本論文の研究課題のひとつに「効果量の順位付け(rank order)を明らかにする」というものがある。なぜそのような順位付けに意味があるのか,また順位付けをどう読むかという点こそ,教育心理学者の腕の見せ所である。
7.1.5.1 相関係数の解釈
本論文では効果量の解釈基準として,おおむね 0.50 以上を非常に大きい,0.30〜0.49 を大きい,0.20〜0.29 を中程度,0.10〜0.19 を小さい,0.10 未満を無視できる,という区分が用いられている。しかしこの種の基準を機械的に当てはめて「強い」「弱い」を断定するのではなく,それぞれの変数の性質を踏まえて理論的に解釈する必要がある。順位付けはあくまで全体像を見渡すための道具であり,結論ではない。
7.1.5.2 「学力を上げるには学力を上げる」という原則の意味
順位付けの結果から,興味深い含意がいくつか引き出せる。第一に,学力を上げようとすると学校現場では個人差に応じた指導,たとえばパーソナリティへの配慮や動機づけを高める介入が選ばれがちだが,本研究の知見はそれだけでは十分ではないことを示唆する。動機づけを高めれば処理の質は上がるが,それだけで学力が大きく伸びるわけではない。むしろ,最も予測力が大きいのは事前知識や言語能力,知能,創造性,自己調整である。つまり「学力を上げるには学力を上げる」という,ある意味当然の原則に行き着く。
ただし,これだけを結論とすることには注意も必要である。既有知識や知能,適性が高い人ほど学力が高いという関係を学校教育が追認するだけでは,学校は属性主義に陥ってしまう。学校はむしろ生まれ持ったものを越えて社会的地位や機会を実現する功績主義的な装置であるべきだ,という規範的な視点を持つことが社会学的にも重要である。適性の高い学習者にきちんとした成果を保証する役割と同時に,適性が現時点で低めの学習者にも開かれた可能性を提供する役割を持つ。
7.1.5.3 「一般傾向を崩す」介入の探究
そこで研究者の本領が問われるのは,一般的にはこの関係が成り立つけれども,その関係を崩す要因は何か,という問いを立てることである。たとえば一般傾向としては適性が高い人ほど学力が高いとしても,ある介入の下ではその関係が緩やかになる,あるいは適性が低い学習者の学力がより伸びる,といった交互作用を見つけることが,教育心理学的に意味のある実践研究の方向性である。これはATI(Aptitude-Treatment Interaction,適性処遇交互作用)と呼ばれる枠組みに連なる。
例として,学級規模(クラスサイズ)の効果を考えると,平均値で見れば偏差値にして1ポイント程度の差にすぎない場合でも,その内訳として低学力層が引き上げられている場合には,その平均の小ささだけでは捉えられない意味がある。介入が誰にどう効くか,という分布の中身の議論は,平均効果量だけを並べていては見えてこない。本論文のような基礎研究は,こうした介入研究の設計に必要な統制変数や注目すべき要因を提示するという点で重要なのである。
7.1.5.4 「自己調整学習や自己概念を伸ばせばよい」という短絡を避ける
順位付けをそのまま教育的処方箋として受け取ることには注意がいる。たとえば自己調整(r = 0.42)や数学的自己概念(r = 0.43)に大きな関連があるからといって「自己調整能力を育てればよい」「自己概念を高めればよい」と短絡してはならない。これらは数学学力と強く共変するが,共変関係はそのまま因果関係を意味しないし,また学力と自己概念のあいだには相互的な因果関係(高い学力が肯定的な自己概念を生み,それがさらに関与を高める)が想定されている。順位付けは「短絡的な判断を招きかねない」副作用を持つ表現形式でもあるため,その読み方には自覚が必要である。
なお論文の考察でも,自己調整や自己概念への介入は,それぞれメタ分析的に効果が確認されており(Pandey et al., 2018 など),特に領域固有の自己概念介入は大きな効果(d = 1.16)を持つことが報告されている。スキル介入と自己概念介入の併用が,教育格差是正に向けた一つの方向性として論文中で提案されている。
7.1.6 年齢による調整効果
本論文の特徴として,年齢による調整効果(age moderation)が報告されている点も挙げられる。年齢調整分析が利用できたのは66効果量のうち18にとどまり,エビデンスはなお限定的ではあるが,有意な調整効果が認められた8変数について見ると,興味深いパターンが浮かび上がる。
年齢が低い学習者ほど数学学力との関連が強い変数として,創造性,自己調整,数学不安,数値量比較,認知的柔軟性が挙げられる。一方,年齢が上がるほど関連が強まる変数として,知能(流動性知能),数直線推定,数学への態度が挙げられる。
これらの結果からは,発達段階によって学力の規定要因が質的に変化していくことが示唆される。同じ「学力を支える要因」を論じる場合でも,小中段階で重要なものと,高等教育段階で重要なものが異なるのである。ただし,年齢調整分析の方法(連続変数として扱うか年齢群比較かなど)や対象年齢幅が研究によって異なるため,調整効果の強さを直接比較することは難しい。今後の縦断研究の蓄積が待たれる領域である。
7.1.7 メタ−メタ分析が研究設計に与える示唆
本論文のような研究を読むことは,自分自身が介入研究や実験研究をデザインする上での示唆も多い。ある介入の効果を検討しようとするとき,その効果が真にその介入によるものなのか,それとも事前知識・知能・自己調整といった本研究で大きな効果量を示した変数の影響なのかを区別するためには,それらの変数を統制する必要がある。「ある介入を行ったらこのような結果が出ました」と報告する前に,「その介入の効果は,本論文で示されているような大きな個人差要因を統制した上でなお残るものか」という問いを立てることが求められる。本論文は,そうした統制変数の選択にあたっての参照点として機能する。
7.1.8 まとめ
本日の講義では,Breit, Schneider, & Preckel (2025) によるメタ−メタ分析(メタ分析の結果のさらなるメタ分析)を題材に,数学学力の個人差要因を検討した。知識・技能,適性,パーソナリティの3カテゴリのうち,知識・技能と適性(とりわけ言語能力,事前知識,知能,創造性,自己調整,数学的自己概念)が数学学力と強く関連する一方,パーソナリティ特性の関連は概して小さく,数学不安のみが中程度の負の関連を示すことが確認された。メタ分析をさらにメタ分析するという方法は,外的妥当性を一段高める強力な手立てであり,その意義は内的妥当性と外的妥当性のトレードオフという研究方法論の原則から理解できる。順位付けされた結果を読む際には,機械的な基準ではなく理論的解釈に基づくこと,そして「一般傾向はこうだが,それを崩す介入はないか」という ATI 的な視点を保持することが,教育心理学者の役割となる。年齢による調整効果も示唆的であり,発達段階ごとに重要な要因が変わりうるという視点も今後の研究設計に重要な含意を持つ。
7.2 相対的な学力の変わりにくさ(Scherrer et al., 2025)
7.2.1 導入─能力は上がるが,相対的な位置は入れ替わるのか
学力は,基本的には上がっていくものである。勉強すればできることが増えていくのだから,学校に通えば通うほど頭が悪くなるということはまず起こらない。文系の学生が高校時代の数学Iを今解けないとしても,それは能力が低下したというよりは,使っていないために取り出せないという面が大きい。記憶とは,記名し,頭の中に保持し,長く持ち続け,そして想起して使うところまでを含む概念であり,想起できなければ通常は覚えていないと判断される。しかし,四則演算のように日常的に使う技能は誰もが保持し続けており,学校に通い続けたために割り算ができなくなる,といったことはまず起こらない。能力としては基本的に上がっていく。
ところが,能力の絶対的な水準とは別に,学力の相対的な位置が入れ替わるのかどうかは,教育を考えるうえで重要な問題である。たとえば習熟度別の少人数指導では,できる者・中くらいの者・そうでない者にクラスを分けて指導するが,中くらいの者が上位クラスに上がった,下位の者が一気に上に上がった,という話はあまり聞かない。順位というものは入れ替わりにくい。しかし,順位が入れ替わらないとすれば,学校は面白くない。たまたま力を発揮し,少し背伸びをして上位の環境に入り,そこでさらに伸びていくことで人生が変わる──学校教育には,そうした相対的位置の変動への期待が込められている。本講義は,この順位の入れ替わりやすさ/入れ替わりにくさを正面から扱ったメタ分析を検討する。教育社会学を専攻する発表者の視点も交えながら論を進める。
7.2.2 問題─なぜ学業達成の安定性を研究するのか
学業達成の安定性が問われるのは,それが教育的判断の基礎になっているからである。学業達成は,進学・専攻選択・職業キャリアといった長期的な進路だけでなく,学校内でのトラック分け,才能教育(gifted and talented program),特別支援などの判断にも用いられる。こうした配置や介入の判断は,過去の学業達成がその後もある程度安定しているという前提に立っている。
ここで安定性が低すぎても高すぎても問題が生じる。もし安定性が低ければ,過去の成績に基づいて下した長期的な配置や進路判断の妥当性が弱まる。時間が経つにつれて,その生徒の達成水準と選ばれた環境との適合が崩れていくからである。一方で,安定性が極めて高い場合には,学校教育が家庭背景などによる初期格差を十分に縮小できていない可能性が示唆される。near-perfect な安定性は,不平等な出発点を補償しようとする学校の努力があまり成功していないことの表れとも読めるのである。このように,安定性には診断・配置の観点と,教育・介入の観点という相反する要請が向けられている。
それにもかかわらず,学業達成の順位安定性を明示的・体系的に扱った研究は驚くほど少ない。その大きさはどの程度か,測定間隔・学年・評価形式・教科領域・国によってどう異なるのか──こうした点は十分に明らかにされてこなかった。この研究上の空白を埋めるために,本研究は縦断研究の大規模なメタ分析を行っている。
7.2.3 目的─18の研究目的
本研究は学業達成の順位安定性について18の研究目的を設定している。ここでは主要なもののみを取り上げる。第一に測定間隔(test-retest interval)で,測定間隔が長くなるほど順位安定性は低下するのかを問う。第二に学年(grade level)で,学年が上がるにつれて安定性は高まるのかを問う。第三に順位安定性の大きさ(magnitude of rank-order stability)で,第5学年・測定間隔2年という条件に絞った場合,安定性はどの程度かを問う。このほか,学業達成の評価形式(学校成績か標準化学力テストか),国,教科領域,学校段階といった調整変数についての目的が設定されている。残りの目的は,人口統計的・方法論的な調整変数を副次的に検討するものである。
7.2.4 方法─データの構築
データの構築は四段階で進められた。第一に,PsycINFOとERICを用いて文献を検索した。対象は1990年以降に発表された英語文献で,学業達成を縦断的に(パネルデータとして)測定した研究である。第二に,タイトル・要旨・本文に基づいて選別を行った。除外基準は,学業達成を扱っていない研究,縦断研究ではない研究,学校を対象としていない研究,レビュー・メタ分析・質的研究,臨床サンプルや統制群のない介入研究,英語の論文・学位論文ではない研究,テスト・リテスト相関 r が報告されていない研究などである。第三に,分析対象となる効果量を抽出した。順位安定性は2時点間のテスト・リテスト相関 r によって操作的に定義され,3時点以上の測定がある研究では,可能な時点間の相関をすべて効果量としてコード化している。最終的に357件の論文・学位論文から363サンプル,1,990個の安定性効果量が抽出され,対象者数は合計740,610人にのぼった。
7.2.5 結果
7.2.5.1 順位安定性の大きさ
主要な結果の第一は,順位安定性そのものの大きさである。第5学年・測定間隔2年という条件のもとで,全体の安定性は ρ = .704 であった。評価形式別に見ると,学校成績(school marks)は ρ = .669 とやや低く,達成度テスト(標準化学力テスト)は ρ = .722 と全体および学校成績を上回った。
この ρ = .704 という値の意味を,相関係数の解釈を通して押さえておきたい。相関係数 r を二乗した決定係数 R² は,説明力(説明される分散の割合)を示す。.70 を二乗すればおよそ .50 であるから,第5学年時点の成績で,後の時点(おおむね第7学年)の成績の個人差のおよそ5割が説明できることになる。これはかなり大きな影響力である。国をまたいで集計してもなお ρ = .704 という値が得られている点も注目に値する。日本でも小学校高学年では相関係数がおよそ .8 になると言われており,この結果はおおむね直観に合致する。なお,評価形式の比較については後述する解釈上の注意があるため,ここでは大きさそのものの議論にとどめる。
7.2.5.2 評価形式の参照カテゴリをめぐる読解
調整変数分析(Table 5)のうち,学業達成の評価形式に関する結果は,表の読み方そのものを学ぶ好材料である。発表段階で一つの混乱が指摘された。Table 6 では達成度テストの方が学校成績より安定性が高い(.722 対 .669)と読めるのに対し,Table 5 の評価形式の係数(assessment format / achievement type)を素朴に読むと,標準化学力テストの方が学校成績より順位安定性が低いように見える,という不一致である。
この不一致は,ダミー変数のコード化と参照カテゴリの記載の問題に帰着する。Table 1 の変数定義を確認すると,評価形式は school marks = 1,standardized tests = 0 としてコード化されている。Table 5 の評価形式の係数は負の値(−.097)であり,これは「成績(marks=1)の方が安定性が低い」ことを意味する。すなわち,コード化に従えば達成度テストの方が安定的だという結論となり,Table 6 の数値と整合する。問題は Table 5 の参照カテゴリ欄の表記の方にあり,本来 0 に置かれている標準化テストが参照カテゴリであるはずのところ,表記が逆になっていると考えられる。結論(達成度テストの方が安定的)は正しく,数値も正しいが,参照カテゴリの記載にずれがある,という読みである。発表者がこの食い違いを自力で見抜いた点は,回帰分析の結果を批判的に読むうえで重要な作業であった。リファレンスカテゴリ型の回帰分析の出力は,どちらを基準に置いているかを常に意識しなければ読み解けないため,注意深さが要る。
なお,この評価形式の項目については表記上の混乱が残るため,結論の方向は信頼できるとしても,議論の素材としてはひとまず脇に置き,他の調整変数を中心に検討を進める。
7.2.5.3 測定間隔・学年・国・教科領域・学校段階
測定間隔については,間隔が長くなるほど順位安定性が低下することが確認された。そしてこの低下は,学力テストよりも学校成績で大きかった。短い間隔では両者の安定性は近いが,長期になるほど達成度テストの方が崩れにくい。学校成績は,同じ教員が短期間に評価する場合には安定するが,教員やクラス構成が変わると評価基準や級内の相対的位置が変動しやすいためと考えられる。
学年については,測定間隔を統制すると,学年による安定性の上昇は明確には確認されなかった。線形・二次・指数のいずれのモデルでも改善は見られず,測定間隔と学年の交互作用も認められなかった。要するに,学業達成の安定性は学校生活を通じて比較的一定だということである。
国については,国によって順位安定性に差が見られた。なお,日本については効果量の数が少ないため,図中に独立した曲線としては描かれていない。
教科領域については,教科によって安定性に差が見られた。一般的な学業達成(general achievement)の方が,数学や自然科学といった教科別の測度よりも安定性が高い傾向があった。Table 5 を見ると,数学は一般的学業達成を参照カテゴリとして負の係数を示しており,一般より安定性が低いことを意味する。逆に言えば,言語(国語)系の安定性は相対的に高めに出る。一般的学業達成が安定的なのは,複数の教科別測度を統合した合成得点であるため,教科固有の誤差や偏りが平均化されて打ち消し合うこと,また測定が長くなり信頼性が高まることによる。社会科については,安定性が低いとの予測は立つものの,一次研究の数が少なく,有意な結果は得られていない。社会科は標準化されたテストがそもそも乏しいという事情が背景にある。
学校段階については,段階による差は限定的であった。学力テストでは明確な差は見られず,学校成績では一部の段階間で差が見られた。具体的には,線形の学年トレンドを統制したうえで,小学校の方が中学校より学校成績の安定性が高かった。これは,小学校では教員やクラス構成の変化が少なく,学習環境に連続性があるためと解釈できる。
7.2.6 教科ごとの安定性をどう読むか
教科領域による安定性の違いは,各教科教育の専門家の知見を交えて読み解くと,いっそう示唆に富む。
国語(言語)については,相対的位置(偏差値)が他教科に比べて変わりにくいという感覚が共有されている。その背景として,言語の力は一気に追い上げることが難しく,習得に時間がかかること,読書習慣のような学校外の文化的・経験的要因が大きく影響することが挙げられる。また,テスト会社の実務的な知見として,国語の学力は知能に近く成績を変えにくいとも言われる。これは,国語の学力を教科固有の学力というよりも,ワーキングメモリの容量や処理能力を含む広い意味での学習能力の一部として捉えた方がよい,という見方につながる。加えて,数学では答えの正誤が明確であるのに対し,国語では本人が「分かっている/分かっていない」を把握しづらく,何ができていないかが自覚されにくいという特性も,学習による変化のとらえにくさに関わる。
英語(外国語)についても安定性は高めに出る。外国語は易しいものから系統的に学んでいくにもかかわらず,最初に差が生じやすく,その後の挽回が難しい。言語適性(language aptitude)の存在,そして明示的に教えられた知識が手続き的記憶として自動化されるまでに時間がかかり,その自動化の速さに学習者間の個人差があることなどが影響していると考えられる。インプットとアウトプットのいずれにも個人差と動機づけが関わり,とりわけアウトプット(スピーキング)は安定的で変化が小さいと指摘される。さらに,教師が厳しいか,環境が開放的かといった要因が学習動機を左右するため,国による違いも生じうる。英語を使わずとも生活できる社会では,動機づけの面から安定性の様相が変わってくる可能性がある。
社会科については,暗記科目としての側面が安定性に関わる。覚えて再生する力で評価される度合いが強ければ,その時に努力できたかどうかが評価に反映されるため,必ずしも安定性が高いとは限らない。一方で,社会科の本来の目標は社会認識の形成であり,多面的・多角的に思考し判断する力を評価しようとする観点も重視されている。これは適性に近い側面であり,暗記とは異なる安定性の様相を持ちうる。ただし前述のとおり,社会科は標準化テストが乏しく,一次研究の蓄積が少ないため,メタ分析の枠組みでは確たることが言いにくい領域である。
教科の安定性の違いを考えるうえで一つの重要な指摘は,競争的な環境の有無である。順位を入れ替えるために勉強するという動機は,競争的な環境があってこそ生じる。学力の相対的位置が最も変わりやすい時期がいつかという問いに対しても,競争的な環境がどの段階で強まるかという観点が手がかりになる。
7.2.7 能力の伸びと相対的位置──別の角度から
ここまで相対的位置の安定性を見てきたが,絶対的な能力の伸びという角度から見るとどうなるか。教育経済学などの文脈では,1学年分の学習の伸びをおよそ1標準偏差分とみなす慣行がある。これは英国のエビデンス収集機関などがそのように設定しているためであるが,実際に同一のテストを用いて測定すると,標準偏差単位ほどの伸びは必ずしも観測されない。
イメージとしては,同じ学年用のテストを上の学年の生徒が受けると,平均偏差値が押し上がるという形で伸びが表れる。1年生用のテストを2年生が受ければ2年生の平均偏差値は高く,4年生用のテストを5年生が受ければ5年生の平均偏差値が高い,というように。しかし,Bloom et al. (2008) などが示す年間の伸びは学年によって大きく異なり,早い学年ほど大きく,後の学年では小さくなる。4〜5年生でおよそ0.5標準偏差,中学段階ではさらに小さくなっていく。つまり,能力の分布全体はゆっくりと上方に移動していくが,相対的位置の入れ替わりはそれほど大きくない。能力は上がるが,山全体が同じような形のまま動いていくというのが実態に近い。
7.2.8 サンプルサイズと効果量の解釈
研究を読むうえでもう一つ重要なのが,サンプルサイズと効果量の関係である。Kraft (2020) が整理しているように,教育介入研究の効果量は研究規模によって系統的に異なる。対象者が100人を下回るような小規模研究では効果量(d)がおよそ0.24と大きく出るのに対し,500人規模ではおよそ0.10〜0.13,2,000人規模ではおよそ0.09,2,000人を超えるとおよそ0.03にまで下がる。すなわち,小規模な研究ほど効果は高めに出る。実験室研究に近い統制された条件や,観察期間の短さなどが,こうした大きな効果量を生む。研究の規模が大きくなるほど,効果の大きさはむしろ小さくなっていく。
この点を踏まえると,相関係数が0.5だから中程度の相関がある,といった機械的な基準への当てはめで研究を読むことの危うさが分かる。Kraft (2020) が論じるように,Cohen の古典的な基準(0.2が小,0.5が中,0.8が大)は半世紀以上前の少数の統制された実験に由来するものであり,現実の教育介入の効果量はそれよりはるかに小さいことが,近年の大規模な無作為化比較試験から明らかになっている。効果量は,何を・いつ・どのように測定したか,サンプルがどのような集団か,どの標準偏差で標準化したか,費用や規模拡大の可能性はどうかといった研究の特徴を踏まえて解釈しなければならない。学年によって伸びが違い,サンプルサイズが効果量に影響するといった事情を組み合わせながら,この種の研究は慎重に読んでいく必要がある。
7.2.9 一般傾向にどう抗うか──教育という営み
本研究が描き出すのは,学力の相対的位置がかなり安定しているという,ある意味で夢のない事実である。決定係数にして5割が事前の成績で説明されてしまう。しかし,それはあくまで現状がそうだということであって,教育とは,この一般的傾向にどう抗うかという営みにほかならない。放っておけば,できる者はできたまま,できない者はできないままになってしまう。それでも,できない子をできるようにしたい。ある教科を学ぶべきだと大人が言う以上は,できるようにさせてあげたい。そのために学校に何ができるのかを問うところに,この種の研究の意義がある。
学力が相対的にはかなり安定したものだという視点に立つと,どのようなアプローチが有効かが逆に見えてくる。たとえば,相対的位置が安定するからこそ,習熟度別に学習集団を編成しても,そこで順位が変わって上位クラスへ移るといったことは起こりにくい。とすれば,本当にそうやって分けることが望ましいのかが問われる。むしろ協同学習の文脈では,さまざまなレベルの子が一緒に学んだ方が全員の成績が上がることも分かっている。一つ一つの教育実践が,理論的に見ても実証的に見ても合理的な判断なのかを問い直す余地は多々ある。
7.2.10 学級風土と学習──無関係な情報が及ぼす影響
順位の安定性に関連して,学習環境とりわけ学級の風土が学習に及ぼす影響にも触れておきたい。良い学級とは,頑張りを認め,助け合い,いじめを許さない学級である。そうした学級を作ろうとしない教員はいないはずだが,それでもうまくいかないことがあるのはなぜか。
ここで参照に値するのが,無礼さ(incivility)が課題遂行に及ぼす影響を扱った研究である。実験参加者の前で,ある者が他の参加者を見下すような無礼な振る舞いを示すと,それを目撃しただけの参加者の課題成績が落ち,創造性を測る課題でもアイデアが浮かびにくくなることが報告されている。しかも,一度そうした嫌な経験をすると,その不快な感情は持続し,後から状況を取り繕っても容易には回復しない。学校の場面に置き換えれば,たとえば突然の教室変更で生徒が困り,事務窓口などで不快な対応を受けてから授業に臨むと,その後にいくら和やかに授業をしようとしても,嫌な気持ちが尾を引いて,創造的な課題はもとより簡単な課題解決の成績まで下がりうる,ということになる。
一人の振る舞いが場全体に影響することを踏まえれば,皆がきちんと助け合い,認め合い,いじめを許さない学級を作ることが,いかに大切かが分かる。そうした環境が整えば,学習のありようも少しずつ変わっていく可能性がある。
7.2.11 効果のある学校研究という視座
最後に,教育社会学の視座から,安定性を崩す手立てを考える。学業達成には出身階層の影響が強く働く。そこで,どの出身階層の生徒でも良い成績を取れている学校はどのような学校か,を問うのが効果のある学校研究(effective school research)である。この分野で知られる知見として,次の点が挙げられる。
第一に,効果のある学校は年によってかなり変わってしまい,「この学校は固定的に効果がある」と言えるケースは多くない。第二に,複数年連続して効果を上げている学校を選び出すと,その学校の文化や規範が効いていると考えられる。発表者が振り返ったところでは,効果のある学校文化として,正確性をことさら求めない,学びが個別化している,頑張りを認める,助け合う,いじめを許さない,といった特徴が挙げられていたという。これらはまさに,先に述べた望ましい学級風土と重なる。
ただし,効果のある学校研究には方法上の難しさがある。研究では学校名が匿名化されるため,特定の学校を追跡してその出身者を調査することが難しい。具体的な校名は伏せられ,「X大学」「Y大学」のように一般化されるため,この種のアプローチで具体的な対象に踏み込むことには困難が伴う。データの取りにくさもあって,効果のある学校研究は一部の研究者によって継続されているものの,大きな広がりを持つには至っていない。
それでも,学力の相対的位置が安定的だという一般傾向に対して,教育がどう働きかけうるかを問うこの視座は重要である。本研究のような大規模な統合研究が示すのは結論ではなく,その先の問い──一般傾向を崩す介入は何か──を立てるための足場である。
7.2.12 まとめ
本研究は,学業達成の順位安定性を初めて包括的にメタ分析した研究である。第5学年・測定間隔2年の条件で安定性はおよそ ρ = .70 と高く,達成度テスト(.72)の方が学校成績(.67)より安定的であった。測定間隔が長くなるほど安定性は低下し,その低下は学校成績で大きい。学年による安定性の変化は,測定間隔を統制すると明確ではなく,安定性は学校生活を通じてほぼ一定である。国や教科領域による差は認められ,一般的学業達成は教科別測度より安定的であった。
教育実践への示唆は三点に整理できる。第一に,どの指標で学業達成を測るかが,縦断研究や教育判断の結果を大きく左右する。学校成績と標準化学力テストでは長期的な安定性が異なるからである。第二に,学業達成の順位は時間とともに入れ替わるため,一時点の成績に基づいて長期間の配置や進路判断を固定することは適切ではない。配置が必要な場合でも,1〜2年ごとに再評価し,生徒の現在の学習状況に応じて柔軟に見直す仕組みが望ましい。第三に,安定性は達成移動(achievement mobility)の指標でもある。安定性の低さは,生徒が順位を変えられる可能性を示す一方で,高成績層の停滞やカリキュラム上限効果を反映している可能性もあるため,単純に望ましいとは言えない。
そして何より,学力の相対的位置がかなり安定しているという事実を出発点として,その一般傾向にどう抗うかを考えることこそが,教育心理学にも教育社会学にも共通して問われている課題である。
8 教室の中の他者の影響
8.1 ピアフィードバックが学習者の情意要因に与える影響(Lu et al., 2026)
8.1.1 導入──フィードバックとしてのピアアセスメント
ピアアセスメント(peer assessment, PA)とは、学習者同士が互いの成果物を評価し、フィードバックを行う活動を指す。本講義は、このピアアセスメントが学習者の情意要因(動機づけ・自己効力感・不安)に及ぼす効果を扱ったメタ分析を検討する。出発点として押さえておきたいのは、ピアアセスメントが学力に対して効果を持つという先行知見である。
フィードバックそのものの効果については、Wisniewski et al. (2020) のメタ分析が参考になる。この研究は435本の研究を統合し、フィードバックが学習に与える全体効果を中程度の d = .48 と見積もっている。重要なのはフィードバックの方向性に関する結果で、教師から学習者へのフィードバックが d = .47 であるのに対し、学習者から学習者へのフィードバックは d = .85 と大きい。つまり、フィードバックには確かに効果があるが、誰が誰に与えるかによって効果は大きく異なり、学習者同士のフィードバックはとりわけ大きな効果を示す。なお、この学習者間フィードバックの推定はもとになる研究数が少ないため慎重な解釈を要するが、傾向としては一貫している。
学力という観点から見ると、教師による評価よりも、自己評価や相互評価のように学習者自身が評価に関与する形式の方が、学力への影響が大きいことが複数の研究で一貫して示されている。やや乱暴に言えば、教師が答案を集めて採点して返すよりも、学習者が自己採点した方がよほど効果がある、ということになる。なぜそうなるのか。一つの説明は、答え合わせそれ自体がフィードバックだからである。正答を見て自分の答えと照らし合わせる行為がフィードバックの受領にあたる。教師に採点されて返却された答案を、特に成績の確定した後では学習者はあまり見ないが、自分で採点すれば正解に触れる機会がそれだけ増える。
8.1.2 問題──なぜ情意要因に着目するのか
ピアアセスメントが学力に効くという事実の背景には、それが単に学力を直接高めるのではなく、その手前にある情意要因に働きかけているという可能性がある。本研究は、ピアアセスメントが動機づけ・自己効力感・不安という三つの情意的成果に及ぼす効果を推定し、さらにその効果を調整する条件を明らかにしようとする。
ピアアセスメントが情意要因に影響を及ぼす経路には、正の方向と負の方向の両方が想定される。促進要因としては、教師からの信頼に基づく自律性・権限・責任の付与、評価基準の理解、自己調整(自分の強みと弱みを把握して学習方略を選ぶこと)、評価スキルの向上、相互支援による学級共同体の形成などがあり、これらが動機づけと自己効力感を高め、不安を下げると考えられる。一方、阻害要因としては、評価する側の責任の重さ、他者を批判することの負担、ピアによる評価の質への疑念、自分の弱点が露呈すること、他の学習者との不利な社会的比較などがあり、これらは逆に動機づけや自己効力感を下げ、不安を高めうる。要するに、ピアアセスメントは情意要因を高める要素と下げる要素の両方を含んでおり、差し引きでどちらに振れるかが問題となる。
8.1.3 方法──データの構築
本研究は2025年5月に文献を検索し、英語および中国語で書かれた既発表・未発表の実証研究を対象とした。EBSCO、Web of Science、CNKI、Wan Fang Dataなどのデータベースに加え、ウェブ検索と引用文献検索を併用している。採択基準は、タイトルにピアアセスメント関連語を含むこと、抄録に情意的成果に関する語を含むこと、2025年5月以前の公刊であること、実験・準実験・事前事後デザインのいずれかを用いていること、効果量算出に必要な統計情報を備えていることである。理論論文・レビュー・質的研究・調査研究などは除外された。
検索で得られた2,026件から重複や無関連の研究を除いていき、最終的に66本の研究、8,550人の参加者が分析対象となった。効果量はHedges’s g を用い、研究間の異質性を考慮してランダム効果モデルで統合している。情意的成果は三つに分けて別々にメタ分析が行われ、動機づけが24効果量(3,154人)、自己効力感が30効果量(3,305人)、不安が27効果量(2,091人)であった。
8.1.4 結果(1)──三つの情意要因への全体効果
ピアアセスメントは三つの情意要因のすべてに対して、理論的に予測された方向の効果を示した。動機づけは g = .393 で上昇、自己効力感は g = .616 で上昇、不安は g = −.608 で低下した。動機づけ(中程度よりやや小さい)に比べ、自己効力感の上昇と不安の低下は、いずれも絶対値で .6 前後とより大きい。
ここで扱われている「不安」が、テスト不安なのか学習不安なのかは押さえておきたい。本研究の不安は学業課題の遂行に関わるものであり、テストを前にして感じる不安が成果物に影響するというテスト不安に近い側面と、そもそも「できそうもない」と感じる学習不安の側面の両方を含む。自己効力感が「達成できそうだ」という見込みであるのに対し、不安はちょうどその裏返しにあたるため、自己効力感が上がり不安が下がるという結果は理論的に整合的である。
なお、これらの効果量には出版バイアスの補正が試みられている。PET-PEESEという手法による補正後の効果量は、動機づけ .171、自己効力感 .417、不安 −.202 であり、補正前より小さくなる。とりわけ動機づけは補正後に信頼区間がゼロをまたぐため、効果の頑健性についてはやや慎重に見る必要がある。
8.1.5 なぜ情意要因が高まるのか──想定されるプロセス
ピアアセスメントがなぜ動機づけを高め、自己効力感を高め、不安を下げるのか。そのプロセスとして本研究が考察で示すのは、「教師のように評価する」役割を学習者が担うことの効果である。評価者の役割を与えられることで、自律性・権限・責任が生じ、評価基準が何を意味するのかを理解し、自己調整を働かせ、評価スキルを身につけていく。他者の良い例・悪い例を比較し、自分の成果物を改善していく過程で、動機づけと自己効力感が高まり、不安が下がるという筋立てである。
ただし、メタ分析の結果そのものからは「なぜ」は直接には分からない。考察で示されるのは理論的な想定であり、どの経路が実際に効いているかを統計的に同定しているわけではない点には注意が必要である。以下では、この想定されるプロセスを、動機づけ・自己効力感・不安のそれぞれについて、教育心理学の理論に引きつけて検討する。
8.1.5.1 動機づけ──関係性と関与の度合い
ここでの「動機づけ」は、内発・外発の区別を伴って測定されているわけではなく、むしろ一般的な意欲に近いものと捉えるのが妥当である。では、なぜピアアセスメントが意欲を高めるのか。一つの手がかりは、本研究が促進要因として挙げる相互支援である。お互いに課題に取り組み合う環境、すなわち他者と共に関わる経験が実現される教室は、人間関係の良い教室である。人間関係の良い環境で学ぶことは、内発的動機づけを高めると考えられている。
これは自己決定理論(self-determination theory)に関わる。自己決定理論は、動機づけを内発と外発に二分されるものではなく連続体として捉え、自律性(自分で決めたい)・有能性(自分はできると思いたい)・関係性(良い人間関係の中に身を置きたい)という三つの欲求が満たされると、外発的な動機づけがしだいに内発的なものへと近づいていくとする。相互支援を通じて関係性の欲求が満たされることが、意欲の高まりにつながる、という説明が一つ成り立つ。
もっとも、自己決定理論には留意すべき点もある。外発的動機づけが必ずしも悪いわけではなく、内発と外発が組み合わさって働くこともあるため、内発が一概に最適だと断じることはできない。人は一つの行動に対していくつもの目標を併せ持ち、それらを同時に満たそうとする(multiple goals, multiple pathways)という見方もある。実際、研究者が研究に取り組む動機づけにしても、内発的に見えて、生活のためという外発的な側面が同時に存在する。動機づけ理論の多くは、環境の中で人がどう動くかを扱う点で社会心理学的な性格を帯びており、教育の文脈にそのまま持ち込む際には慎重さが要る。
また、もう一つ重要な留保がある。意欲が高まること自体は望ましいが、意欲が高まれば学力が上がるとは限らない。学校現場では「まず動機づけを高めたい」として三つの欲求を満たす実践に取り組み、アンケート上は動機づけが改善する一方で、学力は上がらない、という事例がしばしば見られる。高まった動機づけに見合うだけの良質な授業が伴わなければ、力はつかない。動機づけ面から見ても、教授学習の理論から見ても、有能性を高める方向、すなわち「できた」という経験を通じて、それが先行知識となって次の学習につながる方向に働きかける意義は大きい。関係性の良い教室を作ることは悪いことではないが、それをもって直ちに学力を上げようとするのには飛躍がある。
8.1.5.2 自己効力感──「自分より少し上」というフィードバックの近さ
自己効力感とは、学習が自分にとって達成できそうだという達成の見込みである。この達成の見込みという観点から見ると、教師のフィードバックとピアのフィードバックでは、ピアの方が学習者にとって近い。教師の言うことは時に高級すぎて、できる人の他言語のようにしか聞こえない場合があるのに対し、ピアからのフィードバックは自分より少し上のものであるため、「自分にもできそうだ」という見込みが立ちやすい。
この「自分より少し上」というのは、発達の最近接領域(zone of proximal development)の考え方に重なる。自分一人でできる部分と、他者の手助けを得てできる部分があり、その手助けによって引き出される領域が広がっていくことで、できることが増えていく。ピアのフィードバックは、まさにこの最近接領域に働きかける情報として機能しやすい。
さらに、フィードバックとは何かと問えば、次の学習につなげられる情報、すなわち後続の学習に対する先行知識として機能するものだと言える。後続学習の先行知識として働きやすいのは、高級すぎて分からない情報ではなく、少し先で役に立つ程度の情報である。その点で、ピアのフィードバックは先行知識として機能しやすいと考えられる。自己効力感の上昇と不安の低下がいずれも大きかったという結果は、ピアアセスメントの中でも、自己効力感や不安により近いプロセス(他者の評価を受けること自体など)が、動機づけに関わるプロセス(評価基準の学習など)よりも強く効いている可能性を示唆している。
8.1.6 結果(2)──調整変数分析
本研究は多数の調整変数を検討している。多重比較の問題に対処するためボンフェローニ補正が適用され、有意水準は厳しく設定されている。
研究デザインは動機づけの効果を調整していた。実験群と統制群を備えた研究では動機づけへの効果が明確に正(g = .441)であったのに対し、1群の事前事後デザインのみの研究では効果が小さく信頼区間がゼロをまたいだ。ただし後者は研究数が2本と少なく、慎重な解釈を要する。
学年は自己効力感の効果を調整していた。高校(g = .713)と大学(g = .645)で効果が大きく、中学校(g = .583)がこれに続き、小学校(g = .068)では信頼区間がゼロをまたいで効果が明確でなかった。年長の学習者ほど自己効力感への効果が大きいという、仮説に沿った結果である。年齢が上がるほど周囲の他者がよく見えるようになり、自分より優れた者の存在に気づいて自信や意欲が下がりやすいため、ピアアセスメントの恩恵を受けやすい、という解釈が与えられている。
不安については、検討されたどの調整変数も有意な差をもたらさなかった。
評価基準(rating criteria)の有無は、自己効力感に対して興味深い結果を示している。明示的な評価基準がない場合でも一定の効果(g = .375前後)が見られるが、評価基準がある場合(g = .412前後)の方が効果は大きい。つまり、基準はあった方がよい。これは「ピアフィードバックはダメだ」という見方への応答として重要である。確かに、基準のないピアフィードバックは間違った内容を伝えてしまう恐れがあり、その意味でのダメ説には理がある。しかし、評価基準を持つこと、すなわち正答や考え方を学習者の側にも渡していくことで、ピアアセスメントは有効に機能する。思いつきの意見の言い合いでは不十分だ、ということである。
一方で、評価者訓練(rater training)の有無は効果をほとんど変えなかった(いずれも g = .63前後)。これは、対象が大学生中心であり、評価基準を読み取る力がもともと備わっているため、改めて訓練するまでもなく、むしろ基準をしっかり渡すことの方が有効だ、と解釈できる。なお、これらの基準・訓練に関する結果は主として自己効力感に対するものであり、不安など他の成果については、おおむね符号を入れ替えたような対応する傾向が見られる。
小学生で効果が明確でなかった点については、研究数が少ないという事情に加え、評価という行為そのものが、背景知識、評価基準を読む力、学習方略に関する知識など多様な力を要求するため、それらが十分に育っていない段階では効果が表れにくい、と考えられる。中学校以上でおおむね効果があるのは、こうした力が育ってくるためだろう。
8.1.7 教科による違い──ピアフィードバックが効きにくい領域
ピアアセスメントの効果は、教科の性質によって様相が異なる。とりわけ、正確性が問われ、訓練的・系統的な要素を持つ教科では、ピアフィードバックには慎重な検討が必要である。
外国語(英語)の文脈では、ピアフィードバックの正確性に大きな疑問がある。学習者同士では、文法が正しく見られているか、ネイティブの書き方になっているかが分からず、フィードバックの信頼性が問題となる。修正フィードバックを正確に与えることが本質的に重要な領域では、不正確なフィードバックは機能しない。ただし、これはレベルによって異なる。上級者に対しては、正確性よりもむしろ新しいアイデアや表現を得て理解を深掘りする方向で効果が見込める。また、フィードバックを与えるタイミングや、教師が適切な時点で介入する役割も、効果を左右する変数として効いてくる。一般的なお勉強としての語学には正解があり訓練的な要素があるため、同じ時間をかけるなら、フィードバックを練習するよりも語学そのものを練習した方がよいのではないか、という素朴だが重要な論点もある。
国語については、ピアフィードバックが課題に対する学力を上げる手段というよりも、そもそも学習活動の一部として組み込まれている面が強い。解釈にはあまり明確な正解がなく、なぜ間違ったのかを問うよりは話し合いになりやすいため、正誤を前提とした修正フィードバックとは性格が異なる。
社会科についても、それぞれが意見を持って議論する余地はあるものの、歴史のように妥当性のある正解が想定される領域と、公民のように現在進行形の問題を扱い各自の意見が重視される領域とでは、ピアアセスメントの馴染みやすさが異なる。
子どもの相互交渉という観点から見れば、子ども同士は遊びの中で「この積み木はこうした方がいい」といった相互評価を行っている。学力やテストの評価ではないが、相互交渉の中で評価的なやりとりが生じている点で、動機づけや社会的な関わりの理論に接続しうる領域である。
8.1.8 ピアフィードバックは誰に効くのか──学力格差への示唆
この種のフィードバックが誰に効くのかを考えると、おそらく学力が中位から下位の層に効くと考えられる。全員に等しく効くわけではない。学力の高い層は、正確性よりも広がりのあるフィードバックの方が有効であったり、外国語学習で言えば明示的な訂正よりもリキャストのような暗示的な訂正の方が有効であったりと、レベルによって効果的なフィードバックの形が異なる。学力を伸ばす方向のこうしたフィードバックは、中位から下位の層により効きやすいと見込まれる。
そうだとすれば、この種の取り組みを丁寧に行っていくことは、学力格差の解消にいくらか寄与する可能性がある。それだけで解決するとは言えないが、今後この種の研究で取り組む価値があるのは、事前テストでの学力の層別に効果がどう異なるかという調整変数分析である。偏差値でいう低めの層と高めの層で効果がどう違うかを検討していけば、学力格差の解消につながる知見が得られるかもしれず、そこから教育社会学的な問いにも接続していく。
ただし、学力が上がればその人が幸せに生活できるのか、きちんと収入を得られるのか、という問いまで進むと、教育心理学を離れて社会学や教育経済学の領域に広がっていく。社会学も経済学もマクロな効果を扱う学問だが、そのマクロな効果がもたらされる比較的ミクロなプロセスはこういうものだ、というところを示せる点に、教育に関わる諸学問が互いに協力する意義の一つがある。
8.1.9 まとめ
本研究は、ピアアセスメントが情意要因に及ぼす効果を初めて包括的にメタ分析した研究である。ピアアセスメントは動機づけ(g = .393)と自己効力感(g = .616)を高め、不安(g = −.608)を下げる。研究デザインは動機づけの効果を、学年は自己効力感の効果を調整し、不安についてはいずれの調整変数も有意な差をもたらさなかった。自己効力感への効果は年長の学習者ほど大きい。
教育実践への示唆として、第一に、ピアアセスメントは学力だけでなく動機づけ・自己効力感・不安にも作用するため、その理論はこれらすべてを含む必要がある。第二に、教師はピアアセスメントを通じて、学習者の動機づけと自己効力感を高め、不安を下げることができ、とりわけ自己効力感を損ないやすい年長の学習者の挑戦的な課題で有効である。第三に、ただし効果は研究や条件によって大きく変動するため、個々の状況に照らして適用する必要がある。
理論的な枠組みに引きつけて言えば、ピアアセスメントが学力に効くのは、おそらく自己効力感が高まるからである。自己効力感は達成の見込みであり、自分より少し上の先行知識として機能する情報が与えられやすいことに加え、教師が与えるよりもフィードバックの密度や回数が増えることが、その背景にある。しかし、これを効果的に行うには評価基準を持っておいた方がよく、正確な修正フィードバックが本質的に重要な教科では、不正確なフィードバックでは機能しない。ピアアセスメントには確かに効果があるが、その効果がどの条件で、誰に、どの教科で表れるかを見極めることが、研究にも実践にも求められている。