心理学における形式理論,データ,モデルについて

この記事は,Open and Reproducible Science Advent Calendar 2021の25日目の記事です。

アドベントカレンダーの最終日なので,ちょっとでかい話でも書こうかなと思って,「心理学における形式理論,データ,モデルについて」というちょと自分の力量を見誤ったようなタイトルをつけてみました。とはいえ,そんな難しい話も書けないので,クリスマス気分でリラックして読んでください。

理論的なものへの固執のめばえ

私は計算論的精神医学を専門としており,数式などの形式言語を用いた理論に関心をもってます。この理論的なるものへの固執は,卒論の頃からあり,当時はデータ駆動型のパーソナリティモデル(Big Fiveモデル)と理論駆動形のパーソナリティモデル(Cloningerの気質と性格モデル)の関係に関心を持っていました。なぜこういう問題設定に関心をもったのか正確には覚えてはないのですが,丹野義彦先生の「性格の心理」を読んで,めちゃくちゃ面白かったからかなと思います。この卒論の研究指導の流れで,指導教員の山口陽弘先生(群馬大学)から須賀哲夫先生の「三つの個性」を紹介されて読んだのが,その後の理論的なるものへ固着の原因ではないかと思います(ちなみに山口先生の影響で,万年筆とノートへの固着もあります)。私は先生に紹介された文献はできるだけ読んでその上で質問したりする,とっても可愛い学生だったので,「三つの個性」を紹介されて多分すぐに読みました(美化された思い出の可能性もあります)。学部生にも読める内容だし,サラサラ読んだ記憶があります。「ふんふん,なるほどね,へー」っと読める本なのですが,須賀先生の科学の捉え方もサラッと紹介されています。それが科学のツー・モジュール説です。本のオマケみたいな部分でさらっと紹介されているので(1〜2ページくらい),学部生のときは確実に読み飛ばしたと思うのですが,どこかで気がついて読んだようで,それは私の理論ってものを理解する際の軸になっているように思います。

科学のツー・モジュール説

須賀先生の科学のツー・モジュール説は,科学には理論モジュールと実験(シミュレーション)モジュールがあるというものです。細かく言うと,(1)理論と事実を理想化したモデル(現実には存在する制約などを省いた抽象化されたもの)とで検討を行う理論モジュールと(2)事実を理想化したモデルとデータとで検討を行う実験(シミュレーション)モジュールの2つがあるという説です。心理学では,理論と事実(測定されたデータ)が直接的に関係するという考え方をする人も多いと思います。そうではなくて,須賀先生の科学のツー・モジュール説は,以下の図のように,理論はモデルを介して事実と関係するというものです。

f:id:cpp-laboratory:20211224071943p:plain
科学のツー・モジュール説

これはMarrの3つの水準にも対応するようにも思いますし,心理学において理論とデータとの距離感は近くないと感じておられる方もおられると思うので納得感があるのではないかと思います。なお,ここでのモデルは,数理モデルみたいなものもありますが,心理学実験で用いる動物や厳密に統制された実験も含まれるのではないかと私は思います。逆に言うと,そういう現実の人の心のありようそのものではないデータ(動物実験のデータやすごく厳密に統制されており生態学的妥当性からは理想化されているデータ)はモデルという捉え方もあるかもしれません(あ,きっと諸説あります。いじめないでください)。このモデルにおける事実の理想化の程度っていうのに自覚的であるというはとても重要に思います。

とりあえず,科学のツー・モジュール説で話をすすめていきましょう。私はこのような科学観の下でどういう感じで心理学研究ができるかなってことを気にしつつ研究に取り組んでいます。というのは,科学のツー・モジュール説はなるほどってなるものの,自分が取り組む研究でどういうふうになるのかが分からない部分もあります。そこで,以下では,Haslbeck et al.(2021)の論文を簡単に紹介します。

Modeling Psychopathology: From Data Models to Formal Theories

今年ゼミ生と読んだ論文の1つですが,事実(現象),モデル,理論の関係を考える上で大変に参考になったので一部紹介します。

著者名を見るとすぐに気がつくと思いますが,心理ネットワークモデルを提唱しているアムステルダム大学のデニーの研究室を中心としたチームによる論文です。なのでこの論文でも,心理ネットワークモデルの話が出てきます(心理ネットワークモデルについては,樫原さんの素晴らしい論文「心理ネットワークアプローチがもたらす「臨床革命」—認知行動療法の文脈に基づく展望—」を参照ください。解析方法は,国里も解説を書いていますので,どうぞ)。

心理ネットワークモデルなので,心が何か少数の潜在変数から構成されるというよりは,心を複数の変数間の複雑なネットワークからなるシステムとして捉えます。具体的には,うつ病を考える時に,「うつ」なるものがあって,それぞれの症状が生じるというよりは,うつ症状というものがお互いに影響を与え合う複雑なネットワークがあり,そのネットワーク自体がうつ病とみなされるという感じです。なので,心理ネットワークモデルで対象としているのは,システムになります。以降,システムというものが出てくるときはそのように理解していただけたらと思うのと,他の立場で研究する場合は,システムを「現象」とかに読み替えてもらえると良いかと思います。

対象システム,データ,形式理論,データモデルとは?

Haslbeck et al.(2021)は,対象システム,データ,形式理論,データモデルとの関係を整理しています。まずそれぞれの意味を簡単にまとめます。

  • 対象システム:研究で明らかにしたいシステムのことです。現象でも良いです。
  • 形式理論:理論は現象(システム)を説明するものであり,良い理論は現象の予測と制御につながります。理論は自然言語でも記述できますが,曖昧さの少ない数学のような形式言語でも記述ができます。そのような理論を形式理論と言います。
  • データモデル:理論とモデルを混同することも多いのですが,心理学では因子分析,SEM,相関などのデータ分析で使用するデータについて説明するモデルが多くあります。
  • データ:対象システムを明らかにするために収集・選択されたデータです(普通にデータです)。

心理学研究での4つの関係は?

心理学研究ではデータモデルが表現するものを使って理論について論じるのですが,それはどういう構造をもっているのでしょうか?Haslbeck et al.(2021)は,その関係性を以下の図のように整理しました。どちらにも共通するのは,形式理論は対象システム(現象)を表現すること,対象システム(現象)からデータが生成されること,データモデルはデータを表現していることになります。これらは前提といえます。

  • (1)「データモデルを形式理論として利用する」(以下の図の左側):特徴としてはデータモデルから形式理論が直接生成されるとみなす点です。なので,実証研究を実施して,データを収集し,データモデルを推定して,データモデルを形式理論とする研究実践になります。
  • (2)「形式理論を推論するためにデータモデルを利用する」(以下の図の右側):特徴としては,データモデルを直接的に形式理論として扱わず,理論に情報を提供するものとして使う点です。なので,実証研究を実施して,データを収集し,データモデルを推定して,そのデータモデルを使って対象システムの特徴を推測する研究実践です。

f:id:cpp-laboratory:20211224075229p:plain

両者とも心理学研究でよく使用される方法ですが,問題もあります。(1)はデータモデルが対象システムの複雑さを十分に表現できるようなモデルである必要がありますが,心理学で使用されるモデルはそのようなモデルではないことが多いです。よく使われる重回帰モデルは心の現象の理論として扱うには単純すぎないでしょうか?一方,データモデルが複雑になりすぎても再現性や適用が難しいです。めちゃくちゃ複雑なSEMモデルは実用性が低かったり,再現しない,もしくは,心理学の一般的なサンプルサイズではうまくフィットしないかもしれません。(2)は対象システム(現象)とデータモデルを関連づける必要がありますが,複雑な対象システムとかなり単純化したデータモデルを対応づける(マッピング)のは難しいです。そして,データモデルと対象システムのマッピングがうまくいかないと,形式理論を作ることも難しいです。

形式理論の開発のためにデータモデルを利用する

上記のよく使われる方法の問題点を踏まえた上で,Haslbeck et al.(2021)は,以下の図で示される「形式理論の開発のためにデータモデルを利用する」方法を提案しています。簡単にいうとデータ駆動的に実データをデータモデルで整理したものと理論駆動的にシミュレーションデータをデータモデルで整理したものを比較するというやり方です。まず,図の左側からみていきましょう。形式理論から出発して,形式理論からシミュレーションデータを生成して,そのシミュレーションデータをデータモデルで整理します。ここでの形式理論は複雑な対象システムを扱うことができるものであり,データモデルよりも複雑です。具体的には,システムのコンポーネントの時間的変化を微分方程式で表現したり,コンポーネント間の相互作用や循環性も含めます。これは簡単に言うとシミュレーション研究です(このシミュレーションの過程では,微分方程式を活用する数理生物学やシステム生物学の研究が参考になると思われます)。このような理論駆動的に行われたシミュレーションをまとめたデータモデルの結果(「理論が意味するデータモデル」としています)を実際のデータを使って得られたデータモデルの結果(図の右側)と比較するという方法になります。この比較を通して,形式理論をよりよいものに修正していくというアブダクションを行います。

f:id:cpp-laboratory:20211225060247p:plain

個人的にこの枠組の面白いところは,データモデルは単純でも形式理論は複雑にするのが可能なところです。私は,臨床心理学的な現象の時間的変化について数理生物学などの手法を用いることに関心を持っています。ただ,形式理論上は細かな時間的変化を考慮しても,実データでは細かな時間的変化を測定することが難しいなどのジレンマもあります。そのため,「データモデルを形式理論として利用する」方法だと形式理論の発展に限界があるように思います。一方で,この枠組なら,形式理論から生成されたデータをデータモデルで要約するという方法をとることで,ターゲットシステムの複雑さに形式理論を近づけることもできます。

そして,改めて最初に戻ると,この枠組は,須賀先生の科学のツー・モジュール説に構造が似ているように思います。厳密には科学のツー・モジュール説ではシミュレーションは実験モジュールに含まれるのですが,理論駆動のモデルとデータ駆動のモデルが照合されるあたりが似ているように思います。須賀先生の意図とは違う可能性は大いにあるのですが,私の中で科学のツー・モジュール説を自分の研究に落とし込んでいくと,Haslbeck et al.(2021)の提案する枠組みになるのかなあと考えています。

心理学の形式理論はどこかでデータに着地しないといけませんが,いろいろな制約の下でとられたデータに縛られても私達の知りたい形式理論には到達できません。そのようなバランスをどのようにとるのかについて,Haslbeck et al.(2021)から学ぶことが多いのではないかなと思います。今回は,私の関心(理論,データ,モデルの関係)に焦点をあてて,Haslbeck et al.(2021)をつまみ食いしました。上記以外の観点からも面白い論文なので,是非とも本文にあたってください。

Enjoy Science!