A Q&A
A.1 Chapter 1: はじめに
1. メタ分析はどのように定義することができるか?メタ分析と他の文献レビューの違いは何か?
メタ分析は、分析の分析と定義することができる (Glass による定義)。他のタイプの (システマティック) レビューとは対照的に、メタ分析は、定量的な方法でエビデンスを統合することを目的としている。通常、その目的は、明確に区分された研究分野全体を記述する数値的な推定値を導き出すことである。
2. メタ分析の生みの親、生みの親を一人挙げることができるか?その人物はどのような功績を残したか?
Karl Pearson: 大英帝国全体の腸チフス接種データの組み合わせ; Ronald Fisher: 農業調査研究のデータを統合するアプローチ; Mary Smith and Gene Glass: 「メタ分析」という言葉を作り、心理療法試験の最初のメタ分析; John Hunter and Frank Schmidt: 測定アーチファクトを補正したメタ分析 (心理測定メタ分析) ; Rebecca DerSimonian and Nan Laird: ランダム効果モデルのメタ分析計算法; Peter Elwood and Archie Cochrane: 医学におけるメタ分析のパイオニア的存在である。
3. メタ分析のよくある問題点を 3 つ挙げ、1~2 文で説明しなさい。
“リンゴとオレンジ”: 研究が違いすぎて合成できない、“Garbage In, Garbage Out”: 無効なエビデンスがメタ分析で再現されるだけ、“ファイルの引き出し”: ネガティブな結果は公表されず、メタ分析に偏った結果が出る、“研究者のアジェンダ”: 研究者は証明したいことを証明するためにメタ分析をいじることができる、などである。
4. メタ分析のための良いリサーチクエスチョンを定義する資質を挙げなさい。
FINER: 実現可能、興味深い、新規、倫理的、関連性;PICO: 明確に定義された集団、介入/曝露、対照群/比較、分析されたアウトカム。
5. 大学生の睡眠介入に関するメタ分析の適格基準をもう一度見てみよう (Chapter 1.4.1 の終わり)。この研究の適格基準、除外基準から PICO を抽出できるか。
対象: 高等教育機関学生;介入: 睡眠焦点型心理学的介入;比較: 受動的対照条件;アウトカム: 睡眠障害、標準化症状測定による。
6. 研究を検索するために使用できるいくつかの重要なソースを挙げなさい。
総説、研究中の参考文献、「フォワードサーチ」 (関連論文を引用した研究の検索)、関連雑誌の検索、書誌データベース検索。
7. 「研究の質」と「バイアスのリスク」の違いを 1~2 文で説明しなさい。
研究分野において重要とされる研究品質基準をすべて満たしていても、バイアスのリスクが高い場合がある (この種の研究または研究テーマではバイアスの回避が困難なためなど)。
A.2 Chapter 2: Rの発見
1. 変数 Author
を表示しなさい。
data$Author
2. subgroup
を因子型 (factor) に変換しなさい。
data$subgroup <- as.factor(data$subgroup)
3. “Jones” と “Martin” の研究のデータをすべて選択しなさい。
4. 研究名 “Rose” を “Bloom” に変更しなさい。
data[5,1] <- "Bloom"
5. TE
から seTE
を引いて、新しい変数 TE_seTE_diff
を作成し、結果を data
に保存しなさい。
TE_seTE_diff <- data$TE - data$seTE
6. パイプを使用して、(1) subgroup
が”one” または “two” に属するすべての研究をフィルタし、(2) 変数 TE_seTE_diff
を選択し、(3) その変数の平均をとり、それに exp
関数を適用しなさい。
A.3 Chapter 3: 効果の大きさ
1. 効果量という言葉に明確な定義はあるか?人々は、効果量という言葉で何を指すか?
いいえ、普遍的に受け入れられる定義はない。ある人は、介入群と対照群の間の差に対して「効果量」という言葉を留保している。また、より自由な定義を使用し、「1変数」の測定値 (例えば、平均値や割合) のみを除外する者もいる。
2. 観測された効果量が母集団の真の効果量から乖離する主な理由を挙げなさい。それはどのように定量化できるのか。
観察された効果量は、サンプル誤差のために真の効果量から乖離することが想定されている。研究のサンプル・エラーの予想サイズは、その標準誤差で表すことができる。
3. なぜ大規模な研究は小規模な研究よりも真の効果の推定に優れているのか?
なぜなら、サンプリング誤差が小さく、より正確な効果推定ができると想定されることがあるからである。
4. 効果量の指標は、どのような基準を満たせばメタ分析に使えるのか?
比較可能で、計算可能で、信頼性があり、解釈可能である必要がある。
5. 標準化平均差 (Standardized Mean Difference, SMD) が1であることは何を表しているのか?
2群の平均値がプール標準偏差の1倍だけ異なることを表している。
6. 比 (オッズ比など) に基づく効果量をプールするためには、どのような変換が必要か。
効果量は対数変換する必要がある (逆変量プール法を使用するため)。
7. 効果量補正の種類を3つ挙げよ。
標準化平均差のスモールサンプルバイアス補正 (Hedges’ \(g\))、信頼性の低さに関する補正、範囲制限に関する補正。
8. 分析単位の問題はどのような場合に発生するか?どうすれば回避できるか?
データセット内の効果量に相関がある場合 (例えば、同じ研究の一部であるため)。分析単位の問題は、(1) 共有グループのサンプルサイズを分割する、(2) 比較を取り除く、(3) グループを組み合わせる、(4) 効果量の依存性を考慮したモデル (例: 3 レベルモデル) を使用する、などによって (一部または全部) 回避することができる。
A.4 Chapter 4: 効果量のプール
1. 固定効果モデルとランダム効果モデルの違いは何か?
固定効果モデルは、すべての研究が同じ真の効果量の推定者であると仮定している。ランダム効果モデルは、研究間の異質性 (分散 \(\tau^2\)) によって、研究の真の効果量が変化すると仮定し、それを推定する必要がある。
2. 固定効果モデルとランダム効果モデルの結果が同じになるケースは考えられるか。
研究間異質性分散 \(\tau^2\) がゼロの場合。
3. \(\tau^2\) とは何か?どのように推定するのか?
研究間の異質性分散。制限付き最尤法 (REML)、Paule-Mandel 推定量、DerSimonian-Laird 推定量など、さまざまな方法を用いて推定することができる。
4. Knapp-Hartung の調整はどの分布に基づいているか?どのような効果があるか?
この調整は \(t\)-分布に基づくものである。Knapp-Hartung の調整は、通常、より保守的な (すなわち、より広い) 信頼区間をもたらす。
5. 「逆分散」 (inverse-variance) プーリングとはどういう意味か?この方法が最適解でないのはどのような場合か?
この方法は、研究の分散の逆数をプーリングの重みとして使用するため、逆分散プーリングと呼ばれる。一般的な逆分散法は、二値アウトカム・データ (例えば、リスク比やオッズ比) のメタ分析には好まれない。
6. 二値アウトカムデータをメタ分析したい。試験群の観察数はほぼ同じで、観察された事象は非常にまれで、治療効果が大きくなることは期待できない。どのようなプール方法を使用するか?
このような場合、Peto 法がうまく機能する可能性がある。
7. GLMM はどのようなアウトカム指標に使用できるのか。
割合(Proportions)。他の二値アウトカム指標に使用することも可能であるが、一般的には推奨されていない。
A.5 Chapter 5: 研究間異質性
1. なぜメタ分析の研究間異質性を調べることが重要なのか。
研究間の異質性が大きい場合、真の効果の大きさはかなり異なることが想定される。この場合、平均的な真の効果の点推定値は、データを全体的によく表していない可能性がある。また、研究間の異質性は、例えば、少数の外れた研究が全体の結果を歪めてしまうため、効果推定値が頑健でなくなる可能性がある。
2. 異質性の2つのタイプを挙げられるか?メタ分析の計算にはどちらが関係するか?
ベースライン/デザインに関連した異質性と統計的異質性。メタ分析では統計的異質性のみが定量的に評価される。
3. Cochran’s \(Q\) の有意性が、研究間異質性の十分な指標とならないのはなぜか。
\(Q\) 検定の有意性は、メタ分析に含まれる研究数とその規模に大きく依存することがある。
4. メタ分析で異質性の大きさを表現するために予測区間を使うメリットは何か。
予測区間は、要約尺度と同じ尺度で、研究間の異質性が将来の研究に与える影響を表現することができる。
5. 統計的外れ値と影響力のある研究の違いは何か?
統計的外れ値とは、効果量が極端な研究のことである。研究は、全体の結果に対する影響が大きい場合、影響力がある。ある研究があまり影響力がなくても統計的外れ値として定義されることがあり、またその逆もありえる。例えば、大規模な研究は、その効果量が特に小さくもなく大きくもないのに、プール結果に大きな影響を与えることがある。
6. GOSH のプロットは何に使えるのか。
GOSH プロットは、データにおける異質性のパターンや、どの研究がそれに寄与しているかを調べるために使用することができる。
A.6 Chapter 6: フォレストプロット
1. フォレストプロットの主要な構成要素は何か?
各研究の観察された効果量と信頼区間、観察された効果量を囲む四角の大きさで表される各研究の重み、各研究の観察された効果量と重みの数値、菱形で表されるプール効果、通常は効果なしを表す参照線などのグラフィカル表示。
**2. メタ分析でフォレストプロットを提示するメリットは何か?
これにより、含まれるすべての研究の数、効果量、精度、および観察された効果がどのようにプールされた効果に「加算」されるかを迅速に調べることができる。
3. フォレストプロットの限界は何か、Drapery プロットはこの限界をどのように克服しているのか。
フォレストプロットは、固定された有意閾値 (通常、\(\alpha\) = 0.05) を仮定した効果の信頼区間を示すことができるだけである。Drapery プロットは、\(p\) -値を変化させた場合の効果量の信頼区間 (したがって有意性) を表示すために使用できる。
A.7 Chapter 7: サブグループ解析
1. 影響度分析や異常値分析ではわからないことのうち、何がサブグループ解析ではわかることがあるか?
サブグループ解析は、データにある異質性のパターンが存在することを教えてくれるだけでなく、なぜ存在するのかを説明できる可能性がある。
2. サブグループ解析の背景にあるモデルが、なぜ固定効果 (複数) モデルと呼ばれるのか。
なぜなら、サブグループ内の研究はランダム効果モデルに従うが、サブグループのレベル自体は固定されていると仮定しているからである。固定サブグループ効果はいくつかある。
3. メタ分析の一環として、ある教育研修プログラムの効果が、実施された学区によって異なるかどうかを調べたいと考えている。この問いに答えるために、固定効果 (複数) モデルを用いたサブグループ解析は適切か?
おそらく、そうではないだろう。学区は、すべての学区ではなく、より多くの学区から選ばれたものであると考える方が理にかなっている。
4. あなたの友人が、合計 9 つの研究を含むメタ分析を行った。これらの研究のうち 5 つが 1 つのサブグループに分類され、4 つが他のサブグループに分類されている。彼女は、サブグループ解析を行うことに意味があるかどうかをあなたに尋ねている。あなたならどうするか?
研究数の合計が 10 より少ないので、サブグループ解析を行うのは得策ではないだろう。
5. メタ分析で、分析した治療法が男性よりも女性でより効果的であると著者が主張しているものがあった。この知見は、研究対象者に含まれる女性の割合に基づいて研究をサブグループに分けたサブグループ解析に基づいている。この知見は信頼できるか、またその理由は?
この所見は、集計された研究データを用いて作成されたサブグループ変数に基づくものである。これは生態学的なバイアスをもたらす可能性があり、その結果には疑問が残る。
A.8 Chapter 8: メタ回帰
1. 一次研究で用いられる従来の回帰分析と、メタ回帰の違いは何か?
分析の単位は (人ではなく) 研究であり、その効果量はだいたい正確である。メタ回帰では、ある研究が他の研究よりも大きなウェイトを持つという事実を考慮した回帰モデルを構築しなければならない。
2. サブグループ解析とメタ回帰は密接な関係がある。メタ回帰の公式をどのようにサブグループデータに適応させることができるか。
ダミー/カテゴリー予測変数の使用による。
3. メタ回帰において、個々の研究に異なる重みを与えるためにどのような方法が用いられるか?
メタ回帰では、加重最小二乗法を用いて、精度の高い研究をより重要視している。
4. データによく適合するメタ回帰モデルにはどのような特徴があるか?これを調べるには、どのような指標を用いればよいか?
「良い」メタ回帰モデルは、説明されない研究間異質性分散の量を大きく減少させるはずである。この説明される分散の増加をカバーする指数が、\(R^2\) のアナログである。
5. メタ分析の手法でサブグループ解析を計算する場合、\(\tau^2\) の値をサブグループで別々にするか、共通にするか。
サブグループで共通の推定値 \(\tau^2\) を想定している。
6. (多重) メタ回帰の限界と落とし穴は何か。
メタ回帰の過剰適合は偽陽性の結果につながり、多重共線性はロバストでないパラメータ推定値につながる可能性がある。
7. (複数の) メタ回帰モデルの頑健性を向上させるために利用できる方法を2つ挙げ、それが有用である理由を述べよ。
並べ替え検定を行うか、マルチモデル推論を利用することができる。
A.9 Chapter 9: 出版バイアス
1. 「出版バイアス」という言葉はどのように定義できるか?なぜメタ分析で問題になるのか?
出版バイアスは、ある研究が出版される確率がその結果に依存する場合に存在した。これは、メタ分析において偏った結果を導き出す可能性があるため、問題となる。すべてのエビデンスが考慮されているわけではないので、メタ分析では、既存のすべての情報を考慮したときには現れなかったであろう結果が得られることがある。
2. 他にどのような報告バイアスがあるか?少なくとも3つ挙げて説明しなさい。
引用バイアス: ネガティブな知見を持つ研究は引用されにくい、タイムラグバイアス: ネガティブな知見を持つ研究は後に出版される、多重出版バイアス: ポジティブな知見を持つ研究は複数の論文で報告されやすい、言語バイアス: 英語で出版されていないため証拠が省略されることがある、結果報告バイアス: 研究結果がポジティブであればネガティブよりも多く報告される傾向がある。
3. 疑わしい研究慣行 (QRP) を2つ挙げ、どのようにメタ分析の妥当性を脅かすかを説明しなさい。
P-hacking、HARKing。どちらも、真の効果がないにもかかわらず、肯定的な知見を膨らませることにつながる。
4. 小規模研究効果法の基本的な前提を説明しなさい。
大規模な研究 (すなわち標準誤差が小さい研究) は、その結果がどうであれ、出版される可能性が非常に高い。小規模な研究は精度が小さいので、統計的有意性を得るためには非常に高い効果量が必要となる。したがって、非常に高い効果を持つ小規模な研究だけが出版され、それ以外は「ファイルの引き出し」に入ったままになってしまうのである。
5. データが小規模研究の効果を示すことがわかったとき、自動的に出版バイアスがあることを意味するか?
研究間の異質性、共変量の影響 (例えば、小規模な研究ほど治療の忠実度が高い)、偶然性など、小規模な研究の効果を見つける理由は他にもいくつかある。
6. p-曲線は、メタ分析に含まれるすべての研究の真の効果を推定するのか、それとも「有意な」効果量を持つすべての研究の真の効果だけを推定するのか、どちらか?
P曲線は、すべての有意な効果量の真の効果を推定するだけである。これは、研究間の異質性がある場合にうまく機能しない理由の一つである。
7. どの出版バイアス法が一番性能が良いか。
出版バイアス方法は、一貫して他のすべての方法より優れているものはない。したがって、いくつかの方法を適用して、その結果が一致するかどうかを確認することは有用である。
A.10 Chapter 10:「マルチレベルメタ分析
1. なぜ「マルチレベル」モデルではなく「3レベル」モデルと言う方が正確なのか?
なぜなら、「従来の」ランダム効果モデルは、すでにマルチレベルモデルであることがある。参加者が研究内にネストされており、研究自体が真の効果量の母集団から引き出されていることを仮定している。
2. 3レベルメタ分析モデルはいつ有用か?
相関のあるデータやネストされたデータを扱う場合。3 レベルモデルは、研究が複数の効果量に寄与している場合や、研究自体がより大きなクラスターに分類されると信じるに足る理由がある場合に特に有用である。
3. 効果量依存性の一般的な原因を2つ挙げなさい。
一次研究に携わった研究者が引き起こした依存、メタ分析者自身が作り出した依存。
4. マルチレベル \(I^2\) の統計量はどのように解釈すればよいか。
これは、サンプル誤差に起因しない分散の量を示し、クラスタ内の異質性分散とクラスタ間の異質性分散を区別するものである。
5. モデレータ変数の効果を取り入れるために、どのように3レベルモデルを拡張することができるのか?
モデル式に固定効果項を積算することで
A.11 Chapter 11: 構造方程式モデリングメタ分析
1. 構造方程式モデリングとは何か、何のために使うのか。
構造方程式モデリングは、顕在変数と潜在変数の間に想定される関係を検証するために用いることができる統計手法である。
2. SEM の表現方法として、どのようなものがあるか?
SEM はグラフやマトリックスで表現することができる。
3. ランダム効果メタ分析を SEM の観点から説明しなさい。
SEM の観点からは、ランダム効果メタ分析における真の全体効果量は、潜在変数と見なすことができる。それは、レベル 1 のサンプル誤差とレベル 2 の真の効果量の異質性分散という 2 つのアームによって”影響”される。
4. 多変量メタ分析とは何か、どのような場合に有用か。
多変量メタ分析では、2 つ (またはそれ以上) の研究のアウトカムを同時にプールすることができる。2つのアウトカム変数を共同で推定することの利点は、アウトカム間の相関を考慮することができることである。
5. 提案したメタ分析 SEM がデータによく適合することがわかったとき、このモデルが自動的に「正しい」モデルであることを意味するのだろうか。
いいえ、データによく合うモデルは1つだけではないことが多い。
A.12 Chapter 12: ネットワークメタ分析
1. ネットワークメタ分析はどんな時に有用か?標準的なメタ分析と比較して、どのような利点があるか?
ネットワークメタ分析は、ある問題領域に対して複数の競合する治療法があり、どの治療法が最も効果が大きいかを推定したい場合に有効である。従来のメタ分析とは対照的に、ネットワーク・メタ分析モデルは、直接および間接のエビデンスを統合することができる。
2. 治療ネットワークにおける直接エビデンスと間接エビデンスの違いは何か?間接エビデンスの生成に直接エビデンスをどのように利用できるのか?
直接エビデンスとは、対象となる研究で実際に調査された比較によって提供される情報である。間接エビデンスは、ある (直接観察された) 比較の効果を、関連する比較 (例えば、同じ対照群を用いた比較) の効果から差し引くことによって、直接エビデンスから導き出されるものである。
3. ネットワークメタ分析における推移性 (transitivity) の仮定の主な考え方は何か?
推移性の仮定は、直接証拠が観察されない間接証拠を推論するために使用できること、および直接証拠と間接証拠は一致することを規定している。
4. 推移性 (transivity) と一貫性 (consistency) の関係は?
推移性は、ネットワークメタ分析を行うための前提条件であり、直接的に検証することはできない。推移性統計的な現れ方は一貫性であり、直接エビデンスに基づく効果量の推定値が間接エビデンスに基づく推定値と同一または類似している場合に満たされる。
5. ネットワークメタ分析に使用できる2つのモデリングアプローチを挙げなさい。どちらか一方が優れているか?
ネットワークメタ分析は、頻度論的モデルまたはベイズモデルを用いて実施することができる。どちらのモデルも同等で、サンプルサイズが大きくなるにつれて収束する結果が得られる。
6. 1つの試験から複数の比較を含める場合 (マルチアーム試験など)、どのような問題が発生するか?
つまり、効果推定値に相関があり、解析単位に誤差が生じる。
7. 異なる治療法の P-スコアまたは SUCRA スコアを解釈する際、どのような点に注意しなければならないか?
異なる治療法の効果推定値が重なることが多いこと。つまり、P-/SUCRAスコアは常に慎重に解釈されるべきものである。
A.13 Chapter 13: ベイズメタ分析
1. 「従来の」ランダム効果モデルとベイズ型階層モデルの相違点と類似点は何か?
頻度論的メタ分析の基礎となるランダム効果モデルは、概念的にはベイズ階層モデルと同じである。主な違いは、ベイズ型階層モデルは、全体の真の効果量 \(\mu\) と研究間の異質性 \(\tau\) に対する (弱い情報量の) 事前分布を含む点である。
2. ベイズメタ分析の頻度論的な利点と比較した場合の利点を3つ挙げよ。
\(\tau^2\) の推定値の不確実性を直接モデル化する。\(\mu\) の事後分布を作成し、\(\mu\) がある値以下になる確率を計算するために使用できる。事前知識や信念をモデルに統合することができる。
3. 弱情報的事前分布と非情報的事前分布の違いを説明しなさい。
非情報的 prior は、すべて、あるいはある範囲の可能な値が等しくあり得ると仮定する。弱情報的 prior は、ある値が他の値よりも確率が高いという弱い信念を表している。
4. Half-Cauchy 分布とは何か、なぜベイズメタ分析に有用なのか。
Half-Cauchy 分布は、正の値に対してのみ定義される Cauchy 分布である。これは、位置とスケーリング・パラメータによって制御され、後者は分布の尾がどの程度重いかを決定する。Half-Cauchy 分布は、\(\tau\) の事前分布として使うことができる。
5. ECDF とは何か、ベイズメタ分析にどう使えるか?
ECDF とは、経験的累積分布関数の略である。\(\mu\) (または \(\tau\)) の事後分布に基づく ECDF は、推定されたパラメータがある指定された閾値より下または上にある (累積) 確率を決定するために使用されることができる。