Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads.
2変量解析における統計的検
定と例数設計の基礎
~無駄のない研究のために~
早稲田大学人間科学学術院
国里愛彦
1
2変量解析における検定と例数設計
 はじめに(14min)
 独立な2群における比率差(7min)
 独立な2群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
2
事例1:血液型性格診断
某血液型性格
診断研究家
 1万人の大学生のデータを
ランダムサンプリングで収
集して,A型はO型よりも誠
実性が有意に高いことが明
らかに!
※架空例です。A型O型ともに,
3500名とします(35%)。
24.6
...
血液型性格診断は正しい?
 今後は,心理学の教科書に血液型性格診断
が載ることになった・・・
 この差を出すのに,1万人も必要かな(+質問
紙代270万円)?
 いやいや,ちょっと落ち着いて差を検
討しよう。12~60点の検査で,平均値
...
事例2:新しい介入プログラムの開発
 某大学では,入学時
検診で抑うつ症状の
高い学生の20%がう
つ病になる。
→予防プログラムを作成
し,効果を調べたい。
抑うつ症状の高い学生
統制群
(介入なし)
介入群
(予防プログラム)
無作為割付...
事例3:摂食障害とコーピング
 摂食障害傾向のある女子学生は,ストレスへ
の対処が下手な傾向があることを調べた。
 60名の女子大学生を対象に調査を行って、ス
トレス対処と摂食障害傾向に有意な負の相関
が認められた(r =-.28)。
 ...
例数設計の悩み
 3つの事例に共通する悩みは,「結果が信用に
足るサンプルサイズから得られたかどうか」。
 極端にサンプルサイズが小さいとわかりやすい
が,本当にサンプルサイズは足りているか?
 逆に,不安に駆られて,不必要にサンプルサイ...
統計的検定について
 統計的検定では,得られたデータ(標本)から,
母集団についての仮説が正しいかどうかを確
率的に判断するのを助ける。
→検定は真実を見つけるのではなく,あくまで研
究者の意志決定の支援
母集団の値
(平均や分散など)
= ...
統計的検定の手順
NHST(NULL HYPOTHESIS SIGNIFICANCE TESTING)
① 母集団の値について帰無仮説(Null Hypothesis,
Ho)をたてる(例:男と女で差はない)
② 対立仮説(H1)をたてる(例:...
統計的検定の結果
(治療効果を例にして)
母集団における真実
帰無仮説
(効果無し)
対立仮説
(効果あり)
統計的
検定の
判断
帰無仮説採択
(効果無し)
正しい選択
(p=1-α)
Type II error
(p=β)
対立仮説採択
(...
検定力(POWER)
 対立仮説が正しい時に,帰無仮説を棄却して
対立仮説を採択できる確率のこと。
 有意水準(α)+検定力(1-β)≠1
→それぞれ,帰無仮説と対立仮説に基づく確率で
あり,別々の測度になる。
→しかし,αとβは拮抗する性...
検定力をあげるには?
 検定力は,サンプルサイズ,効果量,有意水準
によって決定できる。
 検定力を増やすには・・・
① 標本誤差を小さくできるように,サンプルサイ
ズを増やす
② 効果量を大きくする
③ 有意水準をゆるくする
サンプル
サ...
シミュレーションから検定力を理解する
サンプルサイズが20だったら
相関係数(r)が0.4で, 有意水準が5%の時,以下のサンプルサイズで5000回
検定を行った。
サンプルサイズが62だったら
0 1000 2000 3000 4000 50...
検定力分析
 効果量,サンプルサイズ,検定力,有意水準の
4つは,他の3つが決まれば,残りが分かる。
 検定力やデータ収集する際の必要なサンプル
数を調べる分析
サンプ
ルサ
イズ
有意
水準
検定
力
効果
量
 有意水準は一般的に使用...
検定力分析における効果量の設定
 母集団効果量の設定がもっとも難しく,検定力
分析の肝になる。
① 先行研究やメタ分析から効果量を設定する
② 実践的・理論的な観点から,必要とされる効果
量を設定する
③ パイロットスタディから効果量を設定す...
検定力分析はしなきゃだめですか?
YES!!!
 CONSORT声明(RCT)
Item7a How sample size was determined.
 STROBE声明(観察研究)
Item10 Explain how the st...
検定力分析で使用するRパッケージ
<検定力分析>
pwr:2変量解析(比,2群の平均値,相関,1要因
分散分分析)の検定力分析を行う。
*重回帰分析だと,rpsychiのsamplesize.rsq
<効果量>
MBESS,compute.es...
2変量解析における検定と例数設計
 はじめに(14min)
 独立な2群における比率差(7min)
 独立な2群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
18
事例2:新しい介入プログラムの開発
 プログラムの効果を検
討するには何名の参加
者が必要か?
※power.prop.test(n , p1, p2,
sig.level, power, alternative)を使う。
※(n=サンプル数...
解析事例:青年期うつ病に対する,フルオ
キセチン,認知行動療法,その併用の効果
(JAMA, 292, 807-820, 2004)
 青年期うつ病は,重症度や自殺の高さから効果
的な介入法が必要とされている。
 青年期うつ病に対して,フル...
例数設計
 論文記載例
Using χ2 statistic, power estimates for detecting differences in
treatment response in the 4 groups・・・(検定力分析で...
 うつ病と診断され,症状が異なる文脈(家,学校な
ど)で6週続いている患者が参加した。
 薬物療法,CBTともに12週の治療であった。CBT
は1回1時間で行われ,患者に合わせて実施され
た。
青年期のうつ病患者(439名)
フルオキセチン...
結果と考察
 ロジスティック回帰
で,治療反応率に対
する治療の効果が
有意だった。
 併用と抗うつ薬はプ
ラセボやCBT単独よ
りも優れる
 詳細は省略するが,症状の重症度に関して,
併用が他の介入より優れていた。
 青年期うつ病には...
2変量解析における検定と例数設計
 はじめに(14min)
 独立な2群における比率差(7min)
 独立な2群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
24
事例1:血液型性格診断
 今回の差は,効果量で0.16。
 この差を,有意水準=0.05,検
定力=0.8で検出するには何
名必要か? 24.6
24.8
25
25.2
25.4
誠実性
A型
O型
pwr.t.test(n, d,sig...
解析事例:青年期うつ病の薬物療法に心
理療法を追加する効果について
(BMJ, 335(7611), 2007)
 TADSの結果からNational Institute for Health
and Clinical Excellence ...
例数設計
 論文記載例
We used the outcome score to determine sample size. Data from
the development study and overdose study sugges...
 自傷など中程度から
重度の青年期うつ病
患者が参加
 最初に短期的な介入
を行って、改善しな
かった患者が対象
青年期のうつ病患者(208名)
抗うつ薬治療群
(103名)
抗うつ薬+CBT群
(105名)
無作為割付
青年期のうつ病患者...
結果と考察
 5名に1名は、最初
の治療でよくなっ
た。
 抗うつ薬群とプラス
CBT群では、治療
効果に差はなかっ
た。
 今回の臨床試験では、最初の治療に反応しな
い重症度の高い患者を対象にしたので、CBT
が効きにくかったと考えられ...
2変量解析における検定と例数設計
 はじめに(14min)
 独立な2群における比率差(7min)
 独立な2群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
30
事例3:摂食障害とコーピング
 60名の女子大学生のデータから、ストレス
対処と摂食障害傾向に有意な負の相関が
認められた(r =-.28)。
 なんだかサンプル数が少ないような気もす
るけど、大丈夫なのかなあ?
pwr.r.test(n=...
解析事例:お魚とうつ病
 少々古いネタですが,
魚を消費している国ほ
どうつ病患者数が少な
い(Lancet, 351, 1213,
1998)。
 r = -0.84 (p<.005)
 日本は期待の星と思い
きや,データが変。魚の消費...
解析事例:食べ物とうつ病,統合失調症
(BJ PSYCH, 184, 404-408, 2004)
 統合失調症も含めた,もう少し詳細な検討
 魚と芋を食べるほど,うつ病の有病率が下がる
(r=-.85, r=-.75)。一方,砂糖や乳製品...
2変量解析における検定と例数設計
 はじめに(14min)
 独立な2群における比率差(7min)
 独立な2群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
34
解析事例:頭部外傷後のコルチステロン投与
(LANCET, 364,1321-1328,2004)
 頭部外傷後のコルチコ
ステロンは,死亡率を
1~2%下げるとされる。
 よく使用されているが、
その効果は明確でない
(95%CI=-6%...
例数設計
 論文記載例
(前提として、頭部外傷による死亡は15%)Because even a 2%
survival difference would be clinical important(効果量の決定
根拠),・・・・A trial...
結果
 試験継続の評価の分
析において,コルチス
テロン投与群の死亡率
が高かったため,約1
万名で中止となった。
 コルチステロン投与に
よる死亡の相対リスク
は1.18(95%CI=1.09 -
1.27)
頭部外傷を受けた成人:
10...
考察
 コルチステロン投与に
よる死亡の理由は本
研究からわからない。
 しかし、過去の結果に
よるメタ分析結果を塗
り替えた
→治療選択が変わる!
gure4:Effectsof corticosteroidallocationonear...
検定力の高い研究と倫理
 この臨床試験によって、良いどころか死亡
率を高める治療を選択肢から除くことができ
た。
 しかし、臨床試験のために有害な治療を受
ける可能性を考えると、検定力を高めること
のみに集中するのは危険になる。
 不必要...
参考文献
書籍
① Cohen, J. (1988). Statistical power analysis for the behavioral
sciences, Psychology Press.
② Murphy, K.R. et al...
Upcoming SlideShare
Loading in …5
×

統計的検定と例数設計の基礎

2,587 views

Published on

統計的検定と例数設計の基礎

Published in: Science
  • Be the first to comment

統計的検定と例数設計の基礎

  1. 1. 2変量解析における統計的検 定と例数設計の基礎 ~無駄のない研究のために~ 早稲田大学人間科学学術院 国里愛彦 1
  2. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 2
  3. 事例1:血液型性格診断 某血液型性格 診断研究家  1万人の大学生のデータを ランダムサンプリングで収 集して,A型はO型よりも誠 実性が有意に高いことが明 らかに! ※架空例です。A型O型ともに, 3500名とします(35%)。 24.6 24.8 25 25.2 25.4 誠実性 A型 O型 心理学者は血液型性格診断をバカにし て,けしからん。ちゃんとデータを取っ て,エビデンスを示してやろう!!! 3
  4. 血液型性格診断は正しい?  今後は,心理学の教科書に血液型性格診断 が載ることになった・・・  この差を出すのに,1万人も必要かな(+質問 紙代270万円)?  いやいや,ちょっと落ち着いて差を検 討しよう。12~60点の検査で,平均値 差が0.4点,効果量(d)では0.16 →なんだあ,大した差じゃないじゃない か。診断というには,ちょっと・・・ 4
  5. 事例2:新しい介入プログラムの開発  某大学では,入学時 検診で抑うつ症状の 高い学生の20%がう つ病になる。 →予防プログラムを作成 し,効果を調べたい。 抑うつ症状の高い学生 統制群 (介入なし) 介入群 (予防プログラム) 無作為割付 うつ病発症 (20%) うつ病発症 (10%)  先行研究を参考に,発症率が半分になるくら いの効果(10%)を検出したい。何名の参加者 が必要か?各群30名くらいかな? 5
  6. 事例3:摂食障害とコーピング  摂食障害傾向のある女子学生は,ストレスへ の対処が下手な傾向があることを調べた。  60名の女子大学生を対象に調査を行って、ス トレス対処と摂食障害傾向に有意な負の相関 が認められた(r =-.28)。  なんだかサンプルサイズが小さいような気もす るけど、大丈夫なのかなあ? 6
  7. 例数設計の悩み  3つの事例に共通する悩みは,「結果が信用に 足るサンプルサイズから得られたかどうか」。  極端にサンプルサイズが小さいとわかりやすい が,本当にサンプルサイズは足りているか?  逆に,不安に駆られて,不必要にサンプルサイ ズを大きくしてないか? →検定力分析による研究前の検討が必要! 7
  8. 統計的検定について  統計的検定では,得られたデータ(標本)から, 母集団についての仮説が正しいかどうかを確 率的に判断するのを助ける。 →検定は真実を見つけるのではなく,あくまで研 究者の意志決定の支援 母集団の値 (平均や分散など) = 標本の値 (平均や分散など) + 標本 誤差 8
  9. 統計的検定の手順 NHST(NULL HYPOTHESIS SIGNIFICANCE TESTING) ① 母集団の値について帰無仮説(Null Hypothesis, Ho)をたてる(例:男と女で差はない) ② 対立仮説(H1)をたてる(例:男と女で差がある) ③ 有意水準(α)を設定する(例:p=0.05) ④ 標本データを用いて検定統計量を算出し,帰無 仮説を採択するか棄却するか判断する(例: p=0.01なので,p<αであり,帰無仮説を棄却し, 男女で差があると判断する) 9
  10. 統計的検定の結果 (治療効果を例にして) 母集団における真実 帰無仮説 (効果無し) 対立仮説 (効果あり) 統計的 検定の 判断 帰無仮説採択 (効果無し) 正しい選択 (p=1-α) Type II error (p=β) 対立仮説採択 (効果あり) Type I error (p=α) 正しい選択 (p=1-β)  右下の対立仮説(H1)が正しい時に対立仮説を 採択できる確率であり,1-βを検定力(power)と 呼ぶ。 10
  11. 検定力(POWER)  対立仮説が正しい時に,帰無仮説を棄却して 対立仮説を採択できる確率のこと。  有意水準(α)+検定力(1-β)≠1 →それぞれ,帰無仮説と対立仮説に基づく確率で あり,別々の測度になる。 →しかし,αとβは拮抗する性質があるので,有意 水準を厳しくすると検定力は小さくなる。  Type I errorに比べて,Type II errorへの関 心はこれまで薄かった。 11
  12. 検定力をあげるには?  検定力は,サンプルサイズ,効果量,有意水準 によって決定できる。  検定力を増やすには・・・ ① 標本誤差を小さくできるように,サンプルサイ ズを増やす ② 効果量を大きくする ③ 有意水準をゆるくする サンプル サイズ 有意 水準 検定 力 効果 量 12
  13. シミュレーションから検定力を理解する サンプルサイズが20だったら 相関係数(r)が0.4で, 有意水準が5%の時,以下のサンプルサイズで5000回 検定を行った。 サンプルサイズが62だったら 0 1000 2000 3000 4000 5000 0.00.20.40.60.81.0 Index pv62 0 1000 2000 3000 4000 5000 0.00.20.40.60.81.0 Index pv20P 値 0.05 有意水準5%以下であった確率: 0.4538(2269/5000) 有意水準5%以下であった確率: 0.9142(4571/5000) 13
  14. 検定力分析  効果量,サンプルサイズ,検定力,有意水準の 4つは,他の3つが決まれば,残りが分かる。  検定力やデータ収集する際の必要なサンプル 数を調べる分析 サンプ ルサ イズ 有意 水準 検定 力 効果 量  有意水準は一般的に使用す る基準(5%,1%など),検定力 は0.8以上が望ましい(Cohen, 1992)。  母集団効果量の設定が難し い 14
  15. 検定力分析における効果量の設定  母集団効果量の設定がもっとも難しく,検定力 分析の肝になる。 ① 先行研究やメタ分析から効果量を設定する ② 実践的・理論的な観点から,必要とされる効果 量を設定する ③ パイロットスタディから効果量を設定する ④ Cohenの効果量の大きさの基準(小・中・大) から効果量を設定する ※①〜③が推奨されている。 Murphy, K.R. et al. (2009). Statistical power analysis;Aberson, C.L. (2010). Applied power analysis for the behavioral sciences. 15
  16. 検定力分析はしなきゃだめですか? YES!!!  CONSORT声明(RCT) Item7a How sample size was determined.  STROBE声明(観察研究) Item10 Explain how the study size was arrived at.  日本のうつ研究は5本に1本しか適切な検定力 を有してない!(Okumura & Sakamoto, 2011) 16
  17. 検定力分析で使用するRパッケージ <検定力分析> pwr:2変量解析(比,2群の平均値,相関,1要因 分散分分析)の検定力分析を行う。 *重回帰分析だと,rpsychiのsamplesize.rsq <効果量> MBESS,compute.es, rpsychiなどを利用する。 17
  18. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 18
  19. 事例2:新しい介入プログラムの開発  プログラムの効果を検 討するには何名の参加 者が必要か? ※power.prop.test(n , p1, p2, sig.level, power, alternative)を使う。 ※(n=サンプル数,p1=グループ1の割 合,p2=グループ2の割合,sig.level= 有意水準,power=検定力,alternative =片側・両側検定) 抑うつ症状の高い学生 統制群 (介入なし) 介入群 (予防プログラム) 無作為割付 うつ病発症 (20%) うつ病発症 (10%) power.prop.test(n=NULL,p1=0.20,p2=0.10,sig.level=0.05, power=0.80) →n = 198.9634  各群199名必要。30名では全く足りない。 19
  20. 解析事例:青年期うつ病に対する,フルオ キセチン,認知行動療法,その併用の効果 (JAMA, 292, 807-820, 2004)  青年期うつ病は,重症度や自殺の高さから効果 的な介入法が必要とされている。  青年期うつ病に対して,フルオキセチンなどの抗 うつ薬や認知行動療法(CBT)が効果があるとさ れているが,併用の効果は明らかにでない。  本研究では,無作為化比較試験(薬物単独* CBT単独*併用*プラセボ)を行った(TADS)。 20
  21. 例数設計  論文記載例 Using χ2 statistic, power estimates for detecting differences in treatment response in the 4 groups・・・(検定力分析での仮定) (1) Ha:P(fluoxetine)=.60, P(CBT)=.60, P(fluoxetine+CBT)=.80, and P(placebo)=.40; (2)no adjustment for loss to follow up; (3)no adjustment for multiple comparisons; and (4)α level of .05 for a 2-tailed test. Under these assumptions, 108 patients per treatment group (N=432) were needed to achieve 80% or greater power to detect a difference of .20 in response rates between any 2 treatment groups.  検定力分析 想定を元に,効果量を出すとw=0.2886751だった。 pwr.chisq.test(w = 0.2886751, N = NULL, df = 3, sig.level = 0.05, power = 0.8) →N = 130.8308 あれ?432名もいらないぞ。 しかし,下線を考慮すると97名以上欲しい。 power.prop.test(n=NULL,p1=0.60,p2=0.40,sig.level=0.05, power=0.80) →n = 96.92364 21
  22.  うつ病と診断され,症状が異なる文脈(家,学校な ど)で6週続いている患者が参加した。  薬物療法,CBTともに12週の治療であった。CBT は1回1時間で行われ,患者に合わせて実施され た。 青年期のうつ病患者(439名) フルオキセチン +CBT(107名) 青年期のうつ病患者(2804名) スクリーニング+除外 方法 フルオキセチン (109名) CBT (111名) プラセボ (112名) 無作為割付 22
  23. 結果と考察  ロジスティック回帰 で,治療反応率に対 する治療の効果が 有意だった。  併用と抗うつ薬はプ ラセボやCBT単独よ りも優れる  詳細は省略するが,症状の重症度に関して, 併用が他の介入より優れていた。  青年期うつ病には,抗うつ薬治療とCBTの併 用が推奨される。 0 20 40 60 80 治療反応率 23
  24. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 24
  25. 事例1:血液型性格診断  今回の差は,効果量で0.16。  この差を,有意水準=0.05,検 定力=0.8で検出するには何 名必要か? 24.6 24.8 25 25.2 25.4 誠実性 A型 O型 pwr.t.test(n, d,sig.level,power, type)を使う。*pwrパッケージ ※n=サンプル数,d=効果量,sig.level=有意水準,power=検定力,type=片側・両側検定 pwr.t.test(n=NULL,d=0.16,sig.level=0.05,power=0.8) →n = 614.1541  両群615名必要,つまり全ての血液型で1758名(AとOは 35%,615/0.35=1757.14)あれば良い(質問紙代:270万 →48万)。 25
  26. 解析事例:青年期うつ病の薬物療法に心 理療法を追加する効果について (BMJ, 335(7611), 2007)  TADSの結果からNational Institute for Health and Clinical Excellence (NICE)では,青年期 うつ病には認知行動療法(CBT)が選択肢の 1つになっている。  抗うつ薬単独より,認知行動療法併用が良 いようだけど,結果が一貫してない。  今回は、青年期のうつ病に対する認知行動 療法の併用効果について無作為化比較試 験(薬物単独vsCBT併用)を行った。 26
  27. 例数設計  論文記載例 We used the outcome score to determine sample size. Data from the development study and overdose study suggested that 3 points on the total score scale was clinically important difference(先行研究より3点差に臨床的な意味がある). With a sample size of 100 in each arm we would have 94% power to detect a difference of this magnitude with a two tailed 0.05 significant level, assuming a common SD of 6.0 points(d=3/6=0.5 になる).  検定力分析 pwr.t.test(n=100,d=0.5,sig.level=0.05,power=NULL) →power = 0.9404272 確かに、サンプルサイズが100あれば、検定力は0.94になる。 27
  28.  自傷など中程度から 重度の青年期うつ病 患者が参加  最初に短期的な介入 を行って、改善しな かった患者が対象 青年期のうつ病患者(208名) 抗うつ薬治療群 (103名) 抗うつ薬+CBT群 (105名) 無作為割付 青年期のうつ病患者(510名) 除外+初回治療(249 名) 方法  抗うつ薬治療群は、抗うつ薬治療と日常的な専 門的治療(心理教育、家族療法など)を実施し た。  抗うつ薬+CBT群は、上記にプラスして12週の 28
  29. 結果と考察  5名に1名は、最初 の治療でよくなっ た。  抗うつ薬群とプラス CBT群では、治療 効果に差はなかっ た。  今回の臨床試験では、最初の治療に反応しな い重症度の高い患者を対象にしたので、CBT が効きにくかったと考えられる。 29
  30. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 30
  31. 事例3:摂食障害とコーピング  60名の女子大学生のデータから、ストレス 対処と摂食障害傾向に有意な負の相関が 認められた(r =-.28)。  なんだかサンプル数が少ないような気もす るけど、大丈夫なのかなあ? pwr.r.test(n=60,r=0.28,sig.level=0.05,power=NULL) →power = 0.5837208  う〜ん。検定力が6割弱かあ。10回調査し て半分ちょっとは有意と判断される程度 31
  32. 解析事例:お魚とうつ病  少々古いネタですが, 魚を消費している国ほ どうつ病患者数が少な い(Lancet, 351, 1213, 1998)。  r = -0.84 (p<.005)  日本は期待の星と思い きや,データが変。魚の消費量 う つ 病 年 間 有 病 率 (%)  当時,日本の正確な年間有病率が無かった様 子。 32
  33. 解析事例:食べ物とうつ病,統合失調症 (BJ PSYCH, 184, 404-408, 2004)  統合失調症も含めた,もう少し詳細な検討  魚と芋を食べるほど,うつ病の有病率が下がる (r=-.85, r=-.75)。一方,砂糖や乳製品を食べるほ ど,うつ病の有病率が上がる(r=.74, r=.71)。  サンプルサイズが8カ国なので,魚とうつ病との 関連以外は検定力が0.8を下回った。 pwr.r.test(n=8,r=0.85,sig.level=0.05,power=NULL)→power = 0.8058  因果が不明だし,文化的な影響も考えられるが, 魚のω3脂肪酸を使った研究などが行われている 33
  34. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 34
  35. 解析事例:頭部外傷後のコルチステロン投与 (LANCET, 364,1321-1328,2004)  頭部外傷後のコルチコ ステロンは,死亡率を 1~2%下げるとされる。  よく使用されているが、 その効果は明確でない (95%CI=-6%~2%)。  49カ国が参加する大規 模な無作為化比較試験 を実施(CRASH trial)。 頭部外傷を受けた成人 (重症度の除外基準をみたし、 外傷後8時間以内の患者) 介入群 (コルチステロン) 統制群 (プラセボ) 死亡率 (2week) 死亡率 (2week) 無作為割付 死亡率&障害 (6month) 死亡率&障害 (6month) 35
  36. 例数設計  論文記載例 (前提として、頭部外傷による死亡は15%)Because even a 2% survival difference would be clinical important(効果量の決定 根拠),・・・・A trial of 20000 patients would have a good chance of showing a 2% survival difference at covincing levels of significance - ie, more than 90% power to achieve p<0.01(検 定力分析により2万人が必要).  検定力分析 power.prop.test(n=NULL,p1=0.15,p2=0.13,sig.level=0.01, power=0.90) →n = 8954.919 各群8955名必要で、全体で17910必要。特に記載してないけど、2万 名だと全体の10%ほど脱落しても、17910名おり、上記の検定力が保 証される。 36
  37. 結果  試験継続の評価の分 析において,コルチス テロン投与群の死亡率 が高かったため,約1 万名で中止となった。  コルチステロン投与に よる死亡の相対リスク は1.18(95%CI=1.09 - 1.27) 頭部外傷を受けた成人: 10008名 介入群:4985名 (コルチステロン) 統制群:4979名 (プラセボ) 2週後の死亡率 21%(1052名) 2週後の死亡率 18%(893名) 無作為割付 +各群22名ずつデータロスト 37
  38. 考察  コルチステロン投与に よる死亡の理由は本 研究からわからない。  しかし、過去の結果に よるメタ分析結果を塗 り替えた →治療選択が変わる! gure4:Effectsof corticosteroidallocationonearlymanagement andcomplicationsinhospital within2 weeks enominatorsvarybecauseof different levelsof datacompletenessforeveryevent. Corticosteroid Adjusted control Relativerisk(95%CI) CorticosteroidworseCorticosteroidbetter 20·5 1 Alexander1972 Ransohoff1972 Faupel1976 Cooper1979 Hernesniemi1979 Pitts1980 Saul 1981 Braakman1983 Giannotta1984 Dearden1986 Zagara1987 Gaab1994 Grumme1995 22/55 13/18 36/83 9/50 47/80 21/62 4/12 21/136 49/195 16/55 26/49 35/81 114/201 8/50 44/81 34/72 33/68 4/12 19/133 38/175 16/28) 2 13/27) 2 (38/74) 3 (7/16) 4 Overall (95%CI) Heterogeneity 2 26·46, p=0·03 Chacon1987 Stubbs1989 MRCCRASHtrial 0/5 893/4979 (17·9%) 1/5 13/98 1052/4985 (21·1%) Zarate1995 0/300/30 (5/54) 2 0·96(0·85–1·08)Subtotal Heterogeneity 2 18·11, p=0·2 410/1194 (34·3%) 432/1230 (35·1%) 1·12(1·05–1·20)1325/6209 (21·3%) 1462/6179 (23·7%) 1·18(1·09–1·27) 9/17 16/67 過去の結果によるメタ分析結果 今回の結果を含めたメタ分析結果 38
  39. 検定力の高い研究と倫理  この臨床試験によって、良いどころか死亡 率を高める治療を選択肢から除くことができ た。  しかし、臨床試験のために有害な治療を受 ける可能性を考えると、検定力を高めること のみに集中するのは危険になる。  不必要にサンプルをとってないか慎重に検 討し、この臨床試験のように、中間評価など を行う必要性がある(もちろん、検定力の低 い研究も倫理的に問題がある)。 39
  40. 参考文献 書籍 ① Cohen, J. (1988). Statistical power analysis for the behavioral sciences, Psychology Press. ② Murphy, K.R. et al. (2009). Statistical power analysis, Routledge. ③ Aberson, C.L. (2010). Applied power analysis for the behavioral sciences, Routledge. ④ 永田靖 (2003). サンプルサイズの決め方, 朝倉書店. *①が読みにくかったので,②と③を結構参考にしました。そして安いです。 論文  Cohen,J.(1992). A power primer, Psychological Bulletin, 112 (1), 155-159.  Okumura, Y. & Sakamoto, S. (2011). Statistical power and effect sizes of depression research in Japan. Psychiatry and Clinical Neurosciences, 65 (4), 356-364. 40
как правильно экономить

fashioncarpet.com.ua

www.profvest.com

×