サンプルサイズとは?医学論文を読むための統計知識を数式無しで解説

研修医・若手医師

journal clubで論文を読むことになったけれど、Methodを読んでいてサンプルサイズって何?となりませんでしたか?

そもそもMethodを読み飛ばしてしまっている人はいませんか?

医学論文を読んでいく上でサンプルサイズ計算を理解することは欠かせません。

ここでは数式を一切使わずに、医学論文を読むために必要なサンプルサイズ計算の知識について解説していきます。

サンプルサイズを計算する意味

もしも、あなたがランダム化比較試験を計画したとします。

だいたいどれくらいの症例を集めたらいいでしょうか?

とにかく期間を決めて、集められるだけ集めてやる!と意気込む人もいるかもしれませんが、実際症例を集めるのはとても大変です。

忙しい診療の合間に研究のinclusion criteriaを満たした人に、研究の概要を説明して、同意書をもらって、データを入力して・・・と、通常診療に加えて膨大な労力が必要です。

もちろん研究をサポートしてくれる職員を雇うという方法もあります。

何れにせよ症例数を集めるためには膨大な時間とお金がかかります。

なので、いざやってみて「こんなにたくさん症例いらなかったです、ごめんなさい」では許されないわけです。

逆に症例が少なすぎた場合は、調査期間を伸ばしたりで対応できなくはないですが、そもそも何をもって「多すぎる」とか「少なすぎる」っ判断できるんでしょうか?

p値とサンプルサイズの関係

統計学的有意差を判断するためにp値を計算しますよね?

このp値が大きくなる(統計学的に有意差無しとなる)原因は2つあります。

1つは2群間の差が小さい場合、もう一つは単純に症例数(サンプルサイズ)が少ない場合です。

p値が大きいというのは、単に「帰無仮説が棄却されなかった」ということを意味します。

もう少しざっくり言えば「“差がある”とは言えないけど、それは実際に差が小さいからなのか、症例が少なくてわからないのか、どっちの可能性もあるよ」ということです。

逆にp値が小さくなる要因は2群間の差が大きいか、または症例数(サンプルサイズ)が多い場合です。

サンプルサイズが多すぎてp値が低くなった場合は、統計学的に有意差はある、とはなるのですが、小さな差も検出してしまうのでその差に臨床的な意味があるのか?という問題が生じてしまいます。

この問題を解決するため、多すぎず少なすぎない丁度いい症例数を判断するのがサンプルサイズ計算です。

サンプルサイズを規定している要素

サンプルサイズを規定する要素は次の4つです。

  • α
  • 1–β(検出力)
  • データのばらつき
  • 群間における効果の差

αエラーとβエラー

α、βという記号が出てきましたが、これはαエラーの確率とβエラーの確率を表します。

αエラーって何だっけ?どっちがどっちだっけ?となりますよね。

あわてんぼうのαと、ぼんやりしているβと覚えると忘れません。

αエラー(あわてんぼうのエラー)は、本当は差が無いのに、差があると勘違いしてしまうエラーです。これはp値の有意水準と同じで医学論文では0.05とすることが一般的です。

βエラー(ぼんやりエラー)は本当は差があるのに、気づけないエラーです。

1−βは“気づける確率”になるので検出力と呼ばれます。医学論文では0.8(80%の確率で差を検出できる)と設定されることが多いです。

群間における効果の差

これは研究における効果の差(primary outcome)になります。

「まだ研究してないのに効果の差なんかわからないだろ!」と思われるかもしれませんが、これは予測値を使います。

先行研究などから、「だいたいこの疾患に対して介入するとoutcomeはこのくらいの差が出るだろう」、「このくらいの差であれば臨床的に意味があるだろう」、という値を設定します。

例えばある介入に対して死亡率が15%くらい改善するだろう、設定し、検出力(1-β)を0.8に設定した研究であれば。実際に死亡率に15%以上の差があれば80%の確率で有意差が出る、ということになります。

逆に言えば15%以下の差であれば検出できない可能性が高まりますし、15%の差であっても20%(100-80)の確率で検出できない可能性がある、ということになります。

効果の差を大きく設定すればするほどサンプルサイズは少なくて済みますが、そうなると実際の差が小さかった場合に検出できません(せっかく研究したのに何も言えない)。

逆に効果の差を小さく設定するとサンプルサイズは膨大になってしまうので、研究の実現性が損なわれます

なので、臨床的に意味があると言える範囲で、サンプルサイズも現実的な数字になる程度の「効果の差」、という落とし所を探ることになります。

実際の論文でどこを見ていくか

サンプルサイズ計算についてはMethodの中に必ず書かれています。

多くの場合“Statistical Analysis”のところに記載があります。

primary outcomeの効果の差の設定が研究の特性を表しているので特に注目してみていく必要があります。

また、時々1–β(検出力)を0.9(90%は検出できる)に設定している場合もあります。検出力は有意差が出なかった時に解釈が変わってくるのでやはり重要です。

ここで重要なのが、primary outcome以外の結果(secondary outcome)については、解釈に注意が必要ということです。

secondary outcomeについてはサンプルサイズ計算が行われていないので、有意差なしとなった場合には、サンプルサイズが足りていないだけの可能性が高くなります。

特に治療の副作用などがsecondary outcomeに設定されることが多いですが、この結果をもって副作用に差が無いとは言えないと認識しておく必要があります。

サンプルサイズと非劣性試験

サンプルサイズが大きくなると小さな差も検出してしまう、という事を利用しているのが非劣性試験です。

非劣性試験とはAという新しい治療がBという既知の治療と比べて劣っていませんよ、ということを示す試験です。

優位性を示さない事になんの意味があるのか?と思われるかもしれませんが、

Aという新しい治療が、低コストであったり、副作用が少ないだったりした場合に、主要なアウトカムが非劣性であることを証明できれば、Aの存在価値を主張できます。

非劣性試験のデザインは、検出すべき効果の差を小さく設定します。小さく設定するとは具体的には、臨床的に許容できる差に設定するということです。

この許容できる差以上の差が検出できない、つまりp値が大きくなったら非劣性が証明できるのです。

ただし、非劣性試験は小さな差を検出できるデザインになるので当然サンプルサイズが多くなる傾向があります

なので実現可能性という問題も出てきます。

研究によっては、実現可能性を考慮して当初のサンプルサイズから数を減らすということが行われる場合があります。

そのあたりも研究の妥当性に大きく関わってくる(サンプルサイズが変更されること自体が必ず悪とは限りませんが)ので、理解できることが重要です。

サンプルサイズが途中で変更された非劣性試験の例として、造影剤腎症の予防に輸液は効果が無い?非劣性試験の結果から今後どうすべきか、の記事も参考にしてください。

近年はなかなか新しい治療で優位性を出すことが難しくなってきているので非劣性試験が増えてきています。

まとめ

サンプルサイズ計算について数式を使わずに解説しました。

優位性試験や非劣性試験の違いを理解するためにもサンプルサイズの理解は重要です。

ジャーナルクラブなどで論文を読む時には、Methodが最も重要ですが、PICOとサンプルサイズ計算を押さえておけば大丈夫です。

ジャーナルクラブでの論文の読み方に自信が無い人は、Journal Clubのための効率の良い論文の読み方、の記事も参考にしてください。

あとは実際の論文を読んで実践を積んでいきましょう!

医学論文の効率の良い読み方|Journal Clubのスライド作りをする前に読む記事

2020年1月31日

t検定とMann–WhitneyのU検定|医学論文を読む・書くに必要な統計の基礎知識を数式を使わず解説①

2020年3月5日