標準偏差SDと標準誤差SEの使い分け 【両者の違いとRコード】
この記事のタイトルとURLをコピーする

標準偏差 (SD)と標準誤差 (SE) は、似たような名前ではありますがその意味するところは大きく違います。

これらを正しく理解し、使い分ける方法についてこの記事で紹介します。

結論

長くなってしまうので結論だけまず先に述べると、ほとんどの生命科学研究ではSEを使うべきです。

平均値±SDという表記の場合、「平均値」は母集団の平均 (母平均) の推定値であり、SDは母集団のデータがどのくらいばらつきをしているのかを表します。平均値±SDというのは、母集団のデータの「ばらつき」にも興味があるということです。

一方で平均値±SEという表記の場合、「ばらつき」の意味は全くありません。平均値±SEは、母平均の推定値と、母平均がありそうな範囲を示しているだけです。平均値±SEを使う場合、興味があるのは母平均がどの範囲にいるかということです。

SEを使うべきケース
ある細胞株にA遺伝子を導入した場合、下流のB遺伝子の発現も変動するのではないかと仮説を立てた。コントロールと比べて、B遺伝子はどれくらい変動しているのか?

このような統計解析をしたい場合には、何倍増えているのか (減っているのか) に興味があり、データのばらつきにはあまり関心がないことが大半でしょう。

そういった場合に平均値±SE、例えば5.0±0.5のように表し、いくつか測定したデータ (標本)の平均は5.0だけど、無限に測定した場合 (母集団)では4.5~5.5倍の範囲に入っていると表現するのです。

ではSDを使うべきケースはどうでしょうか?

SDを使うべきケース
ある細胞株にA遺伝子を導入した場合、B遺伝子の発現量の平均はそれほど変わらないものの、そのバラツキが大きくなるのではないかと仮説を立てた。コントロールと比べて、B遺伝子はどれくらいバラツキがあるのか?

こういったケースでは、平均値±SDを使います。

SDでもSEでも、意味の違いを理解して使うことが大事です。この記事の残りの部分では、SDとSEについて詳しく見ていきます。

標準偏差の意味と計算法

標準偏差はデータのバラツキを表す

標準偏差SDはデータのバラツキを意味します。例えば、マウス6匹の体重を測ったところ、このようなデータが得られたとします。

24,28, 30, 31, 33, 34

単位はグラム (g) です。この6匹の平均は30になります。

それではバラツキを計算します。それぞれのデータから平均を引き、2乗し全部足し合わせたもの (平方和)を計算し、最後に今回はデータが6つあるので6で割ってみます。

計算式は

\begin{align*}
\frac{(24-30)^2 + .... + (34-30)^2}{6}
\end{align*}

となり、この結果は11です。これを分散といいます。

ただこれでは単位系を考えると使いにくいですね。つまり分子は平方和なので省略されている単位は $g^2$となり、分母に単位はないので、分散を単位を含めて正確に書くと11 $g^2$です。

平均は30 gで分散は11 $g^2$のように単位が違うと、直感的に解釈できません。そこで分散の平方根をとり、単位をgにそろえてみましょう。今回の場合は、3.32 gとなります。

この、分散の平方根を計算したものを標準偏差 (Standard Deviation, SD) といい、データの「バラツキ」の指標として使われているわけです。

母集団と標本

統計学の教科書には、母集団標本という言葉が書かれています。今回の例を使って、もう一度整理しておきましょう。

標本は簡単で、手元にあるサンプルのことです。今回の場合、マウス6匹の体重のデータが標本です。

母集団は、観察したい対象全部のことです。今回のケースなら、手元にいるマウスだけではなく、世の中の全てのマウスといった意味になります。

別の例を出せば、例えば世論調査では母集団は日本の有権者全てで、標本は調査した数千人程度の方々です。

本当は母集団について知りたいのですが、お金や時間などの制約があって残念ながら母集団全体を調べるのは不可能なので、その一部である標本を調べているのです。

つまり、先程計算した「分散」や「標準偏差」は、言葉を補うと「標本の」分散であり標準偏差です。これらはそれぞれ標本分散標本標準偏差と呼ばれています。

母標準偏差を推定する

標本のバラツキを知りたいなら標本標準偏差で問題なのですが、実際に知りたいのは母集団のバラツキであることが多いですね。理屈は割愛しますが、標本のデータから母標準偏差を推定するためには平方和をデータの数nで割るところで代わりにn-1で割るとちょうど良いことが分かっています。

今回の場合、データ数6ではなく5で割ることで母分散が推定されます。
\begin{align*}
\frac{(24-30)^2 + .... + (34-30)^2}{6 - 1} = 13.2
\end{align*}
母標準偏差は、これの平方根をとったものですので3.633となります。

このn-1で割る計算式で得られる標準偏差を不偏標準偏差といい、これこそが研究者が論文で使う標準偏差です。

ちなみに正規分布するデータの場合、68%が平均±SDの範囲に入ることが期待されます (平均±2SDならデータの96%が入ります)。

平均・不偏分散・不偏標準偏差をRで計算する方法

それではここまでの計算をRで実行する方法を紹介します。

平均はmean ()関数、不偏分散はvar ()関数、不偏標準偏差はsd ()関数でそれぞれ計算することができます。

weights <- c(24, 28, 30, 31, 33, 34)
mean (weights)
var (weights)
sd (weights)

また、エクセルで計算する場合にはn-1で割って計算する関数とnで割って計算する関数があるため、目的に応じて使い分ける必要があります。

標準誤差の意味と計算法

標準誤差 (Standard Error, SE) はもう少し複雑になります。

正規分布する母集団から取り出した標本平均の分布は、t分布で表される

まず母平均がμで母分散が$σ^2$の正規分布する母集団を考え、これを$N (μ, σ^2) $と表します。

この母集団からn個のデータを取り出して平均値を求め、それを$\overline{X_1}$と表記することにします。このn個のデータを取り出す操作をたくさん繰り返すことで、同様に$\overline{X_2}$、$\overline{X_3}$などが得られていきます。

このようにして得られる標本平均 ($\overline{X_1}$, $\overline{X_2}$, ...) の分布は、母平均を中心に正規分布するものの、そのバラツキ (分散) は1/nだけ小さくなることが分かっています。

つまり標本平均の分布は$N (μ, \frac{σ^2}{n}) $に従うということです。

ここで、母集団の分散である$σ^2$は前もって知ることができません。手元にある標本しかデータがなく、標本から得られる不偏分散u (平方和をn-1で割ったものでしたね) を母集団のσの推定量とするしかないのです。

この不偏分散を使うと、標本平均は正規分布$N (μ, \frac{σ^2}{n}) $ではなく、t分布と呼ばれる分布$t (μ, \frac{u^2}{n}) $に従うことが分かっています。

先程のマウスの体重の例で言えば、本当に知りたいのはマウス全体の体重 (母集団) ですが、現時点ではその平均μもその「ばらつき」(分散$σ^2$)も分かりません。そこでたくさんのマウスから6匹を選んで体重の平均を調べる (標本平均を調べる)というのを1セットとして、これをたくさん行うと、選んだ6匹のマウスの体重は正規分布 (μ, $\frac{σ^2}{6}$に従います。ここで$σ^2$は標本のデータからは知ることができませんが、不偏分散$u^2$ ならば標本の分散を計算する時にn-1 (=5) で割ることで簡単に求めることができます。$σ^2$の代わりに$u^2$を使えば、標本平均の分布はt分布 t (μ, $\frac{u^2}{6}$)に従うと表現できます。

標準誤差は平均値のばらつきを表す

母集団から何回も標本を取り出したとき、その標本平均の分布は$t (μ, \frac{u^2}{n}) $に従うことが分かりました。

つまり$\frac{u}{\sqrt{n}}$が平均値のばらつきを表す指標ということですね。

この値こそが標準誤差SEと呼ばれているものです。SEは、母平均μがどのあたりなのか、ありそうな範囲を示しているのです。

$SE = \frac{u}{\sqrt{n}}$

また、ここでuは不偏標準偏差 (SD) なので、SDとの対応関係はこのようになります。

$SE = \frac{SD}{\sqrt{n}}$

この式から分かるように、SEはSDを$\sqrt{n}$で割ったものなので必ずSDより小さくなります。

SEをRで計算するためのコードも載せておきます。

sd (weights) / sqrt (length(weights))

まとめに代えて

この記事ではSDとSEの違いについてまとめました。

生命科学系の研究においては単にエラーバーが小さくなるからSEを採用するという人もいますが、本来SDとSEは意図するものが全く異なるのであり、しっかりと理解して使い分ける必要があります。

そのためには、研究室の伝統だからといったような理由ではなく、統計学の基本的な考え方を事あるごとに確認するという習慣が必要です。

当サイトでも、なるべく複雑な数式を使わずに情報発信していきます。

関連図書

この記事に関連した内容を紹介している本はこちらです。

今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。

当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ

この記事のタイトルとURLをコピーする
生命医学の知識や進歩を無料のニュースレターで

がんをはじめとする病気やよくある症状などの医学知識、再生医療などの生命科学研究は、研究手法が大きく前進したこととコンピューターの発達なども相まって、かつてないほどの勢いで知識の整備が進んでいます。

生命医学をハックするでは、主として医師や医学生命科学研究者ではない方や、未来を担う学生さんに向けた情報発信をしています (より専門的な内容はnoteで発信中)。

月に1回のペースで、サイトの更新情報や、それらをまとめた解説記事をニュースレターとして発行しています。メールアドレスの登録は無料で、もちろんいつでも解除することができます。

サイト名の「ハックする」には、分かってきたことを駆使し、それを応用して、病気の治療や研究などにさらに活用していこうという意味があります。

生命医学について徐々に解き明かされてきた人類の英知を受け取ってみませんか?

こちらの記事もいかがですか?
ブログランキング参加中 (クリックしていただけると励みになります)