チェビシェフの不等式で分布のばらつきを調べます

 

チェビシェフの不等式 Chebyshev's inequality

 分散または標準偏差は分布のばらつきを表していますが、それが具体的にどの程度なのかということを、チェビシェフの不等式 (Chebyshev's inequality)

\[P(|x-\mu|\geq k\sigma)\leq\frac{1}{k^2}\tag{A}\]\[P(|x-\mu|\lt k\sigma)\geq 1-\frac{1}{k^2}\tag{B}\]

によって知ることができます。不等式(A) の意味するところを具体的に書き並べてみると

  平均から $2\sigma$ 以上離れている確率 ≦ 1/4
  平均から $3\sigma$ 以上離れている確率 ≦ 1/9
  平均から $4\sigma$ 以上離れている確率 ≦ 1/16

のようになります。

チェビシェフの不等式(A)の証明① 離散確率変数の場合

 確率変数が離散変数であるときの分散は
 
\[\sigma^2=\sum_{i=1}^{n}(x_i-\mu)^2f(x_i)\]
と定義されています。ここで右辺の和の各項は全て正なので、$|x_i-\mu|\geq k\sigma$ となる部分だけを取り出せば
 
\[\sigma^2\geq\sum_{|x_i-\mu|\geq k\sigma}(x_i-\mu)^2f(x_i)\]
という不等式が成り立ちます。$|x_i-\mu|\geq k\sigma$ の範囲では明らかに $(x_i-\mu)^2\geq k^2\sigma^2$ が成り立っているので、
 
\[\sigma^2\geq\sum_{|x_i-\mu|\geq k\sigma}k^2\sigma^2f(x_i)=k^2\sigma^2P(|x-\mu|\geq k\sigma)\]
 すなわち
 
\[P(|x-\mu|\geq k\sigma)\leq\frac{1}{k^2}\]
となります。

チェビシェフの不等式(A)の証明② 連続確率変数の場合

 確率変数が連続変数であるときの分散は
 
\[\sigma^2=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx\]
という積分で定義されます。被積分関数は常に正なので、$\mu-k\sigma\leq x\leq \mu+k\sigma$ の範囲の積分を抜き取ってしまって
 
\[\sigma^2\geq\int_{-\infty}^{\mu-k\sigma}(x-\mu)^2f(x)dx+\int_{\mu+k\sigma}^{\infty}(x-\mu)^2f(x)dx\]
という不等式をつくります。$x\leq\mu-k\sigma$ および $x\geq\mu+k\sigma$ の範囲では $(x-\mu)^2\geq 0$ なので、
 
\[\begin{align*}\sigma^2&\geq k^2\sigma^2\left\{ \int_{-\infty}^{\mu-k\sigma}(x-\mu)^2f(x)dx+\int_{\mu+k\sigma}^{\infty}(x-\mu)^2f(x)dx\right\}\\[6pt]
&=k^2\sigma^2\left\{ P(X\leq\mu-k\sigma)+P(X\geq\mu+k\sigma)\right\}\\[6pt]
&=k^2\sigma^2P(|x-\mu|\geq k\sigma)\end{align*}\]
となって、やはり同じ不等式
 
\[P(|x-\mu|\geq k\sigma)\leq\frac{1}{k^2}\]
を得ることができます。

チェビシェフの不等式(B)の証明

 (A) の左辺は
 
\[P(|x-\mu|\geq k\sigma)=1-P(|x-\mu|\lt k\sigma)\]
と書き換えられるので、
 
\[P(|x-\mu|\lt k\sigma)\geq 1-\frac{1}{k^2}\tag{B}\]
が成り立つことがわかります。
 

Excel でチェビシェフの不等式を確かめます

 例として平均値 60, 標準偏差 5 の正規分布でチェビシェフの不等式が成り立っていることを調べてみます。

 Excel正規分布の確率密度

 上の図は正規分布の確率密度 $f(x)$ のグラフです。
 正規分布は平均値 $x=\mu$ について左右対称なので、平均値 60 から $2\sigma = 10$ 以上離れている確率は、$f(x)$ を $-\infty$ から 50 まで積分して、確率変数が 50 以下となる確率
\[P(X\leq 50)=F(50)\]を求めて 2 倍すればいいことがわかります。ここに $F(x)$ は累積確率分布関数です。Excel では

NORM.DIST(x,平均,標準偏差,関数形式)

において関数形式を 1 として、正規分布の累積確率分布関数を計算することができます。平均値 60 から $2\sigma = 10$ 以上離れている確率は

=2*NORM.DIST(50,60,5,1)

として 0.0455 という値を得るので、確かに $1/4=0.25$ より小さくなっていることがわかります。 ≫ 数学事典

スポンサーリンク
末尾広告
末尾広告

コメントをどうぞ

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください