ある統計資料から 10 人の男性のデータを無作為抽出したら身長と体重の関係は次のようであったとします。
番号 | 身長 x [cm] | 体重 y [kg] |
---|---|---|
1 | 169.14 | 56.91 |
2 | 183.27 | 70.95 |
3 | 156.3 | 52.45 |
4 | 176.08 | 77.17 |
5 | 165.91 | 68.8 |
6 | 166.2 | 56.03 |
7 | 172.17 | 71.6 |
8 | 172.91 | 61.58 |
9 | 168.27 | 78.06 |
10 | 170.43 | 67.91 |
身長が大きければ体重も大きくなるであろうと予測できますが、太っている人も痩せている人もいますから、身長と体重はきれいな比例関係にあるわけではなく、グラフにプロットしても直線になるわけではありません。
それでも、この2つのデータは近似的に直線に乗るだろうと考えて、各個のデータとの間になるべく誤差が少ないような直線を当てはめてみようというのが最小二乗法(method of least squares)の考え方です。
最小二乗法
2つの変量
があり、
という比例関係があると仮定します。
で表します。この式を線型回帰モデル(liner regression model)とよびます。(2) の i についての総和
が最小となるような係数
となるような
という方程式が得られます。ここで
これらを全て式 (4) と (5) に入れると
となります。この式を
を定義すると
となります。この係数を標本回帰係数 (sample regression coefficient) とよびます。すなわち回帰直線は
で与えられます。
誤差分散と相関係数の意味
残差平方和
は誤差の分散を表しています。すなわち
であり、
を用いて
という式が得られます。ここで
を全て入れると
となります。
という誤差の分散と相関係数の関係式が得られます。相関係数
また
【Excel】回帰直線のプロット
Excel は上で述べたような計算を全て自動で行なってくれます。記事の最初に載せてある身長と体重の表をコピーしてセル B2 に貼りつけてください。そのあとセル C3:D12 を選択した状態で [挿入] タブから [散布図] ⇒ [散布図] を選択するとグラフが表示されます。
次は回帰直線を表示させてみます。散布図を右クリックして現れたメニューから [近似曲線の追加] を選択します。[近似曲線のオプション] で [線形近似] を選択してください。
すると次のような回帰直線が表示されます。
これだけでは係数の値がわからないので、数式も表示させてみましょう。近似曲線を右クリックして [近似曲線の書式設定] を選択します。[グラフに数式を表示する] にチェックを入れてください。
小さな文字で数式が表示されます。
あとは回帰直線の線の色や数式の文字の大きさなどを好みに応じて適当に調整します。
これでグラフの完成です。
エクセルや数学に関するコメントをお寄せください