こんにちは、楽介です。
事例4. 財務会計の参考書に登場しつつ、本試験に出るんだか出ないんだか、実務で使うんだか使わないんだか微妙な相関係数(correlation coefficient)についてです。
- 中小企業診断士
- 統計検定2級保持者
- 統計検定準1級勉強中
つまり、一般的な中小企業診断士や財務・会計の先生よりは相関係数の統計的意味には詳しいはずです(ほんとか~?)。
統計検定準1級勉強していて(電卓たたいていて)、そう言えば中小企業診断士試験のとき、「そもそも演習の段階でこいつが厄介だったな」と思い至ったので、中小企業診断士試験勉強中の人向けに一般的な診断士のテキストとは違った角度から解説して不安を解消しようという算段です。
よく出てくる式(基本的な定義)
\[\frac{Cov[X,Y]}{\sqrt{V[X]V[Y]}}\]
これだけ見ていると、まあなんか覚えられそうな気がします。\(Cov[X,Y]\)は共分散、\(V[X]\)は分散ですね。
問題文で分散と共分散が与えられている(あるいは前の問題で解答が求められている)場合はこれでもいいんですが、残念ながらそんなことは大体ないです。
ではこれを計算しましょうとなると
\[Cov[X,Y]=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\]
\[V[X]=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2\]
\[V[Y]=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\bar{Y})^2\]
となり、めんどーくさいことになりはじめます。\(\sum_{i=1}^n\)は、サンプル数だけ加算する必要があり、そうなると、\((X_i-\bar{X})^2\), やら \((Y_i-\bar{Y})^2\)やら、サンプル数が5や10でも大量に計算しなければいけなくなります。ちなみに、分数が1/nではなく1/(n-1)なのは宗教上の都合によるものなので、中小企業診断士の範囲では気にしないで構いません(不偏分散を求める場合は基本的に-1をつける、サンプル数nが大きければこの差は無視できる。導出は難しいので割愛)
ただ、幸いなことに、分子には
\[\sqrt{\frac{1}{n-1}S_{xx}\frac{1}{n-1}S_{yy}}\]
として、\(\frac{1}{n-1} \)が2つ登場するので根号を外して約分ができます(1/nでも同様)。
\[ \frac{1}{(n-1)\sqrt{S_{xx}S_{yy}}} \]
これで約分すると
\[ \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \]
と、割り算を省くことができます。
ここで、\(S_{xy}\), \(S_{xx}\), \(S_{yy}\)はそれぞれ、
\[S_{xy}=\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\]
\[S_{xx}=\sum_{i=1}^n(X_i-\bar{X})^2\]
\[S_{yy}=\sum_{i=1}^n(Y_i-\bar{Y})^2\]
とします(分散の割る前の奴ですね。)。それぞれ、(XとYの)偏差積和、(XやYの)偏差平方和と言いますが、診断士試験の範疇では覚えなくていいでしょう(ここで偏差とは、平均からのズレを意味)。
試験で使いたい省略系
割り算を減らすことでちょっとは見通しがよくなりましたが、これではExcelで作る時に小数点以下の誤差がちょっと減るくらいの効果しかありません。試験でやりたいのは、紙にメモをせず、できればメモリー機能を使わず、計算ミスを可能な限り減らすことです。
ここで、偏差積和と偏差平方和を見ると、平均値がめっちゃ引かれていることが分かります。これをまとめたいですよね。そこで(途中式はどうせ飛ばされるので省略)、
\[S_{xy}=\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})=\sum_{i=1}^nX_iY_i-\frac{(\sum_{i=1}^nX_i)(\sum_{i=1}^nY_i)}{n}\]
\[S_{xx}=\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-\frac{(\sum_{i=1}^nX_i)^2}{n}\]
\(S_{yy}\)についても同様で、2乗の位置に注意します。
こうすると、偏差平方和\(S_{xx}\),\(S_{yy}\)は、
- XやYの値を全て足し合わせた後、×, = として二乗した後、サンプル数のnで割ることで第二項\(\frac{(\sum_{i=1}^nX_i)^2}{n}\)が求まるのでメモリーに保存。
- Xiの数値を入力、×, =として2乗を計算していき、最後にGTで総計を求める
- 最後に、GTの結果を出したまま、-, メモリーコールで、\(\frac{(\sum_{i=1}^nX_i)^2}{n}\)の結果を呼び出して引く
- 偏差平方和は仕方ないので紙にメモしておく
偏差積和\(S_{xy}\)は少し複雑ですが考え方は一緒で、
- Xの値を全て足し合わせてメモリに保存する
- Yの値を全て足し合わせる
- ×, メモリーコール, ÷, サンプル数n = として第二項\(\frac{(\sum_{i=1}^nX_i)(\sum_{i=1}^nY_i)}{n}\)を求める。
- メモリークリアして、メモリーに保存(M+やM-でXの合計値とごっちゃにしないように注意)
- X×Y=で順に計算する(ACしないように)
- 最後までX×Y=を追えたら、GTを押すと、第一項の\(\sum_{i=1}^nX_iY_i\)が求まる
- そのまま-, メモリーコールをすると、偏差積和\(S_{xy}\)が求まる。
最後に、偏差積和を偏差平方和をかけたものの平方根で割ることで、計算過程のメモを
- 偏差平方和
- 偏差積和
- 各変数の合計値
に圧縮できます。
もし、分散や共分散を要求されても、それぞれ偏差平方和と偏差積和をnで割れば求まります。
やってみると分かりますが、いちいち平均値を引いて…とやるよりとても早くなるのでお勧めです。
おまけ:相関係数って?
なんで求めるの?
よく、中小企業診断士くらいのテキストでは、相関係数について「共分散だと値の大小やサンプルによって数値が大きくなってしまって、比較が難しいから」と説明されます。
これもそうなんですが、ちょっと実用上(試験の実用上)不便なので、線形代数的に考えると、
\[r_{xy}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}=\frac{\textbf{x}^T\textbf{y}}{||\textbf{x}\cdot\textbf{y}||}=cosθ\]
となります。別にこの式は覚える必要もなんもないですが、最後にcosθが出てくることが大事で、これは紙の上で、線の向きが揃っていたら「1、または-1」になるということを意味します。逆に直交する場合(垂直に交わる場合)は相関係数がゼロになります。
2次試験ではあまりグラフの読み取りは出ないとは思いますが、1次試験では出る可能性があるので、なんとなく、線の向きのそろい具合なんだなぁと覚えて置くと、覚えやすい気がします。とはいえ、これが役に立つのは時系列データなどの、XとYが更に従う日付などのカテゴリーがある場合で、通常であれば散らばりが少なければ相関係数の絶対値が1に近づくと覚えれば十分でしょう。
相関係数が有効かどうか?
定性的な解説だと、0.7以上だと強い相関が見られるので有意である~みたいな解説がされますが、これはちょっと問題があります。
実際には、サンプルから計算された相関係数の値と、サンプル数(計算に使った数)を元に無相関の検定を行います。この結果が統計的に有意であれば、相関係数が小さい値であっても、両者に相関があると見做してよいことになります。
(が、診断士試験では当然範囲外なので、恥をかかない程度に知っておく程度でいいでしょう)
中小企業診断士の実務の上で
直接相関係数を使う、ということは余りない気がします(上記の検定もあるので)。
実務上では、相関係数は2変量間の、直線的な関係を推定している(更に分散・誤差などの情報をひとまとめにしている)ため、概算的な扱いになります。
多数ある変数同士の相関係数を計算してヒートマップにしたり、主成分分析や因子分析の前段階に使ったりといった使われ方が主となります(つまり、この面倒な相関係数を数十や数百計算することになります……もちろん、Excelや統計ソフトの出番です)。
これだけでは、中小企業の診断・支援に使うには心許ないですが、知らないと結構困る基本的な知識となるので、計算方法と紙の上に現れる形くらいは抑えておくといいと思います。