NBAのチームスタッツは正規分布なの?
どうも。
"Basketball-Reference.com"でスタッツ表をExcelのワークシートでダウンロードできるようになりましたね。しゅごい。しかし、まだまだバグが多い感じですね。
過去2つの記事で、Excelでチームスタッツの要素間の相関係数をだすということをやりました。
http://masawolves.hatenablog.com/entry/2019/12/21/161640
http://masawolves.hatenablog.com/entry/2019/12/22/101057
Excelの相関係数は"ピアソンの積率相関係数"であり、元のデータが正規分布に従っていることが前提になっているようです。
正規分布というのはよくある山なりの分布のことです。
NBAのチームスタッツも、同じようなスタッツの集まりであって、基本的には正規分布と考えていいと思うんですけど、どうなんでしょうか。
よくあるのは、ヒストグラムを使って、実際に山なりの分布になっているのを確認するという方法があります。
しかし、それをひとつひとつのスタッツごとにやっていくのは非常にダルい。耐えられない。
一般的な統計ソフトには正規分布かどうかを検定するツールが組み込まれているようです。Excelには、デフォルトではそういった機能はないのですが、世の中には優しい人がいるものですね、正規分布かどうかをExcelで検定するツールを無償で配布している方がいました。
http://www.real-statistics.com/
こちらのページからExcelの"XrealStats"というアドインをダウンロードして使えるようにしますと、"Shapiro-Wilk検定"ができるようになります。ダウンロードやインストールの仕方については今回は省きます。なぜならド素人の方は正規性に興味がないでしょうし、正規性に興味がある人ならばそのぐらいできると思っているからです。注意事項としては、"ソルバー"のアドインを有効にしてからインストールすることです。
それでは実際にShapiro-Wilk検定をしてみましょう。
正しくインストールできていれば、"=SWTEST(入力範囲)"で検定ができます。あとはオートフィルで、自動的に検定できます。
p値がでてきますので、それが0.05以上であれば、「正規分布である」という帰無仮説を棄却できませんので、正規分布であると判断してよいことになります。
実際に判定したものがこちらになります。
基本スタッツについては、"MP"以外については、正規分布であると判断してよいことになりました。そりゃそうですね。
Excelで正規性の検定ができるなんて、便利な世の中ですね。
ではまた。