レッツゴーウルブズ

Minnesota Timberwolvesを応援しています。

NBAのスタッツをExcelで解析してみよう!後編

どーも。

今日の記事はNBAのスタッツをExcelで解析するやつの後編になります。気前がいいので連日更新です。

昨日は"Basketball-Reference.com"からNBAのスタッツをメモ帳に貼り付けてCSVファイルとして保存し、Excelで開くというところまでやりました。何がなんだか分からない人は前編から読んでください。

今日は実際に、得られたデータから勝率とスタッツの相関係数をだすということをやってみようと思います。

 

それではまず最初に、得られたデータに勝率を付け加えるところからはじめましょう。

"Miscellaneous Stats"のCSVファイルをひらきましょう。

f:id:masawolves:20191221153430p:plain

そしたら、負け数の隣に勝率を記載する列を挿入しましょう。挿入の仕方までレクチャーする気ないのでよろしく。

f:id:masawolves:20191221153437p:plain

そしたら次に、実際に勝率を計算させましょう。F3のセルに"=D3/(D3+E3)"と入力します。この計算の意味は、"=勝ち数/ゲーム数"になります。

勝率の名前は"Win%"としましたが、一般的には"W/L%"という名前を使ったりするらしいですね。

f:id:masawolves:20191221153442p:plain

きちんと入力できれば、ホークスの勝率がでてくると思います。これがやけに高かったりすると、きちんと計算できていないことになります。

f:id:masawolves:20191221153523p:plain

セルを選択して、右下の四角いところをクリックして下までひっぱっていくことで、勝率のオートフィルができます。チョー便利。

f:id:masawolves:20191221153446p:plain

これで各チームの勝率が判明しましたので、勝率の列をコピーして、それを"Team Per Game Stats"のデータに挿入しましょう。このぐらいできるね? できない人はエクセルに詳しい人に聞いてみてください。

f:id:masawolves:20191221153452p:plain

そしたら実際にこれらのデータを解析していきたいと思うのですが、大抵の人のExcelのデフォルトの設定では、できないことになっていると思います。

ここから先の設定の仕方は、Excelのバージョンによって少し違うかもしれません。

"分析ツール - VBA"を使えるようにしたいので、下記の説明でよくわからない人は、ググってみてください。

"ファイル"→"オプション"から、Excelのオプションをひらきましょう。f:id:masawolves:20191221153504p:plain

"アドイン"をクリック。下の"設定"をクリック。

f:id:masawolves:20191221153509p:plain

"分析ツール - VBA"にチェックをつけて、データ分析ツールを使えるようにします。

f:id:masawolves:20191221153514p:plain

これで解析の準備が整いました。

"データ"のところの右端に"データ分析"という項目が追加されていると思います。

クリックしましょう。

f:id:masawolves:20191221153518p:plain

"相関"をクリック。

f:id:masawolves:20191221153527p:plain

入力範囲を決めます。

f:id:masawolves:20191221153531p:plain

僕はWin%からPTSまで、ドラッグして選択しました。一番下の行は"League Average"になりますので、選択していません。削除してもいいでしょう。

"先頭行をラベルとして使用"をチェックしておきましょう。

f:id:masawolves:20191221153546p:plain

これでOKをすると、

f:id:masawolves:20191221153551p:plain

入力した範囲の相関行列が得られました!!!!!!!!!!!!

あなたが解析ド素人であれば感動しますし、初心者以上であれば感動しないでしょう。

このままだと見にくいので、"ホーム"→"条件付き書式"→"カラースケール"を選択して、色をつけましょう。

f:id:masawolves:20191221153555p:plain

はい、これでいろんなスタッツ間の"相関係数"がわかりましたね。

相関係数の解釈の仕方ですが、以下のようなことが言われています。

http://rplus.wb-nahce.info/statsemi_basic/sokankeisu.html

f:id:masawolves:20191222095537p:plain

つまり、得られた相関行列によりますと、勝率と3PT%の相関係数は0.47とか、それに近い数字になっていると思います。これは「正の相関がある」と解釈してよいのです。正の相関があるとは、3PT%が上がることによって勝率も上がるというような関係のことです。(実際のt検定の仕方とか、p値がどうのこうのを気にされている方は初心者以上です。ググってください)

なので、「3PT%が高いチームほど強い」という仮説はそれなりに正しいのでしょう。

ところで相関行列によれば、勝率は2P%も正の相関にあることがわかります。しかも、数値としては3PT%より大きいのです。

八村塁の所属するワシントンウィザーズは3PT%でいえばリーグ5位、2PT%でいえばリーグ10位です。それなのになぜ、勝率は29.6%と低迷しているのでしょうか?

相関行列を見直すと、3PT%や2PT%よりも勝率と強い相関を示しているスタッツがあることがわかります。"DREB"です。0.7を超えており、「強い相関がある」と考えてよいのです。

ワシントンウィザーズはDREBがリーグ29位であり、これが勝率低迷の理由であると考えることもできそうですね。逆にいえば、ウィザーズがDREBを稼ぐようになれば、勝率もあがってくるかもしれません...!!!!(それか、DREBと勝率の相関係数が下がってくる)

ちなみにウルブズが勝てないのは3PT%が低いのと、今回の記事では解析していないのですが、リム回りのFG%が低いことによると考えています。

 

以上で、NBAのスタッツをExcelで解析する方法がわかりました。すご~い。

解析・統計学の世界には相関係数を調べる以外にも、さまざまなデータ解析の手法が存在するようです。

ぜひ、そのやり方を僕にも教えてほしいです。

おしまい!