レッツゴーウルブズ

Minnesota Timberwolvesを応援しています。

NBAのスタッツをExcelで解析してみよう!前編

どうも。

今日は、データ解析入門者の私が、データ解析ド素人の方に向けて、エクセルでのデータ解析の仕方についてレクチャーしたいと思います。データ解析初心者以上の方にとっては退屈に感じるでしょうし、私の手法の間違いや改善点に気づくと思います。是非、修正点等をコメント欄にてご指摘いただければと思います。

以下のレクチャーは、Excelがインストールされていることが前提になります。よろぴく。

 

たとえば、NBAをみているときにふと「結局、スリーポイントを高確率で決めるチームが強いんじゃね?」というような仮説が浮かんだとします。それを考えたあなたは早速NBAのスタッツサイトに飛び込み、チームごとのスタッツが並んでいるようなページで3PT%でソートし、上位のチームをみて、「あー、やっぱり3PT%が高いチームは強いチームが多いなあ」なんて思い、満足してサイトを閉じる。

そんなんでいいのか?

ウィザーズもペリカンズも3PT%でいえば5位と6位なんだぞ!(失礼)

こういったことは、見た目で判断せず、エクセルで解析をして、勝率と3PT%の具体的な相関の数値をだすことによって、根拠がはっきりするというものです。

 

それでは、データ解析の下準備として、NBAのスタッツサイトで公開されているデータをCSVファイルとして保存するところから始めましょう。

今回は、"Basketball-Reference.com"というサイトを使います。ググりましょう。

f:id:masawolves:20191221153255p:plain

こんなページがでてきます。

f:id:masawolves:20191221153300p:plain

次に、"Seasons"→"2019-20 Summary"にすすみましょう。

みんなの大好きな1試合ごとのスタッツがでてきます。

f:id:masawolves:20191221153306p:plain

あとで解析しやすいように、必ず"Team"のところを押して、アルファベット順にしておきましょう。次に、"Share & more"→"Get table as CSV (for Excel)"をクリックします。

f:id:masawolves:20191221153405p:plain

なんだかよくわからない感じになってしまいます。ド素人の方の場合は、ここで嫌になってしまうと思います。しかし、めげずにメモ帳をひらきましょう。そして、このわけのわからないやつを全部コピーして、メモ帳にはりつけましょう。

f:id:masawolves:20191221153411p:plain

順調です。よくぞ貼り付けました。

f:id:masawolves:20191221160815p:plain

そして、次が肝心です。メモ帳を保存するときに、名前の最後に".csv"をつけて保存してください。

f:id:masawolves:20191221153457p:plain

".csv"をつけて保存できたら、そのCSVファイルをひらいてみましょう。

す、すごい!! NBAのスタッツをエクセルでひらくことができたぞお!!

あなたが解析ド素人であれば感動しますし、初心者以上であれば感動しないでしょう。

f:id:masawolves:20191221160854p:plain

しかし、ここで一つ難点が。

"Team Per Game Stats"には試合の勝ち数と負け数が入っていないのです。

そこで、勝ち数と負け数が記録されている"Miscellaneous Stats"というところにいって、同様にCSVファイルとして保存しましょう。"Team"でソートしておくことを忘れないようにしましょう。

f:id:masawolves:20191221153421p:plain

CSVファイルのまま解析すると、のちのち面倒なことになるので、エクセルファイルとして保存しなおした方がいいと思います。

解析の下準備は以上となります。

ここから先は後編で解説します。

いつか、

きっと。

 

参考サイト:

以下のサイトでは、2013年~2018年のチームスタッツを参考に、どういった要素が勝率と相関関係にあるのかを解析しています。もはや自分で解析する意味ない。

https://mattbatman.com/nba-team-stats-win-correlation-regular-season