読者です 読者をやめる 読者になる 読者になる

データ分析・機械学習

〜素人の分析は玄人の直感に勝るか〜

【競馬分析vol.1】問題設定と分析環境

競馬分析 機械学習 R

競馬分析の問題設定

目的変数の設定

まず最初に、分析する上でどのように問題設定をするかを決めなければいけません。
今回の競馬分析では問題をよりシンプルにするため、

3着以内に入るか、入らないか
 
を目的変数とし、2値の分類問題として分析・予測を行っていきます。複勝を的中させるための分析といってもよいでしょう。回収率については今のところ考慮していません。

おそらく競馬好きな方からは

複勝なんてつまらない(当てるのは簡単)
的中率より回収率が大事

という声が聞こえてきそうですが、そもそも的中しなければ回収もクソもないですし、さらに競馬素人の分析ということで、このような問題設定としました。

説明変数の設定

説明変数(特徴量)の選択については、最初のうちは主観・想像に頼らざるを得ないので、馬と騎手の勝率など予測に使えそうなものを適当に選んでいきます。
そして分析の中で、以下に述べるrandomForestやcforestの重要度計算を用いて特徴量を選別していきます。

分析環境

使用言語

主にR言語を用いています。最近、少しだけPythonも触り始めました。

使用パッケージ(機械学習アルゴリズム

現状、使用している機械学習アルゴリズムは以下のものです。※{  }はRのパッケージ名

  • randomForest {randomForest}
  • forestFloor {forestFloor}
  • cforest {party}
  • SVM {kernlab}
  • naiveBayes {e1071}
  • DeepLearning {h2o}

当初は、使いやすいと言われているrandomForestだけで予測を行なっていました。
現在は上記全てのアルゴリズムで予測をさせ、最後に多数決をとることとしています。

次回以降、実際の分析結果を古いものから順に公開していきたいと思います。

前回記事

taux.hatenablog.com