読者です 読者をやめる 読者になる 読者になる

データ分析・機械学習

〜素人の分析は玄人の直感に勝るか〜

【競馬分析vol.3】G2札幌記念の分析結果(2016/08/21)

競馬分析 機械学習 R

はじめに

昨日に引き続き、過去の分析実績です。今回もシンプルに予測と結果のみメインの掲載です。
時系列がめちゃくちゃですが、今回は2016年8月のものです。


分析対象

レース名:札幌記念
開催地 :札幌
日時  :2016年8月21日(日)11R
札幌記念|2016年08月21日 | 競馬データベース - netkeiba.com


分析予測と結果

分析予測

今回も4つのアルゴリズムで予測させました。

馬番 馬名 騎手名
15 モーリス モレイラ

Rによる予測詳細

f:id:taux:20170218024850p:plain:w400

cforestは、中でやってることは基本randomForestと同じはずなのですが、予測馬を出力しませんでした。
他3つのアルゴリズムが15番モーリス推しでした。一応、SVMだけ1番ヌーヴォレコルト(騎手:吉田隼人)を予測しています。モーリスはこのレースで1番人気みたいだったので、堅い結果なんでしょう。

人気は競馬ファンの集合知の結果と考えても良いと思うので、これはこれで機械学習の結果としてなかなか面白いのではないかと思います。

…というかrandomForestの手法でもある機械学習のバギングって、まさに学習器の集合知

競馬でいうと、

競馬 randomForest(バギング)
様々な視点で分析する個々のファン ランダムに選択した特徴量で作られた独立な弱学習器の決定木
人気(多くの人が支持している) randomForestにおける決定木の結果の多数決

と対応しているような気がしています。まだアルゴリズムの理解が怪しい。
この解釈があっているか、機械学習に詳しい方教えてください。

それにしても、一個人でもデータさえあれば集合知と同じ結果「も」得られるというのはワクワクします。
「だけ」では面白くないですが。

レース結果

着順 馬番 馬名 騎手名 的中
1 13 ネオリアリズム ルメール -
2 15 モーリス モレイラ
3 2 レインボーライン 福永祐一 -
4 1 ヌーヴォレコルト 吉田隼人 -


騎手ルメール強し…。
SVMだけが予測した1番ヌーヴォレコルト(騎手:吉田隼人)は惜しくも4位でした。

馬券購入

複勝で1.1倍でした。
回収率を上げるという意味ではこの倍率は面白くないのかもしれませんが、利率10%と考えれば魅力的…?
もちろん「100%当たる」ということには絶対ならないので、単純に利率10%としてしまってはいけませんが。


仮に一番人気を複勝で買い続けたときの的中率(回収率ではなく)はどれくらいなんだろう?
その的中率に、自分の機械学習による的中率が勝っていないとまだまだ魅力的とは言えないですね。


ちなみに、昨日公開したエリザベス女王杯の分析で用いた説明変数とはまた異なるので、これも詳細を整理できたら追記します。