BOATCRAFT が独自構築する、1999 年以降 27 年分・1,000 万件超のレースデータベース。 出走表・着順・払戻金・気象・展示タイムなどを横断的に取り込み、 整合性チェックを通過した綺麗なレコードだけを 4 AI モデルの学習に使う、予測精度を支える独自基盤です。
検証済みレースデータとは、BOATCRAFT が独自に構築・保守しているレースデータベースのこと。1999 年以降の 27 年分、累計 1,000 万件超のレース・出走レコードを横断的に蓄積しています。
取り込まれているデータの種類は多岐にわたります。出走表 (選手・モーター・ボート・コース)、着順、払戻金 (単勝・複勝・2 連単・3 連単他)、気象 (風速・風向・波高・気温・水温)、展示タイム、スタートタイミング、コメント、節成績、級別履歴など、レースに関わるほぼすべての情報を網羅しています。
重要なのは「ただ集めている」のではなく、「検証 (Verify) 済み」である点です。BOATCRAFT は独自に整合性チェック・補完・正規化のパイプラインを実装しており、欠損・矛盾・重複を含むレコードは学習用データから自動的に除外されます。データの「綺麗さ」が AI モデルの予測精度に直結するため、データセット名にも「検証済み」を冠しています。
BOATCRAFT の検証済みレースデータは、生データをそのまま使うのではなく、4 つの工程を通過した綺麗なレコードだけが学習・予測に利用されます。 各工程の役割を整理します。
競艇予想 AI の精度を決めるのは、モデル構造よりも学習データの質です。 検証済みレースデータが BOATCRAFT のコア資産になっている理由を 4 つに整理しました。
| 検証済みレースデータ | 未検証の生データ | |
|---|---|---|
| 欠損率 | 整合性チェックで欠損ゼロに補完 | 欠損がそのまま残り、学習を歪める |
| 矛盾レコード | クロスチェックで排除 | 誤った着順・払戻金で学習してしまう |
| 期間カバレッジ | 1999 年以降 27 年フル | 取得時点からの数年分が一般的 |
| 更新頻度 | 毎日自動取込 + 月次再学習 | 手動更新、再学習も不定期 |
| 予測精度 | 4 AI モデルの基盤として高精度を支える | ノイズで精度が頭打ちになる |
BOATCRAFT の予想は 4 モデルブレンド (LightGBM / XGBoost / CatBoost / ニューラルネットワーク の 4 種類の機械学習モデル) で構成されており、すべてのモデルが検証済みレースデータを学習基盤としています。 27 年分のデータがあるからこそ、新しい会場でも、珍しい気象条件でも、過去の似た状況から予測を引っ張ってこられます。
長期統計モデル ─ 1999 年以降の 27 年分のコース別 1 着率・配当帯を学習。会場ごとの構造的傾向を統計的に把握する基盤になる。
機械学習モデル ─ 100 種類以上の特徴量を勾配ブースティング系のモデルが学習。検証済みデータの綺麗さがそのまま予測精度に反映される。
直近フォーム・会場特性モデル ─ 直近の選手成績・モーター成績や、24 会場それぞれの水面特性を、最新の検証済みデータから日次で更新する。
検証済みレースデータは BOATCRAFT 独自の予測基盤。 1999 年以降 27 年分・1,000 万件超の綺麗なデータから生まれる予想を、ぜひ手元で試してみてください。