Category — BOATCRAFT 独自用語

検証済みレースデータVerified Race Dataset

BOATCRAFT が独自構築する、1999 年以降 27 年分・1,000 万件超のレースデータベース。 出走表・着順・払戻金・気象・展示タイムなどを横断的に取り込み、 整合性チェックを通過した綺麗なレコードだけを 4 AI モデルの学習に使う、予測精度を支える独自基盤です。

Definition

検証済みレースデータとは ─ 整合性チェック済み の独自データベース。

検証済みレースデータとは、BOATCRAFT が独自に構築・保守しているレースデータベースのこと。1999 年以降の 27 年分、累計 1,000 万件超のレース・出走レコードを横断的に蓄積しています。

取り込まれているデータの種類は多岐にわたります。出走表 (選手・モーター・ボート・コース)、着順、払戻金 (単勝・複勝・2 連単・3 連単他)、気象 (風速・風向・波高・気温・水温)、展示タイム、スタートタイミング、コメント、節成績、級別履歴など、レースに関わるほぼすべての情報を網羅しています。

重要なのは「ただ集めている」のではなく、「検証 (Verify) 済み」である点です。BOATCRAFT は独自に整合性チェック・補完・正規化のパイプラインを実装しており、欠損・矛盾・重複を含むレコードは学習用データから自動的に除外されます。データの「綺麗さ」が AI モデルの予測精度に直結するため、データセット名にも「検証済み」を冠しています。

Pipeline

整合性チェックの 4 つの工程

BOATCRAFT の検証済みレースデータは、生データをそのまま使うのではなく、4 つの工程を通過した綺麗なレコードだけが学習・予測に利用されます。 各工程の役割を整理します。

Why It Matters

「検証済み」が 予測精度に効く 理由。

競艇予想 AI の精度を決めるのは、モデル構造よりも学習データの質です。 検証済みレースデータが BOATCRAFT のコア資産になっている理由を 4 つに整理しました。

検証済みレースデータ 未検証の生データ
欠損率 整合性チェックで欠損ゼロに補完 欠損がそのまま残り、学習を歪める
矛盾レコード クロスチェックで排除 誤った着順・払戻金で学習してしまう
期間カバレッジ 1999 年以降 27 年フル 取得時点からの数年分が一般的
更新頻度 毎日自動取込 + 月次再学習 手動更新、再学習も不定期
予測精度 4 AI モデルの基盤として高精度を支える ノイズで精度が頭打ちになる
In BOATCRAFT

予想モデルとの 関係

BOATCRAFT の予想は 4 モデルブレンド (LightGBM / XGBoost / CatBoost / ニューラルネットワーク の 4 種類の機械学習モデル) で構成されており、すべてのモデルが検証済みレースデータを学習基盤としています。 27 年分のデータがあるからこそ、新しい会場でも、珍しい気象条件でも、過去の似た状況から予測を引っ張ってこられます。

長期統計モデル ─ 1999 年以降の 27 年分のコース別 1 着率・配当帯を学習。会場ごとの構造的傾向を統計的に把握する基盤になる。

機械学習モデル ─ 100 種類以上の特徴量を勾配ブースティング系のモデルが学習。検証済みデータの綺麗さがそのまま予測精度に反映される。

直近フォーム・会場特性モデル ─ 直近の選手成績・モーター成績や、24 会場それぞれの水面特性を、最新の検証済みデータから日次で更新する。

27 年分のデータが支える予想。

検証済みレースデータは BOATCRAFT 独自の予測基盤。 1999 年以降 27 年分・1,000 万件超の綺麗なデータから生まれる予想を、ぜひ手元で試してみてください。

他の用語を見る → BOATCRAFT で予想を試す →