Математические ставки. Сколько надо данных для прогноза на спорт?

Микаел Григорян

В колонке «Математические ставки» я время от времени упоминал о том, что данных должно быть много для того, чтобы прогноз был точным. Давайте попробуем определить нужное количество данных, чтобы зря не тратить усилия и машинное время. Тут прямая зависимость: чем больше данных, тем меньше центробежная сила погрешностей измерения и оценки.

Содержание

$Сколько требуется данных для прогноза?$

Сколько нужно данных для прогноза?

Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.

Как построить выборку?

Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:

популяция – множество всех объектов, среди которых проводится исследования;
выборка – подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании;
репрезентативная выборка – та выборка, которая должным образом обобщает популяцию.

Чаще всего статистический анализ представляет собой процесс в три этапа:

Из всей популяции берется выборка объектов. Этот этап исключительно важен. Выборка должна быть не абы какая, а репрезентативная.
На базе этой выборки строят модели на основе известных законов распределения случайных величин.
Выводы предыдущего этапа обобщаются на всю популяцию.

Классический случай такого анализа — социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.

Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.

В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия — Новая Зеландия и некоторых других.

В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.

От выборки до гипотезы

Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.

Таблица 1

Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.

H₀: μ = 1

H₁: μ > 1

Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H_0:

∑X_i ≥ C

Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:

P(∑X_i ≥ 54|μ = 1) = 0.000487

Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 — количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H₀– ложно, а H₁ – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.

Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.

Что дальше?

Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;

произвести выборку из совокупности данных объектов – популяции;
определить статистическое распределения случайных величин в выборке. В спорте случайные величины чаще всего характеризуются нормальным либо же пуассоновым распределением;
выполнить вычисления – лучше на специализированных программах.

В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.

Опубликовано в: Советы игрокам

Нашли ошибку?

Инструкция: как правильно делать ставки на статистику в футболе

Советы игрокам

Инструкция: как правильно делать ставки на статистику в футболе

Три реальных способа заработать на ставках, не делая их

Советы игрокам

Три реальных способа заработать на ставках, не делая их

Life changing win. Что это такое и где выше вероятность выигрыша

Советы игрокам

Life changing win. Что это такое и где выше вероятность выигрыша

Остались вопросы? Спросите у наших знатоков!

Задать вопрос

Особый комментарий

Комментарии 5

Alex Savichev Новичок 7 лет назад

для меня, человека, обучающегося на направлении прикладная математика, здесь, конечно , все прозрачно. Использовании математических методов сокращает издержки и минимизирует риски, хотя и к этому приходишь не сразу.

2 0

Ответить
Поделиться
ИЛ

Игорь Ларионов Новичок 7 лет назад

Многабукаф

0 0

Ответить
Поделиться
Алексей Казаков Профи 7 лет назад

сложно…

0 0

Ответить
Поделиться
- Дмитрий Кремер Новичок Алексей Казаков 6 лет назад
  
  Да сложно. Но зато познавательно для большинства ставочников, и это в скором времени поможет большенству людей ставить не на абум а с умом.
  
  1 0
  
  Ответить
  Поделиться
- Микаел Григорян Алексей Казаков 7 лет назад
  
  Да, есть немного. Но на самом деле это азы, это нужно чтобы задать контекст на будущее. В следующий раз будут просто примеры, вся эта сложность уходит, если пользоваться специальными программами, но все равно надо понимать что и для чего делается.
  
  1 0
  
  Ответить
  Поделиться

Математические ставки. Сколько надо данных для прогноза на спорт?

Содержание

Читайте также:

Как построить выборку?

От выборки до гипотезы

Что дальше?