Математические ставки. Сколько надо данных для прогноза на спорт?

Микаел Григорян
В колонке «Математические ставки» я время от времени упоминал о том, что данных должно быть много для того, чтобы прогноз был точным. Давайте попробуем определить нужное количество данных, чтобы зря не тратить усилия и машинное время. Тут прямая зависимость: чем больше данных, тем меньше центробежная сила погрешностей измерения и оценки.

Содержание

Сколько требуется данных для прогноза?

Сколько нужно данных для прогноза?

Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.

Читайте также:

Как построить выборку?

Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:

  • популяция – множество всех объектов, среди которых проводится исследования;
  • выборка – подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании;
  • репрезентативная выборка – та выборка, которая должным образом обобщает популяцию.

Чаще всего статистический анализ представляет собой процесс в три этапа:

  1. Из всей популяции берется выборка объектов. Этот этап исключительно важен. Выборка должна быть не абы какая, а репрезентативная.
  2. На базе этой выборки строят модели на основе известных законов распределения случайных величин.
  3. Выводы предыдущего этапа обобщаются на всю популяцию.

Классический случай такого анализа — социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.

Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.

В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия — Новая Зеландия и некоторых других.

В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.

От выборки до гипотезы

Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.

Таблица 1

Таблица 1

Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.

H0: μ = 1

H1: μ > 1

Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H0:

∑Xi ≥ C

Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:

P(∑Xi ≥ 54|μ = 1) = 0.000487

Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 — количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H0 – ложно, а H1 – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.

Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.

Что дальше?

Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;

  • произвести выборку из совокупности данных объектов – популяции;
  • определить статистическое распределения случайных величин в выборке. В спорте случайные величины чаще всего характеризуются нормальным либо же пуассоновым распределением;
  • выполнить вычисления – лучше на специализированных программах.

В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.

 

Нашли ошибку?Сообщите о ней
Остались вопросы? Спросите у наших знатоков!
Комментарии 5