Прогнозиране на резултатите от спортните игри с помощта на методи за клъстериране на невронни мрежи

Голям брой фенове на спортни игри като футбол, хокей, баскетбол и други, при които няколко отбора се състезават помежду си, рано или късно проявяват интерес да прогнозират резултатите си, като правят това системно или нередовно, като същевременно се опитват не само да се доверят тяхната интуиция, но също така да се разработи определен алгоритъм, който ви позволява правилно да предскажете резултата от дадена игра в максимален брой случаи.

Групиране - това е проблемът за разпространението на голям набор от налични данни в групи (клъстери) въз основа на общи или, в случай на количествено измерване, сходни по размер характеристики. По този начин, отделно взетите вектори на данни (примери), които са образували клъстер в резултат на работата на изкуствена невронна мрежа, първо, трябва да бъдат наистина подобни един на друг, и второ, те сами определят свойствата на образувания от тях клъстер. Процедурата за описание на качествените и количествените свойства на клъстерите се нарича клъстерен анализ. Полученото описание е ценно само по себе си, но може да се използва и за последваща работа с вече обучена невронна мрежа, когато нов пример се присвоява на един от вече съществуващите клъстери. Ако процесът на настройка на мрежата и процедурата на клъстерния анализ са извършени качествено, при достатъчно голям обем коректни данни за обучение, можем да кажем с много висока степен на увереност, че описанието на съответния клъстер ще съответства на този нов пример.

Когато решавате проблема с прогнозирането на резултата от мач, трябва да знаете, че неговият отговор никога не трябва да бъде предсказване на единствения изход, тъй като дори във футболен мач между испанската Барселона и националния отбор на колхоза Tikhie Zori край Москва в Ноу Камп, всички играчи от първия отбор могат внезапно да получат морбили и всички играчи гости ще имат трето или четвърто дъх. Единственият въпрос е честотата на това или онова събитие. По този начин, в резултат на решаването на проблема, трябва да се получат вероятностите за всеки от възможните резултати от играта и тяхната сума да бъде строго равна на една.

Сред методите на клъстериране на невронни мрежи най-често се използват следните три:

Невронни мрежи на Кохонен;
невронни мрежи на адаптивния резонанс ART-2;
невронни мрежи, базирани на радиално симетрични (радиално базисни) функции.

Изброените архитектури на невронни мрежи се самообучават на специално съставени извадки от данни. Тяхната структура може да бъде фиксирана, но самоорганизацията е за предпочитане, когато в процеса на обучение се коригират не само коефициентите на тежест, но се формира структурата на самата мрежа: формират се нови клъстери, ако количествените и качествените характеристики на примера го правят не се доближава достатъчно близо до който и да е от съществуващите клъстери, както и е възможно да се изтрие клъстер (неврон), ако той не е бил използван през текущата епоха на обучение. Разликите между тези архитектури са главно само в използвания алгоритъм за корекция на теглото, който може да се намери в статиите за изпълнението на съответните методи.

Решението на конкретен проблем за предсказване на резултата от мач може да бъде представено като последователност от следните етапи:

събиране на първоначални данни за проведените спортни събития от същия вид спорт и ранг;
избор на архитектура на невронна мрежа за решаване на проблема;
избор или разработване на софтуерен продукт за решаване на проблем;
формиране на обучителна извадка и нейното структуриране според изискванията на използвания софтуер;
настройка на алгоритъма за обучение;
обучение и клъстер анализ;
практическо използване на обучена невронна мрежа за прогнозиране на вероятностите за възможни резултати.

Нека разгледаме по-отблизо всеки от етапите.

Събиране на сурови данни

Наличието на голям набор от първоначални данни за обучение е един от основните фактори, които определят възможността за успешно решаване на даден проблем. Но тъй като говорим за статистика и вероятности, не само обемът е важен, но и произходът на данните. По този начин статистиката, събрана за първенството на втората китайска лига, е малко вероятно да бъде подходяща за прогнозиране на резултатите от мачове на футболни отбори на Световното първенство. Съответно, ако синоптикът планира да предвиди резултатите от мачовете в различни спортове, в състезания от различни нива, той трябва да вземе това предвид още на етапа на подбор на данните за обучение и, ако е необходимо, да формира няколко различни учебни извадки.

Друг важен фактор е качественият състав на данните във векторите за обучение. Колкото повече различни фактори са взети под внимание, толкова по-дълбоко може да се извърши клъстерирането до много неочаквани, но действително работещи прогнози. Ето кратък списък от групи фактори, които трябва да се вземат предвид:

- полеви фактор (свой, чужд, неутрален);
- оперативна информация: силата на играещите отбори в текущия момент и динамиката на нейната промяна (действителната числена стойност на силата, получена въз основа на редовно актуализиран рейтинг, разликата в силата, съотношението на силите);