Бот програмата се научава да преминава Марио

Това не е невронна мрежа, а общ генетичен алгоритъм. Невронната мрежа е в състояние да намери решение на подобна ситуация въз основа на предишен опит (разпределение на теглото на персептроните). Точно там, комбинациите от клавиши просто се повтарят, докато се получи нов резултат. Няколко лидери се избират от поколението (което е предало) и се създава ново население. И така отново и отново, докато някой от индивидите стигне до края. Променете нещо на нивото и човекът ще го прецака.

дойде тук само за да напиша това

просто интелигентна груба сила

Ето една невронна мрежа + генетичен алгоритъм. Последният се използва за трениране на мрежата, вместо за някакъв наклон по наклон.

Погледнете изходния код, можете да видите, че има както невронна мрежа, така и генетичен алгоритъм за нейното обучение. Това, което се използва тук, се нарича NEAT: https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_topologies

Данни от екрана - мрежов вход, ключ - изход. Тоест на теория добре обучената мрежа трябва да се справи с всяко ниво, не непременно първоначалното.

Да, сега те разбирам. Всъщност клавишите се натискат не случайно, а въз основа на решението на невронната мрежа и генетичният алгоритъм го обучава. Прав си!

Едва сега се оказва, че невронната мрежа прави само нови кликвания - тя не ревизира решенията си за предишните поколения. Въпреки че в идеалния случай след всяка тренировка трябва да преизчислите всички кликвания.

доколкото разбирам, той преразглежда, иначе в самото начало, докато вървеше няколко метра напред без смърт, щеше да върви в крайния резултат при преминаване, но не, мрежата реши, че ще скочи по-бързо и той вече скачаше.

Не съм чел източника, но ще бъда умен))
На теория. Тази мрежа е прекалено намалена до това конкретно ниво, просто защото те имат матрица около символа като вход. Мрежата може да се справи с други нива, но много по-лошо от първоначалното. Тъй като моделът за въвеждане през цялото време е бил един и същ (това ниво), което означава, че тежестите на мрежата са били изострени за него. Особено ако имат сензори за време, които ще повлияят на кантара специално за това ниво. Ако в процеса на обучение всеки път е дадено различно ниво, тогава. не е факт, че мрежата би се научила да прави каквото и да било.
Ако се забавляват с механизми за отслабване, те вероятно могат да се справят с всеки.

Е, преквалификацията на мрежата от моделите на текущото ниво е много по-бърза от ученето от нулата за всяко ново ниво (и нови модели, които вероятно са нещо подобно на предишните), защото?