Недостатъци на алгоритъма за обратно разпространение на грешки

Алгоритъмът за обратно разпространение на грешки реализира така нареченото градиентно спускане над повърхността на грешката. Без да се задълбочава, това означава следното: в дадена точка на повърхността има посоката на най-бързото спускане, след това се прави скок надолу на разстояние, пропорционално на коефициента на скорост на обучение и стръмността на наклона, докато се прави отчитайки инерцията, тоест желанието да се запази предишната посока на движение. Можем да кажем, че методът се държи като сляпо кенгуру - всеки път, когато скача в посоката, която му се струва най-добра. Всъщност стъпката на спускане се изчислява отделно за всички тренировъчни наблюдения, взети в произволен ред, но резултатът е доста добро приближение на спускането по кумулативната повърхност на грешка.

Въпреки своята достатъчна простота и приложимост при решаването на широк кръг от проблеми, алгоритъмът за обратно разпространение има редица сериозни недостатъци. Неограничено дългият процес на обучение трябва да се отбележи отделно. При сложни задачи мрежата може да отнеме дни или дори седмици, за да се обучава, а понякога изобщо да не се научи. Това може да се случи поради следните фактори, описани по-долу.

1. Мрежова парализа

В процеса на обучение на мрежата стойностите на тежестите могат да станат много големи в резултат на корекцията. Това може да доведе до факта, че всички или по-голямата част от невроните ще произвеждат големи стойности на изхода на мрежата, където производната на активиращата функция от тях ще бъде много малка. Тъй като грешката, изпратена обратно по време на учебния процес, е пропорционална на тази производна, процесът на обучение може практически да замръзне. В теоретичен план този проблем е слабо разбран. Това обикновено се избягва чрез намаляване на размера на стъпката (скоростта на обучение), но увеличава времето за обучение. За предотвратяване или възстановяване от парализа са използвани различни евристики, но досега те могат да се считат само за експериментални.