y"> На підставі отриманого обчисленого масиву наступного шару resultStudy, знаходяться помилки по (2.16):
;
де індекс i характеризує нейронні елементи наступного шару;
22 Цикл зміни вагових коефіцієнтів між усіма суміжними шарами.
23 Цикл для поточного солячи по всіх його нейронних елементам.
Зміна вагових коефіцієнтів, згідно (2.14) знаходиться як:
;
25 Обчислюється сума квадратів помилок для даного зразка навчання:
Далі йде перехід до пункту 12, для зчитування наступного зразка в епосі навчання. Якщо це був останній зразок, то виконується блок 27.
26 Знаходиться середньоквадратична помилка нейронної мережі по всім зразкам, (2.10):
,
де L - розмірність навчальної вибірки.
27 Перевірка на досягнення середньоквадратичне помилки допустимого значення. Безумовний подальший перехід до блоку 10.
28 При істинності блоку 28, значення STOP так само встановлюється Істина. Безумовний подальший перехід до блоку 10.
Недоліки алгоритму зворотного поширення помилки. Оскільки даний алгоритм грунтується на методі градієнтного спуску в просторі вагових коефіцієнтів і порогів нейронної мережі, то створюється ряд проблем при навчанні. До таких проблем можна віднести наступні:
- невідомість вибору числа шарів і кількості нейронних елементів в шарі для багатошарових мереж;
- повільну збіжність градієнтного методу з постійним кроком навчання;
- складність вибору підходящої швидкості навчання?. Так, занадто мала швидкість навчання збільшує час навчання та призводить до скочування нейронної мережі в локальний мінімум. Велика швидкість навчання може призвести до пропуску глобального мінімуму і зробити процес навчання розбіжним;
- неможливість визначення точок локального і глобального мінімумів, малюнок 2.16, так як градієнтний метод їх не розрізняє;
- вплив випадкової ініціалізації вагових коефіцієнтів нейронної мережі на пошук мінімуму функції середньоквадратичної помилки.
Останній пункт відображає, що при різній ініціалізації синоптичних зв'язків можуть виходити різні рушения завдання. Те, що алгоритм зворотного поширення помилки не дозволяє в загальному випадку досягти глобального мінімуму, не применшує його достоїнств, так як у багатьох практичних завданнях досить навчити нейронну мережу до необхідної середньоквадратичної помилки. Чи є при цьому знайдений мінімум локальним або глобальним, не має великого значення.
. 6 Рекомендації з навчання та архітектурі багатошарових нейронних мереж
Ефективність навчання багатошарових нейронних мереж залежить від числа шарів, числа елементів у прихованих шарах нейронної мережі і початкової ініціалізації вагових коефіцієнтів.
Малюнок 2.16 - Функція середньоквадратичної помилки:
Їв - локальний мінімум; Еmin - глобальний мінімум.
Як зазначалося вище, різна ініціалізація вагових коефіцієнтів може призводити до різним рішенням. Важливу роль тут відіграє розмір випадково ініціалізіруемих синаптичних зв'язків. Так, для сігмоідной функції активації нейронних елементів, якщо вагові коефіцієнти будуть мати великі значення (позитивні або негативні). Те вихідна активність нейронних елементів буде близька до одиниці або нулю. Тоді значення виразу yj (1-yj) буде близько до нуля і, згідно з правилом навчання (2.14), вагові коефіцієнти будуть змінюватися незначно. Це призведе до того, що процес навчання зупиниться в найближчому локальному мінімумі від стартової точки. Рекомендується випадковим чином ініціалізувати вагові коефіцієнти і порогові значення в діапазоні [- 0,5; 0,5].
Велику роль для ефективності навчання грає архітектура нейронної мережі. Розмірність вхідного і вихідного шарів нейронної мережі визначається з умови розв'язуваної задачі або навчальної вибірки. Як було зазначено у пункті 2.4.2, за допомогою тришарової нейронної мережі можна апроксимувати будь-яку функцію з як завгодно заданою точністю. При цьому точність апроксимації залежить від числа нейронів в прихованому шарі.
Чим більше число нейронних елементів в прихованому шарі, тим більше точність. Однак при занадто великої розмірності прихованого шару може наступити явища, зване перетренировкой мережі. Це означає, що мережа добре апроксимує функцію тільки на тренувальних зразках, але погіршується узагальнююча здатність мережі. З іншого боку, при занадто малої розмірності прихованого шару можна потрапити в небажаний локальний мінімум або процес навчання буде дуже тривалим. Тому тут необхідний розу...