ам'ятовування, по суті, являє собою довідкову таблицю - список пар «вхід-вихід», обчислених нейронною мережею. При цьому відображення втрачає свою гладкість. Гладкість відображення входу на вихід безпосередньо пов'язана з критерієм моделювання, який отримав назву бритви Оккама. Сутність цього критерію полягає у виборі найпростішої функції при відсутності будь-яких додаткових апріорних знань. У контексті попереднього обговорення «найпростішої» є сама гладка з функцій, апроксимуючих відображення для даного критерію помилки, оскільки такий підхід вимагає мінімальних обчислювальних ресурсів. Гладкість властива багатьом додаткам і залежить від масштабу досліджуваного явища. Таким чином, для погано обумовлених відносин важливо шукати гладке нелінійне відображення. При цьому мережа буде здатна коректно класифікувати нові сигнали щодо прикладів навчання [1].
Малюнок 1.2 - Коректна інтерполяція (хороше узагальнення) (а) і результат надлишкового навчання (погане узагальнення) (б)
1.2.1 Достатній обсяг прикладів навчання для коректного узагальнення
Здатність до узагальнення визначається трьома факторами: розміром навчальної множини і його показністю, архітектурою нейронної мережі та фізичної складністю розглянутої задачі. Природно, останній фактор виходить за межі нашого впливу. У контексті інших факторів питання узагальнення можна розглядати з двох різних точок зору.
Архітектура мережі фіксована і питання зводиться до визначення розміру навчальної множини, необхідного для гарного узагальнення.
Розмір навчальної множини фіксований, і питання зводиться до визначення найкращої архітектури мережі, що дозволяє досягти хорошого узагальнення.
Обидві точки зору по-своєму правильні. Дотепер ми фокусували увагу на першому аспекті проблеми [1] .- вимір забезпечує теоретичний базис для принципового рішення задачі визначення адекватності розміру навчальної вибірки. Зокрема, отримані незалежні від розподілу песимістичні формули оцінки розміру навчальної множини, достатнього для хорошого узагальнення. На жаль, часто виявляється, що між дійсно достатнім розміром навчання та цими оцінками може існувати великий розрив. Через це розбіжності виникає завдання складності вибірки, що відкриває нову область досліджень.
На практиці виявляється, що для хорошого узагальнення достатньо, щоб розмір навчальної множини N задовольняв наступному співвідношенню:
(1)
де W - загальна кількість вільних параметрів (тобто синаптичних ваг і порогів) мережі;- Допустима точність помилки класифікації; O (ю) - порядок укладеної в дужки величини. Наприклад, для помилки в 10% кількість прикладів навчання повинна в 10 разів перевершувати кількість вільних параметрів мережі.
Вираз (1) отримано з емпіричного правила Відроу для алгоритму LMS, який стверджує, що час стабілізації процесу лінійної адаптивної часової фільтрації приблизно дорівнює обсягу пам'яті лінійного адаптивного фільтра в задачі фільтра на лінії затримки з відводами, діленому на величину неузгодженості. Неузгодженість в алгоритмі LMS виступає в ролі помилки з виразу (1).
. 3 Апроксимація функцій
Багатошаровий персептрон, якого навчають згідно з алгоритмом зворотного поширення помилки, можна розглядати як практичний механізм реалізації нелінійного відображення «вхід-вихід» загального вигляду. Наприклад, шлях m0 - кількість вхідних вузлів багатошарового персептрона, M=mL - кількість нейронів вихідного шару мережі. Ставлення «вхід-вихід» для такої мережі визначає відображення m0-мірного Евклидова простору вхідних даних у M-мірне Евклід простір вихідних сигналів, безперервно диференціюється нескінченне число разів (якщо цій умові задовольняють і функції активації). При розгляді властивостей багатошарового персептрона з погляду відображення «вхід-вихід» виникає наступне фундаментальне питання: «Яку мінімальну кількість прихованих шарів багатошарового персептрона, що забезпечує апроксимацію деякого безперервного відображення?» [1].
1.3.1 Теорема про універсальну апроксимації.
Відповідь на це питання забезпечує теорема про універсальну апроксимації для нелінійного відображення «вхід-вихід», яка формулюється наступним чином:
Нехай? (.) - обмежена, що не постійна монотонно зростаюча безперервна функція. Нехай Im0 - m0-мірний одиничний гиперкуб [0, 1] m0. Нехай простір неперервних на Im0 функцій позначається символом C (Im0). Тоді для будь-якої функції f? (Im0) і? gt; 0 існує таке ціле число m1 і безліч дійсних констант? i, bi і? ij, де I=1, ..., m1, j=1, ..., m0, що
(2)
є реалізацією апроксимації функції f (.), тобто
(3)
для всіх, що на...