лежать вхідному простору [1].
Універсальну теорему апроксимації можна розглядати як природне розширення теореми Вейєрштрасса. Ця теорема стверджує, що будь-яка безперервна функція на замкнутому інтервалі дійсної осі може бути представлена ??абсолютно і рівномірно збіжним рядом поліномів.
Теорема про універсальну апроксимації безпосередньо застосовна до багатошарового персептрону. По-перше, в моделі багатошарового персептрона в якості функції активації використовується обмежена, монотонно зростаюча логістична функція, що задовольняє умовам, що накладається теоремою на функцію? (.). По-друге, вираз (2) описує вихідний сигнал персептрона наступного виду:
Мережа містить m0 вхідних вузлів і один прихований шар, що з m1 нейронів. Входи позначені.
Прихований нейрон i має синаптичні ваги і поріг bi.
Вихід мережі являє собою лінійну комбінацію вихідних сигналів прихованих нейронів, зважених синаптическими вагами вихідного нейрона -.
Теорема про універсальну апроксимації є теоремою існування, тобто математичним доказом можливості апроксимації будь-якої неперервної функції. Вираз, що становить стрижень теореми, просто узагальнює опис апроксимації функції кінцевим поруч Фур'є. Таким чином, теорема стверджує, що багатошарового персептрона з одним прихованим шаром достатньо для побудови рівномірної апроксимації з точністю? для будь-якого навчальної множини, представленого набором входів і бажаних відгуків f (). Проте з теореми не випливає, що один прихований шар є оптимальним в сенсі часу навчання, простоти реалізації і, що більш важливо, якості узагальнення [1].
. 3.2 Межі помилок апроксимації
Були досліджені аппроксимирующие властивості багатошарового персептрона для випадку одного прихованого шару з сигмоидальной функцією активації і одного вихідного нейрона. Ця мережа навчалася за допомогою алгоритму зворотного поширення помилки, після чого тестувалася на нових даних. Під час навчання мережі пред'являлися вибрані точкифункції, що апроксимується f, в результаті чого була отримана апроксимуюча функція F, обумовлена ??виразом (2). Якщо мережі пред'являлися не використані раніше дані, то функція F «оцінювала» нові точки цільової функції.
Гладкість цільової функції f виражалася в термінах її розкладання Фур'є. Зокрема, в якості граничної амплітуди функції f використовувалося середнє значення норми вектора частоти, зваженого значеннями амплітуди розподілу Фур'є. Нехай g (?) - Багатовимірне перетворення Фур'є функції, де?- Вектор частоти. Функція f (x), представлена ??в термінах перетворення Фур'є g (?), Визначається наступною інверсної формулою:
(4)
де j =. Для комплекснозначною функції g (?) З интегрируемой функцією? G (?) Перший абсолютний момент розподілу Фур'є функції f можна визначити наступним чином:
(5)
де - Евклидова норма вектора?; | g (?) | - абсолютне значення функції g (?). Перший абсолютний момент Cf є мірою гладкості функції f [1].
Перший абсолютний момент Cf є основою для обчислення меж помилки, яка виникає внаслідок використання багатошарового персептрона, представленого функцією відображення «вхід-вихід» F (x), що апроксимує функцію f (x). Помилка апроксимації вимірюється інтегральної квадратичної помилкою по довільній міру ймовірності ? для кулі Br={x: || x ||? r} радіуса r gt; 0. На цій підставі можна сформулювати наступне твердження для межі помилки апроксимації:
Для будь-якої неперервної функції f (x) з кінцевим першим моментом Cf і будь-якого m1? 1 існує деяка лінійна комбінація сигмоїдальних функцій F (x) виду (2), така, що
(6)
.
Якщо функція f (x) спостерігається на безлічі значень вхідного вектора x, що належить кулі Br, цей результат визначає наступне обмеження для емпіричного ризику:
(7)
Цей результат використовувався для опису меж ризику R, що виникає при використанні багатошарового персептрона з m0 вхідними вузлами і m1 прихованими нейронами:
(8)
Два доданків у цьому визначенні кордонів ризику R відображають компроміс між двома суперечливими вимогами до розміру прихованого шару.
Точність найкращої апроксимації. Відповідно до теореми про універсальну апроксимації для задоволення цієї вимоги розмір прихованого шару m1 повинен бути більшим.
Точність емпіричного відповідності апроксимації. Для того щоб задовольнити цю вимогу, ставлення повинно мати мале значення. Для фіксованого обсягу N навчальної множини розмір прихованого шару повинен залишатися малим, що суперечить першому вимогу [1].
Обмеження для ризику R, описане формулою (8), має ще одне застосування. Справа в тому, що для точної оцінки цільової функції не вимагається експоненціально більшого навчальної множини і великої розмірності вхідного простору m...