0, якщо перший абсолютний момент Cf залишається кінцевим. Це ще більше підвищує практичну цінність багатошарового персептрона, використовуваного як універсального аппроксіматора.
Помилку між емпіричним відповідністю і найкращою апроксимацією можна розглядати як помилку оцінювання. Нехай?- Середньоквадратичне значення помилки оцінювання. Тоді, ігноруючи логарифмічний множник в другому доданку нерівності (8), можна вставити висновок, що розмір N навчальної множини, необхідний для хорошого результату аналогічна емпіричному правилу (1), якщо твір m0m1 відповідає загальній кількості вільних параметрів W мережі. Іншими словами, можна стверджувати, що для хорошої якості апроксимації розмір навчальної множини повинен перевищувати відношення загальної кількості вільних параметрів мережі до середньоквадратичного значенням помилки оцінювання [1].
. 3.3 Обмеження розмірності
З обмеження (8) випливає ще один результат. Якщо розмір прихованого шару вибирається за такою формулою (тобто ризик R мінімізується по N):
(9)
то ризик R обмежується величиною Несподіваний аспект цього результату полягає в тому, що в термінах поведінки ризику R швидкість збіжності, представлена ??як функція від розміру навчальної множини N, має порядок (1/N) 1/2 (помножений на логарифмічний член). У той же час звичайна гладка функція (наприклад, тригонометрическая і поліноміальна) демонструє дещо інше поведінку. Нехай s - міра гладкості, обумовлена ??як ступінь дифференцируемости функції (кількість існуючих похідних). Тоді для звичайної гладкої функції мінімаксна швидкість збіжності загального ризику R має порядок
(10)
Залежність цієї швидкості від розмірності вхідного простору m0 називають «прокляттям розмірності», оскільки це властивість обмежує практичне використання таких функцій. Таким чином, використання багатошарового персептрона для вирішення завдань апроксимації забезпечує певні переваги перед звичайними гладкими функціями. Однак ця перевага з'являється за умови, що перший абсолютний момент Cf залишається кінцевим. У цьому полягає обмеження гладкості.
Термін «прокляття розмірності» був введений Річардом Белманом в 1961 році в роботі, присвяченій процесам адаптивного управління. Для геометричної інтерпретації цього поняття розглянемо приклад, в якому x - m0-мірний вхідний вектор, а безліч {(xi, di)}, i=1,2, ..., N, задає навчальну вибірку. Щільність дискретизації пропорційна значенню Нехай f (x) - поверхня в m0 - мірному вхідному просторі, що проходить близько точок даних {(xi, di)}, i=1,2, ..., N. Якщо функція f (x) досить складна і (здебільшого) абсолютно невідома, необхідно ущільнити точки даних для більш повного вивчення поверхні. На жаль, в багатовимірному просторі через «прокляття розмірності» дуже складно знайти навчальну вибірку з високою щільність дискретизації. Зокрема, в результаті збільшення розмірності спостерігається експоненціальне зростання складності, що, у свою чергу, призводить до погіршення просторових властивостей випадкових точок з рівномірним розподілом [1].
Функція, певна в просторі великої розмірності, швидше за все, є значно складнішою, ніж функція, визначена в просторі менше розмірності, і цю складність важко розгледіти.
Єдиною можливістю уникнути «прокляття-розмірності» є отримання коректних апріорних знань про функції, обумовленої даними навчання.
Можна стверджувати, що для практичного отримання гарної оцінки в просторах високої розмірності необхідно забезпечити зростання гладкості невідомої функції поряд зі збільшенням розмірності вхідних даних.
. 3.4 Практичні міркування
Теорема про універсальну апроксимації є дуже важливою з теоретичної точки зору, так як вона забезпечує необхідний математичний базис для доказу застосовності мереж прямого поширення з одним прихованим шаром для вирішення завдань апроксимації. Без такої теореми можна було б безрезультатно займатися пошуками рішення, якого насправді не існує. Однак ця теорема не конструктивна, оскільки вона не забезпечує спосіб знаходження багатошарового персептрона, що володіє заданими властивостями апроксимації.
Теорема про універсальну апроксимації припускає, що апроксимуємої безперервна функція відома, і для її наближення можна використовувати прихований шар необмеженого розміру. У більшості практичних застосувань багатошарового персептрона обидва ці припущення порушуються.
Проблема багатошарового персептрона з одним прихованим шаром полягає в тому, що нейрони можуть взаємодіяти один з одним на глобальному рівні. У складних завданнях така взаємодія ускладнює завдання підвищення якості апроксимації в одній точці без явного погіршення в іншій. З іншого боку, за наявності двох прихованих шарів процес апроксимації стає більш керованим [1]. Зокрема, можна ствердж...