увати наступне:
а) Локальні ознаки витягуються в першому прихованому шарі, тобто деякі приховані нейрони першого шару можна використовувати для розділення вхідного простору на окремі області, а решта нейрони прошарку навчати локальним ознаками, що характеризує ці області.
б) Глобальні ознаки витягуються в другому схованому шарі. Зокрема, нейрон другого прихованого шару «узагальнює» вихідні сигнали нейронів першого прихованого шару, що відносяться до конкретної області вхідного простору. Таким чином він навчається глобальним ознаками цій області, а в інших областях його вихідний сигнал дорівнює нулю.
Цей двоетапний процес апроксимації за своєю філософією аналогічний сплайнова підходу до апроксимації кривих, оскільки нейрони працюю в ізольованих областях. Сплайн є прикладом такої кусочной поліноміальної апроксимації.
У працях Едуардо Сонтаг запропоновано подальше обгрунтування використання двох прихованих шарів в контексті обернених задач. Зокрема, розглядається наступна зворотна задача [1]:
Для даної безперервної вектор-функції, компактного підмножини, яке міститься в просторі образів функції f, і деякого позитивного? gt; 0 потрібно знайти вектор-функцію, що задовольняє умові ||? (F) (u) - u || lt; ? для будь-якого u
Ця задача відноситься до області зворотної кінематики або динаміки, де бачимо стан x (n) системи є функцією поточних дій u (n) b попереднього стану x (n - 1) системи
(11)
Тут передбачається, що функція f є оборотною, тобто u (n) можна представити як функцію від x (n) для будь-якого x (n - 1). Функція f описує пряму кінематику, а функція?- Зворотну. У контексті викладеного матеріалу необхідно простроить таку функцію?, Яка може бути реалізована багатошаровим персептроном. У загальному випадку для розв'язання оберненої задачі кінематики функція? повинна бути розривною. Для вирішення таких обернених задач одного прихованого шару недостатньо, навіть при використанні нейронної моделі з розривними активаційними функціями, а персептрона з двома прихованими шарами цілком достатньо для будь-яких можливих C, f і?.
Розглянемо нелінійне відображення типу «вхід-вихід», задане таким співвідношенням:
(12)
де вектор x - вхід, а вектор d - вихід. Векторна функція f (ю) вважається невідомою. Щоб заповнити прогалину в знаннях про функції f (.), Нам надається безліч маркованих прикладів:
(13)
До структурі нейронної мережі, апроксимуючої невідому функцію f (.), пред'являється наступну вимогу: функція F (.), що описує відображення вхідного сигналу у вихідний, повинна бути досить близька до функції f (.) в сенсі Евклідовій норми на множині всіх вхідних векторів x, т.е.
для всіх векторів x,
де - деяке мале позитивне число. Якщо кількість N елементів навчальної множини досить велика і в мережі є достатня кількість вільних параметрів, то помилку апроксимації можна зробити досить малою.
Описана задача апроксимації є відмінним прикладом завдання для навчання з учителем. Тут xi грає роль вхідного вектора, а di - роль бажаного відгуку. Виходячи з цього, завдання навчання з учителем можна звести до задачі апроксимації [1].
Здатність нейронної мережі апроксимувати невідоме відображення вхідного простору в вихідна можна використовувати для вирішення наступних завдань.
а) Ідентифікація систем. Нехай формула (12) описує співвідношення між входом і виходом в невідомій системі з декількома входами і виходами без пам'яті. Термін «без пам'яті» має на увазі інваріантність системи в часі. Тоді безліч маркованих прикладів (13) можна використовувати для навчання нейронної мережі, що представляє модель цієї системи. Нехай yi - вихід нейронної мережі, відповідний вхідного вектору xi. Різниця між бажаним відгуком di і виходом мережі yi складає вектор сигналу помилки ei, використовуваний для коригування вільних параметрів мережі з метою мінімізації середньоквадратичної помилки - суми квадратів різниць між виходами невідомої системи і нейронної мережі в статистичному сенсі (тобто обчислюється на множині всіх прикладів ).
Малюнок 1.3 - Блокова діаграма розв'язання задачі ідентифікації системи
б) Інверсні системи. Припустимо, що існує якась система без пам'яті, для якої перетворення вхідного простору в вихідна описується співвідношенням (12). Потрібно побудувати инверсную систему, яка у відповідь на вектор d генерує відгук у вигляді вектора x. Инверсную систему можна описати таким чином:
де вектор-функція є інверсної до функції f (.). Звернемо увагу, що функція не є зворотною до функції. Тут верхній індекс - 1 використовується тільки як індикатор інверсії. У багатьох ситуаціях на практиці функція f (.) Може бути досить склад...