алами. Відсутність першої похідної ускладнює застосування градієнтних методів для навчання таких нейронів. Мережі на класичних ФН найчастіше формуються, синтезуються, тобто їх параметри розраховуються за формулами, на противагу навчанню, коли параметри підлаштовуються итеративно.
б) Логістична функція (сигмоїда, функція Фермі, Малюнок 1.14):
Застосовується дуже часто для багатошарових персептронов та інших мереж з безперервними сигналами. Гладкість, безперервність функції - важливі позитивні якості. Безперервність першої похідної дозволяє навчати мережу градієнтними методами (наприклад, метод зворотного поширення помилки).
Функція симетрична щодо точки (NET=0, OUT=1/2), це робить рівноправними значення OUT=0 і OUT=1, що істотно в роботі мережі. Тим не менш, діапазон вихідних значень від 0 до 1 несиметричний, через це навчання значно сповільнюється. Ця функція - стискаюча, тобто для малих значень NET коефіцієнт передачі K=OUT/NET великий, для великих значень він знижується. Тому діапазон сигналів, з якими нейрон працює без насичення, виявляється широким.
Значення похідною легко виражається через саму функцію. Швидкий розрахунок похідною прискорює навчання.
в) Гіперболічний тангенс (Малюнок 1.15):
Теж застосовується часто для мереж з безперервними сигналами. Функція симетрична щодо точки (0,0), це перевага в порівнянні з сигмоид.
г) Полога сходинка (Малюнок 1.16):
Розраховується легко, але має розривну першу похідну в точках NET =? , NET =? +? що ускладнює алгоритм навчання.
Вибір функції активації визначається:
а) Специфікою завдання.
б) Зручністю реалізації на ЕОМ, у вигляді електричної схеми або іншим способом.
в) Алгоритмом навчання: деякі алгоритми накладають обмеження на вид функції активації, їх потрібно враховувати.
Найчастіше вид нелінійності не робить принципового впливу на вирішення завдання. Однак вдалий вибір може скоротити час навчання в кілька разів.
Формальні нейрони можуть об'єднуватися в мережі різним чином. Найпоширенішим видом мережі став багатошаровий перcептрон
(Малюнок 1.18).
Мережа складається з довільної кількості шарів нейронів. Нейрони кожного шару з'єднуються з нейронами попереднього і наступного шарів за принципом кожен з кожним raquo ;. Перший шар (ліворуч) називається сенсорним або вхідним , внутрішні шари називаються прихованими або асоціативними , останній (самий правий, на малюнку 1.18 складається з одного нейрона) - вихідним або результативним . Кількість нейронів у шарах може бути довільним. Зазвичай у всіх прихованих шарах однакову кількість нейронів.
Позначимо кількість шарів і нейронів у шарі. Вхідний шар: N I нейронів; N H нейронів в кожному прихованому шарі; N O вихідних нейронів. х - вектор вхідних сигнали мережі, у - вектор вихідних сигналів.
Існує плутанина з підрахунком кількості шарів в мережі. Вхідний шар не виконує ніяких обчислень, а лише розподіляє вхідні сигнали, тому іноді його вважають, іноді - ні. Позначимо через N L повне кількість шарів в мережі, вважаючи вхідний. Робота багатошарового перcептрона (МСП) описується формулами:
де індексом i завжди будемо позначати номер входу, j - номер нейрона в шарі, l - номер шару.
X ijl - й вхідний сигнал j-го нейрона в шарі l;
W ijl - ваговий коефіцієнтом?? т i-го входу нейрона номер j в шарі l; jl - сигнал NET j-го нейрона в шарі l; jl - вихідний сигнал нейрона;
? jl - пороговий рівень нейрона j в шарі l;
Введемо позначення: W jl - вектор-стовпець ваг для всіх входів нейрона j в шарі l; W l - матриця ваг всіх нейронів в шарі l. У стовпцях матриці розташовані вектора W jl. Аналогічно X jl - вхідний вектор-стовпець шару l.
Кожен шар розраховує нелінійне перетворення від лінійної комбінації сигналів попереднього шару. Звідси видно, що лінійна функція активації може застосовується тільки для тих моделей мереж, де не потрібно послідовне з'єднання шарів нейронів один за одним. Для багатошарових мереж функція активації повинна бути нелінійної, інакше можна побудувати еквівалентну...