МІНІСТЕРСТВО ОСВІТИ І НАУКИ РОСІЙСЬКОЇ ФЕДЕРАЦІЇ
Федеральне державне бюджетне освітня установа вищої професійної освіти
«Кубанського державного університету»
Кафедра інформаційних технологій
Курсова робота
Розробка та реалізація нейросетевого пошуку в рамках проекту «AIST»
Роботу виконав студент 4 курсу ФКТіПМ
спец. 010501 «Прикладна математика та інформатика»
Б.І. Трофимов
Науковий керівник,
А.В. Харченко
Краснодар 2013
ЗМІСТ
Введення
. Огляд використаних технологій
. Вимоги до розроблюваної системі пошуку
. Методи вирішення поставлених завдань
.1 Векторна модель тексту
.2 Метод побудови векторної моделі
.3 Нейронні мережі
.3.1 Кластерний аналіз
.3.2 Нейронна мережа Кохонена
.3.3 Алгоритм розширяльного нейронного газу
. Застосування ІНС Кохонена до векторної моделі тексту. Модифікація алгоритму розширюється нейронного газу
. Гідності нейросетевого підходу
. Опис роботи механізму пошуку
. Структура системи
.1 Пакет main.engine
.2 Пакет main.trainer
.3 Пакет main.search
.4 Пакет main.test
. Налаштування параметрів пошукового механізму. Статистичний аналіз побудованої мережі
Висновок
Список використаних джерел
пошуковий механізм алгоритм нейронна мережа
Введення
Широке застосування засобів обчислювальної техніки в різних галузях знань супроводжується швидким зростанням обсягів оброблюваних масивів повнотекстових документів і вимагає розробки нових підходів і засобів організації доступу до інформації. Основним завданням, що виникає при роботі з повнотекстовими базами даних, є завдання пошуку документів за їх змістом. Існуючі методи пошуку, реалізовані, наприклад, пошуковими машинами в Інтернеті, часто не забезпечують адекватного вибору інформації за запитом користувача. Можливим напрямом вирішення даної проблеми є використання нейромережевого підходу при індексації документів.
У цій роботі розглянуті такі технології як Java, JDBC, JSON, SQL, RegExp. Методики та алгоритми: кластеризація даних, нейронна мережа Кохонена, алгоритм розширюваного нейронного газу, векторна модель тексту, TF-IDF, повнотекстовий пошук, засоби статистичного аналізу нейронної мережі Кохонена.
Розроблено пошуковий механізм, який реалізує пошук в повнотекстової бази даних засобами нейронних мереж Кохонена із застосуванням модифікованого алгоритму розширюється нейронного газу.
1. Огляд використаних технологій
· JSON (JavaScript Object Notation) - текстовий формат обміну даними, заснований на JavaScript і зазвичай використовуваний саме з цією мовою. Як і багато інших текстові формати, JSON легко читається людьми.
За рахунок своєї лаконічності в порівнянні з XML, формат JSON може бути більш підходящим для серіалізациі складних структур. Якщо говорити про веб-додатках, в такому ключі він доречний в задачах обміну даними як між браузером і сервером (AJAX), так і між самими серверами (програмні HTTP-інтерфейси). Формат JSON також добре підходить для зберігання складних динамічних структур в реляційних базах даних або файловому кеші.
Оскільки формат JSON є підмножиною синтаксису мови JavaScript, то він може бути швидко десеріалізован вбудованою функцією eval (). Крім того, можлива вставка цілком працездатних JavaScript-функцій.
· SQL (англ. Structured Query Language) - універсальний комп'ютерний мову, застосовуваний для створення, модифікації та управління даними в реляційних базах даних. SQL грунтується на обчисленні кортежів.
· RegExp (англ. Regular Expressions) Регулярні вирази - це формальна мова пошуку та здійснення маніпуляцій з підрядками в тексті, заснований на використанні метасимволов (символів-джокерів, англ. wildcard characters). По суті це рядок-зразок (англ. Pattern, по-російськи її часто називають «шаблоном», «маскою»), що складається з символів і метасимволов і задающая правило пошуку [7].
· JDBC (англ. Java DataBase Connectivity - з'єднання з базами даних на Java) - переносних незалежний промисловий стандарт взаємодії Java-додатків з різними СУБД, реалізований у вигляді пакету java.sql, що входить до складу Java SE [7]. JDBC заснований на концепції так званих драйвері...