в, що дозволяють отримувати з'єднання з базою даних за спеціально описаному URL. Драйвери можуть завантажуватися динамічно (під час роботи програми). Завантажившись, драйвер сам реєструє себе і викликається автоматично, коли програма вимагає URL, що містить протокол, за який драйвер відповідає.
Використані терміни та угоди:
· Точність пошуку - оцінка умовної ймовірності того, що виданий системою документ дійсно релевантний запитом [12];
· Повнота пошуку - оцінка умовної ймовірності того, що релевантний запитом документ буде виданий системою користувачеві [12];
· Документ (в рамках даної роботи) - сукупність термів;
· Пошуковий запит - набір термінів і керуючих символів, що вводяться користувачем з метою пошуку інформації;
· Кластер - сукупність елементів конкретного набору даних, близьких відносно введеної для кластеризації метрики;
· Епоха навчання - один прохід алгоритму навчання через навчальну вибірку.
2. Вимоги до розроблюваної системі пошуку
Пошукова система є окремим випадком системи обробки даних, і повинна відповідати таким вимогам:
· Оптимальна ефективність обчислень і ефективність використання ресурсів системи;
· Найкраще відповідність результатів пошуку пошуковому запиту користувача: збільшення точності і повноти пошуку;
· Функціональна повнота системи;
· Розробка архітектурних рішень, які гарантують автономність, стійкість, точність і безпомилковість роботи системи;
· Інформаційна безпека рішень системи;
· Розширюваність і масштабованість системи.
3. Методи вирішення поставлених завдань
3.1 Векторна модель тексту
Наприкінці 80-х років була запропонована векторна модель як альтернатива лексичному Бесконтекстние індексуванню. У найпростішому випадку векторна модель передбачає зіставлення кожному документу частотного спектра слів і відповідно вектора в лексичному просторі. У процесі пошуку частотний портрет запиту розглядається як вектор в тому ж просторі і за ступенем близькості (віддалі або кутку між векторами) визначаються найбільш релевантні документи. У більш просунутих векторних моделях розмірність простору скорочується відкиданням найбільш поширених або рідко зустрічаються слів, збільшуючи тим самим відсоток значущості основних слів. Головним достоїнством векторної моделі є можливість пошуку і ранжирування документів за подобою, тобто по їх близькості у векторному просторі. Однак практика показує, що при оцінці близькості запиту до документа результати пошуку можуть бути не завжди задовільними, що особливо проявляється, коли запит містить малу кількість слів. Для одержання кращої релевантності відгуку в 1990 році була запропонована модель прихованого семантичного індексування? Latent Semantic Indexing (LSI) [8]. Модель використовувала Singular Value Decomposition (SVD) для переходу від розрідженій матриці слів до компактної матриці головних власних значень. LSI показала значну перевагу в результатах пошуку в порівнянні з лексичним методом, проте складність моделі часто приводила до істотного програшу в швидкості на великих колекціях документів у порівнянні з традиційною булевої технікою. Одна з найбільш працездатних систем на основі LSI була створена в Берклі в 1995 році Майклом Беррі і Тодом Летч [8].
3.2 Метод побудови векторної моделі
При побудові векторної моделі тексту використовується статистична характеристика TF-IDF, структура формули якій представлена ??нижче:
· TF (term frequency - частота слова) - відношення числа входження деякого слова до загальної кількості слів документа. Таким чином, оцінюється важливість слова в межах окремого документа:
де є число входжень слова в документ, а в знаменнику - загальне число слів у даному документі.
· IDF (inverse document frequency - зворотна частота документа) - інверсія частоти, з якою деяке слово зустрічається в документах колекції. Облік IDF зменшує вагу широковживаних слів. Для кожного унікального слова в межах конкретної колекції документів існує тільки одне значення IDF:
де
· - кількість документів в корпусі;
· - кількість документів, в яких зустрічається (коли).
Вибір підстави логарифма у формулі не має значення, оскільки зміна підстави призводить до зміни ваги кожного слова на ...