м, аналізом тексту, генерацією узгодження, сегментацією мови, лексичним аналізом. Терміни «індексація», «парсинг» і «токенізація» взаємозамінні в корпоративному сленгу.
Обробка природної мови є предметом постійних досліджень і технологічних поліпшень. Токенізація має проблеми з витяганням необхідної інформації з документів для індексації, щоб підтримувати якісний пошук. Токенізація для індексації включає в себе кілька технологій, реалізація яких може є комерційною таємницею.
3.4 Особливості пошуку текстової інформації
Так чи інакше, пошук інформації зводиться до пошуку необхідного в базі проіндексованих документів (найчастіше маються на увазі HTML документи).
Розглянемо алгоритми пошукових систем як способи пошуку інформації в зібраній пошукачами базі html-документів, такі як прямий пошук і алгоритм зворотних індексів.
Метод простого перебору всіх html-сторінок містяться в базах даних пошукових систем називається алгоритмом прямого пошуку, але навіть при тому, що цей метод дозволяє, точно знайти потрібну інформацію, не пропустивши нічого важливого, він абсолютно не підходить для роботи з великими обсягами даних через тривалість обробки. І тому більш результативним методом пошуку, є алгоритм зворотних індексів, на якому заснований повнотекстовий пошук. Саме цей алгоритм використовується всіма великими пошуковими системами в світі. Прямі індекси, що містять оригінальний текст документів, пошуковики теж зберігають, але тільки для складання сніпетів.
При використанні алгоритму зворотних індексів, пошукові системи перетворюють html-документи в текстові файли, які містять повний список наявних в документі слів. Ці слова розташовуються в алфавітному порядку, а поряд з ними вказані координати місць, де вони зустрічаються. Крім цього для кожного слова наводяться ще деякі параметри (які є секретною інформацією), що визначають його значення в документі. На прикладі це виглядає як список слів використовуються в книзі, із зазначенням номерів сторінок, де ці слова зустрічаються. При введенні запиту пошукові системи видають інформацію не відразу з мережі, а з власних баз даних на основі зворотних індексів. [12]
Так само останнім часом пошукові системи освоюють штучний інтелект, спрямований на розвиток методів побудови алгоритмів на основі машинного навчання, які тісно пов'язані з витяганням інформації та інтелектуальним аналізом даних. У 2009 році Яндекс запровадив новий метод машинного навчання Матрикснет, який враховує дуже багато чинників ранжирування і при цьому не збільшує кількість оцінок асессоров. [13]
При введенні одного і того ж пошукового запиту в різних пошукових системах результати видачі відрізнятимуться, тому що кожна пошукова система використовує свої алгоритми ранжирування.
Деякі пошукові системи, що займаються пошуком саме текстової інформації будуються на основі графових баз даних, тобто структурами для зберігання індексів є графи (або частіше гіперграфах). Це обгрунтовано тим, що такі структури набагато наочніше відображають всі можливі зв'язки, а визначення компонуються в області, що дозволяє вести пошук не тільки за точним відповідностям, а й по суміжних визначень.
Приклад гіперграфа