риродних мовах. Мультимедійні документи, такі як відео та аудіо і графіка також можуть брати участь у пошуку.
Автономні пошукові агенти машини використовують індекси інших пошукових сервісів і не зберігають локальний індекс, тоді як пошукові машини, засновані на кеш сторінках, довго зберігають як індекс, так і текстові корпуси. На відміну від повнотекстових індексів, частково-текстові сервіси обмежують глибину індексації, щоб зменшити розмір індексу. Великі сервіси, як правило, виконують індексацію в заданому тимчасово? м інтервалі через необхідного часу і витрат на обробку, в той час як пошукові машини, засновані на агентах, будують індекс у масштабі реального часу.
Архітектура пошукової системи розрізняється по способам індексування і за методами зберігання індексів, задовольняючи чинники. Індекси бувають наступних типів:
· Прямий індекс. Прямий індекс зберігає список слів для кожного документа.
Приклад прямого індексу
· Інвертований індекс. Сховище списку входжень кожного критерію пошуку, зазвичай у формі хеш-таблиць або бінарного дерева.
Приклад інвертованого індексу
· Індекс цитування. Сховище цитат або гіперпосилань між документами для підтримки аналізу цитування, предмет бібліометрія.
· N-грами . Сховище послідовностей довжин даних для підтримки інших типів пошуку або аналізу документів.
· Матриця термів документа. Використовується в латентно-семантичному аналізі (ЛСА), зберігає входження слів у документах в двовимірної розрідженій матриці.
Інвертований індекс заповнюється шляхом злиття або відновлення. Архітектура може бути спроектована так, щоб підтримувати інкрементного індексацію, де злиття визначає документ або документи, які будуть додані або оновлені, а потім аналізує кожен документ в слова. Для технічної точності, злиття об'єднує недавно індексовані документи, які зазвичай перебувають у віртуальній пам'яті, з індексним кешем, який знаходиться на одному або декількох жорстких дисках комп'ютера.
Після синтаксичного аналізу індексатор додає зазначений документ в список документів для відповідних слів. У більш великої пошукової системі процес знаходження кожного слова для інвертованого індексу може бути занадто трудомістким, тому його як правило поділяють на дві частини:
· Розробка прямого індексу,
· сортування прямого індексу в інвертований індекс.
Інвертований індекс називається так через те, що він є інверсією прямого індексу.
Для отримання даних для індексів використовується синтаксичний аналіз документів. Синтаксичний аналіз (або парсинг) документа передбачає розбір документа на компоненти (слова) для вставки в прямій і інвертований індекси. Знайдені слова називають токенами (анг. tokens), і в контексті індексації пошукових систем та обробки природної мови парсинг часто називають токенізаціей (тобто розбиттям на токени). Синтаксичний аналіз іноді називають частеречной розміткою (анг. tagging), морфологічним аналізом, контент-аналізом, текстовим аналізо...