Реферат Сучасні пошукові системи

Тема: Новые рефераты

риродних мовах. Мультимедійні документи, такі як відео та аудіо і графіка також можуть брати участь у пошуку.

Автономні пошукові агенти машини використовують індекси інших пошукових сервісів і не зберігають локальний індекс, тоді як пошукові машини, засновані на кеш сторінках, довго зберігають як індекс, так і текстові корпуси. На відміну від повнотекстових індексів, частково-текстові сервіси обмежують глибину індексації, щоб зменшити розмір індексу. Великі сервіси, як правило, виконують індексацію в заданому тимчасово? м інтервалі через необхідного часу і витрат на обробку, в той час як пошукові машини, засновані на агентах, будують індекс у масштабі реального часу.

Архітектура пошукової системи розрізняється по способам індексування і за методами зберігання індексів, задовольняючи чинники. Індекси бувають наступних типів:

· Прямий індекс. Прямий індекс зберігає список слів для кожного документа.

Приклад прямого індексу

· Інвертований індекс. Сховище списку входжень кожного критерію пошуку, зазвичай у формі хеш-таблиць або бінарного дерева.

Приклад інвертованого індексу

· Індекс цитування. Сховище цитат або гіперпосилань між документами для підтримки аналізу цитування, предмет бібліометрія.

· N-грами . Сховище послідовностей довжин даних для підтримки інших типів пошуку або аналізу документів.

· Матриця термів документа. Використовується в латентно-семантичному аналізі (ЛСА), зберігає входження слів у документах в двовимірної розрідженій матриці.

Інвертований індекс заповнюється шляхом злиття або відновлення. Архітектура може бути спроектована так, щоб підтримувати інкрементного індексацію, де злиття визначає документ або документи, які будуть додані або оновлені, а потім аналізує кожен документ в слова. Для технічної точності, злиття об'єднує недавно індексовані документи, які зазвичай перебувають у віртуальній пам'яті, з індексним кешем, який знаходиться на одному або декількох жорстких дисках комп'ютера.

Після синтаксичного аналізу індексатор додає зазначений документ в список документів для відповідних слів. У більш великої пошукової системі процес знаходження кожного слова для інвертованого індексу може бути занадто трудомістким, тому його як правило поділяють на дві частини:

· Розробка прямого індексу,

· сортування прямого індексу в інвертований індекс.

Інвертований індекс називається так через те, що він є інверсією прямого індексу.

Для отримання даних для індексів використовується синтаксичний аналіз документів. Синтаксичний аналіз (або парсинг) документа передбачає розбір документа на компоненти (слова) для вставки в прямій і інвертований індекси. Знайдені слова називають токенами (анг. tokens), і в контексті індексації пошукових систем та обробки природної мови парсинг часто називають токенізаціей (тобто розбиттям на токени). Синтаксичний аналіз іноді називають частеречной розміткою (анг. tagging), морфологічним аналізом, контент-аналізом, текстовим аналізо...

Назад | сторінка 8 з 21 | Наступна сторінка

Схожі реферати:

Реферат на тему: Індекс споживчих цін

Реферат на тему: Індекс БігМака

Реферат на тему: Індекс людського розвітку

Реферат на тему: Індекс розвитку людського потенціалу

Реферат на тему: Індекс &Е& та забезпечення безпеки харчових продуктів

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0