Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Організація пошуку інформації

Реферат Організація пошуку інформації





іру подібності між запитом і документом. Загальна ідея: чим частіше терміни перебувають одночасно в документі і в запиті, тим більше релевантним вважається документ по відношенню до запиту. Стратегія пошуку - це алгоритм, який приймає запит q і набір документів d1, d2, ..., dN і визначає коефіцієнт подібності SC (q, dj) для кожного з документів 1? J? N. Класичні моделі ІП: булева, імовірнісна, векторна. p align="justify"> Кожен документ представляється набором ключових слів, званих індексними термінами. Індексні терміни використовуються для індексування та узагальнення вмісту документа. Різні індексні терміни відрізняються за релевантністю, коли використовуються для опису вмісту документа. Цей ефект відбивається в призначенні числових ваг кожному індексному терміну документа. p align="justify"> Нехай ti - індексний термін, dj - документ, а wi, j? 0 - вага, пов'язаний з парою (ti, dj). wi, j визначає якість індексного терміна для опису смислового змісту документа. Кожен документ пов'язаний з вектором індексних термінів:


, j = g (dj), де g - це функція, яка обчислює вага терміна ti в документі dj (wi, j = 0 означає термін ti, який не з'являється в dj) і M - це кількість індексних термінів.

Веса індексних термінів, як правило, передбачаються незалежними один від одного. Це означає, що знання про вагу wi, j, пов'язаному з парою (ti, dj), нічого не говорять нам про вагу wi +1, j пов'язаному з парою (ti +1, dj). Це є спрощенням, тому що входження індексних термінів у документі взаємопов'язані. Пізніші моделі ІП (LSI, pLSA, LDA) в явному вигляді звертаються до кореляції індексних термінів. br/>

2.1 Булева модель


Булева модель пошуку інформації - це проста пошукова модель, заснована на теорії множин і булевої алгебри. Значимість індексного терміна представлена ​​за допомогою двійкового ваги: ​​


пов'язаний з парою (ti, dj).


Rdj - з набором індексних термінів для документа. - з набором документів для індексного терміна.

Запити визначаються як логічні вирази над індексними термінами (використовуючи логічні операції AND, OR і NOT). Наприклад, Brutus AND Caesar, NOT Calpurnia. Релевантність визначається у вигляді довічного властивості документа:


SC (q, dj) = 0 або SC (q, dj) = 1.


Приклад. Нехай є колекція з трьох документів:


d1 = [1,1,1] T = [1,0,0] T = [0,1,0] T


У колекції використовуються 3 терміна. Безлічі документів, відповідних термінам:



Rt1 = {d1, d2}, Rt2 = {d1, d3}, Rt3 = {d1}


Тоді результатами запитів будуть:


В 

Кожний логічний запи...


Назад | сторінка 3 з 13 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Обробка текстової інформації. Концепція електронного документа
  • Реферат на тему: Словник юридичних термінів: системний підхід до перекладу правової інформац ...
  • Реферат на тему: Структура терміна в англійській мові
  • Реферат на тему: Пропаганда - витоки терміна і його сучасне значення
  • Реферат на тему: Склад та системна організація СУЧАСНИХ китайських технічних термінів