Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Отчеты по практике » Концепції інформаційного пошуку

Реферат Концепції інформаційного пошуку





истувач може по-різному оцінювати один і той же документ для одного і того ж запиту.

В· Багатогранна: релевантність документа визначається не тільки темою, а й авторитетністю, специфічністю, повнотою, новизною, ясністю і т.п.

В· Невідома системі до оцінки користувача. Система вгадує релевантність документів стосовно даного запиту за допомогою розрахунку , яка залежить від прийнятої IRM (наприклад, булева, імовірнісна, векторна).


Дослідження моделей пошуку інформації


Моделі пошуку призначають міру подібності між запитом і документом. Загальна ідея: чим частіше терміни перебувають одночасно в документі і в запиті, тим більше релевантним вважається документ по відношенню до запиту. Стратегія пошуку - це алгоритм, який приймає запит q і набір документів d 1 , d 2 , ..., d N і визначає коефіцієнт подібності SC (q, d j ) для кожного з документів 1? j? N. Класичні моделі ІП: булева, імовірнісна, векторна.

Кожен документ представляється набором ключових слів, званих індексними термінами. Індексні терміни використовуються для індексування та узагальнення вмісту документа. Різні індексні терміни відрізняються за релевантністю, коли використовуються для опису вмісту документа. Цей ефект відбивається в призначенні числових ваг кожному індексному терміну документа. p align="justify"> Нехай t i - індексний термін, d j - документ, а w i, j ? 0 - вага, пов'язаний з парою (t i , d j ). w i, j визначає якість індексного терміна для опису смислового змісту документа. Кожен документ пов'язаний з вектором індексних термінів:


В 

w i, j = g (d j ), де g - це функція, яка обчислює вага терміна t i в документі d j (w i, j = 0 означає термін t i , який не з'являється в d j ) і M - це кількість індексних термінів.

Веса індексних термінів, як правило, передбачаються незалежними один від одного. Це означає, що знання про вагу w i, j , пов'язаному з парою (t i , d j ), нічого не говорять нам про вагу w i +1, j пов'язаному з парою (t i +1 , d j ). Це є спрощенням, тому що входження індексних термінів у документі взаємопов'язані. Пізніші моделі ІП (LSI, pLSA, LDA) в явному вигляді звертаються до кореляції індексних термінів.


Булева модель


Булева модель пошуку інформації - це проста пошукова модель, заснована на теорії множин і булевої алгебри. Значимість індексного терміна представлена ​​за допомогою двійкового ваги: ​​

пов'язаний з парою (t i , d j ). dj - з набором індексних термінів для документа. ti - з набором документів для індексного терміна.

Запити визначаються як логічні вирази над індексними термінами (використовуючи логічні операції AND, OR і NOT). Наприклад, Brutus AND Caesar, NOT Calpurnia. Релевантність визначається у вигляді довічного властивості документа:

(q, d j ) = 0 або SC (q, d j


Назад | сторінка 2 з 8 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Обробка текстової інформації. Концепція електронного документа
  • Реферат на тему: Поняття: документ, управлінський документ
  • Реферат на тему: Матеріальна ськладової документа
  • Реферат на тему: Юридична Чинність документа
  • Реферат на тему: Матеріальні носії документа