Реферат Концепції інформаційного пошуку

Тема: Отчеты по практике

pan> ) = 1.

Приклад. Нехай є колекція з трьох документів: 1 = [1,1,1] T2 = [1,0,0] T3 = [0,1,0] T

У колекції використовуються 3 терміна. Безлічі документів, відповідних термінам: t1 = {d1, d2}, Rt2 = {d1, d3}, Rt3 = {d1}

Тоді результатами запитів будуть: = t1

q = t1 AND t2

q = t1 OR t2 = NOT t1t1 = {d1, d2} t1? Rt2 = d1t1? Rt2 = {d1, d2, d3}

? Rt1 = d3 логічний запит може бути переписаний у діз'юнктівной нормальній формі. Наприклад:

q = ta? (Tb? В¬ tc) = qdnf = (ta? Tb? Tc)? (Ta? Tb? В¬ tc)? (Ta? В¬ tb? В¬ tc)

Кожна диз'юнкція являє собою ідеальний набір документів. Документ задовольняє запиту, якщо він міститься в термінах диз'юнкції:

qdnf = (ta? tb? tc)? (Ta? Tb? В¬ tc)? (Ta? В¬ tb? В¬ tc)

qdnf = (1,1,1)? (1,1,0)? (1,0,0)

SC (q, dj) =

Переваги булевої моделі:

В· Логічні вирази мають точну семантику.

В· Використовуються структуровані запити.

В· Для досвідчених користувачів вона інтуїтивна.

В· Простий і акуратний формалізм дозволяв прийняти її в багатьох ранніх комерційних бібліографічних системах.

Недоліки булевої моделі:

В· Чи не здійснюється ранжування. Стратегія пошуку заснована на двійковому критерії рішення, тобто документ передбачається або релевантним, або нерелевантних.

В· Не просто перевести інформаційне вимогу в логічне вираження.

Векторна модель

Векторна модель представляє документи та запити у вигляді векторів в просторі термінів. Значимість індексного терміна представлена вЂ‹вЂ‹речовим вагою. p align="justify"> w i, j ? 0 пов'язаний з парою (t i , d j )

Кожен документ представлений вектором в M-вимірному просторі, де M - це кількість індексних термінів

Кожен термін являє собою одиничний вектор

вказує напрямок i-ої осі. Безліч векторів t i , i = 1, ... M формують канонічний базис для евклідового простору M . Будь вектор документа d j може бути представлений його розкладанням з канонічного базису (див. рис.1):

В
В

Малюнок 1. Векторний простір, утворене трьома термінами. br/>

Документи, близькі один до одного у векторному просторі, схожі один на одного. Запит так само представляється у вигляді вектора:

Модель векторного простору обчислює схожість SC (q, d j ) між запитом і кожним документом і становить ранжований список документів . Вона бере до уваги документи, які відповідають умовам запиту лише частково. Ранжируваний набір знайдених документів більш ефективний (краще відповідає інформаційної потреби користувача), ніж набір документів, знайдених булевої моделлю. Існують різні заходи, які можуть бути використані для оцінки подібності документів.

Заходи подоби

Міра подібності між документами повинна відповідати наступним вимогам:

В· Якщо d 1 поруч з d 2 , то d 2 поруч з d 1 .

В· Якщо d 1 поруч з d 2 , а d 2 поруч з d 3 , то d 1 знаходиться недалеко від d 3 .

В· Не існує документів ближче до d, ніж сам d.

Приклади заходів подібності:

В· Евклидова дистанція.

В· косинусний подобу.

В· Скалярний твір.

В· Міра Жаккар.

В· Коефіцієнт Дайса.