ою (ti, dj)
Кожен документ представлений вектором в M-вимірному просторі, де M - це кількість індексних термінів
Кожен термін являє собою одиничний вектор
вказує напрямок i-ої осі. Безліч векторів ti, i = 1, ... M формують канонічний базис для евклідового простору M. Будь вектор документа dj може бути представлений його розкладанням з канонічного базису (див. рис.1):
В
Малюнок 1. Векторний простір, утворене трьома термінами. br/>
Документи, близькі один до одного у векторному просторі, схожі один на одного. Запит так само представляється у вигляді вектора:
Модель векторного простору обчислює схожість SC (q, dj) між запитом і кожним документом і становить ранжований список документів. Вона бере до уваги документи, які відповідають умовам запиту лише частково. Ранжируваний набір знайдених документів більш ефективний (краще відповідає інформаційної потреби користувача), ніж набір документів, знайдених булевої моделлю. Існують різні заходи, які можуть бути використані для оцінки подібності документів. br/>
.3 Заходи подоби
Міра подібності між документами повинна відповідати наступним вимогам:
В· Якщо d1 поруч з d2, то d2 поруч з d1.
В· Якщо d1 поруч з d2, а d2 поруч з d3, то d1 знаходиться недалеко від d3.
В· Не існує документів ближче до d, ніж сам d.
Приклади заходів подібності:
В· Евклидова дистанція.
В· косинусний подобу.
В· Скалярний твір.
В· Міра Жаккар.
В· Коефіцієнт Дайса.
В· Міра Шимкевіча-Сімпсона.
Евклидова дистанція - це довжина різницевого вектора:
Вона може бути перетворена в коефіцієнт подібності різними способами:
Потрібно також вирішити питання нормалізації, так як евклідова дистанція, застосована до ненормованим векторах, як правило, робить будь-який великий д...