n="justify"> В· Міра Шимкевіча-Сімпсона.
Евклидова дистанція - це довжина різницевого вектора:
В
Вона може бути перетворена в коефіцієнт подібності різними способами:
В В
Потрібно також вирішити питання нормалізації, так як евклідова дистанція, застосована до ненормованим векторах, як правило, робить будь-який великий документ нерелевантним для більшості запитів, оскільки запити зазвичай мають коротку довжину.
Довгі документи будуть схожі один на одного через довжини, а не через теми.
косинусний подобу - це косинус кута між двома векторами. Воно показує схожість, а не дистанцію (див. рис.1). Для косинусного подоби не виконується нерівність трикутника. br/>В
косинусний міра нормалізує результати з урахуванням довжини вектора документа. Для двох векторів схожість визначається їх напрямками. Для нормалізованих векторів косинусное подобу одно їх скалярному твору. p align="justify"> Заходи подібності визначаються для двох довільних множин A і B:
Міра Жаккар:
Коефіцієнт Дайса:
Міра Шимкевіча-Сімпсона:
Вони можуть бути розширені для недвійковий векторів.
Розширена міра Жаккар.
В
Визначення ваги індексних термінів
Нам потрібно розглянути два питання. По-перше, при двійковому призначення ваги схожі терміни розглядаються по-різному. По-друге, нормалізація може бути недостатньою для компенсації різниці в довжинах документів. p align="justify"> Більш довгий документ має більше можливостей утримувати релевантні до запиту компоненти.
Тому вага індексних термінів повинен бути пропорційний одночасно їх важливості у документі і у всій колекції документів.
Вага w i, j може бути розрахований за такою формулою:
В
- частота терміна t i в документі d span> j . Забезпечує міру того, як добре термін описує вміст документа.
- зворотна частота документа для терміна t i . Терміни, що з'являються в багатьох документах, які не дуже корисні для відмінності релевантних від нерелевантних документів.
Вага терміна збільшується із зростанням кількості його входжень в документ і з рідкістю появи терміна у всій колекції.
Частота терміна в документі:
В
Іноді, щоб запобігти зсуву в бік більш довгих документів, розраховується як:
В
Або просто:
В
Зворотний частота для терміна:
В
де N - кількість документів у колекції, n i - кількість документів, що містять t i .
Було проведено безліч поліпшень в схемі tf-idf. Наступна формула була визначена в якості гарною реалізації:
В
Переваги векторної моделі:
В· Схема, визначальна ваги термінів, підвищує продуктивність пошуку по відношенню до булевої моделі.
В· Стратегія часткового відповідності дозволяє знаходити документи, частково задовольняють умовам запиту.
В· Ранжірованние результати пошуку та контроль їх величини.
В· Гнучкість і інтуїтивна геометрична інтерпретація.
Недоліки векторної моделі:
В· Припущення про незалежність між термінами.
В· Неможливість використання структурованих запитів (немає операторів OR, AND, NOT).
В· Терміни є осями (навіть з використанням стеммінга може вийти більш 20000 вимірів).
Дослідження методів оцінки якості пошуку
Головною мірою якості пошуку є щастя користувача. Воно залежить від багатьох факторів:
В· Доцільності результатів.
В· Дизайну макета інтерфей...