окумент нерелевантним для більшості запитів, оскільки запити зазвичай мають коротку довжину. Довгі документи будуть схожі один на одного через довжини, а не через теми. Косинусное подобу - це косинус кута між двома векторами. Воно показує схожість, а не дистанцію. Для косинусного подоби не виконується нерівність трикутника. br/>
косинусний міра нормалізує результати з урахуванням довжини вектора документа. Для двох векторів схожість визначається їх напрямками. Для нормалізованих векторів косинусное подобу одно їх скалярному твору. p align="justify"> Заходи подібності визначаються для двох довільних множин A і B:
Міра Жаккар:
Коефіцієнт Дайса:
Міра Шимкевіча-Сімпсона:
Вони можуть бути розширені для недвійковий векторів.
Розширена міра Жаккар.
.4 Визначення ваги індексних термінів
Нам потрібно розглянути два питання. По-перше, при двійковому призначення ваги схожі терміни розглядаються по-різному. По-друге, нормалізація може бути недостатньою для компенсації різниці в довжинах документів. Більш довгий документ має більше можливостей утримувати релевантні до запиту компоненти. Тому вага індексних термінів повинен бути пропорційний одночасно їх важливості у документі і у всій колекції документів. p align="justify"> Вага wi, j може бути розрахований за такою формулою:
- частота терміна ti в документі dj. Забезпечує міру того, як добре термін описує вміст документа.
- зворотна частота документа для терміна ti. Терміни, що з'являються в багатьох документах, які не дуже корисні для відмінності релевантних від нерелевантних документів.
Вага терміна збільшується із зростанням кількості його входжень в документ і з рідкістю появи терміна у всій колекції.
Частота терміна в документі:
Іноді, щоб запобігти зсуву в бік більш довгих документів, розраховується як:
Або просто:
Зворотний частота для терміна:
де N - кількість документів у колекції, ni - кількість документів, що містять ti.
Було проведено безліч поліпшень в схемі tf-idf. Наступна формула була визначена...