вихідних даних для кожної конкретної оцінки. Ми можемо, наприклад, бути набагато більш впевненими у значенні повноти 15/17, ніж 0/1 . Крім того, аналіз не грунтується на численних значних показників (будь то коефіцієнт повноти або коефіцієнт точності) для одиночних пошуків. Аналіз заснований на групуванні і усередненні чисельних значень характеристик для ряду пошуків, що мають деякі загальні ознаки (наприклад, що відносяться до однієї і тієї ж широкої предметної області). Достовірність середнього значення характеристики, отриманого за результатами декількох індивідуальних оцінок повноти, очевидно, набагато більше достовірності самих оцінок.
Визначивши значення характеристики, що відповідають окремим експериментальним пошукам, і усереднивши їх, ми можемо знайти її загальне середнє значення для системи. Припустимо в якості гіпотетичного прикладу, що за результатами 200 пошуків коефіцієнти повноти і точності системи виявилися рівними відповідно 72 і 23%.
У певному сенсі коефіцієнт повноти, обчислений з урахуванням лише документів, що «мають основну цінність», розглянутий спільно із загальним коефіцієнтом точності, є більш надійним показником якості функціонування системи, ніж загальний коефіцієнт повноти. У загальному випадку під документом, певним споживачем як «що мають основну цінність», ймовірно, розуміється документ, якого споживач не хотів би позбутися при пошуку. Тоді як «менш цінним» документом буде вважатися такою, який споживач: охоче отримав би у разі його відшукання, але без якоговін цілком може обійтися. Для тієї ж групи з 200 експериментальних пошуків ми могли б сказати, що система відшукує 81% документів, що мають основну цінність, при коефіцієнті точності 23%.
Необхідно пам'ятати, що середні значення можуть мати оманливий характер. Зазвичай є широкий розкид результатів експериментальних пошуків. Наприклад, по недавньої оцінці системи MEDLARS середні значення повноти і точності пошуку дорівнювали 58 і 50% відповідно.
Аналіз невдач при пошуку
Після обчислення та реєстрації чисельних значень пошукової характеристики, відповідних експериментальної серії запитів, наступним кроком є ??детальний смисловий аналіз причин втрат і шумів при пошуку. Розглянемо гіпотетичний пошук, в якому система видає 6 і втрачає 4 з 10 «відомих як релевантні» документів (тобто коефіцієнт повноти дорівнює 60%). Споживач оцінює випадкову вибірку, що включає 25 документів, визначаючи 10 з них як мають цінність і 15 - як нерелевантних (тобто коефіцієнт точності дорівнює 40%). Тоді для даного пошуку необхідно досліджувати 4 випадки невидачі релевантних документів і 15 випадків видачі нерелевантних документів. При цьому слід підкреслити, що вказані значення втрат (помилок по повноті) і шумів (помилок по точності) не є в дійсності єдиними в процесі пошуку. Це лише ті помилки, про які ми знаємо і які ми використовуємо для уявлення загальної величини шумів і втрат (тобто вони симптоматичні для проблем, що зустрічаються при пошуку).
«Ретроспективний» аналіз пошукових невдач - найбільш спірне аспект програми оцінки. Для кожного випадку «невдачі» він включає дослідження наступних елементів:
1. повного тексту самого документа;
2. пошукового образу цього документа (тобто приписаних документу термінів мови індек...