Зміст
Введення
Дослідження основних концепцій інформаційного пошуку
Дослідження моделей пошуку інформації
Булева модель
Векторна модель
Заходи подоби
Визначення ваги індексних термінів
Дослідження методів оцінки якості пошуку
Оцінка неранжірованних наборів результату пошуку
Реалізація векторної моделі в середовищі Matlab
Функція розрахунку евклідової заходи
Функція розрахунку косинусної заходи
Розрахунок ранжируваних списків документів
Реалізація оцінок якості пошуку в середовищі Matlab
Розрахунок точності, повноти і F-міри в залежності від числа знайдених документів
Лістинг програми
Розрахунок інтерпольованої середньої точності, ROC-кривої та залежності точності від повноти
Функція для розрахунку значень кривої точності в заданих точках
Лістинг програми
Розрахунок середнього значення середньої точності
Лістинг програми
Висновки
Список використаної літератури
Введення
Цілі проходження виробничої практики:
-вивчення основних концепцій інформаційного пошуку;
розгляд базових моделей пошуку інформації;
розгляд методів оцінки якості пошуку інформації;
придбання практичних навичок з реалізації вивчених моделей і методів у середовищі Matlab.
Дослідження основних концепцій інформаційного пошуку
Інформаційний пошук займається представленням, зберіганням, організацією та забезпеченням доступу до інформаційних об'єктів. Представлення і організація інформації повинні надавати користувачеві зручний доступ до цікавить його інформацією. Основною метою системи ІП є отримання інформації, яка може бути корисна і релевантна для користувача, з використанням його запиту. Основний акцент робиться на тому, що пошук інформації - це не пошук даних. p align="justify"> Пошук даних - це вилучення всіх об'єктів, які задовольняють чітко визначеним умовам, вираженим через мову запитів. Дані мають строго певну структуру і семантику. Використовуються формальні мови запитів (наприклад, регулярні вирази). Результати зобов'язані бути точними, помилки не допускаються. Немає ранжирування по відношенню до інформаційної потреби користувача. p align="justify"> Пошук інформації - це знаходження матеріалів (зазвичай документів) неструктурованою природи (зазвичай текст), які задовольняють інформаційної потреби, використовуючи великі колекції (зазвичай зберігаються на багатьох комп'ютерах). Запити зазвичай не структуровані (запити на основі ключових слів, контексту, фраз, запити на природній мові). Помилки в отриманих результатах допустимі. Концепція релевантністю по відношенню до потреб користувача займає центральне місце:
В· Здійснюється ранжування за релевантністю.
В· Не ясна В«ступінь релевантностіВ», якою задоволений користувач. Для системи може бути невідомо що є для користувача більш важливим - точність або повнота.
В· Ранжування дозволяє користувачеві починати з початку рангового списку і досліджувати його, поки він не задовольнить свої потреби.
Модель пошуку інформації може бути визначена як:
В
де-набір логічних уявлень для документів в колекції.
Q - набір логічних уявлень для потреб користувача (запитів).
- функція ранжирування, що зв'язує дійсне число з поданням документа d j для запиту q i . Такий рейтинг визначає порядок документів стосовно запиту q i .
Релевантність:
В· Суб'єктивна: два користувачі можуть мати одні й ті ж інформаційні потреби, але по-різному оцінювати одні й ті ж знайдені документи.
В· динамічного у просторі та часі. Знайдені і відображені користувачеві документи можуть вплинути на його оцінку документів, які будуть показані пізніше. Залежно від свого стану кор...