д [5,6], наводяться схеми, які відрізняються один від одного тільки способом застосування конкретних програмних рішень, а не принципом організації різних компонентів системи. Тому розглянемо цю схему на прикладі, взятому з роботи [6] (рис. 1).
В
Малюнок 1. Типова схема інформаційно-пошукової системи.
В
Client (клієнт) на цій схемі - це програма перегляду конкретного інформаційного ресурсу. Найбільш популярні сьогодні мультипротокольні програми типу Netscape Navigator. Така програма забезпечує перегляд документів WWW, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.
User interface (Користувальницький інтерфейс) - це не просто програма перегляду, у разі інформаційно-пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом: системою формування запитів і переглядів результатів пошуку.
Search engine (Пошукова машина) - служить для трансляції запиту на інформаційно-пошуковому мовою (ІПМ), в формальний запит системи, пошуку посилань на інформаційні ресурси Мережі та видачі результатів цього пошуку користувачеві.
Index database (індекс бази даних) - індекс, який є основним масивом даних ІПС і служить для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б оцінити цінність кожного із знайдених інформаційних ресурсів мережі.
Queries (запити користувача) - зберігаються в його (користувача) особистій базі даних. На налагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає хороші відповіді.
Index robot (Робот-індексіровщік) - Служить для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стані інформаційних ресурсів мережі.
WWW sites - це весь Internet або точніше - інформаційні ресурси, перегляд яких забезпечується програмами перегляду.
Розглянемо тепер призначення і принципу побудови кожного з цих компонентів більш докладно і визначимо, у чому відмінність даної системи від традиційної ІПС локального типу.
Інформаційні ресурси та їх подання до ІПС
Як видно з рис. 1, документальним масивом ІПС Internet є всі безліч документів шести основних типів: WWW-сторінки, Gopher-файли, документи Wais, записи архівів FTP, новини Usenet і статті поштових списків розсилки. Все це досить різнорідна інформація, яка представлена ​​у вигляді різних, ніяк неузгоджених один з іншому форматів даних: тексти, графічна і аудіоінформація і взагалі все, що мається на зазначених сховищах. Природно виникає питання - як інформаційно-пошукова система повинна з усім цим працювати?
У традиційних системах використовується поняття пошукового образу документа - ПІД. Зазвичай, цим терміном позначають щось, що заміняє собою документ і використовується при пошуку замість реального документа. Пошуковий образ є результатом застосування деякої моделі інформаційного масиву документів до реального масиву. Найбільш популярною моделлю є векторна модель [7], в якій кожному документу приписується список термінів, найбільш адекватно відображають його зміст. Якщо бути більш точним, то документом приписується вектор розмірності, рівний числу термінів, якими можна скористатися при пошуку. При булевої векторної моделі елемент вектора дорівнює 1 або 0, залежно від наявності або відсутності терміна в ПОД. У складніших моделях терміни зважуються - елемент вектора рівний не 1 або 0, а деякому числу (вазі), що відбиває відповідність даного терміна документу. Саме остання модель стала найбільш популярною в ІПС Internet [4,6,7]. p> Взагалі кажучи, існують та інші моделі опису документів: імовірнісна модель інформаційних потоків і пошуку і модель пошуку в нечітких множинах [7]. Не вдаючись у подробиці, має сенс звернути увагу на те, що поки тільки лінійна модель застосовується в системах Lycos, WebCrawler, AltaVista, OpenText і AliWeb. Однак ведуться дослідження по застосуванню і інших моделей, результати яких відображені в роботах [4, 6]. Таким чином, перше завдання, яке має вирішити ІПС, - це приписування списку ключових слів документом або інформаційного ресурсу. Саме ця процедура і називається індексуванням. Часто, однак, індексуванням називають складання файлу інвертованого списку, в якому кожного терміну індексування ставиться у відповідність список документів у яких він зустрічається. Така процедура є тільки окремим випадком, а точніше, технічним аспектом створення пошукового апарату ІПС. Проблема, пов'язана з індексуванням, полягає в тому, що приписування пошукового способу документом або інформаційного ресурсу спирається на уявлення про ...