ра сучасних інформаційно-пошукових систем WWW
Розглянемо типову схему такої системи. У різних публікаціях, присвячених конкретним системам, наводяться схеми, які відрізняються один від одного тільки застосуванням конкретних програмних рішень, але не принципом організації різних компонентів системи. Тому розглянемо цю схему на представленому прикладі:
Рис.1 Структура ІПС для Internet
На цій схемі позначені:
client - це програма перегляду конкретного інформаційного ресурсу. В даний час найбільш популярні мультипротокольні програми типу Netscape Navigator. Така програма забезпечує перегляд документів World Wide Web, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.
user interface - інтерфейс користувача - це не просто програма перегляду. У разі інформаційно-пошукової системи під цим словосполученням розуміють і спосіб спілкування користувача з пошуковим апаратом системи, тобто з системою формування запитів і переглядів результатів пошуку. Перегляд результатів пошуку та інформаційних ресурсів мережі - це зовсім різні речі, на яких зупинимося трохи пізніше.
search engine - пошукова машина служить для трансляції запиту користувача, який готується на інформаційно-пошуковому мовою (ИПЯ), у формальний запит з?? стеми, пошуку посилань на інформаційні ресурси Мережі і видачі результатів цього пошуку користувачеві.
index database - індекс - це основний масив даних інформаційно-пошукової системи. Він служить для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б оцінити цінність кожного із знайдених інформаційних ресурсів мережі.
queries - запити користувача зберігаються в його особистій базі даних. На налагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо зберігати запити, на які система дає хороші відповіді.
index robot - робот-індексіровщік служить для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стан інформаційних ресурсів мережі.
www sites - це весь Internet. А якщо говорити більш точно, то це ті інформаційні ресурси, перегляд яких забезпечується програмами перегляду.
2.2 Принцип роботи пошукових систем
Пошукова система - веб-сайт, що надає можливість пошуку інформації в Інтернеті. Більшість пошукових систем шукають інформацію на сайтах Всесвітньої павутини, але існують також системи, здатні шукати файли на серверах, товари в інтернет-магазинах, а також інформацію в групах новин.
У більшості випадків інформаційна потреба виникає після вивчення будь-якої нової інформації, отриманої користувачем.
Засновники та розробники перших пошукових систем скористалися методом пошуку книг в бібліотеках. Вони створили тематичні каталоги, в категоріях яких і розташовувалися потрібні сайти. Людина заходила в каталог, вибирав потрібну рубрику і отримував кілька сайтів за тематикою, до неї відносяться. По початку, коли сайтів було не багато, все було чудово, а потім стало все складніше і складніше відшукати потрібний ресурс. Рубрик ставало все більше і більше, вкладеність категорій все росла і росла. На кінець кінців доводилося проробляти шлях в безліч підкатегорій, а якщо в якоїсь категорії «згорнути» не туди, то можна було просто нічого не знайти.
Потім поступово всі пошукові системи почали переходити на «пошукові покажчики». На відміну від каталогів, пошукові покажчики формують зв'язки «Запит - відповідь», і до «відповідям» могли приписуватися кілька різних ресурсів. Але згодом з'ясувалося, що це важко не тільки для людей, а й для пошукових машин, тому що на будь поширений запит «висипалися» сотні тисяч відповідей, в яких просто неможливо було розібратися. І саме тому можливість вибору пошукачем з цієї «гори» інформації корисних двадцяти-тридцяти посилань і стала визначальною на пошуковому ринку.
Як правило, основною частиною пошукової системи є поіскоовая машііна (поіскоовий двіжоок) - комплекс програм, що забезпечує функціональність пошукової системи. Основними критеріями якості роботи пошукової машини є релевантність (ступінь відповідності запиту і знайденого, тобто доречність результату), повнота бази, облік морфології мови. Індексація інформації здійснюється спеціальними пошуковими роботами. Останнім часом з'явився новий тип пошукових движків, заснованих на технології RSS, а також серед XML-даних різного типу.
Пошукові Системи зазвичай складаються з трьох компонентів:
.агент (павук або кроулер), який переміщається по Мережі і збирає інформацію;
.база даних, яка містить всю інформацію, що збирається павуками;
.поісковий механізм, який люди використовують я...