ий фізико-технічний інститут raquo ;, а за запитом [установка скайп] - ще й skype. Точно так само Яндекс додає в запит різні написання чисел - Петро I і Петро Перший raquo ;, близькі за змістом однокореневі слова, варіанти написання і синоніми. Якщо в запиті є воронезький raquo ;, система може додати до нього однокорінне вороніж raquo ;, до [авто-сервіс міцубіші] - автосервіс мицубиси raquo ;, а до [вітерець] - схоже бриз raquo ;. Вибираючи, яке слово додати, а яке ні, Яндекс дивиться, як часто це слово зустрічається з іншими словами в запитах користувачів і взагалі в текстах. Однокореневі слова і синоніми система бере з власних словників, які Яндекс становить спеціально для таких випадків.
. 5 Виділення об'єктів
Аналізуючи запит, пошукова система виділяє в ньому різні об'єкти - географічні назви, імена людей, назви організацій і т.д. Наприклад, якщо пошукова система зрозуміє, що [Сергій Зубов] - це людина, вона не буде доповнювати запит словоформой зубним або шукати стоматологічні клініки. А якщо в запиті [аптеки на парку культури] система виявить, що Парк культури - Це місце, вона врахує це при ранжуванні: в результатах пошуку перші рядки займуть документи, в яких слова парк і культури йдуть підряд. Для виділення стійких фраз і об'єктів Яндекс теж становить різні словники: географічних назв - топонімів, імен і прізвищ, назв організацій та інші. Отримавши запит, система кожен раз перевіряє за словниками, чи є в ньому стійкі словосполучення.
. 6 Робота над помилками
За статистикою Яндекса, близько 12% запитів містять помилки. Це опечатки, орфографічні помилки або абракадабра, яка виходить при неправильній розкладці клавіатури. Якщо шукати рівно те, що зазначено в пошуковому рядку, людина так і не отримає потрібний йому відповідь - на більшості сайтів слова написані грамотно. Тому пошукова система перевіряє запит на грамотність.
Слова, в яких часто припускаються помилки - агентство raquo ;, вінегрет або по яких немає хорошого відповіді на питання, Яндекс відразу виправляє і показує відповідь на виправлений запит. Зрозуміло, попереджаючи користувача, що запит був виправлений.
У деяких випадках складно визначити, помилився користувач чи ні. Наприклад, ресторан фуджіяма дуже схожий на вулкан Фудзіяма raquo ;, а прізвище футболіста Массад на Моссад raquo ;, масаж і фортеця Массада raquo ;. У таких випадках, показуючи відповідь на вихідний питання, Яндекс питає, чи не помилився людина і не хоче він побачити відповідь на виправлений запит. Є ще один варіант - коли система не впевнена, опечатался людина чи ні. Тоді вона покаже на сторінці результатів пошуку відповіді відразу на два питання - на заданий, в якому імовірно є помилка, і на виправлений.
На роботу з помилками і весь лінгвістичний аналіз йдуть частки секунди. За цей час система встигає визначити мову запиту, розібрати кожне слово, знайти синоніми і стійкі поєднання і в кінцевому рахунку вирішити, документи з якими словами потрібно шукати.
Розділ II. Результати пошуку
2.1 Формування результатів пошуку
Сторінка результатів пошуку - це відповідь Яндекса на питання, яке користувач задав в пошуковому рядку. Яндекс знаходить і показує всі підходящі відповіді: чаклунчик своїх сервісів, контекстні оголошення Яндекс.Директа, і, звичайно, самі результати пошуку по інтернету.
Результати пошуку по інтернету - це посилання на знайдені документи з короткою інформацією про них. Інформація підбирається так, щоб допомогти користувачеві зрозуміти - який з відповідей підходить йому найкраще. Яндексу важливо не просто показати релевантний відповідь, а й описати його максимально інформативно.
Для заголовка результату пошуку Яндекс найчастіше використовує заголовок самого документа. Якщо він занадто довгий, Яндекс вибирає фрагмент, який найбільше підходить за змістом до заданому запиту.
Буває, що у документа немає заголовка або заголовок не відповідає змісту. Наприклад, назви файлів у форматі doc або pdf часто короткі і малоінформативні. У таких випадках Яндекс створює заголовок самостійно, грунтуючись на текстах посилань на документ, заголовках в самому тексті документа і його змісті.
Для формування опису сторінки, яке поміщається в сніппет, програма вибирає всі фрагменти тексту документа зі словами із запиту. Кожен з таких фрагментів розбивається ще на кілька частин - наприклад, зі словами із запиту на початку, в кінці і в середині. Потім програма порівнює їх всі між собою і вибирає кращі - вони і потрапляють в сниппет.
При виборі програма врахову...