п'ютерної системи - базового пошуку raquo ;. На базовому пошуку зберігається зліпок інтернету, по якому шукає Яндекс, - пошукова база. Вона розбита на частини, які зберігаються на різних серверах - шукати відповідь одночасно по декількох частин бази даних швидше, ніж по всій базі цілком. Крім того, у кожного сервера є кілька копій. Це дозволяє розподіляти навантаження і не втрачати дані - якщо один з серверів не зможе своєчасно відповісти, інформація все одно знайдеться на дублюючих серверах. З тисяч серверів базового пошуку метапошук вибирає найменш завантажені - таким чином, щоб разом вони містили цілу пошукову базу.
Кожен з серверів віддає список документів, в яких є слова із запиту, назад в метапошук. Там вони об'єднуються, ранжуються за допомогою технології Матрикснет і потрапляють на сторінку результатів пошуку.
Завдяки такій організації пошук Яндекса може відповідати користувачеві за частки секунди.
. 2 Визначення мови
Кожен раз, коли користувач вводить запит в пошуковий рядок Яндекса, пошукова система проводить лінгвістичний аналіз цього запиту. Система визначає мову на якому пише користувач і виправляє помилки, проводить морфологічний розбір кожного слова, знаходить синоніми і стійкі поєднання і, в кінцевому рахунку, вирішує, документи з якими словами потрібно шукати. І все - за частки секунди.
Аналіз запиту починається з визначення мови. Наприклад, слово дружина в російській мові означає військова рать raquo ;, а в українському - військова рать і дружина raquo ;. Щоб зрозуміти, що має на увазі користувач, потрібно з'ясувати, якою мовою він спілкується з пошуковою системою. Для цього Яндекс дивиться, який алфавіт використовує людина, які в запиті є характерні слова і поєднання букв.
Так, за запитом [дружина князя игоря] Яндекс буде шукати інформацію про військо, а за запитом [дружина князя Iгор] - ще й про дружину полководця, княгині Ользі.
Крім того, при визначенні мови пошукова система звертає увагу на регіон користувача і мову інтерфейсу. Наприклад, якщо людина ставить запитання з України та використовує інтерфейс українською мовою, це буде додатковим фактором, щоб порахувати запит україномовним. Яндекс вміє працювати з кириличними запитами російською, українською, білоруською, казахською, татарською та башкирською мовами.
1.3 Морфологія
Визначивши мову запиту, Яндекс переходить до морфології і визначає, до якої частини мови відносяться написання слова.
Це дозволяє знаходити документи, що містять різні форми одних і тих же слів. Наприклад, за запитом [стали для ножів] Яндекс буде шукати документи, в яких є не тільки це словосполучення, але і варіанти: сталь для ножа raquo ;, ножі сталь і т.д. Аналізуючи запит, Яндекс складає список можливих словоформ для кожного слова.
За словоформе, яка є в запиті, не завжди можна точно сказати, яке слово мав на увазі чоловік. Наприклад, у запиті [стали для ножів] слово стали - Це не тільки іменник сталь raquo ;, але й дієслово стати raquo ;. І у випадку [стали для ножів] потрібно шукати форми іменника, а в разі [стали випадати волосся що робити] - форми дієслова.
Потрібно позбутися неоднозначності, зняти омонимию - збіг слів з різним лексичним значенням.
Щоб вибрати для пошуку найбільш ймовірний список форм, система перевіряє - як часто слова із запиту зустрічаються разом, для цього вона звертається до власній статистиці.
Наприклад, у морфологічному розборі за запитом [стали для ножів] система вибере для пошуку слово сталь .
По-перше, за статистикою слово сталь частіше зустрічається зі словом нож raquo ;, ніж стати raquo ;. А по-друге, іменник в називному відмінку сталь часто поєднується з іменником у родовому відмінку ножів .
Для збору статистики Яндекс використовує Національний корпус російської мови, де зібрано величезну кількість текстів в електронному вигляді.
. 4 Розширення запиту
Після зняття омонімії пошукова система не буде шукати слова, які користувач точно не мав на увазі. Але якщо обмежити пошук тільки словами із запиту, в поле зору пошукової системи не потраплять багато потрібні документи. Адже для одного і того ж поняття в різних текстах можуть використовуватися різні слова, наприклад на одному сайті може стояти абревіатура, а на іншому - повне найменування.
Для того щоб врахувати всі можливі варіанти, Яндекс доповнює запит, додаючи нові формулювання з тим же змістом. Наприклад, разом зі складноскороченого [фізтех] Яндекс буде шукати і офіційне Московськ...