ова в мові виникає проблема «збалансованості» вибірки. У мові частотність багатьох слів обумовлена ??тематикою текстів. Так, наприклад, слово «змінна» буде надзвичайно частотно в математичних текстах. Імовірність же зустріти дане слово в художній літературі дуже мала. Для забезпечення коректності даних щодо частоти вживання слів творці корпусу (У. Френсис і Г. Кучера) розробили строгу процедуру відбору текстів: у корпус увійшли 500 фрагментів прозових текстів, що відносяться до 15 найбільш масовим жанрам і надрукованих в 1961р.
Виникнення корпусних методів пов'язане з бурхливим розвитком комп'ютерних технологій у другій половині ХХ в. Можливість сканування і розпізнавання тексту (переклад в текстовий формат), поява баз даних і систем управління базами даних зробили можливим збір, зберігання та обробку величезних масивів текстових даних. Не останню роль у розвитку корпусної лінгвістики зіграла популяризація світової мережі Інтернет, тому що корпусу стали доступні широкому колу користувачів, значно розширилися можливості їх наповнення.
З тих пір накопичений значний досвід розробки і застосування корпусів. Щорічно публікується безліч робіт з даної тематики.
У Росії розробкою і дослідженням корпусів займаються фахівці Центру лінгвістичної документації при Незалежному Московському університеті, відділу експериментальної лексикографії Інституту російської мови ім. В. В. Виноградова РАН, Інституту мовознавства РАН, Інституту проблем передачі інформації РАН, Інституту лінгвістичних досліджень РАН в Санкт-Петербурзі та ін
Теоретичні та практичні проблеми корпусної лінгвістики обговорюються на спеціалізованих семінарах і в рамках наукових конференцій з прикладної та комп'ютерної лінгвістики: щорічна міжнародна конференція з комп'ютерної лінгвістики «Діалог», конференція «Мегалінг», конференція «Корпусні лінгвістика» при кафедрі математичної лінгвістики СПбДУ.
Важливою віхою в розвитку вітчизняної корпусної лінгвістики стало створення Національного корпусу російської мови. Роботи зі створення Корпусу були розпочаті в 2001 році групою лінгвістів з Москви, Петербурга, Воронежа та інших міст. В рамках розвитку проекту ведеться робота зі створення нових ресурсів на базі корпусу.
.3 Основні поняття корпусної лінгвістики
корпусний лінгвістика синонімія морфологія
Центральне поняття корпусної лінгвістики - лінгвістичний корпус. Тексти в корпус вибираються не випадковим чином, а відповідно з проблемною областю, тобто областю реалізацій цікавлять дослідника мовних явищ. Проблемна область має два аспекти: мовний та мовленнєвий. Мовний аспект - це само досліджуване явище, а речовий - це безліч контекстів, в яких це явище представлено. Проблемна область може бути як дуже широкою (всі твори Достоєвського Ф.М.), так і досить вузької (випадки узгодження присудка з кількісної групою по числу).
Одним з принципових питань є питання про те, які тексти і в якому обсязі необхідно відібрати в корпус. З одного боку, хотілося б, щоб досліджуване явище, як би воно не було рідко в мові, знайшло відображення в корпусі. Однією з вимог, що пред'являються до складу та структури корпусу є вимога повноти.
Дана вимога входить в протиріччя з іншим важливим принципом створення корпусу - вимогою репр...