му якщо дослідник користується вже існуючим корпусом, він повністю мине довгий і трудомісткий етап збору матеріалу (опитування інформантів, робота зі словниковими картотеками або письмовими текстами і т.д.).
Для деяких цілей виявляється достатнім використання в якості корпусу вже існуючих електронних колекцій текстів, таких як віртуальні бібліотеки, архіви електронних версій періодичних видань або новинних стрічок. Гігантським зборами текстів є весь Інтернет. Існує навіть такий напрямок досліджень - Інтернет як корпус. Однак оскільки тексти в мережі не систематизовані і не мають лінгвістичної анотації (розмітка корпусу) - що відноситься і до інших віртуальним колекціям текстів, - дати точну статистичну оцінку всього безлічі або деякогопідмножини текстів скрутно, тому і виникає потреба в структурованих і анотованих лінгвістичних корпусах.
Одним з пріоритетних напрямків корпусної лінгвістики є створення і розширення універсальних національних корпусів (корпусів того чи іншого природної мови), представницьких по відношенню до всього мові, які можуть служити для дослідження найрізноманітніших явищ цієї мови [2, с. 53]. Більшість мов світу вже мають свої національні корпусу. Загальновизнаним зразком є, зокрема, Британський національний корпус (BNC). Серед корпусів слов'янських мов виділяється Чеський національний корпус, створений в Карловому університеті Праги. Національні корпусу існують також для німецького, китайського, фінського та інших мов. Для російської мови таким представницьким корпусом є Національний корпус російської мови (НКРЯ).
Принаймні створення все більшої кількості корпусів і розвитку різних технологій обробки текстової інформації вироблялися деякі універсальні принципи і мови розмітки лінгвістичної інформації в корпусі, створювалися спеціальні інструменти для роботи з корпусом на будь-якій мові так звані корпусні менеджери. Вироблення універсальних стандартів і технологій зробило можливим створювати великі представницькі корпусу за дуже короткий термін.
Таким чином, предметом корпусної лінгвістики є «теоретичні засади та практичні механізми створення і використання представницьких масивів мовних даних, призначених для лінгвістичних досліджень в інтересах широкого кола користувачів» [3, с. 5].
.2 Історія корпусної лінгвістики
Можна сказати, що перші корпусу і корпусні методи з'явилися задовго до виникнення корпусної лінгвістики як наукового напрямку. По суті, будь-який лінгвістичне дослідження, засноване на зіставленні та аналізі контекстів, є корпусним.
Ще наприкінці XIX - початку XX в. в цілях удосконалення засобів зв'язку, а також в цілях швидкого навчання мови створювалися частотні словники. Частотність слів оцінювалася за спеціальними вибірками текстів.
Перші корпусу в строгому сенсі цього слова з'явилися в 60-х рр.. ХХ в. Прообразом для них послужили словникові картотеки - збори фрагментів текстів, зазвичай у вигляді карток, що містять те чи інше слово, і систематизовані щодо описуваного слова (в основному, за абеткою).
У 1963 р. в Браунівському університеті (США) для створення частотного словника американського варіанту англійської мови було створено великий корпус на цифровому носії (Brown Corpus), що включає 1 млн. слів. При оцінці частоти деякого сл...