ий спосіб важливий ще й тим, що дає можливість отримувати дані одного рівня надійності. p> Перейдемо тепер до опису конкретних завдань, що визначаються різними етапами дослідження невідомих текстів.
Одне з перших завдань - розбиття безперервного тексту (написаного без пробілів) на окремі блоки, відповідні в основному словоформам. У проведених роботах використовувався наступний прийом. Вибиралася деяка константа h, і розглядалися всілякі відрізки тексту, що містять h знаків. Кожному такому відрізку тексту зіставлялося безліч перетинів даного відрізка з усіма іншими відрізками тексту. Кожне те забезпечувалося адресою. складався каталог усіх перетинів в тексті, і вирізнялися найбільш частотні перетину. Адреси давали можливість об'єднати два перетину в одне, якщо вони в тексті знаходилися поруч. Такий метод дозволяв виділити в тексті стійкі знакосочетаній, що володіють змінними знаками при збереженні загальної структури знакосочетаній. Звідси з'являлася можливість дослідження не тільки структури словоформи, а й синтаксичної структури тексту. p> Наступне завдання - аналіз морфології слова. У цю задачу входять розбиття кожного блоку на окремі частини і класифікація їх з метою виділення постійних і змінних частин, відповідних кореневим і службовим морфемам. p> Важливою і необхідною завданням, подібної з попередньої, є з'ясування структури пропозиції. На основі отриманих даних можна ставити завдання про виявлення класів блоків як по морфологічної, так і по синтаксичній структурі. Інакше кажучи, це, з одного боку, виділення блоків, що мають однакову постійну частину, тобто з одним коренем, а з іншого - виділення блоків, що мають один і той же набір змінних частин. На основі самого тексту віднести блоки до конкретних традиційним частин мови без додаткової внетекстовой інформації неможливо, хоча можна враховувати, наприклад, що в багатьох мовах для дієслова характерні більша кількість словоїзменітельних форм і велика сполучуваність з формами іншого класу, а для іменників - мала кількість словоїзменітельних форм і мала сполучуваність.
Для вивчення морфології дуже важливо складання прямих і зворотних словників, а також словників, орієнтованих за довільним знаку в блоці.
Дуже зручним інструментом є складання конкорданси. Вибираються як би основні, щось на зразок координат, позиції в тексті і за допомогою цих позицій характеризується становище одиниці. Наприклад, якщо ми досліджуємо становище знака в тексті, а текст розбитий на слова і пропозиції, то ми можемо характеризувати положення знака номером пропозиції, номером слова і пропозиції і положенням знака в слові - відстанню від початку або кінця. Аналогічно можна говорити не тільки про знак, але і про морфему, щось схоже буде при дослідженні слова в реченні, в абзаці. Використовуючи конкорданси, можна завжди виділити всі поєднання заданої структури. p> При дослідженні як структури словоформи, як і синтаксичної структури тексту зручно використовувати при...