і великих обсягів мовних пар. Мовні пари - тексти, що містять пропозиції на одній мові і відповідні їм пропозиції на другому, можуть бути як варіантами написання двох пропозицій людиною - носієм двох мов, так і набором пропозицій та їх перекладів, виконаних людиною. Таким чином, статистичний машинний переклад володіє властивістю "самонавчання". Чим більше в розпорядженні є мовних пар, і чим точніше вони відповідають один одному, тим краще результат статистичного машинного перекладу. Під поняттям "статистичного машинного перекладу" мається на увазі загальний підхід до вирішення проблеми перекладу, який заснований на пошуку найбільш ймовірного перекладу пропозиції з використанням даних, отриманих з двомовної сукупності текстів. Як приклад двомовної сукупності текстів можна назвати парламентські звіти, які представляють собою протоколи дебатів у парламенті. Двомовні парламентські звіти видаються в Канаді, Гонконгу та інших країнах; офіційні документи Європейського економічного співтовариства видаються на 11 мовах; а Організація об'єднаних націй публікує документи на декількох мовах. Як виявилося, ці матеріали являють собою безцінні ресурси для статистичного машинного перекладу.
3.2 Лінгвістичне програмне забезпечення
Лінгвістичне програмне забезпечення (англ. lingware = linguistic + software) - комп'ютерні програми і дані, що забезпечують аналіз, обробку, зберігання і пошук аудіоданих, малюнків (OCR) і текстів на природній мові.
Можна виділити наступні види лінгвістичного програмного забезпечення:
1) Обробка тексту на природній мові:
- Електронні словники: Вікісловник, Multitrans, GoldenDict, Stardict, dict, ForceMem, ABBYY Lingvo. p> - Орфокорректори (або спеллчекер): MS Word, ispell, aspell, myspell.
- Пошукові системи
- Системи машинного перекладу: PROMT, Socrat.
- Системи автоматизованого перекладу, в т.ч. програми управління пам'яттю перекладів - OmegaT, Trados.
2) Системи розпізнавання символів OCR: Finereader, CuneiForm, Tesseract, OCRopus. p> 3) Мовні системи:
- Системи аналізу мови: Dragon, IBM via voice.
- Системи синтезу мови: Агафон.
- Системи голосового перекладу (розпізнавання і синтез): Speereo. br/>
3.3 Програми для комп'ютерного аналізу тексту
1) Обробка тексту на природній мові :
1. 1. Електронні словники :
А) Вікісловник - вільно поповнюваний багатофункціональний багатомовний словник і тезаурус, заснований на вікі-движку.
У словнику містяться граматичні описи, тлумачення і переклади слів. Крім того, у статтях може відображатися інформація про етимологію, фонетичних властивостях і семантичних зв'язках слів. Таким чином, Вікісловник - спроба об'єднати в одному продукті граматичний, тлумачний, етимологічний і багатомовний словники, а також тезаурус.
Б) GoldenDict - вільна оболонка для електронних словників з відкритим вихідним кодом, що підтримує багато форматів словників ABBYY Lingvo, StarDict, Babylon, Dictd, а також довільних словникових веб-сайтів (Вікіпедія, Вікісловник).
Особливості:
1. Висновок відформатованих статей з посиланнями і картинками за допомогою движка WebKit.
2. При пошуку слів з помилками використовується система морфології на основі вільної програми для перевірки орфографії Hunspell.
3. Індексування директорій зі звуковими файлами для формування словників з вимовою слів.
4. При пошуку перекладу прогалини, знаки пунктуації, діакритичні знаки і регістр символів у пошуковій фразі не грають ролі.
5. При виділенні тексту з'являється спливаюче вікно перекладу.
На сайті програми можна відразу ж отримати зручний російсько-англійський і англо-російський словник, а також словник вимов англійських слів.
Аналоги: Мультитран, ПРОМТ, ABBYY Lingvo, Atlantida, Apertium, Babylon, Context, Dicto, Google Translate, Lingoes, LiteDict, MultiLex, Pragma, ProLing Office, StarDict, SYSTRAN, TransLite, WiseDict. p> В) Stardict - вільна оболонка для електронних словників з відкритим вихідним кодом, здатна, окрім власне виведення статей, здійснювати переклад, озвучувати слова, використовувати нечіткі запити і шаблони, пошук в онлайнових словниках. Розробляється на мові C + +, з використанням графічної бібліотеки GTK 2 і кодування UTF-8.
Можливості. Функція програми сканування виділеного і відображення результату в спливаючих вікнах:
1. Пошук за шаблоном. Можна вводити слова, що містять "*" і "?" Як шаблони. p> 2. Нечіткий запит. Можна скористатися "нечітким запитом". Він використовує алгоритм Левенштейна для підрахунку схожості двох слів, і видає слова, які найбільш підходять введеному запиту. Для використання цієї можливості запит повинен починатися з "/".
3. Повнотекстової пошук призначений для пошуку слова в словнику без допомоги індек...