великий і модель помилок не може це компенсувати. А так само слова з більш ніж однією помилкою, які часто виправляються на слова з одного друкарською помилкою. З точки зору швидкодії складно і малоефективно створювати модель помилок, яка б покривала ці проблемні місця. p align="justify"> Більшість російських програм перевірки орфографії виправляють тільки однобуквені друкарські помилки, тому що многобуквенние становлять не більше декількох відсотків від їх загальної кількості: як правило, зустрічаються лише друкарські помилки типу "баблікі з Муком". Небажання розробників закладати в свої програми пошук многобуквенних друкарських помилок пояснюється гнучкістю російської мови порівняно з англійською, через що список підказок на російське слово з двома друкарськими помилками виходить неприпустимо велике. p align="justify"> Виходячи з усього цього, можна зробити висновок, що створити універсальну модель помилок, що є найкращою в будь-якій ситуації, створити не вдається. У всіх варіантах є свої плюси і мінуси. br/>
Використовувана схема роботи
При проведенні даної роботи використовувалася наступна схема роботи опечаточніка:
Використовувані дані
Вхідні дані
Представляють собою тестову вибірку, представлену в текстовому файлі.
Вхідний файл (він же тестова вибірка).
Формат: _1 [ t correct_11, correct_12] _2 [ t correct_21, correct_22]
Тут: word - слово з помилкою або друкарською помилкою. Далі за бажанням через табуляцію вказуються варіанти виправлення (варіанти виправлення між собою розділяються ","), тоді в автоматичній видачу послід ті слова, які збіглися з варіантами виправлення, зазначеними вручну. p align="justify"> Приклад запису у вхідному файлі:
Безплатно безкоштовно
Параметри опечаточніка
Текстовий файл, що містить параметри, що впливають на якість роботи опечаточніка.
Параметри
Опис параметрів з їх значеннями за замовчуванням:
lev = 0.165
максимальна (порогове) значення відстані Левенштейна, при якому одне слово вважається виправленням іншого.
len_1 = 4_2 = 7_1 = 0.2_2 = 0.3_3 = 0.4
Коефіцієнти фільтрації. Нехай L - довжина исправляемого слова, K - коефіцієнт, який бере участь у фільтрації, тоді при
L len_2K = coeff_3.
limit = 5
Максимальна кількість підказок у вихідному файлі для одного исправляемого слова. Неявно впливає на порядок видачі, тобто і на те, яка карта буде ...