до його спеціалізації, можна за рахунок відстеження їх частоти повторення в тексті. Спеціальні терміни, що мають значення, звичайно повторюються в тексті більше одного разу. Встановивши початковий поріг входження, ми відсіємо ще більше непотрібних слів зі списку ключових термінів. Для виконання угруповання, підійде Microsoft Excel і зокрема VBA (Visual Basic fir Applications). У цьому завданню не розглядається проблема аналізу великих масивів, а отже, засобами даного середовища представляється можливим отримати шуканий результат. Для угруповання слід здійснити процедуру імпортування списку ключових слів, що знаходяться у файлі Ключові слова.txt в таблицю Excel. Виділивши лист в середовищі Excel створимо поле для завантаження масиву даних. Це і буде позиціонуватися у вигляді таблиці. Також туди переноситься і статистика їх появи в тексті, отримана нами з програми WordTabulator. За допомогою вбудованого редактора формул Microsoft Excel, створимо поріг входження слів у текст, з задаваемой частотою. Оновлений створимо формулу проходження ключових слів у новий список, по порогової частоті їх входжень в текст. Верхнє значення порогу (осередок D2), може здаватися довільно, і вказує на мінімальну кількість входжень слова в текст, для його потрапляння до нового списку ключових слів. Новий список ключових слів буде знаходитися в сусідньому стовпці.
Малюнок 4.7 Фрейм відбору ключових словоформ за частотою
Далі слід скласти таблицю тих закінчень, за якими можна буде з великою ймовірністю стверджувати, що слова з однієї групи, будуть взаємозамінні. Для початку складемо таблицю для закінчень іменників, т.к. в основному вони є найбільш важливими термінами, знання про які нам би хотілося перевірити. Закінчення, в даному випадку, є на увазі не граматичні, а фактичні. У об'єднаних комірках перебувають взаємозамінні закінчення.
Таблиця 4.3 Угруповання іменників однини
Єдине число * [сть] * [о] * [ом] * [ем] * [ня] * [тие] слова закінчуються на согласныеКроменет*[ло]*[ном]*[вом]*[чем]нетнет*[ав]*[ев]*[ов]*[ек]*[ок]*[ого]*[емом]*[шем]*[жал]*[шел]*[шёл]*[ал]*[ил]*[его]*[ском]*[щем]*[ул]*[ам]*[ым]*[ям]*[ан]*[но]*[аем]*[ен]*[ет]*[ит]*[от]*[ят]*[ово]*[уем]*[ан]*[ен]*[ево]*[уто]*[ято]
Таблиця 4.4 Угруповання іменників множини
Множинне число*[ы]*[сти]*[ов]*[стей]*[ам]*[ям]*[ами]*[ями]*[ах]*[ях]Кроме*[ены]нетнетнетнет*[аны]*[вны]*[ьны]
У представлених вище таблицях 4.3 і 4.4 описані деякі види закінчень іменників. Слова, що закінчуються на інші закінчення можуть належати до різного роду, числу або падежу, і не можуть бути розділені на групи, без підключення додаткових словників.
Останнім етапом є створення програми автоматичної угруповання ключових слів. Вона пишеться у вигляді декількох макросів на мові VBA. (Лістинг 1, 2 і 3). Схема алгоритму створення стека суджень представлена ??на малюнку 4.8.
Малюнок 4.8 Алгоритм програми створення стека суджень
Примітка: T - кількість питань; х - кількість ключових словоформ; f - поріг генератора випадкових чисел; b - поріг частоти; r - лічильник кількості суджень; Q (1; 65536)
Підсумком відпрацювання даної програми, є таблиця, з розподіленими в неї ключовими словами.
...