що позначає що програма буде працювати в тестовому режимі
2) PriceFacts.csv - ім'я файлу, що містить вихідні дані
) Results.csv - ім'я файлу, в якому будуть збережені результати роботи програми
) linear - алгоритм класифікації, який буде використаний програмою. Підтримуються такі алгоритми:
1. linear - Машина опорних векторів з лінійним ядром і навчанням пакетним методом
2. linearWithSGD - Машина опорних векторів з лінійним ядром і навчанням за методом стохастичного градієнтного спуску
3. rbf - Машина опорних векторів з Радіальної базисної функцією як ядра, навчання пакетним методом
4. poly - Машина опорних векторів з поліноміальними ядром, навчання пакетним методом
5. sigmoid - Машина опорних векторів з сігмоідной функцією як ядра, навчання пакетним методом
6. bayes - Наївний байєсовський класифікатор
Після завершення програми в командному рядку буде виведена інформація про час роботи програми і інформація про precision (точності) програми на тестових даних. Також в файл результатів будуть збережені тестові приклади і зроблені системою передбачення.
Нижче наведено приклад запуску і отримання результатів програми в тестовому режимі.
Рис. 8. Робота системи класифікації в тестовому режимі
Робочий режим
Необхідно скопіювати файл з програмою FactGeneralizer.py в будь-яку папку на комп'ютері користувача. Також необхідно скопіювати потрібні для роботи файли в будь-яку папку на комп'ютері користувача. У разі роботи програми в робочому режимі необхідні два файла. Перший з них, що містить пари «подія - зміна в тренді» буде використаний для навчання класифікатора. Другий повинен містити записи про зміни в трендах, які система спробує пояснити. Далі необхідно відкрити командний рядок і за допомогою команди cd перейти в папку, в якій зберігається файл FactGeneralizer.py. Для запуску програми в тестовому режимі необхідно ввести в командному рядку таку команду й натиснути Enter:
python FactGeneralizer.py work PriceFacts.csv ToPredict.csv
Results.csv linear
Значення параметрів наведено нижче:
) test - мітка, що позначає що програма буде працювати в тестовому режимі
2) PriceFacts.csv - ім'я файлу, що містить вихідні дані для тренування класифікатора
) ToPredict.csv - ім'я файлу, що містить записи про зміни в тренді, які система спробує пояснити
) Results.csv - ім'я файлу, в якому будуть збережені результати роботи програми
) linear - алгоритм класифікації, який буде використаний програмою. Підтримуються такі алгоритми:
1. linear - Машина опорних векторів з лінійним ядром і навчанням пакетним методом
2. linearWithSGD - Машина опорних векторів з лінійним ядром і навчанням за методом стохастичного градієнтного спуску
3. rbf - Машина опорних векторів з Радіальної базисної функцією як ядра, навчання пакетним методом
4. poly - Машина опорних векторів з поліноміальними ядром, навчання пакетним методом
5. sigmoid - Машина опорних векторів з сігмоідной функцією як ядра, навчання пакетним методом
6. bayes - Наївний байєсовський класифікатор
Після завершення програми в командному рядку буде виведена інформація про час роботи програми. У файл результатів буде записана інформація про кожну зміну в тренді, яке система намагалася пояснити, і опис ймовірної причини в даній зміні в тренді. Нижче наведено приклад запуску програми в робочому режимі.
Рис. 9. Робота системи класифікації в робочому режимі
Висновки
Реалізована система, що здійснює предобработку вихідних даних про ціни на цінні папери і корпоративних подіях, пов'язаних з цінними паперами. Передобробка створює файл, що містить інформацію про те, які корпоративні події відбувалися одночасно з якими змінами в трендах цін. Далі дана інформація передається системі класифікації, яка виробляє перетворення за алгоритмом TF-IDF і тренує класифікатор на базі одного з підтримуваних алгоритмів. В ході тренування класифікатор визначає, які параметри корпоративних подій супроводжують конкретними параметрами у змінах трендів. Наприклад, класифікатор спроможний виявити, що в більшості випадків одночасно зі зламом тренда для цінних паперів, що торгуються на московській біржі і випущених металургійними...