Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Статьи » Методика розробки програмного продукту для пошуку причин у змінах трендів в даних

Реферат Методика розробки програмного продукту для пошуку причин у змінах трендів в даних





компаніями, зазвичай відбувається корпоративну подію пов'язане з китайськими автовиробниками.

Навчений класифікатор використовується далі для пошуку причин зламу тренда цін переданих класифікатору цінних паперів.




4. Машинний експеримент


У ході машинного експерименту етап предобработки інформації був запущений на наступному наборі тестових даних:

. 8542 цінних паперу.

2. 1576688 записів про ціни на ці цінні паперіві, дані записи містять інформацію про ціни за рік.

. 53154 записи про корпоративні події, пов'язаних з цими цінними паперами.

Були встановлені наступні параметри роботи для предобработчіка даних:

1. changeThreshold=0.3. При зміні ціни на цю величину за день вважаємо, що можливий злам тренда.

2. spikeThreshold=6. При зміні ціни на цю величину за день вважаємо, що стався сплеск в ціні.

. dateThreshold=3. При припущенні про те, що стався злам тренду, система порівняє останню ціну з ціною через 3 дні щоб перевірити гіпотезу про злам тренда.

Системі предобработки даних знадобилося близько 19 годин роботи для завершення предобработки вихідних даних. За результатами було отримано 26975 пар подія - зміна в тренді. Отримані пари були використані для роботи системи класифікації в тестовому режимі.

Система була запущена тричі для кожного з підтримуваних класифікаторів. Тренування класифікаторів вироблялася на випадково вибраних 90% даних (24280) і далі тестувалася на 2 695 залишилися записах.

Нижче представлена ??таблиця з результатами тестування:



Таблиця 1

Результати тестування різних класифікаторів

Тип классіфікатораВсего передвіщено метокКорректно передвіщено метокPrecision,% Час виконання програми, сек.SVM з лінійним ядром, SGD обученіе150471211981211521712424822314977121218119SVM з лінійним ядром, навчання пакетним градієнтним спуском151571219280159152861247182146152181220080147SVM з ядром RBF1765880280731.5999851765880280831.5999501765880280501.599949SVM з поліноміальним ядром1765880281281.5986201765880281181.5996391765880280811. 599960SVM з ядром - сігмоід1765880280931.5996851765880281121.5987391765880280841.598677Наівний Байєсівський классіфікатор179041262770.5312181411267269.851216790128127612

Висновки

Як і передбачалося раніше, машина опорних векторів з нелінійним ядром (RBF, поліноміальне ядро ??або сигмоид) не підходить для вирішення даного завдання. Кожен з цих трьох класифікаторів сильно переучується на тестових даних і дає практично однакові прогнози для всіх тестових прикладів. Дані класифікатори вимагають значний час для навчання (порядку 3:00 кожен) і демонструють однакову точність, рівну приблизно 1,5%.

Як і передбачалося раніше, найкращу точність демонструє машина опорних векторів з лінійним ядром. При цьому навчання за методом стохастичного градієнтного спуску дає різкий приріст у швидкості навчання - середня час тренування по методу стохастичного градієнтного спуску одно 20 секундам, проти 150 секунд при навчанні за методом пакетного градієнтного спуску. При цьому перехід на стохастичний градієнтний спуск не знижує точності класифікатора - вона все також близька до 80%.

Наївний Байєсівський класифікатор також добре показав себе в машинному експерименті. Його відмінною рисою можна назвати більшу агресивність при виконанні пророкувань (якщо машина опорних векторів в середньому пророкувала близько 15000 міток то Наївний Байєсівський Класифікатор передбачав близько 17500 міток). Також можна відзначити більший розкид точності даного класифікатора - якщо результати SVM відрізняються один від одного приблизно на 1% то результати NBC коливаються в більш широких межах і можуть відрізнятися один від одного майже на 7%. Тим не менш, даний алгоритм навчається набагато швидше, ніж SVM, навіть при її навчанні за методом стохастичного градієнтного спуску. NBC в середньому потурбувалися 12 секунд на тренування, в той час як SVM в середньому навчалася близько 20 секунд. Також слід зазначити, що NBC до краще масштабується до великих обсягів даних, відповідно із зростанням обсягу навчальних даних час, необхідний на його навчання, зростатиме повільніше, ніж для SVM.

Таким чином, застосування класифікаторів NBC і SVM дійсно дозволяє досягти поставленої нами завдання. Дані класифікатори здатні з великою точністю (приблизно 70-80%) пророкувати, якими характеристиками володіють події, які повинні одночасно відбуватися з переданими їм записами про зламах в трендах цін.




Назад | сторінка 15 з 24 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Розрахунок ціни програмного продукту Бази даних "Страхування"
  • Реферат на тему: Розрахунок калькуляції собівартості та ціни розробки бази даних реализации ...
  • Реферат на тему: Розробка бази даних для зберігання інформації даних характеристик товару
  • Реферат на тему: Створення користувацьких баз даних у системі управління базами даних Access