Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Статьи » Методика розробки програмного продукту для пошуку причин у змінах трендів в даних

Реферат Методика розробки програмного продукту для пошуку причин у змінах трендів в даних





тм, аппроксимирующий залежність. У разі лінійного класифікатора шуканий алгоритм має вигляд:



де грає роль функції активації (у простому випадку можна покласти).

Згідно з принципом мінімізації емпіричного ризику для цього досить вирішити оптимізаційну задачу:



Де - задана функція втрат.

Для мінімізації застосуємо метод градієнтного спуску (gradient descent). Це покроковий алгоритм, на кожній ітерації якого вектор змінюється в напрямку найбільшого убування функціоналу (тобто в напрямку антіградіента):



Де - позитивний параметр, званий темпом навчання (learning rate).

Можливі 2 основні підходи до реалізації градієнтного спуску:

. Пакетний (batch), коли на кожній ітерації навчальна вибірка проглядається цілком, і тільки після цього змінюється. Це вимагає великих обчислювальних витрат.

2. Стохастичний (stochastic/online), коли на кожній ітерації алгоритму з навчальної вибірки якимось (випадковим) чином вибирається тільки один об'єкт. Таким чином вектор налаштовується на кожен знову обираний об'єкт.

Можна уявити алгоритм стохастичного градієнтного спуску у вигляді псевдокоду наступним чином:

Вхід:

· - навчальна вибірка

· - темп навчання

· - параметр згладжування функціоналу

Вихід:

1. Вектор ваг

Тіло:

1) Ініціалізувати ваги

2) Ініціалізувати поточну оцінку функціоналу:



3) Повторювати:

. Вибрати об'єкт з випадковим чином

2. Обчислити вихідне значення алгоритму і помилку:


3. Зробити крок градієнтного спуску



4. Оцінити значення функціоналу:



4) Поки значення не стабілізується і/або ваги не перестануть змінюватися.

Головним достоїнством SGD можна назвати його швидкість навчання на надлишково великих даних. Саме це цікаво для нас в рамках поставленого перед нами завдання бо обсяг вхідних даних буде вельми великий. У той же час, алгоритм SGD на відміну від класичного пакетного градієнтного спуску дає дещо меншу точність класифікації. Також алгоритм SGD непридатний при навчанні машини опорних векторів з нелінійним ядром.


Висновки

У рамках розв'язуваної задачі нам потрібно скористатися алгоритмом перетворення вихідних даних TF-IDF, який дозволить нам підвищити вагомість рідкісних подій і знизити вагу частих подій. Отримані після перетворення дані ми будемо передавати класифікаторам, які підходять для вирішення що стоїть перед нами завдання, а саме: Наївний Байєсівський Класифікатор або Машина Опорних Векторів з Лінійним ядром, навчена за методом стохастичного градієнтного спуску. Також ми здійснимо перевірку ефективності Машини Опорних Векторів з нелінійними ядрами, навченої за методом пакетного градієнтного спуску. Однак, даний тип класифікатора не видається відповідним для поставленого завдання в силу надто складного ядра і схильності до переобучаемості, при якій класифікатор погано справляється з даними, які не використовувалися для навчання класифікатора.

програмний машинний предобработка дані



3. Реалізація системи


Робота системи складається з двох етапів. На першому етапі проводиться вилучення інформації про тренди в цінах, встановлюються періоди зростання, зниження і постійності цін на цінні папери. Розробка системи, здатної виконати даний етап не є основною темою даної роботи, тому застосована для предобработки даних програма буде описана коротко.

На другому етапі добута інформація про тренди застосовується для тренування класифікатора та виконання пророкувань про причини аналізованих змін в трендах цін.


.1 Передобробка інформації


Для витягання інформації про тренди в цінах використовується додаток FactEventAnalyzer.exe, розроблене на C #. Текст програми доступний в Додатку 1.

Програма працює з набором даних про ціни на цінні папери і про корпоративні події (таких як виплата дивідендів, зміни рейтингу компаній, зборах акціонерів) які зберігаються в базі даних MS SQL Server.

Приклади доступних даних продемонстровано нижче.




Інформація про цінні папери:...


Назад | сторінка 9 з 24 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Алгоритм створення бази даних &Значення коефіцієнта і показників ступеня у ...
  • Реферат на тему: Алгоритм побудови електронного програми бази даних
  • Реферат на тему: Алгоритм розробки Бази даних поиска псіхологічніх тестів в мережі Internet ...
  • Реферат на тему: Метод багатовимірної нелінійної оптимізації - метод найшвидшого спуску
  • Реферат на тему: Розробка бази даних для зберігання інформації даних характеристик товару