align="center">
2. Методика .1 Методика отримання інформації з електронних ресурсів
У зв'язку з відсутністю на розглянутому сайті API функцій для отримання інформації необхідно завантажувати сторінки товарних позицій і витягувати інформацію безпосередньо зі сторінки, для цього необхідний програмний доступ до елементів сторінки. Також необхідно врахувати, що частина інформації на сторінці довантажуються з сайту за допомогою технології Ajax, при виконанні певних скриптів. У зв'язку з цим звичайних Http запитів буде недостатньо, необхідно забезпечити виконання цих скриптів на сторінці. Враховуючи всі вищесказані факти в якості об'єкта, що одержує сторінку з сайту, був обраний WebBrowser, що поставляється разом з Visual Studio. p align="justify"> Для зручності розробки був написаний модуль розширень для WebBrowser та елементів DOM (HtmlElement) дозволяють чекати завантаження документа, завантаження певних елементів DOM з певними значеннями id, class, tagName, дозволяють робити вибірку з безпосередніх вкладених елементів і в каскадному режимі елементів, визначати їх класи.
Сайт представляє собою велику мережу електронних магазинів, причому посилання на магазини спочатку невідомі. Тому на першому етапі необхідно пройти безліч посилань, змінюючи параметр, що відповідає за id магазину і запам'ятати id, які відповідають існуючим магазинам. Для прискорення процесу дана процедура перевірки виконується одночасно в безліч потоків. p align="justify"> На наступному етапі ми повинні пройтися в безліч потоків по магазинах і витягти всю інформацію про товари цього магазину, попередньо визначивши категорії, на яких спеціалізується магазин.
Для кожного товару зберігаються картинки, а також відгуки покупців, щоб зменшити час витрачається на парс одного товару це відбувається асинхронно.
Застосування методу SURF для пошуку груп однакових товарів.
Для складання груп однакових товарів використовується комбінований метод порівняння товарних позицій, що складається з порівняння за іменами товаром, використовуючи нечітка порівняння рядків, і порівняння по зображеннях, використовуючи метод SURF.
Метод SURF складається з двох етапів.
На першому етапі методу SURF складаються дескриптори особливих точок для головних зображень товарів. Даний етап проводиться в декілька потоків для зменшення часу. P align = "Justify"> На другому етапі проводяться порівняння дескрипторів особливих точок різних зображення і формуються групи однакових товарів. У кожної групи формується ряд еталонних товарів, з якими згодом і виробляються порівняння. p align="justify"> Для скорочення часу складання груп порівнюються товари тільки з однакових категорій.
Оскільки кількість товарних позицій настільки велике, щ...