стко прив'язаний до конкретної платформі і конкретної операційної системи; для його перенесення в інше середовище вимагається перекомпіляція всієї програми. Інтерпретуються мови не вимагають попередньої компіляції, програми на них виконуються інтерпретатором, який читає вихідний текст програми і негайно його виконує.
Програма мовою Java компілюється в проміжний стандартний код, який називається байт-кодом (такі файли мають расшіреніе.class). Цей код не є машинною мовою якого-небудь конкретного процесора, а спеціально створений авторами Java; його слід розглядати як мова асемблера віртуальної Java-машини, що не має фізичної реалізації.
2.2 Опис бібліотеки JSOUP, призначеної для обробки HTML сторінки
Java-бібліотека jsoup призначена для розбору HTML-сторінок (парсинг), дозволяючи витягти необхідні дані, використовуючи DOM, CSS і методи в стилі jQuery.
Бібліотека підтримує специфікації HTML5 і дозволяє аналізувати довільні сторінки, як це роблять сучасні браузери.
Бібліотеці можна надати для аналізу URL, файл або рядок.
Синтаксис дуже простий у використанні і досить гнучкий, щоб отримати те, що необхідно.
У додатку JSOUP використовується для обробки HTML документа і отримання посилань на інші ресурси з відповідних тегів:
Метод розбору вихідного HTML документа. Зчитує вихідний файл, завантажений за посиланням page, і замінює посилання, знайдені в base [href], a [href], img [src], link [href], script [src], на посилання на файли, що завантажуються. Для обробки використовується бібліотека Jsoup.
@ param dm об'єкт DownloadManager необхідний для отримання доступу до глобального списку посилань.
@ param page посилання на поточну сторінку.
@ param sourceFileName ім'я вихідного файлу.
@ param destFileName ім'я файлу, в якому вихідні посилання вже замінені на локальні.
@ param charsetName кодування вихідного файлу.
@ return список посилань, знайдених у файлі.
@ see Jsoup
@ see DownloadManager
@ see DownloadURLList parseLinksInDocument (DownloadManager dm, DownloadURL page, String sourceFileName, String destFileName, String charsetName) {{ pageLinks=new ArrayList (); sourceFile=new File (sourceFileName);
/ / Обробка HTML файлу sourceFile з кодуванням charsetNamedoc=Jsoup.parse (sourceFile, charsetName);
/ / Пошук тегів base з атрибутами href
Elements base=doc.select («base [href]»);
/ / Пошук тегів a з атрибутами href
Elements links=doc.select («a [href]»);
/ / Пошук тегів img з атрибутом src
Elements media=doc.select («img [src]»);
/ / Пошук тегів import з атрибутом href
Elements imports=doc.select («link [href]»);
/ / Пошук тегів script з атрибутом src
Elements scripts=doc.select («script [src]»);
/ / Для кожного тега ...