Головна → Корисні програми Парсер – програма для збору інформації. Програма збору інформації про користувача пк Програма для збору даних

Парсер – програма для збору інформації. Програма збору інформації про користувача пк Програма для збору даних

Коротка передісторія

Прийшовши на рідний завод інженером до групи АСОДУ, на мене одним із завдань ляг обов'язок супроводжувати механізм збору даних з різних видів реєструючих пристроїв. Зауважу, що на заводі непоганий «зоопарк» такого обладнання. Як відомо, для реєструючих пристроїв завжди йде спеціалізоване програмне забезпеченнящо дозволяє здійснити його конфігурування та опитування. Але далеко не з усіма видами приладів йде програмне забезпечення, за допомогою якого можна отримати дані з приладу та помістити їх у загальне середовище для подальшої обробки та архівування. Так ось така проблема була вирішена ще до мене, шляхом написання однієї програми, яка б опитувала всі прилади, наявні, і вивантажує зібрані дані в єдину базу даних. Але проблема в тому, що з появою нового типу приладу постійно доводилося перекомпілювати цю програмуКрім цього, вона жорстко прив'язана з конкретною СУБД. Не маючи під рукою ні конфігуратора, ні будь-якого тестера, все це приводило процес супроводу суцільні муки. Ось тоді і з'явилася ідея реалізувати якусь систему, яка максимально спрощувала б роботу з супроводу механізму збору даних. Для такої системи мною висунули такі вимоги:

Опитувати будь-який тип/вид приладу. Досягатися це має шляхом розширення програми рахунок модулів.
Вивантажувати дані як завгодно, як завгодно і коли завгодно. Досягатися такий підхід теж має рахунок модулів.
Наявність інструменту, що дозволяє якнайпростіше налаштувати весь процес опитування.
Наявність інструменту, що дозволяє протестувати та налагодити як модулі опитування, так і модулі вивантаження даних.
Завдання опитування має працювати як служба, але при цьому можливість візуального спостереження за ходом виконання опитування та розвантаження даних також має бути присутньою.

Інструментальні засоби

Для реалізації своєї витівки я використав такі інструментальні засоби:
Компілятори: gcc-3.4.2, gcc-4.6.1 та tinyc-0.9.25
Графічна бібліотека: wxWidgets-1.8.10 + wxFormBuilder-3.2
База даних: SQLite-3.7.6.2

Реалізація

У реалізації я коротко розповім лише про основну частину програми – збирання даних. Інші частини програмного комплексу, мій погляд, за своєю реалізації менш цікаві як ця.

Буфер обміну

Найголовнішим для мене завданням було зберігання даних у системі. Реалізований мною буфер набув такого вигляду:

Кожен потік опитування має доступ до своєї галузі буфера, з якої він бере всі стартові (ініціалізують) налаштування, пише свій стан і заносить отримані дані. Потік вивантаження даних має доступ як до галузі опитування (з доступом тільки на читання), так і до своєї галузі експорту. Доступ до об'єктів, помічених на малюнку червоним, синхронізується за допомогою критичних секцій.

Ядро

Ядро програми представлене нижче. Воно працює в такий спосіб. При читанні конфігураційного файлу завантажувачем формується кінцевий буфер (див. малюнок вище), список завантажених плагінів опитування, і список плагінів вивантаження даних. Ядру передається як сформований буфер, і списки плагінів. Ядро у свою чергу ініціалізує на кожен com-порт потік, при цьому передає йому гілку буфера і список плагінів пристроїв. Як тільки потоки опитування створені, ядро починає ініціалізувати за такою ж схемою і потоки експорту даних. Але, крім перерахованого раніше, передає кожному константне посилання на гілку опитування. Таким чином, потоки експорту можуть у будь-який момент отримати всю інформацію як про хід виконання процесу опитування, так і отримати кінцеві результати опитування.

Так як є два види програм опитування (у вигляді служби і у вигляді графічного користувача), то ядро поміщається в динамічну бібліотеку, яку використовують обидва додатки.

Всі породжені ядром потоки, окрім іншого, отримують константне посилання на саме ядро. Таким чином, кожен із потоків може контролювати стан ядра (RUN, STOP). Якщо ядро переходить у режим STOP, всі потоки починають автоматично завершувати свою роботу. При переході в режим RUN ядро заново створює вищеописані потоки.

Інтерфейс плагіна опитування пристроїв

Для того, щоб опитати прилад, необхідно мати дві функції: функцію, яка формує кінцевий пакет, що відправляється приладу, і функцію, що обробляє отриману відповідь від приладу. Таким чином, інтерфейс плагіна складається з двох функцій формування та обробки пакета та ще однієї функції, яка повертає інформацію про нього. Дана інформація, потрібна як користувачеві, і програмі, у зв'язку з тим, що у її вмісті є інформація про довжину пакета, що формується і відправляється. У результаті маємо такі функції:

GetInfo – інформація про плагін;
GetPackage – формування пакета;
GetData – обробка одержаного пакета.

Структури, якими оперують ці функції, я думаю описувати надмірно, бо моєю метою варто описати загальний принципроботи системи. Але кому стало цікаво, може зазирнути до .

Інтерфейс плагіна експорту

Інтерфейс плагіна експорту складається з чотирьох функцій:

About – інформація про плагін;
Begin – функція виконується одного разу, коли ядро перетворюється на режим RUN. Вона орієнтована те що, щоб здійснити будь-яке підключення до сховищу даних. Якщо функція поверне помилку, потік пише помилку в буфер і завершує свою роботу.
Export – безпосередньо експорт даних;
End – функція виконується один раз після того, як ядро переходить у режим STOP. Виконується лише в тому випадку, якщо функція Begin не повернула жодної помилки. Функція орієнтована те що, щоб здійснити відключення від сховища даних.

Структури, якими оперують ці функції, я також не описуватиму через зазначену вище.

Результат

на Наразідо комплексу входить таке програмне забезпечення:

Editor - редактор конфігурацій опитування;
ReaderGUI – програма опитування у вигляді користувача програми;
ReaderSvc – програма опитування як служби Windows;
ReaderSvcCtrl – керування службою опитування;
TestExport – тестування плагінів експорту;
TestRequest – тестування плагінів опитування.

Комплекс орієнтований на ОС Windows, хоча жорстка прив'язка до WinAPI є лише класі, який здійснює роботу з COM-портом. Та й звичайно служба опитування пристроїв. Все інше базується на класах і функціях бібліотеки wxWidgets.

Приклад роботи

Припустимо, що є два прилади типу «rmt-59» та «ecograph-t». Кожен із них підключено на окремий порт до перетворювача інтерфесу «RS-485 – Ethernet». На комп'ютері, який здійснює опитування, стоїть драйвер, що перетворює «Ethernet – RS232». Таким чином, ми маємо два com-порти (наприклад com-10 і com-11), на якому розташовується один прилад. В обох приладів, припустимо, адреса 1. Обидва прилади налаштовані швидкість передачі даних на 19200 біт/с.

Для початку необхідно переконатися, що наявні плагіни підходять для роботи з цими приладами. Для цього запускаємо програму TestRequest та намагаємось опитати ці прилади

Після цього слід створити конфігурацію опитування. Запускаємо програму Editorта налаштовуємо опитування.

Якщо Ви створили нову базу, необхідно прописати шлях до неї у файлі Reader.ini. Для тесту роботи опитування запускаємо програму ReaderGUI

Тепер потрібно подбати про експорт даних. Спеціалізованих плагінів я не створював. Для тесту роботи експорту в комплект входить один тестовий плагін, який експортує дані текстовий файл. Спочатку слід перевірити його роботу за допомогою програми TestExport.

Тепер, коли ми переконалися у правильній роботі плагіна, можна додати його до конфігурації опитування.

Все, конфігурування та тестування закінчено. Тепер можна встановити та запустити службу. Управління сервісом здійснюємо за допомогою програми ReaderSvcCtrl.

Післямова

Звичайно, я б міг написати набагато більше, але щоб не втомлювати читача, я не робитиму цього. Ось посилання на мій проект. На всі ваші запитання я із задоволенням відповім у коментарях.

Багато недоліків системи з'ясувалися вже під час експлуатації. До таких недоліків можна віднести наступне:

Відсутність типу опитуваного каналу. Необхідність типу обумовлюється тим, що багато приладів для різних типів значень (аналоговий канал, математичний канал, інтегральне значення) вимагають особливо сформований запит.
Відсутність поняття множника. Тобто. деякі прилади при опитуванні передають значення у вигляді цілого числа. А позиція коми серед таких приладів опитується окремо. І маючи такий множник, користувач міг би змінювати позицію коми. Наприклад, якщо за заданим каналом роздільник між цілим і дробовим значенням ставиться після першого числа, то множник 0.1 дозволяв би привести число в належний вигляд. І отримавши значення 123 система, помноживши це число на відповідний множник, видавала б результат 12.3.

Теги: Додати теги

Для професійного пошуку в Інтернеті потрібні спеціалізований софт, а також спеціалізовані пошукові системи та пошукові сервіси.

ПРОГРАМИ

http://dr-watson.wix.com/home – програма призначена для дослідження масивів текстової інформації з метою виявлення сутностей та зв'язків між ними. Результат роботи – звіт про об'єкт, що досліджується.

http://www.fmsasg.com/ - одна з найкращих у світі програм з візуалізації зв'язків та відносин Sentinel Vizualizer. Компанія повністю русифікувала свої продукти та підключила гарячу лініюросійською.

http://www.newprosoft.com/ - "Web Content Extractor" є найбільш потужним, простим у використанні ПЗ вилучення даних з web сайтів. Має також ефективний Visual Web павук.

SiteSputnik – програмний комплекс, що не має у світі аналогів, що дозволяє вести пошук та обробку його результатів у Бачному та Невидимому Інтернеті, використовуючи всі необхідні користувачеві пошуковики.

WebSite-Watcher – дозволяє проводити моніторинг веб-сторінок, включаючи захищені паролем, моніторинг форумів, RSS каналів, груп новин, локальних файлів. Має потужною системоюфільтрів. Моніторинг ведеться автоматично та поставляється у зручному для користувача вигляді. Програма із розширеними функціями коштує 50 євро. Постійно оновлюється.

http://www.scribd.com/ - Найбільш популярна в світі і все більш широко застосовується в Росії платформа розміщення різноманітних документів, книг і т.п. для вільного доступу з дуже зручним пошуковцем за назвами, темами тощо.

http://www.atlasti.com/ – являє собою найпотужніший і найефективніший з доступних для індивідуальних користувачів, невеликого і навіть середнього бізнесу інструмент якісного аналізу інформації. Програма багатофункціональна і тому корисна. Поєднує в собі можливості створення єдиного інформаційного середовища для роботи з різними текстовими, табличними, аудіо та відеофайлами як єдиним цілим, а також інструменти якісного аналізу та візуалізації.

Ashampoo ClipFinder HD – все більша частка інформаційного потоку посідає відео. Відповідно конкурентним розвідникам потрібні інструменти, що дозволяють працювати з цим форматом. Одним з таких продуктів є безкоштовна утиліта. Вона дозволяє шукати ролики за заданими критеріями на відеофайлових сховищах типу YouTube. Програма проста у використанні, виводить на одну сторінку всі результати пошуку з детальною інформацією, назвами, тривалістю, часом, коли відео було завантажене в сховище тощо. Є російська інтерфейс.

http://www.advego.ru/plagiatus/ - програма зроблена seo оптимізаторамиале цілком підходить як інструмент інтернет-розвідки. Плагіатус показує рівень унікальності тексту, джерела тексту, відсоток збігу тексту. Також програма перевіряє унікальність зазначеної URL-адреси. Програма безкоштовна.

http://neiron.ru/toolbar/ - включає надбудову для об'єднання пошуку Googleта Yandex, а також дозволяє здійснювати конкурентний аналіз, що базується на оцінці ефективності сайтів та контекстної реклами. Реалізований як плагін для FF та GC.

http://web-data-extractor.net/ – універсальне рішення для отримання будь-яких даних, доступних в Інтернеті. Налаштування вирізування даних з будь-якої сторінки здійснюється в кілька кліків миші. Вам потрібно просто вибрати область даних, яку ви хочете зберігати та Datacol сам підбере формулу для вирізання цього блоку.

CaptureSaver - Професійний інструмент дослідження інтернету. Просто незамінна робоча програма, що дозволяє захоплювати, зберігати та експортувати будь-яку інтернет інформацію, включаючи не тільки web сторінки, блоги, а й RSS новини, електронну пошту, зображення та багато іншого. Має найширший функціонал, інтуїтивно зрозумілий інтерфейс і смішну ціну.

http://www.orbiscope.net/en/software.html – система веб моніторингу за більш ніж доступними цінами.

http://www.kbcrawl.co.uk/ – програмне забезпечення для роботи, у тому числі у «Невидимому інтернеті».

http://www.copernic.com/en/products/agent/index.html - програма дозволяє вести пошук, використовуючи більше 90 пошукових систембільш ніж за 10 параметрами. Дозволяє поєднувати результати, усувати дублікати, блокувати неробочі посилання, показувати найбільш релевантні результати. Постачається у безкоштовній, особистій та професійній версіях. Використовується більш ніж 20 млн. користувачів.

Maltego – принципово нове програмне забезпечення, що дозволяє встановлювати взаємозв'язок суб'єктів, подій та об'єктів у реалі та в інтернеті.

СЕРВІСИ

new – ефективний пошуковик-агрегатор для пошуку людей в основних російських соціальних мережах.

https://hunter.io/ – ефективний сервіс для виявлення та перевірки email.

https://www.whatruns.com/ – простий у використанні, але ефективний сканер, що дозволяє виявити, що працює і не працює на веб-сайті та які дірки у безпеці. Реалізовано також як плагін до Chrom.

https://www.crayon.co/ – американська бюджетна платформа ринкової та конкурентної розвідки в інтернеті.

http://www.cs.cornell.edu/~bwong/octant/ – визначник хостів.

https://iplogger.ru/ - простий і зручний сервісдля визначення чужого IP.

http://linkurio.us/ – новий потужний продукт для працівників економічної безпеки та розслідувачів корупції. Обробляє та візуалізує величезні масиви неструктурованої інформації з фінансових джерел.

http://www.intelsuite.com/en - англомовна онлайн платформа для конкурентної розвідки та моніторингу.

http://yewno.com/about/ – перша діюча система перекладу інформації у знання та візуалізації неструктурованої інформації. В даний час підтримує англійську, французьку, німецьку, іспанську та португальську мови.

https://start.avalancheonline.ru/landing/?next=%2F - прогнозно-аналітичні сервіси Андрія Масаловича.

https://www.outwit.com/products/hub/ – повний набір автономних програм для професійної роботи на web 1.

https://github.com/search?q=user%3Acmlh+maltego – розширення для Maltego.

http://www.whoishostingthis.com/ - пошуковик з хостингу, IP адрес і т.п.

http://appfollow.ru/ - аналіз програм на основі відгуків, ASO оптимізації, позицій у топах і пошукових видачах для App Store, Google Play та Windows Phone Store.

http://spiraldb.com/ – сервіс, реалізований як плагін до Chrom, що дозволяє отримати безліч цінної інформації про будь-який електронний ресурс.

https://millie.northernlight.com/dashboard.php?id=93 - безкоштовний сервіс, що збирає та структурує ключову інформацію щодо галузей та компаній. Є можливість використання інформаційних панелей, заснованих на текстовому аналізі.

http://byratino.info/ – збір фактографічних даних з загальнодоступних джерелу мережі Інтернет.

http://www.datafox.co/ – CI платформа збирає та аналізує інформацію по компаніях, що цікавлять клієнтів. Є демо.

https://unwiredlabs.com/home - спеціалізований додаток з API для пошуку геолокації будь-якого пристрою, підключеного до інтернету.

http://visualping.io/ – сервіс моніторингу сайтів і в першу чергу фотографій та зображень, що є на них. Навіть якщо фотографія з'явилася на секунду, вона буде в електронній поштіпередплатника. Має плагін для G oogleC hrome.

http://spyonweb.com/ – дослідницький інструмент, що дозволяє здійснити глибокий аналіз будь-якого інтернет-ресурсу.

http://bigvisor.ru/ – сервіс дозволяє відстежувати рекламні компанії за певними сегментами товарів та послуг, або конкретним організаціям.

http://www.itsec.pro/2013/09/microsoft-word.html – інструкція Артема Агєєва щодо використання програм Windowsпотреб конкурентної розвідки.

http://granoproject.org/ – інструмент із відкритим вихідним кодомдля дослідників, які відстежують мережі зв'язків між персонами та організаціями у політиці, економіці, криміналі тощо. Дозволяє поєднувати, аналізувати та візуалізувати відомості, отримані з різних джерел, а також показувати суттєві зв'язки.

http://imgops.com/ – сервіс вилучення метаданих з графічних файлівта роботи з ними.

http://sergeybelove.ru/tools/one-button-scan/ - маленький он-лайн сканер для перевірки дірок безпеки сайтів та інших ресурсів.

http://isce-library.net/epi.aspx – сервіс пошуку першоджерел за фрагментом тексту англійською мовою

https://www.rivaliq.com/ – ефективний інструмент для ведення конкурентної розвідки на західних, насамперед, європейських та американських ринках товарів та послуг.

http://watchthatpage.com/ - сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

http://falcon.io/ – свого роду Rapportive для Web. Він не є заміною Rapportive, а дає додаткові інструменти. На відміну від Rapportive дає загальний профіль людини, як би склеєний із даних із соціальних мереж та згадок у web.http://watchthatpage.com/ – сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

https://addons.mozilla.org/ua/firefox/addon/update-scanner/ – додаток для Firefox. Слідкує за оновленнями веб-сторінок. Корисно для веб-сайтів, які не мають стрічок новин (Atom чи RSS).

http://agregator.pro/ - агрегатор новинних та медійних порталів. Використовується маркетологами, аналітиками тощо. для аналізу новинних потоків з тих чи інших тем.

http://price.apishops.com/ – автоматизований веб-сервіс моніторингу цін за вибраними товарними групами, конкретними інтернет-магазинами та іншими параметрами.

http://www.la0.ru/ – зручний та релевантний сервіс аналізу посилань та беклінків на інтернет-ресурс.

www.recordedfuture.com – потужний інструмент аналізу даних та їх візуалізації, реалізований як он-лайн сервіс, побудований на «хмарних» обчисленнях.

http://advse.ru/ – сервіс під слоганом «Дізнайся все про своїх конкурентів». Дозволяє відповідно до пошукових запитів отримати сайти конкурентів, аналізувати рекламні компанії конкурентів у Google та Yandex.

http://spyonweb.com/ – сервіс дозволяє визначити сайти з однаковими характеристиками, у тому числі такими, що використовують однакові ідентифікатори сервісу статистики Google Analytics, IP адреси тощо.

http://www.connotate.com/solutions – лінійка продуктів для конкурентної розвідки, управління інформаційними потоками та перетворення відомостей в інформаційні активи. Включає як складні платформи, і прості дешеві сервіси, дозволяють ефективно вести моніторинг разом із компресією інформації та отриманням лише потрібних результатів.

http://www.clearci.com/ - платформа конкурентної розвідки для бізнесу різних розмірів від стартапів і маленьких компаній до компаній зі списку Fortune 500. Вирішено як saas.

http://startingpage.com/ – надбудова на Google, що дозволяє вести пошук у Google без фіксації вашої IP-адреси. Цілком підтримує все пошукові можливості Google, у тому числі й російською мовою.

http://newspapermap.com/ – унікальний сервіс, дуже корисний для конкурентного розвідника. Поєднує геолокацію з пошуковцем он-лайн медіа. Тобто. ви вибираєте регіон, що вас цікавить, або навіть місто, або мову, на карті бачите місце і список он-лайн версій газет і журналів, натискаєте на відповідну кнопку і читаєте. Підтримує російську мову, дуже зручний інтерфейс.

http://infostream.com.ua/ – дуже зручна система моніторингу новин «Інфострім» від одного з класиків інтернет-пошуку Д.В.Ланде, що відрізняється першокласною вибіркою, цілком доступна для будь-якого гаманця.

http://www.instapaper.com/ – дуже простий та ефективний інструмент для збереження необхідних веб-сторінок. Може використовуватися на комп'ютерах, айфонах, айпадах та ін.

http://screen-scraper.com/ – дозволяє автоматично витягувати всю інформацію з веб-сторінок, завантажувати переважну більшість форматів файлів, автоматично вводити дані у різні форми. Завантажені файли та сторінки зберігає в базах даних, виконує безліч інших надзвичайно корисних функцій. Працює під усіма основними платформами, має повнофункціональну безкоштовну та дуже потужні професійні версії.

http://www.mozenda.com/- має кілька тарифних планіві доступний навіть для малого бізнесу веб сервіс багатофункціонального веб-моніторингу та доставки з обраних сайтів необхідної користувачеві інформації.

http://www.recipdonor.com/ - сервіс дозволяє здійснювати автоматичний моніторинг всього, що відбувається на сайтах конкурентів.

http://www.spyfu.com/ - а це, якщо у вас конкуренти іноземні.

www.webground.su – створений професіоналами Інтернет-пошуку сервіс для моніторингу Рунету, що включає всіх основних постачальників інформації, новин тощо, здатний до індивідуальних налаштувань моніторингу під потреби користувача.

ПОШУКНИКИ

https://www.idmarch.org/ – найкращий за якістю видачі пошуковик світового архіву pdf документів. Наразі проіндексовано понад 18 млн. pdf документів, починаючи від книг до секретних звітів.

http://www.marketvisual.com/ – унікальна пошукова система, що дозволяє вести пошук власників та топ-менеджменту з ПІБ, найменування компанії, займаної позиції або їх комбінації. У пошуковій видачі містяться не тільки об'єкти, що шукаються, але і їх зв'язки. Розрахована насамперед на англомовні країни.

http://worldc.am/ – пошуковик за фотографіями в вільному доступііз прив'язкою до геолокації.

https://app.echosec.net/ – загальнодоступна пошукова система, яка характеризує себе як найпросунутіший аналітичний інструмент для правоохоронних органів та професіоналів безпеки та розвідки. Дозволяє вести пошук фотографій, розміщених на різних сайтах, соціальних платформах та соціальних мережах у прив'язці до конкретних геолокаційних координат. Наразі підключено сім джерел даних. До кінця року їхня кількість становитиме понад 450. За наведення спасибі Дементію.

http://www.quandl.com/ – пошуковик по семи мільйонах фінансових, економічних та соціальних баз даних.

http://bitzakaz.ru/ – пошукач за тендерами та держзамовленнями з додатковими платними функціями

Website-Finder – дозволяє знайти сайти, які погано індексує Google. Єдиним обмеженням є те, що для кожного ключового словавін шукає лише 30 веб-сайтів. Програма проста у використанні.

http://www.dtsearch.com/ – найпотужніша пошукова система, що дозволяє обробляти терабайти тексту. Працює на робочому столі, в інтернеті та в інтранеті. Підтримує як статичні, і динамічні дані. Дозволяє шукати у всіх програмах MS Office. Пошук ведеться за фразами, словами, тегами, індексами та багато іншого. Єдина доступна система федерального пошуку. Має як платну, так і безкоштовну версію.

http://www.strategator.com/ – здійснює пошук, фільтрацію та агрегацію інформації про компанію з десятка тисяч веб-джерел. Шукає по США, Великій Британії, основним країнам ЄЕС. Відрізняється високою релевантністю, зручністю для користувача, має безкоштовні та платний варіант (14 $ на місяць).

http://www.shodanhq.com/ – незвичайна пошукова система. Одразу після появи отримав прізвисько Гугл для хакерів. Шукає не сторінки, а визначає IP адреси, типи роутерів, комп'ютерів, серверів та робочих станцій, розміщених за тією чи іншою адресою, простежує ланцюжки DNS серверів та дозволяє реалізувати багато інших цікавих функційдля конкурентної розвідки.

http://search.usa.gov/ – пошуковик по сайтам та відкритим базам усіх державних установ США. У базах є багато практичної корисної інформації, зокрема й у нашій країні.

http://visual.ly/ – сьогодні дедалі ширше для представлення даних використовується візуалізація. Це перша пошукова система інфографіки в Інтернеті. Одночасно з пошуковою системою на порталі є потужні інструменти візуалізації даних, що не потребують навичок програмування.

http://go.mail.ru/realtime - пошук по обговоренням тем, подій, об'єктів, суб'єктів в режимі реального, або настроюваного часу. Раніше вкрай критикований пошук Mail.ru працює дуже ефективно і дає цікаву релевантну видачу.

Zanran - щойно стартував, але вже добре працює перший і єдиний пошуковик для даних, що витягує їх з файлів PDF, таблиць EXCELданих на сторінках HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна з найкращих у світі систем пошуку інформації для конкурентної розвідки у «глибокому вебі». Витягує практично всі види файлів у всіх форматах по темі. Реалізовано як веб-сервіс. Ціни більш ніж прийнятні.

http://public.ru/ - Ефективний пошукта професійний аналіз інформації, архів ЗМІ з 1990 року. Інтернет-бібліотека ЗМІ пропонує широкий спектр інформаційних послуг: від доступу до електронним архівампублікацій російськомовних ЗМІ та готових тематичних оглядів преси до індивідуального моніторингу та ексклюзивних аналітичних досліджень, виконаних за матеріалами друку.

Cluuz – молода пошукова система з широкими можливостями для конкурентної розвідки, особливо в англомовному інтернеті. Дозволяє не лише знаходити, а й візуалізувати, встановлювати зв'язки між людьми, компаніями, доменами, електронною поштою, адресами тощо.

www.wolframalpha.com – пошуковик завтрашнього дня. на пошуковий запитвидає наявну по об'єкту запиту статистичну та фактологічну інформацію, у тому числі візуалізовану.

www.ist-budget.ru – універсальний пошук за базами даних держзакупівель, торгів, аукціонів тощо.

Збір даних не обов'язково має дорого коштувати. Насправді він не повинен коштувати ні копійки. Існує безліч відмінних безкоштовних інструментів, здатних виконувати ті ж функції, що й дорогі конструктори форм та опитувань.

Ось кілька найкращих безкоштовних додатківдля збору даних у вигляді форми чи опитування.

6 найкращих безкоштовних додатків для створення форм.

Конструктори форм – одні з найгнучкіших додатків. Їх можна використовувати для збору даних у таблиці, оплати покупок у вашому інтернет-магазині або для планування стартапу. За допомогою таких конструкторів легко створити контактну формудля сайту Вони схожі на цифрове лего: додайте необхідні елементи, налаштуйте і ваше творіння готове.

1. Google Forms: для інтеграції з таблицями Google.

Якщо ви вже використовуєте Google Docs, Google Sheets та Gmail, то не можна забувати і про Google Forms – чудову опцію для створення безкоштовних форм. Ця програма вбудовується в Google Apps, її дуже легко використовувати, до того ж вона автоматично синхронізується з Google Sheets. Цих функцій цілком достатньо для створення простої форми.

У Google Forms доступно більше 10 типів форм із зручним текстовим введенням даних. Створіть будь-яку кількість форм, додайте стільки варіантів відповіді, скільки може вмістити електронна таблиця – лімітів немає. Також ви можете використовувати скрипти Google Forms, щоб додати повідомлення, перевірку достовірності, логіку дій та багато іншого.

У програмі немає можливості завантажувати файли або приймати оплату. Теми форм досить прості, не важко визначити, що це продукт Google. Однак у ньому є всі основні функції, причому абсолютно безкоштовно.

2. Typeform: для форм із сучасним дизайном.

Безкоштовно надається необмежену кількість форм та відповідей. Доступ до таких додаткових функцій, як поля для здійснення оплати, можна отримати, оновивши програму.

3. Ninja Forms: створення форм для WordPress.

Іноді програми створення форм перевантажені непотрібними опціями. Якщо ви не бажаєте завантажувати файли або отримувати розгорнуті відповіді, а вам просто потрібні швидкі відповіді від аудиторії, то з цією функцією чудово впораються опитування.

Програми створення форм і опитувань дуже схожі, але останні ідеально підходять для того, щоб ставити прості питання і отримувати на них прості відповіді.

Ми розглянули основні поняття та терміни у рамках технології Data Mining. Сьогодні більш детально зупинимося на Web Mining та підходах до вилучення даних із веб-ресурсів.

Web Mining - це процес вилучення даних з веб-ресурсів, який, як правило, має більш практичну складову, ніж теоретичну. Основна мета Web Mining - це збір даних (парсинг) з подальшим збереженням потрібному форматі. Фактично завдання зводиться до написання HTML парсерів, і якраз про це поговоримо більш детально.

Є кілька підходів до отримання даних:

Аналіз DOM дерева, використовуючи XPath.
Парсинг рядків.
Використання регулярних виразів.
XML парсинг.
Візуальний підхід.

Розглянемо всі підходи детальніше.

Аналіз DOM дерева

Цей підхід ґрунтується на аналізі DOM дерева. Використовуючи цей підхід, дані можна отримати безпосередньо за ідентифікатором, ім'ям або іншими атрибутами елемента дерева (таким елементом може бути параграф, таблиця, блок і т.д.). Крім того, якщо елемент не позначений будь-яким ідентифікатором, то до нього можна дістатися деяким унікальним шляхом, спускаючись вниз по DOM дереву, наприклад:

Або пройтися по колекції однотипних елементів, наприклад:

Переваги цього підходу:

можна отримати дані будь-якого типу та будь-якого рівня складності
знаючи розташування елемента, можна отримати його значення, прописавши шлях до нього

Недоліки такого підходу:

різні HTML / JavaScript двигуни по-різному генерують DOM дерево, тому потрібно прив'язуватися до конкретного двигуна
шлях елемента може змінитися, тому, зазвичай, такі парсери розраховані на короткочасний період збору даних
DOM-шлях може бути складним і не завжди однозначним

Цей підхід можна використовувати разом із бібліотекою Microsoft.mshtml, яка, по суті. є core елементом у Internet Explorer.

HtmlDocument doc = New HtmlDocument();
doc.Load("file.htm");
foreach (HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href" ])
{
HtmlAttribute att = link["href"];
att.Value = FixLink(att);
}
doc.Save("file.htm");

Парсинг рядків

Незважаючи на те, що цей підхід не можна застосовувати для написання серйозних парсерів, я про нього трохи розповім.

Іноді дані відображаються за допомогою певного шаблону (наприклад, таблиця характеристик мобільного телефона), коли значення параметрів стандартні, а змінюються лише значення. У такому разі дані можуть бути отримані без аналізу DOM дерева, а шляхом парсингу рядків, наприклад, як це зроблено Data Extracting SDK:

Компанія: Microsoft
Штаб-квартира: Редмонд

Код:

string data = "
Компанія: Microsoft
Штаб-квартира: Редмонд
" ;
string company = data.GetHtmlString("Компанія: " , "
" );
string location = data.GetHtmlString("Штаб-квартира: " , "
" );
// output
// company = "Microsoft"
// location = "Редмонт"
* Цей source code був highlighted with Source Code Highlighter.

Використання набору методів для аналізу рядків іноді (частіше - простих шаблонних випадках) ефективніше, ніж аналіз DOM дерева або XPath.

Регулярні вирази та парсинг XML

Дуже часто бачив, коли HTML повністю парсували за допомогою регулярних виразів. Це в корені невірний підхід, тому що таким чином можна отримати більше проблем, ніж користі.

Регулярні вирази необхідно використовувати лише для вилучення даних, які мають строгий формат - електронні адреси, телефони тощо, у поодиноких випадках - адреси, шаблонні дані.

Ще одним неефективним підходом є розглядати HTML як XML дані. Причина у цьому, що HTML рідко буває валідним, тобто. таким, що його можна розглядати як дані XML. Бібліотеки, які реалізували такий підхід, більше часу приділяли перетворення HTMLв XML і потім безпосередньо парсингу даних. Тому краще уникайте цього підходу.

Візуальний підхід

В даний момент візуальний підхід знаходиться на початковій стадії розвитку. Суть підходу полягає в тому, щоб користувач міг без використання програмної мови або API «налаштувати» систему для отримання потрібних даних будь-якої складності та вкладеності. Про щось схоже (щоправда застосовується в іншій області) - методи аналізу веб-сторінок на рівні інформаційних блоків, я вже писав. Думаю, що парсери майбутнього будуть візуальними. Проблеми при парсингу HTML даних - використання JavaScript/AJAX/асинхронних завантажень дуже ускладнюють написання парсерів; різні двигуни для рендерингу HTML можуть видавати різні DOM дерева (крім того, двигуни можуть мати баги, які потім впливають на результати роботи парсерів); великі обсяги даних вимагають писати розподілені парсери, що спричиняє додаткові витрати на синхронізацію.

Не можна однозначно виділити підхід, який буде 100% застосовний у всіх випадках, тому сучасні бібліотеки для парсингу HTML даних, як правило, комбінують, різні підходи. Наприклад, HtmlAgilityPack дозволяє аналізувати дерево DOM (використовувати XPath), а також з недавніх пір підтримується технологія Linq to XML. Data Extracting SDK використовує аналіз DOM дерева, містить набір додаткових методів для парсингу рядків, а також дозволяє використовувати технологію Linq для запитів у DOM моделі сторінки.

Сьогодні абсолютним лідером для парсингу HTML даних для дотнетчиків є бібліотека HtmlAgilityPack, але заради інтересу можна подивитися і на інші бібліотеки.

Парсери – це програми або скрипти, які здійснюють збирання різного контенту з інших сайтів. Залежно від вимог можуть бути налаштовані повне або часткове копіювання контенту вибраного сайту. Поділяються на вузькоспецілізовані (копіюють текст або зображення) та універсальні (копіюють текст та картинки разом). В основному використовуються для парсингу контенту сайтів та результатів видачі пошукових систем. Парсери сайтів допомагають вебмайстру збирати контент, аналізувати його та наповнювати їм свої проекти.