Новини високих технологій
» » Парсер - це відповідь на правильно поставлене питання

Парсер - це відповідь на правильно поставлене питання

11-12-2017, 22:20
898
Парсинг отримав хорошу практику, став складовим елементом пошуку, накопичив досвід безпечного використання регулярних виразів і став причиною нових ідей. Просто аналізувати контент сайтів вже не так актуально, як раніше. Наприклад, від пошукової видачі користувач очікує більшого, ніж просто переліку сайтів, де зустрічається бажане ключове слово.
Пошукові машини вже навчилися не тільки відмінювати ключові слова, але і набули уявлення про контексті в природному сенсі, а не в сенсі змісту веб-сторінки. Якість пошукової видачі отримало реальну практичну цінність.


Формули пошуку і логіка парсинга

Регулярні вирази – це дивні і незвичні форми запису того, що потрібно знайти і розібрати по поличках. Помилка в регулярному виразі обходиться дуже дорого. Але регулярки швидко завоювали довіру розробників, які навчилися користуватися ними безпечно і практично. При цьому позиції звичайних строкових операцій анітрохи не похитнулися. Парсинг став звичним і затребуваним. Парсер сайтів – це будь-збір і аналіз інформації. Це може бути сторонній продукт або алгоритм, написаний власними силами, для конкретної області застосування. Це очікуване рішення для аналізу цін на аналогічні товари у конкурентів. Це збір інформації по новим програмним продуктам. Це аналіз динаміки курсів біржі і багато інші завдання. Парсер сайтів – це прагнення відображати на своєму веб-ресурсі те, до чого звик відвідувач. Аналіз та пошук ключових моментів, які роблять конкурентів успішними, і застосування цієї інформації для досягнення своїх цілей.


Потоки інформації і обсяг інтересу відвідувачів

Інформація, як лавина – зростає в обсязі по ходу руху, а в контексті змінюється безперервно. Але залишається доступною і та інформація, яка вже застаріла. Інтернет придбав пам'ять, тобто пошукові видачі пам'ятають минуле нітрохи не гірше, ніж знаходять справжнє.
Ресурси інтернету старіють, але не зникають. Загальна інформаційна картина складається, як скельні породи, шарами. При цьому немає ніякої гарантії, що в певній точці інтернету десяток нових ресурсів сумнівного змісту закрив собою дійсно застарілий контент. Історія ІТ-технологій знає безліч подій, які були невиправдано забуті, і для відродження інтересу до них потрібен час. Сьогодні парсер – це не просто розбір польотів, це і оцінка ситуації, та визначення точок актуальності в загальному потоці інформації. Обсяг інтересу відвідувачів до тієї чи іншої теми – прекрасна ідея для парсинга інтересів . Узагальнюючи динаміку руху відвідувача за власним ресурсу або пропонуючи відвідувачу питання, пропозицію, посилання чи інший варіант залучення уваги для визначення ймовірної реакції, розробник переходить на інший рівень роботи. Парсер – це вже не розбір контенту, а дослідження свіжої реакції на конкретні ініціативи. Якщо раніше парсинг просто шерстив обсяги інформації, то сьогодні він пропонує питання і досліджує відповіді на них.

Точки актуальності в потоці інформації

ООП, хмари, штучний інтелект, захист від DDoS-атак, але де гарантія що саме це актуальне і затребуване. Все перераховане і багато іншого і так відомо, в тій чи іншій мірі використовується, і парсинг за такими фразами не відкриє нічого нового.
Але ООП зокрема це не просто jаvascript або PHP. І в тому, і в іншому мові є серйозні відмінності, які істотні, чудово доповнюють один одного і не суперечать у використанні. PHP-парсер може передавати дані в jаvascript браузера і отримувати назад реакцію відвідувача. Відвідувач – це людина, і ця людина несе в собі фактор актуальності, його дії у будь-якому випадку виражають його зацікавленість у вирішенні конкретної проблеми, пошуку інформації по конкретній задачі. Сучасний парсер – це не формальний вираз, це – спосіб використовувати відвідувача (людини) для досягнення конкретної мети. Нехай шукає людина, а не машина. Навіщо витрачати сили і придумувати мудренные механізми парсинга, коли природний інтелект сам по собі хоче допомогти слідству і дізнання. Визначення точки актуальності у людини вийде набагато краще, ніж у будь-якого самого швидкого, але штучно-розумного комп'ютера. До реально розумних машин прогрес ще не дійшов, так чому б не використати природні можливості людини?

Оракули і Oracle

Медіуми в житті і програмуванні зустрічаються донині: містика вічна і затребувана. Oracle реально існує: пройшовши важкий і значущий шлях, Oracle створив плеяду чудових програмних продуктів, виконав великий обсяг якісної роботи. Це чудово, але на початку ери обчислювальної ідеї, до яких прийшов Oracle сьогодні, вже були, але їх незаслужено забули.
Сьогодні теж є ідеї. І на цей раз авторитет лідера може їх також закрити. Сьогодні парсер – це об'єктивний інструмент аналізу ситуації, і не варто апелювати до чисто програмному розв'язанню. Розробник повинен проявити інтуїцію перш, ніж покладе в основу алгоритму пошук потрібного рішення.
Розбирати гіпертекст або природний текст сьогодні може навіть школяр, навіть не написавши жодного рядка коду. Але це буде статичний варіант парсингу. Це будуть алгоритми вчорашнього дня. Сьогодні парсер – це ідея дослідження ідей, а не статичної інформаційного баласту. Інформації завжди океан, але мета корабля - доставити вантаж і пасажирів, а не плавати по хвилях прогресу та інформаційних явищ.
У вільний від основної роботи час можна спорудити парсер "ВКонтакте" і знаходити задоволення від пошуку яких-небудь рішень. Але там не те суспільство, воно не допоможе знайти рішення, як створити непряме спадкування в реалізації ООП на мові PHP і визначити концепцію існування систем об'єктів на сервері в моменти відсутності відвідувача, який ініціював її створення. А це, між іншим, вельми актуально, хоча і далеко не всім зрозуміло.

Не все актуально, що зрозуміло

Інтелект у своєму розвитку завжди проходить три стадії і гальмує на четвертій. Перші три: ситуація – ситуативний інтелект; репродукція – репродуцирующий інтелект; контекстуальна інтелект – рішення реальних задач. Четверта стадія природного інтелекту – вміння застосовувати активні знання на нових територіях. Там, де не ступала нога людини і прогресу. Це важко, але можливо. Теорія рішення винахідницьких завдань більше тридцяти років тому показала реальність і практичність трансформації знань з однієї області в іншу. Це було тоді реально значуща подія і, ймовірно, це хороший привід сьогодні згадати про це.
Цікаво по темі
Javascript Object: створення об'єктів і робота
Javascript Object: створення об'єктів і робота
Об'єкти jаvascript - це, насамперед, об'єктна модель сторінки - DOM. Функціональні можливості мови також реалізовані в якості об'єктів, і
Математика від JavaScript Math
Математика від JavaScript Math
Об'єкт Math мови jаvascript реалізує практичний набір математичних функцій. Складні розрахунки можна виконувати всередині браузера, не
Метапошукові системи: приклади, принцип роботи
Метапошукові системи: приклади, принцип роботи
Пошук інформації за допомогою метапоискових систем набагато ефективніше класичного використання різних ПС. Адже вони відображають набагато більше
Динамічний скролінг – це що таке?
Динамічний скролінг – це що таке?
Браузери звикли надавати інформацію по шматочках, плавно, посторінково, з смугами прокрутки або з кнопками, вертикально або горизонтально. Але ніщо