Новини високих технологій
» » Парсити - що це значить? Визначення та цілі

Парсити - що це значить? Визначення та цілі

14-02-2018, 20:41
1 600
Гуглити давно вже стало звичкою. Причому зовсім неважливо, який пошуковий механізм для цього використовувати. Google - це ідея, а як її реалізувати, питання друге. Яку пошукову машину не використав людина, в результаті він прагне отримати потрібне рішення швидко і правильно. У більшості випадків достатньо погортати потрібні книжки і знайти інформацію. Але завжди все хочеться зробити швидше і якісніше.

Класичний парсинг інформації

Читати книжки - парсити. Що це означає? Це коли людина просто не розуміє прочитане і оцінює його щодо автора і видавництва. Але це дуже ефективний процес, хоча тривалий і трудомісткий.


Набагато ефективніше використовувати пошукові машини інтернету: швидко і багато інформації. Є вибір. Проте пошук в інтернеті: не дає гарантії свіжості результату; не дає гарантованого авторитету автора; без видавництва, редактора чи хоча б одного цензора написаному. Але пошук в інтернеті швидкий і об'ємний - є вибір. А якщо вибірка велика, то узагальнення результату дає необхідні гарантії. Можна парсити на PHP і тоді автоматом можна оцінити свіжість кожного елемента вибірки, але рідкісна пошукова машина не перевіряє відвідувача на робота і в обов'язковому порядку вимагатиме капчу або іншим чином постарається підтвердити відвідування людиною, а не роботом або павуком.

Інтернет-парсинг

В інтернеті є сайти і пошукові машини. Перші надають інформацію, другі пропонують інформацію, яку зібрали самі, аналізуючи численні сайти тривалий час.
Знайти потрібні сайти не так легко для конкретної мети. Скористатися пошуковими машинами просто для людини, але не для завдання парсити PHP-скриптом, "інтелектуальним" AJAX-запиту або іншим оригінальним чином.


Пошуковці намагаються працювати на людину і "безкоштовно" віддавати результати багаторічної роботи по розробці алгоритмів пошуку і парсинга інформації не мають наміру. Відповісти на капчу не кожному PHP-скрипту можливо, тому питання про те, як парсити сайти, фактично означає: як створити власну пошукову машину. Багато авторитетні пошуковики не обмежуються капчі для перевірки того, хто звернувся із запитом. Є безліч більш простих способів виявити робота або павука. Результат вибірки буде небажаним для "шукача" інформації.

Визначення мети

Пошук інформації - пошук сайтів або джерел інформації. Книжкові видання та інші класичні форми вираження знань і досвіду, підтверджені авторитетними авторами, редакторами, видавництвами, - це не парсинг, це тривалий, переконливо вірний процес пошуку потрібної інформації.
А в сучасному інформаційному світі парсити - що це значить? Цю задачу вирішує конкретний скрипт, написаний конкретним програмістом для вирішення конкретної задачі. Постановник завдання може і не припускати, що і як робить цей скрипт. Але він завжди знає, що і як він хоче знайти. При будь-якому положенні речей визначення мети замовника - завдання виконавця. Але питання навіть не в тому, наскільки повно вони зрозуміють один одного, питання в тому, як зробити якісний парсинг. Хороша ідея - поставити мету знайти свіжу інформацію, точну і об'єктивно достовірну. Відмінна ідея - визначити досягнення мети як правильний рух по тегам сторінок. HTML - це реальна середовище для представлення інформації, і вона ідеально точно дозволяє відрізнити потрібну інформацію від рекламного спаму.
Цікаво по темі
Що таке парсинг: мета і логіка
Що таке парсинг: мета і логіка
Обробка інформації характеризується динамікою вихідних даних або необхідністю обробки даних з різних джерел за алгоритмами. В обох випадках
Парсер - це відповідь на правильно поставлене питання
Парсер - це відповідь на правильно поставлене питання
Прийняття правильних рішень можливе на підставі актуальної інформації. Коли з'явилася ідея парсинга, на динаміку інформації було звернуто увагу. Але
Метапошукові системи: приклади, принцип роботи
Метапошукові системи: приклади, принцип роботи
Пошук інформації за допомогою метапоискових систем набагато ефективніше класичного використання різних ПС. Адже вони відображають набагато більше
Пошуковий сервер: що це таке, перелік, переваги і недоліки
Пошуковий сервер: що це таке, перелік, переваги і недоліки
Пошуковики допомагають користувачам інтернету знайти потрібну інформацію. У рядку пошуку людина вводить свій запит: ключове слово для пошуку або