Парсити - що це значить? Визначення та цілі

34 0 Новини високих технологій

Гуглити давно вже стало звичкою. Причому зовсім неважливо, який пошуковий механізм для цього використовувати. Google - це ідея, а як її реалізувати, питання друге. Яку пошукову машину не використав людина, в результаті він прагне отримати потрібне рішення швидко і правильно. У більшості випадків достатньо погортати потрібні книжки і знайти інформацію. Але завжди все хочеться зробити швидше і якісніше.

Парсити - що це значить? Визначення та цілі

Класичний парсинг інформації

Читати книжки - парсити. Що це означає? Це коли людина просто не розуміє прочитане і оцінює його щодо автора і видавництва. Але це дуже ефективний процес, хоча тривалий і трудомісткий.


Набагато ефективніше використовувати пошукові машини інтернету: швидко і багато інформації. Є вибір. Проте пошук в інтернеті:
  • не дає гарантії свіжості результату;
  • не дає гарантованого авторитету автора;
  • без видавництва, редактора чи хоча б одного цензора написаному.
  • Але пошук в інтернеті швидкий і об'ємний - є вибір. А якщо вибірка велика, то узагальнення результату дає необхідні гарантії. Можна парсити на PHP і тоді автоматом можна оцінити свіжість кожного елемента вибірки, але рідкісна пошукова машина не перевіряє відвідувача на робота і в обов'язковому порядку вимагатиме капчу або іншим чином постарається підтвердити відвідування людиною, а не роботом або павуком.

    Інтернет-парсинг

    В інтернеті є сайти і пошукові машини. Перші надають інформацію, другі пропонують інформацію, яку зібрали самі, аналізуючи численні сайти тривалий час.
    Парсити - що це значить? Визначення та цілі
    Знайти потрібні сайти не так легко для конкретної мети. Скористатися пошуковими машинами просто для людини, але не для завдання парсити PHP-скриптом, "інтелектуальним" AJAX-запиту або іншим оригінальним чином.


    Пошуковці намагаються працювати на людину і "безкоштовно" віддавати результати багаторічної роботи по розробці алгоритмів пошуку і парсинга інформації не мають наміру. Відповісти на капчу не кожному PHP-скрипту можливо, тому питання про те, як парсити сайти, фактично означає: як створити власну пошукову машину. Багато авторитетні пошуковики не обмежуються капчі для перевірки того, хто звернувся із запитом. Є безліч більш простих способів виявити робота або павука. Результат вибірки буде небажаним для "шукача" інформації.

    Визначення мети

    Пошук інформації - пошук сайтів або джерел інформації. Книжкові видання та інші класичні форми вираження знань і досвіду, підтверджені авторитетними авторами, редакторами, видавництвами, - це не парсинг, це тривалий, переконливо вірний процес пошуку потрібної інформації.
    Парсити - що це значить? Визначення та цілі
    А в сучасному інформаційному світі парсити - що це значить? Цю задачу вирішує конкретний скрипт, написаний конкретним програмістом для вирішення конкретної задачі. Постановник завдання може і не припускати, що і як робить цей скрипт. Але він завжди знає, що і як він хоче знайти. При будь-якому положенні речей визначення мети замовника - завдання виконавця. Але питання навіть не в тому, наскільки повно вони зрозуміють один одного, питання в тому, як зробити якісний парсинг. Хороша ідея - поставити мету знайти свіжу інформацію, точну і об'єктивно достовірну. Відмінна ідея - визначити досягнення мети як правильний рух по тегам сторінок. HTML - це реальна середовище для представлення інформації, і вона ідеально точно дозволяє відрізнити потрібну інформацію від рекламного спаму.