Новини високих технологій
» » Програми OCR: розпізнавання тексту, списки, розробники, вага програми, виконувані функції, характеристики, особливості роботи та відгуки користувачів

Програми OCR: розпізнавання тексту, списки, розробники, вага програми, виконувані функції, характеристики, особливості роботи та відгуки користувачів

5-09-2018, 19:55
3 348
Папір як основний носій інформації, поступово втрачає своє значення. Замість паперових документів використовують їх електронний варіант, якщо це можливо. Але як перевести в електронний вигляд наявні архіви? Для вирішення цієї задачі були створені спеціальні програми для розпізнавання тексту.

Що таке OCR-програми і як вони працюють

Ці програмні продукти, що використовують технологію ORC (Optical character recognition) або ICR (Intelligence character recognition). На російську мову ці абревіатури переводяться як «оптичне» або «інтелектуальне розпізнавання символів». Програми, що використовують OCR, працюють таким чином. Фотографія з текстом, отримана від сканера, розбивається на безліч фрагментів. Для кожного з них програма створює кілька припущень. Перевіряючи і порівнюючи їх з еталонами, кожного фрагменту дає оцінку, відповідну ступеня збіги. Вибираючи найбільшу з них, програма «бачить» символ і виводить його в полі вбудованого текстового редактора.


IRC працює за тим же принципом, але для обробки символів використовуються штучні нейронні мережі. Головна перевага цього способу – це компактність програм і безперервне навчання. Це дозволяє ефективно розпізнавати слова, написані людиною рукописними буквами. Але ця технологія не здатна «прочитати» суцільний рукописний текст. Для кожної з існуючих операційних систем розроблені власні OCR-програми. Найбільш популярними для роботи в ОС Windows є: ABBYY FineReader; OmniPage; Readiris; Samsung Scan OCR Program; Крім програм для ПК є багато онлайн-сервісів по розпізнаванню тексту. Серед них найбільш відомі FineReader Online, OnlineOCR, FreeOCR.


ABBYY FineReader 14

Цей програмний продукт розроблений вітчизняною компанією ABBYY, є однією з кращих серед програм, що використовують OCR. Основу програми становить оригінальний движок під назвою Finereader Engine. Він надає наступні можливості: Швидке розпізнавання друкованого тексту з точністю вище 98 %. Несприйнятливість до якості вихідного зображення. Це дозволяє однаково розпізнавати текст фотографіях, отриманих за допомогою сканера або камери. Технологія ADRT дозволяє розпізнавати не тільки текст, а й його форматування: шрифт, відступи, абзаци, колонки. Можливість многопоточной обробки зображення. Це дозволяє задіяти всі ядра процесора (максимум 4) для прискорення процесу розпізнавання. Підтримка більше 190 мов, включаючи ті, які використовують алфавіт, відмінний від латиниці або кирилиці (японська, китайська, арабська). Вбудований текстовий редактор дозволяє перевірити результат розпізнавання або відредагувати його. Взаємодія з пакетом Office. Воно дозволяє експортувати розпізнаний текст у Microsoft Word і Exel для подальшої обробки. Можливість навчання програми. Ця функція дозволяє навчити програму «читати» специфічні накреслення літер. Наприклад, нестандартний шрифт або друковані літери, написані рукою. Робота з PDF. FineReader дозволяє розпізнавати текст цього типу файлів і «зшивати» кілька відсканованих зображень в PDF або PDF/A.
Головний недолік цієї програми – ціна. Безстрокова ліцензія для базової версії обійдеться в 7 тисяч рублів. Версії "Бізнес" і "Ентерпрайз" – в 12 і 39 тисяч рублів, відповідно. Якщо ж передбачається використовувати програму лише вдома, то можна завантажити з торрент-трекера зламану 11-ю і 12-ю версію продукту.
Системні вимоги: Процесор: 32 - або 64-бітний, з тактовою частотою 1 ГГц і підтримкою набору інструкцій SSE 2. (Intel Celeron M і краще, AMD Athlon 64 і краще). Оперативна пам'ять: 1 ГБ. Якщо процесор має більше 1 ядра, то для кожного додатково потрібно 512 МБ. Відеокарта: будь-яка, що підтримує роздільну здатність 1024 х 800. Жорсткий диск: 3 ГБ для установки і роботи. Сканер: підтримує драйвери TWAIN і WIA. ОС: Windows 788110.

Думка користувачів про FineReader 14

Вони відгукуються про FineReader позитивно, виділяючи серед достоїнств здатність продукту розпізнавати текст з поганих паперових оригіналів, зручний і простий інтерфейс і високу швидкість обробки зображень. Серед проблем, які виникають при використанні цієї OCR-програми, деякі юзери відзначають некоректно працюючий менеджер зображень. Наприклад: неадекватна робота регулювання яскравості відсканованого зображення.

OmniPage 18

Основний конкурент FineReader на російському ринку ORC-програм. По функціоналу вона дуже схожа на опонента, але має кілька відмінностей: Можливість запуску процесу сканування і розпізнавання за допомогою кнопок сканера. Підтримка 4-ядерних процесорів. Це дозволяє зменшити час розпізнавання і перетворювати кілька зображень одночасно. Створення власної електронної бібліотеки для букридера (електронної книги Kindle. Автоматичне визначення визначеної мови.
Серед недоліків програми можна відзначити низьку швидкість роботи, порівнянну з 10-ю версією FineReader, і ціну за ліцензійну копію – 150 доларів.
Системні вимоги: Процесор: x32 або x64-бітний, з тактовою частотою 1 ГГц, Intel Pentium і краще, AMD Athlon і краще. Оперативна пам'ять: 512 МБ. Відеокарта: будь-яка, підтримує роздільну здатність 1024 х 800 і глибину кольору 16 біт. Жорсткий диск: 11 ГБ для установки всіх компонентів і 100 МБ для роботи. Сканер: підтримує драйвери TWAIN,WIA і ISIS. ОС: Windows XP SP3Vista SP2 x32/x6478.

Думка користувачів про OmniPage

Говорять вони про неї різко негативно, тому що проблеми є у всіх частинах програми, починаючи від красивого, але незрозумілого інтерфейсу, і закінчуючи поганий довідковою інформацією. Продукт не адаптований до роботи в WinXP. Його можна примусити працювати, але доведеться витратити якийсь час. OmniPage має проблеми з розпізнаванням. Наприклад: він легко розпізнає простий чорний текст на аркуші паперу з малюнками, таблицями, отриманий зі сканера. При використанні зображень з фотоапарата або мобільного телефону точність розпізнавання падає до 70 %, а це дуже незручно при обробці великих документів.

Також 18-я версія може не запуститися із-за помилок в коді. Для усунення цієї проблеми потрібно встановити патч 1801.

Read Iris Pro 17

Read Iris - це OCR-програма, що за менші гроші (8000 проти 12000) здатна зрівнятися по функціоналу і продуктивності з FineReader. Професійна версія володіє наступними можливостями: Повноцінна робота з PDF: розпізнавання, створення файлів для баз даних, стиснення і озвучення тексту. Підтримка 140 мов. Розпізнавання паперових таблиць і текстів з можливістю експорту в Exel та Word. Отримання зображень з будь-якої моделі сканера.
Також існує корпоративна версія, що дозволяє захищати файли PDF водяними знаками і працювати з документами об'ємом більше 50 сторінок. Системні вимоги: Процесор: x86 або x64 з тактовою частотою 1 ГГц або вище. Оперативна пам'ять: 1 ГБ. Відеокарта: будь-яка, що підтримує дозвіл 1024 х 800. Жорсткий диск:400 МБ для установки. Сканер: підтримує драйвери TWAIN,WIA. ОС: Windows 7810 x32/x64.

Думка користувачів про ReadIris

Вони відгукуються про цю OCR-програми розпізнавання тексту як про хороше і швидкому PDF to Word конвертері з низкою проблем: Складний інтерфейс, в якому новачкові нелегко розібратися. Автоматичне пересканування документа при зміні області сканування. Погана технічна підтримка. Іноді програма не активується з-за помилок в коді програми.

Samsung Scan OCR Program – що це за програма?

Це безкоштовне програмне забезпечення, що входить в комплектацію багатофункціональних пристроїв «3 в 1» (принтер, сканер, копір) від компанії "Самсунг". Воно розроблено у співпраці з компанією Iris, створила ReadIris Pro, оптимізований для роботи з МФУ цього виробника. Від оригінального "Ридирис" Samsung Scan ORC відрізняється інтерфейсом, урізаним функціоналом і розмірами – на жорсткому диску вона займає 40 МБ.

Онлайн-сервіси

Вони є альтернативою ресурсномістким стаціонарним програм для розпізнавання тексту. Наприклад, OCR програмі FineReader. Властивості систем подібних проектів дозволяють розпізнавати текст з зображень набагато швидше, ніж на автономному ПК. Серед сервісів, що займаються отриманням тексту з фотографій, можна виділити 3 найбільш зручних: FineReaderOnline, FreeOCR, OnlineOCR.
Перший є прямим розвитком стаціонарної версії продукту. При реєстрації новому користувачеві дається 10 безкоштовних сторінок для обробки і 5 кожен місяць. Зняти це обмеження можна, купивши річну підписку за 3200550017800 рублів за 20005000 і 10000 сторінок відповідно. Якщо у користувача є ліцензія для FineReader 14 то йому достатньо зареєструватись і активувати її для використання в онлайн-версії. В цьому випадку він отримає кількість сторінок, відповідне типу придбаної ліцензії: "Стандарт" (2000), "Бізнес" (5000) або "Ентерпрайз" (10000).
Сервіс OnlineOCR.com дозволяє перетворювати 15 зображень/год (обмеження для незареєстрованих користувачів) у текст і зберігати їх у вигляді файлів .docx, .xlsx або .txt. Після реєстрації стає доступним: Збереження .pdf .doc, .xlx, .rtf. Перетворення багатосторінкових PDF-файлів. Кількість сторінок збільшується до 50.
Якщо сторінок недостатньо, то їх можна придбати в кількості 50-50000 штук.
Проект FreeOCR.com відрізняється від попереднього своєю повною безкоштовністю і відсутністю обмежень на кількість оброблюваних сторінок. OCR-движок цього сайту підтримує російську, українську, турецький, в'єтнамський і всі європейські мови – всього 29. Єдиним недоліком цього порталу є робота тільки з графічними зображеннями, які завантажуються послідовно, так як черга обробки не передбачена творцями. Виводиться розпізнана інформація без будь-якого форматування у форматі TXT.

Думка користувачів про онлайн-OCR-сервісах

Ці сайти необхідні в тих випадках, коли завантаження та встановлення повноцінної ORC-програми недоцільна. Наприклад, для вставки в реферат декількох об'ємних цитат з книги або журналу. Серед недоліків таких сайтів виділяють умовну безкоштовність (FineReader) і слабкий функціонал (FreeOCR,OnlineOCR). Підводячи підсумок, можна сказати, що OCR-програми розпізнавання тексту з зображенням або PDF-файлів створено чимало, а у статті наведено лише найвідоміші. Тому OCR-програми для сканера кожен користувач зможе підібрати собі у відповідності з вимогами та бюджетом. Або скористатися одним з безлічі безкоштовних OCR-сервісів.
Цікаво по темі
Огляд декількох програм для роботи зі сканерами
Огляд декількох програм для роботи зі сканерами
Хоча в системі Windows є вбудовані засоби сканування, вони не завжди можуть задовольнити користувача своїм функціоналом і підходять більше для
Як відсканувати фото на комп'ютер сканером або БФП?
Як відсканувати фото на комп'ютер сканером або БФП?
Більшість власників офісного обладнання знають, що таке сканер і процес сканування. Тим не менше багато починаючі користувачі не знайомі з цією
Сканування - це просто. Популярні програми
Сканування - це просто. Популярні програми
За допомогою сучасних багатофункціональних пристроїв користувачі ПК можуть не тільки друкувати документи і фотографії, але і заносити їх через сканер
Як перевести текст з картинки – програма. Розпізнавання тексту
Як перевести текст з картинки – програма. Розпізнавання тексту
Не підлягає сумніву той факт, що іноді доводиться працювати з документами, що містять графічні зображення з якимось текстом іноземною мовою, який
Програма для сканера: огляд кращих
Програма для сканера: огляд кращих
У даній статті наведено короткий опис декількох програм для сканування. Вони допоможуть оцифрувати документи або створити електронні копії паперових
Програма для сканування і розпізнавання: огляд інструментів
Програма для сканування і розпізнавання: огляд інструментів
Для оцифровки книг або перекладу тексту з графічного зображення в редагований формат існує чимало спеціалізованих інструментів. Кращі з них описані в