Настройка FineReader (утилиты HotFolder & Scheduling) для потокового сканирования
Настройка FineReader (утилиты HotFolder & Scheduling) для потокового сканирования
Допустим, имеется шкаф с бумажными документами: договорами, юридической
или бухгалтерской документацией, офисной корреспонденцией и др. (Но
только это не документы-формы, и создается не база данных, это - особая технология.). В шкафу – сотня папок, в каждой по 150 листов =
300 страниц, итого – 30 тысяч страниц.
Для решения «максимум эффекта при минимуме затрат» понадобится:
- Документный
сканер – например, дуплексное устройство с рекомендованной
нагрузкой до 3000 листов в день. Архив отсканируется за 5 дней. Цена
порядка 15 тыс грн. Возможно, подойдет и офисное МФУ, но автоподатчик
обязателен, и надо обратить особое внимание на характеристики сканирования.
- ABBYY
FineReader Corporate Edition – именно эта версия, т.к. у нее есть
возможность запуска задач по расписанию, без участия человека. Стоимость
лицензии на рабочее место – около 900 грн, конкурентной ("плавающей") –
около 1500 грн.
- Производительная рабочая станция. Например, ноутбук с iCore 5, 2
ядра, 4Г ОЗУ тратит менее 4 секунд на страницу А4 хорошего качества.
Скорость может быть ниже при падении качества изображений. Предполагаем, что такая рабочая станция не будет стоить нам
дополнительных денег, т.к. мы планируем ее нагружать в нерабочее (ночное)
время. При скорости 15 стр/мин (4 секунды на страницу) за 10 часов с
22-00 до 8-00 понадобится 4 дня.
- Люди, которые будут
укладывать документы в сканер. В самом простом случае придется доставать
документы из папки и укладывать в автоподатчик и класть отсканированные бумаги на место (если
документы одностраничные). Если же они многостраничные, то придется каждый
документ отделить от следующего пустой страницей – мы же хотим, чтобы каждый
документ сохранился в отдельный файл? Допустим, что человек за минуту способен
обработать 10 таких листов. Пусть чистой работы в день получится 4 часа. Тогда это дает 4,8 тыс страниц в день, или меньше 7 дней на весь архив.
Итого, общая стоимость порядка 16000 грн «внешних» затрат плюс сканер, который останется во владении организации. По времени – около 7 человеко-дней. Больше людей и сканеров – будет быстрее. Сканирование – основной критический путь проекта.
Справедливости ради отметим ограничения подхода:
- Нет
проверки распознавания (верификации).
Это значит, что при качественном распознавании в большинстве случаев
информация будет находиться. Это уже неплохое достижение, но для 100%
гарантии потребовалась бы проверка каждой страницы человеком.
Верифицировать или нет – отдельная интересная тема, о ней в другой раз
- Исходные документы
не прошиты и не простеплены. Иначе времени на их расшивание и
сборку потребуется гораздо больше. Возможно, даже придется рассмотреть
вариант фотографирования вместо сканирования.
И последнее.
Как сконфигурировать FineReader? Точнее, не сам FineReader, а утилиту
HotFolder & Scheduling, которая идет в его составе. Смотрите скриншоты. Документы открываются из одной папки,
а результат складывается в другую или на MS Sharepoint. Также указывается время начала сканирования.
|