Форум ABBYY FineReader

Добро пожаловать в форум, гость

 Вход

 Регистрация


Форум ABBYY FineReader -> Распознавание PDF-файлов -> Распознавание фотографии книги в pdf
Поиск по форуму FAQ форума Правила форума

Страницы [1] 2 3    все  

Ответить

cyrill

Отправлено 19 дек 07, 10:57 [NEW]    Сообщить модератору   Цитировать

Распознавание фотографии книги в pdf

Добрый день,

Пытаюсь подобрать технологию распознавания сканированных и фотографированных книг в pdf. Скачал пробник FR9 для экспериментов - накопились вопросы:

1. При любом варианте сохранения в pdf (а на выходе нужен именно pdf), на страницах, фон которых имеет разную яркость/контрастность некоторые буквы имеют "грязную" каёмку. Пробовал сохранять и перед картинкой, и за ней, и в pdf/a и как угодно. Смотрю в восьмом акробате проф и фотошопе - кайма существует. Можно ли как-то от нее избавиться? Если требуется, могу выложить фрагменты сканов и скриншоты полученных пдф-файлов.
2. Как работает механизм пакетного распознавания в corp-версии? Дело в том, что объем - порядка двадцати тысяч изданий по двести-триста страниц. Хочется понять, насколько реально все скормить роботу и оставить его на полгода это все переваривать/распознавать, учитывая тот факт, что качество распознавания выше всяких похвал (lizardtechовский инструмент распознает русский на несколько порядков хуже). Может, существуют рекомендации по компьютеру, на котором проводится распознавание? Что FR использует более - процессор/память/дисковую подсистему? И как распределяется нагрузка между клиентом и сервером в корп версии?


Заранее спасибо, Кирилл.

cyrill

Отправлено 19 дек 07, 12:40 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill

1. При любом варианте сохранения в pdf (а на выходе нужен именно pdf), на страницах, фон которых имеет разную яркость/контрастность некоторые буквы имеют "грязную" каёмку. Пробовал сохранять и перед картинкой, и за ней, и в pdf/a и как угодно. Смотрю в восьмом акробате проф и фотошопе - кайма существует. Можно ли как-то от нее избавиться? Если требуется, могу выложить фрагменты сканов и скриншоты полученных пдф-файлов.


Первый вопрос снят. Выключил "Использовать MRC" и все стало супер)

Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка?

Herman Zu

Отправлено 19 дек 07, 15:53 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

Если не сложно на всякий случай пришлите полученный PDF в режимах с/без MRC. Интересно будет взглянуть...

Дмитрий_ABBYY

Отправлено 19 дек 07, 17:48 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill

Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка?

Памяти для больших книг желательно не меньше 512 Мб, а то есть опасность, что начнём активно на диск своппиться.
Процессор -- чем быстрее, тем лучше, кушаем все мощности, что дают.

cyrill

Отправлено 19 дек 07, 18:35 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

Дмитрий_ABBYY
cyrill

Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка?

Памяти для больших книг желательно не меньше 512 Мб, а то есть опасность, что начнём активно на диск своппиться.
Процессор -- чем быстрее, тем лучше, кушаем все мощности, что дают.


Дмитрий, а как с многоядерными камнями? А с 64-битными ОС дружите? А если виста, 64 бита, два камня по 4 ядра и 16 гиг памяти - быстрее поедет? Или лучше пробовать кластер на нескольких Xeon-enabled серверах?

Tim

Отправлено 19 дек 07, 19:06 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill
Памяти ставьте не меньше гигабайта. "Тяжелая" растровая графика - штука очень прожорливая на память. Если есть возможность - то два гигабайта. Тогда почти всегда процесс будет крутиться в оперативке.

Очень важна скорость считывания с винчестера в память. Если есть возможность - ставьте RAID уровня "strip".

Дмитрий_ABBYY

Отправлено 20 дек 07, 15:48 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill


Дмитрий, а как с многоядерными камнями? А с 64-битными ОС дружите? А если виста, 64 бита, два камня по 4 ядра и 16 гиг памяти - быстрее поедет? Или лучше пробовать кластер на нескольких Xeon-enabled серверах?

Многоядерность поддержана в виде нескольких параллельных процессов распознавания, каждый из которых обрабатывает свою страницу и пользует свой логический процессор. "Совместная операция", когда требуется "сверстать" документ из кучи распознанных страниц не занимает много времени, её при рассчёте скорости можно и не учитывать.
Насчёт памяти -- в нашей рекламке сказано "не менее 512 МБ, дополнительно 512 МБ для каждого ядра процессора". Собственно, почти так же я и писал выше, хотя про "512 на каждое ядро" -- это не настолько критично и от количества страниц не зависит. 1 Гб -- да, лучше, нужно ли реально 2 Гб на процесс -- скорее нет. Худшее, что я реально наблиюдал -- это отжирание >400 Мб памяти с громким свопом на диск при вёрстке документа (тестировали на машине с недостатком оперативной памяти). Отдельный процесс обработки страницы может захотеть, полагаю, 300 Мб, но это не должно быть частым явлением.
Что имеется в виду: "с 64-битными ОС дружите?" ? Могу сказать, что на виста работаем, скорость специально не проверял, подозреваю, что не отличается от XP.

cyrill

Отправлено 20 дек 07, 17:45 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

Дмитрий_ABBYY

Многоядерность поддержана в виде нескольких параллельных процессов распознавания, каждый из которых обрабатывает свою страницу и пользует свой логический процессор. "Совместная операция", когда требуется "сверстать" документ из кучи распознанных страниц не занимает много времени, её при рассчёте скорости можно и не учитывать.
Насчёт памяти -- в нашей рекламке сказано "не менее 512 МБ, дополнительно 512 МБ для каждого ядра процессора". Собственно, почти так же я и писал выше, хотя про "512 на каждое ядро" -- это не настолько критично и от количества страниц не зависит. 1 Гб -- да, лучше, нужно ли реально 2 Гб на процесс -- скорее нет. Худшее, что я реально наблиюдал -- это отжирание >400 Мб памяти с громким свопом на диск при вёрстке документа (тестировали на машине с недостатком оперативной памяти). Отдельный процесс обработки страницы может захотеть, полагаю, 300 Мб, но это не должно быть частым явлением.
Что имеется в виду: "с 64-битными ОС дружите?" ? Могу сказать, что на виста работаем, скорость специально не проверял, подозреваю, что не отличается от XP.


Я попробовал распознать без сохранения (демка ) 144 разворота 2638х2094px примерно по 2,5Мб. Развороты среднего качества, при "тщательном" режиме ушло примерно по 8,5 секунд на разворот. Конфигурация такая: Core2Duo T7300, 2048Mb, 32-битная Vista Home Basic.
Диск не самый быстрый, ибо дело происходит на ноуте, пусть и не самом плохом ;) То есть, все требования из рекламки соблюдены, на мой взгляд.

Вопросы такие:

1. Если Core2Duo заменить на Core4Quad и памяти сделатьт 4 Гига - это даст ускорение пропорционально количеству ядер?
2. Сколько времени по сравнению с распознаванием длится сохранение в pdf?


По предварительным прикидкам у меня примерно четверть миллиона таких разворотов в различных папках - хочется понять, как минимизировать затраты по времени.

Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки? Или участия человека (и, как следствие, серьезного замедления) не избежать? Предположим, что на данный момент меня вполне устраивает качество полностью автоматического распознавания.

U235

Отправлено 21 дек 07, 08:31 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill

Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки?

Я думаю, что такую операцию можно попробовать проделать с помощью командного bat-файла, из которого вызывается консольный FineOCR.exe с необходимыми параметрами.

Дмитрий_ABBYY

Отправлено 21 дек 07, 11:51 [NEW]    Сообщить модератору   Цитировать

Re: Распознавание фотографии книги в pdf

cyrill

Я попробовал распознать без сохранения (демка ) 144 разворота 2638х2094px примерно по 2,5Мб. Развороты среднего качества, при "тщательном" режиме ушло примерно по 8,5 секунд на разворот. Конфигурация такая: Core2Duo T7300, 2048Mb, 32-битная Vista Home Basic.

Да, это соответствует моим ожиданиям.
Рекомендую включить опцию "резать книжные развороты". С местом порезки мы промахиваемся не слишком часто (кстати, если найдёте -- пришлите нам пример, пожалуйста), а обрабатываем их "более правильно".

cyrill

Вопросы такие:

1. Если Core2Duo заменить на Core4Quad и памяти сделатьт 4 Гига - это даст ускорение пропорционально количеству ядер?
2. Сколько времени по сравнению с распознаванием длится сохранение в pdf?

1. Должно. Точно в два раза скорее всего не будет, а вот процентов 70 ускорения, думаю, получится.
2. Не сравнивал. Существенно быстрее, но вот загвоздка -- сохранение в PDF не распараллеливается, а работает на одном процессоре, следовательно Core4Quad тут не повлияет. Попробуйте сами, будет любопытно посмотреть ваши результаты.

cyrill

Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки? Или участия человека (и, как следствие, серьезного замедления) не избежать? Предположим, что на данный момент меня вполне устраивает качество полностью автоматического распознавания.

Точно не знаю, не ручаюсь, что у нас такое есть.
На этот вопрос, надеюсь, ответит кто-нибудь из наших специалистов по продуктам (я только про технологии могу рассказать ).

Страницы [1] 2 3    все

Ответить
Перейти