
| |
 |
 |

Добро пожаловать в форум, гость
|
|
|
 |
 |
Страницы [1] 2 3 все
 |
|
|
cyrill
|
|
|
|
Распознавание фотографии книги в pdf
Добрый день,
Пытаюсь подобрать технологию распознавания сканированных и фотографированных книг в pdf. Скачал пробник FR9 для экспериментов - накопились вопросы:
1. При любом варианте сохранения в pdf (а на выходе нужен именно pdf), на страницах, фон которых имеет разную яркость/контрастность некоторые буквы имеют "грязную" каёмку. Пробовал сохранять и перед картинкой, и за ней, и в pdf/a и как угодно. Смотрю в восьмом акробате проф и фотошопе - кайма существует. Можно ли как-то от нее избавиться? Если требуется, могу выложить фрагменты сканов и скриншоты полученных пдф-файлов. 2. Как работает механизм пакетного распознавания в corp-версии? Дело в том, что объем - порядка двадцати тысяч изданий по двести-триста страниц. Хочется понять, насколько реально все скормить роботу и оставить его на полгода это все переваривать/распознавать, учитывая тот факт, что качество распознавания выше всяких похвал (lizardtechовский инструмент распознает русский на несколько порядков хуже). Может, существуют рекомендации по компьютеру, на котором проводится распознавание? Что FR использует более - процессор/память/дисковую подсистему? И как распределяется нагрузка между клиентом и сервером в корп версии?
Заранее спасибо, Кирилл.
|
 |
|
cyrill
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | cyrill
| 1. При любом варианте сохранения в pdf (а на выходе нужен именно pdf), на страницах, фон которых имеет разную яркость/контрастность некоторые буквы имеют "грязную" каёмку. Пробовал сохранять и перед картинкой, и за ней, и в pdf/a и как угодно. Смотрю в восьмом акробате проф и фотошопе - кайма существует. Можно ли как-то от нее избавиться? Если требуется, могу выложить фрагменты сканов и скриншоты полученных пдф-файлов. |
|
|
Первый вопрос снят. Выключил "Использовать MRC" и все стало супер)
Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка?
|
 |
|
Herman Zu
|
|
|
|
Re: Распознавание фотографии книги в pdf
Если не сложно на всякий случай пришлите полученный PDF в режимах с/без MRC. Интересно будет взглянуть...
|
 |
|
Дмитрий_ABBYY
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | cyrill
| Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка? |
|
|
Памяти для больших книг желательно не меньше 512 Мб, а то есть опасность, что начнём активно на диск своппиться. Процессор -- чем быстрее, тем лучше, кушаем все мощности, что дают.
|
 |
|
cyrill
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | Дмитрий_ABBYY
|  | cyrill
| Остался второй - какие ресурсы более использует FR (либо посоветуйте конфиг) и как выглядит пакетная обработка? |
|
|
Памяти для больших книг желательно не меньше 512 Мб, а то есть опасность, что начнём активно на диск своппиться. Процессор -- чем быстрее, тем лучше, кушаем все мощности, что дают. |
|
|
Дмитрий, а как с многоядерными камнями? А с 64-битными ОС дружите? А если виста, 64 бита, два камня по 4 ядра и 16 гиг памяти - быстрее поедет? Или лучше пробовать кластер на нескольких Xeon-enabled серверах?
|
 |
|
Tim
|
|
|
|
Re: Распознавание фотографии книги в pdf
cyrill Памяти ставьте не меньше гигабайта. "Тяжелая" растровая графика - штука очень прожорливая на память. Если есть возможность - то два гигабайта. Тогда почти всегда процесс будет крутиться в оперативке.
Очень важна скорость считывания с винчестера в память. Если есть возможность - ставьте RAID уровня "strip".
|
 |
|
Дмитрий_ABBYY
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | cyrill
|
Дмитрий, а как с многоядерными камнями? А с 64-битными ОС дружите? А если виста, 64 бита, два камня по 4 ядра и 16 гиг памяти - быстрее поедет? Или лучше пробовать кластер на нескольких Xeon-enabled серверах? |
|
|
Многоядерность поддержана в виде нескольких параллельных процессов распознавания, каждый из которых обрабатывает свою страницу и пользует свой логический процессор. "Совместная операция", когда требуется "сверстать" документ из кучи распознанных страниц не занимает много времени, её при рассчёте скорости можно и не учитывать. Насчёт памяти -- в нашей рекламке сказано "не менее 512 МБ, дополнительно 512 МБ для каждого ядра процессора". Собственно, почти так же я и писал выше, хотя про "512 на каждое ядро" -- это не настолько критично и от количества страниц не зависит. 1 Гб -- да, лучше, нужно ли реально 2 Гб на процесс -- скорее нет. Худшее, что я реально наблиюдал -- это отжирание >400 Мб памяти с громким свопом на диск при вёрстке документа (тестировали на машине с недостатком оперативной памяти). Отдельный процесс обработки страницы может захотеть, полагаю, 300 Мб, но это не должно быть частым явлением. Что имеется в виду: "с 64-битными ОС дружите?" ? Могу сказать, что на виста работаем, скорость специально не проверял, подозреваю, что не отличается от XP.
|
 |
|
cyrill
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | Дмитрий_ABBYY
| Многоядерность поддержана в виде нескольких параллельных процессов распознавания, каждый из которых обрабатывает свою страницу и пользует свой логический процессор. "Совместная операция", когда требуется "сверстать" документ из кучи распознанных страниц не занимает много времени, её при рассчёте скорости можно и не учитывать. Насчёт памяти -- в нашей рекламке сказано "не менее 512 МБ, дополнительно 512 МБ для каждого ядра процессора". Собственно, почти так же я и писал выше, хотя про "512 на каждое ядро" -- это не настолько критично и от количества страниц не зависит. 1 Гб -- да, лучше, нужно ли реально 2 Гб на процесс -- скорее нет. Худшее, что я реально наблиюдал -- это отжирание >400 Мб памяти с громким свопом на диск при вёрстке документа (тестировали на машине с недостатком оперативной памяти). Отдельный процесс обработки страницы может захотеть, полагаю, 300 Мб, но это не должно быть частым явлением. Что имеется в виду: "с 64-битными ОС дружите?" ? Могу сказать, что на виста работаем, скорость специально не проверял, подозреваю, что не отличается от XP. |
|
|
Я попробовал распознать без сохранения (демка ) 144 разворота 2638х2094px примерно по 2,5Мб. Развороты среднего качества, при "тщательном" режиме ушло примерно по 8,5 секунд на разворот. Конфигурация такая: Core2Duo T7300, 2048Mb, 32-битная Vista Home Basic. Диск не самый быстрый, ибо дело происходит на ноуте, пусть и не самом плохом ;) То есть, все требования из рекламки соблюдены, на мой взгляд.
Вопросы такие:
1. Если Core2Duo заменить на Core4Quad и памяти сделатьт 4 Гига - это даст ускорение пропорционально количеству ядер? 2. Сколько времени по сравнению с распознаванием длится сохранение в pdf?
По предварительным прикидкам у меня примерно четверть миллиона таких разворотов в различных папках - хочется понять, как минимизировать затраты по времени.
Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки? Или участия человека (и, как следствие, серьезного замедления) не избежать? Предположим, что на данный момент меня вполне устраивает качество полностью автоматического распознавания.
|
 |
|
U235
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | cyrill
| Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки? |
|
|
Я думаю, что такую операцию можно попробовать проделать с помощью командного bat-файла, из которого вызывается консольный FineOCR.exe с необходимыми параметрами.
|
 |
|
Дмитрий_ABBYY
|
|
|
|
Re: Распознавание фотографии книги в pdf
![]()
 | cyrill
| Я попробовал распознать без сохранения (демка ) 144 разворота 2638х2094px примерно по 2,5Мб. Развороты среднего качества, при "тщательном" режиме ушло примерно по 8,5 секунд на разворот. Конфигурация такая: Core2Duo T7300, 2048Mb, 32-битная Vista Home Basic.
|
|
|
Да, это соответствует моим ожиданиям. Рекомендую включить опцию "резать книжные развороты". С местом порезки мы промахиваемся не слишком часто (кстати, если найдёте -- пришлите нам пример, пожалуйста), а обрабатываем их "более правильно".
 | cyrill
| Вопросы такие:
1. Если Core2Duo заменить на Core4Quad и памяти сделатьт 4 Гига - это даст ускорение пропорционально количеству ядер? 2. Сколько времени по сравнению с распознаванием длится сохранение в pdf?
|
|
|
1. Должно. Точно в два раза скорее всего не будет, а вот процентов 70 ускорения, думаю, получится. 2. Не сравнивал. Существенно быстрее, но вот загвоздка -- сохранение в PDF не распараллеливается, а работает на одном процессоре, следовательно Core4Quad тут не повлияет. Попробуйте сами, будет любопытно посмотреть ваши результаты.
 | cyrill
| Несколько отвлеченный вопрос - если изображения раскиданы по разным папкам, в том числе, неоднократно вложенным, - возможно ли натравить на них какую-нибудь специальную версию FR (я мечтаю, что корпоративная версия меня спасет) с тем, чтобы в каждой папке в результате появился бы pdf-файл с распознанным содержимым этой папки? Или участия человека (и, как следствие, серьезного замедления) не избежать? Предположим, что на данный момент меня вполне устраивает качество полностью автоматического распознавания. |
|
|
Точно не знаю, не ручаюсь, что у нас такое есть. На этот вопрос, надеюсь, ответит кто-нибудь из наших специалистов по продуктам (я только про технологии могу рассказать ).
|
 |
|
|
|