Форум ABBYY FineReader

Добро пожаловать в форум, гость

 Вход

 Регистрация


Форум ABBYY FineReader -> Вопросы по работе программы, пожелания и замечания -> ABBYY FineReader 11 Professional Edition
Поиск по форуму FAQ форума Правила форума

Страницы 1 2 3 4 5 [6] 7 8 9 10 .. 12    все  

Ответить

izekbis

Отправлено 9 ноя 11, 16:13 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Столкнулся с такой проблемой. Файл Pdf открылся нормально. Качество прекрасное 600 dpi. запускаю распознать. Крутится вроде распознает. После распознания на каждой странице - окошко с надписью : "Страница распознана, но формирование вида страницы не завершено. Нажмите распознать, чтобы завершить процесс." Даешь распознать отдельную страницу - распознает нормально. Но только даешь распознать все, появляется прежняя надпись. Даже на распознанных ранее индивидуально. Что это? Как выйти из этого положения? не распознавать же по одной странице. У меня их 1900. Перешел бы на 10, но она 11 не понимает.
Прошу ответить.

Крылатый

Отправлено 9 ноя 11, 19:25 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Я правильно понял, что в проблемном документе FR у вас 1900 страниц? А это реально такой большой и целостный документ, или же просто всё, что было собрано за годы сканирования?
Думаю, стоит разделить его на части размером хотя бы до 1000 (а лучше до 300-400) страниц и распознавать уже их. В меню "Файл" есть команда "Разделить на несколько документов".
Ещё обратите внимание, насколько разумно автоматом расставлены области на страницах (области видно, даже если распознавание не закончено). Если в текстовые или табличные блоки анализ часто выделяет нечто несусветное - больше шансов получить проблемы при распознавании.

GMAP

Отправлено 10 ноя 11, 11:32 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Дмитрий_ABBYY
Картинку всё равно стоит выложить

http://rghost.ru/29329781
Проверялось на последней версии FR11. Режим - русский язык, делить разворот страницы.

Дмитрий_ABBYY

Отправлено 11 ноя 11, 14:05 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

GMAP, нам удалось повторить только в fast-режиме на одной странице (смотрел другой разработчик, не я). Можете прислать прислать пакет с одной проблемной страницей? Будьте добры, если несложно.

Tim

Отправлено 14 ноя 11, 15:28 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

izekbis
Тяжеловесные документы 11-я обрабатывает без особых проблем. Недавно делали книгу на 1700 страниц (в Grayscale) - все прошло ОК (разумеется при условии, что в разделе, где живут TMP-папки, достаточно места).
Попробуйте удалить все содержимое из TMP-папок и запустить еще раз вашу книгу. Иногда бывают сбои работы FR, связанные с тем, что в TMP-файлах образовались какие-то неустранимые огрехи. После зачистки такое обычно пропадает.

Вообще же, сколько я понимаю логику работы FR, ваше сообщение можно перевести следующим образом: "Распознать-то я распознал, но вот стили расставить почему-то не могу". Если в настройках есть что-то способное повлиять на эту часть работы, можно попробовать воспользоваться им.

Крылатый
Перешел бы на 10, но она 11 не понимает.
Еще пару копеек к вопросу о том, нужна или не нужна обратная совместимость по данным.

Крылатый

Отправлено 14 ноя 11, 16:07 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Tim
Недавно делали книгу на 1700 страниц (в Grayscale) - все прошло ОК (разумеется при условии, что в разделе, где живут TMP-папки, достаточно места).

Распознаться-то оно скорее всего распознается, но неожиданные проблемы могут вылезти уже после экспорта. Например, Ворд не переваривает RTF объёмом более 512 мегабайт, или DocX, содержащий более 4000 (примерно) стилей - именно такие странно разные ограничения, хотя модель документа одна у обоих форматов. То есть о проблеме можете узнать даже не вы и не сейчас, а совсем другой человек, который через год впервые откроет результат экспорта

Tim
Перешел бы на 10, но она 11 не понимает.
Еще пару копеек к вопросу о том, нужна или не нужна обратная совместимость по данным.

Есть несколько вариантов преобразования пакетов "вниз по версиям". Командой разработчиков давно используется командно-строчная утилита, позволяющая превратить пакет FR (зависящий от версии) в набор исходных изображений страниц и описание блоков на них (независящее от версии) и обратно. При этом не сохраняется распознанный документ (и текст, как одна из его составляющих), так как в представлении документа обычно и бывает максимум сложных изменений между версиями.
У такого подхода есть свои ограничения, но он уже работает для многих задач, например для тестирования. Как вам такое решение?
Предлагая что-то более навороченное, не забывайте что востребованность преобразования пакетов по версиям "вверх", а уж тем более "вниз", невелика - ибо большинство пользователей вообще не сохраняют пакеты после распознавания нужного документа
Навскидку думаю, что пользователей, которые бы воспользовались этой фичей (конверсией пакетов "вниз"), вне Абби нашлось бы не больше десятка
Любителей автоматически распознавать формулы - и то больше

Tim

Отправлено 14 ноя 11, 17:18 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Распознаться-то оно скорее всего распознается, но неожиданные проблемы могут вылезти уже после экспорта.
У izekbis пока что проблема на этапе распознавания, до сохранения еще добраться надо :-). Объем по страницам у него похоже вполне проходимый, так что причину скорее всего в чем-то другом искать надо.
К тому же подобные монстрологические объемы возникают только если упихивать в DOC/RTF несжатую графику. FR же в последних версиях вроде бы поумнел в достаточной степени, чтобы класть туда изображения в компактно сжатом виде.

У меня тоже аналогичная ситуация встречалась, но к сожалению не сообразил сохранить образчик для анализа - не предполагал, что для вас такое тоже будет неизвестной неожиданностью.

При этом не сохраняется распознанный документ (и текст, как одна из его составляющих), так как в представлении документа обычно и бывает максимум сложных изменений между версиями.
Вот в этом месте я похоже чего-то не понимаю.
В моем представлении основа любого FR-пакета - это символы распознанного текста плюс привязка каждого символа к соответствующему месту на изображении. Вынуть из пакета сам текст думаю особых проблем не представляет. Логика привязки символов в каждой версии скорее всего меняется, но поскольку она вам известна досконально, то полагаю трансформировать ее между версиями тоже непреодолимых проблем не составит.
В результате получаем возможность переноса между версиями хотя бы рабочего минимума - текстового набора уровня "plain text", с разбивкой на абзацы. По сравнению с описанной вами утилитой уже неплохой шаг вперед.

Предлагая что-то более навороченное, не забывайте что востребованность преобразования пакетов по версиям "вверх", а уж тем более "вниз", невелика...
Чтобы говорить о востребованности или невостребованности, надо иметь под рукой хоть какую-то, но статистику.
Те эпизоды, которые мне приходилось встречать (библиотеки, архивы, организации, где FR используется уже не год и не два и анал.) набирают где-то сотню с небольшим человек, для которых несовместимость версий - хроническая головоморока. Если пройтись по этому же спектру более тщательно, а не от случая, к случаю, то не удивлюсь, если счет пойдет уже на тысячи - ситуации, которые я видел, достаточно типовые.

... ибо большинство пользователей вообще не сохраняют пакеты после распознавания нужного документа
Логично. Но кроме них существует еще и меньшинство, для которых FR-пакет, это не разовая упаковка, а повседневный рабочий инструмент. Учитывая же объем продаж FR, это может оказаться вполне увесистое "меньшинство".

Любителей автоматически распознавать формулы - и то больше
Лет восемь назад мой знакомый заинтересовался проектом "Infty" и связался с ними, чтобы получить рассылаемые командой проекта диски с открытыми результами работы. На том, что ему прислали стоял номер пятнадцать тысяч с чем-то. Восемь лет назад.

izekbis

Отправлено 14 ноя 11, 19:05 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Проблему уже решил. Было мало места на диске, поэтому ФР стопорился. PdF был с разрешением 600 dpi. И в Ворд перевелся нормально.
А вот файлы переведенные в Fb2, Fiction Book Designer и FictionBook Editor объявляют не валидными.
Но обнаружил еще одну проблему. Если первая строка не полная - т.е. текст не до конца строки, а следом идет рисунок, то эту первую строку кидает или за рисунок, или в конец страницы за последующий текст. Т.е. отрывает от предыдущего текста. У меня таких много. Неприятно. Приходится выискивать и переставлять.
И вторая напасть количество стилей. Как их не объединяешь, они опять вылазят в Ворде. И бороться с ними приходится уже там. Очень трудоемко и совсем не нужно.
Совершенно не дело, когда ФР каждый абзац определяет своим стилем. Стилей получатся десятки если не сотни. Это надо исправить. Ведь в документе стилей 5-6.

Крылатый

Отправлено 14 ноя 11, 20:29 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

izekbis
Проблему уже решил. Было мало места на диске, поэтому ФР стопорился. PdF был с разрешением 600 dpi. И в Ворд перевелся нормально.
А вот файлы переведенные в Fb2, Fiction Book Designer и FictionBook Editor объявляют не валидными.
Но обнаружил еще одну проблему. Если первая строка не полная - т.е. текст не до конца строки, а следом идет рисунок, то эту первую строку кидает или за рисунок, или в конец страницы за последующий текст. Т.е. отрывает от предыдущего текста. У меня таких много. Неприятно. Приходится выискивать и переставлять.
И вторая напасть количество стилей. Как их не объединяешь, они опять вылазят в Ворде. И бороться с ними приходится уже там. Очень трудоемко и совсем не нужно.
Совершенно не дело, когда ФР каждый абзац определяет своим стилем. Стилей получатся десятки если не сотни. Это надо исправить. Ведь в документе стилей 5-6.

Вы очень помогли бы улучшить программу, если бы подробное описание ваших проблем с FB2 вместе с файлами-примерами и скриншотами (при необходимости) направили в техподдержку support@abbyy.com.
У меня наугад взятые FB2 из-под FR11 открываются в Fiction Book Designer и Fiction Book Editor.
Непонятно также, что имеется в виду здесь:
izekbis
Если первая строка не полная - т.е. текст не до конца строки, а следом идет рисунок, то эту первую строку кидает или за рисунок, или в конец страницы за последующий текст. Т.е. отрывает от предыдущего текста. У меня таких много. Неприятно. Приходится выискивать и переставлять.

- нужны примеры (документ FR и результат экспорта).
Спасибо!

izekbis

Отправлено 15 ноя 11, 09:53 [NEW]    Сообщить модератору   Цитировать

Re: ABBYY FineReader 11 Professional Edition

Открываются, но при сохранении валидатор дает ошибку.

Страницы 1 2 3 4 5 [6] 7 8 9 10 .. 12    все

Ответить
Перейти