Форум ABBYY FineReader

Добро пожаловать в форум, гость

 Вход

 Регистрация


Форум ABBYY FineReader -> Вопросы по работе программы, пожелания и замечания -> Импорт DjVu поддержан в ABBYY FineReader 9.0
Поиск по форуму FAQ форума Правила форума

Страницы 1 2 3 4 5 6    [все]  

Ответить

Dina_ABBYY

Отправлено 11 дек 07, 21:27 [NEW]    Сообщить модератору   Цитировать

Импорт DjVu поддержан в ABBYY FineReader 9.0

Друзья,
вышел новый релиз ABBYY FineReader 9.0 Professional Edition.
В нём импорт формата DjVu официально поддержан.
Скачать новый дистрибутив можно на нашем сайте в разделе Download. Размер 160 МБ.
Работайте на здоровье

Гыефф

Отправлено 12 дек 07, 01:42 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

а как его на текущий билд поставить?

Tim

Отправлено 12 дек 07, 14:52 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Точнее говоря, он встанет на уже зарегистрированную и активированную копию, или потребует всю карусель снова начинать?

Eugene ABBYY

Отправлено 13 дек 07, 14:49 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

На сайте представлен полный дистрибутив последнего выпуска программы. Вам надо скачать его и переустановить программу на своем компьютере: сначала удалить программу предыдущего выпуска через меню "Пуск - Панель Управления - Установка/Удаление программ", а потом устанавливать программу из скаченного дистрибутива. Никаких патчей или обновлений не выпускалось, только полный дистрибутив. Скорее всего после переустановки программа не потребует активацию: активационные данные сохраняются в специальной папке на жестком диске, после переустановки программа просто "увидит" содержимое этой папки и подхватит активационные данные.

Андрей1

Отправлено 13 дек 07, 18:27 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

А какие еще изменения, кроме поддержки djvu? Как-то не хочется 160 мегабайт только из-за этого скачивать.

Сергей Ружинский

Отправлено 13 дек 07, 20:10 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

to Eugene ABBYY

1. А почему сразу эту функциональность не предусмотрели в релизе FR9, тем более, что в бете она оказывается таки была ???
Аналитики ABBY вовремя недотумкали? - НЕ ВЕРЮ.

2. Меня лично не совсем устраивает сначала купить FR9 а потом еще и "тянуть" 160 мб чтобы "включить" djvu.
Когда будет полнофункциональный FR9 c уже включенным djvu прям на дистрибутиве ???

3. Не кажется ли Вам, что в столь изощренный способ Вы подрываете уважение к себе - нет, никуда мы от Вас не денемся. Будем покупать Вашу продукцию (или её крякнутые версии) - вот только нехороший осодок остается после всех этих хитрых хитростей. В FR8 "забыли" одну фичу, в FR9 - другую. Это уже в систему входит.

Не солидно.

GMAP

Отправлено 14 дек 07, 08:50 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Сергей Ружинский
Меня лично не совсем устраивает сначала купить FR9 а потом еще и "тянуть" 160 мб чтобы "включить" djvu.

Как говорит грамотный народ, достаточно добавки двух длл-ок размером в 500 кил и все будет работать :-)

Vera_ABBYY

Отправлено 14 дек 07, 09:47 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Сергей, все просто: к первому выпуску FineReader 9 мы не успели решить вопрос с лицензированием библиотеки для чтения DjVu. Теперь этот вопрос решен, поэтому DjVu вошел в перевыпуск.

Выпущенный дистрибутив и есть полнофункциональный: после введения серийного номера и активации программа будет работать в обычном режиме, без ограничений.

Bender

Отправлено 14 дек 07, 17:22 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Когда данн билд появится в продаже в магазинах?

GMAP

Отправлено 15 дек 07, 06:39 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Самолично проверил насчет длл. Действительно, достаточно добавить в папку установленного FR9 такие файлы:
Image.Helper.DjVu.dll 1 561 888
Image.Format.DjVu.dll 75 040
и djvu файлы будут открываться и распознаваться. Но ооочееень мееедлееенооо :-)

Сергей Ружинский

Отправлено 15 дек 07, 11:23 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0


Но ооочееень мееедлееенооо :-)


Насколько медленно?
Если вручную "вытаскивать" Ирфаном и потом "скармливать" FR9 будет быстрее?

GMAP

Отправлено 15 дек 07, 19:33 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Была у меня такая мысль, завтра попробую что быстрее - tif из Ирфана с учетом времени на конверт или прямой импорт djvu в FR9. Но ждать когда просто откроются 52 страницы журнала(опции распознавания и зонования были выключены), я утомился.

abbyy_fan

Отправлено 16 дек 07, 22:34 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Dina_ABBYY
Друзья,
вышел новый релиз ABBYY FineReader 9.0 Professional Edition.
В нём импорт формата DjVu официально поддержан.

Осталось только подкорректировать эту страницу http://www.abbyy.ru/finereader/?param=137464&f1 - чтобы отразить этот факт.

А нельзя ли узнать хоть какие-то подробности "битвы за DjVu"? Например, почему так долго это внедрялось, что именно там за проблема была такая. Покупался ли Celartem Imaging SDK for DjVu v1.0 http://tokage.celartem.com/sdk/ для этой цели - или же ABBYY сумела найти некий иной (более дешёвый) путь интеграции чтения DjVu в FineReader? Надеюсь, эта информация не относится к категории коммерческой тайны ABBYY?

abbyy_fan

Отправлено 16 дек 07, 22:46 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Хотелось бы повторно подбросить ABBYY очевидную идею: можно сделать так, чтобы FineReader открывал DjVu-файл, распознавал его (это уже есть) - а потом чтобы внедрял полученный OCR-текст в этот же самый DjVu-файл! Если ABBYY всё-таки купила Celartem Imaging SDK for DjVu v1.0 - тогда это вообще элементарно сделать, а если нет - то код для внедрения OCR-слоя в DjVu-файл, на мой взгляд, достаточно тривиален, чтобы его можно было написать вообще с нуля - не используя ни единой строки кода LizardTech или DjVuLibre.

Достаточно почитать тут http://www.lizardtech.com/products/doc/techinfo.php вот этот документ: http://www.lizardtech.com/files/doc/techinfo/DjVu3Spec.djvu , ну и, конечно, одним глазком заглянуть в исходники DjVuLibre - чтобы потом сделать нечто аналогичное - но с нуля, и полностью своими силами (т.е. и GPL так обойти, но и не покупать при этом Celartem Imaging SDK for DjVu v1.0).

dx

Отправлено 17 дек 07, 10:08 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan
Достаточно почитать тут http://www.lizardtech.com/products/doc/techinfo.php вот этот документ: http://www.lizardtech.com/files/doc/techinfo/DjVu3Spec.djvu , ну и, конечно, одним глазком заглянуть в исходники DjVuLibre - чтобы потом сделать нечто аналогичное - но с нуля, и полностью своими силами (т.е. и GPL так обойти, но и не покупать при этом Celartem Imaging SDK for DjVu v1.0).


Я уже где-то писал на форуме, повторю еще раз: реализовать это -- действительно просто. Я даже делал это на досуге (было интересно, как работает их кодер). Проблема не в этом. Проблема в том, что Z'-кодер, используемый в DjVu, запатентован. И его использование разрешено только по GPL. Чтобы написать даже простой выкоуровневый разбор DjVu, нужно договариваться с Lizardtech, что нетривиально.
Проблема находится не в технической плоскости, а в юридической.
Понимаете?

Варяг

Отправлено 17 дек 07, 12:33 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Сергей Ружинский
Насколько медленно?
Если вручную "вытаскивать" Ирфаном и потом "скармливать" FR9 будет быстрее?


Вот можете попробовать:
Статья из журнала "Под знаменем марксизма" №12 за 1937 год djvu 300 dpi 61 pages (1,11 mb)
У меня "девятка" открыла этот файл менее чем за 15 сек., т.е. примерно 4 стр. в секунду.
Для справки: CPU - P4 Dual Core 3600 mHz, Ram - 2 Gb, HDD - Maxtor 60 Gb (IDE).

Грех жаловаться

Tim

Отправлено 17 дек 07, 13:52 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

У меня, на Northwood 2.4, "разбирает" в среднем со скоростью страница в секунду. От объема DjVu-файла скорость практически не зависит.

Я уже таким образом наладился перегонять нужные файлы из DjVu в Compressed PDF. Сначала разбираю DjVu-шку в FR-пакет, затем делаю "Сохранить как изображение", а потом собираю полученные файлы в PDF. Получается достаточно быстро и с минимумом телодвижений:-). Только указываю папки куда класть и откуда брать, и всё.

Сергей Ружинский

Отправлено 17 дек 07, 14:54 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

автор
Я уже таким образом наладился перегонять нужные файлы из DjVu в Compressed PDF.


Так и мне для того-ж, а GMAP напугал тормозами.

Ну все-все уговорили таки куплю девятку - теперь главная проблемма найти старую коробку от FR8

Сергей Ружинский

Отправлено 17 дек 07, 15:08 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

автор
У меня "девятка" открыла этот файл менее чем за 15 сек., т.е. примерно 4 стр. в секунду.
Для справки: CPU - P4 Dual Core 3600 mHz, Ram - 2 Gb, HDD - Maxtor 60 Gb (IDE).



Связка Ирфан + FR8 (P4 – 2.8 Ghz, Ram - 512 Mb) – примерно 1 сек на страницу

Варяг

Отправлено 17 дек 07, 17:09 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
Я уже таким образом наладился перегонять нужные файлы из DjVu в Compressed PDF. Сначала разбираю DjVu-шку в FR-пакет, затем делаю "Сохранить как изображение", а потом собираю полученные файлы в PDF. Получается достаточно быстро и с минимумом телодвижений:-). Только указываю папки куда класть и откуда брать, и всё.


Позвольте полюбопытствовать: на кой ляд из дежавю делать пдф?
Разве пдф получается меньшим по объёму, или качество становится лучше?
Насколько понимаю, только векторный пдф может дать меньший объем, чем дежавю, но создавать его могут только профи, я уже не говорю о том, сколько труда на это нужно положить. Среди тех пдф-ов, которые находил в Сети, векторный пдф отменного качества встретился лишь однажды, остальные же (растровые) не только невысокого качества, но и монстрообразные по объёму.

Tim

Отправлено 17 дек 07, 18:40 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Ничего не скажу за теорию - я в ней не силен :-), но на практике Compressed PDF "черно-белые" сканы стабильно жмет лучше, чем попадающиеся в мои руки DjVu-файлы. Причем разница в объемах обычно измеряется мегабайтами. Так что я этот формат для себя взял стандартом для B&W-графики.
Кстати, не вижу в этом факте ничего удивительного. В B&W DjVu имеем JBIG2 плюс последующая компрессия, в B&W PDF имеем JBIG2 плюс последующая компрессия. Да еще и в Adobe эту связку сделали более эффективной чем в AT&T

Что же касается Grayscale и Color, то здесь надо смотреть и экспериментировать. В PDF Optimizer'е очень большое пространство настроек, его так вот сразу не прочувствуешь. Но несколько Color DjVu-файлов я уже и здесь "уплотнил" :-).

Варяг

Отправлено 17 дек 07, 18:53 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
Что же касается Grayscale и Color, то здесь надо смотреть и экспериментировать. В PDF Optimizer'е очень большое пространство настроек, его так вот сразу не прочувствуешь. Но несколько Color DjVu-файлов я уже и здесь "уплотнил" :-).


Как сказал кто-то очень неглупый: "всё познаётся в сравнении".
Если Вам удастся ужать вот этот дежавю без потери качества:
Д. Лейзер "Создавая картину Вселенной" (djvu 6,77 mb)
то буду просить Вас принять меня в ученики по освоению формата пдф.

Tim

Отправлено 17 дек 07, 19:30 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Спасибо за интересную книгу, но именно за этот томик на сегодняшнем уровне своего умения я бы не взялся.
Здесь Color, Grayscale и B&W материал достаточно произвольно смешан в пределах одной страницы и потребуется достаточно нудная работа, чтобы "развести" их. А заставить сделать такую работу сам Акробат я пока не наловчился.
Вот если у вас имеется образчик, где каждая страница или только Color, или только Grayscale, или только B&W (в смысле, ее материал может быть интерпретирован именно таким образом) - с подобным я бы и сам с интересом поэкспериментировал.

GMAP

Отправлено 17 дек 07, 19:31 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Разобрался с тормозами. Я был неправ в том плане, что FR9 тормозит при открытии djvu. Как оказалось, это не так. При отключенных опциях обработки, то есть, только открытие и ничего больше. Дальше полезли косяки, но о них говорить не буду, и так все всё знают :-)

Варяг

Отправлено 17 дек 07, 19:58 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
Спасибо за интересную книгу, но именно за этот томик на сегодняшнем уровне своего умения я бы не взялся.
Здесь Color, Grayscale и B&W материал достаточно произвольно смешан в пределах одной страницы и потребуется достаточно нудная работа, чтобы "развести" их. А заставить сделать такую работу сам Акробат я пока не наловчился.
Вот если у вас имеется образчик, где каждая страница или только Color, или только Grayscale, или только B&W (в смысле, ее материал может быть интерпретирован именно таким образом) - с подобным я бы и сам с интересом поэкспериментировал.

Правильно ли я понял, что для того чтобы ужать представленный дежавю потребуется кропотливая "ручная" работа?
Другими словами: поскольку в Сети по сию пору не встречаются пдф-файлы с приемлемого качества иллюстрациями и разумного (20-25 кб на страницу объёма), то и однозначно утверждать о преимуществе формата пдф несколько преждевременно.

И ещё: Известен ли Вам способ извлечения из пдф-ов страниц в графический формат, например, тифф без потери качества изображения?
С уважением.

P.S.
Достаточное количество книг, сделанных в формате дежавю в градациях серого , Вы найдёте на
Литература по физике и химии
Например:
Э. Варбург "Курс опытной физики",
А. Н. Крылов и Ю. А. Крутков "Общая теория гироскопов и некоторых их технических применений",
В. Смайт "Электростатика и электродинамика"

abbyy_fan

Отправлено 17 дек 07, 23:05 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

dx
Проблема находится не в технической плоскости, а в юридической.
Понимаете?

А кто сказал, что Z-кодёр нужен для этой операции? Всё гораздо проще - нужно лишь найти текстовый чанк в DjVu-файле (банальная задача), и записать туда OCR-текст из FineReader. Единственная трудность - запаковать этот текст bzz-алгоритмом - http://djvu.sourceforge.net/doc/man/bzz.html - уж не знаю, есть ли его не-GPL реализация. А Z-кодёр тут абсолютно не при чём - он лежит в основе методов кодирования JB2 и IW44 - а не bzz.

abbyy_fan

Отправлено 17 дек 07, 23:14 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
Кстати, не вижу в этом факте ничего удивительного. В B&W DjVu имеем JBIG2 плюс последующая компрессия, в B&W PDF имеем JBIG2 плюс последующая компрессия. Да еще и в Adobe эту связку сделали более эффективной чем в AT&T

Да, но это только в отношении lossless DjVu. А применение lossy даёт ещё выигрыш в 2-3 раза. Другими словами - Adobe не использует словари разделяемых символов, как DjVu.
Следовательно, можно сделать вывод: Растровый BW Pdf-файл, меньший, чем соответствующий ему DjVu-файл - это всего лишь всегда результат неоптимального выбора профиля DjVu-кодирования. Попробуйте использовать для DjVu профиль Very Aggressive 300, а не Bitonal.

Кроме того, растровые Pdf-файлы тормозят при просмотре - что в Акробат Ридере, что в Фоксите - а DjVu-файлы - нет - т.к. там декодируется "на-лету" (этим самым Z-кодёром ) только та часть изображения, которая в данный момент отображается на экране.

Всё это разжёвано простым языком тут: http://www.lizardtech.com/products/doc/techinfo.php

abbyy_fan

Отправлено 17 дек 07, 23:32 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

GMAP
При отключенных опциях обработки, то есть, только открытие и ничего больше. Дальше полезли косяки, но о них говорить не буду, и так все всё знают :-)

Кстати, интерфейс 9-ки - это, по-моему, самый крупный провал ABBYY за последние годы... Ну почему так нередко бывает, что берут хорошую программу и портят её? Да потому что мелкие начальники и программисты фирмы так оправдывают своё существование - когда ничего делать уже не надо в такой-то области программы, они всё равно на пустом месте придумывают себе лишнюю работу. А то, что уже совершенно - уже не улучшишь - а только испортишь - что мы и видим на примере интерфейса 9-ки.

abbyy_fan

Отправлено 17 дек 07, 23:50 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
DjVu - это вообще чрезвычайно прогрессивная вещь - это целый букет новаторских технологий. Куда там Pdf до него! Pdf правит бал только за счёт т.ск. "административного ресурса". DjVu же относительно малопопулярен (а на Западе он вообще практически неизвестен) именно в силу того, что он ну слишком уж хорош - и кое-кому в Буржуиндии это очень даже не нравится.

Вот, спасибо ABBYY, что они DjVu ещё хоть немного продвинули. Вот если бы ABBYY ещё бы подробности "внедрения DjVu" поведали (о чём я выше упоминал), то было бы вообще здорово. Но вот что-то молчат. Основное, что мне интересно - покупался ли Celartem Imaging SDK for DjVu v1.0 для внедрения DjVu в 9 FineReader - или нет. Неужели это столь страшная коммерческая тайна, что об этом нельзя публично сказать?

dx

Отправлено 18 дек 07, 09:28 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan
dx
Проблема находится не в технической плоскости, а в юридической.
Понимаете?

А кто сказал, что Z-кодёр нужен для этой операции?... Единственная трудность - запаковать этот текст bzz-алгоритмом... А Z-кодёр тут абсолютно не при чём - он лежит в основе методов кодирования JB2 и IW44 - а не bzz.


Хорошо, читаем спецификацию DjVu. Раздел 13.1:
"BZZ first takes as input a 24 bit integer as block size between 10K and 4M and an input stream (to be compressed). The stream is partitioned into blocks terminated with a special <EOB> symbol. It is then transformed using the well-documented Burrows-Wheeler (BW or “block sorting”) transform. Then, one block at a time, the block size and resulting output stream are then passed as input to the compressed using the Z´-Coder (Appendix 3)."

abbyy_fan

Отправлено 18 дек 07, 15:31 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

dx
Хорошо, читаем спецификацию DjVu. Раздел 13.1:

Довольно туманно там написано - но вообще действительно похоже на то, что текст, закодированный в bzz, после этого ещё кодируется и Z-кодёром (или что-то в этом роде). А вот эта фраза вообще безграмотная какая-то:

Then, one block at a time, the block size and resulting output stream are then passed as input to the compressed using the Z´-Coder

Наверное, они хотели сказать не "to the compressed", а "to be compressed".
Впрочем, без ковыряния исходников DjVuLibre трудно сделать окончательное суждение - что там и как. Если всё-таки Z-кодёр участвует во вставке OCR-текста (подло придумано, конечно ), тогда моя идея о самодеятельной вставке OCR в DjVu отпадает, разумеется.

Жаль, что ABBYY безмолвствует насчёт того, покупали ли они Celartem Imaging SDK for DjVu v1.0, или нет. Понятно, что воплотить, скажем, кодирование в DjVu в FineReader'е вряд ли целесообразно - но взять из Celartem Imaging SDK for DjVu v1.0 фичу вставки OCR в DjVu и добавить её в FR - вполне реально. Но просить об этом ABBYY, даже не зная, купили ли они Celartem Imaging SDK for DjVu v1.0 или нет, как-то глупо, по-моему. Если уж просить - так зная наверняка, что именно просишь, а не просто "абстрактно просить".

А как было бы здорово - берёшь DjVu-файл, и при помощи одного лишь FR распознаёшь его и вставляешь результат распознавания в этот же DjVu-файл - и не надо даже кодировать в DjVu при этом.

Tim

Отправлено 18 дек 07, 17:10 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Правильно ли я понял, что для того чтобы ужать представленный дежавю потребуется кропотливая "ручная" работа?
FR разбирает DjVu на отдельные изображения. Здесь все в порядке, проблем нет. Дальше изображение надо передать Акробату для сжатия.
Если на странице есть только текст - нет проблем. Сбрасываем в FR, как "черно-белый" TIFF и затем прессуем JBIG2.
Если на странице только цветная, или только "серая" графика - тоже проблем нет. Сбрасываем как соответствующий вариант TIFF, далее жмем по JPEG 2000, подбирая необходимый уровень сжатия.
А вот если произвольная смесь и того, и другого и третьего, то с таким я пока расправляться не умею. DjVu здесь делит на слои, причем "на автомате", без моего приказа. Как приказать Акробату сделать нечто подобное - пока не нашел.
Требуется грамотная документация по работе Optimizer'а, которую пока найти не удалось.

... поскольку в Сети по сию пору не встречаются пдф-файлы с приемлемого качества иллюстрациями и разумного (20-25 кб на страницу объёма), то и однозначно утверждать о преимуществе формата пдф несколько преждевременно.
Утверждение из категории "Не следует". В смысле из приведенных аргументов отнюдь не следует сделанный вывод.
Во-первых, в Сети такие PDF встречаются. Мне уже не раз попадались PDF-файлы типа "чистый скан", которые я не смог упрессовать, сравнительно с их изначальным объемом. Значит их уже кто-то пропускал сквозь Optimizer.
Во-вторых, пока никто не утверждает про преимущество формата в целом. Black&White он жмет лучше, это уже факт проверенный. Все остальное - когда как. Вот когда удастся подобрать способ обработки изображений произвольного типа, тогда и будем анализировать и сравнивать.

Известен ли Вам способ извлечения из пдф-ов страниц в графический формат, например, тифф без потери качества изображения?
А разве это представляет какую-то проблему? Уж что-что, а в графические форматы Акробат всегда сбрасывать умел.
Другое дело, что "без потери качества изображения" здесь должно читаться "с тем качеством, с которым оно присутствует в PDF и не более того".

Всё гораздо проще - нужно лишь найти текстовый чанк в DjVu-файле (банальная задача), и записать туда OCR-текст из FineReader.
"Каждый мнит себя стратегом, видя бой со стороны". Извините за некоторое ехидство, но ваша фраза уж больно напрашивалась :-).

Найти модуль Sjbz с упакованным Mask-слоем. Распаковать его. Поставить в соответствие каждому пиксельному шаблону его символ. Свернуть полученное в модуль TXTz. Вмонтировать TXTz в исходный DjVu-файл.

Дополнительное (а точнее основное условие): все вышеперечисленное должно быть выполнено без малейшего нарушения всех юридических заморочек, связанных с форматом DjVu.

Единственная трудность - запаковать этот текст bzz-алгоритмом - http://djvu.sourceforge.net/doc/man/bzz.html - уж не знаю, есть ли его не-GPL реализация.
Это уже будет не DjVu-файл. И средствами DjVu-просмотра он открываться не сможет.

Кроме того, растровые Pdf-файлы тормозят при просмотре - что в Акробат Ридере, что в Фоксите - а DjVu-файлы - нет - т.к. там декодируется "на-лету"
В теории. И еще в журнальных статьях :-). На практике же отнюдь не везде и отнюдь не всегда. Совершенно не редкость, когда странички вполне обычной книги открываются с заметным на глаз лагом.

Варяг

Отправлено 18 дек 07, 19:38 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Уважаемый Tim!
Есть неплохая возможность продемонстрировать преимущество Вашего способа сжатия b/w изображений:
На сервере Томска лежит "Энциклопедический словарь по математике"
в формате пдф, чёрно-белый, но слишком уж монструозный:
Math_V1.pdf 77.37 mb
Math_V2.pdf 75,38 mb
Math_V3.pdf 78,42 mb
Math_V4.pdf 81,16 mb
Math_V5.pdf 74,67 mb
Math_Index.pdf 9,03 mb
Адрес этого сервера:
ftp://ftp.tomsk.ru/pub/books/
При переделке в дежавю удалось уменьшить объём этого монстра примерно в 7-8 раз.
Интересно, а как его сожмёт JBIG2 в пдф-е?

Сергей Ружинский

Отправлено 18 дек 07, 20:26 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0


А как было бы здорово - берёшь DjVu-файл, и при помощи одного лишь FR распознаёшь его и вставляешь результат распознавания в этот же DjVu-файл - и не надо даже кодировать в DjVu при этом.


Ну-ну.
Помечтайте. - Может быть в версии FR XXXXVI

("...но жить в ту прекрасную пору, уже не придется ни мне ни тебе...")

Варяг

Отправлено 18 дек 07, 21:06 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Сергей Ружинский

А как было бы здорово - берёшь DjVu-файл, и при помощи одного лишь FR распознаёшь его и вставляешь результат распознавания в этот же DjVu-файл - и не надо даже кодировать в DjVu при этом.


Ну-ну.
Помечтайте. - Может быть в версии FR XXXXVI

("...но жить в ту прекрасную пору, уже не придется ни мне ни тебе...")


Есть утилита Djvuocr 2.1, которая позволяет внедрять текст разпознанный файном в дежавю файл. Правда, она работает только с седьмым или восьмым файном.
В Инете её можно найти.

Сергей Ружинский

Отправлено 18 дек 07, 22:15 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Болгарские друзья конечно же заслуживают всяческой похвалы, благодарности и нижайшего поклона.
Хотелось бы чтобы и российских удостоили таких-же почестей.

abbyy_fan

Отправлено 18 дек 07, 23:40 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

По поводу "юридических заморочек". Насколько я знаю, запатентована... сама идея 3-слойной сегментации. Это тем более может априори поставить крест на любом самодеятельном DjVu-коде. Хотя, вот говорят, что многие патенты можно cуметь обойти - японцы на этом после войны немало денег заработали - брали чужие патенты, обходили, патентовали свои - и в производство.

Это я к вопросу о Z-кодёре: не исключено, что можно сделать аналогичный кодёр - если вложить в это энную сумму.

Впрочем, в этом случае уже разумнее было бы сделать с нуля свой формат - аналогичный DjVu. Ведь формат DjVu не только защищён многочисленными патентами - он ещё и не является "открытым форматом" - т.е. право задавать его спецификации принадлежит только LizardTech - а не ISO-комитету - как в случае формата Pdf. По сути дела, LizardTech ведёт себя как собака на сене в отношении формата DjVu - сам не развивает - но и другим не даёт. Есть мнение (не моё), что это - не случайность - а заговор. Так выгодно, как минимум, западным книгоиздательствам - но, скорее всего, эта "невыгодность" ещё глубже. Странно, что подобие формата DjVu не создали при СССР - наверное, просто не успели. А как жаль - тогда бы не пришлось сейчас идти на поклон к LizardTech. ABBYY бы просто в период перестройки скупила бы эту технологию у наших оборонщиков за бесценок - и всё (т.е. сделала бы то же самое, что она проделала тогда в отношении советских "оборонных" OCR-разработок - что и обеспечило ей ключ к OCR-успеху мирового уровня).

Вообще-то в создании формата DjVu принимали участие 2 наших соотечественника - некие Андрей Ерофеев и Артём Михеев.

Dina_ABBYY

Отправлено 19 дек 07, 12:37 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Уважаемый abbyy_fan!
Рассуждать о покупке технологий всегда просто со стороны, сама этим занимаюсь, когда говорю о других компаниях и их разработках и программах И это всегда очень сложная задача, когда непосредственно ею занимаешься.

Кстати, компания ABBYY (до 1997 года BIT Software) была основана в 1989 г., то есть время перестройки уже неумолимо подходило к концу. И в первые годы своей жизни компания занималась электронными словарями. Первая OCR-программа была выпущена в свет в 1993 году, это был FineReader 1.0, и это полностью была разработка коллектива разработчиков нашей компании. У компании есть ряд патентов по технологиям, которые используются в FineReader и совершенно уникальны не только для российского, но и для мирового рынка.
Почитайте историю компании в фактах, новостях и пресс-релизах.

guest123456

Отправлено 19 дек 07, 13:49 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

<оффтопик>
Забавно, из истории компании

1996,
август Компания Samsung Electronics, Co., Ltd. (Корея) приобрела у ABBYY исходные тексты системы FineReader.

</оффтопик>

Herman Zu

Отправлено 19 дек 07, 15:58 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Да, это была вторая или третья версия FineReader-а... Дальнейшее самостоятельное развитие OCR у них не получилось( не захотелось? )

guest123456

Отправлено 19 дек 07, 16:35 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Так вот как начинался бизнес
Продали буржуинам бесценные разработки, скупленные по дешевке у голодающих сотрудников советских НИИ
И даже небось полученной бочкой варенья да корзиной печенья с abbyy_fan не поделились.


Лопата

Tim

Отправлено 19 дек 07, 18:51 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Варяг
Во-первых, спасибо за две интересные "кладовки". Хороший научтех (да еще классиков) - это всегда приятно.
Во-вторых, книги, которые вы предложили - образчики достаточно интересные. Поэтому я хочу с ними повозиться более капитально чем просто сжать по стандартной схеме и сообщить результат. Так что ответ будет, но не сразу.

abbyy_fan
Да, но это только в отношении lossless DjVu. А применение lossy даёт ещё выигрыш в 2-3 раза. Другими словами - Adobe не использует словари разделяемых символов, как DjVu.
Следовательно, можно сделать вывод: Растровый BW Pdf-файл, меньший, чем соответствующий ему DjVu-файл - это всего лишь всегда результат неоптимального выбора профиля DjVu-кодирования. Попробуйте использовать для DjVu профиль Very Aggressive 300, а не Bitonal.

Словари шаблонов использует формат JBIG2, как таковой. А значит они существуют в любом формате, который использует JBIG2. В том числе и в Compressed PDF.

Что же до lossy и lossless PDF, то их соотносительные возможности различаются не настолько сильно. "2-3 раза" - это иногда как раз та величина, которая получается на DjVu-сжатии с самыми жесткими из штатных (т.е. заложенных в программе).
Это для Black&White-графики в G4-TIFF формате. Для цветной и "серой" графики степень сжатия в изрядной мере зависит от задаваемой степени понижения качества (сравнительно с исходным изображением), поэтому однозначно не считается.

Вообще же, на штатных настройках, из "черно-белых" сканов кратность больше четырех практически не выжимается (сравнительно с G4-TIFF). Дальше или надо иметь скан очень хорошего качество с высоким потенциалом оптимизации, или лезть в DjVu-компрессор с напильником и отверткой :-).

Кстати, один из наиболее выигрышных режимов для Black&White-графики - DjVu Solo, установка Bitonal. Все остальные режимы, которые я проверял или идут вровень (как предложенный вами), или отстают.

DjVu - это вообще чрезвычайно прогрессивная вещь - это целый букет новаторских технологий.
1. Нормальной техдокументации по логике и процессу работы компрессора нет.
2. Толковой системы настроек нет (разве что в DjVu Enterprise 5.1). Задавая тот или иной режим, выставленный в Preference, никогда не поймешь, что именно из него на выходе получишь. Разве что методом научного тыка :-).
3. Совершенствование процесса сжатия практически не ведется. Во всяком случае пятая и шестая версии Document Express дают практически сходные результаты.

Это отнюдь не значит, что, увидев Compressed PDF, надо дружно вопить "У-у-у, рулез" :-). Но там хотя бы относительно прозрачная логика работы и понятно из кого вытряхивать информацию, когда и если она потребуется.

DjVu же относительно малопопулярен (а на Западе он вообще практически неизвестен) именно в силу того, что он ну слишком уж хорош - и кое-кому в Буржуиндии это очень даже не нравится.
По поводу малой популярности могу только процитировать одесситов: "Жадность фраера погубит" :-). При том, как была поставлена продажа всех версий DjVu-компрессоров (начиная с приснопамятного DjVuer), ожидать чего-то иного было бы затруднительно.
А жаль. Формат действительно был очень перспективен и всех свих возможностей отнюдь не исчерпал.

Herman Zu
Да, это была вторая или третья версия FineReader-а... Дальнейшее самостоятельное развитие OCR у них не получилось( не захотелось? )
Подозреваю, что они намеревались сделать из FR что-то для работы с иероглификой. Но после "раскопок" в коде поняли, что придется слишком много переделывать.
Или проект, как это обычно бывает прикрыли по "непрофильности".

Варяг

Отправлено 19 дек 07, 21:19 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Tim
Варяг
Во-первых, спасибо за две интересные "кладовки". Хороший научтех (да еще классиков) - это всегда приятно.


Чтобы Вам было проще разобраться в томской "кладовке", можете посмотреть вот эту ссылку:

Перечень книг на сервере в Томске

abbyy_fan

Отправлено 20 дек 07, 17:12 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Dina_ABBYY
Рассуждать о покупке технологий всегда просто со стороны, сама этим занимаюсь, когда говорю о других компаниях и их разработках и программах.

А что Вы скажете об этом http://lists.altlinux.ru/pipermail/mandrake-russian/2001-March/006962.html :
Цитата
Между прочим, все отечественные OCR используют алгоритмы,
разработанные в застойные времена на госденьги. Можно и
многие публикации поднять. Но работа сложная, без серьезного
финансирования не обойтись.

Вот и разгадка "гениальности" основателей ABBYY.
Dina_ABBYY
Почитайте историю компании в фактах, новостях и пресс-релизах.

Такое в истории компании не напишут.

Herman Zu

Отправлено 20 дек 07, 18:14 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

2 abbyy_fan
теории заговора могут объяснить все, даже при полном отсутствии фактов...

Я уже где-то писал, что после определенного момента (достижения программой критической массы ) исходные тексты можно спокойно отдавать конкурентам, ибо интеллектуальная собственность реально хранится не на диске, а в головах тех 5-6 гуру, которые понимают, что в коде написано. Попытка понять код, написанный конкурентами, просто заблокирует собственные ресурсы и разработки. Отсюда следует - чтобы использовать наработки советских НИИ, надо было нанять и платить разработчикам того софта. Да, да - софта фортранного, PL-ного и алгольного. Ибо Си появился в стране, когда Союз уже на ладан дышал. Переписывать с языка на язык - то еще удовольствие... Так что если что и было использовано от НИИ - это описания алгоритмов в открытых публикациях этих самых НИИ.

PS Кстати тогда (а может и сейчас) в законе об авторских правах явно указывалось - алгоритм не может быть предметом патентования. смешно, но факт.

Tim

Отправлено 21 дек 07, 15:24 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

В одном из номеров "Компьютерры" (http://offline.computerra.ru/2007/702/) была интересная подборка статей, как раз на эту тему - раскопки в старых/не своих кодах.
Очень занятный материал (даже для не-программистов) и хорошая иллюстрация на тему, упомянутую Herman Zu.

Попытка понять код, написанный конкурентами, просто заблокирует собственные ресурсы и разработки.
Что у нас и произошло в приснопамятную эпоху ЕС ЭВМ (АКА OS 360/370).

Herman Zu

Отправлено 21 дек 07, 15:32 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Небольшое дополнение. Копаться в чужих кодах можно и нужно Но как правило либо ищешь пример строк на 40-50, чтоб разобраться с какой-нить тонкой фичей, либо используешь потом подсистему as is , без изменений. Стянуть и развивать продукт не получится

alexman

Отправлено 26 янв 08, 09:41 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan

А что Вы скажете об этом http://lists.altlinux.ru/pipermail/mandrake-russian/2001-March/006962.html :

Это секрет полишинеля... об этом знают все, кому не лень.

abbyy_fan

Отправлено 28 янв 08, 16:07 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Я хотел бы повторно задать ABBYY вопрос:

Планируется ли сделать в FineReader возможность вставки распознанного OCR-текста в DjVu-файл (хотя бы по способу без создания DjVu-файла)?

Технически возможен и обратный вариант: введение в Pro-версию программы возможности отдельного сохранения распознанного OCR-текста в виде XML-файла (то, что уже есть в ABBYY SDK).

Подобный XML-файл можно было бы самостоятельно накладывать на DjVu-файл посредством DjVuLibre-утилит - для получения DjVu-файла с OCR-текстом, распознанным в FineReader.

Данный вариант начисто лишён каких-либо проблем с покупкой лицензии на использование коммерческого Celartem Imaging SDK for DjVu v1.0.

(Хотя то, что ABBYY уже приобрела лицензию на этот продукт, практически не вызывает сомнений - ведь это единственный практический путь для легального внедрения хоть какой-либо DjVu-поддержки в сторонние (т.е. не-LizardTech) коммерческие Win32-программы - вариант с использованием бесплатного ActiveX-объекта "с негодованием отбрасываем" (как старичка-боровичка в "Золотом телёнке")).

Не говоря уже о том, что такой XML-файл мог бы выступить техническим средством интеграции FineReader с самыми разнообразными программными продуктами.

Vera_ABBYY

Отправлено 29 янв 08, 09:28 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan, поддержка записи текста в DjVu пока не планируется. Во-первых, технология записи в DjVu не бесплатная (в отличие от открытия), во-вторых, помимо стоимости лицензии есть еще стоимость разработки (включающая в т.ч. упущенную выгоду от того, что потратим время на DjVu и не успеем сделать другие фичи). Пока большого коммерческого спроса не видно: в основном DjVu используется в научно-учебной среде, и продажи на этом рынке вряд ли окупят вышеупомянутые затраты.

Vera_ABBYY

Отправлено 29 янв 08, 09:31 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan
Не говоря уже о том, что такой XML-файл мог бы выступить техническим средством интеграции FineReader с самыми разнообразными программными продуктами.


FineReader не предназначен для интеграции с другим ПО. Для интеграции у нас есть SDK, который стоит других денег

abbyy_fan

Отправлено 29 янв 08, 16:35 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Vera_ABBYY
Во-первых, технология записи в DjVu не бесплатная (в отличие от открытия)

Открытие тоже не бесплатное. Я буду Вам чрезвычайно признателен, если Вы поведаете, каким это образом открытие DjVu (то есть, не открытите, а чтение-отображение) может быть легально-бесплатным в сторонних (т.е. не-LizardTech) коммерческих программах. Да, есть один такой вариант - использование ActiveX-объекта, присутствующего в установленном броузерном DjVu-плагине - но, как я понимаю, это подразумевает обязательность установки на компьютер этого самого броузерного DjVu-плагина - а это практически начисто отметает подобный вариант.

Celartem Imaging SDK for DjVu 1.0 на http://tokage.celartem.com/sdk/ требует денег даже на чтение-отображение DjVu в использующих его коммерческих программах.

Никаких других вариантов нет - а если бы было, то популярность DjVu была бы в разы выше.

abbyy_fan

Отправлено 6 фев 08, 20:41 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

Интересно - а почему на сайте ABBYY не выложены для скачивания те 2 dll-файла, которые отвечают за чтение DjVu в 9-ке? Ведь немало людей скачали пробный релиз 9-ки как только она появилась - т.е. без поддержки DjVu. Почему бы ABBYY не избавить их от необходимости повторно расходовать 160 мегабайт своего трафика?

Burgunsky

Отправлено 10 дек 09, 17:29 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

У кого есть DLL, отвечающие за импорт djvu, выложите пожалуйста куда-нибудь.

Tim

Отправлено 10 дек 09, 17:44 [NEW]    Сообщить модератору   Цитировать

Re: Импорт DjVu поддержан в ABBYY FineReader 9.0

abbyy_fan
Интересно - а почему на сайте ABBYY не выложены для скачивания те 2 dll-файла, которые отвечают за чтение DjVu в 9-ке?
Скорее всего потому, что люди бывают разные и степень их технической грамотности тоже может быть изрядно разная.

И объясняться потом с кучей народа на тему "я скачал то, что у вас лежит, а оно все равно не работает", а заодно в энный раз читать им ликбез по совместимости и взаимостыковке версий библиотек, ОС и самого FR... я бы лично, к подобному не очень рвался. :-)

А если кому действительно эти DLL требуются, то где-то RuBoard вроде лежала ссылка.

Страницы 1 2 3 4 5 6    [все]

Ответить
Перейти