No Image

Что такое формат djvu

СОДЕРЖАНИЕ
0 просмотров
22 января 2020

DjVu (от фр. déjà vu — «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. п.

Изначально технология была разработана Яном Лекуном, Леоном Боту и Патриком Хеффнером в AT&T Labs с 1996 по 2001 годы. DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём создаётся большое количество разных документов.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

Содержание

Используемые технологии [ править | править код ]

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. Например, сжатие без потерь предоставляет утилита CJB2 из пакета DjVuLibre.

В основе формата DjVu лежат несколько технологий, в том числе разработанных в AT&T Labs:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона IW44;
  • алгоритм сжатия чёрно-белых изображений JB2 (похожий на JBIG2);
  • универсальный алгоритм сжатия Deflate;
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений.

Текстовое представление изображений DjVu [ править | править код ]

Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания в сторонних программах.

Лицензионная информация [ править | править код ]

В марте 2000 года [1] AT&T продали технологию компании LizardTech [3] , которая пыталась использовать её в своих коммерческих интересах, но благодаря открытости формата [4] для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ. 1 июля 2008 года LizardTech передал менеджмент DjVu родительской компании Celartem [5] , а 10 июня 2009 года Celartem передал права на технологию DjVu компании Cuminas (ранее Caminova [6] ) [7] .

Существует открытая публикуемая под лицензией GNU GPL библиотека DjVuLibre и программы-кодировщики и просмотрщики на ней.

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Наверное, вам встречались на просторах интернета отсканированные книги в формате Djvu (их файлы имеют такое же расширение).

Обычно таким образом распространяется в сети не художественная литература, а книги содержащие рисунки, графики, формулы и прочие вещи, которые довольно сложно перевести в цифровой формат с помощью программ распознавания текстов.

Поначалу я считал, что этот странный формат djvu (дежавю — что это такое) представляет из себя обычный набор растровых изображений (фотографий), которые получились в результате сканирования книги. Но в этом случае размер файла был бы очень большим, а мы это не наблюдаем.

Что же представляет из себя файл с таким загадочным расширением и каким образом его можно открыть, чтобы начать чтение заключенной в «дежавю» информации, и какие программы при этом лучше всего использовать. На все эти вопросы я попытаюсь ответить в этой статье.

Что из себя представляет файл в формате Djvu

Оказывается, что djvu был разработан около пятнадцати лет назад и представляет из себя очень удачную смесь тестовых и графических форматов. В принципе, при оцифровке книг возможно два варианта развития событий:

  1. Производить распознавание текста на отсканированной странице и сохранять его с применение алгоритмов сжатия, что позволяет получить очень малый вес итогового файла. Недостатком является то, что теряются изображения, фон, записи на полях, загнутые уголки и прочие вещи, которые могут быть важны в некоторых случаях. Но зато по распознанным текстам можно будет вести полноценный поиск.
  2. Можно сохранять отсканированные тексты в виде картинок, для чего подойдут такие форматы растровой графики, как gif, png, jpeg или tiff. Однако при этом вес даже одной отсканированной страницы будет чрезмерно высок, если мы захотим сохранить качество. Ну, и невозможно будет вести поиск по текстам.
Читайте также:  Смотреть фильм на айпаде

Достоинства описанных выше способов объединяет в себе Djvu, при этом практически не имея недостатков. Формат Дежавю можно отнести к текстово-графическим, что само по себе уже звучит необычно, но зато сулит массу дивидендов. Судите сами:

  1. Исходное отсканированное изображение сжимается в Djvu в десять раз плотнее, чем это было бы при использовании JPEG и при этом практически не изменяется его качество. При этом jpeg обязательно размоет и текст, и графику, и все что только можно, а наш герой все оставит в первоначальном виде.
  2. Лист формата A4, отсканированный и переведенный в дежавю, будет весить в районе 50 килобайт (читайте про то, сколько килобайт в мегабайте), если исходник был с цветной графикой (или фоном), и в районе 10 килобайт — если черно-белый. Лепота, и это с учетом того, что сканирование производилось в высоком разрешении 300 DPI. Тот же файл, сохраненный в формате tiff (без потери качества), весил бы в несколько сотен раз больше.
  3. Файл Djvu содержит текстовый слой, по которому можно вести полноценный поиск, а при желании можно оставить только его (удалив цветовую маску и фоновую информацию), что еще существеннее уменьшит размер.

Достигается все это благодаря довольно оригинальному подходу. Я могу ошибаться, но, по-моему, он заключается в следующем:

  1. Разделяют между собой текст страницы и ее фон. Алгоритм отслеживает много факторов и при правильных настройках может даже выдрать текстовую составляющую с обложки журнал, где слова могут использоваться и в качестве фона.
  2. Текст сохраняется в однобитовом варианте (черно-белом) и сжимается довольно плотно.
  3. Отдельно сохраняется фон, который сжимается чуть менее эффективно.
  4. Информация о цвете текста и используемых в книге иллюстраций так же сжимается, но уже по другому алгоритму.
  5. Как я уже упоминал, формат Djvu предусматривает наличие отдельного текстового поля, благодаря которому можно осуществлять поиск по отсканированным книгам.

Но вопросы создания и принципов формирования данных в файлах дежавю нас интересуют постольку-поскольку, а гораздо интереснее будет узнать, каким образом их можно открыть и прочитать Djvu.

Естественно, что для этой цели используются специальные программы для чтения (ридеры), которые имеют место быть и для компьютера, и для мобильных устройств на базе Андроида или iOs (ipad, iPhone). Удобно же ведь по дороге домой или на работу повысить свой уровень образованности благодаря чтению на мобильнике умной книжечки.

Чем открыть Djvu — программы для чтения на компьютере

Существуете несколько программ, которые ориентированы на работу только с файлами дежавю, а есть ряд универсальных решений, которые позволяют читать книги практически в любом виде. Так же имеются редакторы Djvu, которые позволяют корректировать или даже создавать свои собственные шедевры.

Среде ридеров Дежавю, предназначенных для компьютера, стоит выделить следующие читалки:

WinDjView — это первая программа, с которой я познакомился уже много лет назад и которой продолжаю пользоваться для чтения книг и журналов в формате Djvu до сих пор.

Она полностью поддерживает русский язык и ее даже успел охомутать «великий и ужасный» Yandex, принуждая вас чуть ли не силой сделать Яндекс домашней страницей и поиском по умолчанию во всех ваших браузерах:

В общем-то они дают возможность отказаться от всего этого богатства (включая Элементы), но далеко не все при установке программы обращают на это внимание. Конечно же, у той же поисковой системы Вебальты все это выглядит еще более навязчиво, но и ведущий поисковик рунета тоже уже все бесплатные программы заполонил своими надстройками по самое «не балуйся».

Как я уже упоминал, в Djvu может быть зашит текстовый слой, поэтому при чтении книг содержащих его можно осуществлять поиск по словам и фразам.

Слева у WinDjView имеется навигатор с миниатюрами страниц, а вверху расположена панель инструментов, где можно открыть новый файл, поменять масштаб и тип отображения страниц (бесконечная лента или имитация разворота книги), а также повернуть их при необходимости на угол кратный 90 градусам.

Что примечательно, эта читалка формата дежавю открывает новые книги на новых вкладках, что позволяет работать сразу с несколькими материалами в одном окне программы. Еще имеется возможность делать закладки и оставлять комментарии (из контекстного меню правой кнопки мыши). Можно использовать экранную лупу с панели инструментов и полноэкранный режим просмотра (в этом случае странички можно листать простым щелчком мыши).

Если выбрать из меню программы WinDjView «Файл» — «Настройки», то на второй вкладке можно будет задать инвертирование цветов (например, для того чтобы читать белый текст на черном фоне), а так же настроить яркость, контрастность или гамму для лучшего восприятия документа в формате Djvu.

В начале статьи я упоминал, что в дежавю отсканированный документ разбивают на черно-белую текстовую составляющую, фон и информацию о цвете переднего плана. Так вот, в WinDjView все это можно наглядно увидеть, выбрав из меню «вид» — «режим».

Читайте также:  Что такое трансляция на андроиде

DjVu Reader (DjVuReader) — говоря, что WinDjView была моей первой программой для открытия djvu, я немного ошибся, ибо таковым был именно дежавю ридер, который сейчас уже авторами не поддерживается.

Последняя актуальная версия датируется 2005 годом (версия 2.0.0.26) и ее совместимость с современными ОС не гарантируется, хотя на моей Windows Vista он по-прежнему работает, правда не так шустро, как его современный аналог описанный чуть выше. Установки он не требует и работает прямо из папки, куда вы распаковали архив с программой.

Официальный сайт разработчика находится на Народе от Яндекса (который сейчас был отдан на растерзание Юкозу) и представляет из себя не очень приглядное зрелище. Собственно, сам разработчик советует использовать вместо его DjVu Reader современный WinDjView, что лично я и делаю.

STDU Viewer — по ссылке доступна как портативная, так и обычная версия универсальной программы-ридера, которой по силам не только открыть Djvu файл, но и PDF, FB2, EPub, постраничный TIFF и многие другие популярные форматы. В общем это комбайн, который очень даже неплохо справляется со своей задачей.

При установке нужно поставить галочку, что вы не будете использовать эту читалку в коммерческих целях, чтобы не платить за программу.

Ну, и так же STDU Viewer спросит вас, с какими именно расширениями файлов вы хотели бы его ассоциировать, кроме дежавю.

В принципе, в этой читалке нет чего-то такого глобального, чего не было бы в WinDjView, но. Во-первых, подкупает огромное количество форматов, которые можно открыть и прочитать с помощью этой программы.

Во-вторых, очень удобный и продуманный интерфейс.

Практически весь функционал ридера выведен в виде панелей инструментов, расположенных по всему периметру окна программы. То место, где обычно отображают миниатюры страниц читаемой книги, имеет целых шесть вкладок расположенных внизу.

Не все они применимы к Djvu, но все же. Те же закладки, которые можно будет оформить в виде дерева, вполне смогут заменить отсутствующую навигацию по вашей настольной книге или справочнику.

Настройки яркости и контраста тоже выведены в виде иконки в правом нижнем углу, где так же находятся и кнопки переключения режима отображения документа.

В-третьих, имеются некоторые приятные функциональные изыски, которые помогут при повседневной работе с STDU Viewer:

  1. При закрытии программы запоминаются все открытые в этот момент в ней файлы (вместе с позициями в них). После того, как вы запустите ридер вновь, вам будет предложено восстановить сессию, тем самым избавив от необходимости вспоминать, что именно и на каком месте было открыто в читалке до этого.
  2. Возможность быстрого (поле находится в верхнем правом углу программы) и расширенного (иконка бинокля под вкладкой левой панели) поиска по открытому во вкладке документу. В случае Djvu эта функция (равно как и копирование фрагмента текста) будет работать только при наличии текстового слоя в исходном файле.
  3. Если формат позволяет вам воспользоваться кнопкой выделения текста с верхней панели инструментов (или из контекстного меню), то вы получите возможность выделенный фрагмент, например, подсветить, а другими словами, отправить цитату в цитатник, который живет в левой панели.

А можете произвести поиск по непонятной вам фразе в Google или Бинге, а еще отослать цитату по электронной почте.

  • Из верхнего меню «Окно» можно будет выбрать вертикальное или горизонтальное разделение, чтобы можно было просматривать сразу два файла. Редко, но и такое может понадобиться.
  • Ну и, в-четвертых, это огромное число настроек, которые можно сделать в STDU Viewer, чтобы данный ридер полностью подходил под ваши привычки и потребности.

    Например, можно настроить (Файл — Настройки программы) даже внешний вид вкладок, что, конечно же, является пустячком, но довольно приятным:

    Djvu читалки для Андроида и iOs (iPad и iPhone)

    Почему-то читать книги у меня получается в основном в дороге, а за стационарным компьютером всегда находится масса других, более важных и интересных дел. В связи с этим у меня встала задача скачать какой-нибудь подходящий дежавю ридер для моего любимого iPad, полученного в подарок от Профит Партнера, но и в купе ко всему — для телефона на базе Андроида.

    При этом я стараюсь перепробовать все бесплатные варианты программ и приложений, прежде чем прийти к выводу, что другого варианта, как расстаться с кровнозаработанными, у меня не остается. Собственно, основными кандидатами на место Djvu читалки для iOs в интернете рекомендуют DjVU Book Reader.

    Вроде бы все хорошо, и отзывы, и скриншоты, но вот просят за него хоть и небольшую, но все же сумму денег (169 рублей). Мне подумалось, что на этой софтине свет клином не сошелся и я в Apple Store ввел в поисковой строке слово Djvu и попросил отфильтровать только бесплатные приложения.

    После тестирования на предмет открывания различных файлов в формате дежавю и оценки удобства использования и функционала, среди бесплатных программ для iPad выявился однозначный лидер — KyBook.

    Софтинка уникальная, на мой взгляд, ибо при своей бесплатности полноценно поддерживает EPUB, FB2, PDF, DJVU, CBR, CBZ и аудиокниги в формате MP3, M4A, M4B.

    При чтении странички красиво перелистываются (анимацию можно настроить), есть масса настроек и функциональных возможностей, таких как создание закладок, оставление заметок, поиск по содержимому книги и т.п. вещей, которые доступны из верхней панели инструментов.

    Читайте также:  Троян для кражи пароля вконтакте

    Настроек у читалки KyBook неожиданно много:

    В том числе имеется отдельная группа настроек этого ридера для форматов PDF и DJVU:

    В библиотеке данного ридера можно осуществлять сортировку книг, создавать для них полочки, перемещать файлы между ними, переименовывать и делать все, что обычно требуется от подобных программ.

    Кроме этого, имеется возможность использовать имеющиеся у вас приложения для работы с облачными хранилищами типа Облака DropBox, Яндекс Облака или Гугл драйв.

    Правда, предоставляя доступ к своим файлам в Дропбоксе и других облаках, KyBook вас предупреждает, что он их даже может изменять, что лично мне не очень по душе.

    Поэтому я Djvu файлы кидают в папку Dropbox на компьютере (по Wi-Fi), после чего открываю одноименное приложение на Ipad и добавляю их в избранное, чтобы они потом не тянулись по мобильному инету, который не всегда быстрый и к тому же лимитированный.

    Когда хочу почитать одну из загруженных дежавю книг или журналов, то в Дропбоксе на Айпаде просто кликаю по нему, а потом выбираю вариант ее открытия в KyBook.

    Мне кажется, что так будет безопаснее.

    Теперича пора переходить к вопросу, как открыть Djvu на Андроиде. Интернет подсказал мне, что оптимальными вариантами являются два бесплатных приложения, которые и используются мною до сих пор, ибо особых нареканий по их работе у меня не появилось, но на всякий оставил их оба — вдруг какой-нибудь крученный файл дежа вю один из них открыть не сможет.

    Итак, представляю вам читалки дежавю для Андроида:

    EBookDroid — очень красивый и вполне работоспособный ридер форматов PDF, DjVu, XPS, Comic books, fb2, EPUB и RTF. Для заливки файликов на устройство я опять же использовал Dropbox, который при попытке открыть в нем дежавю-книжку предлагает мне выбрать одну из двух установленных на телефоне читалок:

    Библиотека в EBookDroid очень классно стилизована под книжные полки с паутинкой и вашими фолиантами, стоящими в рядок:

    Просмотр книги в этой читалке осуществляется простым скроллингом пальцев, а из верхнего меню можно получить доступ к огромному числу настроек этой замечательной программы:

    Orion Viewer — неплохая альтернатива описанной выше читалке. Умеет практически все то же самое, поддерживает форматы pdf, djvu, xps и cbz.

    Из преимуществ перед предыдущим ридером, можно назвать хитрую систему разрезания больших листов (например, журнальных) на фрагменты как по горизонтали, так и по вертикали (например, на четыре экрана каждую страницу), которые будут подгружаться друг за другом простым двойным кликом по экрану.

    Именно благодаря последней особенности Orion Viewer позволяет довольно комфортно читать большеформатный DjVu и PDF на сравнительно небольшом экране смартфона. Работает по субъективному впечатлению побыстрее, чем предыдущая читалка для Андроида, хотя разница не особо большая.

    Если у вас на компьютере завалялся файлик с расширением djvu, знайте, что это не программа и не картинка, это – электронная книга. Просто так ее не открыть – ни в Word-е, ни в другом текстовом редакторе, так как формат сам по себе редкий и специфический. В нем хранят копии бумажных книг, методичек, журналов и других изданий, сделанных на сканере. Такой способ оцифровки информации сегодня редко используется, поэтому формат и не поддерживается операционной системой по умолчанию. Понадобится специальная программка – читалка DjVu Reader.

    Способ 1

    Скачайте DjVu Reader с главной страницы нашего фан-сайта. Это полностью бесплатная программа для чтения книг, которая не нуждается в установке на компьютер. Откройте скачанный архив и извлеките из него папку с файлами читалки в корень жесткого диска, или туда, где вы обычно храните портативные версии программ (у меня на диске «C» для этого создана папка под названием Program Portable).

    Запустите читалку (файл DjVuReader.exe). Затем нажмите CTRL+O и откройте djvu книгу со своего компьютера. Перелистывайте страницы кнопками сверху, или открывая миниатюры на панели слева. Настройте масштаб, чтобы шрифт был не слишком мелкий, и страница при этом влезала в окно просмотра, хотя бы по ширине. Если после долгого чтения болят глаза – снизьте яркость/контрастность во вкладке «Коррекция».

    Способ 2

    У DjVu Reader есть программы аналоги. Это тоже читалки, только созданные другими разработчикам. Отличаются они набором функций и внешним видом. Кому-то по душе одна читалка, кому-то другая, как говорится, на вкус и цвет все фломастеры разные. От себя порекомендуем попробовать WinDjView и STDU Viewer.

    Открываются djvu файлы в этих программах тем же самым способом – через меню «Файл» — «Открыть». Или двойным кликом по файлу прямо из проводника Windows, если во время установки была настроена ассоциация форматов с выбранной читалкой.

    Способ 3

    Скачайте djvu плагин для браузера. После его установки каждый браузер на компьютере сможет открывать djvu файлы онлайн. Или прямо с жесткого диска, через контекстное меню «Открыть – с помощью».

    Также есть еще один хитрый способ. Сконвертируйте djvu файл в pdf. Затем откройте его в Google Chrome или в Edge. Эти браузеры по умолчанию умеют открывать документы в формате PDF без установки дополнительных плагинов.

    Комментировать
    0 просмотров
    Комментариев нет, будьте первым кто его оставит

    Это интересно
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    Adblock detector