Есть у меня некий файл в дежавю. Хороший файл, содержимое хорошее. Одна беда, посканен разворотами. Если разворот целиком открывать – мелко, и читать тяжко. Если увеличивать – двигать страницы при чтении… неудобно крайне.
Подумала я, что можно этот самый файл разобрать на картинки, картинки порезать пополам, потом собрать по новой и всё будет замечательно, верно? И даже djvulibre у меня есть, а там, в числе прочих файликов есть djvuextract. Сейчас мне всё будет!
Натурально, открываю ман.
NAME
djvuextract – Extract chunks from DjVu image files.SYNOPSIS
djvuextract [-page=pagenum] djvufile [chkid=filename]…DESCRIPTION
Program djvuextract extracts raw chunk data from a DjVu file djvufile. These chunks can then be re-assembled into DjVu files using program djvumake.Option -page can be used to specify a particular page. Otherwise the first page of the document is assumed. Each remaining argument specifies that the raw data associated with all the chunks named chkid will be concatenated into the file named filename. Chunks named BG44 and FG44 are handled slightly differently: the program generates legal IW44 files instead of simply saving the raw data.
See the man page djvumake(1) for related information.
И понимаю, что я ничего не понимаю. Я не понимаю, как попросить разобрать весь файл. Написать скрипт, который пару-тройку сотен страниц будет выпрашивать поштучно? Я не понимаю, каких идентификаторов ломтей от меня хочет эта штука, и как ей задавать соответствующие этим идентификаторам имена файлов. Я даже не понимаю, в каком виде мне собираются отдать содержимое дежавюшки…
Да, я ходила почитать ман djvumake. Я запускала djvudump, в надежде понять из результатов, чего от меня хотят. Не помогло.
Я искала в сети, но нашла только советы, как сделать файл, а не как разобрать. И то, советы не для моего слабого ума, и только про чёрно-белый, зачем-то. А если у меня, предположим, файл про вышивание, где цвета важны?
Подскажите волшебные слова, добрые люди! Трудно быть деревом!
4, Апрель, 2009 at 9:54 пп
Интересная мысль… Я как-то пробовал сканить кусок книжки и игрался немного с дежваавю, так мне показалось, что это весьма фирмовая штука, основанная на своих фирмовых форматах и т. п. Как следствие оно не очень дружит с юзером и форматами попроще.
Непосредственно извлечь наверное проще всего так – http://djvu.sourceforge.net/doc/man/ddjvu.html – на выходе мне самым подходящим кажется tiff, хотя при желании можно и другие форматы попинать. Кстати DjView тоже умеет сохранять в картинки, но только отдельные страницы вроде, зато ей можно перегнать один многостраничный документ в много одностраничных без консольной магии.
И в любом случае придётся подумать о скриптах… Ну или искать/качать специальные проги по ваянию книжек, которые тоже самое будут делать по велению мышки. Про скрипты вроде как рекомендуют эту статейку – http://www.howtoforge.com/creating_djvu_documents_on_linux
Вообще мрак это всё, тут надо или забить, или наверное чуть ли не сорсы посмотреть чтоб понять как оно там работает – штука мощная, но сложная.
5, Апрель, 2009 at 1:08 пп
Большое спасибо. Видимо, я не то разглядывала, что мне было нужно :)
В tiff извлекла, многостраничный тифф на отдельные тиффки разобрала, теперь буду imagemagick пинать, чтоб он мне развороты порезал :) А потом про всю операцию надо будет пост написать. Может быть, этот заменить :)
У меня ощущение, что djvu сейчас в своей нише практически безальтернативен. Сканеное нераспознанное не в pdf же загонять – неудобочитаемо будет, та ещё ресурсожорка… есть у меня несколько pdf-ок, которые я рискую открывать, только позакрывав и позавершав всё, что только можно. Сканы репринтных изданий. Если освоюсь тут с дежавюшками, может, смогу их в дежавю перегнать…
Пачки картинок читать и хранить не очень удобно.
А есть книги, которые и распознавать-то почти без толку, там основное содержание как раз картинки.
И в любом случае, есть огромное количество литературы в этом формате, в том числе в криво сделанном виде ;), и как-то с этим справляться надо :)
Избегать консольной магии мне не очень свойственно. Простенькие скрипты я и сама иногда пишу. :) А вот сорсы читать – это увы…
16, Июль, 2009 at 10:14 дп
pdf2djvu -o out.djvu in.pdf