Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - m7876

Страницы: 1 [2] 3
16
Программирование / Re: CuneiForm для DjVu
« : 09 ЅЮпСам 2010, 23:12:28 »
А, ну значит, поправили, отлично.

17
Программирование / Re: CuneiForm для DjVu
« : 09 ЅЮпСам 2010, 01:11:04 »
Цитировать
Вот этот момент, пожалуйста, подробней. Почему же я должен хоть как-то почувствовать эту проблему? Не пойму. Разве мне будет хоть какое-то дело до присутствия картинок на скане - ведь каждое OCR-слово имеет свои координаты - так что поверх картинки, к примеру, OCR никогда не вставится.
А разве общий размер изображения не нужен для того, чтобы определить, к чему относятся координаты?

18
Программирование / Re: CuneiForm для DjVu
« : 06 ЅЮпСам 2010, 03:48:47 »
Цитировать
Какие-то дикие, немыслимые навороты - ради чего?
Да просто Python с кучей библиотек давно уже стал неотъемлемой частью почти любого Linux (примерно также, как Visual Basic -- Windows, и даже серьезнее). Так что никаких наворотов, все абсолютно логично. А, кстати, Jakub'овский pdf2djvu вполне кроссплатформенный и беспитоновский (и я очень им доволен, опять кстати).
Цитировать
Но это уже будет не моя проблема
Ваша, как только Вы текст начнете вставлять :)

19
Программирование / Re: CuneiForm для DjVu
« : 05 ЅЮпСам 2010, 18:39:04 »
ocrodjvu отлично работает под Linux. Те глюки, которые есть, Jakub быстро исправляет.
Кстати, он позволяет еще использовать и tesseract, у которого теперь тоже есть русский язык. Не знаю, стОит ли Вам изобретать велосипед.
Да, еще имейте в виду, что cuneiform не указывает пиксельные размеры изображения в hOCR. Это может оказаться проблемой.

20
Linux / Re: Утилита djvupages
« : 29 ѕЪвпСам 2010, 18:35:02 »
В общем, Ваш djvudpi отлично компилируется и работает под Linux.

21
DjVu / Re: DjVu-программы
« : 29 ѕЪвпСам 2010, 16:31:07 »
В img2djvu я назвал этот метод "forced segmentation".

22
DjVu / Re: Djvu декодер
« : 29 ѕЪвпСам 2010, 02:53:20 »
Если у Вас Linux (вряд ли, наверное ;), то моя новая утилита djvupages как раз для этого:
> djvupages --images djvu_file
отконвертирует все страницы в TIFF и поместит их в отдельную папку.

23
Linux / Re: Утилита djvupages
« : 29 ѕЪвпСам 2010, 02:50:40 »
Да, все тестировалось под Linux. С другой стороны, все программы, которые используются, доступны и под Windows.
Про удаление заднего плана я думал, но это опасная операция, можно легко потерять информацию и не заметить этого.
Еще хочу посмотреть, будет ли работать Ваша утилита по смене DPI на всех страницах, потому что не вижу способа легко сделать это с помощью DjVu Libre.

24
Linux / Утилита djvupages
« : 27 ѕЪвпСам 2010, 03:22:46 »
Сделал небольшую утилиту djvupages. Она умеет удалять и перемещать страницы, резать файл на отдельные DjVu файлы, вырезать многостраничный фрагмент, конвертировать страницы в TIFF и даже посылать выбранную страницу в GIMP, а после редактирования кодировать заново и вставлять на место. http://github.com/ashipunov/djvupages

25
Linux / Re: Однопроходный DjVu кодер
« : 17 ѕЪвпСам 2010, 08:05:10 »
Да, и: нужна ли опция создания MMR и jpeg-чанков (вместо "нормальных" JB2 и IW44)?

26
Linux / Re: Однопроходный DjVu кодер
« : 17 ѕЪвпСам 2010, 08:04:06 »
Тем временем сделал уже версию 1.3 (в основном оптимизация). Теперь пользуюсь img2djvu для создания всех своих DjVu-файлов (начинал с  DjVu Small ;) ).
Кстати, img2djvu заменяет еще и DjVu Pal, потому что если на вход подать трехцветный файл, вызовется csepdjvu.

27
Linux / Re: Однопроходный DjVu кодер
« : 06 ѕЪвпСам 2010, 22:08:32 »
m7876
А Вы линуксоид?
Работаю под Windows, разные Linux и Mac OS X. Сейчас быстро перехожу на Ubuntu 10.04 как основную рабочую систему.
Цитировать
Как Вы думаете, это случайность, что существует целый ряд таких программ, как DjVu Small, DjVu Imager, ST Split и пр.
Возможно, и не случайность, но мне больше нравится простое решение: Scan Tailor + img2djvu. К тому же img2djvu -- не суперпрограмма, а просто текстовый скрипт, где опции позволяют отключить всю лишнюю функциональность. При желании можно и внутри что надо поправить -- это же текстовый файл.
Кроме того, комбинация этих утилит позволяет решить некоторые задачи оптимальнее. Например, OCR делается только на текстовую часть смешанной страницы. Обработка (контрастность и пр.) делается только с цветной частью. Не надо делать сначала пары субсканов, потом черно-белый DjVu, потом разбирать его и опять соединять -- все делается на месте, с каждой страницей. И т.п.
Наконец, без опций img2djvu "просто" комбинирует цветное фотокодирование и черно-белое кодирование JB2, а этого, если я правильно помню, вообще ни одна программа не делает. В то время как, на мой взгляд, это единственное спасение от "порчи картинок в DjVu" новичками.

28
Linux / Re: Однопроходный DjVu кодер
« : 06 ѕЪвпСам 2010, 12:35:37 »
Перенесено из темы "TiffDjvuOcr" http://www.djvu-scan.ru/forum/index.php?topic=98.0
 
Вот и я туда же -- -- http://forum.ru-board.com/topic.cgi?forum=5&topic=32945&start=540#19
Приятно слышать, что думаю с кем-то в одном направлении.
Tesseract со вчерашнего для работает с русским языком, хотя и хуже, чем cuneiform. Но только ветка cuneiform-multilang умеет распознавать два языка сразу, а без этого биологические книги на русском не распознать.
Jacub Wilks уже сделал вполне рабочую версию ocrodjvu, которая умеет добавлять OCR слой прямо в готовый DjVu файл.

29
Linux / Re: Однопроходный DjVu кодер
« : 06 ѕЪвпСам 2010, 12:30:36 »
Новая версия img2djvu -- http://forum.ru-board.com/topic.cgi?forum=5&topic=32945&start=540#19
Делает фсё :)

30
Linux / Re: Однопроходный DjVu кодер
« : 01 ѕЪвпСам 2010, 19:37:50 »
Вообще-то, он должен работать и в виндах. Но нужно поставить bash, getopt и mktemp (а еще, конечно, должны быть ImageMagick, DjVu Libre и minidjvu).

Страницы: 1 [2] 3