Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - woodyfon

Страницы: [1]
1
Сканобработка / Re: Программа ST Split
« : 24 Ноября 2011, 02:21:05 »
А можно в виде исключения все-таки добавить такую возможность, ведь требуется лишь добавить строчку с галочкой "для все файлов задние субсканы"? Мне эти все действия не сложно сделать, а вот новичкам это все понять и проделать будет проблематично. Такие люди понимают лишь язык программ - ткни туда, нажми то.  Просто пытаюсь рассказать как правильно и качественно сделать книжку в электронном в иде из бумажной.
Такая штука очень актуальна для создания pdf по методу разделенных сканов, когда BW кодируется в JBIG2, а кртинки в JPEG2000.
Цитировать
Я вообще рассматриваю ST Split в качестве временной программы - в любом случае весь её функционал нужно перенести в ST.
Я тоже за это. Например, на этапе "Смешанный" это необходимо делать как аксиому.

2
Классно было бы для Windows и с GUI. Вот тогда бы появился аналог DjVu Imager pdf

3
Сканобработка / Re: Программа ST Split
« : 21 Ноября 2011, 23:12:48 »
monday2000
Можете ли вы в программу добавить возможность вывода "пустых" изображений (белый фон) для тех файлов, где нет иллюстраций. Актуально, если требуется собирать pdf-файл, используя метод разделенных сканов и специальные плагины. Использование последних даст возможность полностью пакетировать сборку.

4
Общий / Re: Каталогизация DjVu книг
« : 15 Ноября 2010, 23:44:07 »
Выскажу мысль как библиотекарь (честно работаю библиотекарем  :)):
1. Краткое библиографическое описание + УДК и Авторский знак.
1а. Наименование файла djvu. Обычно автора (составителя), заглавия и года издания хватает, чтобы не было дублетности.
2. В каком режиме книга (BW, Gray, Color).
3. Разрешение.
4. Наличие титульной страницы.
5. Наличие OCR-слоя.
6. Наличие гиперлинков для перемещения по содержимому.
P.S. Каталогизация книг и в частности электронных не такой уж и легкий процесс.
Когда видишь описания книг на том же infanata чувствуешь, что все форматы, госты сводятся на нет. Они попросту не нужны. Спрашивайте у тех людей, которые этим занимаются профессионально.

5
Каждый алгоритм имеет матч. часть. Алгоритм на бумаге может существенно отличатся от алгоритма в исходниках.  Поэтому изначально нужно составить так сказать теорию алгоритмов и уже потом пыпаться закодить его. А не наоборот - писать алгоритм основываясь на исходниках.
Интересует алгоритм сегментации изображения - т.е. разложение скана на текстовый блок и картинку.

6
Pdf / Re: Откуда книги PDF?
« : 14 Ноября 2010, 15:41:39 »
Формат pdf более известен в кругах людей, не слишком знающих в книгосканировании. Для них этот формат есть стандарт. А для сканирования используется обычно FR. Поэтому большинство книг именно pdf. Потомучто те, кто знает как хорошо сделать книгу, пытаются научить, а те, кто не знает, просто сканируют.

7
Pdf / Re: PDF-технология ClearScan
« : 14 Ноября 2010, 15:36:35 »
Вставлю и я свои пять копеек.
Данная фича (возможность) находится в Документ -> Оптическое распознавание текста -> Оптическое распознавание символов...

нажимая на кнопочку Изменить..., запустится следующее окно

Если выбрать даунсамплинг - минимальное (600 dpi) и разрешение исходной страницы будет 600 dpi,  то пропажи строк и слов не будет. Было проверено на книге в 300 страниц.
Замечу недостатки ClearScan:
1. Нет общего шрифта для симовлов примерно одной высоты. Векторные символы могут быть различной высоты, хотя размер шрифта на странице одинаков.
2. Смещение относительно других символов. Векторые символы не стоят в одной строчке (на одном уровне).
Достоинства:
1. Полнотекстовый поиск по документу.
2. Уменьшение размера файла. Размер уменьшился более чем в 2 раза.

Страницы: [1]