Автор Тема: PDF-технология ClearScan  (Прочитано 14483 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
PDF-технология ClearScan
« : 01 ЅЮпСам 2010, 16:24:17 »
В программе Adobe Acrobat Professional 9 имеется интересная функция, она называется "ClearScan". Вот её описание на английском языке:

http://acrobatusers.com/print/2215

ClearScan - это особый вид OCR-распознавания, когда после распознавания генерируется векторный шрифт с очертаниями, максимально близкими к очертаниям пропечатанного на скане шрифта - и вставляется на скан вместо исходного текста.

Однако, по сообщениям тех, кто ею пользуется, эта технология теряет порой целые строки текста - если качество скана не самое высокое (не 600 dpi, к примеру).

Вот сообщение romanef с Руборда:
Цитировать
выловил глюк Clearscan, почище чем "инь-янь", пропали целые слова (ПОСЛЕДОВАТЕЛЬНОСТИ, ПРЕ)!!



так что пользоваться им для физмата нельзя...

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Re: PDF-технология ClearScan
« Ответ #1 : 01 ЅЮпСам 2010, 21:57:32 »
Пользование ClearScan может дать интересный эффект при конвертации из PDF в DJVU.
Для растровых файлов PDF я применяю ClearScan и тем самым существенно уменьшается исходный файл. Попутно выправляются наклоны текста и сам он становится более четким. Нельзя, конечно, думать что распознан он на 100%, но этого уже достаточно для хранения.
Далее  файл PDF я печатаю виртуальным принтером Celartem и получаю значительно лучший DJVU-файл, чем при прямой конверсии.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #2 : 02 ЅЮпСам 2010, 09:21:59 »
Eugeen1948
Цитировать
Далее  файл PDF я печатаю виртуальным принтером Celartem и получаю значительно лучший DJVU-файл, чем при прямой конверсии.
Да, собственно, именно так все (в нашей среде) и используют ClearScan - как промежуточное средство при создании DjVu. ;)

don555

  • Пользователь
  • **
  • Сообщений: 71
    • Просмотр профиля
    • E-mail
Re: PDF-технология ClearScan
« Ответ #3 : 02 ЅЮпСам 2010, 15:04:01 »
Этой программой можно пользоваться при создании djvu? После обработки SK или ST создать pdf файл, а затем при помощи ClearScan в djvu? Качество будет лучше? Я ошибаюсь?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #4 : 02 ЅЮпСам 2010, 18:03:18 »
don555
Цитировать
Этой программой можно пользоваться при создании djvu?
Да, можно. Только это не программа - а опция программы Adobe Acrobat Professional 9.
Цитировать
После обработки SK или ST создать pdf файл, а затем при помощи ClearScan в djvu?
Да. Только не совсем так: После обработки SK или ST создать pdf файл (растровый), затем подвергнуть его обработке через ClearScan, потом декодировать в TIF'ы - и их уже закодировать в DjVu.
Цитировать
Качество будет лучше?
Да, и качество будет лучше, и размер меньше. ClearScan ведь заменяет отсканированный шрифт на свой похожий внешне векторный шрифт. Вот пример:



Однако, сканы, подвергаемые ClearScan, должны быть высокого качества: 600 dpi и чёрно-белые (не серые) - иначе будут "съедаться" целые абзацы.

don555

  • Пользователь
  • **
  • Сообщений: 71
    • Просмотр профиля
    • E-mail
Re: PDF-технология ClearScan
« Ответ #5 : 03 ЅЮпСам 2010, 13:27:30 »

Цитировать

Однако, сканы, подвергаемые ClearScan, должны быть высокого качества: 600 dpi и чёрно-белые (не серые) - иначе будут "съедаться" целые абзацы.

Да, красивые буквы получаются.
Но перед тем как начать разбираться глубже, хотел бы кое-что уточнить.
1. Имеется в виду сканировать нужно изначально в 600 dpi или подойдут сканы после обработки из 300dpi в 600dpi посредством прог СТ или СК?
2. Вопрос по чёрно-белым сканам аналогичен с первым.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #6 : 03 ЅЮпСам 2010, 14:12:21 »
don555
Цитировать
1. Имеется в виду сканировать нужно изначально в 600 dpi или подойдут сканы после обработки из 300dpi в 600dpi посредством прог СТ или СК?
Судя по статье http://acrobatusers.com/print/2215 , можно предположить что даже и на 300 dpi это будет работать - только хуже.

В общем, я ничего толком не знаю - сам этим ни разу не пользовался.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #7 : 04 ЅЮпСам 2010, 23:09:44 »
Интересная информация с форума Руборд о ClearScan:
Цитировать
Этот глюк CS описан давно и сводится к проблемам расстановки текста на странице, см.
 
http://ug.bu.edu/blog/lingtech/2009/02/23/acrobat-9s-clearscan-is-great-but-er-selective/
 
То есть слова не исчезают, но они уползают за пределы страницы - можете проверить сами, сохранив CS-PDF в текст. Но Adobe пока не чешется эту ошибку исправлять.
Речь идёт о глюке, когда при использовании ClearScan пропадают слова или даже абзацы.

Получается, что ClearScan лучше не использовать.  :(

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: PDF-технология ClearScan
« Ответ #8 : 05 ЅЮпСам 2010, 17:53:03 »
Получается, что ClearScan лучше не использовать.  :(
Ну, так рассуждать, никакие программы использовать нельзя (Вы вон несколько страниц исписали недостатками SK и ST)
гораздо хуже, что ClearScan очень даже подвержен инь.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #9 : 05 ЅЮпСам 2010, 21:19:38 »
SorokaSV
Цитировать
Ну, так рассуждать, никакие программы использовать нельзя (Вы вон несколько страниц исписали недостатками SK и ST)
Ну почему же, недостатки ведь бывают некритические и критические. :D

В данном случае мы действительно имеем дело с тяжёлым критическим недостатком - который, в случае его возникновения, напрочь перечёркивает саму возможность использования метода. А когда этот недостаток может проявиться - толком неизвестно.

И это мнение разделяют многие люди - почитайте вот тут хотя бы: http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=1300#10 .

Цитировать
гораздо хуже, что ClearScan очень даже подвержен инь.
Ну почему же "хуже"? И что может быть хуже исчезновения участков текста? Неужели инь? :) Это как сравнить воспаление пальца с ампутацией руки.  ;D

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: PDF-технология ClearScan
« Ответ #10 : 05 ЅЮпСам 2010, 22:19:43 »
Ну почему же "хуже"? И что может быть хуже исчезновения участков текста? Неужели инь? :) Это как сравнить воспаление пальца с ампутацией руки.  ;D

Ну вообще то предполагается, что за результатами работы автор смотрит  :o. И исчезновение текста просто приводит (должно приводить) к отказу в данном случае от Clearscan при обработке. А инь заметь-ка - у меня это произошло случайно (правда, чего-то подобного ожидал). 

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #11 : 06 ЅЮпСам 2010, 18:27:12 »
SorokaSV
Цитировать
Ну вообще то предполагается, что за результатами работы автор смотрит
Нет, не предполагается. И в этом Ваша коренная ошибка. В том-то и вся прелесть DjVu - что никакого контроля за результатом в плане возможной утраты части букв он не требует. А иначе в чём было бы его преимущество перед OCR? Это я Вам совершенно точно говорю - спросите у кого хотите.

Ну, то есть, конечно, мы смотрим - какой у нас DjVu получился - но только в общем-в целом - а не на уровне проверки "а не потерялась ли такая-то фраза"?

Поэтому DjVu даёт возможность автоматически перегнать сотни тысяч бескартиночных растровых PDF в DjVu. А PDF с картинками прийдётся, конечно, вручную проконтролировать - на правильность отделения картинок от текстов.
Цитировать
А инь заметь-ка - у меня это произошло случайно
Я так думаю, что практически борьба с инь будет сведена к повышению качества сканобработки, когда на определённом уровне будет условно принято, что инь в целом побеждён. А наиболее ответственные книги, видимо, прийдётся вручную проверять (инь реально опасен только в математических формулах).

woodyfon

  • Новичок
  • *
  • Сообщений: 7
    • Просмотр профиля
Re: PDF-технология ClearScan
« Ответ #12 : 14 ЅЮпСам 2010, 15:36:35 »
Вставлю и я свои пять копеек.
Данная фича (возможность) находится в Документ -> Оптическое распознавание текста -> Оптическое распознавание символов...

нажимая на кнопочку Изменить..., запустится следующее окно

Если выбрать даунсамплинг - минимальное (600 dpi) и разрешение исходной страницы будет 600 dpi,  то пропажи строк и слов не будет. Было проверено на книге в 300 страниц.
Замечу недостатки ClearScan:
1. Нет общего шрифта для симовлов примерно одной высоты. Векторные символы могут быть различной высоты, хотя размер шрифта на странице одинаков.
2. Смещение относительно других символов. Векторые символы не стоят в одной строчке (на одном уровне).
Достоинства:
1. Полнотекстовый поиск по документу.
2. Уменьшение размера файла. Размер уменьшился более чем в 2 раза.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #13 : 07 ПЭТРам 2011, 21:20:02 »
Пользователи рекомендуют запускать ClearScan порциями не больше 200 страниц во избежание вылета программы:

http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=1840#8

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: PDF-технология ClearScan
« Ответ #14 : 12 ПЭТРам 2011, 11:52:44 »
Попробовал и я тоже ClearScan - в Adobe Acrobat 9.4 (уже есть более свежий Acrobat X - там тоже есть эта фича).

Честно говоря, не произвело на меня впечатления. :-\ Это работает в сущности как сглаживание контура букв - с точки зрения пользователя. Однако, сглаживание это не слишком радикально. :( Совсем не так, как на рекламной картинке. То есть, для некачественного DjVu-текста эффект довольно низок. Хотя, конечно, он есть.

И что ещё удивительно - СlearScan не делает ошибок в буквах - в отличие от OCR! :o Как? Почему?! :o Если это OCR-система - то тогда это совершенно непонятно. :-\

Вот понять принцип действия СlearScan. Всё-таки это нечто весьма отлИчное от обычного OCR. Причём СlearScan корректно обрабатывает и не-буквенные объекты - никак их не уродуя (как мог бы обычный OCR их изуродовать).

Что я ещё заметил - отклиарсканенные поганые чёрно-белые сканы потом лучше распознаются обычным OCR - с меньшим процентом ошибок.

Я заведомо представлял себе, что СlearScan (как я думал) берёт растровые буквы и подменяет их векторными буквами. Но нет - это было бы просто обычный OCR (с присущими ему ошибками). А тут нечто иное - берётся растровая буква, и из неё делается ... тоже такая же растровая буква - только с немного более сглаженным контуром.

Найти бы в Сети побольше информации о ClearScan - особенно о принципе его действия.
« Последнее редактирование: 12 ПЭТРам 2011, 12:33:03 от monday2000 »