FineReader 5.0: распознавание на «пятерку»

Новая система ввода текстов со сканера знает минангкабау, С++ и Java

Владимир Богданов

Зрелый дебют 80-летнего «Файна»

Что нового, собственно, появилось в «пятерке»?

Интерфейс

Интернет-готовность

Дистрибутив, цена и системные требования

Общее впечатление

Зрелый дебют 80-летнего «Файна»

Выхода новой версии популярной системы оптического распознавания символов FineReader 5.0 от компании ABBYY Software House (http://www.abbyy.ru/) ждали еще летом. Но разработчики слегка подкорректировали маркетинговые сроки, решив, что лучше позже, да лучше. В результате коммерческие версии «пятерки» появились на прилавках лишь этой осенью. Но, в общем, было ради чего ждать. FineReader 5.0 — это не модернизированная версия «четверки» (кстати, победительницы в 28 международных тестах), а совершенно новый продукт, разработанный на новом протоколе обмена данными внутри программы. Главный результат смены «движка» — повышение точности распознавания и качества анализа оригинала перед распознаванием. Разработка шла «долго и счастливо» — на создание и тестирование FineReader 5.0 ушло в общей сложности 80 человеко-лет. Испытания проводили 50 бета-тестеров в России и за рубежом, а еще 10 собственных программистов ABBYY. Летняя фора позволила протестировать программу в операционных системах Windows ME, Windows 2000 и проверить ее работоспособность с 70 моделями сканеров.

FineReader 5.0 выпущен в двух версиях: Pro и Office. Первая предназначена для домашних пользователей и работы на отдельностоящих станциях сканирования. «Офисная» же версия отличается возможностью установки по локальной сети, поддержкой групповой работы, многопроцессорной обработкой документов, поддержкой протокола ODMA (Open Document Management Access) для передачи результатов распознавания в различные системы документооборота. Купить FineReader 5.0 Office можно лишь по одной существенной причине. В офисную версию пакета входит дополнительное приложение Formulator — программа заполнения сканированных форм. Достаточно положить бланк какой-нибудь справки на сканер, запустить процедуру — и на экране появится форма с незаполненными полями для ввода текста. Можно даже не распознавать бланк справки целиком: достаточно вписать данные в поля, отметить нужные пункты галочками или маркерами другой формы и отправить заполненную справку на принтер.

Что нового, собственно, появилось в «пятерке»?

Спешу разочаровать тех, кто желает уяснить себе, что такое «минангкабау». Знаю лишь, что это один из 176 языков, алфавит которых способен распознавать FineReader 5.0 в варианте поставки Сyrillic Plus («четверка», к слову, знала лишь 53 языка). В «экзотическом» языковом списке можно найти названия и пострашнее: зулу, идо, кикуйо, могавк, мяо, оджибве, ньянджа и папьяменто. Словом, готовый глоссарий для пятнадцатого вопроса передачи «О, счастливчик!». Куда полезнее другое: в список поддерживаемых языков впервые на моей памяти включены Basic, C/C++, COBOL, Fortran, Java и Pascal. «Пятерка» оптимизирована для распознавания листингов на всех перечисленных языках программирования.

Повышением точности распознавания FineReader 5.0 обязан структурно-дифференциальному и контурному классификаторам. Первый — «раскусывает» склеившиеся пары символов (например, rn вместо m) и идентифицирует близкие по начертанию символы. Например, различает по контексту l (латинская «л»), I (римская единица) или I (латинская прописная «и»). Назначение контурного классификатора — определение общих очертаний символа в нестандартных (причудливых и декоративных) шрифтах. «Пятерка», в частности, распознает подстрочные индексы, простые химические формулы, вертикальный текст и картинки в ячейках таблиц.

Теперь — внимание! Самая главная новинка FineReader 5.0, на мой взгляд, — это отказ от ручного сегментирования документа за счет повышения внутренней интеллектуальности этого процесса. Поясняю: когда программа распознавания ведет анализ сложного оригинала с нестандартным расположением текстовых блоков и картинок, то она не всегда способна определить, что, собственно, ей распознавать. В прежних «Файнах» для получения приемлемого результата приходилось сегментировать сканированный оригинал — вручную отмечать квадратами («забирать в рамку») расположение текстовых блоков, давая понять системе, где нужно искать текст. Процесс этот неприятен из-за его трудоемкости и практически неприемлем при вводе больших объемов документов. Представляете — сидеть и натягивать рамочки на абзацы какой-нибудь «криво» сверстанной инструкции? Пытка, да и только! Разработчики FineReader 5.0 применили гуманный подход и настолько усовершенствовали процедуру анализа документа, что стало возможным отказаться от ручной сегментации. Новый «Файн» сам прекрасно разберется, где картинка, где таблица, а где текст в столбик. И, при желании, сохранит оригинальное оформление документа. Однако в исключительных случаях, когда, например, нужно распознать текст вывески «Булочная» на фотографии, остается возможность вручную выделить надпись.

Интерфейс

Лично я считаю, что лучший интерфейс для программы ввода текстов со сканера — это отсутствие интерфейса. В идеале ее интерфейс должен представлять собой небольшое окошко с кнопкой «Распознать», указанием формата и пути сохранения результатов, а также указанием пути к оригиналу, если источником выступает графический файл. Про все остальное я и знать не хочу — пусть процессор думает. Чудес я не жду и просто хочу получить распознанный электронный документ с сохранением оформления: чтоб картинки и таблицы остались на своих местах, а шрифты были похожи на оригинальные.

Однако предельное упрощение интерфейса — палка о двух концах. Системы искусственного интеллекта еще не достигли такого уровня компетентности, чтобы всецело им доверять. И с чрезвычайно простым интерфейсом у пользователя не останется средств для ручной коррекции ошибочных действий системы. Может, именно поэтому интерфейс пятерочного «Файна» не слишком радикально отличается от «четверочного». Глобальная идея интерфейса — три основных окна: сканированный оригинал, увеличенный фрагмент оригинала с сегментированными элементами и окно с демонстрацией результатов распознавания. Теперь еще в узком левом окне «Пакет» (а скорее, в форточке) проплывают сильно уменьшенные изображения (марки — thumbnails) ранее сканированных оригиналов. В хронически черно-белом окне «Крупный план» теперь поддерживаются цветные изображения. Улучшен внешний вид модуля проверки орфографии (кстати, FineReader использует мощное морфологическое ядро, разработанное ABBYY).

После установки FineReader 5.0 вы обнаружите незнакомую пиктограммку FR на панели инструментов редактора Microsoft Word. Ее назначение — запуск процедуры сканирования и распознавания прямо из Word. А результат распознавания будет автоматически вставлен в открытый документ справа от курсора.

Неопытным пользователям наверняка понравится толковый Мастер сканирования, который не поможет справиться с неуверенностью при первых сеансах работы. И наконец, завершает список основных интерфейсных доработок раздел Tutorial (обучение на примерах). В него вошли 14 типовых примеров ввода со сканера различных документов, и для каждого рекомендованы отдельные особые настройки.

Интернет-готовность

Мода на поддержку Интернет-форматов не обошла стороной и «пятерку» FineReader. Главным образом это выражено в поддержке форматов PDF и HTML. Причем по всем правилам Web-публикации. В частности, для результирующего PDF-документа можно выбрать три формата сохранения: «Только текст и картинки», «Текст поверх изображения картинки» (изображение передается картинкой, текст — как текст поверх картинки) и «Текст под изображением картинки». Проблему совместимости с русскими шрифтами предлагается решать различными способами, включая ссылку на шрифты Type 1, их внедрение в PDF-файл или использование стандартных системных шрифтов Times, Helvetica и CourierNew.

При распознавании документов с конвертацией результата в HTML можно тоже «поиграть» с форматами. Среди «поддерживаемых опций сохранения — Полный HTML» (HTML 4, который точно передает оформление документа с таблицей стилей, совместим с Internet Explorer 4.0 и выше), «Простой HTML» (HTML 3, совместимый со всеми браузерами, но коверкающий часть оформления) и опция «Aвто», при которой в одном файле сохраняются простой и полный форматы, один из которых выбирается автоматически в зависимости от версии браузера. В процессе распознавания и генерации HTML-страницы все картинки сохраняются в стандартном формате JPEG.

Дистрибутив, цена и системные требования

Несмотря на то что в розничной продаже появятся лишь две версии FineReader 5.0 (Pro и Office), существуют еще и соответствующие обновления — Upgrade, которые не продаются в розницу, а доступны только в офисе ABBYY для определенных групп ранее зарегистрированных пользователей. Итак, цены: FineReader 5.0 Pro — 99 долл. (Upgrade — 69 долл.), FineReader 5.0 Office — 399 долл. (Upgrade — 259 долл.). Чуть не забыл: существует два варианта поставки, различающиеся числом поддерживаемых языков распознавания. Basic Set, очевидно, ориентирована на Западную Европу и поддерживает 121 язык, включая латиницу и греческий. Версия Cyrillic Plus включает 176 языков распознавания, включая латиницу, греческий и кириллицу. Любопытно, что Cyrillic Plus, официально продающаяся в России, не имеет поддержки украинского языка — версию с «мовой» можно заказать в московском офисе разработчика.

Системные требования для нового FineReader 5.0 изменились несущественно по сравнению с теми, что предъявляла четвертая версия: процессор класса Pentium 133 МГц и выше, ОС Windows 9x/NT 4.0 (SP3)/2000, 32 Мбайт ОЗУ (плюс 16 Мбайт для каждого дополнительного процессора в многопроцессорных системах), Microsoft Internet Explorer 3.02 и выше (IE 5.0 входит в дистрибутив), 100-процентно TWAIN-совместимый сканер или цифровая камера. Минимальная установка требует 40 Мбайт на жестком диске и еще 50 Мбайт свободного места для нормальной работы. Полная версия на моем диске заняла 115 Мбайт. ABBYY разработала защищенный от копирования дистрибутив по схеме «CD-ROM плюс стартовая дискета». Без дискеты установка с компакт-диска невозможна. В комплект поставки помимо этого входят печатное русскоязычное руководство (на CD есть PDF-версия), регистрационная карточка и комплект этикеток с серийным номером.

Общее впечатление

Если коротко, то точность распознавания «пятеркой» текстов низкого качества действительно возросла, а оригиналы нормального качества распознавались с точностью до 99% уже «четверкой». Механизм анализа оригинала и автоматического сегментирования работает отменно. Для эксперимента класса mission impossible я выбрал для распознавания ксерокопию третьей производной инструкции по эксплуатации монитора. Мало того, что структура документа была сложной (картинки, выноски, подписи, условные обозначения), а качество — мерзким, так еще и сканирование оригинала было выполнено с разрешением 150 пикселов/дюйм (вместо положенных 300-400 ppi). Система «ругнулась», посоветовав мне установить более высокое разрешение, но результат распознавания оказался удовлетворительным. FineReader споткнулся на некоторых специальных обозначениях, но в принципе распознал низкокачественный оригинал с куда большей точностью, чем я вправе был от него ожидать. И, самое главное, результат автосегментации не вызвал особых нареканий. Словом, FineReader 5.0 не разочаровал. На новой ступени эволюции он превратился в еще более интеллектуальное Интернет-ориентированное приложение.

КомпьютерПресс 10'2000

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12