Великолепная семерка: новый FineReader 7.0

Александр Прохоров

Продукт поставляется в двух вариантах...

области программного обеспечения некоторые торговые марки становятся сначала стандартом де-факто, а потом и именами нарицательными, как когда-то произошло с марками «Джип», «Аспирин» или «Тефлон». Многие российские школьники знают, что такое FineReader, но не знакомы с термином OCR. Вполне возможно, что когда-нибудь название FineReader станет синонимом словосочетания «системы для распознавания текстов». Впрочем, у программы и сегодня достаточно высоких оценок, более сотни наград от ведущих мировых журналов и экспертов рынка. В прошлом году коллектив разработчиков FineReader получил Премию Правительства России в области науки и техники.

Но главное, конечно, что продукт действительно полюбился российским пользователям. Лично я пользуюсь им давно, и он нередко меня выручал. Поэтому мне было особенно приятно получить приглашение на презентацию новой, седьмой версии FineReader, которую компания ABBYY Software House провела для журналистов 2 сентября.

Слоган «Великолепная семерка» был удачно обыгран сотрудниками компании: они были одеты как герои популярного вестерна — с кольтами на поясах, а гости, получившие в подарок вместе с коробкой FineReader ковбойские шляпы, тут же влились в их ряды.

Перед тем как приступить к написанию статьи, я протестировал новый продукт.

Одно из главных достоинств FineReader 7.0, которое всячески подчеркивают его создатели, — это повышенная точность распознавания трудных для чтения документов, по оценкам разработчиков, увеличившаяся примерно на треть. Резонно возникает вопрос, о чем идет речь? FineReader и так дает высокую точность распознавания, близкую к 100%, как же можно увеличить ее еще на треть? Дело в том, что степень точности зависит от качества распознаваемого документа. Далеко не всегда приходится распознавать текст, распечатанный на лазерном принтере. Это может быть и бледный факс или ксерокс, и текст, напечатанный поверх сложного фона — тогда отделить фон от текста непросто. Причем по мере усложнения инструментов дизайнера документы становятся все более сложными, многослойными, красочными, и если человеческий глаз легко отделяет элементы фона от напечатанного поверх него текста, то объяснить машине, что является текстом, а что — фоном, достаточно трудно.

Во время презентации демонстрировались впечатляющие примеры отделения новым FineReader текстов от фона. Но одно дело — когда идет демонстрация, и совсем другое — когда пытаешься повторить эксперимент сам.

Я решил попытаться распознать текст с обложки диска в джевельной упаковке, где текст напечатан прямо на фоне картинки. Причем я даже не удалял целофановую упаковку, которая тоже дает дополнительные блики и искажения при сканировании, то есть условия испытания были весьма жесткими.

Результаты показаны на рис. 1-3. На рис. 1 выделен текст для распознавания. Он находится на цветном фоне переменной интенсивности и на нем видны блики, образовавшиеся при сканировании сквозь упаковку.

На рис. 2 показано, что текст был отделен от фона и распознан. Нераспознанным осталось лишь одно слово. При ближайшем рассмотрении (рис. 3) видно, что у двух слов — «политическую» и «карту» — из-за блика был срезан низ. При этом слово «политическую», тем не менее, распознано нормально; в слове «карту» буква «р» без нижней части распознана как «о», а буква «у» — как «ч», что вполне логично. Таким образом, можно считать, что задача отделения текста от фона выполнена достаточно хорошо и была бы идеальной, если бы не блики от упаковки.

Далее я уменьшил разрешение и убедился, что даже при низком разрешении (150 пикселов на дюйм) качество распознавания не снизилось, несмотря на предупреждение системы о необходимости отсканировать текст при более высоком разрешении.

Аналогичные эксперименты с различными текстами на русском и английском языках на цветных фонах показали высокое качество распознавания при сохранении исходного форматирования документа (рис. 4).

Столь высокие результаты программа показывает благодаря усовершенствованной технологии распознавания ABBYY, а именно новому структурному классификатору и улучшению алгоритмов фильтрации текстуры.

Следует отметить, что новая версия стала не только более интеллектуальной, но и более удобной в работе. Несколько изменился интерфейс программы, в частности мне понравилось, что панель инcтрументов форматирования перенесена в окно «Текст». Профессиональные настройки стали более доступными: для каждого окна теперь можно установить нужный масштаб. Появилась возможность отправлять результаты распознавания по электронной почте в виде присоединенного файла любого из поддерживаемых FineReader форматов (кроме PPT и HTML) непосредственно из FineReader (рис. 5).

В раздел «Обучение на примерах» включены советы по распознаванию новых типов документов и другая информация, полезная тем, кто хочет овладеть программой на профессиональном уровне. Работая с документом Microsoft Word, вы можете запустить ABBYY FineReader, распознать фрагмент страницы и вставить текст в редактируемый документ прямо под курсор мыши, что позволяет собирать информацию из нескольких бумажных или PDF-документов в одном файле.

FineReader 7.0 позволяет сохранять распознанные документы в формате Microsoft Word XML. Благодаря поддержке формата XML стала возможной интеграция FineReader 7.0 и MS Word 2003, в результате чего теперь можно редактировать результаты распознавания с помощью Word, одновременно сверяя текст с увеличенным изображением оригинала.

FineReader 7.0 позволяет сохранять больше элементов оформления при экспорте во внешние приложения. Лучше распознаются сложные таблицы, например таблицы без разделителей или таблицы с цветными ячейками. Улучшено сохранение сложных элементов форматирования в формате HTML. При сохранении результатов распознавания в Microsoft Word воспроизводятся различные типы маркированных списков, а также вертикальные и горизонтальные разделители. При этом размер файла, получаемого при сохранении результатов в Microsoft Word, уменьшился по сравнению с предыдущими версиями.

Весьма полезная новая функция — возможность задавать размер и разрешение картинок при сохранении документа.

Резко возросло качество распознавания PDF-файлов за счет того, что FineReader извлекает текст из особого слоя PDF-файла (если он доступен) и использует его для проверки результатов распознавания.

Созданные в FineReader PDF-файлы оптимизированы для публикации в Интернете: первые страницы многостраничного документа доступны для чтения сразу же, в то время как остальные страницы докачиваются на компьютер. Новый FineReader позволяет сохранять документы в формате PDF.

Следует упомянуть и о новой возможности распознавать страницы с отдельными слайдами презентаций в PowerPoint. При распечатке презентации PowerPoint обычно печатаются несколько кадров. Привести подобную распечатку в электронный вид — отдельная задача. В FineReader 7.0 теперь можно быстро преобразовать распечатку слайдов презентации в редактируемый вид и сохранить ее в формате PowerPoint.

В новой версии программы улучшено сохранение сложных элементов форматирования при экспорте в формат HTML (например, обтекание текстом непрямоугольных картинок). Значительно уменьшился размер генерируемого HTML-файла, что особенно важно для публикации в Интернете.

Из профессиональных возможностей следует отметить, что FineReader Professional Edition поддерживает распознавание штрих-кодов, в том числе двумерных штрих-кодов типа PDF-417. Любой пакет, созданный в программе FineReader, можно использовать в качестве базы данных с возможностью полнотекстового морфологического поиска. Система поиска способна находить заданные слова во всех формах, и эта возможность доступна для 34 языков со словарной поддержкой.

Резюмируя информацию о версии FineReader 7.0, следует подчеркнуть, что новая программа позволяет намного точнее распознавать документы плохого качества, прекрасно выделяет текст на сложных фонах, лучше распознает документы в формате PDF, а также позволяет сохранять файлы в XML и PowerPoint.

Все эти замечательные возможности делают популярный инструмент еще более полезным и приятным в работе.

КомпьютерПресс 10'2003

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12