Системы оптического распознавания документов

У российских разработчиков хорошие перспективы

Александр Прохоров

Краткий экскурс в технологию распознавания

Мировой рынок систем оптического распознавания

Cognitive Technologies: портрет компании

Российские технологии в области оптического распознавания символов опережают западные и могут в ближайшее время существенно потеснить их на мировом рынке. Таковы на сегодня прогнозы экспертов двух российских компаний — ABBYY и Cognitive Technologies, занятых на этом рынке.

В России всегда была сильная школа в области искусственного интеллекта, за последние тридцать лет в технологии распознавания образов было сделано немало научных разработок. Именно в рамках этой школы зародилось направление оптического распознавания символов, определившее коммерчески успешную отрасль, в которой работают две российские компании: ABBYY и Cognitive Technologies. Эти компании давно радуют отечественных потребителей совершенной технологией, удовлетворяя потребности как массового потребительского, так и корпоративного рынка. Однако, похоже, сегодня ситуация складывается так, что отечественные технологии в области OCR становятся лидирующими в мире и могут реально потеснить конкурентов на западном рынке.

Перед написанием данной статьи я встретился с генеральным директором компании ABBYY Сергеем Андреевым, а также побеседовал с начальником отдела продаж компании Cognitive Technologies Любовью Ахметовой. Представители обеих компаний уверены в том, что в области оптического распознавания символов отечественные разработки выходят на первое место в мире не только по уровню технологии, но и по реальным перспективам ее развития.

«Сегодня мы обогнали западных конкурентов на несколько лет, а может быть, и навсегда! Наш основной конкурент, который держит 80% рынка, — компания ScanSoft — не только предлагает более слабый продукт, но и не является сегодня устойчивой прибыльной компанией, а главное, увольняет разработчиков, следовательно не имеет перспектив в развитии продукта. У нас же самый надежный задел по технологии, причем задел на много лет вперед. Этот факт подтверждают около 50 наград от тестовых лабораторий и уважаемых западных изданий, полученных нашим продуктом — FineReader — за последние три года. Ни одна система распознавания в мире не получала такого количества наград», — заявил Сергей Андреев. Не менее категорично высказалась и Любовь Ахметова: «Основной западный конкурент — компания Scansoft — оказался могильником, в котором, видимо, будут похоронены западные технологии в области OCR, что открывает хорошие перспективы для отечественных решений на мировом рынке».

Краткий экскурс в технологию распознавания

Машинные методы распознавания — технология, нашедшая применение в целом классе прикладных решений. Например, к этому классу относятся задачи распознавания объектов в военных приложениях, распознавание деталей на конвейере для их сортировки роботизированными комплексами, распознавание и идентификация личности по изображению лица, распознавание ценных бумаг для идентификации их подлинности и т.д.

Наиболее удачной с коммерческой точки зрения и массово востребованной технологией является технология оптического распознавания текста. Появление сканеров позволило быстро получать изображение рисунков и текста. Однако при сколь угодно точной передаче изображения букв сканер не позволяет передать полученное изображение в текстовый процесcор (например, Word) для того, чтобы его редактировать. Для этого текст необходимо распознать, то есть сравнить каждый отсканированный символ с шаблоном и таким образом «прочитать» текст. Проблема могла быть элементарно решена, если бы не существовало сотен используемых шрифтов, текстов, полученных по факсу, с плохо читаемыми символами и т.д.

Существует несколько алгоритмов решения этой задачи. В качестве базовых выделяют multifont (шрифтовые) и omnifont (шрифтонезависимые) алгоритмы. Кроме того, российские разработчики создали ряд решений, способных эффективно распознавать тексты самого низкого качества. К ним относятся самообучающиеся алгоритмы, структурные алгоритмы, метод когнитивного анализа и др.

В случае multifont растровое изображение накладывается на шаблон и соответственно наиболее подходящим шаблоном является тот, у которого наименьшее количество точек отличается от исследуемого изображения. Omnifont- алгоритмы идентифицируют символ по правилам его написания. В этом случае эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа. Оба эти алгоритма не гарантируют высокую надежность распознавания, однако позволяют сделать предположение о принадлежности данного символа.

Реализованные компанией Cognitive Technologies в системе CuneiForm самообучающиеся алгоритмы (коммерческое название «Адаптивное распознавание») представляют собой метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система способна самостоятельно обучаться и распознавать плохо пропечатанные символы с помощью шрифта, созданного на основе достаточно хорошо пропечатанных символов. Таким образом, если при распознавании низкокачественных документов традиционными методами OCR-система дает процент ошибок больше порогового, то производится дораспознавание текста с использованием адаптивных алгоритмов.

Для распознавания текстов низкого качества компанией ABBYY были разработаны структурные алгоритмы распознавания, которые подразумевают, что программа хранит информацию не о поточечном написании символа, а о наличии в нем структурных элементов (колец, дуг, отрезков и точек). Изображение символа приводится к контуру, на котором анализируются наличия пересечений линий, вычисляются углы, размеры дуг и т.д.

Этот метод позволяет выделять элементы на искаженных изображениях, то есть осуществлять распознавание при практически неограниченной изменчивости символа.

Обычно разработчики OCR-программ используют в качестве основного только один алгоритм распознавания. Применение нескольких алгоритмов одновременно значительно увеличивает время распознавания и создает ряд других сложностей. Однако следует учитывать, что на текстах хорошего качества лучше работают одни алгоритмы, а на текстах плохого качества — другие. Для распознавания же табличных форм удобнее использовать третьи и т.д.

В OCR CuneiForm 2000 впервые удалось использовать совокупность алгоритмов, значительно повышающих точность и скорость распознавания. Экспертная система, встроенная внутрь ядра распознавания, сама выбирает оптимальный для данного текста алгоритм (метод «когнитивного анализа»).

Для обеспечения высокой точности распознавания документа от ПО требуется «распознавание с пониманием», то есть программа должна не только учитывать то, что показано на изображении, но и то, что от изображения ожидается. Вслед за задачей распознавания текста возникает задача распознавания форматирования документа. Программа должна «понимать», что текст может быть расположен в несколько колонок, снабжен иллюстрациями и т.д. Например, человек, просматривающий таблицу, в которой даже не проведены границы и не обозначены ячейки, все равно читает ее текст как табличный. Для программы же все эти правила должны быть формализованы.

Отдельной задачей является распознавание форм. Ее решение позволяет оптимизировать ввод текста с форм с так называемым рукопечатным заполнением. Здесь перед программой возникают две дополнительные задачи: первая — распознать рукопечатный символ (символ, написанный от руки печатными буквами), а это значит, что необходимо «узнать» символ, несмотря на возможные его отклонения, присущие почерку человека; вторая — распознать, к какому полю относится данная запись, то есть где, например, имя плательщика, где номер его банковского счета и т.д. Обычно результатом распознавания такой программы становится не текст, а определенная запись в соответствующем поле базы данных. Данная технология позволяет оптимизировать ввод сотен и тысяч бюллетеней и бланков и существенно сэкономить время.

Мировой рынок систем оптического распознавания

В принципе, следует различать рынок оптического распознавания текста OCR (Optical Character Recognition) и рынок распознавания форм (Data Capturing).

Рынок OCR-продуктов составляет сегодня порядка 75-80 млн. долл. Рынок Data Capturing в несколько раз больше — порядка 250-300 млн. долл. (табл. 1), и растет более быстрыми темпами. Впрочем, рынок OCR за последний год даже несколько сократился вследствие слияния двух его лидеров.

В 1999 году мировой рынок OCR составлял около 100 млн. долл. Примерно 70% рынка занимала компания Caere, 20% — компании ScanSoft, и 10% рынка приходилось на всех остальных. В 2000 году произошло слияние компаний Scansoft и Caere. Было объявлено, что после слияния оборот группы компаний не просто суммируется (20 млн. долл. + 70 млн. долл.), а за счет интеграции достигнет 120 млн. долл. Накануне слияния было 3 команды программистов: разработчики OmniPage (группа, работающая в Калифорнии), команда разработчиков TextBridge, базирующаяся в Бостоне, и венгерская команда, разрабатывавшая программу Recognita. Recognita в свое время (примерно 4 года назад) была куплена Caere, а потом вместе с Caere перешла компании ScanSoft. Таким образом, в руках ScanSoft оказалось целых 4 продукта — TextBridge, OmniPage, Recognita и ProOcear 100.

Однако из-за исчезновения конкуренции между основными продуктами продажи резко снизились, и вместо планируемых 120 млн. долл. компания вышла на показатель 50 млн. в год. Специфика OCR-программ состоит в том, что разные программы, имеющие свои сильные стороны, нельзя просто объединить и таким образом получить один продукт с оптимальными параметрами. В результате компании ScanSoft пришлось отказаться от двух продуктов, а следовательно, и от двух команд разработчиков. ScanSoft провела огромное сокращение, причем были уволены наиболее опытные и высокооплачиваемые разработчики. В итоге была оставлена одна лучшая, на их взгляд, линейка продуктов — OmniPage, которая была отдана самой низкооплачиваемой команде разработчиков — венгерской.

Согласно информации Сергея Андреева, после ослабления позиций ScanSoft компании ABBYY удалось существенно продвинуться на мировом рынке OCR, на котором она заняла 10-12% благодаря своей партнерской политике. Теперь ABBYY имеет 4 офиса за рубежом (в Калифорнии, Германии, Англии и Украине) и более 80 дилеров и дистрибьюторов в 75 странах мира.

По данным компании ABBYY, сегодня мировой рынок OCR имеет следующую структуру (рис. 1).

Правда, компания Cognitive Technologies оценивает мировой рынок OCR несколько иначе (рис. 2).

Учитывая, что основной конкурент — компания ScanSoft — по сути отказалась от своих ведущих разработчиков и стремительно теряет свои позиции на рынке, перед российскими разработчиками открываются очень хорошие перспективы.

Некоторые сомнения по поводу того, что позиции ScanSoft на мировом рынке настолько бесперспективны, как это утверждают отечественные разработчики, внушает тот факт, что ScanSoft удалось договориться о встраивании своего модуля в офисный пакет Microsoft Office XP, а ведь это огромная доля рынка. Я задал этот вопрос менеджерам ABBYY и получил достаточно оптимистичный прогноз.

Оказывается, сегодня ситуация такова, что Модуль ScanSoft на тестах по распознаванию его «родного» английского языка делает примерно в два раза больше ошибок, чем FineReader, а русского языка — примерно в 7 раз. Видимо, поэтому в Office XP русский язык пока не поддерживается. Второй момент, на который указывают специалисты ABBYY, заключается в том, что ScanSoft предлагает технологию распознавания текстов, в то время как перед современными OCR ставится задача распознавания не просто текста, а документа, который содержит элементы форматирования: внедренные картинки, а иногда еще и фоновые картинки. Разница в сложности этих задач существенна, и то, что позволяет делать FineReader по распознаванию документа, недоступно в Office XP, укомплектованном модулем от ScanSoft. В итоге технология распознавания, реализованная в Office XP, в первую очередь служит для построения полнотекстового индекса для контекстного поиска документов.

«Мы не думаем, что тот факт, что OCR-функция теперь будет доступна в Microsoft Office, — для нас плохой знак. Скорее наоборот, большее количество пользователей ознакомятся с этой функцией, узнают, что документы можно не только перепечатывать вручную, но и сканировать и распознавать, а потом будут искать лучшую альтернативу ScanSoft, которой и является FineReader», — достаточно оптимистично резюмировал свою позицию Сергей Андреев.

Два года назад у ScanSoft были более хорошие шансы создать альянс с Microsoft, тем более что в тот период ScanSoft была дочерней компанией Xerox, имеющей давние связи с Microsoft. Кроме того, в то время выбор международной мегакорпорацией российского разработчика был весьма рискованным решением: позиции отечественных разработчиков и их будущее после кризиса 1998 года были шаткими.

Показательны на самом деле не столько те контракты, которые были заключены два года назад, сколько те, что заключаются сейчас и напрямую влияют на OCR-рынок.

Модель работы этого рынка такова. Сканерами и MFD (Multi Functional Devices, многофункциональные устройства) поставляется ограниченная по функциональности версия OCR. OEM-контракты не приносят доходы, а если приносят, то весьма несущественные (порядка десяти тысяч долларов). От 1 до 5% пользователей OEM-версии покупают upgrade на полнофункциональную версию. Собственно, именно они и приносят основной доход. Таким образом, объем OEM-контракта, количество получателей OEM-версии продукта, вкупе с дополнительным маркетингом и являются существенными и необходимыми условиями коммерческого успеха. Глобальные OEM-контракты, заключенные c компанией ABBYY известнейшими сканерными брендами — Umax, Mustek, Microtek, Acer, Avigramm, свидетельствуют об интересе и доверии со стороны «сканерной» индустрии к российской компании ABBYY. Кстати, объем поставок вышеперечисленных производителей составляет около 50% общемирового объема продаж сканеров.

Поскольку рынок Data Capturing является более «проектным» бизнесом, здесь нет такого явного лидера, как на рынке OCR. Около 50% серьезных контрактов получают пять крупных компаний: Cardiff Software, ReadSoft, KoFax, TIS. Поскольку в проектном бизнесе географическая близость к заказчику имеет чрезвычайно важное значение, выйти на западный рынок российским компаниям достаточно сложно. Однако на фоне оживления российской экономики рост данного рынка в России возможен в ближайшее время.

Ситуация на российском рынке

На российском рынке технологиями распознавания текстов и форм традиционно занимаются две компании — ABBYY и Cognitive Technologies, каждая из которых имеет свою модель бизнеса и свои взгляды на приоритеты в развитии технологии.

По свидетельству менеджеров ABBYY, представляемая ими компания всегда в первую очередь ставила перед собой задачу создания технологии максимально точного распознавания текстов, которая превосходила бы мировые аналоги. Компания ABBYY считает для себя важным рынок коробочных продуктов, на котором, по мнению Сергея Андреева, в России ABBYY удалось занять подавляющую долю рынка — 90-95%. Говоря о корпоративном рынке, представители ABBYY признают, что определенная доля рынка принадлежит их конкуренту — компании Cognitive Technologies. Однако полагают, что на этом рынке следует разделять понятия стоимости интеграционного решения и стоимости доли проекта, связанной непосредственно с OCR-технологией. Специалисты ABBYY считают, что компания владеет примерно 70-80% этого рынка (если говорить именно о доле OCR-технологий без стоимости интеграционного решения). Клиентами являются более 170 российских банков, Министерство налогов и сборов, Центр тестирования при Министерстве образования, шесть региональных отделений Пенсионного фонда, Госстандарт и многие другие. Компания ABBYY имеет солидный штат разработчиков; примерно 65% сотрудников московского офиса компании — разработчики. Для создания качественного продукта постоянно проводятся исследования в прикладных научных областях. Научно-прикладные исследования, на базе которых создаются продукты ABBYY, представлены в табл. 2. Перечень продуктов компании приведен в табл. 3.

В отличие от компании ABBYY руководство Cognitive Technologies максимальное внимание уделяет вопросам встраивания технологии OCR в интеграционные решения с элементами архивного хранения и обеспечения документооборота. Суть данного подхода заключается в том, что после преодоления промышленного порога распознавания целесообразно вкладывать средства не столько в повышение точности распознавания, сколько в процесс встраивания технологии в комплексные решения, что позволяет предоставить пользователям более широкий спектр решений для обработки информации и делает модель бизнеса более эффективной. Например, компания предлагает электронный архив системы управления документами «Евфрат», куда распознавание текста встроено как модуль.

По свидетельству Любови Ахметовой, компания Cognitive Technologies не делает ставки на рынок коробочных OCR в России, считая для себя более важным OEM-рынок. Таким образом, компания стремится поставлять свои продукты с периферийными многофункциональными устройствами ведущих производителей HP, Canon, Epson. По оценкам Любови Ахметовой, компании Cognitive Technologies принадлежит около 60-70% этого рынка в России, по 10% занимают компании ReadIris и ABBYY, а оставшиеся 10% приходятся на все прочие компании.

Второе направление, в котором компания Cognitive Technologies чувствует себя уверенно, связано с распознаванием форм. И здесь, по мнению ее представителей, важно разделять коробочный рынок стандартизованных решений для банковского сектора и рынок проектных решений, ситуация на которых складывается по-разному. Если на рынке стандартных решений для банковского сектора компании Cognitive Technologies и ABBYY занимают примерно одинаковые доли рынка, то на рынке проектных решений по распознаванию различных форм для крупных корпоративных клиентов Cognitive Technologies утверждает, что ей принадлежит до 95% рынка. Здесь в число солидных клиентов входят такие крупные организации, как Газпром и Пенсионный фонд.

Продукты компании получили всемирное признание. Так, Corel Corp встроила OCR CuneiForm в популярный пакет CorelDraw; Hewlett-Packard Co выбрала OCR CuneiForm для комплектации всех сканеров HP ScanJet, поставляемых в Россию, и персональный архив «Евфрат» для программы DocumentoScanner;
Brother Corp использует OCR Business Card Reader для комплектации многофункциональных устройств, поставляемых по всему миру, а Canon, OKI, Seiko Epson Corp. комплектуют OCR CuneiForm и электронным архивом «Евфрат» сканеры и многофункциональные устройства, поставляемые в Россию.

«Евфрат». Инструмент для решения задач, связанных с организацией документационного обеспечения управления, в частности может являться системой автоматизации делопроизводства.

CuneiForm. CuneiForm — система распознавания текстов, обеспечивающая преобразование бумажных документов и электронных графических файлов в редактируемый текст.

CognitiveForms. CognitiveForms — система бесклавиатурного ввода печатной и рукописной информации в компьютерные базы данных. Технологии Cognitive Forms позволяют обрабатывать огромные потоки стандартных форм бумажных документов и заносить информацию в компьютерные базы данных.

CuneiFormNeST. Программа сетевого потокового сканирования, предназначенная для потокового ввода изображений в компьютер с использованием сканера и организации пакетного режима сканирования документов. Для пользователей локальной сети обеспечивает удаленное сканирования со сканеров, подключенных к другим компьютерам. Поддерживает устройство автоматической подачи документов.

MacTiger. Единственная в мире омнифонтовая OCR-система для распознавания кириллицы, функционирующая на платформах Macintosh и Power Macintosh.

КомпьютерПресс 9'2001

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12