oldi

Системы автоматического распознавания форм

Александр Прохоров

«ABBYY FineReader Рукопись»

Система Cognitive Forms

   Массовый вводплатежных поручений

 

Сравнение эффективности ручной и автоматической обработки форм на базе «FineReader Рукопись»

 

Человечество постоянно борется за снижение доли ручного труда. Можно сказать, что в области офисной автоматизации оно достигло особенного прогресса.

Но одно дело разработать технологию, а другое — повсеместно ее внедрить. Ярким примером здесь является система автоматического распознавания форм — технология, которая позволяет переложить монотонный многочасовой труд машинистки на компьютерное оборудование.

Сущность системы распознавания форм (на Западе используют термин Document Capturing — «захват документа») сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных. Задача очень насущная и возникает практически везде, где человек сталкивается с необходимостью автоматизированной компьютерной обработки однотипных документов. В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь. Больших успехов в этом направлении достигли российские компании. Необходимо отметить, что в области систем распознавания (которые можно отнести к системам искусственного интеллекта) у нас очень сильная отечественная школа.

Однако подчас неосведомленность начальства и неэффективная организация работы приводят к тому, что по старинке в компьютер вручную вбиваются тысячи однотипных печатных и рукопечатных форм. Объемы подобного труда поистине огромны. В стране функционируют сотни организаций, работающих с физическими и юридическими лицами, которые в своей повседневной деятельности обрабатывают несметные потоки документов: платежные поручения, анкеты, декларации, квитанции и т.д.

Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день. Можно себе представить, в каком масштабе подобные работы производятся в целом по стране. На это тратятся огромные средства, в то время как проблема может быть решена намного более эффективно.

В данной статье мы планируем рассказать о двух решениях отечественных компаний, специализирующихся на рынке автоматизированного ввода данных: о программе «ABBYY FineReader Рукопись» и программе Cognitive Forms. Надеемся, что наша статья поможет распространению информации об автоматизированных системах и будет способствовать более широкому внедрению системы распознавания форм, что, в свою очередь, не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных.

«ABBYY FineReader Рукопись»

Система «ABBYY FineReader Рукопись» предназначена для offline-распознавания1  рукопечатных и печатных форм различного типа, включая даже те формы, которые изначально не были предназначены для машинной обработки.

Система обладает возможностью распознавания печатных текстов на 50 языках и рукопечатных текстов на шести языках. Благодаря различным методам удаления изображения формы помимо традиционных цветных и растровых форм «FineReader Рукопись» может распознавать информацию и с черно-белых форм с различными типами разметки полей.

Программа позволяет осуществлять ввод форм различной степени сложности, включая многостраничные формы. Масштабируемость системы делает ее пригодной для ввода практически любых объемов информации — от простейших систем для ввода сотен документов в день и до комплексов из десятков компьютеров для ввода сотен тысяч документов ежедневно.

Благодаря технологии FlexiForm, реализованной в «FineReader Рукопись», возможна обработка даже не машиночитаемых — так называемых гибких — форм.

Под задачей ввода гибких форм (FlexiForms) понимают задачу ввода одинаковых форм, напечатанных на не строго однотипных бланках. Например, это могут быть документы, распечатанные на различных принтерах, в различных организациях, то есть однотипная информация на которых расположена по-разному.

В категорию гибких форм входят все формы, расположение полей в которых не зафиксировано геометрически, что типично практически для всех финансовых документов, используемых в России: платежных поручений, балансовых отчетов, справок о доходах, счетов, накладных и пр.

Весьма условно алгоритм определения расположения полей на каждой конкретной форме можно описать следующим образом: «Слева от поля есть надпись “индекс”». Однако возможна ситуация, когда такая пометка встречается не на всех формах — в этом случае алгоритм нужно дополнить другими «приметами» поля, например: «скорее всего слева от поля будет вертикальная линия, а ниже поля должен быть текст “адрес”».

Технология FlexiForm нашла свое применение во множестве различных систем по вводу документов, включая русские платежные поручения; польские рукописные банковские чеки; международные карточки VISA; украинские платежные поручения; литовские библиотечные карточки; межбанковские переводы в Бельгии и многие другие.

В тех случаях, когда форма не содержит исправлений и заполнена аккуратно, программа распознает рукописные символы, допуская менее пяти ошибок на 1000 символов, что более чем в пять раз меньше, чем делает профессиональная машинистка.

Повышенная точность объясняется автоматическим контролем результатов распознавания на основе проверок по словарям и базам данных. Программа автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат и т.д. Открытый интерфейс позволяет пользователю создавать собственные правила автоматического контроля.

На основе FineReader API2  можно настраивать интерфейс системы, запускать программу из других приложений и легко интегрировать ее в любую другую систему обработки информации.

Используя FineReader Developer Edition, можно писать свои приложения на основе программы «FineReader Рукопись».

FineReader распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты (checkmarks) и штрих-коды. После распознавания FineReader выделяет цветом все неуверенно распознанные символы и подает их на верификацию. Оператор тратит лишь секунды, проверяя отдельные символы, вместо того чтобы тратить минуты на полный ввод всей формы.

В России имеется целый ряд авторитетных организаций, которые уже использовали описанную систему в своей работе. Среди них Министерство по налогам и сборам (МНС) РФ, Пенсионный фонд РФ, Федеральный центр тестирования и ряд других организаций. Например, обработка налоговых деклараций москвичей велась при помощи программы «FineReader Рукопись». Это позволило МНС значительно сократить сроки и стоимость обработки налоговых деклараций. Наверняка список клиентов, использующих данное программное обеспечение, будет расти.

в начало

в начало

Система Cognitive Forms

Система Cognitive Forms принадлежит к классу OCR/ICR/OMR (Optical Charachter Recognition/Intelligent Character Recognition/Optical Mark Recognition3) и позволяет осуществлять потоковый ввод стандартных форм с печатным, рукописным заполнением и отметками (checkbox) в компьютерные БД и корпоративные информационные системы.

В системе Cognitive Forms реализована так называемая трехуровневая технология распознавания:

1. Распознавание отдельного символа. Здесь применяется комбинация нескольких методов распознавания (композитивный метод):

  • нейротехнологии;
  • структурный метод (скелетон);
  • древовидное распознавание;
  • метод, базирующийся на кластерном анализе (событийное распознавание4).

Кроме того, существуют алгоритмы, которые позволяют работать с текстами низкого качества. Так, для разрезания «склеенных» символов существует алгоритм оценки оптимальных разбиений (технология FustCut и ее усовершенствованный вариант PowerCut). Наоборот, для соединения «рассыпанных» элементов существует алгоритм их соединения.

2. Распознавание поля знаков (методы распознавания базируются на варианте 1 и на методах динамического программирования).

3. Лингвистическая поддержка. Включает в себя словарную обработку, микролингвистику и частотный словарь. Данный уровень необходим для повышения точности распознавания. Часть полей бланка поддерживается специальными словарями. Например, результат распознавания поля «имя» может быть скорректирован с использованием словаря имен, в цифровом поле не может появиться буква, и наоборот.

Разработанный Cognitive Technologies частотный словарь имеет возможность корректировать ошибки благодаря наличию статистики оценок вероятности появления соседних символов. Иными словами, вероятность появления «ъ» после гласной буквы равна нулю.

Таким образом, на первом этапе система распознает структуру документа (линии разграфки и текст), затем анализирует расположение его полей (символы, совокупности символов) и, наконец, проводит лингвистическую обработку результатов распознавания.

В случае если форма занимает несколько страниц, с успехом применяются так называемые самообучающиеся, или адаптивные, методы распознавания. Принцип их работы состоит в следующем. В каждом тексте присутствуют четко и нечетко прописанные символы. После того как система распознала текст (как это делает обычная OCR-система) и получила точность меньше пороговой, производится дораспознавание текста на основе шрифта, который самогенерируется системой по хорошо пропечатанным символам. В этом подходе разработчики соединили достоинства двух типов систем распознавания: omnifont и multifont. Напомним, что первые позволяют распознавать любые шрифты без дополнительного обучения, а вторые более устойчивы при распознавании низкокачественных текстов. Использование самообучающихся алгоритмов позволяет поднять точность распознавания низкокачественных текстов в четыре-пять раз. Но главное, пожалуй, в том, что у самообучающихся систем больше потенциал повышения точности распознавания.

Стоит отметить, что технология Cognitive Forms не принадлежит к классу так называемых коробочных продуктов. Каждая ее инсталляция сопровождается адаптацией в соответствии с требованиями заказчика. Введение этой процедуры позволяет получить необходимое качество распознавания.

Процесс работы с Cognitive Forms осуществляется следующим образом. Оператор на станции сканирования помещает пачку документов в устройство автоматической подачи сканера (как правило, это высокопроизводительный сканер Kodak, Banctech, Bell+Howell, Hewlett-Packard, Fujitsu). По нажатию клавиши запускается процесс потокового сканирования документов.

Подсистема распознавания — Cognitive FormReader — в автоматическом режиме управляет распознаванием и контекстной проверкой правильности распознавания.

На станции визуального контроля (модуль редактирования Cognitive FormEditor) оператор имеет возможность визуально контролировать и редактировать распознанные поля форм перед экспортом в базу данных.

В подсистеме создания описания форм (Cognitive FormDesigner) создается компьютерное описание обрабатываемых форм, используемое на всех этапах процесса ввода — от распознавания до экспорта в базу данных.

Подсистема экспорта результатов формирует текстовое представление документа перед его записью в базу данных, с окончательной проверкой на допустимость значений экспортируемых данных. Регистрация записи осуществляется пользователем после ввода и проверки определенного количества документов.

Подсистема экспорта в базу данных позволяет экспортировать распознанные документы через ODBC в SQL-серверы, сохранять результаты распознавания в форматах DBF, XLS, CSV, TXT, RTF, DOC и т.д.

Одним из важных элементов Cognitive Forms является система контроля за правильностью ввода информации. Ее основная функция состоит в том, чтобы точность распознавания на выходе составляла 100%, при этом обеспечивая минимальную степень утомляемости оператора. Система контроля правильности ввода документов разработана с учетом требований эргономики и повышения производительности труда. Контролю со стороны человека подлежат лишь те данные, которые не удовлетворяют требованиям правильности распознавания.

в начало

в начало

Массовый вводплатежных поручений

Оперативность ввода платежных поручений (ПП) во много раз увеличивает объем информации, обрабатываемой банком, и в значительной степени уменьшает количество ошибок, неизбежно допускаемых при традиционном способе ввода ПП.

Эффективный ввод ПП клиентов банка в автоматизированную банковскую систему обеспечивает система автоматизации обработки платежных поручений — частный случай Cognitive Forms (CF:ВПП).

Важно отметить, что CF:ВПП автоматизирует не только ввод документа (его перевод с бумажного в электронный формат), но и весь последующий процесс до операции проведения платежа. Система предусматривает следующие этапы обработки платежных поручений:

  • ввод (сканирование заполненной формы произвольного форматирования);
  • проверка (производится распознавание документа и его автоматическая верификация);
  • отправка на выполнение (экспорт документа в автоматизированную банковскую систему в требуемом формате).

КомпьютерПресс 11'2000