Россия начинает и выигрывает

Константин Васильев

Что мы тестировали

Что мы оценивали

Материал для тестирования

Аппаратное обеспечение

Некоторые особенности работы системы

   Типы систем

   Особенности разметки документа

   Особенности работы с результатом распознавания

   Особенности экспорта результата распознавания

Выводы

 

Могут ли западные OCR-системы на равных соревноваться с российскими разработчиками?

Системы OCR давно уже являются удобными помощниками для работы с различными типами документов. Современные программы позволяют за считанные минуты перевести в электронный вид договоры, факсы, газеты и даже встречающиеся в архивах машинописные страницы.

Напомним, что до последнего времени распознавание русскоязычных документов было прерогативой исключительно российских компаний. Западные системы не могли справиться с «проблемой русского языка». Дело в том, что кириллица более сложна для разработчиков, чем латиница. Ну, а о качестве отечественных документов, особенно находящихся в архивах, и говорить не приходится. Поэтому российским разработчикам по сравнению с их западными коллегами для создания конкурентоспособных на мировом рынке продуктов приходится решать гораздо более сложные проблемы, однако известно, что существует несколько западных систем, которые заявляют о способности успешно распознавать русскоязычные документы. Мы протестировали известную российскую OCR CuneiForm компании Cognitive Technologies и OCR ReadIris бельгийской компании Iris. Использовались версии OCR CuneiForm 2000 R2 и OCR ReadIris 6.0 build 1481.

Что мы тестировали

OCR CuneiForm компании Cognitive Technologies достаточно хорошо известна как на российском, так и на мировом рынке. Еще в 1993 году модуль распознавания CuneiForm был встроен в популярный CorelDRAW. Этой системой комплектуются все сканеры Hewlett-Packard, поставляемые в Россию, сканеры Canon, поставляемые в страны Восточной Европы, Россию и СНГ, многофункциональные устройства OKI и Olivetti.

Система ReadIris поставляется со сканерами AGFA и Hewlett-Packard по всему миру.

Краткое сравнение возможностей CuneiForm и ReadIris представлено в табл. 1.

В начало В начало

Что мы оценивали

Несомненно, точность распознавания является основным критерием оценки качества OCR-систем. В наших тестах мы считали ошибкой любое несоответствие исходного и распознанного документов. Таким образом, число ошибок равнялось числу действий, которые необходимо сделать пользователю, чтобы исправить ошибку. Например, если один символ (Ш) разбивался на три (|||), то это считалось как три ошибки. Лишний пробел, заглавная буква вместо прописной — примеры засчитанных ошибок (табл. 2, 3, 4).

Однако точность не может рассматриваться в отрыве от скорости. Поэтому вторым критерием стало время распознавания, которое мы оценивали в секундах (табл. 5).

Кроме того, важно оценить качество воссоздания формы исходного документа, поскольку система может распознать документ быстро и качественно, но при этом нарушить его структуру так, что пользователю придется потратить достаточно много времени на редактирование, а это сведет на нет другие достоинства.

В начало В начало

Материал для тестирования

Для сравнения двух систем мы выбрали документы, принадлежащие к пяти основным классам:

  1. гладкие тексты;
  2. тексты с таблицами;
  3. многоколоночные тексты;
  4. тексты со сложной топологией (графические иллюстрации, несколько колонок, крупные заголовки и т.д.);
  5. офисные документы (факсовые письма, ксерокопии и т.д.). На каждом классе документов тесты проводились на документах разного качества — от низкого до высокого полиграфического качества.

Тестирование проводилось на 12 европейских языках: русском, английском, немецком, французском, испанском, итальянском, польском, украинском, болгарском, румынском, чешском, венгерском.

В начало В начало

Аппаратное обеспечение

Тестирование проводилось на компьютере: Intel Pentium 200 MMX, RAM 64Mb, HDD 2 Gb. Выбор столь скромной машины объясняется тем, что данная конфигурация сегодня наиболее распространена в российских офисах, на которые и падает большая часть работы по распознаванию документов. Использовался сканер Hewlett-Packard 6200.

В начало В начало

Некоторые особенности работы систем

Типы систем

CuneiForm — шрифтонезависимая система и способна распознавать любые шрифты (за исключением декоративных).

В CuneiForm используются самообучающиеся алгоритмы. Система независимо от пользователя способна обучаться в процессе распознавания. Это позволяет значительно увеличить точность распознавания. Еще одним отличительным свойством CuneiForm является наличие «экспертной системы» внутри ядра, которая в зависимости от качества и структуры документа позволяет выбирать оптимальный алгоритм распознавания.

ReadIris — комбинация шрифтонезависимой и шрифтозависимой системы оптического распознавания в чистом виде, то есть пользователь может включить или отключить обучение системы шрифту.

В начало В начало

Особенности разметки документа

При загрузке документа ReadIris производит автоматическую разметку текстовых блоков, картинок и таблиц. Однако, как правило, дополнительно требуется ручная разметка. В ReadIris, в отличие от CuneiForm, ручная разметка очень неудобная, отсутствуют гибкие возможности масштабирования (изображение или очень крупное, или очень мелкое). Для того чтобы переопределить блок документа (например, с текста на картинку), нельзя просто нарисовать сверху новый блок, как в CuneiForm, требуется дополнительная операция — удаление первоначального блока.

В начало В начало

Особенности работы с результатом распознавания

В CuneiForm результат распознавания помещается во встроенный текстовый редактор, в котором можно удобно перемещаться по «сомнительным» словам. Проверка сомнительных слов в ReadIris осуществляется в том же окне, что и обучение шрифту: появляется отдельное окно, в котором показывается сомнительное слово, и предлагается посимвольно проверить, правильно ли система его понимает. Если вы не хотите заниматься обучением системы, то вам не удастся и просмотреть сомнительные слова. В ReadIris отсутствует встроенный текстовый редактор, с чем и связан описанный выше способ проверки сомнительных слов — невозможно видеть одновременно результат распознавания и оригинал.

В начало В начало

Особенности экспорта результата распознавания

Результат распознавания CuneiForm может экспортировать как в MS Word, так и в MS Excel. В MS Word форматирование построено с учетом всех возможностей этой программы: колонки, абзацы, таблицы и в незначительной степени фреймы. Результат распознавания ReadIris экспортируется только в MS Word. Практически все элементы документа помещаются во фреймы, которые называются «кадрами», или «надписями» в русских версиях MS Word), что сильно усложняет работу с текстом, к тому же фреймы при этом часто накладываются друг на друга.

В начало В начало

Выводы

  1. Как видно из приведенных таблиц, практически на всех документах CuneiForm опережает ReadIris по точности распознавания. Разница по количеству ошибок особенно ощутима на русском и других кириллических языках, хотя и на языках с латинским алфавитом лидерство сохраняет CuneiForm.
  2. Системы показывают примерно одинаковые результаты по скорости распознавания, но иногда CuneiForm работает несколько быстрее.
  3. Очевидно отставание ReadIris при работе с текстами, имеющими сложное форматирование: в несколько колонок, с иллюстрациями, заголовками, таблицами. Во-первых, блоки зачастую определяются неправильно, поэтому требуется последующая ручная разметка. Небольшие картинки, стилизованные под шрифт (логотипы, подписи), ReadIris старается определить как текст. В ReadIris не определяются при автоматической разметке таблицы без разделительных линий.

    Во-вторых, при экспорте из ReadIris в MS Word подобные элементы документа разбиваются на фреймы, которые путаются и накладываются друг на друга. Текст часто оказывается под картинкой, и его трудно прочитать; иногда маленькая картинка оказывается под текстовым фреймом и ее нелегко извлечь.

    На приведение таких документов к исходному виду уходит очень много времени. Данные недостатки сводят на нет преимущества быстрой автоматической разметки документа в ReadIris.

  4. Заметно преимущество CuneiForm при работе с так называемыми плохими текстами: факсами, ксерокопиями, текстами, отпечатанными на пишущей машинке или матричном принтере, документами, отсканированными в низком разрешении. В таких документах количество ошибок у ReadIris возрастает на порядок, у CuneiForm же качество распознавания ухудшается незначительно.
  5. CuneiForm предоставляет более удобные, чем у ReadIris, возможности работы с распознаваемым текстом: встроенный текстовый редактор, проверка сомнительных слов, удобный инструментарий по работе с таблицами на стадии разметки, мощные средства ручной фрагментации.

КомпьютерПресс 7'2001

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует