Россия начинает и выигрывает
Некоторые особенности работы системы
Особенности разметки документа
Особенности работы с результатом распознавания
Особенности экспорта результата распознавания
Могут ли западные OCR-системы на равных соревноваться с российскими разработчиками?
Системы OCR давно уже являются удобными помощниками для работы с различными типами документов. Современные программы позволяют за считанные минуты перевести в электронный вид договоры, факсы, газеты и даже встречающиеся в архивах машинописные страницы.
Напомним, что до последнего времени распознавание русскоязычных документов было прерогативой исключительно российских компаний. Западные системы не могли справиться с «проблемой русского языка». Дело в том, что кириллица более сложна для разработчиков, чем латиница. Ну, а о качестве отечественных документов, особенно находящихся в архивах, и говорить не приходится. Поэтому российским разработчикам по сравнению с их западными коллегами для создания конкурентоспособных на мировом рынке продуктов приходится решать гораздо более сложные проблемы, однако известно, что существует несколько западных систем, которые заявляют о способности успешно распознавать русскоязычные документы. Мы протестировали известную российскую OCR CuneiForm компании Cognitive Technologies и OCR ReadIris бельгийской компании Iris. Использовались версии OCR CuneiForm 2000 R2 и OCR ReadIris 6.0 build 1481.
Что мы тестировали
OCR CuneiForm компании Cognitive Technologies достаточно хорошо известна как на российском, так и на мировом рынке. Еще в 1993 году модуль распознавания CuneiForm был встроен в популярный CorelDRAW. Этой системой комплектуются все сканеры Hewlett-Packard, поставляемые в Россию, сканеры Canon, поставляемые в страны Восточной Европы, Россию и СНГ, многофункциональные устройства OKI и Olivetti.
Система ReadIris поставляется со сканерами AGFA и Hewlett-Packard по всему миру.
Краткое сравнение возможностей CuneiForm и ReadIris представлено в табл. 1.
Что мы оценивали
Несомненно, точность распознавания является основным критерием оценки качества OCR-систем. В наших тестах мы считали ошибкой любое несоответствие исходного и распознанного документов. Таким образом, число ошибок равнялось числу действий, которые необходимо сделать пользователю, чтобы исправить ошибку. Например, если один символ (Ш) разбивался на три (|||), то это считалось как три ошибки. Лишний пробел, заглавная буква вместо прописной — примеры засчитанных ошибок (табл. 2, 3, 4).
Однако точность не может рассматриваться в отрыве от скорости. Поэтому вторым критерием стало время распознавания, которое мы оценивали в секундах (табл. 5).
Кроме того, важно оценить качество воссоздания формы исходного документа, поскольку система может распознать документ быстро и качественно, но при этом нарушить его структуру так, что пользователю придется потратить достаточно много времени на редактирование, а это сведет на нет другие достоинства.
Материал для тестирования
Для сравнения двух систем мы выбрали документы, принадлежащие к пяти основным классам:
- гладкие тексты;
- тексты с таблицами;
- многоколоночные тексты;
- тексты со сложной топологией (графические иллюстрации, несколько колонок, крупные заголовки и т.д.);
- офисные документы (факсовые письма, ксерокопии и т.д.). На каждом классе документов тесты проводились на документах разного качества — от низкого до высокого полиграфического качества.
Тестирование проводилось на 12 европейских языках: русском, английском, немецком, французском, испанском, итальянском, польском, украинском, болгарском, румынском, чешском, венгерском.
Аппаратное обеспечение
Тестирование проводилось на компьютере: Intel Pentium 200 MMX, RAM 64Mb, HDD 2 Gb. Выбор столь скромной машины объясняется тем, что данная конфигурация сегодня наиболее распространена в российских офисах, на которые и падает большая часть работы по распознаванию документов. Использовался сканер Hewlett-Packard 6200.
Некоторые особенности работы систем
Типы систем
CuneiForm — шрифтонезависимая система и способна распознавать любые шрифты (за исключением декоративных).
В CuneiForm используются самообучающиеся алгоритмы. Система независимо от пользователя способна обучаться в процессе распознавания. Это позволяет значительно увеличить точность распознавания. Еще одним отличительным свойством CuneiForm является наличие «экспертной системы» внутри ядра, которая в зависимости от качества и структуры документа позволяет выбирать оптимальный алгоритм распознавания.
ReadIris — комбинация шрифтонезависимой и шрифтозависимой системы оптического распознавания в чистом виде, то есть пользователь может включить или отключить обучение системы шрифту.
Особенности разметки документа
При загрузке документа ReadIris производит автоматическую разметку текстовых блоков, картинок и таблиц. Однако, как правило, дополнительно требуется ручная разметка. В ReadIris, в отличие от CuneiForm, ручная разметка очень неудобная, отсутствуют гибкие возможности масштабирования (изображение или очень крупное, или очень мелкое). Для того чтобы переопределить блок документа (например, с текста на картинку), нельзя просто нарисовать сверху новый блок, как в CuneiForm, требуется дополнительная операция — удаление первоначального блока.
Особенности работы с результатом распознавания
В CuneiForm результат распознавания помещается во встроенный текстовый редактор, в котором можно удобно перемещаться по «сомнительным» словам. Проверка сомнительных слов в ReadIris осуществляется в том же окне, что и обучение шрифту: появляется отдельное окно, в котором показывается сомнительное слово, и предлагается посимвольно проверить, правильно ли система его понимает. Если вы не хотите заниматься обучением системы, то вам не удастся и просмотреть сомнительные слова. В ReadIris отсутствует встроенный текстовый редактор, с чем и связан описанный выше способ проверки сомнительных слов — невозможно видеть одновременно результат распознавания и оригинал.
Особенности экспорта результата распознавания
Результат распознавания CuneiForm может экспортировать как в MS Word, так и в MS Excel. В MS Word форматирование построено с учетом всех возможностей этой программы: колонки, абзацы, таблицы и в незначительной степени фреймы. Результат распознавания ReadIris экспортируется только в MS Word. Практически все элементы документа помещаются во фреймы, которые называются «кадрами», или «надписями» в русских версиях MS Word), что сильно усложняет работу с текстом, к тому же фреймы при этом часто накладываются друг на друга.
Выводы
- Как видно из приведенных таблиц, практически на всех документах CuneiForm опережает ReadIris по точности распознавания. Разница по количеству ошибок особенно ощутима на русском и других кириллических языках, хотя и на языках с латинским алфавитом лидерство сохраняет CuneiForm.
- Системы показывают примерно одинаковые результаты по скорости распознавания, но иногда CuneiForm работает несколько быстрее.
- Очевидно отставание ReadIris при работе с текстами, имеющими сложное форматирование:
в несколько колонок, с иллюстрациями, заголовками, таблицами. Во-первых, блоки
зачастую определяются неправильно, поэтому требуется последующая ручная разметка.
Небольшие картинки, стилизованные под шрифт (логотипы, подписи), ReadIris
старается определить как текст. В ReadIris не определяются при автоматической
разметке таблицы без разделительных линий.
Во-вторых, при экспорте из ReadIris в MS Word подобные элементы документа разбиваются на фреймы, которые путаются и накладываются друг на друга. Текст часто оказывается под картинкой, и его трудно прочитать; иногда маленькая картинка оказывается под текстовым фреймом и ее нелегко извлечь.
На приведение таких документов к исходному виду уходит очень много времени. Данные недостатки сводят на нет преимущества быстрой автоматической разметки документа в ReadIris.
- Заметно преимущество CuneiForm при работе с так называемыми плохими текстами: факсами, ксерокопиями, текстами, отпечатанными на пишущей машинке или матричном принтере, документами, отсканированными в низком разрешении. В таких документах количество ошибок у ReadIris возрастает на порядок, у CuneiForm же качество распознавания ухудшается незначительно.
- CuneiForm предоставляет более удобные, чем у ReadIris, возможности работы с распознаваемым текстом: встроенный текстовый редактор, проверка сомнительных слов, удобный инструментарий по работе с таблицами на стадии разметки, мощные средства ручной фрагментации.
КомпьютерПресс 7'2001