Технологии машинного зрения. Сделано в России
Обзор рынка технологий компьютерного зрения
Кто есть кто на российском рынке компьютерного зрения
Научно-технический центр «Модуль»
НПЦ Оптическое Распознавание Объектов
Больше технологий — хороших и разных
Обзор рынка технологий компьютерного зрения
овременный мир компьютерных систем сложно представить без технологий машинного, или компьютерного, зрения. В статье «Зачем компьютеру зрение?» (КомпьютерПресс № 5’2002) была рассмотрена история становления этой технологии и дан обзор ряда ее приложений. Безусловно, в статье описана лишь малая часть приложений из широкого спектра применяемых систем машинного зрения, и в следующих номерах мы еще вернемся к рассмотрению этой весьма интересной и стремительно развивающейся области знаний. Да, именно стремительно развивающейся. Ведь этой технологии всего около 50 лет, что по меркам многих точных наук не выходит за рамки периода становления. Наращивая свой научный и практический потенциал параллельно с совершенствованием вычислительной и регистрирующей техники, компьютерное зрение постепенно завоевывает все новые технологические рубежи. Высокопроизводительные вычислительные машины последнего поколения (к ним относятся и современные персональные компьютеры) уже позволяют решать многие задачи обработки потоков цифровой видеоинформации и принятия решения в режиме реального времени. И сегодня, порой незаметно для большинства из нас, компьютерное зрение достаточно прочно закрепляется во многих областях жизнедеятельности человека, помогая ему, а подчас заменяя его, избавляя от монотонного, рутинного или, нередко, связанного с риском для жизни труда.
Ни для кого не секрет, что компьютерное зрение как технология получило наиболее широкое, полное и всестороннее развитие на Западе, особенно в США, в Южной Корее и в Японии. Связано это прежде всего с мощной финансовой поддержкой этого направления со стороны правительства и инвесторов, прогнозирующих за ним большое будущее. Причем правительство в основном поддерживает развитие технологии в общеобразовательных центрах, а инвесторы обеспечивают поддержку частным высокоперспективным компаниям. Наиболее яркими примерами таких хорошо финансируемых научных центров могут служить Лаборатория Искусственного Интеллекта Массачусетсского Технологического Института (MIT Artificial Intelligence Laboratory), UC Berkeley Computer Vision Group, Vision and Autonomous Systems Center Университета Корнеги-Меллона, Stanford Vision Laboratory и ряд других. Примерами поддерживаемых частных компаний могут служить такие компании, как Visionics, Eyematic и др. Всего на Интернет-сайте, объединяющем разработчиков в области машинного зрения, — Computer Vision Home Page (http://www.2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtvision.html) — зарегистрировано около 200 групп и научных лабораторий, работающих над данной проблематикой. Следует отметить, что этим не исчерпывается круг организаций, занимающихся компьютерным зрением, так как существует большое количество коммерческих фирм, специализирующихся в области машинного зрения и обработки изображений. Информацию о них можно найти на специализированных тематических Интернет-сайтах, посвященных отдельным направлениям данной технологии. Иными словами, разработчики различных технологий внутри самой технологии компьютерного зрения как бы объединяются в клубы по интересам. Например, интересующиеся достижениями в области распознавания жестов могут найти достаточно подробную информацию об исследованиях, исследовательских группах, коммерческих приложениях, патентах на соответствующем специализированном Интернет-сайте — Gesture Recognition Home Page (http://www.cybernet.com/~ccohen/gesture.html). Там же можно скачать некоторые демонстрационные приложения и ознакомиться с последними научными публикациями. Если же читатель предпочитает заняться технологиями, связанными с распознаванием лиц, то ему прямая дорога в виртуальный клуб на другом Интернет-сайте — Face Detection and Recognition Home Page (http://home.t-online.de/home/Robert.Frischholz/face.htm).
Следует отметить, что все перечисленное выше приводит к быстрому росту и совершенствованию технологий компьютерного зрения. В настоящее время зарубежные научно-исследовательские и коммерческие центры привлекают большое количество ученых и высококвалифицированных программистов, проводят распараллеленные исследования в различных областях машинного зрения, добиваясь достаточно весомых результатов.
Россия, как полноправный член мирового экономического сообщества, не осталась в стороне от этого процесса. Вот уже несколько лет на российском технологическом рынке также наблюдается тенденция повышения интереса к проблемам компьютерного зрения, причем как со стороны руководителей ряда IT-компаний и компаний, работающих на рынке безопасности, так и со стороны потребителей (пользователей) и студентов, желающих специализироваться в этой области. Реакцией на этот интерес стало появление лабораторий, групп и коммерческих структур, ставящих перед собой задачу разработки различного рода технологий и приложений для решения проблем машинного зрения. И если еще десятилетие назад мы были в роли догоняющих, то на сегодняшний день многие компании — лидеры в области передовых технологий стремятся на российский рынок с целью приобретения соответствующих технологий компьютерного зрения или размещения заказов на передовые исследования и разработки в этой области.
Этой теме и посвящена настоящая статья, целью которой является не только продемонстрировать наличие интереса к данной тематике со стороны российских и зарубежных товаропроизводителей, но и рассказать о ряде российских фирм, разрабатывающих программное обеспечение для различных систем обработки и анализа изображений.
Кто есть кто на российском рынке компьютерного зрения
сследование российского рынка разработчиков технологии машинного зрения показывает, что количество фирм, занимающихся компьютерным зрением, относительно невелико. Рассмотрим наиболее заметные из этих компаний и приведем краткое описание некоторых интересных технологий компьютерного зрения, которые поставляются ими на отечественный и мировой рынки.
Компания SPIRIT
Компания SPIRIT (http://www.spiritcorp.com/) в конце мая 2002 года отметила десятилетие своего существования на рынке DSP-технологий1. Наряду с такими активно востребованными в наши дни технологиями, как телефония, обработка и распознавание речи, GPS-технологии, передача данных и т.д., компания активно занимается исследованием, разработкой и продвижением коммерческих приложений в области цифровой обработки и анализа изображений. Примечательным является тот факт, что только за последние три года компания получила охранные грамоты на шесть изобретений в области машинного зрения.
Созданная в рамках компании лаборатория компьютерного зрения — CV Lab — проводит R&D в следующих технологических направлениях: биометрические системы идентификации и аутентификации пользователя на основе входного видеопотока, системы слежения за лицом человека как за пространственным объектом, системы распознавания жестов, системы детектирования наличия движения и анализа области движения на предмет классификации движущегося объекта и еще ряд перспективных технологических направлений. В своих разработках лаборатория опирается на анализ перспективных потребностей мирового рынка в высоконадежных и высокоточных системах компьютерного зрения. Поэтому большинству работ, проводимых в лаборатории, предшествует глубокий маркетинговый анализ. Среди клиентов лаборатории ряд известных зарубежных компаний, таких как Toshiba, Panasonic, Samsung.
Отдельно хочется отметить работы компании в области разработки систем распознавания мимики лица в реальном масштабе времени. Эту технологию, а также технологию слежения за лицом компания лицензировала фирме SeeStorm (http://www.seestorm.com/) для построения систем видеоконференций нового поколения. Основная идея работ в этом направлении — управлять аватаром (искусственным трехмерным объектом) на основании анализа поведения человека перед компьютером. При этом происходит распознавание положения человека в пространстве, определение углов поворота его головы, детектируется его мимика. Эта информация кодируется и передается по сети на принимающую сторону. Таким образом достигается существенное уменьшение информационного потока по сравнению с традиционными видеоконференциями, повышается конфиденциальность. Акцент в разработках сделан на использование так называемых Web-камер для управления аватаром. Иными словами, пользователю необходим компьютер, гарнитура (наушники с микрофоном) и Web-камера для того, чтобы погрузиться в мир виртуального общения.
Наряду с этим направлением в лаборатории проводятся серьезные исследования и разработки в области создания биометрических систем, основанных на анализе изображений лица человека (рис. 1). В частности, в результате многолетних исследований была разработана уникальная технология, позволяющая системе принимать решения об идентификации в сложных условиях яркостно-контрастной изменчивости входных изображений, противодействовать предъявлению фотографий, учитывать эффект частичного загораживания области лица, противостоять изменению в прическе, макияже и ряду других влияющих факторов. Технология разрабатывалась и строилась как альтернатива существующим системам распознавания личности, таким как FaceIt (Visionics, Inc.), BioID (DCS) и т.д. Основываясь на особой интегральной информации о лице, она формирует его уникальное признаковое описание, которое впоследствии используется в качестве биометрического ключа (или кода) для принятия решения о распознавании. Оригинальная система принятия решения, эмулирующая принятие решения человеком, позволяет дополнительно повысить характеристики надежности.
Параллельно с этими разработками лаборатория проводит работы в области создания системы распознавания личности на основе трехмерных измерений. Использование трехмерного рельефа лица, восстанавливаемого по изображениям, повышает надежность системы безопасности, позволяя решать задачи распознавания личности с более высокими показателями надежности. Данная технология предполагает наличие специального стереокомплекса, состоящего из двух камер, подсветки и устройства позиционирования лица.
Особое место в технологическом ряду фирмы занимают программы, предназначенные для распознавания жестов в реальном масштабе времени. Эта технология прежде всего интересна своими потенциальными приложениями, к которым относятся: управление курсором PC с помощью жестов (рис. 2), дистанционное управление в игровых приложениях, управление роботами, дистанционное управление бытовой техникой (телевизорами, видеомагнитофонами и пр.) вместо пультов управления, запуск компьютерных приложений на основе распознавания предопределенных жестов, интерпретатор жестов для глухонемых и неспособных к передвижению людей (лежачие больные) и т.п.
Более подробную информацию по этим и другим технологиям можно найти на сайте компании.
Компания ИИТ
Лаборатория компьютерного зрения Института Информационных Технологий (http://www.iitvision.ru/) была сформирована в 1998 году и специализируется в области создания программного обеспечения для компьютерных систем анализа и обработки изображений. Основная группа разработчиков перешла в лабораторию из ГосНИИ Авиационных Систем (ГосНИИ АС), где аналогичная лаборатория компьютерного зрения существует с 1991 года. Между лабораториями компьютерного зрения ИИТ и ГосНИИ АС2 (http://www.gosniias.msk.ru/main/index-r.htm) и в настоящее время существуют постоянные деловые и партнерские отношения.
Основные технологии, которыми занимается лаборатория ИИТ, включают: обработку изображений и анализ сцен, ближнюю и дальнюю фотограмметрию, трехмерную визуализацию и виртуальную реальность и ряд других направлений.
Наиболее интересной и востребованной как на российском, так и на международном рынке технологией является технология поиска и считывания штриховых кодов. В этой области, согласно полученной информации, лабораторией ИИТ достигнуты особенно высокие результаты. Суть данной технологии заключается в следующем. Изображение объекта с нанесенным штриховым кодом регистрируется видеокамерой и вводится в персональный компьютер. В ходе анализа полученного цифрового изображения имеющиеся штриховые коды обнаруживаются и считываются. Программное обеспечение позволяет детектировать, считывать и декодировать все распространенные на сегодняшний день штриховые коды, независимо от их размера, положения на снимке и ориентации (рис. 3). При этом поверхность, на которую они наносятся или могут наноситься, может быть наклонной, криволинейной или даже измятой, коды могут быть частично загрязнены или затерты, а прозрачная упаковка поверх кодов не является помехой для их устойчивого обнаружения и распознавания. Коды распознаются на любом сложном фоне: программа легко отличает штриховые коды от любых других разновидностей текста и графики, нанесенных на объект или окружающих его.
Другой сферой интересов группы является разработка технологии распознавания машиночитаемой информации (рис. 4). Под машиночитаемой информацией понимаются буквенно-цифровые последовательности (машиночитаемые зоны), обладающие специальной структурой, обеспечивающей за счет избыточного кодирования и записи контрольных сумм существенно более высокую достоверность считывания информации. При этом, в зависимости от назначения, содержательная буквенно-цифровая информация может быть как читаемой (в целях визуального контроля), так и нечитаемой без специального декодера (в конфиденциальных приложениях). Основными достоинствами разработанной технологии являются: инвариантность алгоритмов к поворотам считываемого документа, устойчивое распознавание машиночитаемых символов при низком разрешении (до 170-200 точек на дюйм) и возможность обучения системы различным типам машиночитаемых шрифтов при разработке специализированных приложений.
Продуктовая линейка лаборатории включает следующие разработки: систему анализа и обработки изображений для персонального компьютера серии Pisoft Image Framework и цифровую фотограмметрическую систему серии Z_Space. Первая адресована разработчикам систем обработки изображений, а также может использоваться для практических, исследовательских и учебных целей в качестве интегрированной среды работы с изображениями. Вторая система предназначена для получения цифровой модели рельефа на основе стереопары цифровых снимков, создания ортофотопланов3 и визуализации элементов рельефа с использованием трехмерной графики.
Более подробную информацию по этим и другим технологиям, не рассматриваемым в данной статье, можно найти на сайте лаборатории ИИТ.
Лаборатория CVision
Лаборатория распознавания и обработки изображений CVision (http://www.cvision.ru/) является подразделением бельгийской компании Capvidia BVBA (основанной в 1994 году) и специализируется на разработке продуктов, предоставлении услуг и проведении исследовательских работ для решения прикладных задач с использованием технологий распознавания изображений. Согласно официальной информации, датой создания лаборатории считается 1996 год. Именно тогда была создана нижегородская компания NSTL, ставшая основой лаборатории. После перехода большинства сотрудников NSTL на работу в Интел в 2000 году лаборатория получила официальный статус представительства компании Capvidia BVBA в России. На сегодняшний день численность персонала компании Capvidia BVBA, в которую входит CVision, составляет 80 человек. При этом компания является международной, так как имеет свои представительства не только в Москве и Нижнем Новгороде, но также в США. Особо хочется отметить, что технологии машинного зрения разрабатываются данной компанией в России.
Компания ориентирована на создание программных продуктов и решений в следующих областях: управление производством, медицина, видеонаблюдение и векторизация изображений. Рассмотрим наиболее интересные разработки CVision из имеющихся материалов на ее официальном сайте. Сразу хочется отметить, что подавляющее число проектов, представленных на упомянутом сайте, разработаны для режима реального времени.
Начать обзор продуктов и технологий данной компании хочется с описания двух приложений, связанных с обработкой и анализом медицинских изображений. Первое приложение (или технология) предназначено для так называемой системы сортировки цифровой рентгеновской информации. В частности, поставляемое приложение XraySort (рис. 5) разработано для классификации рентгеновских медицинских снимков. Отличительными особенностями данной технологии является то, что в ней достигаются высокие характеристики быстродействия и устойчивость алгоритма к неполным изображениям (то есть содержащим лишь часть искомой информации). Кроме того, алгоритмы позволяют обнаруживать в организме области, имеющие отклонения от нормы. Второе приложение — XraySortQuery — разработано лабораторией для формирования запросов в базах данных рентгеновских снимков.
Запросы для такой системы могут быть сделаны в анатомических терминах, а поиск и локализация необходимых объектов на изображениях могут быть осуществлены непосредственно в процессе выполнения запроса. Обычный запрос может иметь следующий вид: «дайте рентгеновские снимки голени с имплантированным стержнем в верхней части» или «дайте рентгеновские снимки черепа, где присутствует половина лица» и т.п.
Наряду с этим лаборатория владеет различными технологиями распознавания символов, начиная с распознавания номерных знаков и заканчивая чтением символов на различных поверхностях объектов, в частности для распознавания маркировки чипов на сборочной линии. Согласно заявлениям разработчиков этой технологии, она может быть использована не только для распознавания номеров автомобилей и серийных номеров (рис. 6), но и для автоматического распознавания печатных текстов. Правда, под вопросом остается стабильность данной технологии к различным шрифтам.
В заключение хотелось бы отметить еще два продукта (технологии), поставляемых данной группой. Это система сортировки писем MailSort и технология обнаружения и анализа движения. Данные технологии разработаны в России, но ориентированы (на данный момент) преимущественно на западный рынок.
Система сортировки писем MailSort (рис. 7) предназначена для классификации изображений почтовых конвертов. Задача заключается в поиске подпоследовательности почтовых конвертов одинакового типа в общем потоке конвертов и идентификации соответствующего почтового ящика с подобными конвертами. Принадлежность конверта к некоторому почтовому ящику определяется по логотипам, печатям и соответствующим надписям, а также по их расположению относительно друг друга на конверте. Если конверт не принадлежит ни к одному из существующих классов, то создается новый класс. В результате работы приложения входной набор изображений конвертов классифицируется по почтовым ящикам. Приложение визуализирует процесс классификации изображений и позволяет просмотреть каждый почтовый ящик по завершении классификации.
Технология обнаружения и анализа движения разрабатывалась CVision для решения задач, связанных с вопросами построения систем безопасности. Задача обнаружения движения и слежения за объектом состояла в выделении на последовательности видеокадров движущегося объекта и фиксации изменений сцены (зоны наблюдения камеры) в течение всего времени, пока объект находился в зоне видимости камеры, до момента, когда он эту зону покинул. Такая технология позволяет обнаружить не только движение человека в заданном поле зрения камеры, но и, например, исчезновение какого-то предмета, находившегося в зоне интереса.
И это далеко не все разработки лаборатории CVision. Более подробную информацию по технологиям и приложениям можно найти на Интернет-сайте компании.
Научно-технический центр «Модуль»
Научно-технический центр «Модуль» (http://www.module.ru/) учрежден в 1990 году известными фирмами российского военно-промышленного комплекса — межгосударственной корпорацией (ранее НПО) «Вымпел» и Научно-исследовательским институтом «Радиоприборостроение». Сегодня это быстро прогрессирующее предприятие, получившее известность среди ведущих отечественных и зарубежных разработчиков и производителей информационных систем на базе передовых компьютерных технологий.
Согласно имеющейся у автора информации, в своей научной коммерческой деятельности НТЦ «Модуль» ориентируется на разработку прототипов «интеллектуальных продуктов» на базе процессоров и плат собственной разработки.
В области систем компьютерного зрения компания активно проводит и продвигает свои разработки на рынке так называемых интеллектуальных транспортных систем. На сегодняшний день с точки зрения современных систем компьютерного зрения наиболее интересными технологиями и продуктами, имеющимися в арсенале компании, являются следующие:
- аппаратно-программный комплекс измерения характеристик транспортного потока «Трафик-монитор»;
- система классификации автомобилей;
- система распознавания дорожной разметки;
- система помощи водителю автомобиля по предотвращению дорожно-транспортных происшествий, которая по стереоизображению определяет дорожное полотно, разметку и препятствия.
Следует особо подчеркнуть, что последний проект НТЦ выполнял совместно с лабораторией машинного зрения ГосНИИ АС (о котором упоминалось выше). Рассмотрим эти продукты подробнее.
«Трафик-монитор» (рис. 8) — это компактный высокопроизводительный вычислитель, выполненный в одном корпусе с видеокамерой и источником вторичного электропитания, имеющий стандартный внешний интерфейс, к которому можно подключаться по беспроводному или обычному модему. Одно такое устройство позволяет осуществлять в реальном масштабе времени контроль до шести полос движения, передавая в центр управления движением накопленную информацию о количестве транспортных средств, их типе, скорости, дистанции между ними и степени загруженности дороги. «Трафик-монитор» способен распознавать пять типов транспортных средств: мотоцикл, легковой автомобиль, грузовик-микроавтобус, автобус, длинный грузовик-трейлер. Данная система построена на базе собственной разработки НТЦ — сигнального процессора Л1879ВМ1. Этим обусловлена ее большая гибкость и универсальность по сравнению с другими аналогичными системами, так как ее можно достаточно легко перепрограммировать на решение любых других задач интеллектуальной обработки видеоинформации в режиме реального времени, например для использования в качестве интеллектуального датчика в составе охранных систем.
Другим интересным, на мой взгляд, проектом НТЦ «Модуль» являются разрабатываемые система автоматического определения типа и грузоподъемности автомобиля по информации от видеокамеры и система распознавания дорожной разметки (рис. 9) для предотвращения дорожно-транспортных происшествий. Первая система разрабатывается для немецкой компании AGES Maut System, вторая — для итальянского автомобильного концерна FIAT. Система распознавания дорожной разметки должна устанавливаться на машину и выполнять функции базового элемента системы помощи водителю. В круг задач системы так называемого круиз-контроля будут входить задачи мониторинга дистанции между данной машиной и другими машинами в потоке (впереди, сзади и сбоку) и информирование водителя об опасности столкновения.
Особого внимания по праву заслуживают технология и действующий прототип системы предотвращения дорожно-транспортных происшествий (http://www.module.ru/products/dsp/ccas.shtml). В основу этой перспективной системы (рис. 10) заложен бинокулярный видеодатчик. Он расположен на транспортном средстве и осуществляет в режиме реального времени следующие задачи: стереомониторинг дорожного полотна с целью обнаружения статических препятствий, стереомониторинг разметки и окружающих транспортных средств. Следует отметить, что демонстрировавшийся на международных выставках макетный образец данной системы получил высокие оценки специалистов, разрабатывающих интеллектуальные транспортные системы будущего. Более того, согласно имеющейся информации, ряд автомобильных гигантов выразил готовность приступить к тестированию пилотных образцов такой системы.
Более подробную информацию о компании и ее продукции можно найти на выше указанном Интернет-сайте.
НПЦ Оптическое Распознавание Объектов
НПЦ Оптическое Распознавание Объектов (http://www.gabitus.com/) создан в 1995 году в Самаре, РФ. Основным направлением НПЦ ОРО является разработка программ, позволяющих быстро идентифицировать личность преступника или подозреваемого по предполагаемым изображениям и описательным данным. Иными словами, цель деятельности компании в данном направлении — разработка биометрических систем идентификации личности. Текущая деятельность компании строится на использовании так называемой технологии ГАБИТУС, основанной на искусственных нейронных сетях, методах оптимизации и комбинаторике.
Для того чтобы составить более ясное представление об уровне и глубине технологий, поставляемых на российский и международный рынки НПЦ ОРО, остановимся подробнее на продукте КРИМНЕТ, который предлагают в качестве готовой биометрической системы (рис. 11). По имеющейся информации, с технологической точки зрения программное обеспечение рассматриваемой биометрической системы состоит из двух частей: модуля распознавания изображений и независимого модуля поиска информации в базе данных по словесному описанию внешности с последующим выводом этой информации на экран пользователя.
Согласно заявлениям разработчиков, алгоритмы модуля распознавания изображений ГАБИТУС позволяют получить именно тот результат, который близок ассоциативному человеческому мышлению, в то время как большинство других систем основано на формальных статистических вычислениях. При этом процесс распознавания сводится к поиску наиболее похожего эталона (изображения, хранящегося в памяти нейронной сети). Когда эталон заносится в память, то между ним и уже сохраненными в памяти компьютера изображениями строятся ассоциативные связи в виде уровней взаимного сходства, положительно влияя на результат распознавания. Данная технология позволяет обрабатывать большие объемы информации в виде фотографий и фотороботов и предназначена для поиска лиц, наиболее похожих на предъявляемое. При этом эффективность предлагаемого метода дает возможность реализовать ее на простых настольных PC без привлечения мощных вычислительных ресурсов.
Модуль словесного описания (рис. 12) также является оригинальной разработкой НПЦ ОРО. Он позволяет учесть практически все возможные случаи наличия или отсутствия дополнительной качественной информации о том, как выглядит идентифицируемый. Описание внешности строится на базе около 300 параметров, которые используются для упрощения процедуры распознавания.
Принцип действия КРИМНЕТ прост. Пользователь системы вводит изображение неизвестного лица и/или описательную информацию через специальную форму запроса, которая по локальной сети или модемной связи отправляется на сервер. Сервер сначала отбирает изображения в соответствии с описательной информацией, а затем ГАБИТУС производит распознавание и выдает ограниченную иерархию изображений зарегистрированных лиц на экран пользователя. Отличительной особенностью данного продукта (технологии) от других биометрических систем является то, что она позволяет осуществлять процедуру идентификации по фотороботу.
По официальной информации, доступной на Интернет-страничке компании, к настоящему времени созданы две версии КРИМНЕТ: мощная система для баз данных до 500 000 изображений и облегченная версия для 50 000 изображений.
В качестве примера использования своих технологий НПЦ ОРО предлагает развлекательное программное обеспечение — Analogia (http://www.gabitus.com/eng/analogia/). Суть данной программы заключается в поиске наиболее похожих на пользователя знаменитостей. Получив свою цифровую фотографию в фас с помощью Web-камеры, сканера или любым другим способом, каждый может подобрать себе «двойника» из мира звезд кино, эстрады и т.п. Причем эту процедуру можно проделать в интерактивном режиме с Интернет-страницы компании на обычном персональном компьютере.
Фирма ВидеоТесТ
Фирма ВидеоТесТ (http://www.videotest.ru/) занимается комплектацией и поставками компьютерных систем анализа изображений, разработкой программного обеспечения для анализа изображений, внедрением методик компьютерного анализа в медицине, биологии, геологии, материаловедении, криминалистике и других областях. Над созданием систем анализа изображений фирма ВидеоТесТ работает с 1990 года: сначала в составе фирмы ИСТА, образовавшейся на базе НПО «Электрон», а с 1995 года — как самостоятельное предприятие. Основная задача, которую ставит перед собой коллектив компании, — создание программного обеспечения для работы с цифровыми изображениями с целью их преобразования, анализа и архивирования. Потребность в такого рода системах существует во многих сферах научно-исследовательской деятельности, например таких, как медицина и биология, материаловедение, наука о земле и пр. Применение компьютерных систем анализа изображений поднимает работу на современный уровень, делая ее более производительной, а результаты — статистически достоверными.
Для этих целей компания предлагает набор программных продуктов — так называемых анализаторов изображений.
Анализаторы изображений (рис. 13) представляют собой аппаратно-программные комплексы для решения задач, связанных с вводом, преобразованием и анализом цветных или черно-белых цифровых изображений. Такие комплексы предназначены для проведения различных морфометрических измерений4 и исследований (рис. 14). Они применяются в основном в медицине и биологии и служат для изменения визуализации исходных изображений путем различного рода преобразований, проведения анализа и измерений на этих изображениях и архивирования. Типичными примерами решаемых с помощью данного комплекса задач являются морфометрия гистологических срезов, анализ патологических изменений клеток крови, оценка ядерно-клеточного (цитоплазменного) отношения, построение и анализ эритроцитарной гистограммы (например, для уточнения диагностики природы анемии), подсчет и анализ тромбоцитов, цитофотометрия, анализ поведенческих особенностей животных (траектория движения, скорость, ускорение) и другие медицинские приложения. В области материаловедения такими примерами являются гранулометрический анализ, анализ трещиноватости, фазовый анализ и т.п.
Более подробную информацию об этой российской компании, ее продукции и технологиях можно найти на вышеупомянутом Интернет-сайте.
Компания «Проминформ»
Закрытое акционерное общество «Проминформ» (http://www.prominform.com/) создано в 1990 году и специализируется на проектировании, разработке, выпуске, монтаже и обслуживании аппаратно-программных комплексов, микропроцессорных систем, систем цифровой обработки звуковой и видеоинформации, программного обеспечения и радиоэлектронной аппаратуры различного назначения, аппаратуры защиты информации. Компания «Проминформ» известна своим аппаратно-программным комплексом «Сова-2» (рис. 15), в который входит технология машинного зрения.
Основное предназначение комплекса — автоматическая идентификация государственных регистрационных знаков, распознавание цвета и измерение скорости движения автотранспортных средств, автоматическая проверка считанных государственных регистрационных знаков по базам данных различного уровня и назначения, в том числе по базам федерального, регионального и оперативного розыска, ведение базы данных автотранспорта, проследовавшего через пост, оборудованный данным комплексом. Данная работа была инициирована ГУГИБДД МВД РФ «Проминформ» совместно с ГУВД и Управлением ГИБДД Пермской области в соответствии с «Концепцией создания и развития региональной системы мониторинга транспортных средств, транспортных магистралей и территорий».
Данный видеокомплекс работает на основании следующих принципов. Видеокамеры располагаются над дорогой на высоте 6 м на удалении от 300 до 1000 м от стационарного поста. Длина зоны контроля составляет 10 м. Для обеспечения работы АПК «Сова-2» в ночное время суток зоны контроля освещаются. Количество устанавливаемых видеокамер равняется количеству контролируемых полос движения автотранспорта. Сигнал от видеокамер передается на контроллеры распознавания. Передача видеосигнала может осуществляться как по кабельной линии, так и любым беспроводным способом. Цвет автотранспортного средства определяется в области над местом расположения государственного регистрационного знака. Скорость движения автотранспортных средств измеряется по скорости изменения положения автотранспортного средства в кадре изображения. Результаты обработки по локальной сети передаются на консоль оператора.
Детальную информацию по поводу этой современной разработки можно найти на Интернет-странице ЗАО «Проминформ».
Больше технологий — хороших и разных
В заключение хочется отметить, что рассмотренными примерами не исчерпываются ни возможности технологий компьютерного зрения, ни число компаний и групп, занимающихся данной проблематикой. В частности, за рамки данной статьи вышли группы, занимающиеся разработкой и построением так называемых геоинформационных систем (ГИС).
С 1995 года исследовательские группы и фирмы, занимающиеся этим разделом машинного зрения, объединены в ГИС-ассоциацию (http://www.gisa2.gubkin.ru/assoc.html), которая на сегодняшний день насчитывает более 450 членов. В числе задач, решаемых геоинформационными системами, — пространственное восстановление рельефа местности, распознавание объектового состава местности и построение трехмерных цифровых карт по информации, полученной с помощью аэрокосмических средств (рис. 16).
К наиболее известным в мире фотограмметрическим системам относятся такие аппаратно-программные комплексы, как Leica и Intergraph, поставляемые вместе с мощными рабочими станциями. Это весьма дорогостоящие системы, и позволить их себе могут немногие компании. С развитием вычислительной техники все популярнее становятся менее дорогостоящие системы, позволяющие проводить обработку изображений на персональных компьютерах. Российские цифровые фотограмметрические системы «Талка» (http://www.talka-tdv.ru/), Photomod (фирма «Ракурс» (http://www.racurs.ru/)), Z-Space (ГосНИИАС), ЦФС ЦНИИГАиК (Роскартография) или «Фотоплан» (29-й институт Министерства обороны), не уступая, а порой превосходя в качестве обработки цифрового видеосигнала зарубежные аналоги, будучи при этом в десятки раз дешевле аналогичных зарубежных разработок. Рассмотрение характеристик и возможностей таких систем — предмет отдельной статьи.
Еще одно направление в области машинного зрения — построение систем распознавания символов. В данной статье мы лишь косвенно упомянули об этой области, в которой технологии компьютерного зрения можно считать сложившимися. В частности, мы рассмотрели лишь узкоспециализированные задачи, решаемые компаниями в рамках коммерческих проектов. Если же вести речь о сложившихся коммерческих продуктах и технологиях систем распознавания символов, то нельзя не упомянуть о крупнейших российских и мировых поставщиках данной технологии — компании ABBYY с серией программ FineReader и компании Cognitive Technologies с серией программ CuneiForm. Обзору технологий, поставляемых данными компаниями, посвящена не одна статья на страницах КомпьютерПресс. Информацию о достижениях этих компаний можно найти и в этом номере журнала. Поэтому, отдавая должное этим компаниям и их технологиям, мы лишь вскользь упоминаем о них в рамках данной статьи.
Подводя итог, можно с уверенностью заявить, что российские технологии компьютерного зрения не уступают, а во многом и превосходят зарубежные аналоги. Зачастую компаниям, развивающим эти технологии, не хватает всемирно известного имени. Поэтому и инвестиции в них, как правило, делают неохотно. Однако не вызывает сомнений, что высокий уровень технологий и высокая квалификация российских специалистов уже в недалеком будущем приведут к доминированию на мировом рынке именно российских технологий компьютерного зрения.
КомпьютерПресс 7'2002