Зачем компьютеру зрение
Часть 4. Зрение разной глубины
Дистанционное зондирование и ГИС
Этой статьей мы продолжаем цикл публикаций о технологии и системах машинного зрения. В предыдущих публикациях мы рассказали об истории становления компьютерного зрения как научной и практической дисциплины и об одном широко известном ее направлении биометрических системах. В настоящей статье мы хотели бы рассмотреть малоизвестное технологическое направление компьютерного зрения технологии машинного зрения, которые используются для решения различных задач на основе обработки цифровой информации в различных диапазонах волн.
Взгляд «в глубину»
о недавнего времени вопросы многозональной обработки и анализа информации интересовали, пожалуй, только военных. И это неудивительно. Ведь использование сразу нескольких источников информации с различными по природе генерации физическими свойствами сигнала повышает как информативность систем анализа обстановки и т.п., так и надежность принятия решения. Поэтому военные стремились повысить надежность своего вооружения, в том числе высокоточного, за счет использования дорогостоящих в то время датчиков различных диапазонов волн. Такие работы проводились оборонительными ведомствами ведущих стран, включая США, Японию, Корею и страны Европы. Аналогичные работы велись и ведутся сейчас в России. Свидетельство тому многочисленные публикации и отчеты на международных конференциях, посвященных проблеме обработки информации в разных диапазонах волн, исследованию специфики каждого из диапазонов, формированию признаков и критериев принятия решения и т.п.
Однако по-настоящему революционные преобразования в этой области произошли в последние десятилетия XX века, когда одновременно с ростом вычислительной мощности профессиональных и персональных компьютеров возникло новое поколение цифровых датчиков двухмерных информационных полей1 . Появление нового поколения датчиков различной физической природы2 сделало актуальной проблему разработки алгоритмов обработки и анализа цифровой информации, полученной в разных спектральных диапазонах. Как показала практика, использование этих датчиков позволяет не только наиболее полно описывать наблюдаемую сцену3 за счет разнородной по своей природе информации, но и измерять ее отдельные элементы.
Наряду с этим развитие новых измерительных систем и методов регистрации двухмерных информационных полей в реальном масштабе времени позволило получать устойчивые во времени цифровые изображения от этих датчиков. Отличительной особенностью изображений, полученных от современных многозональных датчиков, является то, что они несут в себе наряду с определенным сигналом о присутствии или отсутствии в поле зрения датчика объекта детектирования (например, дома, автомобиля, трубопровода и т.п.) поток сложной семантической информации. Использование этой информации позволяет строить действительно революционные автоматизированные и автоматические системы обработки и анализа сцен наблюдения. Особенно интересными являются случаи, когда для решения задач обработки и анализа информации с более высокой точностью и надежностью применяются системы, состоящие из совокупности датчиков различной физической природы. Особенно часто используется так называемый принцип комплексирования, или объединения, информации об одном и том же объекте, полученной из разных источников (датчиков) или диапазонов. Причина этого кроется в следующем. Как показывает практика, для принятия оптимального решения человеку требуется все большее количество разной по своей сути информации. При этом, чем больше будут различаться источники, тем достовернее будет итоговая обобщенная информация и, следовательно, более правильным принятое решение. Но об этом чуть позже.
Значительные революционные преобразования в технике и технологии привели к более частому и достаточно широкому использованию многозональных датчиков в сложных системах в интересах разных потребителей. В настоящее время такие датчики используются в различных областях начиная от медицинских диагностических приложений и различных устройств мониторинга и заканчивая разработками сложных ГИС4 . Современный уровень вычислительных средств обеспечил возможность реализации многих из этих систем на базе персональных компьютеров, а значит, сделал их доступнее. Для сложных систем с более высокими вычислительными требованиями по-прежнему строят специальные аппаратно-программные решения.
В рамках этой статьи также будет рассмотрен способ, который дает возможность существенно повысить информативность и достоверность обычного видеоканала. Правда, за счет использования двух и более камер, которые позволяют измерять глубину изображения и восстанавливать пространственные формы его элементов. Весьма похожим, но, несомненно, гораздо более сложным аппаратом пользуется человек с того самого момента, когда он впервые открывает глаза. Иными словами, в рамках этой статьи будут рассмотрены вопросы применения систем стереозрения и основные принципы, которые используются в этих системах для того, чтобы определять глубину рельефа, различать форму объектов и расстояние, на котором они находятся.
Далее речь пойдет о наиболее интересных случаях применения датчиков разной физической природы для решения различных задач машинного зрения.
Дистанционное зондирование и ГИС
оворя простым языком, ГИС это современная компьютерная технология для решения широкого круга задач начиная с построения цифровых трехмерных карт и виртуального туризма и заканчивая задачами анализа объектов и событий, происходящих на нашей планете.
Иными словами, технология ГИС объединяет традиционные операции работы с базами данных, такими как запрос и статистический анализ, с преимуществами полноценной визуализации и географического (пространственного) анализа, которые предоставляет топографическая карта.
В контексте такого определения дистанционное зондирование местности является одним из поставщиков информации для практически любой географической информационной системы. С прикладной точки зрения системы дистанционного зондирования используются для обработки и анализа аэрокосмической информации, которая потом может использоваться в интересах различных служб. К таким задачам относятся оценка состояния окружающей среды, картографирование местности, выделение объектового состава местности (леса, озера, реки, дороги) и т.п. Отметим, что съемка Земли из космоса гораздо информативнее, чем используемая в настоящее время наземная информационная система.
Она дает возможность получать единовременную пространственную информацию с необходимым пространственно-временным разрешением и отображением поверхности Земли в спектральных диапазонах разных излучений. Это позволяет создавать различные образы земной поверхности, порой самые неожиданные для человека. Съемки Земли выполняются также и с самолета. Однако космические снимки по сравнению с аэроснимками имеют большую обзорность изображения, комплексное отображение компонентов геосферы, регулярную повторяемость, возможность получения информации для объектов, недоступных для изучения другими средствами. При съемке с высоты 250 км обзорность в 50 раз больше, чем при аэрофотосъемке, выполняемой с высоты 5 км. Один космический снимок в данном случае отображает такую же площадь, что и 10 тыс. аэроснимков. Это очень важно учитывать, когда возникает вопрос о выборе способа дистанционного зондирования и стоимости съемочных работ. Однако полученный объем информации требует значительных вычислительных затрат. В частности, по причине большого объема цифровых данных для обработки космических снимков на обычном персональном компьютере могут потребоваться сутки, в то время как обработка аэроснимков займет лишь несколько часов.
Для решения задач автоматической и автоматизированной обработки двухмерной цифровой информации в задачах дистанционного зондирования используют алгоритмы и методы компьютерного зрения. Среди способов решения задач в арсенале алгоритмов и методов машинного зрения представлены как монокулярные5 , так и бинокулярные6 подходы.
Методы монокулярного компьютерного зрения, как правило, используют для выделения на исходных или предобработанных изображениях объектов интереса, или, как их еще называют в задачах дистанционного зондирования, объектового состава. К объектовому составу относят города и населенные пункты, дороги, линии электропередач, леса, сельскохозяйственные угодья, озера, строения и т.п. Для решения этих задач обычно используются весьма сложные в математическом и вычислительном отношении методы машинного зрения. С помощью этих методов решают, в частности, задачи сегментации, или разделения изображения на зоны интереса, задачи классификации выделенных областей (например, определения того, что находится внутри выделенной области лес, поле или озеро), задачи принятия решения об объектовом составе и многие другие. Методы бинокулярного компьютерного зрения используют для восстановления трехмерного рельефа местности, измерения на восстановленной поверхности и т.п. Раздел теории компьютерного зрения, решающий данные задачи, называется цифровой стереофотограмметрией.
К основным трудностям, возникающим у разработчиков систем дистанционного зондирования и ГИС, относятся наличие на аэрокосмических изображениях облаков, теней, зданий, изломов у крыш, солнечных бликов и ряда других факторов, которые помешали бы и человеку точно распознать анализируемую сцену, если бы он не делал свои выводы на основе каких-либо косвенных факторов и не обладал бы опытом в данной области. В таких случаях на помощь человеку приходят многозональные датчики. То, что вызывает нежелательные помехи в одном диапазоне, не мешает в другом. Например, затененные участки в видимом диапазоне легко опознать в инфракрасном, получив тем самым недостающую информацию и избежав ошибки.
Основными результатами работы алгоритмов компьютерного зрения в задачах дистанционного зондирования являются, как это уже стало ясно из всего вышесказанного, трехмерные карты местности с восстановленными (методами машинного зрения) и размещенными на цифровых картах домами, дорогами, лесами, реками, озерами и т.п. Иными словами, в результате работы алгоритмов обработки и анализа изображений происходит перенос всего реального мира в область цифровых технологий.
Нетрудно догадаться, что в настоящее время ГИС это многомиллионная индустрия, в которую вовлечены сотни тысяч людей во всем мире.
ГИС изучают в школах, колледжах и университетах. Эту технологию применяют практически во всех сферах человеческой деятельности от анализа проблем перенаселения и мониторинга окружающей среды до решения частных задач, таких как выбор наилучшего маршрута, подбор оптимального расположения нового офиса, поиск дома по его адресу, прокладка трубопровода на местности, различные муниципальные задачи, задачи рекогносцировки на местности и т.п. Одной из основных целей, которая в недалеком будущем станет для нас повседневной реальностью и на которую направлены силы разработчиков, является построение глобальных трехмерных цифровых карт земной поверхности. Установив такую карту на обычный персональный компьютер, можно будет легко спланировать поездку, проложить туристический маршрут, предварительно пройдя сложные участки на компьютере или пролетев по маршруту на виртуальном летательном аппарате и совершив посадку в нужных местах. К карте будут прилагаться подсоединяемые к компьютеру стереоскопические очки с жидкокристаллическими затворами для визуализации трехмерной информации. С их помощью человек может погрузиться в виртуальный мир оцифрованной реальной местности, которая если и будет отличаться от настоящей, то только отсутствием людей, животных и звуков. Но, видимо, и это ненадолго.
С дальнейшим ростом процессов автоматизации технологий ГИС за компьютерным зрением закрепятся постоянные задачи, без которых уже сейчас не может обойтись ни одна современная справочно-измерительная система. Все дело в том, что современный мир меняется слишком быстро, карты и информация требуют постоянного уточнения, дополнения и обновления. Поэтому столь важна роль объединенных методов машинного зрения и цифровой фотограмметрии, позволяющих получить с помощью датчиков различной физической природы комплексную информацию.
Неразрушающий контроль
ля лучшего понимания того, о чем дальше пойдет речь, прежде всего необходимо уточнить, что скрывается за понятием «неразрушающий контроль». Под этим термином понимают измерительные и диагностические задачи, при которых не происходит вмешательства во внутреннюю конструкцию контролируемых узлов, механизмов, технологических процессов и пр. Конечной целью неразрушающего контроля является не только получение информации о наличии дефектов и их физических параметрах, но и формирование решения о состоянии контролируемого объекта, о возможности его нормального функционирования или прогнозирование его остаточного ресурса.
Как во многих других областях человеческой деятельности, в неразрушающем контроле компьютерное зрение оказывает влияние не только на средства неразрушающего контроля, но и на общую методологию работ в данной отрасли. Компьютер, алгоритмы машинного зрения, система датчиков или других цифровых измерителей вот те средства современной обработки информации, которыми пользуются в наши дни для неразрушающего контроля. Рассмотрим несколько характерных примеров, которые помогут понять, о чем идет речь.
Наиболее распространенной группой систем неразрушающего контроля являются системы теплового неразрушающего контроля. Как правило, эти системы включают тепловизор7 , устройство регистрации и персональный компьютер или любое другое устройство обработки и анализа информации.
Основное назначение таких систем диагностика технического состояния наружных ограждающих конструкций зданий и строительных сооружений, теплотрасс, дымовых труб, доменных печей, технологического оборудования и других тепловыделяющих объектов по анализу их температурных полей. С помощью существующих методик производят определение дефектных зон и характеристик теплозащиты, решают задачи энергосбережения (для жилищно-коммунального хозяйства, промышленных и иных предприятий).
Методы компьютерного зрения в таких системах используются в основном для измерительных и диагностических задач, например для того, чтобы измерить площадь теплового пятна, составить гистограмму температур, определить источник утечки и т.п. Откалибровав один раз на этапе разработки систему компьютерного зрения в комплексе с тепловизором определенной модели, таким аппаратно-программным комплексом можно проводить большое количество измерений без дополнительных подстроек.
Однако этим не исчерпываются все возможности систем неразрушающего контроля.
Среди других задач, решаемых этими системами, управление различными технологическими циклами и производственными процессами. При этом происходит встраивание компьютерных систем обработки и анализа изображений внутрь этих циклов таким образом, что системы машинного зрения нередко играют роль управляющей обратной связи. Характерными примерами таких циклов могут служить технологические процессы изготовления проката, труб сварным методом (когда в качестве обратной связи для прижимных роликов используется детектор угла схождения сварного шва, построенный на алгоритмах компьютерного зрения), различных изделий из металлов, пластмасс, композиционных и других материалов различной формы и габаритов и пр. Методы неразрушающего контроля используют при производстве печатных плат, процессоров и другой вычислительной техники, где человеку по разным причинам сложно или невозможно осуществлять постоянный контроль за производственным и технологическим циклом.
На базе систем неразрушающего контроля строят аэромобильные комплексы, решающие задачи диагностики газовых и нефтяных сетей, теплотрасс и других важных объектов жизнедеятельности. Принцип действия таких систем достаточно прост. Над диагностируемой трассой запускают пилотируемый или беспилотный летательный аппарат, оборудованный системой, состоящей из видеокамеры, тепловизора и системы спутниковой навигации. Летательный аппарат, перемещаясь по заданному маршруту, осуществляет запись и передачу на Землю цифровой диагностической информации в виде последовательности привязанных к карте изображений. Стационарный комплекс на Земле в режиме реального времени осуществляет сшивку изображений в ленту, а также обработку и анализ полученной цифровой информации с целью выявления мест разрывов и утечек. При этом алгоритмы машинного зрения в состоянии решать весь спектр задач от автоматического обнаружения границ трубопровода до детектирования подозрительных мест разрывов и утечек. Аналогичные системы могут использоваться и для мониторинга других объектов, например для выявления места прорыва теплотрассы. Такие места на цифровых изображениях детектируются по характерному расплывшемуся тепловому пятну в области разгерметизации трубопровода.
Безусловно, круг производственных задач, для решения которых используется компьютерное зрение, не исчерпывается описанными примерами. Сейчас можно с уверенностью сказать, что методы компьютерного зрения применяются во многих производственных циклах и процессах. При этом с помощью компьютерного зрения осуществляются функции контроля и мониторинга, которые ранее выполнялись только человеком. Дело в том, что современная аппаратура регистрации информации позволяет алгоритмам компьютерного зрения в доли секунды производить высокоточные измерения с субпиксельной8 точностью и малыми погрешностями измерений и в автоматическом режиме выдавать управляющее воздействие в систему управления производственного цикла.
Сила объединения информации
аиболее сложные и интересные приложения в области компьютерного зрения связаны с одновременной обработкой информации о наблюдаемой сцене, полученной из нескольких диапазонов волн. Разработка именно таких перспективных систем компьютерного зрения ведется в настоящее время в интересах самого широкого круга заказчиков. Действительно, недостаток информации об объекте или о цели, имеющийся в одном диапазоне длин волн, может быть дополнен информацией из другого диапазона, где этот объект не «замаскирован». Например, существует несколько типов инфракрасного излучения, которые зависят от длины волны. В частности, различают ближнее, среднее и дальнее инфракрасное излучение. Многие из непосвященных читателей вряд ли отличат изображение в обычном видеодиапазоне от полученного с помощью камеры с характеристиками, смещенными в область ближнего инфракрасного диапазона. Правда, последнее обычно выигрывает по сравнению с тем, что обеспечивает обычная видеокамера.
Поговорим немного об источниках информации о датчиках различной физической природы, о которых упоминалось в начале статьи. По принципу функционирования они подразделяются на активные и пассивные. Первые сами излучают сигнал и принимают отраженные от объекта волны. Например, радар-детектор, которым пользуются сотрудники государственной автомобильной инспекции для измерения скорости, сам излучает и принимает отраженный от автомобиля сигнал. Вторые только фиксируют излучаемые различными объектами сигналы. Характерным примером в этом случае может служить датчик инфракрасного излучения, который с легкостью детектирует тепло, излучаемое, например, двигателем внутреннего сгорания любого транспортного средства. Даже обычная видеокамера является пассивным датчиком, чувствительным к световым волнам.
К наиболее известным в настоящее время многозональным датчикам относят: телевизионный и термальный радиометры, радар миллиметровых волн, лазерный радар, микроволновый радар, акустический датчик, интерферометр, локатор с синтетическим раскрывом и т.п. Каждый датчик обладает уникальными свойствами и характеристиками и может внести свой вклад в поток информации. Как показывает практика, сочетание информации от этих датчиков позволяет обнаруживать и идентифицировать практически любые объекты, независимо от их маскировки.
Именно поэтому разработчики сложных специализированных систем компьютерного зрения используют подходы, заключающиеся в комплексировании информации от разных по природе датчиков. Не углубляясь в тонкости совместной обработки многозональных изображений, поясним основное предназначение таких систем. Примеров их использования может быть бесконечно много, но среди всех существующих можно выделить два принципиальных. Первый заключается в улучшении визуализации информации, предоставляемой оператору для принятия решения. При этом происходит построение нового синтезированного изображения, на которое сводится вся «полезная» (с точки зрения информативности каждого канала) цифровая информация от разных датчиков. Изображения от разных датчиков могут визуализироваться по-разному (например, с помощью разных цветовых спектров), но суть заключается в том, что у оператора возникает некая обобщенная картина о видимой и недоступной человеческому глазу сцене. Иными словами, каждый канал как бы дополняет имеющуюся информацию. Далее анализ этой сцены и принятие решения целиком лежат на человеке. В этих системах алгоритмы машинного зрения зачастую лишь акцентируют внимание человека на отдельных участках такой сцены.
Второй подход заключается в извлечении (с помощью алгоритмов машинного зрения) признаковой информации об объектах в разных диапазонах с последующим объединением этой информации уже на уровне признаков для более достоверного принятия решения об идентификации объекта. Здесь речь идет уже о полностью автоматических компьютерных системах обработки информации и принятия решения. С алгоритмической точки зрения задача построения таких систем является одной из самых сложных в области разработки и проектирования современных систем компьютерного зрения. Однако именно в этом направлении работают многие ученые и практики. Причина такого упорства заключается в том, что, как показали исследования, за счет объединения такой разнородной информации значительно повышается достоверность обнаружения и идентификации объектов.
Видеть в объеме
змерять навскидку расстояние до предмета, определять, что расположено ближе, а что дальше, какой предмет закрывает другой, а какой выступает вперед, определять форму предметов все это подвластно человеку, вооруженному самой совершенной на сегодняшний день системой стереозрения, состоящей из двух глаз и мощного вычислительного комплекса мозга, позволяющего на основании знаний и опыта достраивать решения многих слабо формализуемых задач. Казалось бы, способности человека в этом случае превзойти невозможно. Но если разобраться, то компьютерное зрение может с легкостью подменить человека, а порой в десятки и сотни раз быть лучше его по надежности, точности и скорости обработки и анализа информации. Область машинного зрения, предоставляющая такие возможности, называется стереозрение.
Стереоэффект был открыт еще во второй половине XIX века, когда активно развивалась технология фотографии. Первый в мире стереофотоаппарат был изготовлен в 1875 году московским фотографом Д.П.Езучевским. Тогда же появились первые устройства, позволяющие рассматривать объемное изображение, стереоскопы. С тех пор технология цифровой обработки стереоинформации шагнула далеко вперед. Но принципы стереосъемки не претерпели изменений. Наиболее известными способами являются следующие: специальным фотоаппаратом с двумя объективами, разнесенными по горизонтали; двумя аппаратами, закрепленными на специальной базе; одним аппаратом, перемещающимся по горизонтальной базе, и др. Смысл же всех этих операций получение стереопары: двух кадров одного и того же объекта, снятого под разными углами зрения. Стереопара в оцифрованном виде и служит исходным материалом для многих систем компьютерного зрения.
Для более четкого понимания существа проблемы совершим краткий экскурс в теорию. В основе стереоэффекта лежит понятие базиса зрения или расстояния между узловыми точками глаз человека. Это расстояние для разных людей колеблется в пределах от 55 до 73 мм. Величина базиса зрения определяет различие между левым и правым сетчаточными изображениями, которое является основой стереоскопического эффекта, или эффекта ощущения протяженности пространства и рельефности предметов. От базиса во многом зависит глубина зрения. Не вдаваясь в тонкости, можно сказать, что чем больше базис, тем «глубже» зрение. Однако обязательным является условие перекрытия обоими изображениями области интереса анализируемой сцены.
У человека стереоскопическое восприятие возникает при наблюдении двумя глазами объектов в реальном пространстве или же при наблюдении изображений стереопары при условии их сепарированного предъявления для каждого глаза. В процессе восприятия мозг сравнивает изображения на сетчатках левого и правого глаза, что позволяет с большой точностью оценивать относительную разницу расстояний до различных объектов. Аналогичные принципы лежат в основе алгоритмов обработки и анализа цифровых стереоизображений.
Для каких задач используются сейчас технологии стереозрения? Во-первых, это задачи картографирования, о которых упоминалось выше. Их также называют задачами дальней фотограмметрии, имея в виду расстояние стереосъемки и задачи, возложенные на обработку и анализ этих данных. В настоящее время на орбите находится несколько спутников, оборудованных специальными устройствами для стереосъемки земной поверхности. Используются самолеты, снабженные соответствующей аппаратурой для регистрации изображений. Имеется в наличии и большое количество программных комплексов (в том числе рассчитанных на персональные компьютеры), позволяющих извлекать из стереоизображений пространственную информацию, восстанавливать рельеф местности, объектовый состав и размещать восстановленную информацию на полученных трехмерных цифровых картах. Во-вторых, это задачи восстановления пространственных форм и предметов, находящихся на относительно небольшом удалении от устройства регистрации. Эти задачи также называют задачами ближней фотограмметрии. Из проблем, решаемых методами ближней фотограмметрии, следует упомянуть задачи обнаружения препятствий на дорогах, прототипирования и моделирования отдельных элементов и узлов в области автомобилестроения, проектирования зданий и помещений и т.д. Например, известно, что элементы внутренней обшивки автомобиля прототипируются из пластилина, а затем с помощью технологий стереозрения преобразуются в трехмерные цифровые модели, которые, в свою очередь, используются при построении обобщенной цифровой трехмерной модели автомобиля. В-третьих, это задачи построения высокоточных биометрических систем, основанных, например, на анализе поверхности лица. В-четвертых, это построение разного рода систем мониторинга состояния человека (например, для определения состояния водителя, авиадиспетчера и пр.), различных объектов интереса, систем безопасности и т.п.
Безусловно, спектр применения систем стереозрения не ограничивается перечисленными задачами. Использование систем стереозрения зависит лишь от фантазии разработчиков и от здравого смысла. Более того, как показывают тенденции мирового развития систем компьютерного зрения, в настоящее время все больше компаний тяготеют к разработке именно систем стереозрения. Это обусловлено в первую очередь тем, что дополнительное измерение существенно повышает общую надежность систем компьютерного зрения. Так что вполне может быть, что будущее именно за такого рода системами. Сейчас многое в разработках упирается в вычислительную мощность современной компьютерной техники.
В заключение на основании вышеприведенных соображений можно сделать вывод о перспективности таких систем и самого подхода в целом. Ведь за счет разнородной по своей природе информации можно значительно повысить надежность и информативность любой современной компьютерной системы, диагностического комплекса или комплекса мониторинга. Да что говорить о системах! Чем большей информацией обладает в определенной ситуации человек, тем более взвешенное и рациональное решение он может принять. И это аксиома!
В связи с этим в настоящее время многие разработчики техники нового поколения стремятся оснастить свои разработки универсальными системами компьютерного зрения, способными работать и днем и ночью, при любых условиях, обеспечивая высокую надежность и быстродействие в принятии решений. Например, многие автомобилестроительные гиганты стремятся оснастить свои концепткары системами компьютерного зрения, состоящими из совокупности различных по физической природе датчиков, и возложить на них широкий круг задач: эти датчики должны не только следить за дорогой, но и оценивать состояние водителя, предотвращая аварии. И это отнюдь не дань моде, а вопрос надежности и безопасности сложной современной техники. А этому сегодня уделяется особое внимание. По всей вероятности, технология компьютерного зрения в состоянии обеспечить такую безопасность.