0 0

Специализированные компьютеры уже сегодня могут составить представление об окружающей их обстановке. Сколько еще времени пройдет до того дня, когда машины научатся видеть и познавать мир, как человек?

z1

Видеть надо уметь. Повзрослев, эту способность мы воспринимаем как нечто столь же естественное, как и дыхание. Но ведь дети учатся видеть и истолковывать окружающий мир так же хорошо, как и взрослые, до шестого года жизни. Первые два года уходят на постоянные попытки научиться фокусировать взгляд на предмете. Кроме того, дети учатся получать пространственную картину окружающего мира. Правый и левый глаз видят изображение по-разному — этот же принцип использует кинематограф с 3D-очками. На основе двух изображений мозг учится получать информацию о глубине сцены и пространственное впечатление об окружающей среде: той среде, в которой мы способны четко видеть только те объекты, на которые обращаем свой взор. И только по истечении шести лет тренировка глаз и мозга завершается.

Самый распространенный метод измерения расстояния до объекта — это триангуляция: дистанция до объекта определяется величиной угла, образующегося лучами, отражающимися от объекта к датчикам.

Самый распространенный метод измерения расстояния до объекта — это триангуляция: дистанция до объекта определяется величиной угла, образующегося лучами, отражающимися от объекта к датчикам.

Компьютеры тоже учатся видеть уже в течение многих лет. В 1957 году была запущена первая искусственная нейронная сеть, которая была способна к восприятию, — эта компьютерная модель работы мозга была названа «перцептрон». Перцептрон стал одной из первых моделей нейросетей, а «Марк-1» — первым в мире нейрокомпьютером. Несмотря на свою простоту, перцептрон был способен обучаться и даже распознавал некоторые буквы английского алфавита. А сегодня мы уже используем, например, функцию распознавания лиц на фотографиях. Правда, это всего лишь программа, упрямо выполняющая заложенные команды. Когда-нибудь на смену ей в наши компьютеры придет нейронная сеть, которая будет подобно ребенку учиться на собственных ошибках и постоянно совершенствоваться, меняя свой код. Чем больше нейронная сеть будет собирать изображений, тем лучше научится распознавать сюжеты, которые мы предпочитаем. Она станет эдаким экспертом по изображениям, дающим полезные советы, наводящим порядок и знающим, на что следует обратить внимание. Для воплощения такого комплексного сценария в жизнь нейронные сети надо еще обучать и обучать. Но в течение последних нескольких лет в этой сфере были достигнуты значительные успехи.

В планшет Dell Venue 8 7000 встроена камера первого поколения Intel RealSense R100. Работая по принципу триангуляции, она может рассчитать размер или расстояние между предметами.

В планшет Dell Venue 8 7000 встроена камера первого поколения Intel RealSense R100. Работая по принципу триангуляции, она может рассчитать размер или расстояние между предметами.

В наши дни мы оснащаем компьютеры датчиками, определяющими их положение и движение в пространстве, — неким эквивалентом детского восприятия трехмерности. Пример — камера Kinect от Microsoft, выпущенная несколько лет назад для консоли Xbox и обозначившая новый тренд. Технология Kinect позволяет управлять игрой с помощью жестов, Google разрабатывает проект Tango, а Intel — новую камеру RealSense. При помощи последних можно будет создавать трехмерные модели окружающей среды на мобильных устройствах.
Планшет Dell Venue 8 7000 при помощи камеры RealSense получает представление об окружающей обстановке, в которой находится. Камеры первого поколения R100 к каждой фотографии, снятой на планшет, дополнительно сохраняют информацию о пространстве — для этого они снабжены тремя отдельно расположенными фотомодулями. Основная камера, находящаяся посередине, отвечает собственно за фотографию. В изображениях с камер, расположенных слева и справа, алгоритм ищет идентичные точки, на основании которых выполняется анализ глубины изображения, опирающийся на принцип триангуляции (см. блок справа). На расстоянии от одного метра алгоритм срабатывает действительно точно, однако дальше пяти метров точность существенно снижается. По желанию владельца планшет Dell на снимке в фотогалерее может измерить расстояние между двумя объектами или определить размеры указанной области. Архитекторы-любители и люди, делающие ремонт в квартире, теперь сумеют обойтись без рулетки. Достаточно будет один раз сфотографировать помещение.

Пространство как сеть из точек измерения

И это только начало. Точность устройств следующего поколения RealSense 200 будет еще выше: они смогут получать информацию о пространстве при помощи лазеров, которые будут образовывать сеть из контрольных точек, излучая инфракрасный свет. Два ИК-датчика получают эти данные, алгоритм связывает точки в области и рассчитывает глубинную модель окружающей среды, которую можно использовать в дополнение к фотографии. Например, программа накладывает на лицо сеть из 78 точек, чтобы определить его положение, форму и даже общее настроение — гнев, радость или печаль. Исходя из изменений цвета кожи лица, она может измерить пульс. Мобильные уст­ройства в будущем будут распознавать состояние владельца или его собеседника, а благодаря нейронным сетям со временем их возможности смогут развиваться.

Камера Intel RealSense R200 для планшетов и смартфонов использует инфракрасные лазеры и датчики, которые передают на процессор информацию об окружающем пространстве. Программа использует эти данные для представления глубины изображения.

Камера Intel RealSense R200 для планшетов и смартфонов использует инфракрасные лазеры и датчики, которые передают на процессор информацию об окружающем пространстве. Программа использует эти данные для представления глубины изображения.

Но пока что мы не дошли до этого. Как и камеры Kinect, инфракрасные камеры RealSense поддерживают невысокое разрешение: 320×240 или 360×480 точек. Система записывает видео и затем анализирует движения и жесты. При 60 кадрах/с система производит до 18 миллионов операций в секунду по вычислению глубины. Intel рекомендует передвигать устройство с камерой RealSense очень медленно, а объекту съемки вообще желательно находиться в неподвижном состоянии. Исходя из данных рекомендаций, можно сделать вывод, что аппаратная часть мобильных устройств пространственной ориентации, которая необходима, например, для беспилотного вождения, пока что находится на начальных этапах развития.
Еще одна проблема: решение RealSense необходимо уменьшить до такой степени, чтобы можно было встраивать его в смартфоны. Это способен сделать проект Google Tango, который должен появиться в бытовых устройствах к концу года. Пока что в рамках проекта выпущен только один смарфтон, оснащенный датчиками, аналогичными RealSense или Kinect. Если пройтись по квартире с таким гаджетом в руках, Tango записывает маршрут и параллельно измеряет окружающее пространство. Если по тому же маршруту вернуться обратно, Tango сверяет время и распознает знакомый путь.

В Microsoft нашли способ облегчить распознавание жестов камерами гаджетов: LED-лампы вокруг объектива излучают в инфракрасном спектре. Отражение излучения принимает камера и анализирует программа.

В Microsoft нашли способ облегчить распознавание жестов камерами гаджетов: LED-лампы вокруг объектива излучают в инфракрасном спектре. Отражение излучения принимает камера и анализирует программа.

К чему же все это? К тому, что через несколько лет, например, беспилотные автомобили, управляемые бортовым компьютером, начнут самостоятельно ездить по дорогам общего пользования. Для того чтобы ориентироваться в постоянно меняющейся окружающей среде, им требуется комплексная аппаратура. Расчет дистанции на расстояниях примерно до 30 м может выполнить стереокамера. Камеры также способны распознавать полосы движения и светофоры. Но угол охвата у них небольшой — всего 50–60°. Полное панорамное изображение в 360° беспилотные автомобили получают при помощи лидара (от англ. Light identification detection and ranging — «световое обнаружение и определение дальности») — устройства, излучающего лазерные импульсы и измеряющего время их отклика, то есть время, за которое отраженные от цели импульсы возвращаются на приемник. На расстоянии в пару сотен метров надежность такой системы достаточно высокая.

В беспилотных автомобилях стереокамера определяет расстояние до препятствий в радиусе 30 м. На основании этих данных измерительная система Texas Instruments рассчитывает точную дистанцию.

В беспилотных автомобилях стереокамера определяет расстояние до препятствий в радиусе 30 м. На основании этих данных измерительная система Texas Instruments рассчитывает точную дистанцию.


Однако для беспилотного вождения и этого недостаточно. Бортовой компьютер должен сверять данные с подробной трехмерной картой окружающей среды и для расчета курса получать дополнительную информацию о расположении пешеходных дорожек и дорожных знаках. Кроме того, ему придется опознавать людей, велосипедистов и животных, рассчитывать, в какую сторону они движутся. Именно эти задачи и высчитывают нейронные сети.

Саморазвитие нейронных сетей

Нейронные сети ищут ответы на вопросы почти что философского свойства. Например, «Когда лошадь на самом деле можно считать лошадью?». Разработчики подкидывают сетям уйму изображений с лошадьми, по которым они учатся распознавать отдельные характерные признаки этого животного: гриву, хвост, нос, ноги или копыта. После интенсивного обучения сетей они в принципе могут распознать «лошадь», представляющую потенциальную опасность для дорожного движения, так же хорошо, как и мы.

При помощи лидара автомобиль получает информацию об окружающей обстановке в 360-градусной панораме: технология измеряет время возвращения отраженного лазерного импульса.

При помощи лидара автомобиль получает информацию об окружающей обстановке в 360-градусной панораме: технология измеряет время возвращения отраженного лазерного импульса.

Самым большим прорывом в распознавании объектов стало исследование сверточных нейронных сетей (Convolutional neural networks, CNN). Математическая операция, называемая «сверткой», накладывает фильтр вокруг квадрата из пикселей. Сверточный фильтр сличает пиксели в середине квадрата с пикселями по краям и следит за схожестью окружения.
Сверточный фильтр знаком почти каждому. В редакторах изображений, таких как Gimp, он используется для увеличения резкости или размытия фотографий. Сверточные нейронные сети повторяют эту операцию много раз, с каждым разом все больше отдаляясь от исходного изображения и с каждым процессом фильтрации переходя на новый уровень абстракции. Пиксели превращаются в линии, дуги, края и другие признаки, из них составляются глаза, нос, ноги. Цель фильтров — как можно четче выделить эти признаки. Сверточная нейронная сеть применяет сотни и тысячи параллельных фильтров, определяя, какой из них больше подходит для какого-либо типа объекта. Под конец фильтрации нейронная сеть работает со все более крупными структурами, и в заключительной фазе она делает вывод: это действительно лошадь.

Для распознавания объекта (лошадь) сеть, графически представленная ниже, запускает десять параллельных процессов, состоящих из множества повторяющихся этапов. Она движется от деталей до все более крупных структур до тех пор, пока не идентифицирует объект.

Для распознавания объекта (лошадь) сеть, графически представленная ниже, запускает десять параллельных процессов, состоящих из множества повторяющихся этапов. Она движется от деталей до все более крупных структур до тех пор, пока не идентифицирует объект.

Ведущие специалисты по сверточным нейронным сетям работают в Стэнфорде и других университетах. Но их часто переманивают крупные компании-поставщики услуг вроде Google, Facebook или Microsoft, которым при помощи этих сетей нужно каталогизировать гигантские коллекции изображений. Так, в феврале этого года исследователи Стэнфордского университета и Yahoo Labs объявили о совершении прорыва в распознавании лиц: их сверточная нейронная сеть идентифицировала лица с любого угла, даже тогда, когда они были частично прикрыты. Для этого им пришлось создать базу данных из 200 000 изображений с лицами и сверх того — 20 миллионов фотографий без изображения людей для проверки на соответствие. В процессе обучения было пройдено более 50 000 итераций для 128 изображений. А Facebook выступила с заявлением, что ее технология Deep­Face в 97,25% из всех случаев верно распознает лицо человека. Это всего на несколько процентов ниже средних че­ловеческих способностей.

Команда исследователей из различных американских университетов выявила, что даже хорошо обученные нейронные сети то и дело допускают досадные, непонятные человеческому сознанию ошибки.

Команда исследователей из различных американских университетов выявила, что даже хорошо обученные нейронные сети то и дело допускают досадные, непонятные человеческому сознанию ошибки.

 

 

Дополнительно