Лёгким движением руки…

Материал подготовила Юлия Смирнова.

Не вставая с дивана, включить телевизор кнопкой на пульте — четверть века назад это казалось верхом комфорта. По мере наполнения наших домов бытовой техникой с дистанционным управлением стало ясно, что пульты теряются почти так же часто, как очки, что в них садятся батарейки и что иной раз вместо устройства, регулирующего громкость, под руку попадается нечто похожее, но запускающее кондиционер. А нельзя ли управлять техникой, ни к чему не прикасаясь, не используя никаких кнопок и тумблеров, просто взмахнув рукой?

Наука и жизнь // Иллюстрации
Азбука жестов для управления телевизором или презентацией.
«Умные очки» пока что выглядят громоздко, но зато позволяют не только дополнять реальность, но и управлять информацией с помощью жестов.

Компьютеры уже умеют делать многое из того, что относится к сфере человеческих функций и навыков: распознавать текст и изображения, воспринимать звук и произносить вполне осмысленные фразы, слушаться голосовых команд и реагировать на прикосновение пальцев. Научить компьютер понимать язык телодвижений оказалось более сложной задачей. Сегодня распознавание жестов (а в более общем виде — распознавание формы и направления движения любых объектов) — приоритетная тема в области информационных технологий и интеллектуальных систем.

Ещё несколько лет назад появились технологии, которые позволяют следить за движением руки. На сегодняшний момент они реализованы в первую очередь в индустрии развлечений. Пример — игровые контроллеры PlayStation Move от Sony и Wii Remote от Nintendo. Человек держит в руке контроллер — похожее на пульт устройство, оснащённое светодиодами и акселерометрами, а камера и датчики отслеживают его перемещение в пространстве и передают движения игрока персонажу на экране монитора. Эта и подобные технологии позволили осуществить много интересных игровых проектов, но всё же они требуют дополнительного устройства, которое нужно удерживать в руках.

Другая популярная технология распознавания жестов — Kinect от компании Microsoft. Она основана на определении расстояния до объекта с помощью источников инфракрасного излучения и сенсоров, которые регистрируют отражённый свет.

Специалисты по интеллектуальным системам из Санкт-Петербурга предложили своё решение для распознавания жестов — ViTechnology. Вместо радарного метода вычисления расстояния до объектов здесь используется параллакс — явление, благодаря которому мы видим мир объёмным, а не плоским.

О том, как работает система распознавания жестов, кому и зачем такие технологии нужны, рассказывает генеральный директор компании «Системы компьютерного зрения» Владимир Уфнаровский.

— Разработкой системы распознавания жестов я начал заниматься в 1994 году, когда пришёл студентом на кафедру системного программирования СПбГУ. Теоретической основой технологии стала работа немецкого исследователя Йенса Шика «Одновременная оценка формы и движения с помощью монокулярного зрения».

Вначале возможностью распознавания движущихся объектов в режиме реального времени заинтересовались представители автомобильной промышленности, в частности компании Mercedes-Benz, для разработки алгоритмов ночного зрения и создания активной системы безопасности автомобилей. Сейчас есть уже готовые приложения и их устанавливают на некоторых моделях машин. Система безопасности способна заметить, что на дорогу неожиданно выбежал человек, и моментально остановить автомобиль. Но если перед машиной появится животное, детская коляска или человек в инвалидном кресле, система может и не сработать. Потому что бортовой компьютер действует, опираясь на набор заданных шаблонов, — примерно так, как работает фотоаппарат в режиме распознавания улыбки.

Необходимость развития системы активной безопасности послужила толчком к разработке технологии безмодельного распознавания. Такое распознавание осуществимо, если использовать стереоскопическое зрение, то есть максимально приблизиться к тому, как видит и, главное, как определяет расстояние до точки человеческий глаз. Получив с двух камер изображение движущегося объекта и использовав заданный алгоритм, компьютер рассчитывает, на каком расстоянии от автомобиля находится объект, каковы его скорость и траектория движения. В считаные мгновения происходит оценка ситуации, и в случае возникновения опасности столкновения машина остановится. Методы распознавания движений могут быть востребованы не только в автомобильной промышленности.

— А как научить компьютер распознавать жесты?

— Сначала надо определить, что такое жест. Им может быть любое движение человеческого тела. Одна из первых задач, которую нам пришлось решать, — увидеть и распознать жест в объёме некоего контролируемого пространства. Следующим этапом стало «отсеивание» жестов, не относящихся к управлению. И третья задача — определить разновидность жеста и превратить его в команду.

Две камеры фиксируют движение, и система получает информацию о пространственном параллаксе, то есть о разнице между углами, под которыми две камеры видят один и тот же объект (как правый и левый глаз человека).

Алгоритмы, входящие в состав ViTechnology, анализируя изображение, выбирают ряд признаков, которые могут быть использованы для идентификации определённой точки. Точки, окрестности которых обладают достаточной уникальностью в изображении, то есть окружающей зоной с текстурой, отличающейся от окружающих текстур, получают идентификатор. Для каждого конкретного кадра подбираются признаки, которые дают наибольшее количество информации, но при этом остаются устойчивыми к естественным различиям яркости и контрастности.

У стереозрения есть существенное ограничение: оно работает только в одной, чётко заданной зоне. И так как мы имеем точную информацию о расстоянии до всех объектов, то можем так же чётко ограничить рабочее пространство. Компьютер понимает, в каком ракурсе он должен видеть руки пользователя, и другие, случайные, жесты не воспринимает. ViTechnology может работать не только в помещении, но и на улице: ни яркий свет, ни дождь не создают помех.

Сегодня эта технология требует наличия компьютера для обработки данных, но мы усиленно работаем над созданием маленького электронного чипа, который можно будет установить, например, в мобильный телефон, очки, а также встроить в бытовую технику. Самый простой пример — управление телевизором без дополнительных устройств. Например, используя пульт, мы направляем его на телевизор. Этот вполне типичный жест может быть основой жеста активации: телевизор начинает «понимать», что сейчас им будут управлять — переключать каналы, устанавливать уровень громкости и так далее.

— Желающему приобщиться к высоким технологиям, наверное, придётся покупать какой-то специальный телеприёмник?

— Нет, все современные модели оснащены ИК-портом, который принимает сигналы от пульта. Небольшое устройство позволит перенастроить прибор так, что через тот же самый порт телевизор начнёт понимать жесты.

Подобная технология может быть использована в интерактивных витринах, демонстрирующих те или иные товары. Она позволит витрине среагировать на проходящего мимо человека, попробовать распознать его пол и возраст и показать именно то, что, по мнению маркетологов, интересно представителю той или иной группы людей. Если человек проявляет интерес к товару, то так же, при помощи жестов, не прикасаясь к экрану, он сможет получить дополнительную информацию и, в перспективе, даже купить интересующую его вещь.

— Устройства наподобие «умных очков» или датчика включения телевизора без пульта сегодня воспринимаются, скорее, как игрушки. Есть ли какие-то области, где подобные технологии могут оказаться незаменимыми?

— Пока что технологии «умного дома» и подобные им разработки не относятся к вещам первой необходимости. Но многое зависит от менталитета. Например, в Японии, на Тайване, в Южной Корее они становятся всё доступнее и популярнее, на них есть спрос. Уже не редкость, когда японцы в ванных устанавливают телевизоры, чтобы ни на минуту не выпадать из информационного пространства. Пользоваться в ванной пультом непрактично, да и сенсорные экраны не вполне удобны. А вот бесконтактное управление телевизором с помощью жестов — именно то, что надо. Кроме того, мы разработали систему управления самой ванной — бесконтактную регулировку уровня воды, температуры.

— А вы сами готовы использовать свои разработки в быту?

— Нет, я консерватор. Мне кажется, что самая удобная из всех разработок — интерактивная витрина. Я не люблю ходить по магазинам, а такое устройство сводит к минимуму общение с продавцами и время на то, чтобы обойти огромный торговый центр.

— Какие разработки на основе распознавания жестов сейчас наиболее востребованы и сколько это стоит?

— Чаще речь идёт о дорогостоящих имиджевых проектах — вроде интерактивных комнат для совещаний. Представьте, что во время презентации вам не нужны лазерная указка и кнопка для перелистывания слайдов, всё делается только руками.

— А чем вы планируете заниматься в дальнейшем, какие идеи ждут своего часа?

— Мы разрабатываем систему представления информации, в которой распознавание жестов сочетается с популярной техникой mind maps (интеллект-карт). Мы уже предложили эту разработку Министерству образования. Ещё одна тема, которая лично мне кажется перспективной, — помощь слепым и слабовидящим людям. Сейчас уже есть технологии, позволяющие имитировать шрифт Брайля на сенсорном экране. Если соединить их с устройствами безмодельного распознавания объектов, то человек сможет получать информацию о том, что находится перед ним, с помощью текста или голоса. Фактически такая система способна избавить слепого от тросточки, с помощью которой он определяет, есть ли впереди препятствие. Она сможет также передавать пользователю информацию о надписях — вывесках, указателях, чтобы ему было легче ориентироваться. Конечно, пока это ещё только идея, и если мы дойдём до её реализации, то будем привлекать в качестве экспертов людей со слабым зрением, чтобы понять, насколько им удобно пользоваться таким устройством.

— Будет ли это устройство доступно для людей с ограниченными возможностями?

— Думаю, со временем оно будет стоить не дороже мобильного телефона. Кроме того, есть страны, например Швеция, которые готовы реализовывать подобные проекты за государственный счёт.

В 2011 году компания «Системы компьютерного зрения» стала резидентом «Сколково». Разработчики уверены, что устройства, которые позволяют с помощью жестов управлять компьютером, станут более востребованными с выходом новой операционной системы Windows-8. В общественных местах, где люди пользуются сенсорными информационными панелями — в аэропортах, магазинах, — бесконтактное управление может быть полезным. Ведь не все любят прикасаться к предметам, которые до этого трогал кто-то ещё. А тут всё гигиенично и безопасно. Есть спрос и на разработку системы управления жестами в салоне автомобиля: например, окно можно будет открывать не кнопкой, а взмахом руки.

***

Цитата

Михаил Цыганков, главный управляющий инвестиционным портфелем ОАО «РВК».

На протяжении последних лет мы наблюдаем устойчивый интерес к разработке естественного интерфейса взаимодействия человек—компьютер. Уже достигли достаточной зрелости системы распознавания голоса и жестов, они реализованы в игровых приставках от Microsoft и Nintendo, что открывает новый уровень в области игровых развлечений. Среди инвестиционных проектов в данную сферу стоит отметить биометрические проекты по распознаванию голоса и лиц на видео, отпечатков пальцев. Такие проекты, как правило, находят первое применение в области безопасности, затем распространяются в более привычные обычным пользователям сферы. Например, в портфеле фондов Российской венчурной компании есть проект системы удостоверения личности на основе голосовой биометрии в противоугонных и охранных системах и проект по разработке и внедрению биометрической идентификации.

***

«Умные очки» — находка для шпиона?

Когда в 1984 году на экраны вышел фильм «Терминатор», кадры, где прямо перед электронным глазом киборга появлялась дополнительная информация о том, чтó за объект перед ним, поражали воображение зрителя. Мало кому приходило в голову, что пройдёт совсем немного времени и подобные технологии перестанут быть фантастикой. Сейчас целый ряд компаний занимается разработками очков с функцией дополненной реальности (см. «Наука и жизнь» № 3, 2012 г. — Ред.). Компания «Системы компьютерного зрения» продемонстрировала свои «умные очки» на международной выставке «Комплексная безопасность» в мае 2012 года в Москве. Очки представляют собой прикреплённую к оправе комбинацию двух видеокамер и проектора, формирующего изображение непосредственно на сетчатке глаза.

Надев такие очки, человек увидит примерно в полуметре перед собой виртуальный экран, которым можно управлять при помощи жестов, примерно так, как мы управляем сенсорным экраном смартфона или планшетного компьютера. Видеокамеры, встроенные в очки, «видят» то же самое, что и человек. Подсказки о распознанных объектах оперативно появляются в поле зрения. Разработчики считают, что стадия, когда от мобильных устройств требовалась миниатюрность, уже пройдена. Сейчас есть потребности, с одной стороны, в компактном устройстве, а с другой — в большом экране. «Умные очки» могут решить эту проблему.

Кроме того, подобные устройства обеспечивают конфиденциальность — сторонние наблюдатели не подсмотрят, заглядывая через плечо, чтó именно видит на экране человек. Правда, непонятные пассы руками в воздухе могут привлечь излишнее внимание. Да и рабочий вариант устройства пока что довольно сильно отличается от обычных очков: две довольно крупные камеры делают человека похожим на хирурга в бинокулярных очках. В перспективе их заменят маленькие веб-камеры вроде тех, что встраиваются в ноутбуки, то есть выглядеть они будут, как две крохотные точки на оправе очков. Вот только проектор, который передаёт изображение на сетчатку, пока трудно спрятать.

 

Читайте в любое время

Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее

Товар добавлен в корзину

Оформить заказ

или продолжить покупки