Четверг, 25 октября 2018 23:30

Искусственный интеллект изучает акробатику путем просмотра YouTube Избранное

Оцените материал
(0 голосов)

Будь то повседневные задачи, такие как мытье рук или потрясающие акробатические трюки, люди могут научиться невероятному множеству навыков, наблюдая за другими людьми. С распространением общедоступных видеоданных из таких источников, как YouTube, это стало легче, чем когда-либо, находить видеоролики о любых навыках, которые нам интересны.

Виртуальные персонажи, имитирующие навыки из видео YouTube.

Виртуальные персонажи, имитирующие навыки из видео YouTube.

Каждую минуту на YouTube загружается ошеломляющее 300 часов видео. К сожалению, для наших машин по-прежнему очень сложно изучать навыки из этого огромного объема визуальных данных. Большинство подходов к “подражанию” требуют кратких представлений, таких как записи, записанные с захвата движения (mocap). Но получение данных mocap может быть довольно сложным, часто требующим тяжелой аппаратуры. Системы Mocap также, как правило, ограничены пространством внутри помещений, которые могут ограничить типы навыков, которые могут быть записаны. Так было бы неплохо, если бы машины могли также учиться навыкам, просматривая видеоролики?

В этой работе мы представляем рамки для обучения навыкам из видео (SFV). Комбинируя самые современные технологии в обучении компьютерному зрению и усиленному обучению, наша система позволяет виртуальным персонажам изучать разнообразные навыков из видеороликов. Учитывая одно монокулярное видео актера, выполняющего некоторые действия, такие как колесико или бэкфлип, наши персонажи могут изучать навыки, которые воспроизводят это умение в физическое моделировании, без каких-либо ручных исправлений позиций моделей.

Проблема изучения навыков полной симуляции движения персонажа из видео получила внимание в компьютерной графике. Предыдущие методы часто опираются на созданные вручную структуры управления, которые налагают сильные ограничения на поведение, которое может быть произведено. Поэтому эти методы, как правило, ограничены в типах навыков, которые могут быть изучены, и полученные движения могут выглядеть довольно неестественно. Совсем недавно методы глубокого обучения продемонстрировали многообещающие результаты для визуальной имитации таких областей, как Atari и довольно простые задачи робототехники. Но эти задачи часто имеют лишь скромные шаги между демонстрациями и средой персонажа, а результаты непрерывного контроля в основном касаются задач с относительно простой динамикой.

 

ФРЕЙМВОРК.

Наш Фреймворк структурирован как трубопровод, состоящий из трех этапов: оценка позы, реконструкция движения и имитация движения. Входное видео сначала обрабатывается стадией оценки позы, которая предсказывает позы актера в каждом кадре. Далее, этап реконструкции движения консолидирует Позу предсказания в ссылке движение и исправляет артефакты, которые могут быть введены при помощи предсказаний позы. Наконец, ссылка движение передается на стадию имитации движения, в которых персонаж обучается имитировать движение.

Трубопровод состоит из трех этапов: оценка позы, реконструкция движения и имитация движения. Он получает в качестве входных данных видеоролик актера, выполняющего конкретный навык и модель имитируемого символа, и изучает политику управления, которая позволяет персонажу воспроизводить навыки в физическом моделировании.

Трубопровод состоит из трех этапов: оценка позы, реконструкция движения и имитация движения. Он получает в качестве входных данных видеоролик с актером, выполняющего конкретный навык и модель имитируемого символа, и изучает варианты управления, которая позволяет персонажу воспроизводить навыки в физическом моделировании.

ОЦЕНКА ПОЗЫ.

Учитывая видеоролик, мы используем оценочную позу, основанную на видении, для предсказания позы актера q ^ t > в каждом кадре. Оценщик позы основывается на работе по восстановлению человеческой сетки, которая использует слабо контролируемый состязательный подход для обучения оценщика позы для прогнозирования позы из монокулярных изображений. Хотя лписание для позы необходимы для обучения оценщика позы, после обучения оценщик позы может быть применен к новым изображениям без каких-либо аннотаций.

pose est backflip

pose est handspring

 Оценку позы на основе зрения используют для прогнозирования позы актера в каждом видеокадре.

 

РЕКОНСТРУКЦИЯ ДВИЖЕНИЯ

Поскольку оценщик позы предсказывает позу актера независимо для каждого видеокадра, предсказания между кадрами могут быть непоследовательными, что приводит к искаженным артефактам. Кроме того, хотя в последние годы значительно улучшились оценки позы, основанные на оценке зрения, они все же могут иногда совершать некоторые довольно большие ошибки, что может привести к появлению странных поз, возникающих время от времени. Эти артефакты могут создавать движения, которому физически невозможно подражать. Таким образом, роль этапа реконструкции движения, состоит в том, чтобы смягчить эти артефакты, чтобы произвести более физически правдоподобное ссылочное движение, которое будет проще для имитации подражателя. Чтобы сделать это, мы оптимизируем новые эталонные движения Q ^ = { q ^ 0 , q ^ 1 , , q ^ t } , чтобы удовлетворить следующую цель:

  min Q ^ w p l p ( Q ^ ) + w s m l s m ( Q ^ )


где l p ( Q ^ ) стимулирует ссылочное движения быть похожи на оригинальные предсказания позы, и l s m ( Q ^ ) рекомендует позы в соседних кадрах, чтобы быть похожими, чтобы производить более плавное движение. Кроме того, wp и wsm представляют собой веса для различных потерь.

Эта процедура может существенно улучшить качество опорного движения, и может исправить множество артефактов из оригинальных предсказаний позы.

Сравнение эталонных движений до и после восстановления движения. Реконструкция Движений снижает многие артефакты и создает более плавное движение.

Сравнение эталонных движений до и после восстановления движения. Реконструкция Движений снижает многие артефакты и создает более плавное движение.

 

ИМИТАЦИЯ ДВИЖЕНИЯ

После того как мы получим ссылочное движение { q ^ 0 , q ^ 1 , , q ^ T } , мы можем приступить к обучению персонажа имитировать движения. На стадии имитации движения используется аналогичный подход RL к тому, который мы ранее предлагали для имитации данных mocap. Принцип функции просто поощрять направление, чтобы свести к минимуму разницу между позой моделируемого персонажа и позы реконструированного опорного движения q ^ t в каждом кадре t

r t = exp ( 2 q ^ t q t 2 ) .

Опять же, этот простой подход, работает на удивление хорошо, и наши персонажи могут изучать разнообразный репертуар сложных акробатических навыков, где каждый навык изучается с помощью одной демонстрации видео.

humanoid cartwheel

humanoid frontflip

humanoid kipup

humanoid spin

 Виртуальный пресонаж учитьсявыполнять разнообразные навыки, подрожая видеоклипам.

РЕЗУЛЬТАТ

В целом, наши персонажи могут выучить более 20 различных навыков из различных видеороликов, собранных с YouTube.

mosiac

Несмотря на то, что морфология наших персонажей часто отличается от актеров в видеороликах, технология способна тщательно воспроизводить многие навыки. В качестве примера более экстремальных морфологических различий мы также можем обучить симулированного робота Atlas, чтобы имитировать движение на видеороликах.

atlas backflip

atlas handpspring

atlas dance

atlas vault

Персонаж гуманоид учится выполнять разнообразные навыки, имитируя видеоклипы.

Одним из преимуществ симулированного персонажа является то, что мы можем использовать симуляцию для обобщения поведения в новых условиях. Здесь мы моделируем персонажей, которые учатся адаптировать движения к разнообразной местности, где на оригинальных видеоклипах движения актеров записаны на равнине.

backflip slopes

cartwheel gaps

Движения могут быть адаптированы к разнообразными условиям.

Несмотря на то, что условия отличается от исходных видео, алгоритм обучения по-прежнему разрабатывает довольно правдоподобные варианты для обработки этих новых условий.

В целом, наш framework в действительности просто используют самый очевидный подход, который каждый может придумать при решении проблемы имитации видео. Основа заключается в разложении проблемы на более управляемые компоненты, выборе правильных методов для этих компонентов и эффективной интеграции их. Однако имитация навыков из видео по-прежнему является чрезвычайно сложной проблемой, и есть много видеоклипов, которые мы еще не можем обработать:

gangnam

Проворные танцевальные движения, такие как этот клип Gangnam style, по-прежнему трудно воспроизвезти.

Но радует видеть, то что, объединив существующие методы, мы уже можем довольно далеко продвинуться по этой сложной проблеме. У нас все еще впереди наша работа, и мы надеемся, что эта работа поможет воодушевить будущие методы, которые позволят людям использовать огромный объем общедоступных видеоданных, чтобы приобрести действительно ошеломляющий набор навыков.

Чтобы узнать больше, ознакомьтесь с нашей статьей и веб-страницей проекта.

Мы хотели бы поблагодарить соавторов этой работы, без которой все это было бы невозможно: Angjoo Kanazawa, Jitendra Malik, Pieter Abbeel и Sergey Levine. Это исследование финансировалось NSERC, UC Berkeley, BAIR и AWS.

Источник

Author

Bender

Я поделюсь с тобой всеми знаниями, которые доступны мне.

Комментарии (0)

There are no comments posted here yet

Оставьте свой комментарий

  1. Posting comment as a guest. Sign up or login to your account.
Вложения (0 / 3)
Share Your Location

О нас

Основой деятельностью портала является показ и объяснение что представляет собой выражени "Робот", "Робототехника", "Законы робототехники", "Мехатроника", "Искусственный интеллект(ИИ)". 

 Если у Вас есть интересная информация по тематике сайта и Вы готовы ей поделиться, - обращайтесь на емайл через форму обратной связи. И мы опубликуем Вашу статью

Мы используем файлы cookie для улучшения нашего веб-сайта. Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookie. More details…