Робот научился синхронизировать движения губ с речью и пением
Инженеры Колумбийского университета разработали робота, способного синхронно двигать губами во время речи и пения, обучаясь этому навыку путем наблюдения за людьми. Об этом сообщает Kazinform со ссылкой на новостной ресурс университета.
Во время живого общения человек значительную часть внимания уделяет движению губ собеседника. Несмотря на прогресс в робототехнике, воспроизведение естественной артикуляции долгое время оставалось слабым местом: даже самые совершенные гуманоидные роботы, как правило, ограничиваются примитивным открыванием и закрыванием рта либо вовсе лишены подвижного лица.
Мимика, особенно движения губ, играет ключевую роль в восприятии собеседника. Люди готовы мириться с неуклюжими движениями робота, но остро реагируют на неестественные выражения лица. Этот феномен известен как «эффект зловещей долины». Неподвижные или неправдоподобные губы часто делают роботов безжизненными и вызывающими дискомфорт.
Команда Колумбийского университета заявила о создании робота, который научился артикулировать слова на разных языках и исполнять песни, вошедшие в альбом Hello world, сгенерированный искусственным интеллектом. Результаты исследования опубликованы в журнале Science Robotics.
В отличие от традиционного подхода, навык был сформирован не за счет заранее заданных алгоритмов, а через обучение. Сначала робот освоил управление 26 приводами лица, наблюдая за собственным отражением в зеркале. Затем он анализировал часы видеозаписей с говорящими и поющими людьми на YouTube, постепенно перенимая особенности человеческой артикуляции.
Как пояснил профессор машиностроения и руководитель лаборатории Creative Machines Lab Ход Липсон, чем больше робот взаимодействует с людьми и наблюдает за ними, тем точнее становятся его движения.
Создание реалистичной артикуляции представляет сложную инженерную задачу. Она требует как физически гибкого лица с большим числом синхронно работающих приводов, так и способности учитывать сложную зависимость движений губ от последовательности звуков и фонем. В отличие от человека, чье лицо управляется десятками мышц под мягкой кожей, лица роботов обычно жесткие и ограничены в подвижности, что делает движения неестественными.
Для решения этой проблемы исследователи разработали гибкую лицевую конструкцию и позволили роботу самостоятельно освоить управление ею. На первом этапе он экспериментировал с тысячами случайных выражений лица, изучая связь между активностью приводов и визуальным результатом. Затем искусственный интеллект сопоставил эти данные с наблюдениями за человеческой речью и пением, что позволило напрямую преобразовывать звук в движения губ.
Испытания показали, что робот способен синхронизировать артикуляцию с речью на разных языках и с музыкальными произведениями, не имея представления о смысле аудиоматериала. При этом разработчики признают, что результат пока неидеален: наибольшие трудности вызывают взрывные согласные и звуки, требующие вытягивания губ. Эти ограничения, по их словам, будут постепенно преодолены по мере обучения.
Исследователи подчеркивают, что синхронизация губ — лишь часть более широкой задачи. В сочетании с разговорными ИИ-системами она формирует принципиально новый уровень взаимодействия робота с человеком. По словам руководителя исследования Юханга Ху, по мере накопления наблюдений робот все точнее воспроизводит тонкие мимические сигналы, с которыми люди эмоционально соотносят общение.
Ученые называют мимику недостающим элементом современной робототехники. До сих пор основное внимание уделялось ходьбе, манипуляции предметами и координации движений, тогда как выражение лица критически важно для всех сценариев взаимодействия с человеком.
По прогнозам исследователей, по мере распространения гуманоидных роботов в образовании, медицине, сфере услуг и уходе за пожилыми людьми значение живой и выразительной мимики будет только расти. Экономисты предполагают, что в ближайшие десять лет в мире может быть произведено более миллиарда человекоподобных роботов.
Разработчики также обращают внимание на риски. Усиление коммуникативных способностей машин требует осторожного подхода, чтобы преимущества технологии не обернулись социальными и этическими проблемами. Вместе с тем они считают, что робототехника приблизилась к преодолению «зловещей долины» и созданию по-настоящему естественного взаимодействия между человеком и машиной.