Во время живого общения человек значительную часть внимания уделяет движению губ собеседника. Несмотря на прогресс в робототехнике, воспроизведение естественной артикуляции долгое время оставалось слабым местом: даже самые совершенные гуманоидные роботы, как правило, ограничиваются примитивным открыванием и закрыванием рта либо вовсе лишены подвижного лица.

Мимика, особенно движения губ, играет ключевую роль в восприятии собеседника. Люди готовы мириться с неуклюжими движениями робота, но остро реагируют на неестественные выражения лица. Этот феномен известен как «эффект зловещей долины». Неподвижные или неправдоподобные губы часто делают роботов безжизненными и вызывающими дискомфорт.

Команда Колумбийского университета заявила о создании робота, который научился артикулировать слова на разных языках и исполнять песни, вошедшие в альбом Hello world, сгенерированный искусственным интеллектом. Результаты исследования опубликованы в журнале Science Robotics.

В отличие от традиционного подхода, навык был сформирован не за счет заранее заданных алгоритмов, а через обучение. Сначала робот освоил управление 26 приводами лица, наблюдая за собственным отражением в зеркале. Затем он анализировал часы видеозаписей с говорящими и поющими людьми на YouTube, постепенно перенимая особенности человеческой артикуляции.

Как пояснил профессор машиностроения и руководитель лаборатории Creative Machines Lab Ход Липсон, чем больше робот взаимодействует с людьми и наблюдает за ними, тем точнее становятся его движения.

Создание реалистичной артикуляции представляет сложную инженерную задачу. Она требует как физически гибкого лица с большим числом синхронно работающих приводов, так и способности учитывать сложную зависимость движений губ от последовательности звуков и фонем. В отличие от человека, чье лицо управляется десятками мышц под мягкой кожей, лица роботов обычно жесткие и ограничены в подвижности, что делает движения неестественными.

Для решения этой проблемы исследователи разработали гибкую лицевую конструкцию и позволили роботу самостоятельно освоить управление ею. На первом этапе он экспериментировал с тысячами случайных выражений лица, изучая связь между активностью приводов и визуальным результатом. Затем искусственный интеллект сопоставил эти данные с наблюдениями за человеческой речью и пением, что позволило напрямую преобразовывать звук в движения губ.

Испытания показали, что робот способен синхронизировать артикуляцию с речью на разных языках и с музыкальными произведениями, не имея представления о смысле аудиоматериала. При этом разработчики признают, что результат пока неидеален: наибольшие трудности вызывают взрывные согласные и звуки, требующие вытягивания губ. Эти ограничения, по их словам, будут постепенно преодолены по мере обучения.

Исследователи подчеркивают, что синхронизация губ — лишь часть более широкой задачи. В сочетании с разговорными ИИ-системами она формирует принципиально новый уровень взаимодействия робота с человеком. По словам руководителя исследования Юханга Ху, по мере накопления наблюдений робот все точнее воспроизводит тонкие мимические сигналы, с которыми люди эмоционально соотносят общение.

Ученые называют мимику недостающим элементом современной робототехники. До сих пор основное внимание уделялось ходьбе, манипуляции предметами и координации движений, тогда как выражение лица критически важно для всех сценариев взаимодействия с человеком.

По прогнозам исследователей, по мере распространения гуманоидных роботов в образовании, медицине, сфере услуг и уходе за пожилыми людьми значение живой и выразительной мимики будет только расти. Экономисты предполагают, что в ближайшие десять лет в мире может быть произведено более миллиарда человекоподобных роботов.

Разработчики также обращают внимание на риски. Усиление коммуникативных способностей машин требует осторожного подхода, чтобы преимущества технологии не обернулись социальными и этическими проблемами. Вместе с тем они считают, что робототехника приблизилась к преодолению «зловещей долины» и созданию по-настоящему естественного взаимодействия между человеком и машиной.