Сгенерированное нейросетью Nvidia лицо соединило мимику с голосом
Разработчики Nvidia представили нейросеть, которая способна анимировать мимику 3D-модели лица по записанной речью.
Открытая платформа Audio2Face заставляет лицо аватара меняться в соответствии со звукового, причем в реальном времени и нескольких языках. Audio2Face упрощает анимацию трехмерного персонажа и может заставить заговорить даже цифрового носорога, объясняют в блоге компании. Трехмерная реконструкция лица нейросетями еще с момента появления в конце 90-х годов захватила внимание разработчиков и почти сразу получила практическое применение — реалистичные игровые аватары и анимация в кино, распознавания лиц и даже исследовательские работы, например, по мимике человека. Впрочем, создания реалистичного лица является лишь одним из этапов и разработчики каждый раз повышают уровень их детализации — эмоции, движения, взгляд.
Анимация сгенерированного лицо согласно с текстом, который он должен проговаривать, является одной из широко исследованных сфер, которая, впрочем, сложно поддается масштабу. Это связано с отсутствием доступных наборов 3D-данных, моделей и стандартных оценок для мимики, хотя большинство движений лица вызваны непосредственно речью. Например, рекуррентной нейронной сети понадобилось 1,9 миллиона кадров с еженедельных обращений Обамы, чтобы создать фотореалистичные анимации текстуры рта по тексту.
Перевод материала nauka.ua