Искусственный интеллект воспроизвел движение языка человека по одной ее фотографией
Алгоритмы уже давно умеют воспроизводить модели человеческих лиц на фото, однако до сих пор игнорировали роль языка в мимике.
Теперь ученые научили искусственный интеллект воспроизвести фотографиями и язык, что поможет создать более реалистичных 3D-аватаров для виртуальной реальности или компьютерных игр. Свой способ ученые описали в статье, доступной на сервисе препринтов arXiv. Трехмерная реконструкция человеческих лиц уже давно широко пользуется достижениями искусственного интеллекта — еще с конца 90-х годов мы научились создавать их автоматически из одной или нескольких фотографий. Впрочем, несмотря на растущий уровень детализации, все эти методы не учитывают никаких статистических изменений в полости рта. Однако, реконструировать выражение лица именно с языком дает множество преимуществ. Сгенерированные аватары будут более реалистичными и смогут имитировать гораздо больше мимических особенностей, а заодно улучшится и языковая анимация и приложения для распознавания лиц, ведь искусственный интеллект научится воспринимать гораздо больше факторов.
Сложность реконструкции движения языка связана с двумя причинами: во-первых, нет общедоступного набора данных, а во-вторых, очень сложно выполнить трехмерную реконструкцию лица из «живых» изображений через высокую пластичность человеческой мимики. Язык может образовывать множество форм, а на его однородной поверхности отсутствуют удобные ориентиры или ориентиры, которые алгоритмы могут использовать для создания моделей. Поэтому в поисках решений исследователи собрали для своей работы 1800 3D-сканов 700 человек, которые посетили Музей науки в Лондоне. Добровольцев проинструктировали использовать язык в различных положениях, как-то выдвинут влево, вправо или прямо, чтобы получить ряд данных. Получив данные, ученые создали облако точек для языка, которые мог бы распознавать автокодувальник. Так он получил полезные 3D-функции из необработанных собранных данных, которые затем нанес на предварительно разработанную исследователями модель для реконструкции полноценных изображений головы, параметризуя черепно-лицевую форму и текстуру с формой ушей, а также взглядом и цветом глаз.
Далее ученые обратились к генеративной соревновательной нейросети, которая создавала новые 3D-модели с фото и 3D-сканирования лиц участников эксперимента. Соревновательный подход включает две нейронные сети: одна-создавать 3D-изображения с 2D-изображений, а другая предназначена для определения достоверности результатов. Работая таким образом друг против друга, они улучшили алгоритмы друг друга и повысили уровень реализма. Кроме того, для обучения они использовали более 15 различных положений языка и лица людей в сочетании со случайными положениями света — в результате получилось около сотни тысяч изображений.
По словам ученых, это первый алгоритм, который может точно воспроизводить человеческую мимику вместе с положением языка, который к тому же теперь умеет делать это за «живыми» изображениями, а не специально подготовленными. Также в процессе они создали первый доступный набор разнообразных данных о языки с 1800 необработанных сканированных изображений 700 человек, различающихся по полу, возрасту и этническим происхождением.,
В этой работе мы представляем, насколько нам известно, непрерывно обучаемый конвейер, который точно воспроизводит трехмерное лицо вместе с языком. Более того, мы делаем этот конвейер устойчивым на изображениях «в дикой природе», внедряя новый метод GAN, адаптированный для с создания трехмерной поверхности языка. Сообщества Люмпен утверждает, что аватары с точно воспроизведенными особенностями ротовой полости будут выглядеть более реалистично и помогут избежать «жуткой долины», когда заговорят с вами в виртуальной реальности или во время игры.
Такой алгоритм поможет работам лучше нас понимать. Например, председателю работа Ева, который сейчас уже умеет повторять эмоции и улыбаться в ответ, хотя и без языка. Или чуть ужасающим работом от Disney, которого наделили реалистичным взглядом и он теперь умеет внимательно наблюдать за собеседником, щуриться и поворачивать голову.
Перевод материала nauka.ua