Эффективная модель обучения роботов

Милош Восковец
30.12.2020, 06:01 751

Многодоменные операции, будущая операционная концепция армии, требуют автономных агентов с обучающими компонентами для работы вместе с истребителем.

Обучающие компоненты позволят автономным агентам рассуждать и адаптироваться к меняющимся условиям поля боя, сказал армейский исследователь доктор Алек Коппел из команды развития боевых возможностей армии США, армейская исследовательская лаборатория.

Основной механизм адаптации и перепланирования состоит из политик, основанных на обучении с подкреплением. По его словам, обеспечение эффективного доступа к этим политикам имеет решающее значение для воплощения концепции работы MDO.

Согласно Коппелю, методы градиента политики в обучении с подкреплением являются основой масштабируемых алгоритмов для непрерывных пространств, но существующие методы не могут включать в себя более широкие цели принятия решений, такие как чувствительность к риску, ограничения безопасности, исследования и отклонения от предыдущих.

Разработка автономных моделей поведения, когда взаимосвязь между динамикой и целями является сложной, может быть решена с помощью обучения с подкреплением.

Коппел и его исследовательская группа разработали новые схемы. Они отметили, что полученные в результате схемы поиска политики снижают накопление вознаграждения, обеспечивают эффективное исследование неизвестных областей и механизм для включения предыдущего опыта.

Наука 314: присоединяйтесь в Telegram!

Робот обучение операция поведение алгоритмы