Эффективная модель обучения роботов
Многодоменные операции, будущая операционная концепция армии, требуют автономных агентов с обучающими компонентами для работы вместе с истребителем.
Обучающие компоненты позволят автономным агентам рассуждать и адаптироваться к меняющимся условиям поля боя, сказал армейский исследователь доктор Алек Коппел из команды развития боевых возможностей армии США, армейская исследовательская лаборатория.
Основной механизм адаптации и перепланирования состоит из политик, основанных на обучении с подкреплением. По его словам, обеспечение эффективного доступа к этим политикам имеет решающее значение для воплощения концепции работы MDO.
Согласно Коппелю, методы градиента политики в обучении с подкреплением являются основой масштабируемых алгоритмов для непрерывных пространств, но существующие методы не могут включать в себя более широкие цели принятия решений, такие как чувствительность к риску, ограничения безопасности, исследования и отклонения от предыдущих.
Разработка автономных моделей поведения, когда взаимосвязь между динамикой и целями является сложной, может быть решена с помощью обучения с подкреплением.
Коппел и его исследовательская группа разработали новые схемы. Они отметили, что полученные в результате схемы поиска политики снижают накопление вознаграждения, обеспечивают эффективное исследование неизвестных областей и механизм для включения предыдущего опыта.