• Вы находитесь тут:
  • Sci314
  • Новости
  • Эффективная модель обучения роботов

Эффективная модель обучения роботов

Многодоменные операции, будущая операционная концепция армии, требуют автономных агентов с обучающими компонентами для работы вместе с истребителем.

Обучающие компоненты позволят автономным агентам рассуждать и адаптироваться к меняющимся условиям поля боя, сказал армейский исследователь доктор Алек Коппел из команды развития боевых возможностей армии США, армейская исследовательская лаборатория.

Основной механизм адаптации и перепланирования состоит из политик, основанных на обучении с подкреплением. По его словам, обеспечение эффективного доступа к этим политикам имеет решающее значение для воплощения концепции работы MDO.

Согласно Коппелю, методы градиента политики в обучении с подкреплением являются основой масштабируемых алгоритмов для непрерывных пространств, но существующие методы не могут включать в себя более широкие цели принятия решений, такие как чувствительность к риску, ограничения безопасности, исследования и отклонения от предыдущих.

Разработка автономных моделей поведения, когда взаимосвязь между динамикой и целями является сложной, может быть решена с помощью обучения с подкреплением.

Коппел и его исследовательская группа разработали новые схемы. Они отметили, что полученные в результате схемы поиска политики снижают накопление вознаграждения, обеспечивают эффективное исследование неизвестных областей и механизм для включения предыдущего опыта.

  • Вы находитесь тут:
  • Sci314
  • Новости
  • Эффективная модель обучения роботов
  • Вы находитесь тут:
  • Sci314
  • Новости
  • Эффективная модель обучения роботов