fbpx
  • MiniHack: бенчмарк FAIR для алгоритмов обучения с подкреплением

    В FAIR разработали MiniHack — open-source фреймворк для оценки алгоритмов обучения с подкреплением. С помощью MiniHack можно изучить такие характеристики агентов, как изучение, память и присвоение кредитов.

    Обучение с подкреплением (RL) — ценный инструмент для последовательного принятия решений, используемый в широком спектре задач, включающем робототехнику, персонализацию контента и анализ МРТ-снимков. Точность моделей RL, как правило, определяется с помощью бенчмарков. Однако существующие бенчмарки (такие как
    Arcade Learning Environment и MuJoCo) подвержены насыщению по мере того, как исследователи разрабатывают алгоритмы, которые оптимально справляются с задачами.

    Новые бенчмарки, такие как ProcGen, Minecraft и NetHack), не предназначены для оценки конкретных возможностей агентов RL, таких как изучение, память и присвоение кредитов. Чтобы восполнить этот пробел, в FAIR разработали MiniHack — фреймворк для создания окружения и сопутствующий набор задач, основанный на NetHack. С помощью этого инструмента исследователи могут легко создавать задачи, нацеленные на решение конкретных задач RL.

    Окружение NetHack Learning Environment, используемое в MiniHack, включает более 500 персонажей и 450 предметов, включая оружие, волшебные палочки, инструменты и книги заклинаний, все из которых обладают уникальными характеристиками и сложной динамикой окружающей среды. Такая структура позволяет исследователям RL выполнять сложные задачи по приобретению навыков и решению задач.

    Для описания окружения пользователи могут использовать Python и выбирать, какие виды наблюдений получает агент, например, на основе пикселей, символов или текста, и какие действия он может выполнять.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии