Arthur Bench: фреймворк для оценки языковых моделей

Американский стартап Arthur опубликовал в открытом доступе фреймворк Bench для оценки и сравнения производительности больших языковых моделей. Инструмент позволит пользователям выбрать языковую модель, наиболее подходящую для решения конкретной задачи, укажет эффективный способ составления запросов к ней и подберет оптимальный режим обучения.

Arthur Bench предоставляет метрики для сравнения моделей по точности ответов, легкости их чтения, хеджированию и другим критериям. Хеджирование является особенно актуальной проблемой при использовании языковых моделей в приложениях: модели включают в ответ предложения, указывающие на существующие ограничения их использования («как языковая модель, я не могу…»), что обычно нежелательно.

Bench упрощает ручной анализ моделей. Например, можно взять 100 релевантных конкретной задаче запросов, а инструмент сам сравнит ответы разных моделей между собой и выделит те ответы, которые сильно отличались друг от друга.

Поскольку фреймворк имеет открытый исходный код, пользователи могут добавлять собственные метрики в соответствии со своими потребностями. Bench уже используется в нескольких банках для обобщения результатов инвестиционного анализа. Arthur также объявил о хакатоне с Amazon Web Services и Cohere, чтобы мотивировать разработчиков создавать новые метрики для Bench.