ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач
13 апреля 2026
ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач
ClawBench — бенчмарк, который проверяет, могут ли ИИ-агенты выполнять настоящие повседневные задачи в интернете: забронировать рейс, откликнуться на вакансию, оформить заказ. Результаты показали, что даже сильнейшая модель — Claude Sonnet…



















