OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и особенно эффективны в таких областях, как наука и программирование. Подписчики Plus и Team уже могут получить доступ к моделям o1 в ChatGPT. Функции просмотра, загрузки файлов и изображений будут доступны в ближайшее время. Разработчики с доступом уровня 5 могут уже исследовать API.

Основные особенности моделей o1

Модели o1 делают упор на логическое мышление, а не только на генерацию текста. OpenAI рекомендует избегать CoT (цепочки решений) в промптах, модель и так будет следовать этому методу, показывая цепочку принятия решений.

В то время как GPT-модели демонстрировали высокие результаты в текстовых задачах, модель o1-preview предназначена для решения задач, с которыми сталкиваются аспиранты в области физики и биологии. Она показала способность решать 83% задач на отборочном этапе Международной математической олимпиады (IMO), значительно превзойдя GPT-4o, которая решила лишь 13% задач. Этот сдвиг делает o1 мощным инструментом для отраслей, требующих решения сложных задач. В твиттере начали публиковать, как новая модель «щелкает» задачки на логику, с которыми плохо справлялись SOTA модели:

AGI ACHIEVED 🚀 #openai #o1 pic.twitter.com/b1fNiYsqgy

— Mateusz Tylec (@mateusztylec) September 12, 2024

Кроме того, o1-preview отлично справляется с программированием, входя в 89-й перцентиль на конкурсах Codeforces, что демонстрирует её способности к выполнении многоступенчатых рабочих процессов, отладке и генерации кода.

o1-mini: Эффективность и экономия

Модель o1-mini — это более упрощенная версия o1-preview, разработанная для быстрого и дешевого выполнения логических задач. Несмотря на меньшую мощность, она предлагает на 80% более низкую стоимость по сравнению с o1-preview, что делает её особенно подходящей для разработчиков и исследователей, сосредоточенных на задачах, таких как программирование и математика. Она показала впечатляющие результаты на IMO math benchmark, набрав 70%, немного уступив 74% у o1-preview, при этом оставаясь значительно более экономичной.

Доступность

Обе модели теперь доступны для пользователей ChatGPT Plus, при этом o1-preview ограничена 30 сообщениями в неделю, а o1-mini — 50 сообщениями в неделю. OpenAI постепенно расширяет доступ для пользователей Enterprise, Team и Edu и планирует открыть доступ к o1-mini для пользователей бесплатного уровня ChatGPT в будущем.

Безопасность и выравнивание

Одним из ключевых аспектов моделей o1 является безопасность. Модель o1-preview набрала 84 балла в одном из самых сложных тестов на обход ограничений, по сравнению с результатом в 22 балла у GPT-4o, что свидетельствует о её улучшенной способности работать с небезопасными запросами и предотвращать создание нежелательного контента. OpenAI также сотрудничает с Институтами безопасности ИИ США и Великобритании для дальнейшего тестирования и улучшения безопасности своих систем.

Заключение

Запуск моделей o1 представляет собой значительный шаг вперёд в развитии возможностей ИИ, выходя за рамки GPT-моделей, делая акцент на логике и многошаговых рабочих процессах. Интеграция o1-preview и o1-mini в экосистему OpenAI предлагает более специализированные решения для разработчиков, исследователей и отраслей, где решающим фактором являются точность и решение сложных задач.