DeepMind / Нейросети и глубокое обучение

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…

Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач

25 июля 2025

Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач

Большие языковые модели хорошо справляются с математическими бенчмарками вроде AIME, однако задачи Международной математической олимпиады (IMO) требуют глубокого понимания, креативности и формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro…

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

31 октября 2024

synthID deepmind text generator watermark

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+.…

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

27 августа 2024

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…

Google Veo: модель генерации и редактирования видео

19 мая 2024

Google Veo: модель генерации и редактирования видео

Google DeepMind представила генеративную модель Veo, создающую видео длительностью более 60 секунд в разрешении Full HD. Помимо текстовых запросов, модель может принимать на вход изображения и видеоролики. Ключевой особенностью VEO…

Google Gecko: бенчмарк для text-to-image моделей

6 мая 2024

Google Gecko: бенчмарк для text-to-image моделей

Google DeepMind разработала Gecko – бенчмарк, обеспечивающий более точное и надежное тестирование и сравнение text-to-image моделей, чем существующие подходы. Исследование Google DeepMind выявило скрытые ограничения в том, как в настоящее…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

3 декабря 2023

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

DeepMind разработала графовую нейросеть GNoME, прогнозирующую стабильность материалов. GNoME обнаружила 2,2 миллиона новых материалов, 380 тысяч из которых являются стабильными и могут быть применены для разработки компьютерных чипов, аккумуляторов и…

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

13 июля 2023

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…

Deepmind представила универсальную модель Gato

28 мая 2022

Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

Flamingo: мультимодальная модель DeepMind

9 мая 2022

Flamingo: мультимодальная модель DeepMind

Flamingo – мультимодальная модель DeepMind, генерирующая текстовое описание фото, видео и звуков. Модель превосходит предыдущие state-of-the-art модели в 16 задачах, а ее особенностью является возможность обучаться на нескольких примерах. Обычно…

Обучение с подкреплением для контроля термоядерных реакций

17 февраля 2022

Обучение с подкреплением для контроля термоядерных реакций

DeepMind объявила о применении обучения с подкреплением для управления состоянием плазмы в ходе термоядерной реакции. Алгоритм DeepMind позволил повысить стабильность процесса управляемого термоядерного синтеза на токамаке. Ядерный синтез — многообещающий…

AlphaCode: модель генерации кода по описанию DeepMind

3 февраля 2022

AlphaCode: модель генерации кода по описанию DeepMind

DeepMind представила систему генерации кода AlphaCode с 41 миллиардом параметров. AlphaCode превосходит OpenAI Codex и генерирует код на 12 языках. Согласно исследованию Кембриджского университета, более половины рабочего времени разработчиков тратится…

DeepBrain показала аватары для коммуникации с клиентами

8 января 2022

DeepBrain показала аватары для коммуникации с клиентами

На выставке CES 2022 компания DeepBrain представила фотореалистичных аватаров, которые предлагается использовать компаниям для коммуникации с клиентами. Аватары сгенерированы на основе нескольких сотен часов видео реальных людей. Аватары DeepBrain способны…

RETRO: языковая модель DeepMind

10 декабря 2021

RETRO: языковая модель DeepMind

DeepMind представила языковую модель RETRO, в которой реализована схема обучения, основанная на использовании внешней памяти. RETRO демонстрирует сравнимые с GPT-3 результаты несмотря на то, что она имеет в 25 раз…

Модель распознаёт действия на видеозаписи без учителя

11 мая 2020

Модель распознаёт действия на видеозаписи без учителя

Исследователи из DeepMind обучили генеративную модель, которая сегментирует действия на видеозаписи. Модель обучается распознавать действия без реальной разметки действий на видеозаписи. Несмотря на свою простоту, алгоритм выдает сравнимые с state-of-the-art…

RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

1 апреля 2020

RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды…

Как обучить трансформер на одном языке и перенести его на другой

1 ноября 2019

Как обучить трансформер на одном языке и перенести его на другой

Исследователи из DeepMind проверили, как предобученный на данных одного языка трансформер переносится на другой язык. Исследователи публикуют новый датасет с кросс-языковыми парами вопросов и ответов (XQuAD). Датасет состоит из 240…

Мультиагентная RL-система получила титул Грандмастера в StarCraft II

1 ноября 2019

Мультиагентная RL-система получила титул Грандмастера в StarCraft II

Модель AlphaStar от DeepMind обучилась играть в StarCraft II на уровне Грандмастера. В общем рейтинге модель обошла 99.8% активных игроков. Уровень Грандмастера был достигнут для всех трех типов игроков: Protoss,…

Нейросеть от DeepMind восстанавливает текст на древнегреческом

22 октября 2019

Нейросеть от DeepMind восстанавливает текст на древнегреческом

PYTHIA — это нейросетевая модель от DeepMind для восстановления текстовых данных. Разработчики протестировали модель на задаче восстановления текстов на древнегреческом. По результатам, модель совершила на 27.2% меньше ошибок, чем профессиональные…

Как генерировать правдоподобную речь с помощью нейросетей

1 октября 2019

Как генерировать правдоподобную речь с помощью нейросетей

GAN-TTS — это генеративная модель для задачи преобразования текста в речь. Архитектура модели состоит из условного feed-forward генератора и ансамбля дискриминаторов. Дискриминаторы оценивают сгенерированную аудиозапись на случайных окнах разного размера.…