AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

17 марта 2020

AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

Исследователи из AllenAI опубликовали на Kaggle датасет с 29 тысячами открытых научных статей о COVID-19. Для COVID-19 Open Research Dataset доступны 10 соревнований в области обработки естественного языка.  Описание датасета…

Jiant: библиотека для задач обработки естественного языка от NYU

15 марта 2020

Jiant: библиотека для задач обработки естественного языка от NYU

Jiant — это библиотека на Python для решения задач из области обработки естественного языка. Разработкой библиотеки занимаются исследователи из NYU. Jiant включает в себя модели для multitask и transfer обучения.…

Turing-NLG: в Microsoft обучили языковую модель с 17 миллиардами параметров

12 февраля 2020

Turing-NLG: в Microsoft обучили языковую модель с 17 миллиардами параметров

Turing Natural Language Generation (T-NLG) — это языковая модель с 17 миллиардами параметров, которую обучили исследователи из Microsoft. На данный момент это самая крупная языковая модель из существующих. T-NLG обходит…

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

8 февраля 2020

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

CCMatrix — это самый крупный датасет параллельных текстов для обучения моделей машинного перевода. Данные включают в себя 4.5 миллиарда параллельных предложений на 576 пар языков. Предложения собирали из открытого датасета…

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

4 февраля 2020

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

BREAK — это датасет для решения задачи понимания сути вопроса нейросетью. Он предназначен для того, чтобы модели вычленяли из комплексных вопросов сущности, которые помогут при генерации ответов. Датасет состоит из…

STAPLE: соревнование по машинному переводу от Duolingo

21 декабря 2019

STAPLE: соревнование по машинному переводу от Duolingo

Duolingo анонсировали соревнование по машинному переводу STAPLE. На текущий момент большинство систем по машинному переводу выдают один перевод входной последовательности. В Duolingo пользователь обучается языку с помощью упражнений по переводу.…

MLQA: датасет для мультиязычной вопросно-ответной системы

14 ноября 2019

MLQA: датасет для мультиязычной вопросно-ответной системы

MLQA — это датасет для оценки моделей на задаче генерации экстрактивных ответов на вопросы (QA). Датасет был собран для того, чтобы способствовать улучшению и расширению задачи генерации ответов на большее…

AllenNLP Interpret: фреймворка для интерпретации NLP-моделей

29 сентября 2019

AllenNLP Interpret: фреймворка для интерпретации NLP-моделей

Исследователи из AllenNLP опубликовали фреймворк для интерпретации моделей для обработки естественного языка. Interpret в интерактивном режиме выделяет смещения в модели; ищет правила, по которым модель выдает предсказания; диагностирует ошибки модели.…

HuggingFace опубликовали библиотеку с трансформерами для TF

29 сентября 2019

HuggingFace опубликовали библиотеку с трансформерами для TF

Transformers 2.0 — это библиотека со всеми state-of-the-art моделями для предобработки естественного языка на TensorFlow. Использование библиотеки позволяет сократить количество строк кода для обучения модели до 3-х. Разработчиками библиотеки являются…

CodeSearchNet: соревнование по поиску в коде от GitHub

26 сентября 2019

CodeSearchNet: соревнование по поиску в коде от GitHub

GitHub опубликовали данные с 6 миллионами функций на Go, Java, JavaScript, PHP, Python и Ruby. Данные включают документацию и метахарактеристики, помимо файлов с кодом. На этих данных компания запустила соревнования…

Как обучить NLP модель отвечать на вопросы без разметки

24 сентября 2019

Как обучить NLP модель отвечать на вопросы без разметки

Исследователи обучили и сравнили state-of-the-art модели для генерации ответов на вопросы. Ключевое отличие моделей — отсутствие необходимости в размеченных данных. Исследователи генерируют вопросы для обучения моделей с помощью нейросети. Разметка…

ParaQG: нейросеть генерирует вопросы к тексту

7 сентября 2019

ParaQG: нейросеть генерирует вопросы к тексту

ParaQG — это нейросетевая модель, которая генерирует вопросы на основе содержания текста. У ParaQG есть демо-версия интерактивного сервиса для генерации вопросов из абзаца текста. ParaQG использует трюки для фильтрации вопросов,…

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

14 августа 2019

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

Вышли обновления для библиотеки PyTorch и дополнительных библиотек для обработки текста, аудио и изображений. В PyTorch добавился модуль с трансформером, в torchaudio — новые способы трансформации и стандартизации аудиоданных, в…

Модель от FAIR для представления слов устойчива к опечаткам

12 августа 2019

Модель от FAIR для представления слов устойчива к опечаткам

Facebook AI Research опубликовали новую модель для обучения представлений слов, — MOE. Misspelling Oblivious Embeddings (MOE) комбинирует в себе модель fastText и задачу по подбору наиболее близкого слова к слову…

Как сократить размер BERT без значительной потери в точности

12 августа 2019

Как сократить размер BERT без значительной потери в точности

BERT — это одна из state-of-the-art моделей в обработке естественного языка. Несмотря на качество модели, обучение BERT является ресурсоемким как по памяти, так и по скорости обучения. Исследователи из RASA…

Нейросеть учится отвечать на открытые вопросы

28 июля 2019

Нейросеть учится отвечать на открытые вопросы

Facebook AI представили новую задачу по обработке естественного языка — ответы на открытые вопросы. Исследователи выложили в открытый доступ данные, код и результаты базовых моделей. Чтобы поспособствовать развитию умных ассистентов…

ВКонтакте опубликовали библиотеку для предобработки текстовых данных

21 июля 2019

ВКонтакте опубликовали библиотеку для предобработки текстовых данных

YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями…

CoS-E: датасет для обучения нейросетей здравому смыслу

13 июля 2019

CoS-E: датасет для обучения нейросетей здравому смыслу

CoS-E — датасет, который состоит из описания обыденных случаев и объяснений к ним. Датасет собирали исследователи из Salesforce. Данные доступны по ссылке. Примеры из датасета. Единица данных состоит из вопроса,…

XLNet: новый state-of-the-art в задачах обработки естественного языка

28 июня 2019

XLNet: новый state-of-the-art в задачах обработки естественного языка

XLNet — это предобученная модель, которую можно адаптировать под любую поставленную задачу обработки текста. XLNet обходит BERT, — state-of-the-art модель, — на 20 задачах обработки естественного языка. Для 18 XLNet…

Разработанный в Disney алгоритм создаёт анимации из сценария

15 апреля 2019
scripts to animation

Разработанный в Disney алгоритм создаёт анимации из сценария

Перевод текста в анимацию сложная задача и существующие модели преобразования текста в анимацию могут работать только с простыми задачами. Исследователи из компании Disney разработали алгоритм, который позволяет преобразовывать текст в анимацию.…

Издательство Springer Nature представило первую сгенерированную книгу

15 апреля 2019
ai generated book

Издательство Springer Nature представило первую сгенерированную книгу

Академическое издательство Springer Nature представило первую книгу, созданную с помощью алгоритмов NLP. Название книги — «Литий-ионные батареи: машинно-сгенерированное краткое изложение текущих исследований». Как и указано в названии, она не является полноценной книгой…