Facebook создали алгоритм для перевода с редких языков

Facebook-AI-Research

Для изучения нового языка алгоритмы машинного перевода требуют много текстовых данных. Нужный объём сложно получить, особенно в случае с редкими языками, например урду. Facebook AI Research представили новый подход для перевода с редких языков с незнакомой грамматикой, используя обучение без учителя.

Как работает

Нейросеть Facebook учится, используя векторные представления слов и контекст. Слова представляются в виде вектора в многомерном пространстве. Алгоритм анализирует семантические свойства пар слов, и находит слова близкие по контексту. Например, «котёнок» ближе к словам «кошка» и «животное», чем к слову «ракета», потому что чаще используется рядом с ними. Наличие контекста характерно для всех языков.

word embeddings

Грамматика

Система хорошо работает для перевода словосочетаний, но с целыми текстами возникла проблема: алгоритм не учитывает грамматические свойства языка. Чтобы сделать перевод более корректным, разработчики обучили нейросеть правильной структуре предложений. Теперь на последнем этапе обработки модель сравнивает переведённые словосочетания с грамматически верными конструкциями.

Результаты

Алгоритм протестировали на переводах с французского и немецкого  на английский. Эффективность оценивалась с помощью BLEU по шкале от 0 до 100. Качество перевода улучшилось на 10 баллов в сравнении с другими методами: word-by-word, Neural MT, Phrase-Based MT. 

German-English translation

Исходный код проекта доступен на GitHub.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt