Как выдавать предсказания с BERT-Large за 5.8 миллисекунд

NVIDIA обновили инструмент для ускорения инференса модели TensorRT 6. В новой версии TensorRT оптимизировали BERT-Large. BERT-Large — это полная версия модели BERT, state-of-the-art модели в обработке естественного языка. Теперь есть возможность сократить время выдачи предсказаний модели до 5.8 миллисекунд с использованием 4 TPU. Предыдущий рекорд был 10 миллисекунд.

Под инференсом понимается процесс выдачи предсказания обученной ML-моделью. В новом релизе TensorRT расширился список оптимизированных слоев. Помимо этого, появились возможности для приложений с разговорным AI. Скорость выдачи предсказаний обученной моделью влияет на пользовательский опыт тех, кто использует приложения с встроенными нейросетями. Это, в свою очередь, влияет на ограничения практического применения глубокого обучения. TensorRT оптимизирует инференс и время работы модели. Инструмент позволяет ускорить приложения для разговорного AI, распознавания речи, 3D сегментации изображений и корпоративные приложения с нейросетями.

Для BERT-Base инференс с помощью TensorRT 6 работает за 2 миллисекунды. BERT-Base при этом использует 110 миллионов параметров, а BERT-Large — 340 миллионов. TensorRT можно использовать для кейсов с неустойчивыми вычислительными нуждами, потому что инструмент поддерживает динамическое изменение размеров батча. Использование TensorRT в 5 раз ускоряет сегментацию изображений по сравнению с CPU.