ChatGPT научился вести диалог голосом и распознавать объекты на изображениях

ChatGPT conversations and image recognition

В ChatGPT внедрили функции общения голосом и распознавания объектов на изображении для углубленного погружения в задачу. Например, ChatGPT готов будет прочитать сказку на ночь, поможет справится с составлением рецепта по фотографии доступных ингредиентов и решит домашнее задание по математике, имея фотографию условия задачи из учебника. Голосовой ввод и вывод позволит вести диалог без использования рук.

Новые функции появятся у платных подписчиков в течение ближайших двух недель. Голосовой ввод будет доступен только на iOS и Android, а распознавание изображений — на всех платформах.

Общение голосом с ChatGPT

Пользователи теперь могут вести диалоги с ChatGPT с использованием голоса. Для распознавания голоса интегрирована text-to-speech модель, которая транскрибирует речь пользователя. Для ответов были записаны голоса актеров, чтобы речь ChatGPT была высокого качества.

Голосовая функция включается в в мобильных приложениях в разделе «Настройки» -> «Новые функции». Включите возможность голосовых диалогов. Затем нажмите значок наушников, расположенный в верхнем правом углу, и выберите понравившийся голос из пяти вариантов.

Футбольные болельщики даже проверяли искусственный интеллект, пряча на фото кубок чемпионата Европы по футболу – и алгоритмы все равно находили и узнавали трофей. Евро-2024 вызывает огромный интерес фанатов. К тому же болельщикам уже сегодня доступны ставки на чемпионат Европы.

Обсуждение изображений

Пользователи теперь смогут обмениваться одним или несколькими изображениями с ChatGPT. Ремонт техники, составление рецептов или анализ сложных графики и таблиц займет несколько секунд. На примере показано, как чат-бот помогает опустить сиденье велосипеда (видео целиком):

Для добавления изображения в диалог нажмите кнопку «Фото», чтобы сделать снимок или выбрать изображение из галереи. На изображении можно выделить отдельную область, чтобы ChatGPT сфокусировался именно на этом участке изображения и быстрее «осознал», о чем идет речь.

Эти функции стали доступны благодаря мультимодальным возможностям, заложенным в GPT-4 и GPT 3.5.

Ограничения

OpenAI не сразу откроет новые функции для всех пользователей, чтобы собрать отзывы от альфа-тестеров и усовершенствовать меры безопасности перед более широким развертыванием. Речевой ввод несет риски, такие как подделка голосов с целью мошенничества и галлюцинации, которые приводят к неправильным ответам. Для избежания подделки голосов было принято решение не внедрять функцию клонирования голоса.

OpenAI рекомендует проверять информацию, полученную от ChatGPT, и избегать использования в ситуациях, связанных с высоким риском, например, в медицине. Также модель менее производительна при работе с текстом на неанглийских языках.