Мобильное приложение ChatGPT научилось понимать голосовые команды и анализировать изображения

26.09.2023

Компания OpenAI добавляет еще больше функций в своего чат-бота ChatGPT. Сегодня (25 сентября) компания объявила, что начала внедрять новые голосовые функции в своих мобильных приложениях, а также способы загрузки изображений, которые можно проанализировать с помощью ChatGPT.

В своём блоге OpenAI объявила, что пользователи ChatGPT скоро смогут общаться с чат-ботом. Как только эта функция станет доступна в приложениях iOS и Android, пользователи смогут перейти в меню «Настройки», а затем нажать на пункт «Новые функции».

Затем они могут нажать, чтобы принять участие в голосовых разговорах приложения. Наконец, они могут нажать на значок наушников и выбрать один из пяти вариантов голоса.

OpenAI заявила: «Новые голосовые возможности основаны на новой модели преобразования текста в речь, способной генерировать человеческий звук из текста и нескольких секунд образца речи. Для создания каждого голоса мы сотрудничали с профессиональными актёрами озвучивания. Мы также используем Whisper, нашу систему распознавания речи с открытым исходным кодом, для расшифровки произнесенных вами слов в текст».

Мобильные приложения ChatGPT скоро смогут использовать кнопку фото, чтобы сделать снимок или выбрать уже созданный. Затем ChatGPT может проверить фотографию и выполнить ряд различных задач, таких как анализ рабочего графика, устранение неполадок, когда устройство не работает, и многое другое.

OpenAI отметила: «Понимание изображений обеспечивается мультимодальными GPT-3.5 и GPT-4. Эти модели применяют свои навыки языкового мышления к широкому спектру изображений, таких как фотографии, снимки экрана и документы, содержащие как текст, так и изображения».

Новые функции будут реализованы в течение следующих нескольких недель и сначала будут доступны пользователям ChatGPT Plus и Enterprise. В ближайшем будущем они станут доступны разработчикам и другим пользователям ChatGPT.

Источник