OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出-科技今日热点

今日凌晨，OpenAI宣布推出GPT-4o。该模型是GPT-4型号的更新版本，将向免费客户开放。

据介绍，GPT-4o（“o”代表“omni”）。它可以实现文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。

它可以在232毫秒内响应音频输入，平均为320毫秒，这与对话中人类的响应时间相似。它在英语文本和代码上，与GPT-4Turbo性能相匹配，在非英语语言的文本上也有显着改进，同时在API中也更快且便宜50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前，使用语音模式与ChatGPT交谈，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。

借助GPT-4o，OpenAI在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。

按照传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。

基于GPT-4o的能力，新的ChatGPT不仅可以实现实时交互，还能检测人的情绪，支持多模态输出。

在现场，OpenAI的工程师展示新模型的能力时说：“我第一次来直播的发布会，有点紧张。”

ChatGPT说：“要不你深呼吸一下。”

OpenAI工程师深呼吸后，ChatGPT立即说：“你这不行，喘得也太大了。”

视觉能力上，ChatGPT不需要上传图片，而是直接打开摄像头，实时看发生了什么。

OpenAI的人直接开始现场写方程，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。

甚至，用户可以直接跟ChatGPT视频对话，ChatGPT可以看到用户所有的表情和情绪变化。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。GPT-4o在免费套餐中提供，并向Plus用户提供高达5倍的消息限制。在未来几周内，ChatGPTPlus将推出带有GPT-4o的新版本语音模式。

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出

	北大12人，清华5人！河南17位考生提前被清北录取！
	“三化”工程“点靓”乡村振兴路
	葡萄鸡丁：独属济宁的酸甜记忆
	19岁开始模特生涯，一部剧一个绯闻女友，如今46岁还未婚
	曝汪峰新恋情！对方为网红森林北，离异育有一女，携手共过母亲节
	“大美女”曾黎恋情曝光！男友颜值惹争议，网友：他好老好油
	电池产业快速发展
	8条高性能高分子材料生产线设备已安装完毕
	佟丽娅分享机场美照，笑容温柔迷人宛如初恋，与陈思诚离婚后更显魅力
	株洲国际赛车场人气爆棚

头条资讯网_今日热点_娱乐才是你关心的时事

OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出

相关推荐

北大12人，清华5人！河南17位考生提前被清北录取！

“三化”工程“点靓”乡村振兴路

葡萄鸡丁：独属济宁的酸甜记忆

19岁开始模特生涯，一部剧一个绯闻女友，如今46岁还未婚

曝汪峰新恋情！对方为网红森林北，离异育有一女，携手共过母亲节

“大美女”曾黎恋情曝光！男友颜值惹争议，网友：他好老好油

电池产业快速发展

8条高性能高分子材料生产线设备已安装完毕

佟丽娅分享机场美照，笑容温柔迷人宛如初恋，与陈思诚离婚后更显魅力

株洲国际赛车场人气爆棚

评论