OpenAI颠覆世界:GPT-4o完全免费 实时语音视频交互震撼全场

2025-07-26 21:24
区块链周刊报道,ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。
今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:第一,以后 OpenAI 做产品就是要免费优先 ,为的就是让更多的人能使用;第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI ,其使用起来更简单,也更自然;第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。
ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。
GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。
在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:「我第一次来直播的发布会,有点紧张。ChatGPT 立即回答说,你这不行,喘得也太大了。
如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。
随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。ChatGPT 说,每当你为数学焦头烂额的时候,我就在你身边。
接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。最热的月份在几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。
OpenAI 还回应了一些 X/Twitter 上网友们实时提出的问题。比如实时语音翻译,手机可以拿来当翻译机来回翻译西班牙语和英语。又有人问道,ChatGPT 能识别你的表情吗?看起来,GPT-4o 已经能够做到实时的视频理解了。
全能模型 GPT-4o
首先介绍的是 GPT-4o,o 代表 Omnimodel(全能模型)。第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水准」的智能,但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力,将在未来几周内「迭代式」地在公司产品中推出。
「GPT-4o 的理由横跨语音、文本和视觉,」Muri Murati 说道:「我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 GPT 的协作。GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
而在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。「从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。」英伟达科学家 Jim Fan 如此评论道。
GPT-4o 可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互(甚至是人 - 机器 - 机器交互)迈出的重要一步。OpenAI 总裁 Greg Brockman 也在线「整活」,不仅让两个 GPT-4o 实时对话,还让它们即兴创作了一首歌曲,虽然旋律有点「感人」,但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。
此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得「易如反掌」。比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:这是一首诗,GPT-4o 可以将其排版为手写样式:更复杂的排版样式也能搞定:与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:而下面这些玩法,应该会让很多设计师有点惊讶:这是一张由两张生活照演变而来的风格化海报:还有一些小众的功能,比如「文本转艺术字」。
GPT-4o 性能评估结果
OpenAI 技术团队成员在 X 上表示,之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一个版本。在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。
生成海报

相关阅读

美联储鲍威尔6月19日宣布维持基准利率不变

美联储在周三(6月18日)最新政策会议中,宣布维持基准利率在4.25%-4.50%不变,同时释放出今年仍将降息两次的信号。然而,决策者们对未来降息步伐的谨慎态度,以及对特朗普发布关税政策可能推高通胀的担忧,成为市场关注的焦点。美联储主席鲍威尔在会后新闻发布会上进一步警告,夏季通胀可能因关税加剧,消费者将不可避免地承担部分成本。美国联邦储备委员会18日宣布,将联邦基金利率目标区间维持在4.25%至4

2025年06月19日
3.8k 0

区块链的两种类型

区块链主要分为两种类型:公有链和私有链。1. 公有链(无许可区块链)特点:公有链是开放的,任何人都可以加入并参与网络的维护和交易验证。透明度:所有交易记录都是公开的,任何人都可以查看。去中心化:公有链通过加密经济学(如挖矿)促进去中心化,确保系统的安全性和透明性。匿名性:用户可以通过公钥进行匿名操作,保护隐私。应用场景:比特币、以太坊等加密货币是公有链的典型应用。2. 私有链(有许可区块链)特点:

2025年06月20日
3.48k 0

Gate大门交易所 Alpha多链生态与创新激励重塑加密交易未来

区块链周刊7月2日报道,Gate Alpha作为Gate的创新交易专区,凭借其多链无缝交易体验、前沿资产上线策略和多样化的激励机制,成为行业焦点。从AI驱动的CARV到知识产权代币化的NEXUS,Gate大门交易所 Alpha不仅引入了覆盖AI、游戏和RWA的热门项目,还通过技术升级和生态协同,为用户提供了低门槛、高回报的参与机会。无缝多链交易体验Gate大门交易所 Alpha的核心竞争力在于其“

2025年07月02日
3.32k 0

区块链DeFi中的保险是怎么回事?

在传统金融世界里,除了借贷、基金、交易所之外,还有一个与我们息息相关的领域,那就是保险,DeFi,作为金融领域在去中心化世界的映射,保险业务自然是不可或缺的。在传统金融中,我们往往都是为了防范某种风险,才需要购买保险,比如车祸险、人身安全险等等。而所谓DeFi中的保险与传统保险一样,也有着防范风险的功能,只不过针对的是去中心化世界中常见的一些数字资产风险,比如私钥被盗、黑客攻击、智能合约出现漏洞被

2025年06月19日
3.16k 0

欧易OKX上线 SAHARA (Sahara AI) 现货交易

區塊鏈周刊6月19日消息,欧易OKX即将上线 SAHARA (Sahara AI),现在参与 Sahara AI 奖金活动,3,000,000 $SAHARA 代币等你赢取。具体时间安排如下:上线时间SAHARA 开放充币,时间:2025 年 6 月 19 日下午 4:00 (UTC+8)SAHARA竞价,时间段:2025 年 6 月 26 日下午 7:00 至 8:00 (UTC+8)SAHAR

2025年06月22日
3.12k 0

发表评论

登录后才能评论

评论列表

暂无评论