北京时间周二(5月14日)凌晨,全球人工智能的执牛耳者OpenAI公司在线上举办了“春季更新”活动。
本次活动中,OpenAI发布了新旗舰模型“GPT-4o”,可以实时对音频、视觉和文本进行推理。据悉,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
在此前,用户使用语音模式与ChatGPT对话时,平均延迟达到数秒钟,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。
而最新的GPT-4o延迟很低,与人类在对话中的反应时间相近,讲述故事宛如真人。与现有模型相比,其在图像和音频处理方面很出色,甚至可以从急促的喘气声中理解“紧张”的含义,并且指导对方进行深呼吸等等。
可以说,GPT-4o使得AI表达有了“感情”,是迈向更自然人机交互的关键一步。OpenAI首席执行官奥特曼表示,GPT-4o的语音功能让人想起了电影《她》,“感觉就像是电影中的人工智能,我仍然对其感到惊讶。”
目前,GPT-4o已对所有用户免费开放,付费订阅的ChatGPT Plus用户的消息数量上限是免费用户的5倍。
OpenAI的首席技术官Mira Murati表示,未来做产品要免费优先,让更多的人使用。业内人士称,技术迭代优化和费用下降将加速大模型走向行业应用。
不过也有观点认为,OpenAI之所以“祭出”一些免费功能,在于行业的竞争异常激烈。无论OpenAI做出怎样的创新,在Meta,谷歌,亚马逊,xAi等强敌环伺的背景下,都容易被模仿甚至被赶超。此次发布会,也宣告新一轮技术战和价格战的开始,其他科技巨头也将在未来一个月内公布AI最新进展。
值得一提的是,目前AI技术的快速发展也引起一些担忧。围绕版权问题的争议持续困扰着AI企业,许多创作者也担心,AI大模型的训练涉及侵权问题。
此外,当地时间5月14日,在瑞士日内瓦举行中美人工智能(AI)政府间对话首次会议,就AI科技风险、全球治理等问题进行交流。
财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。
更多精彩内容,请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)
现代电视(http://www.fintv.hk)