宛如真人GPT-4o 发布,AI伴侣成为现实

发表时间:2024-05-15 10:19

在5月13日的深夜(当地时间10点,北京时间22:00),OpenAI 首席技术官 Mira Murati 引领了一场科技界的盛宴。她宣布了公司的最新旗舰人工智能模型GPT-4o,瞬间刷爆了全世界社交媒体平台。


图片


GPT-4o 突破了传统界限,实现了实时多模态对话。这不仅意味着它可以处理文字,还能无缝整合图片、视频和语音。用户可以即时互动,无论是开始对话还是随时打断,GPT-4o 都能以接近人类水平的响应速度和表达能力,提供流畅的交流体验。


图片


此外,OpenAI 的联合创始人 Sam Altman 在 X 平台上发布了一个充满暗示的词:“her”,这似乎在暗示 GPT-4o 的高度拟人化特性,让人对其智能和情感表达能力充满期待。下面让我们一起走进发布会现场:




(发布会25分钟完整视频,中英双语字幕)


性能飞跃,全面开放


首席技术官 Mira Murati 在发布会上宣布,OpenAI 的最新旗舰 AI 模型 GPT-4o 性能显著提升,处理速度是前代 GPT-4 Turbo 的两倍。此外,GPT-4o 将全面开放 API 接口,并将用户的请求速率限制提升至五倍,以满足更广泛的应用需求。


免费开放,价格下调

最引人注目的是,GPT-4o 将向所有 ChatGPT 用户,无论付费与否,免费开放,同时取消所有其他限制。此外,API 的价格将下调 50%,以促进更广泛的使用和创新。


图片


新界面与桌面版发布

除了 GPT-4o 的介绍,Murati 还展示了 ChatGPT 的桌面版和全新用户界面(UI),进一步提升用户体验。


功能迭代,未来可期

GPT-4o 将从即日起逐步向 API 和用户推出。未来,还将增加语音和视频理解等更多先进功能,以不断优化和扩展其应用范围。


全能AI的新高度


OpenAI 的最新力作 GPT-4o,其名称中的 "o" 代表 "omni",象征着其全能的特性。Mira Murati 指出,GPT-4o 不仅为每位用户带来了 GPT-4 级别的智能,更在文本、视觉和音频处理上实现了显著提升。


端到端训练,性能飞跃

通过跨模态的端到端训练,GPT-4o 能够统一处理所有输入和输出,显著降低延迟。特别是在语音响应方面,GPT-4o 展现出了卓越的性能,能在平均 320 毫秒内完成音频输入的回应,最快速响应时间可达 232 毫秒,几乎与人类反应时间相媲美。


图片


功能演示,惊喜连连

在发布会的功能演示环节,研究主管 Mark Chen 和后训练团队负责人 Barret Zoph 展示了 GPT-4o 的多才多艺:

1.解方程:Zoph 在白板上写出方程式3x+1=4,GPT-4o 提供了解题步骤,成功引导他求出 X 的值。

2.代码解读:GPT-4o 准确总结了输入的Python 代码的功能,并详细解释了数据处理过程,甚至能够描述代码执行后生成图表的具体含义。

3.实时翻译:GPT-4o 担任翻译员,将 Murati 的意大利语实时翻译成英语,展现了其在语言转换上的高超技巧。

4.情感识别:通过视频GPT-4o 识别并描述了 Zoph 的情绪状态,甚至在互动中展现出了人性化的情感反应。


创新应用,无限可能


GPT-4o 的发布不仅展示了其在传统任务上的强大能力,还激发了创新应用的无限可能。用户现在可以:

1.将老照片中的手写字转换为电子文本;

2.实时获得 GPT 的教学指导,解决几何题目;

3.与 GPT 进行互动游戏,如“石头剪刀布”。


正如 Murati 所言,GPT-4o 的问世标志着 OpenAI 在提升大模型易用性方面迈出的重要一步,预示着人机交互协作模式的变革。


可能重塑AI手机市场


OpenAI的GPT-4o以其先进性能对苹果Siri构成挑战,激发了网友的广泛讨论。苹果计划在iOS 18中整合ChatGPT技术,这可能改变AI手机的未来。合作将结合OpenAI的AI技术和苹果的系统权限,预示着互利共赢。GPT-4o的应用不仅限于商业,还在社会责任方面展现潜力,如辅助视障人士的Be My Eyes应用,通过GPT-4o显著提升了用户体验。


图片


《Her》成真?


在 OpenAI 的演示圆满结束后,Mira Murati 总结道:“大家所见证的,正是非凡的奇迹。”GPT-4o 所展现的情感感知与表达能力,让许多网友联想到了电影《Her》中的情节,惊呼这是否为现实版的人工智能。


图片


发布会后,Altman 在 X 平台发表长文,表达了对未来的激动之情。他自豪地指出,ChatGPT 提供了世界上顶尖的模型,而且是完全免费、无广告的体验。他强调,ChatGPT 不仅开启了语言界面的新可能性,而且 GPT-4o 在速度、智能、趣味性和自然性方面都有本质的飞跃,对用户更有帮助。


Altman 还分享了他个人的感受:“以往与电脑对话并不自然,但现在,GPT-4o 改变了这一点。随着我们逐步引入个性化、信息访问、代理行动等功能,我预见到一个激动人心的未来,其中电脑将成为我们生活中更加不可或缺的伙伴。”



Futhercloud.com



未画科技是一家以云计算和人工智能技术为基础的企业人工智能解决方案供应商。致力于为企业和组织提供企业级的生成式大模型的开发平台FutherFlow和高性能的算力云服务FutherCloud。