GPT5向所有免费用户开放
北京时间8月8日凌晨1点的发布会上,GPT-5 总算在万众期待中姗姗而至,此时,距离GPT-4的发布已过去了两年半。
一、整体评价
1. 发布会平淡:相比前代产品的惊艳亮相,GPT-5发布会缺乏突破性创新,展示的基准测试(Benchmark)和用例难以激发兴趣,甚至出现PPT数据展示错误。
2. 核心亮点:
- 价格优势:API定价仅为竞品Claude Opus 4.1的1/15,低于Gemini 2.5 Pro。
- 编程优化:强化了代码理解、错误修复和工具调用能力。
- 超低幻觉率:比GPT-4o低45%,比o3低80%。
- 上下文能力跃升:支持400K上下文,精准度翻倍。
二、模型能力分析
1. 智力水平有限提升:
- 主流测试集小幅领先竞品(如比Grok 4高1分),但未实现跨越式进步。
- 在AGI关键测试(Arc Prize)中远落后于Grok 4。
- Pro模式例外:处理超高难度科学问题(GPQA)时刷新纪录,盲测胜率近70%。
2. 编程能力亮点:
- 智能体式编码(Agentic Coding):可调用工具长时间协作,主动沟通步骤与计划。
- 痛点优化:增强代码库理解、自我Bug修复(构建-报错-迭代循环)、前端生成效率(400行代码/2分钟)。
- 实际体验优于基准测试,但领先Claude 4.1 Opus仅0.3%。
3. 多模态短板:仍限于文本和图像理解,不支持音频/视频生成,远落后于Gemini大一统模型。
三、其他技术改进
1. 幻觉与安全:
- 通过强化学习减少"欺骗行为"(部分维度降90%),结合浏览工具降低知识性错误。
2. 数据瓶颈回应:采用跨代模型生成合成训练数据,证实"左脚踩右脚"式递归训练,但效果受限。
四、新功能与体验
1. 乏善可陈:
- 写作润色更"人性化"但效果不直观。
- 语音助手自然度提升(行业标配水平)。
- 记忆功能仅整合邮箱/日历,个性化仅支持界面换色。
2. 用户定价策略:
- 免费用户限时使用GPT-5,超额转用GPT-5 mini。
- Plus用户额度大幅提升,API价格极具竞争力(输入$1.25/百万token)。
五、发布会问题与行业影响
1. 公关灾难:
- PPT数据图表比例失真(如SWE Benchmark、Tau 2测试),引发舆论嘲讽。
- 演示冗长专业,缺乏冲击力(对比竞品售货机实验、宝可梦演示)。
2. 行业警示:
- GPT-4.5项目失败、Grok-4算力堆砌未达革命性突破,叠加GPT-5渐进式升级,预示Scaling Law增长见顶。
- AI行业进入"务实竞争"阶段,需等待新范式突破。
核心结论:GPT-5以价格战和工程优化(编程/幻觉/上下文)守住市场份额,但技术突破乏力,发布会加剧舆论危机,折射AI高速增长期结束。