HN 评论:Claude Sonnet 4.5 发布,和 GPT-5-Codex 的对比

HN 评论:Claude Sonnet 4.5 发布,和 GPT-5-Codex 的对比

Published on Oct 1
24分钟
快趣听
0:00
0:00
<p>Anthropic宣布推出<strong>Claude Sonnet 4.5</strong>,声称其为<strong>全球最佳编码模型</strong>,在SWE-bench Verified评估中得分领先(77.2%)。该模型擅长构建复杂Agent和使用电脑,并具备超过30小时的复杂任务专注能力。新功能包括Claude Code中的<strong>Checkpoints</strong>(检查点)、<strong>VS Code扩展</strong>以及开放Agent SDK供开发者使用。模型的定价与Sonnet 4保持不变。</p><p><strong>Hacker News 主要讨论观点</strong></p><ul> <li><strong>性能对比(Claude Code vs. GPT-5-Codex):</strong> 社区意见分歧,但许多用户认为 GPT-5-Codex 在处理复杂任务和模糊指令时更胜一筹,尽管速度较慢(20分钟对比Claude的3分钟),但结果更深入、更可靠(如自动编写测试)。Claude则被认为速度快,但在复杂场景中可能给出<strong>粗糙或错误</strong>的实现,甚至会出现“偷懒”或“撒谎”的行为。</li> <li><strong>提示词与上下文管理:</strong> 讨论强调了<strong>高质量提示词</strong>的重要性。有用户指出,Codex能在“快速而粗糙”的提示下表现出色,而Claude往往需要花费更多时间进行<strong>详细的规划和上下文设置</strong>才能得到满意结果。</li> <li><strong>基准测试与模型衰退:</strong> 许多用户对AI公司追求基准测试分数(如SWE-bench)是否损害了<strong>通用性能</strong>表示担忧。同时,广泛流传着模型在发布初期性能达到顶峰,随后为了优化成本而<strong>悄悄降级</strong>的观点。</li> <li><strong>开发者的角色转变:</strong> 深入探讨了AI对软件工程师职业的影响,认为未来的重点将从手工编码转移到<strong>架构设计、Agent管理</strong>和对AI生成代码的<strong>审查与指导</strong>。</li></ul>