资深的配资知识网该模型在 OSWorld 测试中创下新纪录

划重点：

Anthropic 发布 Claude Sonnet 4.5，宣称其为全球最先进、最安全的编码及复杂软件智能体构建模型。

Claude Sonnet 4.5 能够自主编码长达 30 小时，远超其前代 Claude 4 Opus 约 7 小时的能力。

编码工具 Claude Code 新增 checkpoints 功能，可在每次代码更改前自动保存状态，允许开发者即时回溯到之前的版本。

当地时间 9 月 29 日，人工智能初创公司 Anthropic 正式推出新一代 AI 模型 Claude Sonnet 4.5，宣称其为全球最先进、最安全的编码及复杂软件智能体构建模型。

该模型在长周期任务处理上有所改进，可独立运行 30 小时完成从开发到安全审计的全流程工作，在 SWE-bench Verified 等权威测试中达到最优水平。同时，Anthropic 升级开发者生态，推出 Claude Agent SDK 等工具，并为 Max 订阅用户开放 "用 Claude 想象" 临时预览功能，支持实时生成软件演示。

Claude Sonnet 4.5 定价延续前代标准，每百万输入 Tokens 3 美元，每百万输出 Tokens 15 美元，开发者无需额外成本即可升级。

当前 AI 编码领域竞争已进入白热化阶段，Anthropic 面临多强并立的竞争态势：OpenAI 已推出专注智能体编码的 GPT-5-Codex，谷歌 Gemini 则凭借出色的问题解决能力站稳脚跟。Anthropic 在今年 8 月刚推出 Claude Opus 4.1，在 5 月推出 Claude Sonnet 4，如此快速的迭代节奏，既凸显了当前 AI 领域的激烈竞争态势，也意味着没有任何一家企业能长期占据绝对领先地位，技术迭代与创新将成为行业持续发展的核心驱动力。

01.30 小时自主开发成新亮点

Claude Sonnet 4.5 在各项测试中的表现

Anthropic 表示，Claude Sonnet 4.5 在多项指标上超越了 OpenAI 的 GPT-5 和谷歌的 Gemini 等主要竞争对手。Claude Sonnet 4.5 在 SWE-bench Verified 基准测试中表现突出，得分达到 82.0%，该测试用于评估 AI 解决 GitHub 仓库中真实世界软件工程问题的能力。相比较而言，Claude Opus 4.1 在该项测试中的得分为 79.4%；Claude Sonnet 4 的得分为 80.2%；GPT-5 的得分为 72.8%；Gemini 2.5 Pro 的得分为 67.2%。

此外，该模型在 OSWorld 测试中创下新纪录，取得了 61.4% 的得分。相比较而言，四个月前发布的 Sonnet 4 得分为 42.2%。

此次升级的性能提升不仅体现在分数上，更在于模型自主工作耐力方面。Anthropic 研究员大卫・赫尔希（David Hershey）在接受 TechCrunch 采访时透露，在与部分企业客户进行的早期试用中，Claude Sonnet 4.5 能够自主编码长达 30 小时，编写了一款类似 Slack 或 Teams 的聊天应用，共生成约 1.1 万行代码，直至任务完成才停止运行。这远超其前代 Claude 4 Opus 约 7 小时的能力。

赫尔希观察到，该模型不仅能自主构建应用程序，还能自行搭建数据库服务、购买域名，甚至完成 SOC 2 安全审计。这标志着其能力已从孤立的编码任务扩展至全周期的项目执行，展现出前所未有的实用长周期智能体能力。

Anthropic 表示，该模型能生成更高质量的代码，更善于识别代码改进点，并能更可靠地遵循指令。该公司联合创始人、首席科学官贾里德・卡普兰（Jared Kaplan）在接受 CNBC 采访时表示：" Claude Sonnet 4.5 更智能、更像一位同事，在遇到问题并解决它们时，与它合作会很有趣。"

此外，Claude Sonnet 4.5 在金融、法律、医学和 STEM（科学、技术、工程与数学）等领域的专业知识与推理能力也有所增强，得到了早期专家的正面反馈。其在数学和推理能力评估中的优异表现进一步印证了其智能广度的提升。

02. 多工具解决开发痛点，Agent SDK 助力定制智能体

Claude Sonnet 4.5 的聊天框界面

Claude Sonnet 4.5 发布的同时，Anthropic 对开发者生态进行了重大扩展，推出系列工具解决核心开发需求。

编码工具 Claude Code 新增 checkpoints 功能，可自动保存代码更改状态供即时回溯，并推出测试阶段的原生 VS Code 扩展，将能力无缝集成至 IDE，提供直观图形化体验。针对长周期智能体的上下文限制，Anthropic 引入高级管理工具："上下文编辑" 可清除过时内容，"记忆工具" 能跨会话存储关键信息，二者结合使智能体复杂任务性能提升 39%，Tokens 消耗减少 84%。

面向高级用户的 Claude Agent SDK 开放了 Claude Code 核心基础设施权限，支持开发者构建金融合规、网络安全等领域的定制智能体，助力实现 "人类管理多智能体" 的愿景。同时，Anthropic 开放虚拟机访问权限并提供内存管理、多智能体支持等功能，相当于打包核心技术模块供开发者打造专属前沿智能体。

03.Claude Sonnet 4.5 抗攻击能力升级，降低不良行为发生率

Anthropic 强调，Claude Sonnet 4.5 是其"迄今为止最对齐的前沿模型"。该公司在新闻稿中详细介绍了广泛的安全训练，显著降低了谄媚、欺骗和寻求权力等不良行为的发生率。Claude Sonnet 4.5 在严格的 ASL-3（人工智能安全等级 3）框架下发布，部署了过滤器以检测并防止生成潜在危险输出，特别是在化学、生物、放射和核（CBRN）武器相关内容方面。

卡普兰表示："我认为，这是我们在一两年内看到的最大安全飞跃。" 这一对安全的坚定承诺是对行业普遍关切的直接回应，旨在与企业客户建立信任。Anthropic 表示，Claude Sonnet 4.5 在抵御提示注入攻击及其他前代模型常见漏洞方面表现更佳。（文 / 腾讯科技特约编译无忌，编辑 / 燕妮）

360配资在线配资提示：文章来自网络，不代表本站观点。