克劳德 3.5 十四行诗
Claude 3.5 Sonnet

原始链接: https://www.anthropic.com/news/claude-3-5-sonnet

Claude 3.5 Sonnet是Claude.ai发布的全新AI模型,标志着行业的重大进步。 随着智能的提高,它在各种评估上都超越了竞争对手和之前的 Claude 模型。 其速度与中档型号相当,但性能却提高了一倍。 它可供免费使用,可通过 Claude.ai、Claude iOS 应用程序、Anthropic、Amazon Bedrock 和 Google Cloud 的 Vertex AI 等 API 访问。 Claude 3.5 Sonnet 拥有卓越的研究生水平推理、本科水平知识和编码能力,擅长理解复杂的上下文、运用智慧和生成自然内容。 它比其前身更快,非常适合复杂的任务,特别是涉及上下文客户服务和多步骤工作流程的任务。 此外,该版本还展示了增强的视觉理解和文本到图像的准确性。 在编码能力方面,它能够自主编写、编辑和执行代码,并具有高级的解决问题的能力。 Claude.ai 还推出了“Artifacts”,允许用户在单独的窗口中并排查看和修改生成的内容。 此功能将 Claude 转变为更具协作性的平台。 进一步的增强功能包括扩大团队协作以及在单个中心内组织集体知识、文档和活动项目。 尽管情报有所增加,但安全措施仍然严格,风险水平没有变化。 在评估过程中咨询了外部安全专家,以确保强有力的安全检查。 用户数据保密性优先,在将数据用于培训目的之前需要明确的权限。 未来的创新涉及加强智能、速度和成本之间的权衡,以及开发企业应用程序集成以及内存(一种支持可定制用户体验的功能)。 用户可以在应用内提供反馈,以指导产品开发并优化他们的交互。

在本文中,用户讨论了基于 k 均值聚类的算法,表示满意,但承认需要进行调整以适应聚类大小的约束。 他们还提出了一个关于素数给予者的数学问题,质疑是否有无限多个。 素数给予者概念涉及整数 p,使得 p、p+2 和 p+4 都是素数。 作者提到,解决这个问题可能需要超越典型中学数学的见解,涉及孪生素数猜想,这仍然是一个悬而未决的问题。 尽管存在这种不确定性,作者得出的结论是,没有明确的答案,这表明随着数量的增加,主要给予者变得稀缺,从而使他们的实际分布不确定。 作者最初指出 3、5 和 7 是素数给予者,这导致了一些混乱,因为根据他们的定义,5、7 和 9 应该是素数,因为 5 是素数给予者,但这种组合并不 坚持正确。 后来,经过仔细思考,作者发现了他们的错误,证明了只有数字3满足素数赋予者的条件,得出素数赋予者只有一个的结论。 最后,该用户分享了 Joe 带 Sue 去大学并在她的厨房喝茶的开车轶事,引发了 Sue 同时出现在两个地方的可行性的疑问,引发了关于我们的双定位不可能性的讨论。 世界。
相关文章

原文
Claude head illustration

Today, we’re launching Claude 3.5 Sonnet—our first release in the forthcoming Claude 3.5 model family. Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet.

Claude 3.5 Sonnet is now available for free on Claude.ai and the Claude iOS app, while Claude Pro and Team plan subscribers can access it with significantly higher rate limits. It is also available via the Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. The model costs $3 per million input tokens and $15 per million output tokens, with a 200K token context window.

Claude model family

Frontier intelligence at 2x the speed

Claude 3.5 Sonnet sets new industry benchmarks for graduate-level reasoning (GPQA), undergraduate-level knowledge (MMLU), and coding proficiency (HumanEval). It shows marked improvement in grasping nuance, humor, and complex instructions, and is exceptional at writing high-quality content with a natural, relatable tone.

Claude 3.5 Sonnet operates at twice the speed of Claude 3 Opus. This performance boost, combined with cost-effective pricing, makes Claude 3.5 Sonnet ideal for complex tasks such as context-sensitive customer support and orchestrating multi-step workflows.

In an internal agentic coding evaluation, Claude 3.5 Sonnet solved 64% of problems, outperforming Claude 3 Opus which solved 38%. Our evaluation tests the model’s ability to fix a bug or add functionality to an open source codebase, given a natural language description of the desired improvement. When instructed and provided with the relevant tools, Claude 3.5 Sonnet can independently write, edit, and execute code with sophisticated reasoning and troubleshooting capabilities. It handles code translations with ease, making it particularly effective for updating legacy applications and migrating codebases.

Claude 3.5 Sonnet benchmarks

State-of-the-art vision

Claude 3.5 Sonnet is our strongest vision model yet, surpassing Claude 3 Opus on standard vision benchmarks. These step-change improvements are most noticeable for tasks that require visual reasoning, like interpreting charts and graphs. Claude 3.5 Sonnet can also accurately transcribe text from imperfect images—a core capability for retail, logistics, and financial services, where AI may glean more insights from an image, graphic or illustration than from text alone.