GPT-OSS 120B 在 Cerebras 上以每秒 3000 个 token 的速度运行。
GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

原始链接: https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras

## OpenAI 的 GPT OSS 120B 现已在 Cerebras 上可用 OpenAI 首个开放权重的推理模型 GPT OSS 120B 现已在 Cerebras 上可用,提供显著的性能提升。该 1200 亿参数模型在编码、数学和健康查询等任务的准确性方面可与 OpenAI 的 o4-mini 相媲美,但速度更快。 在 Cerebras 推理云上,OSS 120B 可达到高达每秒 3,000 个 token 的速度——比领先的 GPU 云快 15 倍,将推理任务的完成时间从分钟缩短到秒。Artificial Analysis 的独立测试证实,Cerebras 提供了最佳的速度和延迟,首次 token 响应时间低于一秒,并且具有一流的准确性。 Cerebras 的定价为每百万输入 token 0.25 美元,每百万输出 token 0.69 美元,提供具有竞争力的性价比优势,与中位 GPU 云相比,每美元提供的 token 数量多 8.4 倍。GPT OSS 120B 可通过 Cerebras Cloud、HuggingFace、OpenRouter 和 Vercel 访问。

Hacker News新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交登录 GPT-OSS 120B 在 Cerebras 上以每秒 3000 个 token 运行 (cerebras.ai) 10 分,samspenc 发表于 7 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 freak42 发表于 34 分钟前 [–] 我绝对讨厌网站说“试试这个”,然后当你费心写完东西后,先出现一个注册链接。这让我立刻离开,再也不回来了。回复 考虑申请 YC 的 2026 年冬季批次!申请截止日期为 11 月 10 日 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

OpenAI’sGPT OSS 120B model is now available on Cerebras. The first open weight reasoning model by OpenAI, OSS 120B delivers model accuracy that rivals o4-mini while running at up to 3,000 tokens per second on the Cerebras Inference Cloud. Reasoning tasks that take up to a minute to complete on GPUs finish in just one second on Cerebras. OSS 120B is available today with 131K context at $0.25 per M input tokens and $0.69 per M output tokens.

GPTOSS120B is a 120 billion parameter mixture-of-expert model that delivers near parity performance with OpenAI’s popular o4mini on core reasoning benchmarks. It excels at chain of thought tasks, tackling coding, mathematical reasoning, and health related queries with class leading accuracy and efficiency. With its public weights release under Apache 2.0, it offers transparency, finetuning flexibility, and the ability to run on the Cerebras Wafer Scale Engine in the cloud and on-prem.

Cerebras is proud to offer launch-day support for OSS 120B. On OpenRouter, Cerebras was measured at 3,045 token/s– 15x faster than the leading GPU cloud. Artificial Analysis found that Cerebras offered the best combination of speed and latency, with time to first token of just 280 milliseconds and output speed of 2,700 tokens/s.