启动Hacker News:IonRouter (YC W26) – 高吞吐量、低成本推理
Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference

原始链接: https://ionrouter.io

```python from openai import OpenAI client = OpenAI( api_key="sk-your-key-here", base_url="https://api.ionrouter.io/v1" ) response = client.chat.completions.create( model="qwen3.5-122b-a10b", messages=[ { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": "..."}}, {"type": "text", "text": "What's in this image?"} ] } ] ) ```

## IonRouter:快速且经济实惠的AI推理 (摘要) Cumulus Labs,一家YC W26初创公司,推出了IonRouter (ionrouter.io),这是一款推理API,旨在弥合开源和微调AI模型在速度和成本之间的差距。他们的目标是解决现有问题:快速的提供商价格昂贵(例如Together AI),而廉价的DIY方案(例如Modal)则需要大量的设置并存在冷启动慢的问题。 IonRouter利用定制的C++运行时IonAttention,专为GH200架构构建,实现了令人印象深刻的吞吐量——尤其是在多模态流水线中,达到了588个token/秒,超过了Together AI等竞争对手。目前,其延迟略高(p50 ~1.46s vs 0.74s),团队正在积极优化。 定价按token计算,没有空闲成本(例如,GPT-OSS-120B的输入为$0.02,输出为$0.095)。该服务允许用户轻松地在现有的OpenAI代码中替换基础URL,以访问更广泛的模型。目前,他们专注于展示其引擎,并计划扩展到托管微调模型,为定制AI部署提供简化的解决方案。他们正在积极寻求用户反馈,特别是那些使用微调模型的人。
相关文章

原文
from openai import OpenAI

client = OpenAI(
    api_key="sk-your-key-here",
    base_url="https://api.ionrouter.io/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-122b-a10b",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "..."}},
            {"type": "text", "text": "What's in this image?"}
        ]
    }]
)
联系我们 contact @ memedata.com