昨天,Osmosis AI 发布了一项特别的内容:一个拥有 6 亿参数的模型,它解决了生产 AI 中最令人沮丧的问题之一——结构化输出会削弱你的智能模型。

如果你曾经尝试过强制 GPT-4 或 Claude 输出 JSON,你就知道有多痛苦。你的准确率会大幅下降。当你强制 GPT-4.1 输出结构化输出时,它在 AIME 数学问题上的准确率仅为 2.79%。Claude Sonnet 也只有 16.29%,远低于这些模型的内在能力。每个像 Deepseek 这样的推理模型都有这个问题。

结构化输出的问题

当你强制结构化输出时,会发生以下情况:你过度约束了模型,导致其智能降低。你不再让它自由思考、通过问题进行推理,而是将每个标记都限制在预定义的方案中。模型无法探索,无法回溯,无法使用其全部推理能力。

这对于像数学问题、编程或具有挑战性的文档提取任务等复杂推理任务来说尤其痛苦,在这些任务中,模型需要经过多个步骤,检查自己的工作,并逐步构建解决方案。当你从一开始就强制使用 JSON 时,你正在切断模型思考的能力。

奥西莫斯解决方案

Osmosis-Structure-0.6B 把这个问题倒过来。不是强迫你的昂贵模型输出结构化数据,而是让它做它最擅长的事情——自由思考并生成高质量的推理。然后,你将这个输出传递给 Osmosis-Structure-0.6B,它以惊人的准确性提取结构化信息。

结果不言而喻:

1983-2024 年 AIME 表现:

  • 克劳德十四行诗4:16.29% → 62.59%(+284%提升)
  • GPT-4.1:2.79% → 39.66%(+1322%提升)
  • Claude Opus 4: 22.94% → 65.06% (+184%提升)

数学 DAPO 17K 数据集

  • Claude Sonnet 4: 15.52% → 69.40% (提升 347%)
  • GPT-4.1: 10.53% → 70.03% (提升 565%)
  • Claude Opus 4: 15.28% → 69.91% (提升 357%)

这不是打字错误——GPT-4.1 在 AIME 问题上的提升达到了 1322%。

如何在实践中工作

工作流程出奇地简单:

  1. 将您的提示发送到智能模型(Deepseek、Claude Sonnet 等)而不受结构化输出约束
  2. 让模型自由推理并生成其最佳响应
  3. 将那个响应传递给 Osmosis-Structure-0.6B 以提取结构化数据

您将获得两者的最佳结合:大型模型的推理能力和保证的结构化输出。此外,Osmosis-Structure-0.6B 体积小巧(0.6B 个参数)且运行速度快,因此在延迟和成本方面,额外的处理步骤几乎可以忽略不计。

完美搭配:Osmosis + DeepSeek R1

这里才是真正激动人心的地方。我们已经在 Inference.net 上提供了 DeepSeek R1——一个与 OpenAI o1 性能相媲美的顶尖推理模型,但成本却低得多。当您将 DeepSeek R1 与 Osmosis-Structure-0.6B 结合使用时,您将获得一个强大且经济高效的解决方案。

DeepSeek R1 性能:

  • AIME 2024:79.8%(与 o1 的 79.2%相比)
  • MATH-500:97.3%(与 o1 的 96.4%相比)

经济因素非常吸引人:

DeepSeek R1 在 Inference.net

  • 输入:$0.45 / 1M 个 token
  • 输出:$2.15 / 1M 个 token

与 OpenAI o1 定价相比,节省相当可观。添加 Osmosis-Structure-0.6B 以实现可靠的 JSON 提取,您将获得一个性能更高且成本远低于在高级模型上强制输出结构化结果的解决方案。

为了更激进的成本优化,考虑我们的 DeepSeek R1 Distill Llama 70B,每百万个令牌仅需 $0.10/$0.40。这个精炼模型在数学基准测试中仍然击败了 GPT-4o,同时比高端替代品便宜 10 倍以上。

现在可在 Inference.net 购得

我们很高兴地宣布,Osmosis-Structure-0.6B 现已可在 Inference.net 平台上与我们的全面 DeepSeek R1 系列产品一同提供。这意味着您可以通过单个 API 访问 DeepSeek 的推理能力和 Osmosis 的结构化输出可靠性。

以下是如何将它们结合以实现最佳性能和成本节约:

import json
from openai import OpenAI

# Connect to Inference.net
client = OpenAI(
    api_key="inference...",
    base_url="https://api.inference.net/v1",
)

json_schema_dict = {
    "type": "object",
    "properties": {
        "answer": {"type": "string"}
    },
    "required": ["answer"],
    "additionalProperties": False
}

# First, get reasoning from DeepSeek R1
reasoning_response = client.chat.completions.create(
    model="deepseek/deepseek-r1/fp-8",
    messages=[{"role": "user", "content": "Solve for x in the equation 2x + 5 = 13"}],
    temperature=0.6,  # Recommended for DeepSeek R1
)

# Extract the reasoning trace
reasoning_trace = reasoning_response.choices[0].message.content
# Output: To solve the equation \(2x + 5 = 13\)...

response = client.chat.completions.create(
    model="osmosis-ai/osmosis-structure-0.6b/fp-32",
    messages=[
        {
            "role": "system",
            "content": f"You are a helpful assistant that understands and translates text to JSON format according to the following schema. {json_schema_dict}",
        },
        {
            "role": "user",
            "content": f"Extract the reasoning steps from this mathematical solution: {reasoning_trace}",
        },
    ],
    temperature=0,
    max_tokens=512,
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "reasoning_extraction",
            "schema": json_schema_dict,
            "strict": True,
        },
    },
    stream=False,
)

reasoning_json = json.loads(response.choices[0].message.content)
print(json.dumps(reasoning_json, indent=2))
# Output: {"answer": "4"}

DeepSeek R1 优势

这种组合之所以特别强大,在于 DeepSeek R1 的训练方式。与传统模型不同,DeepSeek R1 是利用大规模强化学习来特别增强推理能力的。它自然地展现出以下行为:

  • 解决方案的自我验证
  • 对问题解决方法的反思
  • 生成长而详细的思维链推理

这使得它非常适合 Osmosis 工作流程——DeepSeek R1 生成丰富、详细的推理轨迹,然后 Osmosis-Structure-0.6B 可以可靠地将它们转换为结构化输出。

成本优化策略

对于生产应用,请考虑以下分层方法:

  1. **高级用户:**DeepSeek R1 或 V3 + Osmosis 以实现最大精度
  2. **标准用户:**DeepSeek R1 Distill Llama 70B + Osmosis 以较低的成本实现卓越性能

高级模型非常强大——DeepSeek V3-0324 在 MMLU-Pro、GPQA Diamond、MATH-500、AIME 2024 和 LiveCodeBench 等基准测试中实际上超过了 Claude 3.7,而精简模型则保持了大部分这种性能。

接下来是什么

将推理模型与小型提取模型相结合是新的 SOTA(最先进的技术),这就是为什么我们兴奋地宣布 Osmosis-Structure-0.6B 现已可在 Inference.net 上使用。无论您是从文档中提取数据、构建需要可靠 JSON 输出的 AI 代理,还是处理复杂的推理任务,这种组合都能在比传统方法低得多的成本下提供更好的结果。

今天试试,亲自感受差异!

准备好开始了吗?注册 Inference.net,今天就开始使用 DeepSeek R1 和 Osmosis-Structure-0.6B。有问题?联系我们的团队——我们在这里帮助您构建更优秀的 AI 应用。