Inference.net 博客Cliptagger 12b --- Inference.net Blog Cliptagger 12b - 知识铺
引言
今天,我们激动地推出 ClipTagger-12B:一个 12B 参数的强大 VLM,在视频帧标题生成方面击败了 Claude 4 Sonnet,同时成本仅为 17 倍。
Inference.net 和 Grass 合作开发了这个开源模型,代表了人工智能的新类别:专为互联网规模的生产工作负载构建的劳模模型。
问题:视频理解成本过高
每天,数十亿个视频帧需要被处理用于搜索、内容审核、无障碍访问和分析。但经济性并不理想。前沿模型每千个输出令牌收费3-15美元,即使是适度的视频处理也变得过于昂贵。
考虑一家每天处理 10 万个视频帧的媒体公司。使用 GPT-4.1,这将花费超过 18.6 万美元每年。对于一个处理数百万帧的平台,成本迅速达到数百万美元。这些经济因素使得高级视频理解仅限于最大的科技公司。
ClipTagger-12B 解决了这个问题。每百万个输入令牌 0.30 美元,每百万个输出令牌 0.50 美元,它将成本比 GPT-4.1 降低了 15 倍,比 Claude 4 Sonnet 降低了 17 倍。对于每帧 700 个输入令牌和 250 个输出令牌的典型使用情况,这相当于每百万生成 335 美元,而 GPT-4.1 为 5100 美元,Claude 4 Sonnet 为 5850 美元。
图表:每100万代成本(美元)
ClipTagger-12B 不仅仅是一个研究模型。它是一个专为生产视频处理需求而设计的<强 id=0>工作马 。该模型为每个视频帧生成结构化的 JSON 输出,使其非常适合:
大规模构建可搜索的视频数据库。 结构化的 JSON 输出实现了精确的搜索功能。自然语言查询如“使用专业设备的户外烹饪教程”可以与 JSON 中的特定字段匹配,返回基于实际视觉内容的结果,而不仅仅是元数据或标题。
跨平台内容审核自动化。 结构化格式允许将审核规则表达为数据库查询。平台可以根据检测到的特定对象、动作和环境的组合来标记内容,从而实现更细致的审核政策,减少误报。
使用详细场景描述创建辅助工具。 综合的 JSON 输出提供了关于每个帧中对象、动作和环境的丰富细节,通过详细的音频描述使视频内容对视觉障碍用户更加易于访问。
跟踪品牌可见性和广告验证。 广告主可以通过具体证据验证他们的广告是否按合同出现。品牌在 logos
字段中被检测到,产品在 objects
中被识别,从而实现对每次出现的屏幕时间和上下文的自动化跟踪。
从视频库中提取见解。 媒体公司可以找到所有包含特定对象、场景的素材,追踪制作风格趋势,或识别可重复使用的片段,而无需昂贵的机器学习管道。
性能与前沿模型相匹配
ClipTagger-12B 达到与 GPT-4.1 相当的质量,同时显著优于 Claude 4 Sonnet。使用 Gemini-2.5-Pro 作为独立评判员来评估字幕质量,该模型得分为 3.53,而 GPT-4.1 为 3.64,Claude 4 Sonnet 为 3.16。
评分标准:标题准确性(越高越好)
与教师模型的输出进行对比时,ClipTagger-12B 在所有指标上均表现出强大的一致性:
评估
ROUGE 和 BLEU 分数衡量了与教师模型标注的对齐程度,表明 ClipTagger-12B 通过蒸馏成功捕捉了教师的能力。该模型实现了 67.4%的 ROUGE-1、40.4%的 ROUGE-2、52.0%的 ROUGE-L 和 26.7%的 BLEU,表明我们的蒸馏过程有效地将教师模型的知识转移到了更小、更高效的 ClipTagger-12B 中。
除了质量指标之外,ClipTagger-12B 还提供了显著更快的推理速度。该模型从端到端处理帧大约需要 6.5 秒,而教师模型则需要 13.5 秒,这使得高吞吐量视频处理应用成为可能:
端到端延迟每请求
为生产系统构建的结构化输出
ClipTagger-12B 为每个帧输出具有一致模式的结构化 JSON。给定一个有木制步道穿过草原的自然场景,它输出的结果是:
{
"description": "A wooden boardwalk path extends from the foreground into the distance, cutting through a field of tall, vibrant green grass. The path is flanked on both sides by the dense grass. In the background, a line of trees is visible on the horizon under a blue sky with scattered white clouds.",
"objects": [
"Wooden boardwalk",
"Tall green grass",
"Blue sky",
"White clouds",
"Trees"
],
"actions": [],
"environment": "An outdoor, natural landscape, likely a marsh or wetland, on a clear day. The scene is characterized by a wooden boardwalk, lush green vegetation, and a bright blue sky with wispy clouds.",
"content_type": "real-world footage",
"specific_style": "landscape photography",
"production_quality": "professional photography",
"summary": "A wooden boardwalk path winds through a lush green field under a bright blue sky with scattered clouds.",
"logos": []
}
这种结构将非结构化视频转换为可查询的数据。每个字段都服务于特定的目的:`objects`启用产品检测,`actions`捕捉正在发生的事情,`environment`提供上下文,`production_quality`有助于过滤内容类型。该模式通过与 Wynd 数月的迭代优化,在保持简单的同时最大化了实用性。
技术实现
ClipTagger-12B 基于 Gemma-12B 架构,通过从前沿视觉语言模型中进行知识蒸馏进行训练。我们为数据集创建使用了 Grass 广泛视频目录中的一百万个精心挑选的视频帧。
蒸馏过程捕捉了教师模型的性能,同时将推理成本降低了 95%。我们能够使用这个蒸馏模型的 12B 和 27B 变体都实现类似的训练结果,然而 12B 模型因其更高的吞吐量和更低的成本而成为易选。
ClipTagger-12B 量化为 FP8 精度,与基于 BF16 的相比,根据评委分数没有可测量的质量损失。它专门针对 RTX 40 系列和 H100 GPU 进行调优,利用原生的 FP8 支持进行高吞吐量推理,并在单个 80 GB GPU 上高效运行。
在亿帧规模上得到验证
ClipTagger-12B 已通过我们与 Wynd Labs 的合作在亿级视频库中进行了测试和验证。该模型以每帧 0.000335 美元的恒定成本线性扩展,无论是处理数千帧还是数十亿帧。这种可预测的定价使得即使是最大的视频库也能进行准确的预算规划。
对于高吞吐量工作负载,我们支持使用 webhook 回调进行批量处理。提交数千个帧进行异步处理,完成后接收结果。企业客户可以使用我们的容器化包在本地或云中部署。
如果您计划使用 ClipTagger-12B 处理大规模工作负载或搜索应用,请直接联系我们的合作伙伴@inference.net。我们将与您合作优化部署,确保大规模成功。
定制模型开发
对于有独特需求的组织,我们提供使用与创建 ClipTagger-12B 相同的蒸馏基础设施进行的定制 LLM 训练 。我们的流程提供:
- 50%更快的生成速度,降低延迟
- 与闭源模型相比,最多降低95%的成本
- 拥有完整模型所有权,无供应商锁定
- 从数据到生产部署30天开发
我们的团队处理所有事情:数据整理、模型训练、GPU 采购、基准测试以及部署或部署支持。每个模型都针对特定任务进行了优化,以极低的成本提供前沿性能。
安排一次 15 分钟的咨询 ,讨论您的用例。我们将快速评估定制模型是否符合您的需求。
可用性
ClipTagger-12B 今天以 Apache 2.0 许可证提供,并通过我们的无服务器 API 提供推理服务:
- API 访问 :在 inference.net/register 注册即可获得 25 美元的免费信用
- 文档 :docs.inference.net/use-cases/video-understanding
- 模型 :可在 Hugging Face 上获取
向特定任务模型的转变
ClipTagger-12B 代表了生产 AI 的一个更广泛趋势。随着前沿模型变得更大、更昂贵,它们的能力与实际部署之间的差距也在扩大。组织需要能够以可持续的成本,在特定任务上表现出色的模型。
这正是工作马模型擅长的领域。当你需要特定能力而不是通用智能时,你部署的是针对你确切用例优化的模型。创建 ClipTagger-12B 的相同蒸馏管道可以产生用于医学成像、工业检查、安全监控或任何需要视觉理解的领域的专业模型。
ClipTagger-12B 由 Inference.net 开发,与 Grass 合作。特别感谢 Grass 团队在开发过程中提供视频目录访问和合作。如需定制模型开发,请联系 support@inference.net。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/Inference.net-%E5%8D%9A%E5%AE%A2Cliptagger-12b---Inference.net-Blog-Cliptagger-12b/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com
See Also
- AI 代理的有效上下文工程 Killer Code - 知识铺
- Andrej Karpathy 谈 LLM 辅助编程的演进:哲学与实践的融合 Killer Code - 知识铺
- 一个半月高强度 Claude Code 使用后感受 Killer Code - 知识铺
- Inference.net 博客将 LLM 推理成本降低到电费水平 --- Inference.net Blog Arbitraging Down Llm Inference To The Cost Of Electricity - 知识铺
- 推理网博客 智能体搜索 --- Inference.net Blog Agentic Search - 知识铺