一、概述
1、是什么
是一个目标检测器,通过结合CLIP文本编码器,拥有了开放检测(推理时识别训练时没有的目标)的能力。作者实验证明ap 指标上 zero shot能力YOLO-world L接近专门训练过的YOLOv6-8 S 模型的能力,finetune 后YOLO-world 均能提升8个点左右。
2、亮点
将文章的提到亮点按照逻辑重新组合后:
1)介绍了YOLO-World,这是一个前沿的开集目标检测器,它具有高效率,适用于实际应用场景。
2)提出了一个可重新参数化的视觉-语言PAN模型,用以连接视觉和语言特征,并针对YOLO-World设计了一套开集区域文本对比预训练方案。
3)YOLO-World在大规模数据集上的预训练展示了强大的零样本性能,在LVIS上达到35.4 AP的同时,还能保持52.0 FPS的速度。
4)预训练的YOLO-World可以轻松适应下游任务,例如,开集实例分割和指代目标检测。
5)YOLO-World的预训练权重和代码将开源
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek001/post/20240828/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%AE%97%E6%B3%95YOLO-Word%E7%AE%97%E6%B3%95%E8%AF%A6%E8%A7%A3_yoloworld%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B-CSDN%E5%8D%9A%E5%AE%A2/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com