深度学习必备的几款流行网络与数据集
一. 常用网络
深度学习相关的几个比较著名的网络,AlexNet、VGG、GoogleNet、ResNet。
从整体趋势来看,准确度越来越高,同时网络层数也越来越多,可以认为网络结构的复杂性带来效果的提高,而模型参数的数量并非越多越好,合适就好,参数数量太多可能会一定程度上导致过拟合问题。
二. 常用数据集
常用的数据训练集如下:
大家可以根据自己的需要设计网络,也可以考虑在现有成熟网络的基础上做一些修改,当然也需要标注大量的数据,靠谱的做法是开发个自动标注工具,收集训练样本!
下载地址:
MNIST:
ImageNet:
COCO:
VOC:
CIFAR:
车辆是视频场景中最关键的对象之一,车辆 和 人 是视频检测永恒的话题。
车辆检测 是车辆分析中关键的一步,是后续进行 车型识别、车标识别、车牌识别、车辆特征 的基础。
关于检测的方法和框架有很多,不外乎是特征训练和分类,这里推荐两篇综述性文章:
[1] Benenson R, Omran M, Hosang J, et al.Ten Years of Pedestrian Detection, What Have We Learned? [M]// Computer Vision - ECCV 2014 Workshops. Springer International Publishing, 2014:613-627.
[2] P.Dollar, C. Wojek,B. Schiele, et al.Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.
http://vision.ucsd.edu/~pdollar/files/papers/DollarPAMI12peds.pdf
• 开放检测算法框架及代码:
关于目标检测的框架及代码非常多,这里列出来几个:
名声在外的 DPM
Deformable Part Models,专业做行人检测,对于车辆检测等刚体目标 并无太多优势。
参考代码: https://people.eecs.berkeley.edu/~rbg/latent/index.html
INRIA Object Detection and Localization Toolkit
基于HOG特征的行人检测方法,由Dalal于 2005年 提出,经典中的经典(虽然稍微有点老)。
参考代码:http://pascal.inrialpes.fr/soft/olt/
doppia code
这是一个代码集合,2015年 更新,内容包含:
a) Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012.
b) 实时的 Stixels estimation without depth map computation.
c) Fast stixels estimation for fast pedestrian detection.
d) Seeking the strongest rigid detector.
e) Ten years of pedestrian detection, what have we learned?
f) Face detection without bells and whistles.
下载地址: https://bitbucket.org/rodrigob/doppia
Pitor Dollar Detector
有一个代码集合,大牛名字命名,全称为:Piotr’s Computer Vision Matlab Toolbox
下载地址: https://pdollar.github.io/toolbox/
• 开放训练数据集 (行人检测):
MIT 行人数据集
MIT 早期公开数据集(2000年),共924张行人图片(ppm格式,宽高为64×128),只含正面和背面两个视角,无负样本,未区分训练集和测试集。
该数据集目前已很少使用,但由于公开较早,影响力比较大,因此作者把它列在第一个。
下载地址: http://cbcl.mit.edu/software-datasets/PedestrianData.html
Caltech Pedestrian 行人数据集
该数据库是目前规模较大的行人数据库(2014年),采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640×480,30帧/秒。
标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,提供了相应的Matlab工具包。
下载地址: http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
NICTA 行人数据集
目前规模较大的静态图像行人数据库,25551张含单人的图片,5207张高分辨率非行人图片(2008年)。
数据库中已分好训练集和测试集,方便不同分类器的比较。
下载地址:http://www.nicta.com.au/category/research/computer-vision/tools/automap-datasets/
INRIA Person
目前使用最多的静态行人检测数据集,由“HOG+SVM”的作者Dalal创建(2005年)。
训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。
下载地址:http://pascal.inrialpes.fr/data/human/
另外,还有 TUD、ETHZ、USC、CVC 等数据集,当然你可能也知道大名鼎鼎的 ImageNet(里面会有少部分行人),当然公版数据集也仅仅在于自己测试用,想要得到更好的检测效果,你必须训练自己的数据集。
• 开放训练数据集 (车辆检测):
MIT - CBCL 车辆数据集
由 MIT 提供的车辆数据集(2000年),主要用于车辆检测和识别中,共有516张128*128格式为ppm的图像。
下载地址: http://cbcl.mit.edu/software-datasets/CarData.html
KITTI
这是一个测试交通场景中 车辆检测、追踪、语义分割等算法的公开数据集。由丰田汽车主导,目前在测试自动驾驶等识别算法中应用比较多。
实际上,KITTI 已经成为 ADAS行业的 实际效果检测标准。
下载地址: http://www.cvlibs.net/datasets/kitti/index.php
UA-DETRAC
车辆检测和跟踪的大规模数据集,可以作为 KITTI 的补充。
数据集主要拍摄于北京和天津的道路过街天桥(京津冀场景有福了),并 手动标注了 8250 个车辆 和 121万目标对象外框。
附带的 Toolkit 统一了数据接口,里面包含了几种 State-Of-The-Art 的检测和跟踪方法(大家可以进行测试比较)。
数据集:DETRAC-Train-Images (5.22GB, 60 sequences)
DETRAC-Test-Images (3.9
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek/post/%E4%BA%92%E8%81%94%E7%BD%91/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%BF%85%E5%A4%87%E7%9A%84%E5%87%A0%E6%AC%BE%E6%B5%81%E8%A1%8C%E7%BD%91%E7%BB%9C%E4%B8%8E%E6%95%B0%E6%8D%AE%E9%9B%86/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com