关键词:
便携式传感器
嵌入式系统
卷积神经网络
目标检测
实时性
目标定位
大众摄影测量
摘要:
随着深度学习技术的迅速发展,基于卷积神经网络的实时目标检测广泛应用于人脸识别、姿态预测、视频监控等多种智能应用领域。YOLOv3是YOLO(You Look Only Once)系列实时物体检测方法的第三个版本,较之前的实时物体检测方法,检测速度更快,准确率更高。但是,其检测模型较为复杂,模型参数量巨大,需要图形处理器的支持才能实现实时运行,无法在计算能力和功耗有限的设备平台上应用。随着小型智能无人机、增强现实眼镜智能设备的推广应用,如何在这些计算能力和功耗有限的嵌入式移动平台上对影像或视频数据进行目标的实时检测与识别,已成为计算机视觉领域研究人员和用户日益关注的问题。同时,PhotoScan、Smart3D等摄影测量软件将专业测绘流程简单化,使得利用非专业测量型移动智能设备(如手机)上搭载的摄像头和GPS等传感器进行高精度目标定位与三维重建成为可能,这些都为专业摄影测量走向大众摄影测量提供了硬件和软件的现实基础。针对现有目标检测算法难以在计算能力和设备功耗有限的嵌入式和移动智能设备上进行实时准确的目标检测和定位以及推广使用嵌入式和移动智能设备进行大众摄影测量的问题,本文对原有卷积神经网络进行轻量化改进,以提高目标检测算法在嵌入式和移动智能设备上的检测速度,提升算法的准确率。在此基础上,进一步开展非专业测量型传感器图像的目标定位技术研究,并将目标检测、识别和定位技术结合,以实现利用手机等便携式传感器进行大众摄影测量工作。论文主要工作包含以下几个方面:(1)总结了神经元、多层感知器和卷积神经网络等深度学习基础理论,对ResNet、HRNet、YOLOv3等准确率较高的复杂网络和MobileNet、YOLO-LITE等高效的轻量化网络进行了研究,并对最后通过实验测试对Darknet53、MobileNetV1、MobileNetV2等经典网络作为YOLOv3骨干网络的模型进行了实验测试。分析实验结果,总结每个模型的优缺点,为本文改进算法的提出奠定理论基础并提出以下指导:较大的输入图像、更深和更复杂的网络结构对网络的检测性能有积极作用;在输入图像大小和模型的参数量、计算量相对固定的情况下,优化网络结构也能提升网络的检测性能。(2)提出了一种应用在无GPU设备或移动设备上的轻量级实时目标检测网络——Mixed YOLOv3-LITE。它以YOLO-LITE的骨干网络为基础,添加ResBlock和并行连接,在增加网络深度的同时充分利用浅层网络特征,使用“浅而窄”的卷积层构建检测器,实现在无GPU计算机和便携式终端设备上检测精度和检测速度上的最优平衡。实验结果表明,所提Mixed YOLOv3-LITE网络模型大小为20.5MB,分别比YOLOv3、tiny-YOLOv3和SlimYOLOv3-spp3-50小91.70%、38.07%和74.25%;其在PASCAL VOC 2007数据集上的平均准确率达到48.25%,比YOLO-LITE提升了14.48%;在VisDrone 2018-Det数据集上平均准确率达到28.50%,分别比tiny-YOLOv3和SlimYOLOv3-spp3-50提高18.50%和2.70%。结果表明Mixed YOLOv3-LITE可以在移动终端和其他无GPU设备上实现更快的检测速度和更高的检测准确率。(3)在目标检测的基础上,研究基于便携式传感器的目标地理定位技术,设计了一款可以采集Android设备上摄像头、GPS等传感器模块的影像和位置信息数据的工具型“CamPOS”应用程序;提出了一种“双平行线”分布数据采集模式来指导数据采集,以实现基于便携式传感器、非专业摄影测量的目标定位目的。使用PhotoScan进行数据处理,在生成的三维模型上进行量测。实验结果表明,在该相片模式下,相片拍摄位置距离目标点的平均距离为193.210米,最近距离为86.404米,最远距离为281.780米的情况下,点位中误差可达到10米以内,最优点的点位中误差仅为2.910米,能够满足在城市救援、山火预警等特定应急突发情况下,使用非专业型测量设备也可以达到高精度的摄影测量定位。