2. 西藏大学 工学院,西藏 拉萨 850000
我国是一个多山国家,山地、丘陵和高原的面积约占国土总面积的69%。山地特有的能量梯度使泥石流、滑坡、山洪、水土流失等典型山地灾害严重危害着河道周边公路、铁路、桥梁、大型水利工程等重要基础设施的安全[1]。山区公路、铁路、大型水利工程等重要基础设施多处于江河深切割河谷地带,山坡陡峻、地质构造复杂、地层分布特殊,较差的地质条件为河道山地灾害活动,尤其是滑坡、泥石流的发生和发展提供了特定的环境和丰富的固体物质[2-3]。河道周边发生滑坡、泥石流等山地灾害往往具有体量大、破坏力强等特点,常会毁坏公路铁路等交通设施甚至村镇。大型(滑坡体体积为100~1000万m3)和特大型(滑坡体体积大于1000万m3)滑坡、冰湖溃决型泥石流会堵塞河道形成堰塞湖,造成湖水上涨,一旦溃决将对下游人民生命财产及重要基础设施造成巨大损失,其危害往往比滑坡、泥石流本身更严重[4]。及时发现、识别已发生的山地灾害对采取合适的应急救灾预案、及时发布疏散信息意义重大。但山区河道往往地广人稀,传统方式巡检观测河道内山地灾害具有极高的危险性和明显的时间滞后性,因此研究河道山地灾害快速识别方法成为目前迫切需求。
随着大数据时代的到来,以卷积神经网络为代表的深度学习技术相比传统机器学习技术在图像识别领域具有更强大的特征学习和特征表达能力。2012年,卷积神经网络(CNN)技术首次应用在ImageNet大规模视觉识别竞赛(ILSVRC)中便将top-5错误率由传统机器学习技术的26%降至15%,2015年微软利用CNN技术又将ILSVRC评测的错误率降低至3.57%[5],首次超越人眼判别错误率(约5.1%)。卷积神经网络具有参数共享的网络结构,大大降低了模型的复杂度与参数数量,避免了传统机器学习技术严重依赖于经验的特征提取与特征选择过程。在卷积神经网络中,图像像素作为网络的最底层输入,信息依次传输到不同的层,每层通过卷积核取得图像特征,这种网络结构提取到的特征对于平移、旋转、位姿变化、比例缩放具有高度不变性。受此启发,在深度学习开源框架下,利用大量现有的河道山地灾害图片数据完成了多种深度模型的训练、迁移,实现了泥石流、滑坡两种河道山地灾害的高准确率识别。
1 卷积神经网络 1.1 传统机器学习技术传统的机器学习技术在处理图像数据完成图像分类任务时,一般按照图像采集-预处理-特征检测-特征选择-图像分类的流程进行。图像特征检测、选择是成功解决问题的关键[6],目前一般采用方向梯度直方图、尺度不变特征变换、局部二值模式等特征检测方法。这些特征检测方法往往需要经验丰富的专家来设计,无法真正提取共性的全局特征,仅适用于固定场景图像的理解。河道山地灾害往往图像背景复杂,拍摄视角难以固定。采用传统机器学习技术进行分类时,图像特征检测方法仍需重新设计,无法实现快速识别。
1.2 卷积神经网络理论在处理场景变化的复杂图像分类问题时,以卷积神经网络为代表的深度学习方法不需要人工设计特征检测方法,而是由机器自动学习获得,适用于复杂的图像场景,且具有良好的鲁棒性与泛化能力。
卷积神经网络是一种特殊的深度前馈网络,每层由多个特征提取平面组成,一个典型的卷积神经网络架构如图 1所示。
输入的图像通过多个可训练的卷积核进行卷积,得到C1层与卷积核数量相同的特征图,然后通过池化操作将特征图降采样得到S2层特征映射图,这些特征映射图再通过卷积得到C3层,之后又通过与S2相同的方式得到S4层,最终这些采集到的高维度特征被光栅化,在全连接层中被分类处理,得到输出。由于卷积过程中一个映射面上的神经元权值共享,在卷积核所在的区域,所有像素和卷积核对应位置相乘求和的过程中,均与同一组权重相乘,因此大大减少了参数的个数与参数初始化的难度。池化是一种统计信息提取的方式,为求出特征图上一个给定区域中能代表该区域特点的值,在深度学习中一般采用平均值池化(average-pooling)或最大值池化(max-pooling)。池化层最直接的作用是引入了不变性,在池化区域内部任何的位移都不会对结果产生影响[8]。卷积神经网络这种卷积层与池化层结合的二次特征提取结构使网络在识别时对图像样本有很高的畸变容忍能力,鲁棒性较强。
卷积神经网络将数据集中大量有标签的图像数据从原始高维特征空间映射到低维特征空间,训练分类器,具有良好的泛化能力[9-10]。因此对于图像背景、拍摄视角无专业背景知识的需求。
1.3 卷积神经网络训练本文的网络模型是在由伯克利视觉和学习中心(Berkeley Vision and Learning Center,BVLC)开发的高效深度学习开源框架Caffe上运行训练的。Caffe是基于C++/CUDA实现的卷积神经网络框架,提供Python和Matlab接口,是目前实现前馈卷积神经网络架构的主流深度学习框架。本文GPU使用了NVIDIA公司GeForce GTX745,主要对比了ImageNet大型视觉识别挑战赛(ILSVRC)2012年冠军AlexNet及其改进版本CaffeNet与ILSVRC2014年冠军GoogLeNet,之后又在其训练结果之上结合迁移技术进行微调测试模型识别准确率。CaffeNt与AlexNet相似,均由5个卷积层、3个全连接层组成,不同之处在于二者局部响应归一化层(Local Response Normalization,LRN)与池化层(Pooling)互换了位置。GoogLeNet是2014年Christian Szegedy提出的一种全新的22层深度学习结构,为了避免增大网络深度(层数)带来的负作用如过拟合、梯度消失、梯度爆炸等[5, 11],提出了inception结构,在相同尺寸感受野中叠加1×1卷积核、3×3卷积核、5×5卷积核,更高效地利用计算资源,在相同计算量下能提取到更多的特征,从而提升训练效果。采用收敛速度最快的AdaDelta作为优化器,模型最终准确率也最高。
2 河道山地灾害图像来源及特征 2.1 川藏公路川藏公路南线是我国318国道的组成部分,由四川成都至拉萨,全长2 146 km。该线路是西藏联络内地的交通命脉之一,对于发展西藏经济、加强民族团结和保障国家安全等方面均有重要的战略意义。频发的多种河道山地灾害导致该线路经常断道,严重影响了西藏经济发展。
2.2 帕隆藏布流域河道帕隆藏布流域属念青唐古拉山系,位于N29°07′~N31°03′,E92°53′~E97°07′,山岭海拔一般在5 500~6 000 m,全流域面积28 630.9 km2,其中干流所在的波都藏布及其以上流域面积11 551.5 km2,易贡藏布13 533.4 km2,拉月曲3 141.5 km2,分别占全流域面积的40.3%,47.3%和11.0%。帕隆藏布全长266 km,落差3 360 m, 平均比降12.6‰,流域内有森林3 500 km2, 现代冰川4 638.42 km2,高山灌丛草甸及草原20 385.2 km2,分别占全流域面积的12.2%,16.2%和71.2%[12]。川藏公路从流域东南角的安久拉垭口(海拔4 468 m)进入,沿帕隆藏布干流从东南向西北,在通麦折向西南,沿拉月曲上行,经色季拉垭口(海拔4 556 m)离开该流域,全长296 km[13]。由于该流域受印度洋暖湿气流影响,降水丰富,河道侵蚀发育,河流深切,相对高差一般在2 000~4 000 m,谷坡陡峻,谷坡表面物质移动强烈,使得川藏公路在该流域沿途遭遇各种山地灾害的干扰和破坏,其中以滑坡、泥石流最为严重,从山地灾害的角度来看,该流域河道堪称山地灾害的“博物馆”。
2.3 图像数据集本文采用的图像数据多数为项目组人员在川藏公路帕隆藏布流域河道附近多次野外考察所得,基本涵盖土质滑坡中堆积体滑坡、残坡积层滑坡、人工填土滑坡,岩质滑坡中近水平层状滑坡、顺层滑坡、切层滑坡、逆层滑坡、楔形体滑坡,以及暴雨型泥石流、冰川型泥石流、冰碛型泥石流等滑坡、泥石流主要形式(图 2)。部分来源于互联网相似图片。帕隆藏布流域河谷气候独特,是西南季风和印度洋暖流进入青藏高原的交汇处,具有充沛的降水[14]。对于滑坡、泥石流等河道山地灾害而言降水是最主要因素,因此帕隆藏布流域河道内山地灾害频发。由于水热条件优越,流域内发育了丰富的河谷亚热带北缘的常绿阔叶林、高山灌丛草甸和草原稀疏植被。森林和高山灌木丛等植被对抑制小型泥石流有很大作用,对中等规模以上的泥石流等灾害作用却不大[3]。因此该流域泥石流、滑坡发生后往往与周边植被具有明显界限,如图 2所示。
图像采集设备主要采用无人机、数码相机,同时辅助使用手机、数码摄像机等。由于图像采集设备的分辨率不同,为了满足卷积神经网络对输入数据的要求,在数据采集准备阶段将图片统一归一化为256×256。本文将已采集的原始图片数据分为滑坡、泥石流、正常情景共3类各2 000张图像,受限于实地灾害图像难以取得、数量较少,难以满足卷积神经网络对数据量的要求,本文使用旋转、调整图像对比度两种方法将各类数据图像均扩充至6 000张,其中滑坡图像标签统一设置为0,泥石流图像标签设置为1,正常情景图像标签设置为2,各类图像随机选取4 800张作为训练集,1 200张为测试集。
3 网络模型训练结果分析相同数据集下对AlexNet,CaffeNet,GoogLeNet直接训练计算结果如图 3所示。
从图 3可以看出,3种网络在约第1 200次迭代完成后均达到收敛,从测试准确率来看AlexNet网络模型的测试准确率最高达到85.2%,CaffeNet与GoogLeNet网络模型测试准确率为77.5%。从损失函数值来看,AlexNet的损失函数值下降最快,在迭代完成后达到0.38,CaffeNet与GoogLeNet完成迭代后损失函数值稳定在0.45。
为了克服数据集偏小的缺点,本文尝试使用伯克利视觉和学习中心利用目前世界上图像识别最大的数据库ImageNet训练出的相应模型迁移学习技术对现有网络进行微调,同一网络使用迁移学习技术前后计算结果对比如图 4所示。
从图 4可以看出,3种网络使用迁移学习技术进行微调后均能较之前更快达到收敛,测试准确率也有大幅提高。AlexNet网络模型的测试准确率达到90.5%,CaffeNet网络模型的测试准确率达到89.6%,GoogLeNet模型为80.2%。
从以上结果可以看出,对于此类图像,AlexNet和CaffeNet网络模型的性能表现优于GoogLeNet。由于相应网络模型经过ImageNet数据库训练后含有较多低级特征参数信息,使用迁移技术对其进行网络模型参数微调能大幅提高网络模型的测试准确率。
4 结语整理了藏东南地区帕隆藏布流域河道山地灾害图片数据集,提出一种基于卷积神经网络的河道山地灾害快速识别方法,结果表明卷积神经网络可以用来对河道山地灾害图片进行快速、准确识别。但是在目前网络模型训练过程中,优化器参数的调整方式还需改进,结合地质学知识将灾害图像进一步分类细化是下一步研究的重点。
[1] |
崔鹏. 中国山地灾害研究进展与未来应关注的科学问题[J]. 地理科学进展, 2014, 33(2): 145-152. ( CUI Peng. Progress and prospects in research on mountain hazards in China[J]. Progress in Geography, 2014, 33(2): 145-152. (in Chinese)) |
[2] |
宋章, 张广泽, 蒋良文, 等. 川藏铁路主要地质灾害特征及地质选线探析[J]. 铁道标准设计, 2016, 60(1): 14-19. ( SONG Zhang, ZHANG Guangze, JIANG Liangwen, et al. Analysis of the characteristics of major geological disasters and geological alignment of Sichuan-Tibet Railway[J]. Railway Standard Design, 2016, 60(1): 14-19. (in Chinese)) |
[3] |
李宏恩, 何勇军. 水库与山洪灾害防治协同预警模式[J]. 水利水运工程学报, 2017(1): 37-42. ( LI Hongen, HE Yongjun. Early collaborative warning mode for non-engineering measures of reservoirs and flash flood disaster prevention[J]. Hydro-Science and Engineering, 2017(1): 37-42. (in Chinese)) |
[4] |
郭志学, 彭清娥, 汤雷, 等. 堆积体作用下陡坡河道流速沿程及横向分布规律[J]. 水利水运工程学报, 2011(4): 27-31. ( GUO Zhixue, PENG Qing'e, TANG Lei, et al. Streamwise and lateral velocity distribution of steep river under the action of deposit body[J]. Hydro-Science and Engineering, 2011(4): 27-31. DOI:10.3969/j.issn.1009-640X.2011.04.004 (in Chinese)) |
[5] |
SZEGEDY C, LIU N W, JIA N Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society, 2015. http://www.oalib.com/paper/4068635
|
[6] |
崔永锋, 刘伟. 远程采集图像特征的优化识别过程仿真[J]. 控制工程, 2016, 23(7): 1053-1056. ( CUI Yongfeng, LIU Wei. Simulation of optimization and recognition of image features in remote collection[J]. Control Engineering of China, 2016, 23(7): 1053-1056. (in Chinese)) |
[7] |
LECUM Y L, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791 |
[8] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1097-1105. |
[9] |
ZHENG Q, YANG M, YANG J, et al. Improvement of generalization ability of deep CNN via implicit regularization in two-stage training process[J]. IEEE Access, 2018, 6: 15844-15869. DOI:10.1109/ACCESS.2018.2810849 |
[10] |
李明威.图像分类中的卷积神经网络方法研究[D].南京: 南京邮电大学, 2016. (LI Mingwei. Research of convolutional neural network in image classification[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2016. (in Chinese)) http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=D821692
|
[11] |
YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks[J]. Eprint Arxiv, 2014, 27: 3320-3328. |
[12] |
中国科学院水利部成都山地灾害与环境研究所, 西藏自治区交通科学研究所. 川藏公路典型山地灾害研究[M]. 成都: 成都科技大学出版社, 1999. ( Institute of Mountain Hazards and Environment, Chinese Academy of Sciences and Water Conservancy Ministry, Institute of the Traffic Science, Tibet Autonomous Region. A study of typical mountain hazards along Sichuan-Tibet Highway[M]. Chengdu: Chengdu University of Science and Technology Press, 1999. (in Chinese))
|
[13] |
罗德富, 毛济周, 朱平一. 川藏公路南线(西藏境内)山地灾害及防治对策[M]. 北京: 科学出版社, 1995. ( LUO Defu, MAO Jizhou, ZHU Pingyi. Mountain disasters and prevention countermeasures in Sichuan-Tibet Highway South (Tibet)[M]. Beijing: Science Press, 1995. (in Chinese))
|
[14] |
王培清, 徐国涛, 何强. 西藏藏东南地区典型地质灾害成因及防治技术浅析[J]. 西藏大学学报(自然科学版), 2013, 28(1): 16-20. ( WANG Peiqing, XU Guotao, HE Qiang. Analysis on the causes of typical geological disasters in the southeastern Tibet and its prevention technology[J]. Journal of Tibet University, 2013, 28(1): 16-20. (in Chinese)) |
2. Institute of Technology, Tibet University, Lhasa 850000, China