第33卷3期2021年3月
Vol.33No.3
Mar.2021中国煤炭地质
COAL GEOLOGY OF CHINA
doi:10.3969/j.issn.1674-1803.2021.03.09
文章编号:1674-1803(2021)03-0043-05
随机森林模型预测岩溶区酸性煤矿井水猛污染
李冲
(中国煤炭地质总局水文地质局,河北邯郸056000)
摘要:酸性煤矿井水严重威胁地下水的水质。如何更有效对受影响区域的地下水源进行动态监测是当前的一个关键问题。采用随机森林中的回归模型,利用自变量(采空区水位、岩溶水位、pH值、泉水流量、电导率)和因变量 (污染离子浓度)的相关性,建立回归模型;使用测试数据进行误差分析,
结果证明模型准度较高,所得预测值具有参考价值;得出各自变量对因变量影响的重要程度,分析结果与实际情况相符合。试验表明,随机森林回归模型在酸性煤矿井水污染预测方面具有适用性,可作为辅助手段监测水质污染情况,对今后工作有一定的指导意义和经济价值。
关键词:酸性煤矿井水;地下水污染;水质监测;随机森林
中图分类号:X143 文献标识码:A
Prediction of Karst Region Acidic Coalmine Water Manganese Pollution Based on Random Forest
Li Chong
(Hydrogeological Exploration Bureau,CNACG,Handan,Hebei056004)
Abstract:Acidic coalmine water has seriously threatened groundwater quality.How to carry out groundwater dynamic monitoring in the impacted areas is the key issue at present.Based on the regression model in Random Forest,through interdependency between argu­ments(gob area water-level,karstic water-level,pH,spring water flow,electric conductivity)and dependent variable(contamina­ting ion concentration)has established regression model.Using tested data have carried out error analysis;the results proved the model has higher accuracy,predicted data have reference value;le
vel of importance from arguments to dependent variable worked out,the analyzed results in accordance with the realities.The test has shown that the Random Forest regression model is adaptable to acidic coalmine water pollution prediction;it can be an auxiliary means in water quality pollution monitoring.The study has certain guidance and economic values for works henceforth.
Keywords:acidic coalmine water;groundwater pollution;water quality monitoring;Random Forest
在我国,酸性煤矿井水对地下水的污染情况越来越严重。煤矿中含有大量的黄铁矿等含硫矿物,在煤矿的开采过程中,破坏了原有的还原环境,导致硫化物因暴露氧化,生成硫酸,进而使矿井水呈酸性〔7。由于pH值比较低,化学组成复杂,Fe、Mn 等元素含量高,酸性煤矿井水对矿山周围的居民健康状况和当地生态坏境危害性较大牛句。在岩溶发育地区,居民多以岩溶地下水为生活供水水源。由于煤矿井工开采对上覆岩层的破坏,当导水裂隙波及到岩溶含水层时,含水层的水汇流至采空区,水煤反应后产生酸性废水排泄,污染当地水环境〔I。]0
基金项目:凯里市鱼洞河流域环境综合治理工程可行性研究(凯发2018(0366号))
作者简介:李冲(1985-),男,河北晋州人,高级工程师,从事煤矿水害防治及污染治理研究工作。
收稿日期:2020-10-15
责任编辑:樊小舟
猛是酸性煤矿井水的主要污染物之一,过量的猛会严重毒害当地的动、植物,损伤人体的中枢神经系统,出现多种临床症状⑴切。目前,针对地下水猛污染监测的主要方法是在岩溶区地下水受酸性废水影响严重的区域布设地下水监测网,对水质进行动态监测口句。由于人工投入和分析测试等,该方法成本较高。因此,在现有监测数据的基础上,进行深入研究、挖掘数据间的潜在关系,利用易获取的水位、流量、pH值等数据,建立模型,获得测试成本高的污染离子浓度的参考值,可以作为一种降低成本的水质监测辅助手段。
研究表明,受影响地下水中的金属离子含量与岩溶水位、采空区水位、pH值等有_定相关性,但由于地下溶洞发育、通道复杂,用简单的线性模型无法表征[“切]。针对上述问题,本文提出了一种基于随机森林回归模型的岩溶区酸性煤矿井水猛污染的预测方法,利用容易获得的水位及测试成本较低的pH
44中国煤炭地质第33卷
值、流量数据预测猛离子含量,有效地降低成本和测试难度,准确度较高。
1方法原理
随机森林回归模型本质是一种集成算法,通过构建多个基评估器,每棵树的训练子集都是由Boot­strap重复抽样得到,然后进行评价并采用多数表决或求平均的原则决定评估的结果,准确度显著提高⑵]。由于通过平均决策树,降低过拟合的风险,随机森林回归抗过拟合能力较强。此外,模型对噪声、异常值不敏感,稳健性强,而且泛化能力强,在训练完成后,能够给出各自变量的重要程度炉也]。考虑到样本数不大,本次试验按比例划分训练集和测试集,并用测试集进行模型精度测试。
如图1,将随机森林回归预测岩溶区酸性矿井水猛污染的方法和步骤归纳如下:
图1随机森林回归模型预测猛离子浓度流程
Figure1Flow chart of manganese ion concentration
prediction through Random Forest regression model
1)从原始数据中提取各种不同的特征变量数值,作为自变量;将对应的猛离子浓度作为因变量。将因变量和自变量组合成样本数据集。
2)将样本数据以一定比例随机划分为训练集和测试集,再将训练集划分为n个训练子集分别建立回归树。
3)将各训练子集的回归树结果求平均得到随机森林回归模型。
4)将测试集数据代入模型,测试精确度。
本次试验选取均方误差(MSE)、平均绝对误差(MAE)、平均百分比误差(MAPE)作为模型精度参数,各参数计算方法如下:
1n
MSE=—(i)
n;=i
式中:MSE区间为[0,+8),当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。
1”
MAE=—X\yl~Yi\(2)
n i=i
式中:MAE区间为[0,+8),当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。
MAPE=—4⑶
71Al Ji
式中:MAPE区间为[0,+<»),MAPE为0%表示完美模型,MAPE大于100%则表示劣质模型。
2应用实例
研究区位于贵州省凯里市大风洞镇鱼洞河流域龙洞泉。龙洞泉西部有一座飞龙煤矿,矿区面积3.1635km2,矿井产能9万t/a;斜井开拓,房柱式开采,开采煤层为二叠系梁山组Ml煤层,煤层厚度0.8-1.3m,采用巷道炮采采煤工艺,顶板采用全部垮落法管理顶板。于2017年3月份关闭,现已成为无主煤矿。
2.1地质特征
研究区属于典型的喀斯特地质地貌,溶丘、洼地、漏斗分布普遍。区内地层自寒武系至第四系,缺失石炭系,东面主要出露二叠系下统梁山组和中统栖霞和茅口组,其余零星分布区“]。区内主要含煤地层为二叠系下统梁山组。
研究区处于黔北与黔南不同构造变形面貌的过渡地带,呈现复杂多样的构造变形。其中以南北向构造形迹最为显著,岩层走向与山形水势都有极明显的反映,属贵州东部南北向构造带之组成部分。东西向构造受南北向构造横跨重跌削弱而隐伏地下,见之踪迹,也大多为次级断裂,燕山运动强烈。形成背斜宽缓、向斜紧密的隔槽型褶曲⑵也]。
2.2水文地质特征
区内出露地层多,水文地质岩组极其复杂,根据岩性、岩溶化程度、富水性特征划分4个岩溶含水岩组,详见表1。研究区内岩溶含水岩组属于第一类别一强岩溶含水岩组,岩溶地层为二叠系中统茅口组和栖霞组I"〕。区内岩溶水水位埋深基本位于栖霞组顶界面以下40m左右,水位标高为867.69~ 935.40m,总体流向为自北西流向南东,在南东部各岩溶泉处排泄
water pollution
3期李冲:随机森林模型预测岩溶区酸性煤矿井水猛污染45
表1区域岩溶含水岩组划分
Table1Regional karst aquifer lithologic classification
序号类别地层年代
地层厚度
及所占比例
主要岩性说明
强岩溶
T1tZ A P3c>P27n x P29A O1/i 1184m灰岩、白云质灰岩、岩溶强烈发育,面岩溶发育密度3~5个/kn?,
1
含水岩组15.18%灰质白云岩富水性好,含溶洞管道水、溶隙水
2
中等岩4188m泥质灰岩、白云岩、岩溶中等发育,面岩溶发育密度1~3(/km2,溶含水岩组53.7%砂质白云岩富水性中等冷溶洞水、裂隙水、溶孔水弱岩溶981m泥灰岩、泥质条带灰岩、
岩溶弱发育,富水性弱,含溶隙水、裂隙水
3S?仞兀、0也
含水岩组12.58%泥质白K岩
4
非岩溶
P3J^D2&>P i Z>,e ip
1444m
泥页岩、砂岩、玄武岩、煤为隔水层,富水性差,含基岩裂隙水含水岩组1&52%
2.3污染现状
2017年6月30日龙洞泉水质突然变差,水质浑浊,含大量红悬浮物,水流过处留下红沉淀物。根据水质化验结果,泉水主要污染特征为高铁高猛高酸,泉水呈红。经过水文地质调查、物探、钻探等一系列勘查手段,最终确定泉水污染是由飞龙煤矿采空水引起的。煤矿生产时持续排水,矿井内积水相对较少,积水区水位较低,关停后矿井水不再抽排,煤层顶板岩溶水通过导水裂隙带不断补给,强降水过后,矿井水在某些部位获得岩溶水快速补给使采空区积水水位上升,沿导水通道与泉连通,导致泉水污染3°'叫
2.4数据初步分析
试验截取2017-2019年由中煤地华盛水文地质勘察有限公司对该区域水体污染期间的监测数据,并筛选出与猛污染相关的采空区水位、岩溶水位和龙洞泉流量、pH值、电导率数据以及对应的泉水猛离子浓度,数据统计见表2。可以看出,采空区水位、岩溶水位、pH值、猛离子浓度数据间差异小,比较稳定;而泉水流量、电导率数据由于强降雨、污染加重等原因导致存在极端值,差异较大。本次采样88个点,初步分析上述变量与猛离子浓度的相关性,结果如图2所示。
表2样本数据统计
Table2Statistics of sample data
变量名最大值最小值平均数标准差采空区水位/m913.56910.24911.760.87
岩溶水蚀!!!86&76866.71867.530.44 pH值7.47  6.42  6.950.14电导率/s・mT410881769.16102.03
泉水流>/m3-h_1161.901252.00387.18212.01
猛离子浓度/mg•L-1  3.200.90  1.710.42
由图2可以看出,这些变量与猛离子浓度间的关系并不明显,只有采空区水位、岩溶水位、泉水流量、电导率和猛离子浓度间有微弱的相关性。
2.5随机森林回归模型拟合
将数据代入随机森林回归模型按9:1划分训练集和测试集,经前期调试回归树数目定为616棵,进行训练和测试,误差参数结果为MSE0.02, MAE0.11,MAPE6.36%。,模型精度较高,准确度(Accuracy=1-MAPE)达到93.64%。
图3中各变量的重要程度顺序为泉水流量〉采空区水位〉电导率〉pH值〉岩溶水位。泉水流量是地下水最直观的属性,流量大小直接反映了酸性煤矿井水的供水量;采空区水位代表酸性煤矿井水的容量,是地下水污染的主要控制因素之一;电导率和pH值是泉水中离子浓度的反映,是泉水污染的间接
因素;岩溶水是泉水和酸性煤矿井水的补充水源之一。可以看出,模型给出的各变量重要程度较为合理,对于污染治理工程具有一定的指导意义。
图4展示了预测值和实际值的对比情况,结合误差参数MAE(0.11)、MAPE(6.36%)来看,模型的预测值与实际值差别较小,在折线图中的变化趋势近似,表明并无异常预测值产生,预测结果具有参考价值。
3讨论
本次试验重点是研究随机森林回归模型在酸性煤矿井水污染预测方面的适用性,分析其能否给出较为准确的污染离子浓度参考值,也是机器学习方法在预测酸性煤矿井水污染中的初步应用。在今后的工作中,可以将该方法作为一种辅助手段,或者应用其他的机器学习模型,结合动态监测网,更加有效的对污染情况进行监测,具有一定的指导意义与经济价值,可以降低部分分析测试和人工的成本。
46中国煤炭地质第33卷
L
002
1<
91JoO911.00912.00913.00914.003.50-
3.00-
2.50-
2.00-
1.50-
1.00-
.50-
S66.50S67.00S67.50S6S.00S6S^50S69.00
采空区水位/m岩溶水位/m
电导率/S・m-'
(e)
图2各变量与猛离子浓度的散点图
Figure2Scatter diagram of variables and manganese ion concentrations
40-
图3自变量重要程度条形图
Figure3Bar chart of arguments importance level 同时,试验也存在一些不足之处:_是分析样品数量较
少导致准确度难以再度提升。由于条件限制,本次试验只采用了88组数据。随机森林是一种数据统计方法,涉及大量的非线性计算,样本数目较小会导致模型简单,抗干扰能力不足,不利于数据潜力的充分挖掘。在后续工作中,应不断添加监测数据,进一步提高模型的精度和稳定性。二是原始数据存在一些极端值,如强降雨后的泉水流量、污染严重时的电导率,导致数据连续性较差,不利于进行连续变量回归。三是由于酸性煤矿井水和岩溶水在裂隙通道中迁移需要一定的时间,采空区水位和岩溶水位对泉水污染的影响有滞后性,
导致二者与猛离子浓度
3期李冲:随机森林模型预测岩溶区酸性煤矿井水猛污染47
图4预测值与实际值折线图
Figure4Line chart of predicted and measured values
相关性降低,进而使模型精度下降。
4结论
1)由模型误差结果可以看出,随机森林回归在酸性煤矿井水猛污染的预测中误差较小,准确性较高;预测值与实际值差别较小,折线图发展趋势相同,并无异常值出现。
2)各自变量对因变量影响的重要程度顺序为泉水流量〉采空区水位〉电导率〉pH值〉岩溶水位。当降雨量增加时会大量补充采空区酸性煤矿井水,使其涌出并汇于泉口,污染加重,泉水流量是最为直接的特征属性,采空区水位次之;电导率和pH值受污染的间接影响,会随之增减;岩溶水位是泉水和采空区水位的补充水源之一,对污染贡献较小。可以看出,自变量的重要程度与实际情况相符,为后续污染治理工程提供参考。
3)随机森林回归模型在预测酸性煤矿井水猛污染中具有可行性。在实际应用中,模型可作为非极端情况(如强降雨)下的猛离子浓度监测方法,降低人工监测分析的频率,以达到节约成本的目的。
参考文献:
[1]孙亚军,陈歌,徐智敏,等.我国煤矿区水环境现状及矿井水处理利用研究进展[J].煤炭学报,2020,45(1):304-316.
Sun Yajun,Chen Ge,Xu Zhimin,etc.Current situation of water envi­ronment in coal mine areas and research progress of mine water treatment and utilization[J].Journal of Coal Science,2020,45(1):304-31& [2]胡立峰.煤矿酸性矿井水成因及其处理方法[J].煤田地质与勘探,2OO5,33(Z):64-66.
Hu Lifeng.Origin of acid mine drainage and its treatment[J].Coalfield Geology and Exploration,2005,33(2):64-66.
[3]贾锐鱼,李楠,所芳,等.我国煤矿区污水处理技术研究现状与发展[J].水处理技术,2014,40(9):8-12.
Jia Ruiyu,Li Nan,Suo Fang,etc.Research status and Development of sewage Treatment technology in Coal mine areas in China[J].Water Treatment Technology,2014,40(9):8-12
[4]刘勇,孙亚军,王猛.矿井水水质特征及排放污染[J].洁净煤技术,2007(3):83-86.
Liu Yong,Sun Yajun,Wang Meng.Characteristics of mine water quality and discharge pollution[J].Clea
n Coal Technology,2007(3)•83-86. [5]章丽萍,马项阳,吴胜念,等.基于《水处理工程》的酸性高铁矿井水综合实验设计[J].中国矿业,2019,28(6):133-13&
Zhang Liping,Ma Xiangyang,Wu Shengnian,etc.Comprehensive ex­perimental design of well water in high acid iron mine based on Water Treatment Engineering[J].China Mining,2019,28(6):133-13& [6]胡文容,高廷耀.酸性矿井水的处理方法和利用途径[J].煤矿环 境保护,1994,8(1):17-19,16.
Hu Wenrong,Gao Tingyao.Treatment and utilization of acid mine drain­age[J].Coal Mine Environmental Protection,1994,8(1):17-19,16.
[7]高建国,王大州.贵州煤矿区矿井水水质特点及处理工艺探讨[J].中国煤炭地质,2014,26(5):49-52,67.
Gao Jianguo,Wang Dazhou.Discussion on water quality characteristics and Treatment technology of mine water in Guizhou Coal Mine area[J]. Coal Geology of China,2014,26(5):49-52,67.
[8]段江飞,赵建鹏,任虎俊,等.贵州凯里市鱼洞河流域水质污染因子及其变化分析[J].中国煤炭地质,2018,30(6):96-100,118.
Duan Jiangfei,Zhao Jianpeng,Ren Hujun etc.Analysis of water pollu­tion Factors and their Changes in
Yudong River Basin in Kaili City, Guizhou[J].Coal Geology of China,2018,30(6):96-100,118. [9]梁浩乾,冯启言,周来,等.鱼洞河流域废弃煤矿矿井水对水环境的影响[J]•水土保持研究,2019,26(6):382-38&
Liang Haoqian,Feng Qiyan,Zhou Lai,etc.Influence of mine drainage on water environment of abandoned coal mines in Yudong River Basin [J].Soil and Water Conservation Research,2019,26(6):382-388. [10]梁浩乾.鱼洞河流域酸性矿井水被动处理实验研究[D].江苏徐州:中国矿业大学,2019.
Liang Haoqian.Experimental Study on passive treatment of acid mine drainage in Yudong River Basin[D].Xuzhou:China University of Mining and Technology,2019.
[11]李清光,吴攀,顾尚义,等.黔西某煤层气开发区块产出水有毒有害元素污染特征及其环境效应[J].地球科学,2019,44(9):2862 -2873.
Li Qingguang,Wu Pan,Gu Shangyi,etc.Pollution characteristics and Environmental effects of toxic and harmful elements in water produced from a coalbed methane development block in the west of Guizhou prov­ince[J].Earth Sciences,2019,44(9).2862-2873.
[12]付善明,周永章,张澄博,等.河流沿岸环境对粤北大宝山矿废水猛污染的环境响应[J].中山大学学报(自然科学版),2007,46 (2):92-97.
Fu Shanming,Zhou Yongzhang,Zhang Chengbo,etc.Environmental re­sponse of riverine environment to manganese pollution from the Dabaoshan Mine waste water in northern Guangdong[J].Acta Scientiarum Naturali-irni Universitatis Sunyatseni,2007,46(2):92-97.
[13]罗维,杨秀丽,宁黎元,等.贵州主要碳酸盐岩含水层污染现状与特征[J].地球科学,2019,44(9).2851-2861.
Luo Wei,Yang Xiuli,Ning Liyuan,etc.Current situation and character­istics of major carbonate aquifer pollution in Guizhou[J].Earth Sci­ences,2019,44⑼:2851-2861.(下转第59
页)