第39卷第3期 2021年3月Vol. 39.N o. 3 Ma r. 2021
[文章编号]1009-7767 (2021)03-0112-04D O I:10.19922/j.1009-7767.2021.03.112
基于主成分分析和聚类分析法的内河水系水质
污染综合评价
肖合顺\郑义团、洪章霖、秦巧\宁荣盛2,范功端2
(1.中建三局第一建设工程有限责任公司,湖北武汉430040; 2.福州大学土木工程学院,福建福州350108)
[摘要]城市内河黑臭问题越来越突出,对河道水质进行准确评价已成为关键。因此以福州市城区5条典型内河为研究对象,通过对2019年的水质监测数据进行主成分分析,并利用聚类分析法对河道的15个断面进行分类,再根据分析结果明确了其水质污染特征和评价水质状况。分析结果显示,内河水质受?^仏-1\、1^、8005、00;^指标影响较大。其中氮素污染和有机污染为内河水系最主要的污染类型,氨氮污染最为严重。该研究采用的主成分分析和聚类分析结合的方法能更好地反映河道水质状况和关键影响因子,对其他类似河道水系水质评价有借鉴意义。
[关键词]内河水质;水质污染;主成分分析;聚类分析;综合评价
[中图分类号]X522 [文献标志码]B
Comprehensive Evaluation of Water Pollution of Inland River Systems Based on
Principal Component Analysis and Cluster Analysis
Xiao Heshun1,Zheng Yituan1,Hong Zhanglin\Qin Qiao1,Ning Rongsheng1, Fan Gongduan2
(1. F irst E n g in e e rin g Co.,L td.o f C hina C onstruction T h ird E n g in e e rin g Bureau j W uhan430040, C h in a;
2. College o f C iv il E ngineerings Fuzhou U n iv e rs ity,Fuzhou350108, C hina)
A b s t r a c t:T h e black and odor of urban inland rivers is becoming more and more serious and accurate evaluation of water quality has b e c o m e the key procedure.Taking five typical inland rivers in Fuzhou as research objects,princi­pal component of water quality monitoring data in 2019 are analyzed,the 15 sections of the rivers are clustering classified by cluster analysis.T h e characteristics of water pollution are determined and water quality are evaluated according to the analysis results.T h e analysis results sho w that the water quality of inland rivers is greatly affected by N H3-N,T N,B0D5,D O and T P indicators.T h e nitrogen pollution and organic pollution are the ma
in pollution types in inland river systems.T h e a m m o n i a nitrogen pollution is the most serious.T h e method of principal c o m p o­nent analysis combined with cluster analysis can better reflect the water quality and the key influencing factors of the rivers.I t can provide reference for water quality evaluation of other similar river systems.
K e y w o r d s:water quality of inland river;water pollution;principal component analysis;cluster analysis;c o m p r e­hensive evaluation
近年来,由于城市的快速发展以及人口的增加,城市内河污染日趋严重,河内生态环境变化较大,已经引起社会各界的广泛关注。因此,采用合适的方法
[收稿日期]2020-06-22
[作者简介]肖合顺,男,助理工程师,学士,主要从事黑臭河道治理与修复技术研究工作。对城区内河水质现状进行科学的综合评价以及明确 水系水质污染特征是十分必要的。目前水质评价的 方法很多,主要分为主成分分析法、聚类分析法和 单因子指数法等[1_3]。这些评价方法各有优缺点,如:单因子指数法是选取水质最差的类别作为评价结果,评价过程简单但却无法描述水体综合污染特征;
第3期肖合顺等:基于主成分分析和聚类分析法的内河水系水质污染综合评价113
主成分分析法从多个变量指标中提取出最具代表性 的几个综合指标,同时能够全面、准确地评价水环境质量;聚类分析法是一种简单、直观的分类方法,在分析和评价水质时具有良好的应用。
因此,笔者以福州市内河为例,根据2019年 3—10月在福州市城区内的5条典型内河调查数据,运用主成分分析法对研究区域主要污染指标进 行分析,并采用主要影响指标对5条内河的15个断 面附近的水质状况进行聚类分析,以期为后续内河 整治工作的开展提供依据。
1材料与方法
1.1数据来源
数据采集于福州市城区2019年3—10月的5条 典型内河(东西河、茶亭河、打铁港河、达道河、三捷 河)。为了分析方便,对每条河选取了上游、中游、下 游断面作为采样点,在不同时期共计取样14次,测 量样品数为210个。实际检测水质指标为8项,分别 为溶解氧(D O)、氧化还原电位(O R P)、透明度(S D)、氨氮(N H3-N)、五日生物需氧量(B O D5)、化学需氧 量(C O D)、总氮(T N)和总磷(T P)。
其中:D O采用电化学法测定;O R P采用铂电极 直接测定法测定;S D采用黑白盘法测定;N H3-N采 用纳氏试剂分光光度法测定;B0D5采用稀释与接种 法测定;C O D采用重铬酸钾法测定;T N采用碱性过 硫酸钾消解-紫外分光光度法测定;T P采用过硫酸 钾消解-钼酸铵分光光度法测定。
1.2分析方法
1.2.1主成分分析法
主成分分析法将原始复杂变量归纳为几个综合变量,其中每个主成分都是原始变量的线性组合,而每个主成分之间没有相关性,因此,原始变量的 大多数信息可以由几个综合变量反映出来,并且所 包含的信息不会相互重叠主成分分析法可以全面反映水体的污染程度,主要污染物的种类、来源、成因、时空分布规律和变化趋势,并到重点监测水质指标和断面。主成分分析法的计算步骤和公式 如下:
1)将数据组成样本矩阵/IX/),对原始数据进行 标准化来消除不同量纲的影响,gp:
X ii* = —X,1——,t=l ,n;j=\ ,p〇(1) Vvar(%;)其中毛.和var(A)为列向量%的均值及方差,即:
n n
^j=一 ,var(^) = -J— X(xij-Xj)20(2)
n i=l71—丄,=|
2) 计算样本矩阵的相关系数矩阵/?pXj0,矩阵中 的元素计算如下:
n
rij=—T,2,...,p。(3)
71—1 i=i
3) 计算相关系数矩阵的特征值和对应的特征向 量;所得特征向量组成了主成分系数矩阵。
4) 计算各分量的贡献率和累计贡献率,求解主 成分分量的表达式。贡献率C,的大小等于该主成分
对应的特征值;I,与全部特征值总量的比例值,即:
P
X a,
i=l
式中前〖个主成分分量的累计贡献率为:
5,.= C i+ c2+…+c,0(5)
5)计算主成分荷载、主成分的得分等数字特征。
主成分荷载为:
load= 〇i\/~^。(6)
式中:为特征值又,对应的特征向量。
从原始样本数据矩阵出发,经过主成分变换后
得到主成分得分矩阵。
1.2.    2 聚类分析法
聚类分析法的基本思想是根据样本或指标之间
的亲疏程度,将相似的样本聚在一起。笔者将主成分
分析得到的主成分指标作为新的变量,再利用聚类
分析法对5条内河的15个断面进行分类,将水质状
况相近的河段聚成一类,以便科学客观地认识内河
水系水质状况。
笔者根据实际情况选择聚类分析法,小类与小
类之间的相似程度的度量使用组间平均连锁法,测
量间距为欧几里得距离的平方和,计算公式如下[51:
EUCUD= W Xl-yy。(7)
式中:A为每个样本中有&个变量%为第1个样本
在第;个变量上的取值;y,为第2个样本在第;个变
量上的取值。
2结果与分析
1)选取 D O、O R P、S D、N H3-N、B0D5、C0D、T N、T P
共8个水质指标,对5条内河15个断面的监测值进
114
第39卷
主成分
特征值贡献率/ %
累积贡 献率/%特征值贡献率/ %
累积贡 献率/%1  3.35741.96741.967  3.35741.96741.9672  1.61420.17462.141  1.61420.17462.14130.97412.17574.3160.974
12.175
74.316
40.7098.85883.17450.6137.65890.83260.435  5.43696.26870.259  3.23699.5048
0.040
0.496
100.000
表2中显示了前3个主成分累计贡献率达 74.31%,即3个主成分能反映原始水质指标所提供 的绝大部分信息。而这3个主成分中,又以前2个 主成分作为关键因素,包含的信息最多。因此,选择 前3个主成分对福州市内河水系水质进行分析与 评价。
3)各特征值的取值情况见图1,因子载荷散点 见图2。
行主成分分析(共选取了 3个主成分,因为前3个主 成分累积贡献率达到74.31%)。首先对各水质指标测 量值采用统计学数据处理方法进行统计,见表1。
表i
描述统计量
水质指标
water pollution最小值最大值均值方差DO 0.10  6.87  2.79  1.99ORP -149.67156.3463.73  2 785.79SD 18.0059.6735.5672.72N H ,-N
0.9026.527.1420.14b o d 5
25.9352.8035.0617.17COD 10.7052.3525.3486.55TN 0.9627.929.0818.83TP
0.06
1.26
0.57
0.07
从表1可以明显看出,O R P 的方差值最大,说明 极大值与极小值相差最大,这是因为内河不同河段 的水质情况差异较大;C O D 和S D 的方差值也相对 较大。该现象反映出这3个指标随时间和空间的波 动变化较大。然而,T P 的方差值只有0.074,说明典 型内河的总磷变化比较平稳。
2)通过将总方差分解到不同主成分中,提取方 差较大的主成分,使这些主成分对原有变量的信息 解释强度加大(见表2)。
表2
水质指标方差分解主成分提取分析
始初特征值
提取求和的平方荷载主成分数
围1碎石图
图2
因子载荷散点图
从图2可以看出,N H 3-N 和T N  2个指标聚集在 一起,说明它们之间联系紧密;而D O 和B 0D 5则相 距较远。图2比较直观地展示了这些指标之间关系 的紧密程度,其结果与表2相关性矩阵相一致。
4)各水质指标主成分荷载矩阵见表3。
表3
各水质指标主成分荷载矩阵
主成分1 23DO -0.771-0.3600.013ORP -0.457-0.1720.745SD
-0.6500.376-0.209NH「N 0.796-0.4940.113BOD ,0.6820.5700.120COD 0.3330.6540.471TN 0.775-0.5390.102TP
0.566
0.162
-0.340
从表3可以看出,联系系数绝对值越大,联系 紧密程度就越高。还可以看出,第1主成分反映了
N H 3-N 、T N 、D 0、S D 、B 0D 5、T P  这些指标的信息
第3期肖合顺等:基于主成分分析和聚类分析法的内河水系水质污染综合评价115
第2主成分反映的是C O D指标的信息,而O R P则可 以被第3主成分所表达。综合3个主成分可知,对内 河水质影响最大的是氮素污染和有机污染物。
5)通过计算主成分得分和综合得分来对5条内 河的水质进行分析评价,即:分别将每条内河的8个 指标的相应平均值进行标准化处理后,再将各个指 标的标准值与对应的第1、2、3主成分系数相乘再加和,即得到各个主成分的得分值。综合得分由主成 分得分与方差贡献率之积得出,具体见表4。
表4各内河主成分得分及综合得分
内河名称主成分1主成分2主成分3综合得分等级东西河-9.50431.166-55.371-444.2533
茶亭河  1.40536.611-56.111105.4292
打铁港河-21.72022.878-77.743-1 396.5035
达道河-22.96324.045-71.915-1 354.1694
三捷河  4.89632.537-49.368260.8161
从表4可以看出,三捷河的水质情况最好,而打 铁港河的水质情况最差,其余河的水质情况也可以 清楚地看到。
6)在主成分分析的基础上,采用聚类分析法,分别对各河段按N H3-N、T N、D0、B O D5进行聚类。按照内河位置进行聚类,画出聚类谱系图,见图3。
0    5 10 15 20 25
打铁港河下游 .’‘I_
达道河上游
达道河中游
茶亭河上游
东西河上游
东西河中游
东西河下游
打铁港河上游
打铁港河中游
达道河下游
茶亭河下游
三捷河上游
三捷河中游
三捷河下游
茶亭河中游
从图3可以看出,全部河段按照指标距离远近 被分为若干个相似的小类,最终并为一类。根据某个 固定的距离值就可以将各河段按照需要分为几个大类。利用主成分分析结果,在类间距离为6时,将 全部河段按N H3-N、T N、D O、B O D5指标可以分为4个类型,即:打铁港河上游和中游、达道河下游、茶亭
河下游4个断面的污染程度最高,归为一类;达道
河上游和中游,茶亭河上游,打铁港河下游,东西河
上、中、下游7个断面为污染较严重;茶亭河中游断
面为轻度污染;三捷河上、中、下游3个断面的污染
程度很轻或者几乎无污染。
3结论
通过对福州市域区内5条典型内河水质样本
检测结果进行多元统计分析后,可以得到以下结论:
1) 通过主成分分析法将多项水质指标转化为少 数指标来代替并计算出各变量的权数,再用聚类分
析法将样本进行分类。用2种分析结果相互验证,
科学合理地反映了不同河段水质污染状况及污染
成分D
2) 从水质评价主成分分析结果看,影响福州市 内河水质的主要指标是N H3-N、T N、D O、B O D5,而
C0D、0R P对水质影响较小。水质受B0D5影响较强
表明水体受耗氧有机物污染严重;N H3-N、T N影响
较强表明水体中含氮有机物多,氮素污染严重,其
主要来源于生活污水中含氮有机物。该结论与实际
污染来源吻合,表明主成分分析是一种有效的水质
评价方法。
3) 在主成分分析结果的基础上,利用聚类分析法 将5条内河15个断面水质污染程度按N H3-N、T N、
D O、B0D5分为4大类。其中打铁港河上、中游,达道
河下游、茶亭河下游4个断面污染程度最高,受有机
物污染尤其氮素污染严重,需要重点关注。S
[参考文献]
[1]刘剑.主成分分析法在沙河水质评价分析中的应用[J].海河
水利,2019(4) :25-27.
[2 ]岳程鹏,李兴.基于聚类分析的乌梁素海水质因子研究[J].人
民黄河,2019,41(5) :67-70,76.
[3 ]ZH U H,L U X.An integrative model to assess water quality in
China's Lake Taihu:Comparing single-factor and multifactor as­
sessments^]. Integrated environmental assessment and manage-
ment,2018,15(l):135-141.
[4 ]黄丰明.主成分分析法在榕江流域水质评价中的应用[J].广东
水利水电,2019(10):52-56.
[5 ]李丹,韩书成,张燕纯,等.基于主成分与聚类分析法的城市
土地利用规划分区研究—以广州市为例[J].中国农业资源
与区划,2017,38(6):130-136.