技术涉及食用明胶掺假鉴别的技术领域,具体涉及一种用于检测食用明胶掺假的PLS SVM模型的构建方法及检测方法。该构建方法包括将预处理后的明胶样品的光谱数据划分为校正集和验证集并建立PLS模型,选择校正集主成分个数;采用交叉验证法获得校正集的均方根误差并计算其过拟合阈值;在过拟合阈值小于等于预设阈值时,将其所对应的主成分个数作为校正集的最优主成分个数;根据最优主成分个数提取校正集的特征变量;同时提取验证集的特征变量;根据校正集的特征变量建立SVM模型,将验证集的特征变量输入SVM模型,得到明胶样品的预测掺杂比。本技术通过建立PLS模型来选择主成分个数并提取特征变量,将PLS模型与SVM结合能较大程度的提高预测掺杂比的预测精度。
技术要求
1.一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,该构建方法包括以下步骤:
将预处理后的明胶样品的光谱数据划分为校正集和验证集,根据所述校正集和验证集建立PLS模型,并选择校正集主成分个数;
采用交叉验证法获得校正集的均方根误差,并根据所述均方根误差计算过拟合阈值;
在所述过拟合阈值小于等于预设阈值时,将其所对应的主成分个数作为校正集的最优主成分个数;
根据所述校正集的最优主成分个数提取校正集的特征变量;同时提取所述验证集的特征变量;
根据所述校正集的特征变量建立SVM模型,将所述验证集的特征变量输入所述SVM模型,得到所述明胶样品的预测掺杂比。
2.根据权利要求1所述的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,所述交叉验证法采用留一交叉验证法。
3.根据权利要求1所述的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,所述根据所述均方根误差计算过拟合阈值的计算方法为:
所述过拟合阈值等于将m-1个主成分的均方根误差和m个主成分的均方根误差作差后与所述m-1个主成分的均方根误差的比值。
4.根据权利要求1~3任意一项所述的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,所述预设阈值为百分之五。
5.根据权利要求1~3任意一项所述的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,所述构建方法还包括:
根据所述验证集的均方根误差、决定系数和检测限确定检测精度。
6.一种食用明胶掺假的检测方法,其特征在于,该检测方法包括以下步骤:
获取待检测的明胶样品的原始光谱数据;
对所获取的原始光谱数据预处理,得到归一化光谱数据;
根据权利要求1~5任意一项所述的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法对所述归一化光谱数据进行预测,得到待检测的明胶样
品的预测掺杂比。
7.根据权利要求6所述的一种食用明胶掺假的检测方法,其特征在于,所述对所获取的原始光谱数据预处理的方法为:
采用归一化方法对所述原始光谱数据进行预处理。
技术说明书
用于检测食用明胶掺假的PLS-SVM模型的构建方法及检测方法
技术领域
本技术涉及食用明胶掺假鉴别的技术领域,具体涉及一种用于检测食用明胶掺假的PLS-SVM模型的构建
方法及检测方法。
背景技术
食用明胶是由动物的新鲜原皮和骨骼经过几十道复杂工序提取出胶原蛋白并水解加工而成的,由于其蛋白质含量高,无脂肪和无胆固醇,目前被作为食品增剂广泛应用于食品工业中。工业明胶通常是由废旧皮革经过脱漂白和清洗熬制而成的,该过程需要使用大量的含铬鞣制剂,因此工业明胶中重金属铬含量重超标。如果人体大量摄入重金属铬,会引起肾脏受损,严重的话可诱发癌症。因此,国家禁止工业明胶用于食品和药品中,《食用明胶》和《药用明胶》标也明确规定食用明胶的铬含量在2.0mg/kg以下。但是由于工业明胶价格低廉、制作简单,一些无良商家将工业明胶代替或者勾兑食用明胶添加到食品中,如2012年的“毒胶囊”和“老酸奶”事件,以及2014年的“毒凉粉”事件等。目前国内尚无工业明胶违规添加的标准检测方法,因此需要一种快速有效的方法实现食用明胶掺假的鉴别。
一些检测方法如电泳法、酶联免疫检测法、高效液相谱法、和聚合酶链反应法已经被用于食用明胶的检测。但是这些方法需要较长的样品准备,比较耗时而且所用仪器和试剂比较昂贵。
激光诱导击穿光谱技术(Laser induced breakdown spectroscopy,LIBS)是一种用于样品元素成分快速定量检测方法,与其他检测技术如原子吸收光谱和电感耦合等离子体发射光谱法相比,LIBS具有无需样品准备、非接触、多元素同时测量、实时在线测量等优点,目前已经被广泛地应用到食品分析、环境监测
、工业考古和生物医学等领域。目前LIBS技术所面临的其中一个挑战是定量分析中的低检测精度。大量的定量分析方法也已经用于LIBS的定量分析中,如主成分回归、偏最小二乘法(Partial least squares,PLS)和支持向量机(Support vector machine,SVM)。
其中支持向量机由于其具有较强的处理非线性问题能力,可以用于消除LIBS检测中由谱线自吸收和基体效应所引起的非线性问题。同时,SVM无需大量的实样品。因此,支持向量机可以作为一种优选的方法用于LIBS光谱定量分析中。
技术人在实践中,发现上述现有技术存在以下缺陷:
将SVM结合LIBS的定量检测方法,虽然能够解决消除LIBS检测中由谱线自吸收和基体效应所引起的非线性问题以及需要较长的样品准备时间的问题,但是检精度较低。
技术内容
为了解决上述技术问题,本技术的目的在于提供一种用于检测食用明胶掺假的PLS-SVM模型的构建方法及检测方法,所采用的技术方案具体如下:
第一方面,本技术实施例提供了一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,其特征在于,该构建方法包括以下步骤:
将预处理后的明胶样品的光谱数据划分为校正集和验证集,根据所述校正集和验证集建立PLS模型,并选择校正集主成分个数;
采用交叉验证法获得校正集的均方根误差,并根据所述均方根误差计算过拟合阈值;
在所述过拟合阈值小于等于预设阈值时,将其所对应的主成分个数作为校正集的最优主成分个数;
根据所述校正集的最优主成分个数提取校正集的特征变量;提取所述验证集的特征变量;
根据所述校正集的特征变量建立SVM模型,将所述验证集的特征变量输入所述SVM模型,得到所述明胶样品的预测掺杂比。
进一步,所述交叉验证法采用留一交叉验证法。
进一步,所述根据所述均方根误差计算过拟合阈值的计算方法为:
所述过拟合阈值等于将m-1个主成分的均方根误差和m个主成分的均方根误差作差后与所述m-1个主成分的均方根误差的比值。
进一步,所述预设阈值为百分之五。
进一步,所述构建方法还包括:
根据所述验证集的均方根误差、决定系数和检测限确定检测精度。
第二方面,本技术实施例提供了一种食用明胶掺假的检测方法,其特征在于,该检测方法包括以下步骤:
获取待检测的明胶样品的原始光谱数据;
对所获取的原始光谱数据预处理,得到归一化光谱数据;
根据上述提供的任意一种用于检测食用明胶掺假的PLS-SVM模型的构建方法对所述归一化光谱数据进行预测,得到待检测的明胶样品的预测掺杂比。
进一步,所述对所获取的原始光谱数据预处理的方法为:
采用归一化方法对所述原始光谱数据进行预处理。
本技术具有如下有益效果:
本技术实施例提供了一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,该构建方法包括根据将预
处理后的明胶样品的光谱数据划分为校正集和验证集根据所述校正集和验证集建立PLS模型,并选择校正集主成分个数;采用交叉验证法获得校正集的均方根误差,并根据均方根误差计算过拟合阈值;在过拟合阈值小于等于预设阈值时,将其所对应的主成分个数作为校正集的最优主成分个数;根据最优主成分个数确定提取的校正集的特征变量;同时提取所述验证的特征变量;根据所述校正集的特征变量建立SVM模型,将所述验证集的特征变量输入所述SVM模型,得到所述明胶样品的预测掺杂比。本技术实施例通过建立PLS模型来选择主成分个数进而提取相应的特征变量,将PLS模型与SVM结合能够较大程度的提高对明胶样品的预测掺杂比的预测精度。
附图说明
毒胶囊
图1为本技术一个实施例所提供的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法的流程图;
图2为本技术一个实施例关于PLS模型的校准曲线示意图;
图3为本技术一个实施例关于PLS-SVM模型的校准曲线示意图。
具体实施方式
为了更进一步阐述本技术为达成预定技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本技术提出的一种用于检测食用明胶掺假的PL SVM模型的构建方法及检测方法,其具体实施方
式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的属于只为了描述具体的实施例的目的,不是旨在于限制本技术。
下面结合附图具体的说明本技术所提供的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法及检测方法的具体方案。
请参阅图1,其示出了本技术一个实施例提供的一种用于检测食用明胶掺假的PLS-SVM模型的构建方法的流程图,在本技术中将通过该构建方法所构建的模型称为PLS-SVM模型,以下不再声明。该PLS-SVM模型的构建方法包括以下步骤:
步骤S001,将预处理后的明胶样品的光谱数据划分为校正集和验证集,根据所述校正集和验证集建立PLS模型,并选择校正集主成分个数。
具体的,将预处理后的光谱数据划分为校正集和验证集,然后分别以校正集和验证集作为输入,以掺杂比作为输出,建立PLS模型,并选择校正集中主成分个数。
具体的,将标准光谱数据按照一定的比例划分为校正集和验证集。具体到本实施例中,本实施例按照3:1的比例划分。
步骤S002,采用交叉验证法获得校正集的所选择主成分个数对应的均方根误差RMSECV,并根据该均方根误差RMSECV计算过拟合阈值Scv。其中:
其中,n1是校正集中明胶样品个数,表示校正集中明胶样品的PLS模型预测掺杂比,yi表示校正集中明胶样品的真实掺杂比。其中PLS模型预测掺杂比是通过PLS模型得到的预测掺杂比。真实掺杂比是样品真实的掺杂比,可以是在自制样品时得到,也可以是利用其他方式获得。
过拟合阈值Scv是用于判断模型是否过拟合的一个标准值。过拟合阈值等于将m-1个主成分的均方根误差和m个主成分的均方根误差作差后与所述m-1个主成分的均方根误差的比值。具体的公式如下:
其中,m表示主成分个数。
步骤S003,在步骤S002中所得到的过拟合阈值Scv小于等于预设阈值时,其对应的主成分个数为校正集的最优主成分个数。
具体的,首先判断过拟合阈值Scv的值,当过拟合阈值Scv开始小于预设阈值时,其对应的主成分个数为最优的主成分个数;否则,则转入执行步骤S001,直过拟合阈值Scv小于预设阈值。
最优的,该预设阈值为5%。
步骤S004,根据所述步骤S003中所得到的校正集的最优主成分个数,从PLS模型结果中提取出对应的特征变量;同时提取所述验证集的特征变量。
根据PLS模型提取变量能够在保留大部分原始光谱数据信息的同时,降低了原始光谱数据的维度,消除了多余无用信息的干扰,从而大大简化建模的复杂度和运行效率,提高分类精度。
步骤S005,根据所述步骤S004中所提取的校正集的特征变量建立SVM模型,将所述验证集的特征变量输入SVM模型,得到明胶样品的预测掺杂比。
通过采用网格搜索法或遗传算法或粒子优化算法对SVM模型的参数进行优化,得到最优的SVM模型。根据模型结果,得到明胶样品的预测掺杂比。
综上所述,本技术实施例提供了一种用于检测食用明胶掺假的PLS-SVM模型的构建方法,该构建方法包括根据将预处理后的明胶样品的光谱数据划分为校正和验证集,根据所述校正集和验证集建立PLS模型,并选择校正集主成分个数;采用交叉验证法获得校正集的均方根误差,并根据均方根误差计算过拟合阈值;在过拟合阈值小于等于预设阈值时,将其所对应的主成分个数作为校正集的最优主成分个数;根据最优主成分个数确定提取的校正集的特征变量;同时取所述验证集的特征变量;根据所述校正集的特征变量建立SVM模型,将所述验证集的特征变量输入所述SVM模型,得到所述明胶样品的预测掺杂比。本技术实施例通过建立PLS模型来选择主成分个数进而提取相应的特征变量,将PLS模型与SVM结合能够较大程度的提高对明胶样品的预测掺杂比的预测精度。
作为本技术实施例所提供一个优选实施例,上述检测食用明胶掺假的PLS-SVM模型的构建方法,还包括以下验证检测精度的步骤:
根据验证集的均方根误差、决定系数和检测限确定检测精度。
具体的,验证集的交叉验证均方根误差RMSEP,决定系数和检测限LOD通过以下公式确定:
均方根误差
决定系数
检测限
其中,n2是验证集的样品个数,是验证集中样品的PLS模型预测掺杂比,yj是验证集中样品的真实掺杂比;是验证集中样品真实掺杂比的平均值,σ验证集中样品的预测掺杂比的平均值,S是SVM模型校准曲线的斜率。
另一方面,本技术实施例还提供了一种食用明胶掺假的检测方法,该检测方法包括以下步骤:
步骤S201,获取待检测的明胶样品的原始光谱数据。
利用高功率脉冲激光器发出的激光通过反射镜折转后被一个焦距透镜聚焦到待检测的明胶样品的表面,待检测的明胶样品的样品发出的等离子体通过一个光探头接收并传输到光谱仪,通过计算机记录保存光谱数据。
步骤S202,对步骤S201中所获取的原始光谱数据预处理,得到归一化光谱数据。
具体的,预处理包括平滑去噪和归一化预处理,用来消除背景噪声干扰和提高信噪比。
步骤S203,根据上述PLS-SVM模型对步骤S202中得到的归一化光谱数据进行预测,得到待检测的明胶样品的预测掺杂比。
为了验证本实施例所提供的检测方法的效果,通过以下实验及其效果图进行说明。首先需要制备明胶样品,然后进行LIBS光谱数据的采集,最后建立PLS-SV 预测模型。
具体的:
首先,明胶样品制备:选用纯食用明胶和工业明胶,首先研磨成粉,按照不同的取样比例将食用明胶和工业明胶混合,即
10g+0g,9g+1g,8g+2g,7g+3g,6g+4g,5g+5g,4g+6g,3g+7g,2g+8g,1g+9g,0g+10g,得到
0%-100%的明胶的真实掺杂比,其次将粉末进行过筛,最后进行压片得到直径为35mm、厚度为4.5mm的明胶片。
然后,采集LIBS光谱数据:采用调Q开关Qd:YAG脉冲激光器,其最大输出功率为400mJ,中心波长为1064nm,重复频率为1Hz,脉冲宽度为8ns,通过调节浦闪光灯与Q开关激光脉冲之间的延迟时间确定合适的激光能量,激光器发出的激光通过反射镜折转后被一个100mm焦距透镜聚焦到明胶样品表面,明胶样品发出的等离子体通过一个光纤探头接收并传输到光谱仪。为了减少激光能量波动、增加信噪比,每个明胶样品重复测量10次,每个采样点轰击累计20个脉冲
最后,建立PLS-SVM预测模型:首先采用最大最小归一化方法对原始光谱进行预处理,然后将归一化后的数据按3:1的比例分为校正集和验证集,并分别以正集和验证集作为输入,以掺杂比作为输出,建立PLS模型;通过计算校正集中RMSECV和Scv确定最优的主成分个数,共选出10个特性波长,并提取特征变量,将选出的特性变量作为输入,建立SVM模型,得到PLS-SVM模型的校准曲线,如图2所示,可以看出样品的预测掺杂比与真实掺杂比之间的偏离程度,即间接地反映出预测的准确度。同时,为了体现出PLS-SVM可以极大地提高预测精度,选择全光谱建立了SVM模型,结果如图3所示。另外,SVM模型和PLS-
SVM模型的预测结果如表1所示,可以看出,PLS-SVM模型的决定系数比SVM模型相比大幅度提高、其均方根误差RMSEP和检测限LOD大幅度降低,表明PLS-SVM模型对明胶掺杂比检测具有非常好的预测精度。
表1 SVM模型和PLS-SVM模型的检测精度结果对比