本文摘要:摘要:食用植物油是人们日常生活之中不可缺少的膳食结构,目前市场上存在很多食用植物油掺假的情况,极大损害了消费者的利益和身体健康,因此,对现场提取到的食用植物油进行鉴定是法庭科学的重要内容。分子光谱是法庭科学中对物证进行快速无损鉴别的重要方法之一,而
摘要:食用植物油是人们日常生活之中不可缺少的膳食结构,目前市场上存在很多食用植物油掺假的情况,极大损害了消费者的利益和身体健康,因此,对现场提取到的食用植物油进行鉴定是法庭科学的重要内容。分子光谱是法庭科学中对物证进行快速无损鉴别的重要方法之一,而光谱预处理能够消除分子光谱测量过程中的背景和噪声干扰,提高识别率。本文收集了日常生活之中常见的5种食用植物油样本296份,利用径向基函数神经网络和随机森林模型对未经预处理的原始光谱和经过预处理后的光谱进行识别,根据识别率选择食用植物油预处理最优的方法。实验结果表明,径向基函数神经网络的效果优于随机森林模型,将分子光谱数据经希尔伯特变换处理后,径向基函数神经网络分类的识别率达到100%。所建立的方法准确率高,效果好,对法庭科学之中食用植物油的鉴别具有一定的借鉴意义。
关键词:食用植物油;光谱预处理;径向基函数神经网络;随机森林
1引言
近年来,随着生活水平的不断提高,人们对食品安全的重视程度也越来越高,其中,植物油作为人们膳食结构中不可缺少的重要组成部分,是食品安全的重要方面,一些不法商家为谋取暴利,采用虚假的食用植物油调和配方制作不符合标准的植物油,从中牟取暴利。2020年,公安部统一部署全国公安机关开展“昆仑行动”,严厉打击食品领域的犯罪[1],对于在食用植物油制假现场提取到的油痕,检验人员可以通过分析比对得到食用植物油的种类以及生产厂家等信息,为公安机关提供案件的调查方向,缩小侦查范围。
目前,对于植物油的检验方法有很多,如气相色谱-质谱法[2-3]、气相色谱-离子迁移谱法[4]、高效液相色谱法[5]、电子鼻[6]、拉曼光谱法[7]、荧光光谱法[8]、指纹图谱法[9]等。分子光谱法主要包括红外吸收光谱、荧光光谱以及拉曼光谱,以上的三种分子光谱分析方法均可实现对食用植物油的鉴别。
其中,拉曼光谱法存在标准谱库建立较为困难以及光谱预处理方法较为复杂的缺点;荧光光谱法操作较为复杂,易受到叠加峰的干扰,不利于在公安基层进行开展。红外光谱法具有分析快速、成本低、操作简单、无须样品预处理等优点,且不同种类的植物油具有不同的官能团,因此,在基层公安机关之中,红外光谱法是用于植物油检测的良好方法。He等[10]将傅里叶变换红外光谱(FourierTransforminfraredspectroscopy,FT-IR)与化学计量学相结合,用于山茶油掺假的鉴定,他们采用偏最小二乘判别分析的方法,构建了两种皂化模型,成功鉴别了与山茶油成分相近以及与山茶油成分不同的掺假山茶油的鉴别。Abassy等[11]利用拉曼光谱法与偏最小二乘法相结合的方法,对初榨橄榄油和葵花籽油掺假的样品进行分析,结果表明,所建立的方法R2值为0.993,RMSECV为0.0036,能够对橄榄油中葵花籽油的掺假实现精准的鉴别。
赵静等[12]使用二极管阵列红外光谱仪,对7个品种的77份合格植物油、28份不合格植物油以及118份地沟油为研究对象,使用多元方差分析以及贝叶斯判别分析对所采集的样品数据进行统计学分析,结果表明贝叶斯判别函数模型对原始数据的分类准确率达到96%,交叉验证的准确率到达95.5%。 在实际的应用过程之中,获得的分子光谱数据信息会存在噪声以及背景的干扰,存在的干扰信号会使原始光谱的特征峰出现重叠,信噪比降低,出现基线漂移的情况,因此,在对分子光谱数据进行建模之前,对其进行预处理十分必要。
光谱预处理方法是指利用平滑、希尔伯特变换、小波变换、滤波器、包络、抽取等方法减少由于仪器自身原因所导致的基线漂移等情况,消除红外谱图噪声和背景的干扰,从而提高模型对红外光谱的识别准确率,其中,常见的平滑算法包括Savitzky-Golay、相邻平均法等,常见的小波变换算法包括连续小波、分解和重建小波以及多尺度离散小波等,常见的滤波器算法有FFT滤波器以及IIR滤波器等[13]。
本文采用了7种预处理方法对原始光谱进行处理,应用径向基函数(RadialBasisFunction,RBF)神经网络以及随机森林(RandomForest,RF)模型方法建立预测模型对预处理后的红外光谱图进行识别,以对不同植物油的识别率的大小对不同的预处理方法的效果进行比对,以识别的准确率来比较不同预处理方法和不同模型对五种食用植物油分类的效果。
2实验部分
2.1实验样本
结合案件的实际情况,购买了市面上常见的五种植物油,其中,香油100份;花生油79份;玉米油37份;亚麻籽油40份;橄榄油40份,296份样本。
2.2实验仪器及设备
实验采用Nicoletis10型傅里叶变换红外光谱仪(美国ThermoFisherScientific公司),设备及参数的基本信息。
2.3样品采集方法
在测量之前,为防止各个样本之间混乱,在每个植物油样本上使用标签注明食用植物油的种类以及品牌,并进行编号。测量时将食用植物油的样本放入石英样品杯中,然后放置于样品池中,盖上样品池的盖子,为尽量减少测量的误差,所有的测量均取食用植物油样2mL,每个样品测量三次取平均值。
2.4实验预处理
对采集到的红外光谱进行Savitzky-Golay平滑(S-GSmoothing)、希尔伯特变换滤波器、无限冲激响应(InfiniteImpulseResponse,IIR)滤波器、导数、连续小波变换(ContinueWaveletTransform,CWT)七种方法进行预处理,并将其分为3类,3类预处理方法。
其中,CWT采用基于Haar类型的多尺度离散小波变换;导数处理选择基于Norris方法的导数处理,分为一阶导数微分(firstderivative,FD)和二阶导数微分(secondderivative,SD),IIR滤波器采用基于Butterworth方法,分为IIR低通滤波器和IIR高通滤波器。在对图谱进行预处理之后,将296份食用植物油的红外光谱图信息转化为数据数值,采用Z-score的方法进行标准化处理,采用基于主成分分析为提取方法的因子分析方法对所标准化后的数据进行降维处理,将所得到的特征变量用作后续建模分析。
3实验建模
3.1RBF神经网络
RBF神经网络是一种非线性3层静态的前馈式神经网络,通常由三层组成,分别是包含L个节点的输入层、包含M个神经元的隐藏层以及一个或多个节点的输出层[14],RBF神经网络构图。其中,从隐藏层到输出层的传递函数通常选取高斯函数[15]。
3.2RF模型
RF是由若干个分类回归树来进行预测的集成学习方法,是由Breiman等[18]基于Bagging理论首先提出,这些树是通过替换训练样本的子集来创建的,这意味着同一个样本在同一时间内会被选择多次,而其余的样本不会被选择,在随机森林算法之中,选择划分属性是从当前节点之中随机选择一个子集,然后选择一个最优的属性用于选择划分。
随机森林分类器的训练和分类阶段,大约三分之二的样本(称为袋内样本)用于训练树,其余三分之一(称为袋外样本)用于内部交叉验证,以此来评估RF模型的表现情况,这种误差评估被称为袋外(out-of-bag,OOB)误差,由于RF模型本身具有交叉验证的优点,因此当决策树的数目足够多的时候,可以有效避免过拟合的现象。在RF模型之中,每个决策树都属独立生成的,最终,RF的分类决策是通过对所有生成的树计算的分配概率取算术平均值来做出的。
4结果与讨论
4.1光谱预处理谱图的比较
波数在2900cm-1左右的尖强峰为C-H伸缩振动峰,波数在1750cm-1左右的尖强峰为C=O伸缩振动峰,波数在1200cm-1左右的中强峰为食用植物油中甘油三酯的C-O伸缩振动峰,波数在1450cm-1左右的弱尖峰为亚甲基的弯曲振动峰。不同种类的食用植物油具有相同或相似的吸收峰,但是出现了较为严重重叠现象,同时,受仪器条件以及采集环境的影响,出现了一定的基线漂移以及较为严重的背景干扰。
(B)-(H)为经过不同预处理方法后的红外光谱图,经过预处理之后,谱图的背景噪声有所降低,基线漂移现象也有所改善,各峰的区分度明显提高,但是各峰之间仍然存在相互交织的现象,通过肉眼很难进行准确的区分,需要引入机器学习的方法实现对食用植物油红外谱图的识别。
4.2RBF建模分析
4.2.1因子分析降维结果
使用RBF神经网络对因子分析后的特征向量进行分析建模,其中,不同的预处理方法经过降维后,所提取的特征向量个数各不相同。
经过RF分类模型进行分类后,经CWT处理的识别率最高,达到了94%,经平滑处理后的识别率达到89%,经FD处理后的识别率为76%,经SD处理后的识别率为66%,经希尔伯特变换处理后的识别率为85%,经IIR低通滤波器处理后的识别率为88%,显著高于经IIR高通滤波器处理后的识别率59%。分析原因可知,经IIR低通滤波器处理后的识别率显著高于经IIR高通滤波器处理后的识别率,可能是样品中光谱信号主要是高频分量。
IIR高通滤波器能够过滤光谱信号的低频分量而使得高频分量通过,而IIR低通滤波器能够抑制光谱信号的高频分量而使光谱信号的低频分量通过,因此经过IIR高通滤波器处理后的光谱数据总体上好于经过IIR低通滤波器处理后的光谱数据。而经连续小波处理后的识别率最高,说明经过CWT处理后,光谱数据之中包含了绝大部分与食用植物油种类鉴别相关的信息,且与原始光谱数据相比,过滤了噪声等无用信息,同时RF算法利用了不同的食用植物油种类之间小波变换中蕴含的变化,因而能够很好的对食用植物油的种类进行区分。
5结论
本研究利用傅里叶变换红外光谱技术,采集了五种食用植物油的光谱数据,比较了不同的红外光谱预处理方法,结合RBF神经网络和RF建模的方法,开展了食用植物油种类的鉴别,实验结果表明,RBF神经网络模型要比RF模型更加适用于食用植物油的分类,在RBF神经网络的模型之中,对光谱进行希尔伯特变换的预处理方法能够达到最高的识别率,识别率为100%,是所有预处理方法中的最大值,表明该预处理方法是处理食用植物油光谱数据的最佳预处理方法。本研究为法庭科学领域开展食用植物油种类的鉴定提供了一种快速无损的新方法,该方法操作简单,准确率高,且无需昂贵的设备,十分利于在公安基层进行推广,为公安机关检验和分析食用植物油的种类提供了一定的参考。
参考文献
[1]孙一健,王继芬.太赫兹光谱技术在食品、药品和环境领域中的应用研究进展[J].激光与光电子学进展,2022,59(16):1600001
[2]王同珍,余林,邱思聪,等.气相色谱-质谱技术结合化学计量学对6种植物油进行判别分析[J].分析测试学报,2015,34(1):50-55.
[3]鲍晓瑾,倪炜华,沈锡贤.GC-MS法识别二元混合植物油掺混量的方法研究[J].中国油脂,2016,41(12):81-84.
[4]陈通,陆道礼,陈斌.GC-IMS技术结合化学计量学方法在食用植物油分类中的应用[J].分析测试学报,2017,36(10):1235-1239.
作者:孙一健1,王继芬1,张震1
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/29335.html