近红外光谱分析中人工神经网络法的应用与研究
吉林大学学报(理科版)第44卷第1期44号1人工神经网络方法在SITY()近红外光谱分析中的应用,2006年1月 左平1,2,马思良1,马杰3 (1.吉林大学数学研究所,长春;2.空军航空大学数学系, 长春 ;3. 吉林大学软件学院, 长春) 摘要: 设计了一种实用的人工神经网络模型用于校准和预测。利用误差反向传播算法,构建三层神经网络结构,解决谱分析中峰重叠严重、噪声大的问题。在大量校准样品的情况下,采用人工神经网络方法对玉米的蛋白质含量和近红外吸收光谱进行分析讨论。实验结果表明,人工神经网络方法优于线性回归方法和偏最小二乘法。关键词: 光谱分析;校准和预测;人工神经网络方法 中图分类号:TP183 文献标识码:A 文章编号:1671-5489 (2006) 01-0057--ng1,2,MASi-, (1. cs,,,China;2.ICS,,;3。 ,,,中国):-tion。 -. ,n'ar-。
ast-. :;on; 接收日期:2005-02-23。作者简介:左平(1967~),女,汉族,博士研究生,讲师,从事图形图像识别研究,E-mail:@sohu。联系人:**梁(1944~),男,汉族,教授,博士生导师,从事图形图像识别研究,E-mail:@163。基金项目:国家科技攻关项目基金(批准号:(01))。在农业、粮食、食品加工和其他行业,大多数产品都使用化学方法进行分析。例如,常用的测定蛋白质含量的方法是凯氏定氮法。采用化学方法分析的准确性较高,但实验中必须配备一定的化学分析试剂。分析周期长、过程复杂,难以同时分析大量样品。
https://img0.baidu.com/it/u=1034630436,702058788&fm=253&fmt=JPEG&app=138&f=JPEG?w=929&h=500
近红外法无需样品前处理,是一种无损、无污染的方法;近红外分析可进行现场分析,防止样品转移过程中变质的可能性,分析速度快。由于近红外技术的上述优点,在农业、石油化工、医药等领域受到了广泛的关注。近红外分析技术一般通过测量材料对光的吸收来预测材料的成分和含量。光谱分析技术标定难度大是影响预测分析的主要问题。数学模型的选择在谱分析中至关重要。针对上述问题,本文设计了实用的人工神经网络模型,对待测玉米样品的光谱数据进行分析讨论,并预测其蛋白质含量,取得了理想的结果。 1 近红外分析技术原理 1.1 吸光度与成分浓度的关系 近红外分析技术一般通过测量物质的吸光度来预测物质的成分和含量。然而,吸收率不能直接测量,通常由透射率和反射率确定。表示。介质中吸收体的浓度c与透过率T的关系为c=(1/εt)·lgT-1, (1.1) 其中ε为摩尔吸光率,t为光在介质中传播的距离。当反射率和透射率对吸收系数起相同作用时,方程(1.1)可重写为c∝-lgR。 (1.2) 在计算中,常使用吸光度A代替反射率:A=-lgR。式(1.2)可写为c∝A,即浓度与吸光度成正比。材料对光的选择性吸收是由其分子结构决定的。
近红外分析技术不仅可以测量某种成分的含量,还可以鉴定样品的成分。关键是样品中各成分的分子都有自己的特征吸收光谱,因此可以从吸收光谱来判断待测材料。 1.2 光谱数据提取与预处理 用IA450近红外分析仪测定50份玉米的吸光度,采用钾氮测定法测定蛋白质含量。在近红外分析中,由于样品不同成分之间的相互干扰,导致吸收谱线重叠,或者低含量成分的峰被高含量成分的峰掩盖。在校准之前,常常需要先进行校准。对光谱数据进行预处理,常用的方法包括导数、滤波、傅里叶变换等。待测样品的光谱数据和化学值已知。如果从中获得样品的光谱分析值,则应建立光谱数据与化学值之间的对应关系。这个过程称为校准。利用校准过程中建立的对应关系来分析另一个相似样品以获得其化学值的过程称为预测。 1.3 波长和数学模型的选择影响近红外分析的因素有很多。分析时可以综合考虑各种因素,使分析更加准确。在测量样品中的组分含量时,为了减少其他组分造成的干扰,应选择合适的量程,使该组分在此波段吸收占优势,其他组分处于劣势。例如,要测量样品中的蛋白质含量,应选择2 180 nm附近的光谱区域。数学模型的选择也是影响近红外分析技术的重要因素。
近红外技术中常用的数学模型包括多元线性回归和偏最小二乘法。多元线性回归方法适合良好的线性校准。然而,当光谱矩阵出现共线或数据之间存在较强的非线性时,该模型的预测能力较差。偏最小二乘法将数据分解和回归结合起来,得到的特征值向量与被测成分或性质直接相关,具有较强的抗非线性效应能力。然而,模型构建过程更为复杂。当谱峰重叠严重、成分含量微量、有用信号较弱、噪声较大时,可选择人工神经网络方法进行标定和预测。 2 基于神经网络模型的标定和预测 2.1 神经网络的基本结构和工作模式 神经网络的结构是由基本处理单元及其互连方式决定的。它具有三个基本要素:(1)一组连接,连接强度由每个连接上的权重表示,正权重表示激活,负权重表示抑制; (2)求和单元,用于计算各输入信号的加权和(线性组合); (3)非线性激活函数,充当非线性映射,将神经元(见图1)的输出幅度限制在(0,1)之间。中间状态由输入信号的权限和表达式决定。则输出: yj(t) = fΣni = 1ωji- θj( ), (2.1) 其中,θj 为神经元单元的偏置(阈值),ωji 为连接权系数(对于激发态,ωji为正值;对于抑制状态 ωji 取负值),n 为输入信号的数量,yj 为神经元输出,t 为时间,f(x) 为输出变换函数,又叫激励函数,本文采用Sigm oid函数(见图2): 8 5 吉林大学学报(理科版)第44卷 f(x) = 1 /(1 + e- αx), 0 < f(x) < 1。
https://img1.baidu.com/it/u=1628756670,4116076076&fm=253&fmt=JPEG&app=138&f=GIF?w=500&h=474
(2.2)图。 1 N 欧元模型2 α=12的Sigm oid。 2 BP神经网络的构建及标定结果的评估与预测图2 3A 本文建立的神经网络是误差反向传播算法,也称为BP算法。我们设计的BP神经网络分为三层,即输入层、隐含层和输出层。每层神经元数量分别记为ILC、H LC 和O LC。每层的拓扑结构都是完全互连的。例如,要分析n个样本中的某个成分,使用m个光谱信息,BP网络ILC的输入层神经元数量等于测试样本的光谱数量,输出层神经元OLC数量为1 (对应于测试样本的浓度测量),网络的隐藏层可以认为是通过输入层和隐藏层之间的连接权值的“自组织”从输入模式中提取特征,并通过提取的特征输出 层。对于隐含层神经元H LC 数量的选择没有理论指导。如果隐含层H LC 的神经元数量过多,网络的冗余度就会很大,会增加网络一次训练的时间,减少网络收敛的训练次数,但会降低分类器的泛化能力。如果隐藏层H LC 的神经元数量太少,虽然减少了网络训练时间,但很可能导致网络不收敛,同时也降低了分类器的泛化能力。
为了保证分类器的稳定性和网络良好的泛化能力,并避免神经网络出现过度训练等问题,隐藏层神经元数量初始设置为较小的值。学习一定次数后,如果没有收敛,则增加隐藏层神经元的数量,直到达到更合理的隐藏单元数量。反向传播算法的流程图如图3所示。已知30个样本的光谱数据。如果想要获得样品的化学值,就需要进行校准。利用校准过程中建立的对应关系对另外20个相似样本进行分析和预测。校准和预测的流程图如图4所示。 图4C和实验结果分析评估模型的校准和预测需要一些参数,例如预测标准差(SEP)和预测相关系数rp( 0 < rp < 1)。 SEP衡量近红外分析值和化学值之间的一致程度。参数是代表近红外分析与化学分析之间紧密线性关系的参数。良好的校准结果需要低SEP值和高rp值。 SE P =Σnpi = (np- 1), rp= 1 - SE P2/s2p,其中残差 SECi= Y^i- Yi,Y^i 和 Yi 分别为该物质的近红外分析值和化学值第 i 个样本值,s2p=Σni = 1(Yi-甔Yi)2 为预测样本 9 5 No.1 左平等:人工神经网络方法的应用近红外光谱分析中设定组分化学值的分布方差,np为预测样本数。我们建立了一个神经网络,其输入是由光谱数据组成的向量,其输出是化学值。我们取30个样品的光谱数据训练BP神经网络完成校准,其余20个样品用于预测分析。 BP神经网络预测结果以及线性回归和偏最小二乘预测结果分别列于表1和表2。表 1 20 ens 的 P 秒
页:
[1]