最常见的近红外光谱的预处理技术的综述

2019-03-10 15:35

最常见的近红外光谱的预处理技术的综述

smund Rinnan， Frans van den Berg， S?ren Balling Engelsen

摘要：预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。最广泛使用的预处理技术可以分为两类：散射校正方法和光谱间隔方法。综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。其目的是提供更好的NIR最终模型的建立，在此我们通过对光谱的预处理基本知识进行梳理。关键词：乘法散射校正；近红外光谱法；标准化；诺里斯威廉姆斯推导；预处理；Savitzky-Golay平滑；散射校正；光谱导数;标准正态变量；综述 1. 引言

目前为止，没有能够优化数据来进行代替，但是经过适当的数据收集和处理将会起到优化效果，对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模)，常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。在大量的文献中，多变量光谱应用食品、饲料和医药分析，比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。近红外反射/透射率(NIR / NIT)光谱的光谱技术，到目前为止最多被使用的和最大的多样性在预处理技术，主要是由于入非线性光散射的光谱可以引起显著影响。由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品，近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性)，这将会影响样品光谱的结果的记录。然而，通过应用合适的预处理，可以很大程度上消除这些影响。

在应用研究中，比较了几乎完全不同的定标模型(定量描述符和相应关系)。几乎没有出现评估的差异和相似性的报道。替代技术即修正的含义(例如，谱描述符数据)在研究中很少被讨论。本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系，更具体地说，这些技术都是对应独立的响应变量，所以我们只讨论方法，不需要一个响应值。我们同时关注预处理工艺理论方面的和实际效果，这种方法适用于近红外光谱/ NIT光谱。

对固体样品，干扰系统的差异主要是因为光散射的不同和有效路径长度的不同。这些不受欢迎的变化常常构成了样本集的总变异的主要部分，可以观察到得转变基线(乘法效应)和其他现象称为非线性。一般来说，近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射(镜面反射)。镜面反射通常由仪表设计和几何的采样最小化，因为它们不含任何化学信息。这个diffusively反射的光，这反映在广泛的方向，是信息的主要来源在近红外光谱。然而，diffusively反射光将包含信息的化学成分不仅示例(吸收)而且结构(散射)。主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏。两者都是过程中电磁辐射是分散的(例如，通过小粒子，泡沫，表面粗糙度，水滴，晶体缺陷，microorganelles、细胞、纤维和密度波动)。

当粒子尺寸大于波长，因为通常情况下，NIR光谱，是主要的洛仑兹米氏散射。相比之下，瑞利散射，是各向异性，洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性。

对生物样品，散射特性是过于复杂，所以软或自适应补偿，光谱预处理技术，正如我们近红外光谱在本文中进行讨论，要求删除散射从纯粹的、理想的吸收光谱。

显然，预处理不能纠正镜面反射率(直接散射)，自谱不包含任何精细结构。光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析，因为他们仍将是局外人，甚至在预处理。图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜面反射率表现比正常的光谱。

图1还演示了总体布局的大多数数据在本文中。上部的图，一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]。下面部分显示预处理效果的数据集(或

者，在这种情况下，任何预处理)。相关系数r的平方值之间的酒吧和一个选定的参考变量包含(在本例中，已知的平均粒径的13蔗糖样本)。蔗糖的数据集，这种关系应该是低，例如，当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理。

图 1近红外光谱的13蔗糖和样品不同粒径(最小的粒子在底部，最大的顶部;粒子尺寸范围在20 - 540 lm。黑色的光谱显示了一个镜面反射率蔗糖样本。酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱。

一个示例数据的预处理蔗糖中可以看到图2，其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2，其中也包含一个其实

从现在起，在这篇文章中，我们将演示效果不同的预处理技术在小果胶数据集只包含7个样品有不同程度的酯化(%德;范围在0 - 93%)[2]。这些样品测定近红外光谱反射率模式在光谱范围1100 - 2500海里(收集每2海里区间;图3)。我们提供相应的第一因素PCA样本得分后作为一个条形图意味着定心，连同集中吸光度值在波长2244纳米。我们选择这个峰值，因为它在理论上应该描述% DE完美。对于本文，我们假设信息在光谱相联系的果胶粒子大小和形状应该被预处理技术，条形图应该显示一个线性行为与%德。

为了说明预处理的影响在量化，我们使用数据取自克里斯腾森et al。[3]。他们研究了一组32杏仁蛋白软糖混合物，基于不同的食谱，九个不同的数据都在互联网上可用的(www。模型的生活ku dk)。所有的杏仁蛋白软糖样品测定了六种不同的近红外光谱仪器和化学参考分析了水分和糖含量。在构建一个定量的回归模型，重要的是要打扫预测数据从非系统性散射变化，因为他们可以产生重大影响的预测模型的性能和模型的复杂性或吝啬。在本文中，我们使用请预测这种定量响应信息[4]。 2. 预处理方法

图 2上图：数据被一个二阶蔗糖乘法散射校正;底：相应的标准差每个波长，虚线是原始/未加工的数据(见图1)，固体是预处理的数据。

最广泛使用的预处理技术在近红外光谱法(在两个反射和透射模式)可以分为两类：scattercorrection方法和光谱衍生品。

第一群散射校正预处理方法包括乘法散射校正(MSC)，逆MSC，扩展MSC(EMSC)，扩展逆MSC，de趋势，标准正态变量(SNV)和标准化。

图 3生/未加工的光谱，7果胶样本。蓝线是一个示例有0%程度的果胶酯化(DE)，红色的线是一个样本93%德。打开条指示主成分分析(PCA)评分值在第一个PC为完整的光谱，意味着定心，关闭了酒吧后的光谱值在波长2244纳米。

光谱推导集团是为代表的两种技术在本文中：诺里斯威廉姆斯(NW)衍生品和Savitzky-Golay(SG)多项式导数过滤器。这两种方法都使用一个平滑的光谱导数计算之前，以减少有害的影响，传统的信噪比有限差分衍生品会。

预处理步骤的目标可以三种： 1）提高后续探索性分析

2）提高后续叠层校正模型(力数据服从兰伯特啤酒法律);或者， 3）提高后续的分类模型。

朗伯比尔定律(方程(1))是经验对近红外光谱/ NIT和显示成线性关系，吸收光谱和浓度(s)的成分(s)：

A???log10(T)????l?c (1)

其中A?作为吸光度，??依赖波长的摩尔吸光系数，l代表光通过容器有效的路径长度，是c成分的浓度。朗伯比尔定律严格有效的只有纯透射系统没有散射。在反射率测量，方程(1)是重新定义在类比透射率的测量为：

A???log10(R)????l?c

其中，R是反射率。

选择合适的预处理应该总是被认为是相对于连续建模阶段。例如，如果数据集的兴趣不遵守法律，额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]。的缺点包括额外的因素是提高模型的复杂性，反过来，最有可能减少对未来预测的模型的鲁棒性。所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱，常常一个线性(简单的)关系现象(比如，一个成分)的兴趣。通过使用一个合适的预处理技术，这可以实现，但总是有危险的应用了错误的类型或应用太严重的预处理，将移除有价值的信息。正确的选择的预处理是很难评估模型验证之前，但是，一般来说，执行几个预处理步骤是不可取的，作为最低要求，预处理应保持或降低复杂性的有效模型。

图4 样品光谱(蓝色的点)密谋反抗一个选定的参考光谱。标量修正条款发现随着拦截和边坡的黑色线条，就是发现从最小二乘回归适合通过所有的点。

3. 散射校正

根据散射校正方法，我们考虑三个预处理的概念：硕士，SNV和标准化。这些技术是为了减少(物理)可变性样本之间由于散射。所有三个也调整基线样本之间的变化。 3.1MSC

乘法散射(或者，在一般情况下，信号)校正(MSC)可能是最广泛使用的预处理技术对近红外光谱(紧随其后SNV和派生)。MSC其基本形式是由Martens首次引入等人1983年[6]，并进一步阐述了通过Geladi等人1985年[7]。MSC背后的概念是，工件或缺陷(如，不良的

共5页:

最常见的近红外光谱的预处理技术的综述.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档