近紅外高光譜預(yù)測(cè)聚合物薄膜結(jié)晶度 中
若要對(duì)聚合物晶體度的空間分布進(jìn)行預(yù)測(cè),那就得在樣品的近紅外(NIR)光譜圖像(X)所含特征與通過(guò)差示掃描量熱法(DSC)獲取的分析晶體度測(cè)量值(y)之間構(gòu)建回歸模型,也就是建立兩者之間的相關(guān)性。在本次研究中,一共對(duì)四種不同的方法展開(kāi)了測(cè)試與比較,這四種方法的主要差異體現(xiàn)在運(yùn)用合適的回歸技術(shù)之前,對(duì) NIR 光譜采取何種處理方式上。
起初,測(cè)試了傳統(tǒng)的近紅外校準(zhǔn)方法,其中一種是涉及平均光譜(方法 1)并搭配偏最小二乘(PLS)回歸的方式,另一種則是涉及二階導(dǎo)數(shù)(方法 2)再結(jié)合 PLS 回歸的做法。之后,又對(duì)多元圖像回歸(MIR)方法進(jìn)行了測(cè)試,該方法包含兩種情況,一是基于原始光譜(方法 3)的多元圖像回歸,另一種是基于原始光譜二階導(dǎo)數(shù)(方法 4)的多元圖像回歸。
在收集訓(xùn)練數(shù)據(jù)集時(shí),具體步驟如下:
首先,針對(duì) 18 個(gè)樣品,逐一進(jìn)行全面掃描操作,隨后依據(jù)公式(2)把原始圖像校準(zhǔn)成為反射圖像 Ik,這里的 k 代表樣品編號(hào),其取值范圍是從 1 到 18。
接著,如圖 2 所示,要獲取訓(xùn)練數(shù)據(jù)集,需為每個(gè)聚合物樣品選定一個(gè)相對(duì)較小的感興趣區(qū)域,其尺寸為 2.5 毫米 ×5 毫米,換算成像素的話(huà)就是 10×10 像素。這些所選定的區(qū)域?qū)?yīng)的是多元子圖像,其大小為(10×10×λ),這里的 λ 表示的是光譜通道數(shù),在本次研究當(dāng)中,λ 的值確定為 256。
之后,通過(guò)一種簡(jiǎn)單的操作方式,也就是按照行的順序來(lái)存儲(chǔ)每一個(gè)光譜,進(jìn)而將這些陣列展開(kāi),使其變?yōu)榇笮椋?00×λ)的矩陣。而這些矩陣,會(huì)作為后續(xù)所提到的四種方法共同的輸入數(shù)據(jù)來(lái)使用。
四種方法的示意圖:平均光譜(方法 1)、二階導(dǎo)數(shù)(方法 2)、光譜的 MIR(方法 3)或二階導(dǎo)數(shù)的 MIR(方法 4)
最后,從樣品中切下與子圖像相對(duì)應(yīng)的每個(gè)感興趣區(qū)域并送去進(jìn)行 DSC 分析。得到的結(jié)晶度測(cè)量值 ( y k ) 存儲(chǔ)在響應(yīng)矩陣y (18 × 1) 中。
基于平均譜或二階導(dǎo)數(shù)的 PLS 模型
基于平均譜或二階導(dǎo)數(shù)的偏最小二乘(PLS)模型
方法 1:平均近紅外光譜
第一種方法的操作是,針對(duì)從樣本感興趣區(qū)域獲取到的所有可利用的反射光譜進(jìn)行平均處理,具體而言,就是對(duì)每個(gè)矩陣按照列的方向依次求平均。之后,把每個(gè)樣本經(jīng)過(guò)平均處理后得到的光譜收集起來(lái),匯總到回歸矩陣 X(該矩陣規(guī)格為 18×λ)當(dāng)中,具體情形可參照?qǐng)D 2。
接下來(lái),要在平均光譜矩陣 X 以及與之對(duì)應(yīng)的結(jié)晶度測(cè)量值 y 之間構(gòu)建一個(gè)潛變量的 PLS 回歸模型,其構(gòu)建方式如下:
在這個(gè)模型里,P 矩陣和 Q 矩陣各自包含了一些載荷向量,這些載荷向量能夠地代表 X 空間以及 y 空間的相關(guān)特性。而 W 矩陣所含的載荷向量,其作用在于定義出一個(gè)公共潛變量空間 T,這個(gè)空間是用于將 X 和 y 關(guān)聯(lián)起來(lái)的。E 矩陣與 F 矩陣則涵蓋了 PLS 模型的殘差,這里所說(shuō)的殘差指的就是與模型潛變量空間的投影距離。
關(guān)于 PLS 分量,也就是潛變量(A)的數(shù)量,是通過(guò)運(yùn)用標(biāo)準(zhǔn)的留一交叉驗(yàn)證程序來(lái)確定選擇的。之所以在這種情況下選擇采用 PLS,是因?yàn)榫仃?X 的各列之間呈現(xiàn)出高度共線性的特點(diǎn)。
方法 2:近紅外光譜的二階導(dǎo)數(shù)
此方法并非運(yùn)用光譜本身,而是采用光譜的二階導(dǎo)數(shù)。具體操作時(shí),先針對(duì)感興趣區(qū)域內(nèi)的光譜導(dǎo)數(shù)進(jìn)行平均值的計(jì)算,隨后將這些平均值收集起來(lái),納入到每個(gè)樣本對(duì)應(yīng)的回歸矩陣 X(其規(guī)格為 18×(λ - 2))當(dāng)中,之后再利用結(jié)晶度測(cè)量值 y 來(lái)構(gòu)建偏最小二乘(PLS)回歸模型,具體情況可參照?qǐng)D 2。
取光譜的二階導(dǎo)數(shù)是在近紅外(NIR)光譜預(yù)處理過(guò)程中經(jīng)常會(huì)用到的一種方法,早在 1990 年,Chau 等人就有所提及。當(dāng)光譜中存在比較尖銳的吸收帶時(shí),運(yùn)用這種方法就會(huì)展現(xiàn)出顯著的優(yōu)勢(shì)。相比較一階導(dǎo)數(shù)而言,二階導(dǎo)數(shù)更受青睞,原因在于它不會(huì)使峰值出現(xiàn)移動(dòng)的情況,所以有著更好的可解釋性。
盡管二階導(dǎo)數(shù)著重體現(xiàn)了光譜的轉(zhuǎn)換情況,但它對(duì)于光譜強(qiáng)度方面出現(xiàn)的系統(tǒng)性變化并不敏感,從圖 3 中就能夠看出這一點(diǎn),在原始光譜中,重點(diǎn)呈現(xiàn)出了三個(gè)以 1100、1300 以及 1600 納米為中心的光譜帶。
為了盡可能降低壞像素所帶來(lái)的影響(Savitzky 和 Golay 在 1964 年曾對(duì)此有所研究),先是在線掃描時(shí),沿著光譜方向采用 5 像素的窗口對(duì)其進(jìn)行平滑處理,之后再運(yùn)用數(shù)值近似的方式來(lái)獲取二階導(dǎo)數(shù)(Gerald 和 Wheatley 在 1994 年有相關(guān)闡述)。與直接使用光譜相比,通過(guò)數(shù)值微分的方式會(huì)使得回歸矩陣 X 當(dāng)中損失兩列(也就是光譜通道)。
光譜與二階導(dǎo)數(shù):HDPE 樣品的 2D 線掃描(左)和單個(gè)空間位置的 1D 光譜(右)。使用無(wú)量綱標(biāo)度
多元圖像回歸(MIR)涵蓋了一系列潛在變量技術(shù),其主要用途在于把質(zhì)量或者響應(yīng)變量與從一組數(shù)字圖像里提取出來(lái)的特征進(jìn)行回歸關(guān)聯(lián)。
對(duì)于圖像回歸這一問(wèn)題,依據(jù)從圖像中所提取特征的性質(zhì)差異,可以通過(guò)多種不同的方式來(lái)進(jìn)行表述,這些特征性質(zhì)涵蓋了從針對(duì)每個(gè)光譜通道所計(jì)算得出的簡(jiǎn)單統(tǒng)計(jì)數(shù)據(jù),比如平均值、方差等等,一直到分布特征等不同情況。
在本次研究工作當(dāng)中,所提取的是來(lái)自近紅外(NIR)光譜圖像的分布特征。而這些分布特征的獲取,是借助多路主成分分析(MPCA)對(duì)光譜圖像數(shù)據(jù)立方體進(jìn)行分解而實(shí)現(xiàn)的,這里所說(shuō)的光譜圖像數(shù)據(jù)立方體具體包括反射光譜(對(duì)應(yīng)方法 3),或者是二階導(dǎo)數(shù)(對(duì)應(yīng)方法 4),詳情可參照?qǐng)D 2。需要說(shuō)明的是,運(yùn)用多路主成分分析(MPCA)分解光譜圖像數(shù)據(jù)立方體這一操作,正是被稱(chēng)作多元圖像分析(MIA)方法的首要步驟。
多元圖像分析(MIA)最早是由 Esbensen 和 Geladi 在 1989 年提出的,自問(wèn)世以來(lái),已經(jīng)在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,例如火焰分析、零食食品研究以及軟木分級(jí)等方面。若想要全面了解 MIA,可查閱 Geladi 和 Grahn 在 1996 年發(fā)表的相關(guān)內(nèi)容。
MIA 基于這樣一個(gè)原理:不管圖像像素在圖像中的具體空間位置處于何處,都能夠依據(jù)每個(gè)圖像像素的光譜特性來(lái)對(duì)其進(jìn)行分類(lèi),進(jìn)而提取出局部強(qiáng)度變化。當(dāng) MIA 與回歸技術(shù)相結(jié)合時(shí),就能夠從數(shù)字圖像中提取出與相應(yīng)響應(yīng)變量(例如樣品質(zhì)量測(cè)量值)關(guān)聯(lián)程度的特征。
在本次研究中,具體操作如下:首先,把對(duì)應(yīng)于每個(gè)聚合物樣品所選目標(biāo)區(qū)域的展開(kāi)光譜矩陣進(jìn)行匯總,這些矩陣最終被收集到一個(gè)尺寸為 (1800×λ) 的大矩陣中(該大矩陣由 18 個(gè)樣品,每個(gè)樣品 100 個(gè)光譜組成,即 18 個(gè)樣品 ×100 個(gè)光譜 / 樣品 )。隨后,利用主成分分析方法,將圖像信息分解為一組 A 個(gè)正交載荷向量 p? (向量規(guī)格為 1×λ )和得分向量 t?(向量規(guī)格為 1800×1) ,這一過(guò)程可參照公式 (4) 以及圖 4。
其中E (1800 ×? λ ) 包含投影殘差(當(dāng)A ?<? λ時(shí)非零)。載荷向量 ( p a ) 通常通過(guò)對(duì)維度小得多(即 256 × 256)的核矩陣進(jìn)行奇異值分解 (SVD) 獲得。得分向量根據(jù) 計(jì)算得出。第一個(gè)得分性組合,可捕獲光譜矩陣內(nèi)的可能方差,而第二個(gè)得分向量t 2代表第二大方差源,依此類(lèi)推。因此,得分向量可被視為每個(gè)光譜的多元摘要。
高光譜圖像的 MPCA 分解
在實(shí)際應(yīng)用中,人們常常發(fā)現(xiàn),只需少量的分量(A),就足以從多變量圖像數(shù)據(jù)中提取出大部分的相關(guān)信息。正因如此,少數(shù)幾個(gè)得分向量便能夠當(dāng)作多變量圖像具有代表性的分布特征。這些特征一般通過(guò)得分向量的散點(diǎn)圖來(lái)展示,就像圖 4 呈現(xiàn)的 t? – t?得分圖,或者通過(guò)二維密度直方圖來(lái)呈現(xiàn)。
Yu 和 MacGregor 在 2003 年對(duì)得分散點(diǎn)圖(或者二維密度直方圖)與響應(yīng)變量之間的回歸問(wèn)題展開(kāi)了研究。這項(xiàng)研究需要從 K 張圖像中的每一張所得到的得分圖(或直方圖)里,提取出一定數(shù)量(n)的特征,接著把這些特征收集到回歸矩陣 X(規(guī)格為 K×n)當(dāng)中,再利用目標(biāo)響應(yīng)變量(也就是結(jié)晶度)y(規(guī)格為 K×1)來(lái)構(gòu)建回歸模型,具體情況可參考圖 2。
將近紅外(NIR)光譜圖像與聚合物晶體度測(cè)量結(jié)果關(guān)聯(lián)起來(lái)的特定公式,是基于對(duì)圖 5A 中展示的三種聚合物類(lèi)型的 NIR 光譜聚類(lèi)模式的觀察而得出的。這個(gè) t? - t?散點(diǎn)圖是通過(guò)對(duì)光譜矩陣(1800×256)進(jìn)行主成分分析(PCA)分解后得到的。在使用方法 3 時(shí),前兩個(gè)得分向量分別能夠解釋 95.8% 和 3.2% 的方差;而在使用方法 4 時(shí),前兩個(gè)得分向量分別可以解釋 77.7% 和 11.1% 的方差。正如人們所預(yù)期的那樣,與三種聚合物相對(duì)應(yīng)的光譜呈現(xiàn)出截然不同的簇群;NIR 光譜常常被用于聚合物的識(shí)別。此外,對(duì)應(yīng)每種聚合物類(lèi)型的光譜數(shù)據(jù),還會(huì)依據(jù)冷卻速率進(jìn)行聚類(lèi),并且這些聚類(lèi)具有明顯的空間方向(如圖 5A 中高密度聚乙烯(HDPE)簇的放大圖所示)。
為了獲取與結(jié)晶度相關(guān)的信息,研究人員通過(guò)將圖 5A 中展示的光譜數(shù)據(jù)投影到前兩個(gè)得分向量的線性組合上(見(jiàn)圖 5B),從而計(jì)算出一個(gè)新的向量 t??。最后,使用普通最小二乘法,在 t??和 y 之間建立起一個(gè)簡(jiǎn)單的線性回歸模型。
選擇 線性組合 ( r ) 或t 12向量的角度t 12和y之間的相關(guān)性。Yu 和 MacGregor ( 2003 )討論了類(lèi)似的方法,用于得分密度直方圖分割,作為 MIR 問(wèn)題的可能公式之一。
分?jǐn)?shù)直方圖可識(shí)別聚合物和冷卻速率 (A)。根據(jù)角度 ( r )將數(shù)據(jù)集投影到單個(gè)向量 ( t 12 ) 上可實(shí)現(xiàn)降維 (B