1.引言
隨著原材料、能源價格上升以及市場競爭日益激烈,企業對于其產品質量的要求越來越高。質量控制的傳統方法是對產品進行人工檢驗,這種方法耗時耗力,并且含有由主觀因素引起的不確定性。同時,由于是事后的離線檢驗,當發現產品質量出現問題后再對生產過程進行調整時,已經造成了大量的生產浪費。
統計質量控制(Statistical Quality Control)是過去二十年來在國內外企業廣泛采用的另一種較為先進的質量控制方法,它是用頻率分布、控制圖、顯著性檢驗等統計技術進行質量控制,其特點是找出影響工序的關鍵因素,采取措施進行生產控制,減少產品質量波動,達到提高產品質量的目的[1]。但是由于制造質量的分散和無序從而大大降低了統計分析的可實施性和可靠性[2]等原因,在企業的實際質量活動中應用還存在困難。
生產質量控制是利用生產過程的動態信息進行質量預測和質量控制。由于其實時性和較高的準確性,可以預估質量問題,從而降低企業的生產成本和經濟損失。生產質量控制的基礎是生產過程的質量預測,因為只有對未來質量參數進行估計,才能在產品質量發生問題前提前調整生產過程,真正達到提高產品質量的目的。進行質量預測的手段是建立生產過程的質量模型,即以各種決定產品質量的變量為輸入,以產品各質量指標為輸出的數學模型[3]。但由于影響因素較多而導致機理建模困難等原因,質量模型的建立比一般用于自動控制的對象建模更為困難。
數據挖掘是一類從大量數據中自動尋找規律的方法,在過去二十年中得到了大量的研究。數據挖掘方法的特點是能從大量的數據中自動分析并提取未知的、潛在有用的知識,因此可用于建立復雜系統的行為建模和行為預測。傳統的數據挖掘應用通常只處理靜態的數據,即不包含時間信息的數據。但當將數據挖掘方法用于建立生產過程的質量模型時,由于傳感器對生產過程不斷采樣的原因,獲得的生產歷史數據通常都是時間序列,即歷史數據是和時間相關的一系列值,因此通常用于處理靜態數據的數據挖掘方法不能直接應用于生產過程質量預測模型的挖掘。
我們將從海量時間序列數據中尋找規律的數據挖掘方法稱為動態數據挖掘。將動態數據挖掘的方法應用于生產質量控制時,主要的目標有兩個:(1)通過對生產過程歷史記錄的數據挖掘,建立產品質量預測模型,并運用于生產過程,進行實時質量預測;(2)在產品質量出現問題后,利用對歷史數據的挖掘分析生產工藝對產品質量的影響,找出隱藏的生產規律,為企業改進工藝提供決策支持。
本文以鋼鐵生產過程為背景,闡述用于生產質量控制的動態數據挖掘方法。并以寶鋼的連鑄生產過程為例,介紹了這種方法在實際中的應用。
2.問題描述
我們將面向質量控制的動態數據挖掘定義為以下過程:
設生產過程P具有n個可測的工藝參數x1,x2,L,xn。不失一般性設這些工藝參數均為時間的函數,且其取值可以是以下3種數據類型之一:
(1)數值型,即該工藝參數的測量值為一實數(如高爐的爐頂溫度或壓力參數)或整數(如軋制的道數);
(2)枚舉型,即該工藝參數的測量值為給定集合中的一個元素(如熱軋鋼板的鋼種);
(3)邏輯型,即該工藝參數的測量值可表達為“是”或“否”二者之一(如某種原料成分是否存在)。
設上述任一工藝參數xi從t時刻開始的測量值已知,且可表達為周期為△ti的ni個采樣值的時間序列,即:
xi(t)={xi(t+△ti),xi(t+2△ti),...,xi(t+ni△ti)} (1)
其中任一采樣值可能帶有分布已知或未知的測量噪聲。
再設生產過程P具有m個可測的產品質量指標y1,y2,L,ym。不失一般性設這些質量指標均為時間的函數,且其取值與上述工藝參數類似,可以是數值型、枚舉型、邏輯型等3種數據類型之一。
設上述任一產品質量指標yj從t時刻開始的測量值已知,且可表達為周期為△Tj的mj個采樣值的時間序列,即:
yj(t)={yj(t+△Tj),yj(t+2△Tj),...,yj(t+mj△Tj)} (2)
本文所研究的面向質量控制的動態數據挖掘可表達為以下兩種類型問題的求解過程:
2.1 質量預測問題
給定工藝參數x1,x2,...xn從t時刻開始的測量值時間序列歷史記錄,和產品質量指標y1,y2,L,ym從t時刻開始的測量值時間序列歷史記錄,求解質量預測模型
(3)
其中為工藝參數在t時刻的測量值向量,
為質量指標
在t時刻的估計值向量。
因此,數據挖掘的目標是根據工藝參數和質量指標的測量值時間序列歷史記錄和建立質量預測模型。該模型可以在線使用,也可以離線使用。在線使用時,根據工藝參數的測量值可實時預測生產過程質量指標,從而進行質量控制。離線使用時,可以根據工藝參數的設計值進行工藝設計驗證,即將新的工藝參數設計值輸入質量模型,驗證是否會導致質量問題。
2.2 質量分析問題
給定工藝參數從t時刻開始的測量值時間序列歷史記錄,和產品質量指標從t時刻開始的測量值時間序列歷史記錄,求解質量關聯模型:
(4)
其中是質量指標yj在出現問題的時刻的測量值,是邏輯值,表示工藝參數是否與質量指標yj出現問題有關。
因此,數據挖掘的目標是根據工藝參數和質量指標的測量值時間序列歷史記錄和建立質量關聯模型。質量分析是一種離線應用。在發生質量事故后,根據質量指標yj在出現問題的時刻的測量值,可以判斷哪幾個工藝參數和質量問題有關,為分析事故發生原因從而改進生產工藝提供決策支持。
3. 面向質量控制的動態數據挖掘方法
3.1 數據歸整(Data coordination)
與靜態數據的挖掘不同,對多個時間序列進行動態數據挖掘時,需要解決的第一個問題是數據歸整。所謂數據歸整,指的是將多個時間序列的數據進行調整,使它們符合時間、空間上的相關性,因為對某一挖掘結果有影響的可能是不同時間序列在不同時刻的值。
以鋼鐵生產過程為例,其內部的生產流程可以分為連續型過程(如連續退火過程)和批量型過程(如高爐煉鐵過程)兩大類。連續型生產過程的特點是:原料連續經過生產線各工藝裝置處理后成為產品,各工藝裝置操作參數的設計值為定值。以熱鍍鋅連續退火過程為例,帶鋼依次進入連續退火機組的預熱段、均熱段、緩冷段和快冷段,各段的設定溫度均為定值。
批量型生產過程的特點是:單批產品在同一工藝裝置中,一般要經歷多個加工處理時段,因此通常其各個操作參數的設計值在生產過程的不同時段取不同的值。以轉爐煉鋼過程為例,鐵水在轉爐中經過吹氧、排渣、加炭等階段,每個階段都有不同的工藝參數設計值。
由于上述兩類生產過程的不同特點,在數據歸整時必須采用不同的處理方法。下面分別加以闡述。
3.1.1 批量型過程的數據歸整
對于批量型生產過程,由于單批產品的質量檢驗是在該批產品生產完成后進行,所以可以取單批產品整個生產過程中完整的工藝參數測量值時間序列和質量指標測量值時間序列作為動態數據挖掘所需的樣本。
為方便描述,假設批量型過程 的產品質量指標 的采樣周期均為 ,任一產品質量指標 從 時刻開始的測量值已知,且可表達為周期為 的 個采樣值的時間序列,即:
(5)
產品質量檢驗在時刻完成,則取作為動態數據挖掘所需的
個樣本,其中
其中 [ ]為向下取整函數。
3.1.2 連續型過程的數據歸整
對于連續型生產過程,應該將不同工藝參數在不同時刻對參與質量抽樣檢驗的“局部產品”的測量值與質量檢驗結果一起組成樣本,也即將工藝參數的測量值時間序列中,對某個質量檢驗結果有影響的一段時間序列提取出來,和質量指標測量值一起組成樣本。
為方便描述,假設連續型過程P的產品質量指標的采樣周期均為△T,任一產品質量指標yj從t時刻開始的測量值已知,且可表達為周期為△T的個采樣值的時間序列,即:
(10)
產品質量檢驗在時刻完成。各工藝參數的測量點可能安裝在生產線的同一區域或者不同區域,參與質量抽樣檢驗的第k個“局部產品”經歷xi測量點所在的區域的時間為,其中 。
則取作為動態數據挖掘所需的個樣本,其中
其中 [ ]為向下取整函數。]
3.2 時間序列的模式提取
3.2.1 質量不良原因的模式假設
通常生產質量不良的原因可分為兩類,即工藝參數設計時有錯誤;或在生產過程中工藝參數未能控制在設計值。本文提出的動態數據挖掘方法在用于生產質量控制時,基于以下關鍵性假設:
假設:(質量不良原因的模式假設)
設生產質量不良的原因可以通過生產過程中工藝參數的時間序列實測樣本反映出來。工藝參數的時間序列中某些特征的改變,引起生產質量的變化,而這些時間序列的特征,可以用模式來描述。
例如,在連鑄生產工藝中,鑄坯拉速不穩定時,容易出現縱向裂紋[4][5]。根據此先驗知識,可以將鑄坯拉速測量值時間序列的方差作為影響鑄坯縱向裂紋質量事故的一個模式。為了解鑄坯拉速測量值時間序列的方差與鑄坯縱向裂紋質量事故之間的定量關系,可以采用數據挖掘方法從海量的鑄坯拉速測量值生產歷史數據中去尋找。
根據上述質量不良原因的模式假設,在進行質量預測模型的建模或質量事故原因的分析時,要進行時間序列的模式提取,即將時間序列樣本集合轉換為特征模式樣本集合。
3.2.2 時間序列的模式提取方法
時間序列的模式提取可以看成一個從時間序列到模式集合的變換過程,即從時間序列中抽取有價值的模式。在經典的時間序列分析理論中,已給出了一類模式提取的方法:根據時間序列建立ARMA模型。該方法把時間序列空間映射到ARMA模型中的參數空間,也稱為時間序列的ARMA特征空間。但是ARMA特征沒有物理意義,難以根據它來改進產品質量。
為了使模式提取具有物理意義,有三類可供選擇的方法:
(1)根據理論分析和實際經驗,構造與產品質量有關的模式類。例如根據經驗,冷連軋過程中帶鋼溫度先單調上升后單調下降的情況可能引起斷帶,因此將它作為帶鋼溫度時間序列的一種模式。
(2)對于沒有任何先驗知識的情況,可以窮舉構造所有可能的有物理意義的模式。例如時間序列的均值、方差、最大值、最小值、中間值、局部極值出現頻率、單調性、凹凸性、與標準值的偏差、時間累計等等。
(3)對于只有部分先驗知識的情況,可以結合前兩種方法。
時間序列模式提取的一般步驟如下:
(1)給定用于各工藝參數測量值時間序列模式提取的模式集合,以表示,其中 為某個工藝參數要提取的一種模式;
(2)給定待提取模式的時間序列
(3)根據各模式提取的計算方法,對上述時間序列進行模式提取,即計算:
(15)
其中mi為時間序列在模式si下的模式提取結果,即模式評價值;為模式si的計算算式。模式評價值mi的數據類型根據模式的不同可能為數值型、枚舉型或邏輯型。;
(3)將樣本中的時間序列進行模式提取,提取的結果是將測量值時間序列轉換為模式提取結果,從而將樣本轉化為
從上述過程可以看出,經過模式提取,已經將時間序列數據轉換成了不顯含時間因素的模式評價值序列。
3.3 面向質量控制的動態數據挖掘過程
當給定一系列生產歷史數據時間序列后,對于如第2節所定義的兩類質量控制數據挖掘問題,部分的數據挖掘過程是相同的,但也有一部分并不相同,比如使用的挖掘算法以及對結果的處理等。下面分別進行討論。
3.3.1 求解質量預測問題的動態數據挖掘過程
求解質量預測問題的動態數據挖掘過程,首先要為挖掘準備可用的數據,然后選擇合適的方法進行質量預測模型的訓練和測試,最后輸出模型。具體步驟如下:
(1)確定m個可測的產品質量指標
;
(2)根據理論分析和實際經驗,確定可能影響質量指標的因素。根據這些因素,確定參加挖掘n個可測的工藝參數,以及工藝參數測量值時間序列模式提取的模式集合;
(3)使用第3.1節中介紹的方法對工藝參數時間序列進行數據歸整,得到個樣本;
(4)對樣本所包含的數據進行數據清洗,包括去處野值、數據平滑等過程;
(5)使用第3.2.2節中的方法,對樣本中的時間序列 進行模式提取,得到模式評價值序列 ,從而將樣本轉化為;
(6)將樣本分為訓練樣本集和測試樣本集,使用數據挖掘方法建立質量預測模型;
(7)使用測試樣本集對挖掘結果進行測試;
(8)輸出質量預測模型。
3.3.2 求解質量分析問題的動態數據挖掘過程
求解質量分析問題的動態數據挖掘過程,首先要為挖掘準備可用的數據,然后選擇合適的方法進行關聯分析,最后輸出關聯規則。具體步驟如下:
(1)~(6)同第3.3.1節中的步驟,獲得數據挖掘所需的樣本數據
;
(7)使用動態數據挖掘中的關聯分析方法,求解質量關聯模型;
(8)輸出質量關聯模型。
4.應用實例
運用上述理論與方法,作者在上海寶信軟件股份有限公司與浙江大學工業控制技術國家重點實驗室聯合開發的冶金企業生產質量分析數據挖掘平臺DMPlatform上,以寶鋼一煉鋼1900直弧型板坯連鑄機生產過程鑄坯縱裂質量控制為背景進行了動態數據挖掘試驗。
縱裂是連鑄板坯常見的表面缺陷之一,輕微的縱裂紋經板坯精整后對下工序不會產生影響,嚴重的縱裂紋會使整塊板坯報廢,甚至在連鑄生產過程中引起縱裂漏鋼,給設備和生產帶來嚴重的危害。關于縱裂產生的原因有過很多研究,國內外很多文獻中都有所報道。歸納起來主要有:鋼水的成分、連鑄的工藝操作參數、保護渣等方面,不同的工廠、不同的連鑄機在不同的階段,由于條件不同,每個因素對鑄坯縱裂影響的程度也在變化[4][5]。
動態數據挖掘用于進行質量預測試驗,即數據挖掘的目的是建立質量預測模型。定義質量指標為鑄坯縱向裂紋,考慮的數據類型為邏輯值,即只考慮鑄坯樣本有或無縱向裂紋。在生產中通過切片硫印的方式獲取該質量指標的檢驗值,采樣周期為1小時。參與數據挖掘的工藝參數共有24個,最短的采樣周期為5秒(如結晶器循環冷卻水和二冷段冷卻水的溫度),最長的采樣周期為1分鐘(如鑄坯表面溫度)。根據已知的連鑄理論和經驗知識,如:錳硫比增大或者硫含量降低,裂紋減少;拉速越不穩定,越容易出現縱向裂紋等,確定了對各個工藝參數時間序列需要提取的具有物理意義的模式,如表1所示。
表1、參與數據挖掘的連鑄生產工藝參數及提取的模式
連鑄是連續型生產過程,采用3.1中的方法從生產歷史數據中抽取樣本,共采集了60批鑄坯的生產歷史紀錄,每批數據記錄的時間跨度為鑄坯切片質量硫印檢驗前1小時。因此24個工藝參數時間序列的最大長度為86400個采樣數據,總數據量約為200萬個數據。然后對原始數據進行去處野值、數據平滑等預處理,接著根據表1對所有樣本提取特征模式,利用樸素Bayes分類建立質量預測模型。圖1給出了在DMPlatform軟件平臺上進行組態的數據挖掘流程。
采用5組工藝參數實測值對獲得的連鑄鑄坯質量預測模型進行了檢驗,預測準確性為80%。由于連鑄板坯縱裂的形成原因非常復雜,根據經驗很難預測和控制,因此80%的質量預測精度對于鑄坯質量控制有很大的幫助。
圖1. DMPlatform軟件平臺上進行組態的連鑄鑄坯質量預測數據挖掘流程
5.結論
生產質量控制是利用生產過程的動態信息進行質量預測和質量控制。將動態數據挖掘的方法應用于質量控制時,主要解決兩個問題:(1)質量預測問題,即通過對生產過程歷史記錄的數據挖掘,建立產品質量預測模型;(2)質量分析問題,即在產品質量出現問題后,利用對歷史數據的挖掘分析生產工藝對產品質量的影響,找出隱藏的生產規律,為企業改進工藝提供決策支持。
由于生產歷史數據通常都是時間序列,因此用于處理靜態數據的數據挖掘方法不能直接應用于鋼鐵生產過程。本文給出了動態數據挖掘用于生產過程質量控制的一般方法。將此方法運用于寶鋼一煉鋼1900直弧型板坯連鑄機生產過程鑄坯縱裂質量控制,在上海寶信軟件股份有限公司與浙江大學工業控制技術國家重點實驗室聯合開發的冶金企業生產質量分析數據挖掘平臺DMPlatform上進行試驗,質量預測準確性達到80%。
[參考文獻]
[1]劉海英. 基于計算機技術的工序質量控制系統研究.中國機械工程,14(13):1118-1121,2003
[2]劉明周,任蘭,張銘鑫. 產品質量統計過程中的制造質量數據管理方法研究.計算機集成制造系統,11(2),280-283,2005
[3]萬百五. 工業生產的產品質量模型和質量控制模型及其應用.自動化學報,28(6),1019-1024,2002
[4]熊毅剛. 板坯連鑄.冶金工業出版社,1994
[5]曹廣疇. 現代板坯連鑄.冶金工業出版社,1994