在物流RFID數據庫中挖掘時空模式
1 引言
物流RFID數據的采集與積累為期不長,如何對它們進行有效開發利用的研究還處于起步狀態。雖然大家都認識到這項研究工作具有重大意義,但是目前還沒有尋找到適用的方法和技術。物流貨物的RFID數據與乘客利用公交IC卡刷卡乘車數據有相似之處,所以考察公交IC卡數據的研究工作有一定的借鑒作用。文獻中有對公交IC數據倉庫結構和數據挖掘系統框架進行探討的,利用傳統的統計方法,得到某些方面的匯總信息。但是文中沒有提出有效的數據挖掘技術,所以沒能獲取深層次的決策支持信息。與乘客乘車一樣,運載的貨物也處于一個時空不斷變化的動態過程中,要想得到貨物在路網上的運動規律,必須采用新的方法和技術。時空數據挖掘的研究給解決此類問題提供了一種新的思路。
時空數據挖掘即“從時空數據庫中發現知識”(Knowledge Discovery from Spatio—Temporal Data bases),是指從時空數據庫中提取用戶感興趣的時空模式與特征、時空與非時空數據的普遍關系及其它一些隱含在數據庫中的普遍的數據特征,它是KDD技術在時空數據庫應用的延伸,是數據挖掘近幾年發展起來的一個新研究領域。針對由RFID設備獲取物流信息的需求,選擇時空數據挖掘中的時空關聯規則的方法較為合適。文獻中研究移動物體時空數據預處理技術,為時空關聯規則數據統計提供基礎;文獻中對時空關聯規則算法進行研究,得到了很多有趣的時空模式。上述算法適用于提取自由移動物體活動規律的情況。而在物流系統中,貨物的運送受配送車輛和線路的影響,需要對以自由移動物體為研究對象的時空關聯規則進行改進,以適用于具有路線約束的貨物運送時空模式的挖掘。
本文利用時空頻繁模式挖掘的基本思想,結合物流領域的專業知識,對物流貨物運送時空規律進行提取,為物流公司線路優化提供詳實科學的決策依據。借助于時空關聯規則挖掘中的時空頻繁模式來表示貨物在配送過程中的規律,如貨物于某時TIi從地點A裝載上車,于另一時間TIj從地點B卸載下車,這就是一個配送模式;當貨物件數大于規定的閾值時,這就是一個頻繁的配送模式,反映了某一部分貨物的群體時空配送規律。結合有效的剪枝策略,可以獲取整個物流公貨物主要的時空流動規律。這是對物流RFID數據進行時空模式挖掘的新探索,為獲取貨物主要的時空流動規律提供了新的方法與手段。
2 物流RFID數據庫時空模式挖掘的概念與符號定義
本文研究的對象是物流公司通過RFID設備獲取的貨物時空數據庫。從某一物流公司的貨物配送數據庫中,可得到表1的記錄形式:

從表1中可以看出,物流公司通過RFID技術詳細記錄了貨物的動態信息,包括貨物從接貨到到達顧客手中所經歷的地點與時間。有了這些信息,可以利用關聯規則挖掘哪些地點對或地點鏈是頻繁出現的,據此可以進行物流網優化調整。
一個物流線路網G由一組不同的貨物配送線路Ii組成,且每條線路上分布有若干裝卸貨物的地點Sij。可以表示為:

式中,G一物流線路網;L一線路集合;Ii一第i條配送線路;S一裝卸站點集合;Sij一第i條配送線路上的第i個裝卸點。
每條配送線路都有一定的發送頻率。線路上任何相鄰兩個地點之間的一段稱為線段,不同的線路之間會有部分相交或不相交的線段。貨物從某一起點可能需要一次或多次轉運才到達收貨人的手中,形成一條裝卸點序列。當某序列只包含兩個裝卸點,即起點與終點,說明此次配送沒有中途轉運;當序列包含三個及以上裝卸點,即除起點與終點外,還包含中間的一個或幾個轉運點,說明此次配送中途進行了轉運。本文借助于時空關聯規則挖掘中的時空模式來表示貨物在配送網中的運送情況,結合物流領域的專業知識,定義配送線路模式這一術語來表示貨物在配送網中的時空狀態,見定義1。
定義1 時空配送線路模式:帶時間屬性的配送路線,是由帶時間屬性轉運點所組成的序列,貨物在每個轉運點上都會停留一段時間,所以時間屬性采用時間TI表示。如式(2)所示:

式中,R一帶時間屬性的轉運點集合和線路集合;
S一轉運點集合;
Si一第i個轉運站點;
T一所有轉運點對應的時間集合;
ti一第i個轉運點對應的時間;
L一轉運點涉及的配送線路集合。
根據式(2)中的s={s1,s2…,Sy}所含轉運點數量的不同,可分為直達的配送模式,即y=2,和轉運的配送模式,即y>2。
為了便于利用數據挖掘技術,在此用時空關聯規則對配送模式的表達方式進行轉換。
定義2 直達路線的時空關聯規則:用時空關聯規則的表示方法描述的直達配送模式,即貨物于某一時間ti從裝載點si,裝載上車q1,于另一時間tj從卸載點sj卸載下車q2,就成一條配送的時空關聯規則ζi記為:

式中,ζi一帶時間屬性的直達路線的時空關聯規則:
si、sj一第i,j個裝卸點;
ti,tj一裝卸點所需時間段集合;
q1一裝載;
q2一卸載;
sup一支持數;
m一滿足此條時空關聯規則的貨物件數。
{$page$}
定義3 轉運路徑的時空關聯規則:具有轉運關系的兩個或兩個以上的直達路徑時空關聯規則的組合。在時間ti從線路li的裝卸點si裝載的貨物,于另一時間tj從裝卸點sj卸載,又于時間tk在裝卸點sj裝上線路lj的車上,再于另一時間tg從sn卸下。可用式(4)表示:

為了簡化,用ζ*來表示轉運路徑關聯規則,則有:

把除裝卸點si之外同一條線路l1上的其它所有裝卸點稱為sielse,那么可以單獨地把某個裝卸點的裝卸載貨物情況看成一個特殊的時空關聯規則。
定義4 裝載點的時空關聯規則:于某一時間ti從裝卸點si裝載的貨物,將于其后時間tielse在同配送線路的其它sielse卸載,用關聯規則形式表示:

式中的0nζi表示裝載點的時空關聯規則。
定義5 卸載點的時空關聯規則:貨物于先于某一時間的時間從裝卸點Si裝載,于時間ti在裝卸點sielse卸載,用關聯規則的形式表示:

式(6)中的Offζi、表示卸載點的時空關聯規則。
這樣裝卸點、裝卸點對、裝卸點鏈在時空關聯規則上就有了統一的表述方式。
定義6 頻繁模式:當某個關聯規則的支持數大于一個設定的閾值時,這條關聯規則就是有趣的,是一個頻繁模式。這個設定的閾值稱為最小支持數,用minsup表示。對應上述各種規則就有了各自的頻繁模式。頻繁直達路徑的關聯規則是指在路線l;上,于某一時間t從裝卸點s裝載的貨物,將于某一時間tj從裝卸點sj卸載,用F=(f,I,q.)(,,q)pup=≥minsup]表示,所有的F‘組成的集合用Fζi表示。同理可得頻繁轉運路徑Fζ*,頻繁的裝載點F0nζ,頻繁的卸載點Foffζ等概念。
3 物流
RFID數據庫時空模式挖掘的算法設計要想在上千萬條記錄中找出這些有趣的時空關聯規則是一件相當不容易的事情,必須依靠有效的剪枝策略。根據物流專業領域的知識,可以得到以下的性質:
性質1:線路]i上頻繁的直達路徑必然頻繁的裝卸點集合中。可以直觀地想象,沒有很多貨物發運的裝載點,不可能成為頻繁直達路徑的前項;沒有很多貨物到達的卸載點,不可能成為頻繁直達路徑的后項。
性質2:線路]i和]j;頻繁轉運路徑必然發生在包含在具有轉運可能性的裝卸點的頻繁直達路徑的集合中。因為頻繁轉運路線時空關聯規則是用兩個或兩個以上的直達路徑時空關聯規則的組合進行表示,所以頻繁轉運路徑必定出現在頻繁直達路徑的集合中。
利用這些定義和性質,就可以進行物流配送數據庫時空頻繁模式挖掘。
(1)數據準備。根據物流配送數據庫中的數據,得到各線路各個時段的貨物裝卸點OD矩陣。
(2)設定minsup的值,尋找滿足式(8)所列條件的頻繁裝載點集合FOnζ.和頻繁卸載點集合FOffζ,如式(9),(10)所示。

(3)利用性質1來尋找頻繁直達路徑集合。由于一條路線上會有不同的車次,所以要用一個矩陣來表示各條路線不同車次的頻繁直達路徑,如(11)所示。

式中Fζi表示線路li上的頻繁直達路徑集合,Fζij表示路線li上第j個車次頻繁直達路徑集合。
(4)獲取頻繁轉運路徑集合。在頻繁直達路徑集合式(11)中,針對具有轉運可能的裝卸點,根據貨物號進行跟蹤,利用性質2來尋找頻繁轉運路徑集合,如(12)所示。

式中Fζ表示線路l上的頻繁轉運路徑集合,F‘表示路線l;上第j個頻繁轉運路徑集合。
4 實驗及其結果分析
為了能簡單有效地說明上述算法,我們從物流配送線路網中截取兩條具有代表性的單向線路l1和l2,它們有一個共同的裝卸點C。如圖1所示。

{$page$}
第一步根據貨物配送數據,得到線路l和l各個裝卸點裝卸貨物的件數,時間精度取到小時,見表2和表3。

根據車輛的出行信息,可以得到線路l1和l2各裝卸點的時間列表,見表4和表5。

第二步在各條路線每個車次裝卸點OD中,獲取大于最小支持數的各頻繁裝卸點。在本例中,設定minsup=10,則表2和表3中頻繁的裝卸有(AB)、(EFC),頻繁的下客裝卸點(BCD)、(CG).如圖2和圖3所示:

根據性質1可以得到線路l1上頻繁的直達路徑有:

簡記為A==>C,如圖4所示。

線路l2上頻繁的直達路徑有:

簡記為C==>G,如圖5所示。

第四步在具有轉運可能的裝卸點c,對貨物進行跟蹤,搜尋出這些貨物中后來又上另一輛貨車的貨物件數超過設定轉運支持數的裝卸點,如圖6所示。

通過上述的實驗,驗證本文提出的物流RFID數據庫時李模式挖掘方法能快速獲取頻繁裝卸點、頻繁直達路徑和頻繁轉運路徑等。這些信息就可以為庫存控制和線路優化提供決策依據。
5 結論及展望
隨著各種檢測設備與RFID技術的投入使用,物流公司的信息部門每天都可采集并存儲大量貨物運送方面的數據,但是這些積累的海量物流時空數據并未得到有效的組織和利用,很多潛在的物流運送線路規律并未發現,造成了數據資源的浪費。本文提出了利用數據挖掘技術來抽取這些隱含在數據中的潛在有用的規律。但是時空數據挖掘方法在很多方面都需要進一步完善才能應用到物流領域中,本文只是在這方面做了一些探索,需要進一步研究的內容還有很多,比如時空模式的可視化,挖掘算法的智能化,挖掘結果的后處理與利用問題等。