基于數據挖掘的管道高后果區智能識別分析系統
來源:《管道保護》雜志 作者:肖麗;錢濟人;范文峰;李園 時間:2019-11-26 閱讀:
肖麗 錢濟人 范文峰 李園
浙江浙能天然氣運行有限公司
摘 要:隨著管網和城市化的快速發展,天然氣管道穿越人口密集區的情況日益突出,沿線各級政府要求管道企業全面開展人員密集型高后果區識別和風險評價工作。傳統的人工識別方法存在數據采集困難、準確度不高、效率低等缺點,無法滿足企業實際需求。浙江浙能天然氣運行有限公司充分利用現有的遙感影像(DOM)和線劃圖(DLG),采用數據挖掘方法實現了高后果區的有效識別。
關鍵詞:高后果區識別;建筑數據矢量化; DBSCAN聚類算法
浙江省經濟發達,土地資源緊張,天然氣管道周圍人口密集,形成了大量高后果區,一旦發生泄漏爆炸事故,將會給人民生命和財產帶來巨大損失。
輸氣管道高后果區分級的前提是統計管道中心線兩側至少200米范圍內的所有建筑數據,傳統人工現場識別方法識別時間長、成本高、質量低,耗費大量人力、物力、財力,已無法與企業提質增效的目標相適應,如何準確高效識別管道高后果區成為必須思考與解決的問題。
基于數據挖掘的天然氣管道高后果區識別系統(以下簡稱識別系統)依托于智慧油氣管網建設,通過將天然氣管道與大數據分析相結合,采取建筑數據矢量化的創新方式進行數據采集,基于密度的DBSCAN聚類算法高效智能準確地完成高后果區識別工作,實現天然氣管道管理信息化、數字化,取得了很好的效果。
1 數據采集
1.1 數據庫搭建
數據庫以開源PostgreSQL數據庫為核心,通過擴展PostGIS組件,建立PostgreSQL數據庫到ArcGIS通道,實現空間地理數據存儲與管理;通過擴展TimescaleDB組件,建立PostgreSQL數據庫關聯,實現時間序列數據存儲和管理;通過擴展MinIO組件,建立對象數據與PostgreSQL數據庫的關聯,實現照片、文檔等數據存儲與管理。從而實現了一專多能的時空全棧數據庫,滿足數據挖掘所需的各種類型數據存儲和檢索全息信息。
1.2 數據分層
識別系統所依賴的第一層(最底層)數據是正射遙感影像(DOM),該數據來源于最新衛星遙感和航測影像數據,直觀反映了管道周邊的環境,但其僅為影像數據,無法直接用于高后果區的識別。第二層數據為數字線劃圖(DLG),將影像數據中的建筑 轉換為矢量,將建筑標記后作為一個多邊形保存在空間數據庫里。第三層數據為建筑屬性數據,如建筑類型、聯系人及電話等。
1.3 數據處理
首先通過歸納分析,對空間數據庫的數據預處理。
(1)針對管道周圍大量農村住宅,其線劃圖長寬比有一定的范圍,高度一般不超過4層,利用激光雷達點云數據獲得的建筑物頂層高度,就可以將農村住宅分類,農村住宅定義為一幢一戶。
(2)小區住宅,歸納小區住宅的長寬比,考慮線劃圖的面積和住宅小區每戶面積在70~130平方米,建立數學模型可推導每層戶數。小區住宅一般高度均超過7層,利用線劃圖高度屬性,可推導出層數,由此可計算出一幢住宅的住戶數。
(3)工廠、商場等特定場所和住宅形狀、長寬比、高度均有差異,通過計算,將工廠商場等特定場所分類標注。
(4)由于線劃圖均有精確的GPS坐標,通過與百度、 BIGMAP等地圖數據的位置匹配,能夠取得特定場所的屬性,如單位名稱、聯系人及電話、詳細地址等信息。建筑標注綠色為農民住宅,藍色為小區住宅,黃色為一般特定場所,紅色為易燃易爆場所。
1.4 數據完善
針對PC端無法確認的部分建筑數據,利用手機端高后果區采集APP核實現場數據,可直接導航至該建筑位置,大大節省了現場數據采集時間。
對存儲在數據庫中的管道兩側200米的所有建筑數據自動預處理并現場核實完善后,不僅可快速確定各類住宅所包含的戶數,而且對特定場所進行標注。建筑數據的矢量化為高后果區智能識別分析打好基礎(圖 1)。
2 智能識別
2.1 識別準則量化
依據GB 32167―2015《油氣輸送管道完整性管理規范》,結合公司管道周邊建筑實際分布情況,公司量化了管道高后果區識別準則。
(1)Ⅲ級高后果區:四級地區,某地區連續出現10幢4層及以上建筑(不包括農村住宅,一般指小區住宅)。
(2)Ⅱ級高后果區分為以下三種情況:
①三級地區,戶數100戶以上。
②連續有10個工廠,兩個工廠之間間隔不超過30米。
③其他存在易燃易爆場所的地區。
(3)Ⅰ級高后果區:其他存在特定場所的地區,如學校、幼兒園、醫院等。
2.2 核心算法
2.2.1 算法原理
完成數據預處理后,這些建筑可以看成是一個帶有戶數屬性的點。這些點在管道周圍的分布沒有特定形狀,形成一定的散布,沿管線計算確定建筑(戶數)密集區域即可實現高后果區分級。
常用的聚類算法有k-means算法,試用后發現k-means算法基于平均距離決定同類聚集,適用于球形聚集,不適合民房空間分布。通過比較研究,選擇了具有噪聲的基于密度的DBSCAN(Density-BasedSpatial Clustering of Applications with Noise)聚類算法,該算法是以密度、而不是距離來計算簇和簇邊界。其基本思路(圖 2)是以建筑密集區域的某一建筑為圓心,選擇合適半徑畫圓,即規定了圓的半徑及圓內最少包含的建筑密度。若圓內建筑密度大于等于預先指定的值,那么這個圓圈的圓心就轉移至該圓圈內的其他建筑,繼續畫圓去計算,直至圓內所包含的建筑密度少于預先指定的值,聚類終止。基于密度的DBSCAN聚類算法適用于在管線周圍建筑分布區域中,去尋找高密度分布的區域,并與建筑分布形狀無關。
2.2.2 算法應用
根據量化后的管道高后果區識別準則,將基于密度的DBSCAN聚類算法應用到高后果區識別中。以管線為基本單位,首先調用空間數據庫中的小區住宅, 半徑設置成100米,數量設置為10,計算出小區住宅簇的區域,滿足識別標準時將該區域劃分為Ⅲ級高后果區。
去除小區住宅簇后,調用空間數據庫中標有工廠、商業建筑等建筑,半徑設置成100米,數量設置為10,計算出工廠、商業建筑簇的區域,滿足識別標準時將該區域劃分為Ⅱ級高后果區。
去除以上兩個簇后,調用空間數據庫中標有農村住宅的建筑,半徑設置為50米,數量為100,計算出民居簇的區域,滿足識別標準時將該區域劃分為Ⅱ級高后果區。
去除以上三個簇后,根據數據預處理后特定場所標注的屬性,易燃易爆場所劃為Ⅱ級高后果區,其他場所劃為Ⅰ級高后果區。
3 自動統計分析
識別系統對1 766公里(經統計管道周邊建筑8萬多個)天然氣管網進行了高后果區自動識別。基于復合圖文一體化智能報告生成技術,按報告模板自動統計分析數據并以圖表格式展示(圖 3), 1小時內即可出具全省共55份報告。
4 功能實現
基于數據挖掘的管道高后果區智能識別系統的開發應用成功,一是實現了管道高后果區的精準識別,達到管道高后果區的數據化、可視化管理目標,為政府及管道企業管理提供有力依據。二是有效降本提質增效,滿足企業越來越高的精細化及經營管理的要求。三是可與其他管道保護業務系統關聯(如與應急管理系統關聯),實現數據共享,進一步加強管道安全運行管理。四是實現了基于管道高后果區的大數據管理與維護,從數據采集、數據展示、數據應用到數據更新,實現數據的高效采集、直觀展示、統計分析及更新的全過程管理,增強數據的實用性(圖 4)。
5 結論
管道高后果區智能識別系統識別質量高,高后果區等級劃分均有數據可追溯,并有多種統計維度,如按照全省各地市行政區劃統計、公司管道管理單元統計、識別時間統計、高后果區及其變化情況統計等,取得了手工識別無法做到的識別結果,奠定了管道完整性管理基礎,也夯實了應急預案落地基點,將有效提高管道風險消減效果。
作者:肖麗,女, 1992年生,助理工程師, 2015年畢業于中國石油大學(華東)油氣儲運專業,現主要從事管道保護工作。錢濟人, 1963年生,高級工程師,科創中心主任,現主要從事管道先進科技技術研究工作。
上篇:
下篇: