
新聞資訊
海量資訊實時呈現(xiàn)
有了Ta,數(shù)據(jù)清洗 so easy!
2020-01-08
主數(shù)據(jù)來源于多個業(yè)務系統(tǒng)且包含大量歷史數(shù)據(jù),不可避免地存在錯誤、沖突的數(shù)據(jù),這些錯誤的或有沖突的數(shù)據(jù)就是 "臟數(shù)據(jù)"。 數(shù)據(jù)清洗顧名思義就是對“臟數(shù)據(jù)”進行清洗,是對主數(shù)據(jù)進行重新審查和校驗的過程,包括檢查主數(shù)據(jù)一致性、處理無效值和缺失值等,是發(fā)現(xiàn)并糾正主數(shù)據(jù)文件中可識別錯誤的最后一道程序。 數(shù)據(jù)清洗按照一定的規(guī)則把零散、重復、不完整的主數(shù)據(jù)清洗干凈,得到精確、完整、一致、有效、唯一的主數(shù)據(jù),從而提高主數(shù)據(jù)質(zhì)量。 數(shù)據(jù)清洗是一個費時費力但又必不可少的工作。在數(shù)據(jù)清洗過程中,三維天地將根據(jù)客戶的需求制定清洗方案。 主數(shù)據(jù)清洗方案一般有兩種: 線下清洗 先對主數(shù)據(jù)進行清洗,導入系統(tǒng)后,系統(tǒng)再上線使用。在數(shù)據(jù)量不多的情況下,可以直接對數(shù)據(jù)進行清洗,對常見的幾種數(shù)據(jù)問題進行逐一排查清洗,具體步驟如下: 第一步:對重復的主數(shù)據(jù)進行去重; 第二步:對空值進行補充; 第三步:按照主數(shù)據(jù)標準,對引用值不規(guī)范的數(shù)據(jù)進行統(tǒng)一調(diào)整; 第四步:調(diào)整主數(shù)據(jù)值的格式與標準一致; 第五步:刪除冗余數(shù)據(jù); 第六步:檢查主數(shù)據(jù)中與標準不一致的數(shù)據(jù)項進行逐一調(diào)整。 一般情況,線下數(shù)據(jù)清洗是一個非常龐大的工作,數(shù)據(jù)質(zhì)量越差,清洗的工作量就會越大。 為了提高工作效率,三維天地提供清洗工具來輔助清洗工作。既第二種數(shù)據(jù)清洗方式——線上數(shù)據(jù)清洗。 線上清洗 線上數(shù)據(jù)清洗先將初始化數(shù)據(jù)遷移到系統(tǒng)中,系統(tǒng)上線以后,建立數(shù)據(jù)清洗模型再對數(shù)據(jù)進行清洗。具體步驟如下: 第一步:清洗模型申請。新增一個清洗模型,選擇模型編碼,填寫關聯(lián)相似度及警告相似度。 第二步:配置清洗模型的顯示列。選擇需要參與清洗對比的列選項(參與相似對比的列必須啟用,且只能是在全文檢索索引設置中啟用),保存成功并提交清洗模型。 第三步:審核清洗模型。審核成功的清洗模型可進行清洗操作。 清洗模型建好后,將要清洗的數(shù)據(jù)關聯(lián)到清洗模型中,根據(jù)清洗模型和數(shù)據(jù)標準對數(shù)據(jù)進行清洗。大量主數(shù)據(jù)清洗時,可以劃分階段進行,保證數(shù)據(jù)清洗范圍可控,不影響系統(tǒng)及相關業(yè)務系統(tǒng)的使用。劃分原則可參考數(shù)據(jù)的申請時間、業(yè)務發(fā)生時間段、是否有庫存等。 數(shù)據(jù)清洗過程中往往會出現(xiàn)很多判斷問題,如:數(shù)據(jù)是否合乎標準,是否存在錯誤等,這些都可以通過相應算法實現(xiàn)判斷。通過主數(shù)據(jù)清洗,可以保證主數(shù)據(jù)的唯一性、精確性、完整性、一致性、有效性,為各個應用系統(tǒng)以及后續(xù)的分析決策提供高質(zhì)量的數(shù)據(jù)保障。 三維天地作為業(yè)界領先的信息標準化管理解決方案供應商,致力于為客戶提供全方位高質(zhì)量的信息標準化管理服務。從客戶的實際需求出發(fā),以先進的技術和定制化的服務贏得客戶的信任和支持。使信息標準化管理得到更全面的推廣,讓更多的企業(yè)體會信息標準化管理的魅力,共創(chuàng)信息化管理新時代。
數(shù)據(jù)資產(chǎn)管理
供應鏈與云服務
關注我們
Copyright ? 2022 北京三維天地科技股份有限公司,All rights reserved. 京ICP備10208408號-2 京公網(wǎng)安備 11010602103901號