計算機數(shù)據(jù)管理論文
在網(wǎng)絡(luò)環(huán)境下,計算機數(shù)據(jù)與日俱增,給企業(yè)帶來數(shù)據(jù)量的急劇上升的同時,也帶來了數(shù)據(jù)如何管理的問題。下面是學習啦小編給大家推薦的計算機數(shù)據(jù)管理論文,希望大家喜歡!
計算機數(shù)據(jù)管理論文篇一
《數(shù)據(jù)倉庫數(shù)據(jù)源管理研究與實踐》
摘 要:論述數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)源管理的意義、對象、內(nèi)容和方法,基于此,開發(fā)建設(shè)數(shù)據(jù)源管理系統(tǒng),并應用到對ERP系統(tǒng)業(yè)務(wù)數(shù)據(jù)的接入管理,取得預期的成效。
關(guān)鍵詞:數(shù)據(jù)倉庫 數(shù)據(jù)源 數(shù)據(jù)源管理
中圖分類號:TP392 文獻標識碼:A 文章編號:1007-3973(2013)012-202-03
1 引言
數(shù)據(jù)倉庫(Data Warehouse)是所有DSS(Decision Support System)處理的基礎(chǔ),是一個面向主題(Subject Oriented)的、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。一般來說,數(shù)據(jù)倉庫應具有以下幾個方面的作用:(1)存儲企業(yè)級的基礎(chǔ)數(shù)據(jù)和共享數(shù)據(jù);(2)為各業(yè)務(wù)應用系統(tǒng)提供共享數(shù)據(jù);(3)為業(yè)務(wù)部門提供綜合數(shù)據(jù)查詢分析功能;(4)為企業(yè)管理層提供分析決策信息。
數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)一般是通過數(shù)據(jù)源從業(yè)務(wù)源系統(tǒng)中抽取,由此數(shù)據(jù)源是數(shù)據(jù)獲取的首要環(huán)節(jié)和關(guān)鍵點,當面對眾多業(yè)務(wù)源系統(tǒng),面對海量數(shù)據(jù)的抽取時,就迫切需要一套完整高效的方法和工具對數(shù)據(jù)源進行管理,為數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)的準確性、完整性和及時性提供支持。
2 數(shù)據(jù)源管理概述
2.1 數(shù)據(jù)源定義
數(shù)據(jù)源是指業(yè)務(wù)源系統(tǒng)(以下簡稱源系統(tǒng))中向數(shù)據(jù)倉庫提供業(yè)務(wù)數(shù)據(jù)的技術(shù)對象,數(shù)據(jù)倉庫系統(tǒng)通過數(shù)據(jù)源來抽取源系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)。在源系統(tǒng)中,數(shù)據(jù)源可以是各種技術(shù)對象,如數(shù)據(jù)庫表、視圖、XML文件、文本文件或程序等。
相對應的,在數(shù)據(jù)倉庫系統(tǒng)中一般也有相應的技術(shù)對象對應于源系統(tǒng)中的數(shù)據(jù)源,用于存儲業(yè)務(wù)源系統(tǒng)的數(shù)據(jù)。在源系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)之間存在著各種數(shù)據(jù)傳輸技術(shù)和工具,用來進行數(shù)據(jù)抽取和傳輸,比如各種專業(yè)化的數(shù)據(jù)抽取工具(ETL)、WebService技術(shù)、數(shù)據(jù)庫連接技術(shù)(DB Connect)等等。
2.2 數(shù)據(jù)源管理意義
數(shù)據(jù)源管理是數(shù)據(jù)倉庫數(shù)據(jù)管理的重要組成部分,更是數(shù)據(jù)接入管理的主要內(nèi)容。數(shù)據(jù)源管理的目標是:(1)確保數(shù)據(jù)倉庫系統(tǒng)能準確、完整和及時地接收到業(yè)務(wù)數(shù)據(jù),防止因數(shù)據(jù)源變更對數(shù)據(jù)倉庫數(shù)據(jù)造成的各種不良影響。(2)讓業(yè)務(wù)人員、信息管理人員和技術(shù)人員等各級各類人員清楚地了解和知曉數(shù)據(jù)倉庫系統(tǒng)已接入了哪些業(yè)務(wù)數(shù)據(jù),為業(yè)務(wù)人員與技術(shù)人員建立起溝通的橋梁。(3)減少因不了解數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)而造成的數(shù)據(jù)重復接入、重復建設(shè)或利用不充分等現(xiàn)象,促進數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)模型的完善提升和數(shù)據(jù)共享能力提高。
3 數(shù)據(jù)源管理的對象、內(nèi)容和方法
3.1 數(shù)據(jù)源管理的對象
3.1.1 數(shù)據(jù)源
數(shù)據(jù)源涉及到數(shù)據(jù)的業(yè)務(wù)類別、數(shù)據(jù)結(jié)構(gòu)、抽取方式等信息,可分類歸納為業(yè)務(wù)屬性、技術(shù)屬性、數(shù)據(jù)項屬性和運行屬性四類,以反映數(shù)據(jù)源的各方面內(nèi)容。
業(yè)務(wù)屬性用于說明數(shù)據(jù)源所涉及的業(yè)務(wù)數(shù)據(jù)情況,比如是哪些種類的業(yè)務(wù)數(shù)據(jù),什么業(yè)務(wù)邏輯條件、組織條件和時間條件下的業(yè)務(wù)數(shù)據(jù),這是數(shù)據(jù)源管理的核心價值所在。數(shù)據(jù)源業(yè)務(wù)屬性主要通過數(shù)據(jù)源名稱和數(shù)據(jù)源描述來表達,此外還包含數(shù)據(jù)的業(yè)務(wù)類別(比如財務(wù)類、營銷類等)、數(shù)據(jù)業(yè)務(wù)類型(比如主數(shù)據(jù)、交易數(shù)據(jù)等)等信息。
數(shù)據(jù)項屬性是指數(shù)據(jù)源中可提供的業(yè)務(wù)數(shù)據(jù)項(也稱字段)信息,主要有數(shù)據(jù)項的技術(shù)名稱、中文名稱、說明、數(shù)據(jù)類型、數(shù)據(jù)長度、小數(shù)位數(shù)、關(guān)鍵字標識等。
技術(shù)屬性是指數(shù)據(jù)源的物理實現(xiàn),說明數(shù)據(jù)源的技術(shù)對象和類型,主要包括:數(shù)據(jù)源對象的技術(shù)名稱;技術(shù)類型,如表、視圖等;當前版本;使用狀態(tài),如在用、未用、廢棄;增量支持,說明數(shù)據(jù)源是否支持以增量方式提供數(shù)據(jù)。
運行屬性指數(shù)據(jù)倉庫系統(tǒng)基于數(shù)據(jù)源抽取業(yè)務(wù)數(shù)據(jù)的相關(guān)具體信息。運行屬性往往是根據(jù)業(yè)務(wù)、技術(shù)和管理的需要而確定的,并且往往是設(shè)置在數(shù)據(jù)抽取工具上。運行屬性通常包括:數(shù)據(jù)的抽取頻率和觸發(fā)時間;數(shù)據(jù)的抽取方式,分為全量或增量,全量是指抽取數(shù)據(jù)源中的全部數(shù)據(jù),增量是指抽取數(shù)據(jù)源中自上次抽取后變化的業(yè)務(wù)數(shù)據(jù);推送方式,分為推、送兩種方式,推是指源系統(tǒng)主動發(fā)起數(shù)據(jù)的傳輸,拉是指數(shù)據(jù)倉庫系統(tǒng)主動發(fā)起數(shù)據(jù)的傳輸;數(shù)據(jù)傳輸技術(shù),是指數(shù)據(jù)傳輸?shù)募夹g(shù)方式,包括WebService、RFC、數(shù)據(jù)庫直連(DBLINK)、ETL工具等。
3.1.2 數(shù)據(jù)源構(gòu)造對象
一個數(shù)據(jù)源本身往往是由程序、表或視圖等多個技術(shù)對象構(gòu)建而成,這些技術(shù)對象是數(shù)據(jù)源的構(gòu)造對象。顯然構(gòu)造對象的變化會對數(shù)據(jù)源產(chǎn)生影響。事實上這些構(gòu)造對象本身也可能存在依賴關(guān)系,并且是多對多的依賴關(guān)系。同樣,對這些技術(shù)對象需要關(guān)注其技術(shù)名稱、技術(shù)類型和主要功能作用。
3.2 數(shù)據(jù)源管理的內(nèi)容
數(shù)據(jù)源管理的主要工作應包括配置管理,變更管理和運行管理等。此外基于數(shù)據(jù)源管理的特點,從實際工作角度出發(fā)還應區(qū)分清楚數(shù)據(jù)源管理的分工職責等。
3.2.1 配置管理
數(shù)據(jù)源配置管理的主要任務(wù)是建立起數(shù)據(jù)源配置清單,記錄數(shù)據(jù)源的各項屬性信息,分析和記錄數(shù)據(jù)源及其構(gòu)造對象之間的相互依賴關(guān)系。數(shù)據(jù)源配置清單的建立是數(shù)據(jù)源管理的基礎(chǔ)工作。數(shù)據(jù)源配置清單可以服務(wù)于各級各類人員,業(yè)務(wù)管理人員可以了解數(shù)據(jù)中心從業(yè)務(wù)系統(tǒng)抽取了哪些數(shù)據(jù),項目實施人員可以充分了解和共享現(xiàn)有數(shù)據(jù),避免重復建設(shè),信息運維人員可以了解數(shù)據(jù)接入情況,以及數(shù)據(jù)源詳細配置。
3.2.2 變更管理
數(shù)據(jù)源變更管理是數(shù)據(jù)源管理的重點,能否及時發(fā)現(xiàn)數(shù)據(jù)源變更,并能夠有效處理變更。這直接關(guān)系到數(shù)據(jù)抽取的準確性、完整性和及時性。數(shù)據(jù)源變更的情況有三類:(1)技術(shù)對象構(gòu)造的變化,這是指數(shù)據(jù)源或其構(gòu)造對象在邏輯結(jié)構(gòu)上的變化,這類變化往往會直接導致數(shù)據(jù)抽取任務(wù)失敗,運維人員比較容易發(fā)現(xiàn)數(shù)據(jù)抽取錯誤,進而進行排查分析解決,實際工作中這類錯誤最為常見;(2)單純的業(yè)務(wù)邏輯變化,比如一個業(yè)務(wù)代碼及其邏輯含義的變化,這類變化一般不會導致數(shù)據(jù)抽取任務(wù)的失敗,錯誤很隱秘,因而也很難發(fā)現(xiàn),往往是最終用戶通過應用功能發(fā)現(xiàn)數(shù)據(jù)存在離譜現(xiàn)象,才能逐步分析解決,而且整個排查分析過程也會很艱難,實際工作中這種情況也存在;(3)信息系統(tǒng)的物理變化,比如服務(wù)器有調(diào)整,IP地址或域名有變化等,這類錯誤一般是立刻容易發(fā)現(xiàn)的,也比較容易解決,在實際工作中較少發(fā)生。
變更管理的主要任務(wù)就是解決以下幾個問題:(1)及時發(fā)現(xiàn)數(shù)據(jù)源的變更,這是數(shù)據(jù)源管理的難點。及時發(fā)現(xiàn)是指在應用變更之前盡早發(fā)現(xiàn)它們對數(shù)據(jù)源的影響,這需要以知曉數(shù)據(jù)源(及其構(gòu)造對象)的變更之處為前提。(2)分析數(shù)據(jù)源變更的影響。在發(fā)現(xiàn)數(shù)據(jù)源有變更之后,應盡快分析數(shù)據(jù)源變更的影響,判斷數(shù)據(jù)源變更對數(shù)據(jù)倉庫系統(tǒng)的影響范圍、程度和具體技術(shù)對象。(3)提出數(shù)據(jù)源變更影響的解決方案。在數(shù)據(jù)源變更之前,應盡快提出相應的解決方案來消除或減輕對數(shù)據(jù)倉庫系統(tǒng)造成不良影響,解決方案的實施應與數(shù)據(jù)源變更相協(xié)調(diào)一致。(4)及時調(diào)整維護數(shù)據(jù)源配置清單。最后應及時調(diào)整維護數(shù)據(jù)源配置清單,使配置清單始終能反映系統(tǒng)實際狀況??傊?,一個高水平的管理是應該盡量做到數(shù)據(jù)源變更前及時發(fā)現(xiàn),迅速完成變更影響分析,有效提出解決方案,并有序加以實施。
3.2.3 運行管理
運行管理主要任務(wù)是監(jiān)控數(shù)據(jù)源運行情況。了解數(shù)據(jù)源運行參數(shù),包括運行頻率、觸發(fā)時間、抽取方式、數(shù)據(jù)傳輸技術(shù)等。關(guān)注數(shù)據(jù)源運行結(jié)果,確保數(shù)據(jù)倉庫及時準確地抽取到源系統(tǒng)業(yè)務(wù)數(shù)據(jù)。分析數(shù)據(jù)源運行效率,了解數(shù)據(jù)抽取過程中耗用的時間和消耗系統(tǒng)資源情況。通過監(jiān)測數(shù)據(jù)源運行情況,合理調(diào)整數(shù)據(jù)源配置與抽取策略,提高數(shù)據(jù)接入質(zhì)量,改善系統(tǒng)運行效率。
3.2.4 分工協(xié)作
由于數(shù)據(jù)源存在于業(yè)務(wù)源系統(tǒng)中,并且對數(shù)據(jù)倉庫系統(tǒng)有著緊密的聯(lián)系。因此,業(yè)務(wù)源系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)兩端都必須開展數(shù)據(jù)源管理,明確分工,各盡其責,密切溝通,協(xié)調(diào)一致,通力合作,只有這樣才能管理好數(shù)據(jù)源,才能有效提高數(shù)據(jù)抽取的準確性和可靠性。
業(yè)務(wù)源系統(tǒng)技術(shù)人員應研究數(shù)據(jù)源及其構(gòu)造對象的結(jié)構(gòu)、狀態(tài)及相互依賴關(guān)系,建立和維護數(shù)據(jù)源配置清單;在源系統(tǒng)變更實施前,應充分了解技術(shù)對象的變更情況,分析它們對數(shù)據(jù)源可能造成的影響,并及時通知數(shù)據(jù)倉庫系統(tǒng)技術(shù)人員。數(shù)據(jù)倉庫系統(tǒng)技術(shù)人員應及時分析數(shù)據(jù)源變化對數(shù)據(jù)倉庫系統(tǒng)造成的影響,并與業(yè)務(wù)源系統(tǒng)技術(shù)人員協(xié)調(diào)一致,明確相應的解決方案,有序進行數(shù)據(jù)源的變更。
3.3 數(shù)據(jù)源管理的方法
要做好數(shù)據(jù)源管理還需采取必要的信息化工具,通過工具的應用,實現(xiàn)手工管理無法實現(xiàn)的任務(wù),提升數(shù)據(jù)源管控效率。
(1)采用信息化工具是實現(xiàn)數(shù)據(jù)源管理要求的必然體現(xiàn)。業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源及其關(guān)聯(lián)對象數(shù)量龐大,復雜的系統(tǒng)往往具有數(shù)千個技術(shù)對象,技術(shù)對象之間存在著大量的邏輯關(guān)系,依靠手工管理是很難做到準確和高效,難以實現(xiàn)數(shù)據(jù)源變更影響分析等要求。(2)企業(yè)往往有多個業(yè)務(wù)源系統(tǒng),有各自不同數(shù)據(jù)源,通過信息化的手段可以把不同業(yè)務(wù)源系統(tǒng)的數(shù)據(jù)源統(tǒng)一地整合起來,進而可以較為完整地反映企業(yè)數(shù)據(jù)的整體狀況。(3)通過信息化工具,可以實現(xiàn)數(shù)據(jù)源信息共享,滿足業(yè)務(wù)、信息和技術(shù)等各級各類人員對信息管理的不同要求。
4 數(shù)據(jù)源管理實踐
基于上述數(shù)據(jù)源管理的理念,以某公司SAP BW數(shù)據(jù)倉庫為例,將SAP ERP系統(tǒng)數(shù)據(jù)源作為切入點,設(shè)計開發(fā)了一套數(shù)據(jù)源管理系統(tǒng),系統(tǒng)架構(gòu)見圖1。數(shù)據(jù)源管理系統(tǒng)由應用功能、數(shù)據(jù)庫和接口三部分組成。應用功能主要實現(xiàn)數(shù)據(jù)源查詢展現(xiàn)、維護同步和變更預警等功能;數(shù)據(jù)庫主要存儲了數(shù)據(jù)源及其相關(guān)信息;接口部分主要實現(xiàn)對ERP系統(tǒng)數(shù)據(jù)源技術(shù)對象的獲取。
4.1 系統(tǒng)主要功能
4.1.1 數(shù)據(jù)源查詢
數(shù)據(jù)源查詢實現(xiàn)數(shù)據(jù)源信息共享。用戶可以設(shè)置條件以樹狀導航方式查看數(shù)據(jù)源清單,對業(yè)務(wù)人員來說,著重關(guān)注數(shù)據(jù)源的業(yè)務(wù)含義,如數(shù)據(jù)源名稱、業(yè)務(wù)類別、數(shù)據(jù)源描述、來源系統(tǒng)等;對信息管理和技術(shù)人員來說,在了解掌握業(yè)務(wù)含義的基礎(chǔ)上,可進一步了解數(shù)據(jù)源的技術(shù)細節(jié),如數(shù)據(jù)源的來源系統(tǒng)、技術(shù)名稱、技術(shù)類型、抽取方式、抽取技術(shù)、抽取頻率等,有利于數(shù)據(jù)源的管理、開發(fā)和運維工作。
4.1.2 數(shù)據(jù)源同步
數(shù)據(jù)源同步是一項關(guān)鍵功能,實現(xiàn)ERP系統(tǒng)數(shù)據(jù)源配置信息自動同步到數(shù)據(jù)源管理系統(tǒng)。它可自動獲取ERP系統(tǒng)的數(shù)據(jù)源對象技術(shù)信息,輔以人工分析和說明數(shù)據(jù)源技術(shù)對象的業(yè)務(wù)屬性,更新數(shù)據(jù)源管理系統(tǒng)中的數(shù)據(jù)源信息,保證數(shù)據(jù)源管理系統(tǒng)與ERP系統(tǒng)技術(shù)對象的一致性。該項功能可以顯著地減少數(shù)據(jù)源信息維護工作量,同時也為數(shù)據(jù)源變更預警功能奠定基礎(chǔ)。
4.1.3 數(shù)據(jù)源變更預警
數(shù)據(jù)源變更預警實現(xiàn)ERP系統(tǒng)數(shù)據(jù)源及其構(gòu)造對象變更自動提醒。該功能將列出ERP系統(tǒng)中數(shù)據(jù)源結(jié)構(gòu)或數(shù)據(jù)原表等技術(shù)對象的最新變化,通過人工甄別,分析這些變化對BW數(shù)據(jù)源造成的影響,以便能對相關(guān)數(shù)據(jù)源及數(shù)據(jù)倉庫相關(guān)模型進行及時調(diào)整,減少對數(shù)據(jù)倉庫數(shù)據(jù)抽取的不良影響。
4.2 關(guān)鍵技術(shù)
實現(xiàn)數(shù)據(jù)源管理系統(tǒng)要解決以下幾個主要技術(shù)難點:(1)需要研究ERP業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源技術(shù)對象存儲方式,這需要跟蹤系統(tǒng)的內(nèi)部結(jié)構(gòu),不斷進行驗證測試,才能掌握數(shù)據(jù)源存儲方式。(2)需要研究數(shù)據(jù)源的構(gòu)造對象,厘清數(shù)據(jù)源與構(gòu)造對象的對應關(guān)系,這項工作已經(jīng)涉及到源系統(tǒng)內(nèi)部的數(shù)據(jù)邏輯結(jié)構(gòu)的研究。(3)研究和建立數(shù)據(jù)源變更自動預警機制,能夠及時發(fā)現(xiàn)源系統(tǒng)數(shù)據(jù)源或其構(gòu)造對象的更變,并在數(shù)據(jù)源系統(tǒng)自動提示,該項工作是系統(tǒng)建設(shè)的關(guān)鍵,也是技術(shù)難點。
4.3 實踐成效
數(shù)據(jù)源管理系統(tǒng)投入運行后,顯著提升了ERP系統(tǒng)數(shù)據(jù)源管理能力。(1)各級各類人員很容易就能掌握ERP系統(tǒng)中哪些數(shù)據(jù)接入了數(shù)據(jù)倉庫,以及所有相關(guān)的業(yè)務(wù)、技術(shù)、運行情況等信息,為滿足數(shù)據(jù)共享需求,以及技術(shù)和業(yè)務(wù)人員之間的溝通提供了條件。(2)對數(shù)據(jù)源整體情況的掌握,直接避免了因難以了解數(shù)據(jù)接入現(xiàn)狀而導致數(shù)據(jù)源重復開發(fā)的問題,促進了數(shù)據(jù)共享水平提升。(3)數(shù)據(jù)源變更事前預警功能達到變更提醒100%準確,避免了因各種變更導致數(shù)據(jù)不能正常更新到數(shù)據(jù)倉庫的問題,從根本上彌補了ERP系統(tǒng)數(shù)據(jù)源變更管理的空白。
5 總結(jié)與展望
本文對數(shù)據(jù)源管理的對象和內(nèi)容進行了分析和定義,開創(chuàng)性地提出了建立數(shù)據(jù)源配置清單及數(shù)據(jù)源變更事前預警功能,并將相關(guān)理念用于實踐,取得了顯著成效。后續(xù)可拓展實踐領(lǐng)域,將其運用到各種異構(gòu)的源系統(tǒng)數(shù)據(jù)源管理中,且可延伸管理范圍,進一步分析構(gòu)建數(shù)據(jù)模型和數(shù)據(jù)輸出相關(guān)管理功能,實現(xiàn)數(shù)據(jù)流全過程管理。
參考文獻:
[1] William H. Inmon.Building the Data Warehouse[M].4th ed.New York:Wiley,2005.
點擊下頁還有更多>>>計算機數(shù)據(jù)管理論文