第288章 粽子!

字數:6259   加入書籤

A+A-




    天才一秒記住【思兔閱讀】地址:sto.ist
    數據倉庫是一個麵向主題的集成的相
    對穩定的反映曆史變化的數據集合y用於支持管理決策
    麵向主題
    2集成
    3相對穩定
    4反映曆史變化
    數據庫是麵向事務的設計y數據倉庫是麵向主題設計的數據庫
    一般存儲在線交易數據y數據倉庫存儲的一般是曆史數據數據
    庫是為捕獲數據而設計y數據倉庫是為分析數據而設計的。
    一個典型的數據倉庫係統通常包含數據源數據存儲和管理
    op服務器前端工具和應用等四個部分。
    數據源x是數據倉庫的基礎係統的數據來源y包含企業的各種內部數
    據和外部數據內部數據包括存在於oltp係統中的各種業務數據和辦
    公自動化係統中的各類文檔數據外部數據包括各類法律法規市場信
    息競爭對手信息及各類外部統計數據和其他相關文檔等。
    數據存儲和管理x是數據倉庫係統的核心是指在各業務係統基礎上周
    期性地對數據進行抽取按照主題進行重新組織y最終確定數據倉庫的物理存儲結構y同
    時存儲數據倉庫的各種元數據?數據字典記錄係統定義數據轉換規
    則數據加載頻率及業務規則等?對數據倉庫係統的管理y就是對相
    應數據庫係統的管理y通常包括數據的安全歸檔備份維護和恢複
    等工作。
    op服務器x聯機分析處理服務器將需要分析的數據按照多維數據模
    型進行重組y以支持用戶隨時多角度多層次進行數據分析y發現數據
    規律與趨勢
    前端工具和應用x數據查詢工具自由報表工具數據分析工具數據
    挖掘工具和各類應用係統。
    實時主動數據倉庫是一個集成的信息存儲倉庫y既具備批量和周期性的數據
    加載能力?采用etl技術?y也具備數據變化的實時探測傳播和加載能力
    ?采用cdc技術?y並能結合曆史數據和新穎數據實現查詢分析和自動規則
    觸發y從而提供對戰略決策和戰術決策的雙重支持。
    數據整合。
    不同數據源的數據被物理地集成到數據目標
    利用etl工具把數據源中的數據批量地加載到數據倉庫就屬於數據整
    合。
    數據聯邦。
    在多個數據源的基礎上建立統一的邏輯視圖y對外界應用屏蔽數據
    在各個數據源的分布細節
    對應用而言y隻有一個數據訪問入口y但事實是被請求的數據隻是
    邏輯上的集中y物理上仍然分布在各個數據源中
    隻有收到請求時y數據倉庫才臨時從不同數據源獲取相關數據y進
    行集成後提交給數據請求者。
    數據傳播。
    數據在多個應用之間傳播
    在企業應用集成解決
    方案中y不同應用之間可以通過傳播消息進行交互
    4混合方式
    對那些不同應用都使用的數據采用數據整合的方式進行集成y而對
    那些隻有特定應用才使用的數據則采用數據聯邦方式進行集成。
    有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
    eai和cdc但是y隻有部分技術能提供實時(連續)的數據集成x
    ?
    1?腳本腳本是數據集成的一種快速解決方案y其優點是y使用靈活且比
    較經濟y很容易著手開發和進行修改y幾乎任何操作係統和絕大部分dbms都
    可以使用腳本但是y使用腳本也有很多問題y比如y耗費開發者的時間和
    精力y不好管理和操作y以及不能滿足服務水平協議?
    等等。
    有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
    eai和cdc但是y隻有部分技術能提供實時(連續)的數據集成x
    ?
    2?etletl是實現大規模數據初步加載的理想解決方案y它提供了高級
    的轉換能力etl任務通常都是在
    天才一秒記住【思兔閱讀】地址:sto.ist
    維護時間窗口進行y在etl任務執行期間y
    數據源默認不會發生變化y這就使得用戶不必擔憂etl任務開銷對數據源的影
    響y但同時也意味著y對於商務用戶而言y數據和應用並非任何時候都是可
    用的。
    有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
    eai和cdc但是y隻有部分技術能提供實時(連續)的數據集成x
    ?
    3?eaieai解決方案通常和etl解決方案並存y從而增強etl的功能eai
    解決方案在源係統和目標係統之間進行連續的數據分發y並且保證數據的成
    功分發y同時提供高級的工作流支持和基本的數據轉換但是yeai受到數據
    量的限製y因為eai的初衷是為了實現應用的集成而不是數據的集成y即它是
    用來調用應用或者分發命令和消息的然而y由於eai具有在數據集成過程中
    實時分發數據和維護數據一致性的特性y所以也就能夠提供實時數據獲取的
    能力y而這種能力正是實時主動數據倉庫所需要的。
    有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
    eai和cdc但是y隻有部分技術能提供實時(連續)的提供了連續變化數據的捕捉和分
    發能力y並且隻需要很低的開銷和時間延遲cdc在提交的數據事務上進行
    操作y從oltp係統中捕獲變化的數據y再進行基本的轉換y最後把數據發送
    到數據倉庫中雖然在體係結構上ycdc屬於異步的y但它表現出類似同步
    的行為y數據延遲隻有不到1秒的時間y同時能夠維護數據事務的一致性。
    etl是將業務係統的數據經過抽取?
    extract?清洗轉換?
    transform?
    之後加載?
    load?到數據倉庫的過程y目的是將企業中的分散零亂
    標準不統一的數據整合到一起y為企業的決策提供分析依據
    etl是指從原係統中抽取數據y並根據實際商務需求對數據進行轉換y然
    後把轉換結果加載到目標數據存儲結構中源和目標通常都是數據庫和文
    件y也可以是消息隊列等。
    數據抽取
    可以采用周期性的pull機製或者事件驅動的push機製
    pull機製支持數據整合y通常以批處理的方式工作
    push機製通常采用在線方式工作y可以把數據變化傳播到目標數據存儲
    結構。
    數據轉換
    包括數據重構和整合數據內容清洗或集成
    數據加載
    對整個目標數據存儲結構進行刷新y或者隻是對目標數據存儲進行增量更
    新。
    早期的etl解決方案通常以固定的周期運行批處理工作y從平麵文件和
    關係數據庫中捕捉數據y並把這些數據整合到數據倉庫中最近這幾年y
    商業etl工具供應商已經對產品做了很大的改進y對產品功能進行了擴
    展y具體如下x
    1額外的數據源
    2額外的目標
    3改進的數據轉換功能
    4更好的管理
    5更好的性能
    6改進的可用性
    7增強的安全性
    8支持基於數據聯邦的數據集成方法
    數據抽取模塊的功能x
    1確定數據源y即從哪些源係統進行數據抽取。
    2定義數據接口y對每個源文件及係統的每個字段進行詳細說明。
    3確定數據抽取的方式x是主動抽取還是由源係統推送y是增量抽取。
    還是全量抽取y是每日抽取還是每月抽取。
    數據清洗與切換
    數據清洗與轉換x
    數據清洗主要是對不完整數據錯誤數據重複數據進行處理
    數據轉換包括如下操作