第291章 冬瓜
字數:6684 加入書籤
semaphore提示您:看後求收藏(思兔閱讀sto.ist),接著再看更方便。
etl是企業數據倉庫構建過程中的一個核心步驟y我們可以借助於etl
工具來高效地完成數據抽取轉換和加載工作之所以需要etl工具y
主要有以下幾個原因x
?
1?當數據來自不同的物理主機y這時候如果使用sql語句去處理的
話y就顯得比較吃力且開銷也更大]
?
2?數據來源可以是各種不同的數據庫或者文件y這時候需要先把它
們整理成統一的格式後才可以進行數據的處理y這一過程用代碼實現
顯然有些麻煩]
?
3?在數據庫中我們當然可以使用存儲過程去處理數據y但是y處理
海量數據的時候y存儲過程顯然比較吃力y而且會占用較多數據庫的
資源y這可能會導致數據庫資源不足y進而影響數據庫的性能。
。
在選擇etl工具時主要考慮如下因素x
?對平台的支持程度]
?抽取和裝載的性能是不是較高y且對業務係統的性能影響大不
大,高不高]。
?對數據源的支持程度]。
?是否具有良好的集成性和開放性]。
?數據轉換和加工的功能。
?是否具有管理和調度的功能。
cdc解決方案包括變化捕捉代理變化數據服務和變化分發機製三個
組成部分
?
1?變化捕捉代理變化捕捉代理是一個軟件組件y它負責確定和捕
捉發生在操作型數據存儲源係統中的數據變化可以對變化捕捉代理
進行專門優化y使它適用於特定的源係統y比如使用數據庫觸發器]
也可以使用通用的方法y比如數據日誌比較。
變化數據服務變化數據服務為變化數據捕捉的成功實現提供了
一係列重要的功能y包括過濾排序附加數據生命周期管理和審
計等表6-4給出了每個功能的解釋。
變化分發機製變化分發機製負責把變化分發到變化的消費者?通
常是etl程序?那裏變化分發機製可以支持一個或多個消費者y並且提
供了靈活的數據分發方式y包括推(push)或拉(pull)的方式pull方式需要
消費者周期性地發送請求y通常采用標準接口實現y比如odbc或jdbc
push方式需要消費者一直監聽和等待變化的發生y一旦捕捉到變化y就立
刻轉移變化的數據y通常采用消息中間件來實現變化分發機製的另一個
重要功能就是提供動態返回和請求舊的變化的能力y從而滿足重複處理和
恢複處理等任務。
變化數據捕捉技術有兩個典型的應用場景x麵向批處理的cdc
?
pull
cdc?和麵向實時的cdc?
push
cdc?
1.麵向批處理的cdc
在這種場景中yetl工具周期性地請求變化y每次都接收批量數據y
這些批量數據是在上次請求和這次請求之間所捕捉到的變化變化
分發請求可以采取不同的頻度y比如一天兩次或每隔15分鍾1次。
對於許多組織而言y提供變化數據的一種比較好的方式是以數據表的記
錄的形式表示這種方式可以使etl工具通過標準接口?比如odbc?的
方式無縫地訪問變化數據cdc則需要維護上次變化分發的位置和分發
新的變化
這種應用場景和傳統的etl很相似y不同的是ypull
cdc隻需要轉移變化
的數據y並不需要轉移所有的數據y這就極大地減少了資源消耗y也消
除了傳統etl過程的宕機時間。
麵向批處理的cdc技術簡單y很容易實現y因為它和傳統的etl很相似y
並且使用現有的技術當企業對時間延遲以分鍾或小時來進行衡量時y
采取這種方式比較可行。
這種場景滿足零延遲的要求y變化分發機製一旦探測到變化y就把變化
semaphore提示您:看後求收藏(思兔閱讀sto.ist),接著再看更方便。
push給etl程序y這通常是通過可靠的傳輸機製來實現的y比如事件分發
機製和消息中間件?如mq
series?
雖然麵向消息和麵向事件的集成方法在eai產品中更為常見y但現在y已
經有很多etl工具廠商在他們的解決方案中提供這種功能y以滿足高端
實時的商務應用需求當bi應用需要零延遲和最新的數據時y這種實時的
數據集成方法就是必須的。
很顯然ycdc技術提供了諸多好處y但也有幾個值得思考的問題y具體如
下x
?
1?變化捕捉方法讀取數據庫的日誌文件使用數據庫觸發器數據比
較和在企業程序內編寫定製的事件通知
?
2?對操作型係統的入侵程度對係統造成影響由高到低源代碼入侵進
程內或地址空間入侵?數據庫觸發器?不影響應用的操作型數據源?使
用數據庫日誌?。
捕捉延遲選擇cdc解決方案時最主要的考慮因素實時程度越高y
入侵程度越高
?
4?過濾和排序服務過濾保證隻有需要的變化才被分發]排序定義了變
化被分發的順序
?
5?支持多個消費者cdc解決方案需要支持多個消費者y每個消費者可
能具有不同的延遲要求。
失敗和恢複保證變化能夠被正確分發]恢複時保證變化分發數據流
從最近一次的位置開始y且滿足變化事務一致性
?
7?主機和遺產數據源將非關係型數據源映射成關係型數據源再進行
etl
?
8?和etl工具的無縫集成考慮不同etl工具之間的難易程度和互聯。
數據集成為分散在企業不同地方的商務數據提供了一個統一的視圖我
們可以使用不同的技術來構建這個統一視圖這個統一視圖可以是一個
物理數據視圖y其中的數據來自多個分散的數據源y並被整合存儲到一
個集成的數據存儲中y比如數據倉庫或者y統一視圖也可以是一個虛
擬數據視圖y其中的數據分散在多個數據源中y而不是集中存儲在一個
地方y隻有當需要使用這些數據的時候y才臨時把它們從多個數據源中
抽取出來y並加以適當處理後y提交給數據請求者本章內容介紹了數
據集成的概念和技術y並重點介紹了兩種代表性的數據集成技術y即
etl和cdc。
近年來,深度學習已經成為了計算機領域和其他領域學習與科研中的熱門話題,雖
然人類已經利用卷積神經網絡模型進行了許多與深度學習有關的科學研究,但是卷積神
經網絡模型內部卻仍像一個“黑匣子”。因此為了認識和理解模型內部的工作機理,對
其從內部卷積計算核和卷積層中獲取到的特征進行分類,且理解從卷積神經網絡中每一
級所獲取到的圖像特征信息,是深度學習領域中的關鍵任務之一。通過特征可視化的結
果,對網絡結構進行適當調節以優化網絡,避免盲目調參,進而以更快的速率使網絡特
性信息達到最優化。
中重點利用了基於梯度分析的可視化方法,研究了針對不同卷積神經網絡模型
的可視化效果,按照圖像數據集中包含的圖像數據,分別從單目標和多目標兩個類別來
開展研究工作。本文的工作內容如下:
基於反卷積技術進行卷積神經網絡每一層特征可視化的分析。實驗結果表明低
層卷積層主要提取的是輸入圖像的顏色、輪廓及紋理等簡單的特征,而高層則提取的是
輸入圖像中眼睛、嘴、翅膀等更加複雜抽象的特征,網絡層數越深的模型,其內部提取
到的特征更加的接近實物的細節特征。
提出一種基於激活的特征可視化方法。該方法以熱力圖的可視化方式對
輸入圖像進行可視化分析,實驗結果表明動物的頭部特征是網絡模型作出決策的重要依
據。在此方法的基礎上針對多目標進行特征可視化,提出一種改進的
grad-cam++方法,
該方法主要通過更新圖像最後一層權重的計算方式並結合目標選擇梯度來對包含多個同
類目標的圖像進行特征可視化。實驗結果表明該方法相比於其他的可視化方法,在多目
標圖像的可視化中表現更佳,生成的熱力圖中包含的同類目標信息更多。
(3)為了更好地對可視化效果進行評價,提出評估可視化效果的新方法。該方