第286章 快跑
字數:6269 加入書籤
semaphore提示您:看後求收藏(思兔閱讀sto.ist),接著再看更方便。
數據是指對客觀事件進行記錄並可以鑒別的符號y
是對客觀事物的性質狀態以及相互關係等進行記
載的物理符號或這些物理符號的組合y是可識別的
抽象的符號
?數據和信息是兩個不同的概念y信息是較為宏觀
的概念y它由數據的有序排列組合而成y傳達給讀
者某個概念方法等y而數據則是構成信息的基本單
位y離散的數據沒有任何實用價值。
數據也被稱為“未來的石油”
涉及到國家安全等方麵。
計算機係統中的數據組織形式主要有兩種y即文件和
數據庫
?
1?文件x計算機係統中的很多數據都是以文件形式
存在的y比如一個word文件一個文本文件一個
網頁文件一個圖片文件等等
?
2?數據庫x計算機係統中另一種非常重要的數據組
織形式就是數據庫y數據庫已經成為計算機軟件開發
的基礎和核心。
過去x一旦數據的基本用途實現了y往往就會被
刪除y一方麵是由於過去的存儲技術落後y人們
需要刪除舊數據來存儲新數據y另一方麵則是人
們沒有認識到數據的潛在價值
現在x數據的價值不會因為不斷被使用而削減y
反而會因為不斷重組而產生更大的價值
將來x各類收集來的數據都應當被盡可能長時間
地保存下來y同時也應當在一定條件下與全社會
分享y並產生價值。
人類進入信息社會以後y數據以自然方式增長y其產生不以人
的意誌為轉移
從1986年開始到2010年的20年時間裏y全球數據的數量增長
了100倍y今後的數據量增長速度將更快y我們正生活在一個
數據爆炸的時代。
數據分析過程包括x數據采集與預處理數據存儲與管理數據處理與
分析數據可視化等
?
1?數據采集與預處理x采用各種技術手段把外部各種數據源產生的數
據實時或非實時地采集預處理並加以利用
?
2?數據存儲與管理x利用計算機硬件和軟件技術對數據進行有效的存
儲和應用的過程y其目的在於充分有效地發揮數據的作用
?
3?數據處理與分析x數據分析是指用適當的分析方法?來自統計學
機器學習和數據挖掘等領域?y對收集來的數據進行分析y提取有用信
息和形成結論的過程
?
4?數據可視化x將數據集中的數據以圖形圖像形式表示y並利用數據
分析和開發工具發現其中未知信息的處理過程。
數據采集與預處理包含了數據采集和數據預處理兩大任務
數據采集是指從傳感器和智能設備企業在線係統企業離線
係統社交網絡和互聯網平台等獲取數據的過程需要采集的
數據包括rfid數據傳感器數據用戶行為數據社交網絡交
互數據及移動互聯網數據等各種類型的結構化半結構化及非
結構化的海量數據
數據采集技術是大數據技術的重要組成部分y已經廣泛應用於
國民經濟各個領域y隨著大數據技術的發展和普及y大數據采
集技術會迎來更加廣闊的發展前景。
數據預處理目標是為後續的數據分析工作提供可靠和高質量的
數據y減少數據集規模y提高數據抽象程度和數據分析效率
semaphore提示您:看後求收藏(思兔閱讀sto.ist),接著再看更方便。
數據預處理任務主要包括數據清洗數據集成數據轉換和數
據脫敏等經過這些步驟y我們可以從大量的數據屬性中提取
出一部分對目標輸出有重要影響的屬性y降低源數據的維數y
去除噪聲y為數據分析算法提供幹淨準確且有針對性的數據y
減少數據分析算法的數據處理量y改進數據質量y提高分析效
率。
數據采集y又稱
數據獲取
y是數據分析的入口y也是數據分
析過程中相當重要的一個環節y它通過各種技術手段把外部各
種數據源產生的數據實時或非實時地采集並加以利用。
傳感器是一種檢測裝置y能感受到被測量的信息y並能將感受到的信息y
按一定規律變換成為電信號或其他所需形式的信息輸出y以滿足信息的傳
輸處理存儲顯示記錄和控製等要求在工作現場y我們會安裝很
多的各種類型的傳感器y如壓力傳感器溫度傳感器流量傳感器聲音
傳感器電參數傳感器等等
?傳感器對環境的適應能力很強y可以應對各種惡劣的工作環境在日常
生活中y如溫度計麥克風dv錄像手機拍照功能等都屬於傳感器數據
采集的一部分y支持圖片音頻視頻等文件或附件的采集工作。
互聯網數據的采集通常是借助於網絡爬蟲來完成的所謂
網絡爬蟲
y就
是一個在網上到處或定向抓取網頁數據的程序抓取網頁的一般方法是y
定義一個入口頁麵y然後一般一個頁麵中會包含指向其他頁麵的urly於
是從當前頁麵獲取到這些網址加入到爬蟲的抓取隊列中y然後進入到新頁
麵後再遞歸地進行上述的操作爬蟲數據采集方法可以將非結構化數據從
網頁中抽取出來y將其存儲為統一的本地數據文件y並以結構化的方式存
儲它支持圖片音頻視頻等文件或附件的采集y附件與正文可以自動
關聯。
許多公司的業務平台每天都會產生大量的日誌文件日誌文件數據一般由數
據源係統產生y用於記錄數據源的執行的各種操作活動y比如網絡監控的流
量管理金融應用的股票記賬和web服務器記錄的用戶訪問行為對於這些
日誌信息y我們可以得到出很多有價值的數據通過對這些日誌信息進行采
集y然後進行數據分析y就可以從公司業務平台日誌數據中挖掘得到具有潛
在價值的信息y為公司決策和公司後台服務器平台性能評估提供可靠的數據
保證係統日誌采集係統做的事情就是收集日誌數據提供離線和在線的實時
分析使用很多互聯網企業都有自己的海量數據采集工具y多用於係統日誌
采集y如hadoop的chukwaycloudera的f露meyfacebook的scribe等y
這些工具均采用分布式架構y能滿足每秒數百mb的日誌數據采集和傳輸需
求。
一些企業會使用傳統的關係型數據庫mysql和oracle等來存儲業務係統數
據y除此之外yredis和ngodb這樣的nosql數據庫也常用於數據的
存儲企業每時每刻產生的業務數據y以數據庫一行記錄形式被直接寫入
到數據庫中企業可以借助於etl?
extract-transform-load?工具y把
分散在企業不同位置的業務係統的數據y抽取轉換加載到企業數據倉
庫中y以供後續的商務智能分析使用通過采集不同業務係統的數據並統
一保存到一個數據倉庫中y就可以為分散在企業不同地方的商務數據提供
一個統一的視圖y滿足企業的各種商務決策分析需求。
數據采集是數據係統必不可少的關鍵部分y也是數據
平台的根基根據不同的應用環境及采集對象y有多
種不同的數據采集方法y包括x
?係統日誌采集
?分布式消息訂閱分發
?etl
?網絡數據采集。
f露me是cloudera提供的一個高可用的y高可靠的y分布式的海量日誌采集聚合
和傳輸的係統yf露me支持在日誌係統中定製各類數據發送方y用於收集數據]同
時yf露me提供對數據進行簡單處理y並寫到各種數據接受方?可定製?的能力。