數據采集技術要點剖析(五)
“ 當前的主要差距不再是關于誰可以采集更多的數據;而是關于誰可以快速理解所采集的數據。”本文引用地址:http://www.ex-cimer.com/article/201701/337490.htm
—— Matt Wood, 首席數據科學家, 亞馬遜公司
過去,硬件的采樣速率受到模數(A/D)轉 換速度的限制,在物理上限制了所能夠采集到的數據的多少。但時至今日,硬件供應商已經加快了數據采集速率,使工程師和科學家迅速地突破了速率和分辨率的障 礙,他們最終引發(fā)了新一輪的數據膨脹浪潮。簡單地說,在采集應用中,硬件不再是限制因素;對所采集到的數據如何進行有效的管理才是未來的挑戰(zhàn)。
計算技術的進步——包括微處理速度的提高和硬盤儲存容量的增加,以及硬件和軟件成本的降低——極快地引發(fā)了數據的大爆炸。特別是在測量應用中,工程師和科學家們可以在一天中的每秒采集大量的數據。在歐洲核子研究中心(CERN)的大型強子對撞機運行的實驗中,儀器每秒可以生成40 TB的數據。一架波音噴氣發(fā)動機在工作過程中,系統(tǒng)每30分鐘將會生成10TB的運行信息。對于跨越大西洋的單程飛行過程中,一個四引擎的大型噴氣式客機可以生成640 TB的數據。算一算每天世界上有超過25,000次的航班,您就會理解了為什么會存在如此大量的數據。這就是“海量數據”的由來。
技術研究公司IDC最 近進行了一項針對數字數據的研究,其中包括世界范圍內的測量文件、視頻文件和音樂文件等。這項研究表明,可獲取的數據量每兩年就會翻一番。這個事實類似于 電子領域最著名的定律:摩爾定律。如果數字數據的產生速度繼續(xù)模仿摩爾定律,那么一個公司或組織能否取得成功的關鍵將在于它能否快速地將所采集的數據轉變 為有用的結論。
海量數據的出現(xiàn)為數據分 析、搜索、整合、報告以及系統(tǒng)維護帶來了新的挑戰(zhàn),它們必須能夠滿足與數據的指數型增長速度保持同步。數據的來源很多。但是,其中工程師和科學家最感興趣 的是真實世界生成的模擬數據。它是從振動、射頻信號、溫度、壓力、聲音、圖像、光、磁和電壓等測量中收集而來。通常數據的特點由四個V組成——數量(volume)、種類(variety)、速度(velocity)和價值(value)。但另一個“V”——可視化(visibility),正逐漸成為一個關鍵的決定性特性。也就是說,全球企業(yè)一個日益增長的需求就是訪問不同地區(qū)的商業(yè)、工程和科學數據。這就需要云等互聯(lián)信息技術(IT)系統(tǒng)與數據采集系統(tǒng)(DAQ)緊密連接,這是目前數據采集領域所引起的革命性的理念突破。
具體來說,工程師正在尋找如上圖所示的三級解決方案體系架構,以構建一個統(tǒng)一的集成解決方案,從而改善前端傳感器的實時數據捕獲和后端IT基礎設施的數據分析。數據流開始于第一級的傳感器,被第二級的系統(tǒng)節(jié)點捕獲。這些節(jié)點執(zhí)行初始的實時、動態(tài)和早期數據分析。被認為重要的信息通過軟硬件“邊緣”傳輸至傳統(tǒng)IT設備。第3級的IT基礎設施(服務器、存儲和網絡設備)負責管理、整理和深入分析早期數據或靜態(tài)數據。最后,對數據進行存檔以備后用。通過數據流的不同階段,不斷發(fā)展的海量數據分析領域正在為人們提供前有未有的有用信息。例如,NI公司與Duke Energy能源公司共同開發(fā)的InsightCM(下圖)狀態(tài)監(jiān)控系統(tǒng),將硬件監(jiān)控轉變?yōu)檐浖途W絡級,實現(xiàn)了總共3萬多個傳感器,200多個節(jié)點,60個不同地域的智能電網監(jiān)控。
評論