怎樣跨歷史數據和實時數據進行實時分析

所屬分類：經濟論文閱讀次時間：2019-12-09 17:03

本文摘要：當今的分析需求給現有數據基礎設施帶來了前所未有的壓力。能否跨操作和存儲數據執行實時分析對業務成功來說非常重要，但實現起來總是充滿挑戰。有一家航空公司，他們希望收集并分析其噴氣發動機的連續數據流，以實現預測性維護，更快地解決問題。每臺發動機

　　當今的分析需求給現有數據基礎設施帶來了前所未有的壓力‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。能否跨操作和存儲數據執行實時分析對業務成功來說非常重要，但實現起來總是充滿挑戰‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

大數據

　　有一家航空公司，他們希望收集并分析其噴氣發動機的連續數據流，以實現預測性維護，更快地解決問題。每臺發動機都有數百個傳感器，用于監測溫度、速度和振動等參數，并將這些信息不斷地發送到物聯網(IoT)平臺。物聯網平臺接收、處理和分析數據后，將其存儲在數據湖(也稱為操作數據存儲)中，只有最新的數據保留在操作數據庫中。

　　現在，只要實時數據中的異常讀數觸發某一引擎的警報，航空公司就需要對該引擎的實時操作數據和存儲的歷史數據同時進行實時分析。然而，航空公司可能會發現，利用其現有基礎設施不可能進行實時分析。

　　如今，開發大數據計劃的企業通常使用Hadoop將其操作數據的副本存儲在數據湖中，數據科學家可以訪問其中的數據，進行各種分析。當實際應用需要對輸入的操作數據以及存儲在數據湖中的數據子集進行實時分析時，傳統的基礎設施就成了絆腳石。訪問存儲在數據湖中的數據時存在固有的延遲，跨數據湖和操作數據運行聯合查詢也會遇到挑戰。

　　內存計算解決方案具有實時性能、極強的可擴展性，并且能與流行的數據平臺進行內置集成，從而解決了跨數據湖和操作數據進行實時分析的難題。這些功能使混合業務/分析處理(HTAP)功能能夠跨數據湖和操作數據集進行實時聯合查詢。

　　內存計算平臺功能

　　內存計算平臺支持對操作數據的接收、處理和分析，對于以下部分或者全部項目還支持實時性能和PB級擴展：內存數據網格和內存數據庫。內存數據網格和內存數據庫匯集了服務器集群的可用內存和計算能力，允許在內存中處理數據，并消除了在處理前等待從磁盤檢索數據的延時。內存中的數據網格部署在現有數據庫之上，并保持與底層數據庫的同步，而內存中的數據庫則在內存中維持完整的數據集，周期性地將數據寫入硬盤，僅用于備份和恢復目的。內存中的數據網格和內存中的數據庫可以部署在本地、公有云或者私有云中，也可以部署在混合環境中。

　　·流數據處理。內存計算平臺可以從流行的流媒體平臺(例如，ApacheKafka)實時獲取、處理和分析大批量的數據流。

　　·機器學習和深度學習。結合了機器學習庫的內存計算平臺支持使用操作數據對機器學習模型進行實時訓練。內存計算平臺可與TensorFlow等深度學習平臺進行本機集成，能夠顯著降低準備數據并將數據傳輸到這些深度學習訓練平臺的成本和復雜性。

　　·聯合查詢。一些內存計算平臺利用與流行的流數據平臺(包括ApacheKafka和ApacheSpark)的內置集成特性，實現跨數據湖和操作數據集的聯合查詢。

　　ApacheKafka用于構建實時數據流水線和流式應用程序，為輸入數據的實時處理提供數據。ApacheSark是一個統一的分析引擎，可以執行大規模的數據處理，包括跨Hadoop數據湖和操作數據庫，對數據進行聯合查詢。

　　·混合業務/分析處理(HTAP)或者混合操作/分析處理(HOAP)。采用HTAP、HOAP或者業務分析，企業能夠維護一個單一的數據集，在該數據集上他們可以同時執行業務和分析處理，從而消除了把數據從專用業務數據庫移動到獨立的專用分析數據庫所需的昂貴而又緩慢的提取、轉換和加載(ETL)過程。

　　從ApacheKafka到ApacheSpark再到實時深度分析

　　本例中的航空公司采用與Kafka、Spark和Hadoop集成后的內存計算平臺，能夠針對某一引擎，同時對其實時操作數據和歷史數據運行實時分析。ApacheKafka向內存計算平臺提供實時流數據。內存計算平臺在內存中維護操作和溫度數據，并跨數據集運行實時查詢。Spark從數據湖中檢索歷史數據，從內存計算平臺中檢索溫度操作數據，通過跨數據孤島運行查詢來實現更深入的深度分析。有了這種架構后，航空公司就能夠即時深度分析產生異常讀數的原因。

　　現代數據基礎架構最受歡迎的一些優點包括：預測性維護和更快地解決問題，從而讓客戶更加滿意，提高資產利用率，獲得更高的投資回報率……等等。使用內存計算平臺對操作數據和數據湖數據子集運行實時分析，可以使這些以及其他新的實時物聯網服務成為現實。NikitaIvanov是GridGain系統公司的聯合創始人和首席技術官，負責領導開發先進和分布式內存數據處理技術。他在軟件應用程序開發、構建HPC和中間件平臺方面有20多年的經驗，并為Adaptec，Visa和BEA系統等公司的工作做出了貢獻。

　　數據分析師評職知識：大數據論文發表容易投稿嗎

　　大數據如今應用是比較廣泛的，這方面可以寫作的關聯熱詞有很多，比如數據分析，云計算，數據挖掘等，這樣的論文也是很容易投稿的。大家可以發表一些熱門的選題論文，選題要新穎，這樣投稿成功率是比較高的。