Archive

Posts Tagged ‘大數據分析’

不再紙上談兵:Gartner指大數據已成真!

November 1st, 2015 No comments

Big_Data_20150709

大數據常常說,不過由於大數據技術複雜,加上相關方案並不便宜的關係,因此部署大數據方案的香港企業少之又少,然而在全球的情況又是如何?今天我們收到一份來自 Gartner 的調查報告,當中顯示企業於今年對大數據的投資持續增加,然而增幅較過去數年放緩。近期一項資訊及商業領導者的調查顯示,超過四分之三的企業正展開或計劃於未來兩年投資大數據項目,企業數目較 2014 年同期上升 3%。該調查於 2015 年 6 月期間,訪問了 437 名 Gartner 研究圈成員,包括來自不同行業的跨國機構,以及 Gartner 的客戶和非客戶。

Gartner 研究總監 Nick Heudecker 表示:「由今年開始,大數據的焦點已從一個紙上談兵的話題,轉移到實戰應用上。隨著大數據方案成為主流,以往作為大數據的定義,包括海量數據、各適其適的數據源,以及嶄新科技等等,已演變為企業耳熟能詳的話題。例如﹕眾多投資大數據科技的企業之中,有 70% 已經開始進行或準備分析定位位置數據,而 64% 的企業則已經展開或準備分析自由格式文本 (free-form text)。」

企業向來為實施大數據項制定多項目標,例如提升顧客體驗、簡化現有業務流程、實踐更具目標為本的營銷並減低成本。跟過去數年一樣,絕大多數的企業都以提升顧客體驗,為推行大數據項目的主要目的(64%);提升業務流程效率及促進目標為本的營銷則佔 47%。此外,由於數據外洩的事件屢見不鮮,機構對優化保安效能的方案的需求升幅最高,由 15% 增加至 23%。

Gartner 研究總監 Lisa Kart 表示:「隨著大數據成為嶄新的普及科技,資訊和分析領導者正將箇中的焦點從純粹的話題探討,轉移至切實發掘其真正的價值。儘管各個企業仍然還未理解大數據的真正價值,成為大數據普及的長遠的挑戰,然而他們開始對大數據有關的知識技能、管治、籌募資金及投資回報等實際挑戰,已開始格外關注,為大數據的普及邁向一大步。」

以上資訊由www.hkitblog.com提供

優化數據湖泊策略、活用大數據預測網絡危機!

March 24th, 2014 No comments

大數據方案我們曾經提過了很多,然而即使你擁有了最佳的大數據分析方案,但假如沒有一套有效的管理政策,當然在進行分析工作時自然會事倍功半,這恆常定律相信大家都必定清楚;一套有效的策略,能助企業更快捷地通過最簡化、直接的分析流程,從而將過往所發生的事情進行分析工作,最終讓企業洞悉未來發展趨勢;現時大數據方案常見的使用範疇如銷售額預測、顧客喜好預測等,便是通過分析以往的數據而得出未來發展趨勢的。

既然大數據似乎「能醫百病」,那麼在企業的網絡保安方面又如何?我們是否能通過大數據方案分析即將到來的網絡危機?近日 RSA 便針對有關方面推出了全新參考架構,有關參考架構由 RSA 與 Pivotal 合作開發。根據官方資料,企業可通過參考架構獲得偵測和調查現今資訊保安威脅所需的可視性、數據分析及可操作的情報,同時為更廣泛的「IT 數據湖泊」策略奠定基礎,從而助企業控制成本,及從 IT 系統中摘取最大價值。

危機:未出現、先化解?!

通過相關的架構,將可為資訊保安分析師及事故應變人員提供一定程度的協助。首先方案可通過透過擷取整個網絡環境下的數據封包、收集日誌及豐富情境數據,提供更大的可視性;通過方案的數據分析功能,企業便能在擷取數據封包時以及在其備份及退役的整個生命周期中找出異常狀態,並揭示攻擊和危險跡象。

視覺化:更易明

而為了令方案更易於採用,方案本身亦特別地將數據進行視覺化,視覺化以後,大部份的可疑活動訊息摘要以及警報一覽無遺,而且方案亦可自動進行優先排序,並且提供可操作的情報,讓分析師能夠對資訊保安威脅作出適當回應。

為日後擴展提供準備

大數據方案動輒數百萬,因此在日後的擴展可行性方面,往往是企業最為關注的議題;為了解決有關疑慮,方案本身已提供可部署性及規模,從而讓企業利用分散、高可用性及可橫向發展的架構,靈活地擴充至環境中最大的規模;而企業亦能利用發展成熟或已整合的分析模式與新數據源,確保資訊保安操作能應付未來不斷演變的保安威脅和業務流程。

以上資訊由www.hkitblog.com提供

支援橫向擴展、全新快閃儲存提升效率/靈活性

November 22nd, 2013 No comments

隨著儲存海量數據而衍生出來的種種問題,加上傳統硬碟未能提供一定的速度以應付大數據分析工作,因此近兩年開始,快閃儲存陣列便不知不覺地加入到企業的採購名單之中;現時最為人熟悉的 EMCIBMHDS 均各自推出各具特色的快閃儲存陣列,而今次 EMC 亦再下一成,推出具備橫向擴展能力的快閃儲存陣列。

EMC 推出的 XtremIO 方案能於閒置、繁忙、空置或全滿狀態的情況下對任何應用程式工作負載提供一致性、可預計性及效能;同時為了提升整體效能,XtremIO 亦配備全新的快閃記憶體儲存技術,包括具有線性擴充能力的橫向擴充多元控制器架構、長期運作及同步的重複數據刪除技術,以及比傳統 RAID 磁碟陣列效率高 6 倍及快 4 倍的數據保護。(官方數據)

另一方面,EMC XtremIO 本身擁有四項互相協調的技術,透過這種微妙的關連性,令方案可在保持效率和耐用性的同時,將效能最大化:

– Content-Based Data Placement
– Dual-Stage Metadata Engine
– XtremIO Data Protection(XDP)
– Shared In-Memory Metadata

XtremIO 技術重點

現時企業用戶已開始使用全快閃記億體儲存陣列以支援虛擬桌面基建(VDI)、虛擬伺服器,以及大規模的綜合數據庫及測試/研發環境這些橫跨多個數據集、變化頻繁、對可預測性及一致的低遲緩有較高要求的工作負載。而 XtremIO 本身亦擁有多種特別的技術,以便應付高要求的工作負載:

Content-Based Data Placement:能於所有 SSD 和陣列控制器內的每一個微小部份,維持陣列固有平衡及優化,並於數據傳送途中刪除重複數據。

Dual-Stage Metadata Engine:能讓陣列利用快閃記憶體儲存的隨機存取特性,無須後台清理程序(又稱垃圾回收),就將數據置入陣列任何一個部份。

XtremIO Data Protection (XDP):專為快閃記憶體儲存而設的算法,從而防止 SSD 事故,同時提供比傳統 RAID 多 6 倍的可用容量(官方數據,未經證實)。XDP 讓終端用戶可以 100% 利用 XtremIO 的容量,同時保持一定效能。

Shared In-Memory Metadata:令陣列提供廣泛的效能,並快速複製陣列內已儲存的資訊,如以大規模加速部署虛擬機器等常見任務。

XtremIO 是一款建基於稱為 X-Brick 元件的橫向擴充陣列。每個 X-Brick 可提供 10TB 容量,另外官方指 20TB 容量版本預計明年初上市。XtremIO 陣列提供 100 萬完全隨機 IOPS,在單個 XtremIO 擁有 250TB 的有效容量,及為 XtremIO 集群提供同步重複數據刪除能力。

單個 XtremIO 能從兩個控制器擴充至 8 個,最多可配備 128 個核心,在所有數據服務均啟動的情況下,處理任何 OLTP 數據庫、虛擬伺服器及 VDI 工作負載。

以上資訊由www.hkitblog.com提供

分析 Log 數據關係、洞悉未來發展趨勢

October 11th, 2013 No comments

一直以來在管理 Log(活動日誌)資料時,我們可能只是單單的針對 Log 進行備份工作,又或者透過不同的系統以增加搜尋時的效率,從而讓處理不同工作時更輕鬆。其實類似的分析方案市場上愈來愈多,較知名的有 EMC、Verint、Hadoop 等等,而早前我們曾經介紹過的 Splunk 亦是其中之一。

Splunk 可以說得上是管理 Log 的一個絕佳工具,其開發之初明顯傾向系統的 Log 而設,到近期推出的新版本亦進一步加強分析功能,雖說它是一套針對 Log 的分析工具,但細心的讀者不難發現系統的 Log 絕對能反映出用戶心聲及消費者的意向,所以將 Splunk 定為大數據相關方案在現時來說比較合適。

近日 Splunk 的新版本 Enterprise 6 亦進一步加強其分析能力,而根據官方數字指出,現時 Splunk 提供的速度已比 Splunk 上一個版本快千倍(官方數據,未經證實);除了於分析功能上更有效率之外,Splunk Enterprise 6 亦推出三項新功能。

樞紐分析 (Pivot)

首先是樞紐分析功能,此功能主要希望讓 IT 管理員能更輕易地將分析工具下放予不具技術背景的企業用戶與分析師使用,因此新版本之中便具備了簡易的拖曳介面,讓用戶更輕易掌握分析能力,便於運用、挖掘與視覺化資料;其中包括可點擊與拖曳至內建視覺化工具,不需學習程式語言,亦可迅速製作進階搜尋功能與報告。

至於那些看似毫無意義的 Log,用戶亦可透過方案的資料分析模型,從而為機器資料賦予實質意義,最終令用戶能更深入瞭解資料內的關係,讓資料為更多用戶發揮更多用途。

簡化管理功能

至於在管理功能方面,Splunk Enterprise 6 亦從新設計整體的介面及使用流程,例如以更簡易、直覺的操作方式提升用戶產能,讓用戶能輕鬆建置個人化首頁,立即取用所需資料、應用程式與內容;另外方案亦進一步優化其搜尋體驗,最明顯的便是能結合了搜尋與報告,協助用戶製作豐富與活潑的報告,並更快製作視覺化圖表與自訂搜尋。

最後,Splunk Enterprise 6 亦新增了一系列功能,包括:

– 簡化後的 Cluster Management 能監控高可用度、自動化搜尋工作量、易於建置應用程式,可依據不同任務管理 Splunk 軟體建置模式,集中式操作面板讓管理員所需資訊一目瞭然。 – Forwarder Management 簡單結構支援大規模資料,並以視覺化管理各區域大量轉寄清單。 – 改良後的 Dashboard Editing 協助用戶編輯互動式操作面板與工作流程,不需編寫複雜程式碼,點擊一次即可進入 Splunk 網絡架構開發作業。 – 整合網絡架構(Integrated Web Framework)協助程式設計師使用 JavaScript 及 Django 等標準網絡技術,迅速開發 Splunk 應用程式、自製操作版面、新增進階功能。

以上資訊由www.hkitblog.com提供

多核心優化、瘋狂快閃 4 倍加速!

September 13th, 2013 No comments

面對如大數據等相關應用的高要求,傳統基建於整體的設計上亦必須作出相對的調整;提到大數據,筆者說得較多的相信便是針對大數據的一些儲存裝置,例如早前訪問 EMC 時所提及的快閃儲存便直接影響大數據分析方案的表現及效能;透過快閃儲存配合不同的軟件,企業便可智能地將常用的資料自動儲存在快閃 Flash Storage 之中,令日後存取這些常用的數據時更快更方便。

除此之外,數據高速增長亦令企業不得不積極地應用虛擬化技術及雲端運算以實現 IT 轉型,使企業更為靈活並運作得更有效率;現時,成千上百台的虛擬機器正日以繼夜產生不斷增長的數據,效能和可用性的需求繼而不斷上升。基建團隊需要一個讓他們可以更少資源,完成更多工作的儲存系統。

針對不斷增長的數據,企業必須作出相應的投資並用於購買儲存系統,而這情況必定是持續至少一段時間,直到符合法規的一定時期後才可刪除這些數據;話雖如此,但在這「一段時期」內所產生的數據量亦不容忽視,企業可考慮將舊有或不常用的數據儲存到傳統的 SATA 之中,而常用的才儲存於快閃或 SSD 內。

不過隨著技術更進步,快閃在速度亦更上一層樓,而價格卻相對較以往便宜,例如近日 EMC 宣佈推出的全新 VNX 系列便聲稱做到比上一代系統快 4 倍。新推出的 VNX 系列採用了 EMC MCx(多核心優化)軟件,此軟件能釋放快閃記憶體效能,從而大幅提升虛擬化應用程式及檔案效能。至於在價格方面,官方稱現時部署新一代的 VNX 系列只需上一代三分之一價錢即可,亦即是說更便宜的售價但提供到同樣效能。

新推出的 VNX 系列包括 VNX5200、VNX5400、VNX5600、VNX5800、VNX7600、VNX8000 以及 VNX-F,這系列方案均使用了最新 Intel Sandy Bridge 技術,並加入具備已優化快閃記憶體的多核心優化(multi-core optimization)軟件,可加速虛擬化應用程式的效能。

中階價格、更強效能

上述都提過,VNX 系列現時已配備了 MCx 軟件,此軟件能滿足中階解決方案虛擬化應用高效能、低遲緩這兩項最常見的需求。MCx 軟件利用最新 Intel 多核心處理技術的優勢,透過於所有核心(多達 32 個)分配 VNX 數據服務,優化快閃記憶體儲存,這是一個中階陣列的新概念,藉以讓 VNX 能以上一代三分之一價格獲得強大的效能。

在 MCx 支援的單一 VNX 系統中,用戶大致上可獲得以下的優勢:

– 效能超越前四代系統之總和(官方數據),或根據最新 SPECsfs 結果,達 580,796 SPECsfs2008 nfs Ops/Sec(整體反應時間相等於 0.78 微妙)。
– 對過渡性 NAS 應用程式提供多於 3 倍的效能(如在 VMware 環境中的 NFS),反應時間較之前 VNX 系統快 60%。(官方數據)
– 同時支援 Oracle 及 SQL OLTP 數據庫,並能以 735K IOPS(每秒輸入/輸出量)運算,較之前 VNX 系統高出 4 倍以上。(官方數據)
– 虛擬機器超過 6,600 台,較上一代系統增強六倍。(官方數據)
– 頻寬速度較上一代系統提升超過 3 倍以上,Oracle 和 SQL 數據庫的傳輸速度達每秒 30GB。(官方數據)

一般而言,優化虛擬化應用程式的效能只需使用很少的快閃記憶體裝置(平均少於總效能的 5%)。但現時透過 VNX 系列方案,用戶便能利用固定區塊重複數據刪除技術大幅降低效能需求,非常適合虛擬機器、虛擬桌面以及其他來源眾多並包括許多冗餘數據的環境。此外,隨著 EMC FAST 提供的功能,例如 4 倍提升的分層精細度及 eMLC 裝置,讓用戶能進一步降低每 GB 的成本。根據官方指出,現時用戶只需配搭新推出的 VNX 系列和新版本 FAST 套件,便可降低 50% 以上的快閃記憶體容量需求及虛擬機器成本。

至於針對更高低遲緩要求的過渡性工作負載,EMC 亦發佈了 EMC XtremSW Cache 2.0 伺服器快閃記憶體高速快取緩衝記憶體軟件。據官方引述一份來自 Demartek 的評估指出,SQL 伺服器工作負載中,把 XtremSW Cache 2.0 增設至 VNX8000 全快閃記憶體配置,能把遲緩降低達 65%。

XtremSW Cache 2.0 提供與 VMware vCenter 環境更高互通性、並支援 IBM AIX、在 Oracle RAC 環境中分配一體化高速快取緩衝記憶體;官方亦表示,XtremSW Cache 2.0 能進一步支援任何伺服器快閃記憶體 SSD 及 OCIe 硬件(包括 XtremSF 伺服器快閃記憶體硬件),明顯感覺到新方案於設計時針對性地加強了對 VMware、AIX 和 Oracle RAC 環境的支援。

VNX 系列系統及 XtremSW Cache 2.0 現已有售。VNX-CA 解決方案和在 Oracle RAC 環境中分配一體化高速快取緩衝記憶體的 XtremSW Cache 2.0 ,亦預計於 2013 年第四季上市。

以上資訊由www.hkitblog.com提供