国产成人亚洲日韩欧美婷婷,日本入室强伦姧bd在线观看,亚洲综合色婷婷在线观看,亚洲精品你拍偷拍

您的位置:首頁 > 信息動態(tài)  > 解決方案
云海Insight大數(shù)據(jù)解決方案
來源:www.syhtds.com 發(fā)布時間:2020年06月05日

大數(shù)據(jù)平臺架構



北京浪潮服務器代理商介紹,由于數(shù)據(jù)的多源異構、數(shù)據(jù)量大以及各種業(yè)務處理時間的不一致性,給大數(shù)據(jù)處理帶來了挑戰(zhàn),僅靠單一的大數(shù)據(jù)處理技術無法滿足大數(shù)據(jù)處理需求。大數(shù)據(jù)平臺項目的建設,應采用當前主流的技術架構體系;技術工具自主可控,成熟;能支撐三到五年內(nèi)各類實時、近線、離線數(shù)據(jù)計算場景;隨著業(yè)務和數(shù)據(jù)規(guī)模的增加,通過分布式架構可水平擴充計算設備和存儲設備,實現(xiàn)資源的水平擴展。


由大數(shù)據(jù)處理平臺總體架構可以看出,其應具備完整的大數(shù)據(jù)采集、整合、存儲、處理、分析、展現(xiàn)和管理能力。


大數(shù)據(jù)平臺建設

數(shù)據(jù)集成

平臺提供統(tǒng)一的數(shù)據(jù)總線,在傳統(tǒng)ETL基礎上增加對非結構化數(shù)據(jù)、流數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)的支撐,通過實時數(shù)據(jù)預處理或單獨的批量數(shù)據(jù)離線處理腳本,協(xié)同完成數(shù)據(jù)清洗、去重、打標簽、索引化、分發(fā)等大數(shù)據(jù)管控和治理體系建設。

對于結構化數(shù)據(jù),從技術實現(xiàn)上通過ETL工具進行數(shù)據(jù)抽取。ETL工具基于業(yè)界主流的ETL產(chǎn)品Kettle來實現(xiàn),支持Oracle、DB2、SqlServer、MySQL等主流關系數(shù)據(jù)庫之間以及到Hadoop的數(shù)據(jù)抽取。

對于非結構化數(shù)據(jù),特別是互聯(lián)網(wǎng)相關的網(wǎng)頁、圖片、視音頻文件等,主要通過分布式網(wǎng)絡爬蟲進行獲取。該工具可實現(xiàn)數(shù)據(jù)采集、抽取、預處理、任務優(yōu)先級、任務監(jiān)控的靈活定義。通過與后端的智能化語義處理模塊協(xié)作,可實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)價值挖掘。


數(shù)據(jù)存儲

在數(shù)據(jù)存儲層面,傳統(tǒng)數(shù)據(jù)存儲方式在數(shù)據(jù)場景下,存儲容量和讀取性能方面都出現(xiàn)了明顯的弊端。數(shù)據(jù)通過不同方式采集集成到平臺之后,平臺根據(jù)數(shù)據(jù)的使用方式等采用不同的分布式存儲技術進行存儲,使得整個數(shù)據(jù)環(huán)境具備高度的伸縮性和擴展性,滿足未來快速增長的數(shù)據(jù)規(guī)模,并充分保證數(shù)據(jù)存儲方式的合理性及將來軟硬件的擴展能力。除了原來的關系型數(shù)據(jù)庫外,大數(shù)據(jù)平臺還提供如下幾種存儲方式:

基于HDFS分布式文件系統(tǒng),將數(shù)據(jù)的訪問和存儲分布在大量服務器之中,在可靠的多備份存儲的同時還能將訪問分布在集群中的各個服務器之上,通過分布式存儲實現(xiàn)數(shù)據(jù)的冗余備份,并提升大數(shù)據(jù)的訪問存取性能,低成本地應對非結構化數(shù)據(jù)和不需要關聯(lián)分析、Ad-hoc查詢較少的低價值密度結構化數(shù)據(jù)的存儲和處理工作。

KV列式數(shù)據(jù)存儲,針對結構化數(shù)據(jù),采用與傳統(tǒng)數(shù)據(jù)庫類似的設計模型,支持數(shù)字、字符串、二進制和布爾值等多種數(shù)據(jù)類型;針對半結構化數(shù)據(jù),則允許開 發(fā)者自定義數(shù)據(jù)模型,提供多種數(shù)據(jù)訪問方式,助力高性能應用程序的開發(fā)。

MPP數(shù)據(jù)存儲,針對數(shù)據(jù)提供無共享的分布式、并行處理架構,應對結構化數(shù)據(jù)的分析挖掘場景。

內(nèi)存數(shù)據(jù)存儲,基于全部數(shù)據(jù)都在內(nèi)存中的體系結構,在數(shù)據(jù)緩存、快速算法、并行操作方面進行了相應的改進,數(shù)據(jù)處理速度比傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)處理速度提升很多,可以有效解決數(shù)據(jù)訪問延時的問題。


數(shù)據(jù)計算

集成豐富的計算框架

大規(guī)模數(shù)據(jù)計算與處理的場景復雜,性能要求高,因此需要采用分布式、可擴展的計算和調(diào)度架構。

離線計算:需要調(diào)度批量任務來操作大規(guī)模靜態(tài)數(shù)據(jù),適合實時性要求不高的場景。通過將一個大的任務劃分成多個部分,分別交給多個計算節(jié)點進行處理,綜合得到結果。

流式計算:在數(shù)據(jù)的有效時間內(nèi)獲取其價值,是流式計算系統(tǒng)的首要設計目標。因此,當數(shù)據(jù)到來后將立即對其進行計算,而不再對其進行緩存等待后續(xù)全部數(shù)據(jù)到來再進行計算。流式計算主要用在搜索、實時監(jiān)控統(tǒng)計、實時推薦、垃圾郵件處理等場景。

內(nèi)存計算:面對信息,傳統(tǒng)的技術架構中需要讀取數(shù)據(jù),然后再進行運算,性能和效率不盡人如意。而內(nèi)存計算,將整個數(shù)據(jù)放入內(nèi)存,使每個事務在執(zhí)行過程中沒有I/O,相對于磁盤操作,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個數(shù)量級。

圖計算:分布式圖計算通過抽象分布式存儲、并行計算等復雜問題,處理巨型圖的各種操作,從噪音很多的數(shù)據(jù)中抽取有用的信息,可以挖掘人、物和實體之間的潛在、不易觀察的行為和聯(lián)系。

統(tǒng)一的調(diào)度管理和標準的開放服務

通過統(tǒng)一的資源調(diào)度框架,實現(xiàn)了不同計算框架的共享管理模式。通過這種共享管理模式,可以感知各節(jié)點的資源情況和計算壓力,自動平衡和調(diào)度計算任務,大大提升計算效率和資源有效利用率。

提供標準的開放服務接口,將計算能力以服務接口的方式進行暴露,易理解、易調(diào)用。服務接口提供統(tǒng)一認證,接口調(diào)用時需提供賬號、密碼、密鑰、租戶信息等獲取訪問憑證,保證服務訪問的安全可靠。


數(shù)據(jù)分析挖掘

智能搜索

智能搜索引擎把相關的結構化和非結構化內(nèi)容信息抽取出來并進行建模,經(jīng)過中文分詞技術建立起索引,讓用戶通過搜索快速地訪問到這些信息,并能做到根據(jù)用戶的個性化做出合理的排序結果。

機器學習

機器學習提供方便易用的交互式界面,幫助使用者進行離線批量預測或在線實時預測。預測過程運行在分布式系統(tǒng)中,基于內(nèi)存進行迭代式計算,可以對數(shù)據(jù)進行預測,具備極強的擴展性,每天可以生成十幾億條預測結果。針對預制值,允許人工調(diào)整和修改,以確保數(shù)據(jù)讀取的準確性,從而提升預測命中率。支持成熟、豐富的數(shù)據(jù)挖掘算法,可以生成分類、聚集、回歸模型,適應在多種行業(yè)的機器學習場景。

客戶收益

Insight將業(yè)界主流的新型數(shù)據(jù)處理技術、架構框架、分析模型、服務理念等內(nèi)置在產(chǎn)品中,各行業(yè)客戶可以基于該產(chǎn)品快速搭建起安全可靠、智能的大數(shù)據(jù)平臺,快速實現(xiàn)傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強數(shù)字經(jīng)濟,為產(chǎn)業(yè)轉型升級提供新動力。

快速實現(xiàn)多源數(shù)據(jù)整合,挖掘數(shù)據(jù)全新價值

實現(xiàn)內(nèi)外部信息資源的有效整合,提升數(shù)據(jù)共享和信息聯(lián)動的運轉效率,挖掘數(shù)據(jù)全新價值,支持決策管理。

大幅減少數(shù)據(jù)計算時間,提升業(yè)務效率

具有并行處理架構、內(nèi)存計算等多重機制,保證數(shù)據(jù)加載、計算、訪問等各個環(huán)節(jié)數(shù)據(jù)處理效率,提升業(yè)務效率。

實現(xiàn)在線擴容,提升系統(tǒng)穩(wěn)定性

支持集群在線擴展,支持數(shù)據(jù)存儲、加載和查詢性能線性增長,并具備多層次的容錯、自動檢測和自動恢復機制,保證系統(tǒng)安全可用,降低業(yè)務停頓和運維風險。

提供大數(shù)據(jù)分析能力,提升業(yè)務價值

在多源數(shù)據(jù)的有效整合基礎上,結合智能搜索、機器學習等大數(shù)據(jù)分析手段,實現(xiàn)自動智能檢索、推薦預測,提升數(shù)據(jù)共享和信息聯(lián)動的運轉效率,挖掘數(shù)據(jù)全新業(yè)務價值,支持決策管理。






返回列表