技術(shù):RapidMiner等大數(shù)據(jù)處理分析工具介紹
如上文所約,合肥網(wǎng)站優(yōu)化公司佳達(dá)小編已經(jīng)為大家準(zhǔn)備好了關(guān)于HPCC、Pentaho BI和RapidMiner這三大大數(shù)據(jù)處理分析工具的介紹(目前來(lái)看,這個(gè)工具還太過(guò)專(zhuān)業(yè)和深入,希望后期能有些相對(duì)簡(jiǎn)單和“傻瓜化”的工具來(lái)幫助我們體驗(yàn)大數(shù)據(jù)帶來(lái)的美妙世界)。這三個(gè)與之前介紹的三個(gè)有什么不同和共同點(diǎn)呢?請(qǐng)大家對(duì)比發(fā)現(xiàn),是不是有一點(diǎn)想大家來(lái)找茬,哈哈!
1)HPCC
HPCC,High Performance Computing and Communications(高性能計(jì)算與通信)的縮寫(xiě)。1993年,由美國(guó)科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國(guó)會(huì)提交了“重大挑戰(zhàn)項(xiàng)目:高性能計(jì)算與 通信”的報(bào)告,也就是被稱(chēng)為HPCC計(jì)劃的報(bào)告,即美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,其目的是通過(guò)加強(qiáng)研究與開(kāi)發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問(wèn)題。HPCC是美國(guó) 實(shí)施信息高速公路而上實(shí)施的計(jì)劃,該計(jì)劃的實(shí)施將耗資百億美元,其主要目標(biāo)要達(dá)到:開(kāi)發(fā)可擴(kuò)展的計(jì)算系統(tǒng)及相關(guān)軟件,以支持太位級(jí)網(wǎng)絡(luò)傳輸性能,開(kāi)發(fā)千兆 比特網(wǎng)絡(luò)技術(shù),擴(kuò)展研究和教育機(jī)構(gòu)及網(wǎng)絡(luò)連接能力。
該項(xiàng)目主要由五部分組成:
1、先進(jìn)軟件技術(shù)與算法(ASTA),內(nèi)容有巨大挑戰(zhàn)問(wèn)題的軟件支撐、新算法設(shè)計(jì)、軟件分支與工具、計(jì)算計(jì)算及高性能計(jì)算研究中心等;
2、國(guó)家科研與教育網(wǎng)格(NREN),內(nèi)容有中接站及10億位級(jí)傳輸?shù)难芯颗c開(kāi)發(fā);
3、高性能計(jì)算機(jī)系統(tǒng)(HPCS),內(nèi)容包括今后幾代計(jì)算機(jī)系統(tǒng)的研究、系統(tǒng)設(shè)計(jì)工具、先進(jìn)的典型系統(tǒng)及原有系統(tǒng)的評(píng)價(jià)等;
4、基本研究與人類(lèi)資源(BRHR),內(nèi)容有基礎(chǔ)研究、培訓(xùn)、教育及課程教材,被設(shè)計(jì)通過(guò)獎(jiǎng)勵(lì)調(diào)查者-開(kāi)始的,長(zhǎng)期 的調(diào)查在可升級(jí)的高性能計(jì)算中來(lái)增加創(chuàng)新意識(shí)流,通過(guò)提高教育和高性能的計(jì)算訓(xùn)練和通信來(lái)加大熟練的和訓(xùn)練有素的人員的聯(lián)營(yíng),和來(lái)提供必需的基礎(chǔ)架構(gòu)來(lái)支 持這些調(diào)查和研究活動(dòng);
5、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA ),目的在于保證美國(guó)在先進(jìn)信息技術(shù)開(kāi)發(fā)方面的領(lǐng)先地位。
2)Pentaho BI
Pentaho BI 平臺(tái)不同于傳統(tǒng)的BI 產(chǎn)品,它是一個(gè)以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、開(kāi)源軟件、API等等組件集成起來(lái),方便商務(wù)智能應(yīng)用的開(kāi)發(fā)。它的出現(xiàn),使得一系列的面向商務(wù)智能的獨(dú)立產(chǎn)品如Jfree、Quartz等等,能夠集成在一起,構(gòu)成一項(xiàng)項(xiàng)復(fù)雜的、完整的商務(wù)智能解決方案。
Pentaho BI 平臺(tái),Pentaho Open BI 套件的核心架構(gòu)和基礎(chǔ),是以流程為中心的,因?yàn)槠渲袠锌刂破魇且粋€(gè)工作流引擎。工作流引擎使用流程定義來(lái)定義在BI 平臺(tái)上執(zhí)行的商業(yè)智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平臺(tái)包含組件和報(bào)表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報(bào)表生成、分析、數(shù)據(jù)挖掘和工作流管理等等。這些組件通過(guò) J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術(shù)集成到Pentaho平臺(tái)中來(lái)。 Pentaho的發(fā)行,主要以Pentaho SDK的形式進(jìn)行。
3)RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的設(shè)計(jì)和評(píng)價(jià)。其功能和特點(diǎn)有:數(shù)據(jù)挖掘過(guò)程簡(jiǎn)單,強(qiáng)大和直觀、免費(fèi)提供數(shù)據(jù)挖掘技術(shù)和庫(kù)、100%用Java代碼(可運(yùn)行在操作系統(tǒng))、可以用簡(jiǎn)單腳本語(yǔ)言自動(dòng)進(jìn)行大規(guī)模進(jìn)程、圖形用戶(hù)界面的互動(dòng)原型、命令行(批處理模式)自動(dòng)大規(guī)模應(yīng)用、Java API(應(yīng)用編程接口)、簡(jiǎn)單的插件和推廣機(jī)制和強(qiáng)大的可視化引擎,許多尖端的高維數(shù)據(jù)的可視化建模等。ML保證了標(biāo)
耶魯大學(xué)已成功地應(yīng)用在許多不同的應(yīng)用領(lǐng)域,包括文本挖掘,多媒體挖掘,功能設(shè)計(jì),數(shù)據(jù)流挖掘,集成開(kāi)發(fā)的方法和分布式數(shù)據(jù)挖掘。
至此,六大大數(shù)據(jù)處理分析工具已經(jīng)由合肥網(wǎng)站優(yōu)化公司佳達(dá)小編為大家介紹完畢,小編又可以為下一個(gè)主題準(zhǔn)備了。會(huì)是什么主題呢?下周見(jiàn)分曉吧。
轉(zhuǎn)載請(qǐng)注明出處?合肥網(wǎng)絡(luò)公司佳達(dá)科技專(zhuān)注于網(wǎng)站推廣?www.taokedg.com