對(duì)于熱(rè)炒的(de)大(dà)數(s≈★hù)據應用(yòng),我主張不(bù)糾纏于概念,不(bù)糾纏于什(sh↕ ₽én)麽是(shì)大(dà)數(shù)據應用>÷✘"(yòng)以及大(dà)數(shù)據應用(yòng&≤Ω)價值和(hé)意義。我隻關注,大(dà)數(shù)據應用(yò←Ω↔ng)究竟有(yǒu)哪些(xiē)實際應用(yòng),大(dà¶ε)數(shù)據應用(yòng)如(rú)何落地(dì)。
有(yǒu₹ )很(hěn)多(duō)廠(chǎng)商推出了(le)大(§×£®dà)數(shù)據應用(yòng),那(nà♠→Ω↔)麽,買11台這(zhè)樣機(jī)器(qì)就(j≥γ∑'iù)可(kě)以解決大(dà)數(shù)£π據應用(yòng)落地(dì)的(de)問(wèn)題嗎↑ (ma)?兩者之間(jiān)是(shì)11個(gè)什×÷®(shén)麽關系呢(ne)?對(duì)此,又(y☆'★♠òu)學習(xí)11下(xià)數(shù)£'γ☆學中的(de)“充分(fēn)條件(jiàn)”、“必要(yào)條β件(jiàn)”和(hé)“沖要(yào)條件(jiàn)” ✔<。
充分(fēn)條件(jiàn):如δ₹∞σ(rú)果有(yǒu)事(shì)物(wù)↓≈¶情況A,則必然有(yǒu)事(shì)物(wù)情況B,簡稱充分(f∞>÷ēn)條件(jiàn)。
必要(yào)條件(jiàn):如(rú★ ★)果沒有(yǒu)事(shì)物(wù)情況A,則≈φ必然沒有(yǒu)事(shì)物(wù)情況B;如(rú∏♥© )果有(yǒu)事(shì)物(wù)情況A而未必有(yǒu) &事(shì)物(wù)情況B,A就(jiù)是¥™>'(shì)B的(de)必要(yào)而不(bù)充分(fēn)的(d ε♦Ωe)條件(jiàn),簡稱必要(yào)條件(jiàn)。
充"∏←♥分(fēn)必要(yào)條件(jiàn):如(rú)果有(yǒu)事(∑↕shì)物(wù)情況A,則必然有(yǒu)事(shì)物(wù)情況B;£• ↔如(rú)果沒有(yǒu)事(shì)物(wù∏↔)情況A,則必然沒有(yǒu)事(shì)物✘δ≠(wù)情況B,A就(jiù)是(shì)B的(de)充分§ ÷φ(fēn)必要(yào)條件(jiàn)(簡稱:充要(yào)條件(← ✘☆jiàn))。 簡單地(dì)說(shuō),滿足A,必然B←<;不(bù)滿足A,必然不(bù)B,則A是(shì)Bσ↑δ的(de)充分(fēn)必要(yào)條件(jiàn)。(A可(kě)以推>↓♦•導出B,且B也(yě)可(kě)以推導出A)
π®這(zhè)東(dōng)西(xī)很(hě↔&n)繞,但(dàn)也(yě)很(hěn)準™✔ε♣确。在我看(kàn)來(lái),大(dà)數(sh↓→♦₩ù)據11體(tǐ)機(jī)(A)隻是(₽♠shì)大(dà)數(shù)據應用(yòng)落地(dì)(B)的(de♦§π)必要(yào)條件(jiàn),而且這(zhè)個(gè)必要(yào≈Ω<)條件(jiàn)還(hái)隻是(shì₩≥≠)成立11半,也(yě)就(jiù)是(shì)說(shuō)¥→,沒有(yǒu)大(dà)數(shù)據11體(tǐ)機(jī),♥★≤則必然沒有(yǒu)大(dà)數(shù)據應用(yòng)落地(dì),這( ♠↔zhè)個(gè)是(shì)不(bù)成£₹立的(de);因為(wèi)很(hěn)簡單Ω&,沒有(yǒu)大(dà)數(shù)據11體(tǐ)機(jī☆☆ ),用(yòng)戶可(kě)以自(zì)己'≈搭11個(gè)平台,加上(shàng)應用(yòng),同樣可(kě)δπ以實現(xiàn)大(dà)數(shù)據應用(δ©yòng)。
如(rú)果有(yǒu)了(le)大(dà)數(sπ÷¥∑hù)據11體(tǐ)機(jī),未必有(yǒ↕ ™¶u)大(dà)數(shù)據應用(yòng)落地(d¶>ì),這(zhè)個(gè)是(shì)成立的(de)。道(dà₹"o)理(lǐ)也(yě)很(hěn)簡單,大(dà)數(shù)據11體(tǐ§γ)機(jī)隻是(shì)11個(gè)平台,沒有™∏€∏(yǒu)應用(yòng)軟件(jiàn),→>所以隻有(yǒu)11個(gè)平台,自(zì)然沒有(yǒu)≈≥ π大(dà)數(shù)據應用(yòng)落地(dì)的(de)結果。∞✘™☆
就(jiù)連必要(yào)條件(ji★α àn)也(yě)都(dōu)隻是(shì)成α®≤γ立11半,如(rú)此說(shuō)來(l↓±ái),大(dà)數(shù)據11體(tǐ)機(jī)是(s©™♥hì)不(bù)是(shì)太沒有(yǒu)價值了(le)?←¶其實,也(yě)沒有(yǒu)必要(yào)如(rú)此悲觀✘∏。
在此,還(hái)需要(yào)說(shuα←£ō)說(shuō)什(shén)麽是(shì)大(dà)數(↕↑₩shù)據11體(tǐ)機(jī)?有(☆☆©yǒu)人(rén)說(shuō),與數(shù)¥∑£據沾邊的(de)都(dōu)可(kě)以稱為×δ¶(wèi)大(dà)數(shù)據11體(tǐ)機(j♦δ¶™ī),如(rú)此,這(zhè)個(gè)世界上₹™(shàng)就(jiù)沒有(yǒu)什(shén)麽不(bù)是(s÷σ®hì)大(dà)數(shù)據11體(tǐ)機(jī)了(le),這(zh♥α™≥è)是(shì)11個(gè)被泛化(huà)的(de)概念。有≤★®(yǒu)很(hěn)多(duō)文(wén)章(zhāng)将IB •M PureSystems、Oracle Exadata/ E≈×xalogic/ Exalytics/ SuperCluster/ ODA、S∑☆÷AP HANA、IBM Netezza、微(wēi)軟的(de)PDW∞λ (SQL Server 2012 Paralle♥≥×÷l Data Warehouse Applianδ↑→ce)、EMC Greenplum都(dōu)稱為(wèi)大(dà)÷φ"數(shù)據11體(tǐ)機(jī),應該說(shuō♠ ≥∏),這(zhè)些(xiē)屬于11體(tǐ)機(jī),與大(dà)數(shφ₽ù)據應用(yòng)有(yǒu)11定關聯,但(d≈×¥ àn)應該也(yě)不(bù)是(shì)®§大(dà)數(shù)據11體(tǐ)機(jīγ♠•≈)。
對(duì)于大(dà)數(shù)據應用(yòng),公認有• ©©(yǒu)4個(gè)“V”( Volume,Varie✔£¥ ty,Value,Velocity),數(shù)據量巨大(dà)♠↕<§、數(shù)據類型繁多(duō)、價值密度低(₹γdī)商業(yè)價值高(gāo)和(hé)處理(lǐ)速度快(kuàiβ☆)。比較後這(zhè)11點也(yě)是(shì )和(hé)傳統的(de)數(shù)據挖掘技(jì)™ 術(shù)有(yǒu)著(zhe)本質的(de)不(bù)同。處 ✘理(lǐ)速度快(kuài)并沒有(yǒu÷✔α)11個(gè)。
對(duì)于海(hǎi)量$ ≈數(shù)據進行(xíng)快(kuài)速處理(lǐ),從(cóngα )技(jì)術(shù)途徑來(lái)說(shuō),就(j×₩✘iù)是(shì)并行(xíng)計(jì)算(suà←φ¶n)。這(zhè)需要(yào)11定的(←↕γ<de)體(tǐ)系結構支持,以Hadoop比較為(wèi)典型。通(tōn¥σαφg)過Map/Reduce實現(xiàn)數(shù)據的(≠↑de)檢索和(hé)查詢。互聯網企業(yè)對(duì)γ ←∞此應用(yòng)較為(wèi)透徹,因此,∑λ ε大(dà)數(shù)據應用(yòng)在互聯網應用→&↑(yòng)比較普遍,産品也(yě)比較成熟。以Google、百度搜≠♣→索引擎為(wèi)例,就(jiù)是(shì)這(zhè♦↕¥)種架構的(de)典型應用(yòng)。
Googβ★₽le、百度的(de)搜索引擎先通(tōng)過“爬蟲”獲取數(shù)據,這♠δ(zhè)些(xiē)海(hǎi)量數(shù)據會(huì)按照(zhà∑≥εo)分(fēn)布式的(de)方式進行(xíng)存儲,制(zhì)♣π作(zuò)副本(通(tōng)常Hadoπ ↕op為(wèi)3副本);通(tōng)過Map₽&↕λ對(duì)這(zhè)些(xiē)分(fēn)布 ☆數(shù)據、副本進行(xíng)并行(xín₹Ω✔πg)檢索,然後Reduce返回并聚合檢索結果,這(zhè)就(jiù)是←Ω(shì)11個(gè)完整的(de)服務。§©α 因此,對(duì)于互聯網企業(yè)而言,依托強大(dà)↔★®軟件(jiàn)開(kāi)發團隊,以及獨特商業(yè)模式π≤,其大(dà)數(shù)據應用(yòng)☆∑順利落地(dì)。其實,Google、百度的(∏±↑de)搜索引擎,就(jiù)是(shì)11種比較為€(wèi)典型的(de)大(dà)數(sh ÷ù)據應用(yòng)模式。
對(duì)≥ ↓于行(xíng)業(yè)用(yòng)戶而言,想要±(yào)進行(xíng)大(dà)數(shù)據應用(yòng),先π↔需要(yào)解決海(hǎi)量數(shù)據的(de)€επ分(fēn)布存儲和(hé)就(jiù)近(jìn)出來(lái)的(de)×₹∑問(wèn)題,也(yě)就(jiù)是(shì)要(yào)ε←★架構類似Hadoop的(de)分(fēn)布式數(↔↔↓shù)據存儲模型,搭建軟/硬件(jiàn)平台,對×↔(duì)此,目前內(nèi)推出的(de)大(dà)數(shù✔↔)據11體(tǐ)機(jī),為(wèi)用(yòng)戶提供了(le)平台選σ↓擇。這(zhè)些(xiē)大(dà)數(shù)據11體(tǐ☆€ )機(jī)進行(xíng)了(le)充分(fēn)的(de)軟硬件(jià♣♥↓§n)兼容性測試,參數(shù)配置合理(lǐ),因此可(kě)≥<₹♠以減少(shǎo)11部分(fēn)工(gōng)作(zuò)量¥∑。但(dàn)僅僅有(yǒu)了(le)這(zhè)$™個(gè)平台還(hái)不(bù)夠,需要(yào∑β∏)用(yòng)戶定制(zhì)相(xiàng)關的(d®♣¶€e)應用(yòng)軟件(jiàn),這(£α∞zhè)将确定用(yòng)戶大(dà)數(shù)據應用(yòng)的(d↓$e)方式和(hé)內(nèi)容。從(cón←Ω>g)市(shì)場(chǎng)看(kàn),行(xíng'±)業(yè)性質的(de)大(dà)數(shù)據應用(yòng)軟件(j'♦iàn)尚沒有(yǒu)成型,更談不(bù)上(shàng) ₩與大(dà)數(shù)據11體(tǐ)機(jī×γ£)的(de)整合應用(yòng)。因此,大(dà)數(shù)據應用≠(yòng)要(yào)落地(dì),僅有(yǒu)大(d↓<₹&à)數(shù)據11體(tǐ)機(jīλβ₽)平台還(hái)不(bù)行(xíng),還(hái)需要&σ✘β(yào)應用(yòng)軟件(jiàn)的(de)配合£₹。
在內(nèi),可(kě)以看(kà↔✘±n)到(dào)的(de)大(dà)數(shù)據應用(yòng)軟件(• §jiàn),Splunk是(shì)11個(gè),并且已經進入中。據說(sh ≠uō)Informatica也(yě)有(yǒu)大(d≤&'à)數(shù)據應用(yòng)軟件(jiàn),但(dàn≠φΩ)宣傳介紹的(de)還(hái)不(bù)多(duō),Ω↑可(kě)以參考的(de)資料有(yǒu)限。
✘$