亚洲大尺码专区国产,亚洲av色香蕉一区二区

文|新眸葉靜

編輯|桑明強(qiáng)

在數(shù)據(jù)庫(kù)領(lǐng)域，如果問(wèn)當(dāng)下誰(shuí)最火，那Databricks一定排得上號(hào)。

去年8月，距離10億美元的G輪融資剛過(guò)去7個(gè)月，Databricks再次獲得16億美元H輪融資，身價(jià)搖身一變成380億美元，成為外界一致認(rèn)為的超級(jí)獨(dú)角獸。一直以來(lái)，數(shù)據(jù)領(lǐng)域備受關(guān)注，如果從2007年開(kāi)始計(jì)算，全球的數(shù)據(jù)量至今已經(jīng)膨脹了近200倍，數(shù)字化被寫(xiě)入戰(zhàn)略規(guī)劃成了各類(lèi)行業(yè)的共識(shí)。

在數(shù)據(jù)量井噴的背景下，上云趨勢(shì)也越來(lái)越明確，以Snowflake、Databricks為代表的大數(shù)據(jù)公司應(yīng)運(yùn)而生，前者基于AmazonS3打造了云端的數(shù)據(jù)倉(cāng)庫(kù)，后者除了推出Lakehouse（湖倉(cāng)一體），現(xiàn)在又押寶機(jī)器學(xué)習(xí)，試圖包管數(shù)據(jù)在抵達(dá)機(jī)器學(xué)習(xí)之前的所有流程。

不同的是，Databricks已經(jīng)從原來(lái)的infra向更廣泛場(chǎng)景延伸，和昔日的伙伴Snowflake同臺(tái)競(jìng)技。與此同時(shí)，以AWS為代表的云巨頭，也都曾戰(zhàn)略性投資過(guò)Databricks，但現(xiàn)在也都在自研數(shù)據(jù)分析套件，競(jìng)合關(guān)系漸趨白熱化，讓數(shù)據(jù)基礎(chǔ)設(shè)施的戰(zhàn)火撲朔迷離。

從0到1

企業(yè)的性格往往被它的創(chuàng)始人和技術(shù)背景所決定。

十幾年前在UC Berkley的AI實(shí)驗(yàn)室里，Ghodsi和伙伴發(fā)起Spark項(xiàng)目：做一個(gè)能夠更輕松處理大量數(shù)據(jù)和機(jī)器算法的引擎，并且開(kāi)源了代碼。相比較多數(shù)開(kāi)源項(xiàng)目，面向的都是底層技術(shù)性強(qiáng)要求的infra工程師，spark面向更廣泛的客戶(hù)群，同時(shí)在上層加了很多的新的API，降低了技術(shù)門(mén)檻。

因?yàn)闆](méi)有優(yōu)秀的開(kāi)發(fā)者社區(qū)運(yùn)營(yíng)和推廣團(tuán)隊(duì)，Spark變現(xiàn)比較難，之后團(tuán)隊(duì)成員決定成立Databricks，以商業(yè)化方式推動(dòng)Spark社區(qū)發(fā)展。即便Spark是過(guò)去硅谷的頂流產(chǎn)品，但這并沒(méi)有讓AWS等巨頭買(mǎi)賬，他們選擇繞過(guò)Databricks，直接將Spark集成到自己的產(chǎn)品里。在Databricks賣(mài)產(chǎn)品還不如辦Spark峰會(huì)收入高的時(shí)候，Amazon EMR已經(jīng)針對(duì)Spark實(shí)現(xiàn)了幾億營(yíng)收。

Databricks創(chuàng)始團(tuán)隊(duì)走了一條不被大眾熟知的激進(jìn)的路：云。

雖然不管對(duì)公司還是客戶(hù)來(lái)說(shuō)，云可以更快部署，也更容易維護(hù)，但正如聯(lián)合創(chuàng)始人Reynold Xin所說(shuō)，大部分的人知道云是未來(lái)，但絕不是現(xiàn)在。當(dāng)時(shí)只有小部分風(fēng)投注資這家初創(chuàng)企業(yè)，New Enterprise Associates的投資者Pete Sonsini說(shuō)：“我們?cè)贒atabricks的軟件收入為零時(shí)投資，認(rèn)為他們會(huì)在大流行中加速發(fā)展，也許是一兩個(gè)月，每個(gè)人都無(wú)法及時(shí)知道會(huì)發(fā)生什么”。和Databricks一樣，他們也在賭未來(lái)。

圖：Databricks年度融資及估值變動(dòng)

2013到2015這三年，雖然有硅谷風(fēng)投支持，Databricks也借力這些資金吸引人才，推出了基于云端的簡(jiǎn)化大數(shù)據(jù)處理平臺(tái)Databricks Cloud，但不管是招主管、找融資還是見(jiàn)客戶(hù)，Databricks都會(huì)被質(zhì)疑：真的不支持on-prem嗎？

因?yàn)楸晨縎park，很多客戶(hù)甚至愿意年付幾千萬(wàn)美金讓Databricks提供咨詢(xún)定制化項(xiàng)目，但Databricks做的是一個(gè)給數(shù)據(jù)工程師的平臺(tái),這是當(dāng)時(shí)大部分公司聞所未聞的玩法,也是前幾年商途不順的原因之一。值得一提的是，彼時(shí)的云界開(kāi)源前輩Cloudera曾改名“Cloud Era”，可在當(dāng)時(shí)的市場(chǎng)情況下，最終還是轉(zhuǎn)向了on-prem做定制和售后支持才得以存活。

在這種邏輯下，云廠商把開(kāi)源軟件拿來(lái)經(jīng)過(guò)簡(jiǎn)單的封裝，再作為服務(wù)賣(mài)出去。由于這個(gè)過(guò)程只需要簡(jiǎn)單的部署和調(diào)試，工程成本極低，定價(jià)也不高，巨頭從中賺走了大部分，這對(duì)Databricks來(lái)說(shuō)相當(dāng)于吸血，怎樣和有錢(qián)有人的云巨頭對(duì)抗，是Databricks亟需在技術(shù)上打造的壁壘。

他們賭的另一條路，是不做數(shù)倉(cāng)。

彼時(shí)數(shù)據(jù)倉(cāng)庫(kù)競(jìng)爭(zhēng)過(guò)于激烈，以亞馬遜為首的巨頭占據(jù)了大部分市場(chǎng)份額，Databricks繼續(xù)小眾打法：避開(kāi)紅海，嘗試切入一個(gè)新興卻可能會(huì)有爆炸性增長(zhǎng)的小市場(chǎng)，針對(duì)數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和AI的方向做產(chǎn)品。

開(kāi)源小公司的優(yōu)勢(shì)在于更懂項(xiàng)目，迭代更快，能夠聚焦、死磕產(chǎn)品性能，而公有云大廠很難在單一方向投入最好的工程師。隨著數(shù)據(jù)量的爆發(fā)，云的生態(tài)優(yōu)勢(shì)逐漸被認(rèn)可，加上當(dāng)時(shí)市面上也沒(méi)有大量競(jìng)品，這給Databricks的產(chǎn)品帶來(lái)了機(jī)會(huì)。

另一方面，在2019年微軟投資Databricks之前，正巧CEO納德拉推動(dòng)云為先的戰(zhàn)略，兩家合作的Azure Databricks進(jìn)入了微軟的企業(yè)許可協(xié)議。微軟從一個(gè)大數(shù)據(jù)競(jìng)爭(zhēng)劣勢(shì)的云產(chǎn)品搖身成為業(yè)界領(lǐng)先，形成了云巨頭三足鼎立的局面；因?yàn)閹缀跛写笃髽I(yè)都和微軟有ELA，共生效應(yīng)之下，客戶(hù)原本買(mǎi)云買(mǎi)Office的預(yù)算自然流向了Databricks。

有人將Databricks創(chuàng)始團(tuán)隊(duì)比作一群幸運(yùn)的加州嬉皮士RD，他們信仰技術(shù)，信仰來(lái)源，信仰共享和長(zhǎng)期主義，這些也都成為了Databricks的底色。

超級(jí)加倍

讓所有人感到意外的是，2019年后，Databricks以絕無(wú)僅有的加速度在增長(zhǎng)。

截至2021年2月，公司已經(jīng)籌集了近20億美元資金，包括由富蘭克林鄧普頓領(lǐng)投的10億美元G輪融資，此時(shí)Databricks估值已經(jīng)達(dá)到280億美元；在經(jīng)過(guò)最新輪融資后，Databricks380億的身價(jià)與三年前的62億相比暴增了近13倍。

基本面決定價(jià)值，價(jià)值決定價(jià)格，如果將Databricks的成功僅歸結(jié)于對(duì)技術(shù)犀利的洞察，借助了巨人的肩膀和好運(yùn)氣，這還遠(yuǎn)遠(yuǎn)不夠?；陂_(kāi)源的創(chuàng)新是Databricks成長(zhǎng)的關(guān)鍵，從大數(shù)據(jù)領(lǐng)域殺入云計(jì)算和AI，它的產(chǎn)品矩陣?yán)锇―eltaLake、MLflow、Koalas以及開(kāi)源分析引擎Spark等殺傷利器。

其中，超過(guò)80%的用戶(hù)使用Delta Lake；MLFlow為數(shù)據(jù)科學(xué)家提供了標(biāo)準(zhǔn)化的開(kāi)源框架，下載量以每月80萬(wàn)的速度增長(zhǎng)，擁有比Spark更多的用戶(hù)；而Koalas可以讓數(shù)據(jù)科學(xué)家在筆記本電腦上使用Pandas編程，調(diào)用幾個(gè)API就可以將工作部署到大型的分布式Spark集群上，把Pandas社區(qū)的數(shù)據(jù)科學(xué)創(chuàng)新帶給了Spark用戶(hù)。

幫助其他企業(yè)構(gòu)建自己的AI能力，透露出了Databricks的野心：從BI到AI，構(gòu)建一個(gè)企業(yè)AI平臺(tái)，因?yàn)镚hodsi認(rèn)為，在企業(yè)計(jì)算領(lǐng)域，行業(yè)還沒(méi)有出現(xiàn)頭部的企業(yè)AI平臺(tái)。

除了軟件產(chǎn)品本身，Databricks的業(yè)務(wù)模式也有所不同。

傳統(tǒng)的開(kāi)源商業(yè)模式是軟件免費(fèi)，廠商收取支持和服務(wù)費(fèi)用，這在on-prem里或許可行，但在云的世界就不一定了。Databricks在開(kāi)發(fā)、軟件運(yùn)行、運(yùn)營(yíng)和托管方面向客戶(hù)收費(fèi)，采用SaaS開(kāi)源的盈利模式，客戶(hù)可以在本地開(kāi)源平臺(tái)下載免費(fèi)的基礎(chǔ)軟件，同時(shí)也可以下載開(kāi)源公司打造的其他付費(fèi)版本。

不高估開(kāi)源，也不低估市場(chǎng)，Ghodsi說(shuō)：“在云端托管開(kāi)源項(xiàng)目并把它們租給用戶(hù)，客戶(hù)流失率更低，利潤(rùn)增長(zhǎng)更快”。SaaS租賃模式下，Databricks的核心知識(shí)產(chǎn)權(quán)沒(méi)有存放在它所贊助的開(kāi)源軟件項(xiàng)目中，而是在它用來(lái)監(jiān)管云端軟件的工具中，這樣避免了泄露的風(fēng)險(xiǎn)。

根據(jù)報(bào)告，Databricks最新ARR (年度經(jīng)常性收入)達(dá)到6億美元，相當(dāng)于Snowflake同財(cái)年12億營(yíng)業(yè)收入的一半，截至目前，后者市值近670億美元，如果按照兩倍之比來(lái)簡(jiǎn)單預(yù)估，Databricks380億的估值也比較合理。以新估值計(jì)算，Databricks的價(jià)值是當(dāng)前ARR的63倍，相較于2020年的4.25億美元，ARR近30%的增長(zhǎng)率讓投資者對(duì)它未來(lái)的收入十分看好。

圖：Snowflake與Databricks定價(jià)對(duì)比（來(lái)源：官網(wǎng)）

另一方面，通過(guò)對(duì)比官網(wǎng)收費(fèi)方式發(fā)現(xiàn)，雖然是平臺(tái)租出服務(wù)器的計(jì)算資源，但這些服務(wù)器整個(gè)系統(tǒng)都建立在主要的云廠商的基礎(chǔ)服務(wù)上。以Snowflake（左）為例，同樣是以每秒粒度使用的計(jì)算資源付費(fèi)，Snowflake是平臺(tái)和云廠商打包收費(fèi)方式，客戶(hù)對(duì)底層服務(wù)界面（如EC2）和上游的Snowflake的成本花費(fèi)要一次性付清，但比例是怎樣無(wú)從得知，而打包之后Snowflake需要支付給云廠商另外成本，這在無(wú)形中增加了費(fèi)用風(fēng)險(xiǎn)。

Databricks（右）的玩法是分開(kāi)收費(fèi)，用戶(hù)的賬單主要分為兩部分：常規(guī)的底層云廠商服務(wù)器租用成本，以及Databricks在這些服務(wù)器上的功能費(fèi)用?？蛻?hù)使用底層器時(shí)，費(fèi)用單獨(dú)付給云廠商，并不算在Databricks的營(yíng)收里。

所以如果對(duì)比營(yíng)收，比如2020年的Snowflake營(yíng)收近6億，但刨去付給云廠商的費(fèi)用，和Databricks4億多的營(yíng)收相比，也差不了多少。而這既是Databricks毛利率比Snowflake高的原因，也是前者賺錢(qián)能力強(qiáng)的體現(xiàn)。有觀點(diǎn)猜測(cè)Databricks遲遲不上市的原因，如果根據(jù)Ghodsi的說(shuō)法，是為了避免二級(jí)市場(chǎng)所帶來(lái)的波動(dòng)，或許收費(fèi)方式被迫改變等不可預(yù)測(cè)因素也在里面。

天時(shí)地利人和

根據(jù)官網(wǎng)顯示，除了為數(shù)據(jù)科學(xué)家、數(shù)據(jù)領(lǐng)導(dǎo)者與數(shù)據(jù)工程師提供角色解決方案，Databricks還利用大數(shù)據(jù)和AI為廣告和營(yíng)銷(xiāo)、通訊服務(wù)商、教育、能源、聯(lián)邦政府、金融、醫(yī)療等13類(lèi)行業(yè)提供服務(wù)。

從類(lèi)別數(shù)量上，Databricks要多于Snowflake，此時(shí)全球已經(jīng)有7000 多家組織（包括荷蘭銀行、康泰納仕、H&M 集團(tuán)、再生元和殼牌）依靠 Databricks 實(shí)現(xiàn)大規(guī)模數(shù)據(jù)工程、協(xié)作數(shù)據(jù)科學(xué)、全生命周期機(jī)器學(xué)習(xí)和業(yè)務(wù)分析。

通常情況下，企業(yè)客戶(hù)在進(jìn)行數(shù)據(jù)架構(gòu)時(shí)，第三方平臺(tái)提供數(shù)據(jù)湖方案，在數(shù)據(jù)湖中做一些常見(jiàn)的數(shù)據(jù)工程；同時(shí)會(huì)有一個(gè)數(shù)據(jù)倉(cāng)庫(kù)，存放相當(dāng)于數(shù)據(jù)湖5%-10%的結(jié)構(gòu)化數(shù)據(jù)，來(lái)做BI等簡(jiǎn)單的數(shù)據(jù)分析。

但由于數(shù)據(jù)分裂在兩個(gè)系統(tǒng)上，針對(duì)同一個(gè)客戶(hù)問(wèn)題分析，不同團(tuán)隊(duì)有不同權(quán)限，因而會(huì)看到不同版本的同一份數(shù)據(jù)，當(dāng)?shù)贸霾煌Y(jié)論后，做商業(yè)決策的團(tuán)隊(duì)不相信數(shù)據(jù)，進(jìn)而導(dǎo)致底層數(shù)據(jù)平臺(tái)失信，這是個(gè)很致命的問(wèn)題。

將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合到一個(gè)地方，讓客戶(hù)在不移動(dòng)底層數(shù)據(jù)的情況下執(zhí)行數(shù)據(jù)科學(xué)和商業(yè)智能工作，是大數(shù)據(jù)發(fā)展的一個(gè)關(guān)鍵變化。于是，Databricks決定力推Lakehouse，能夠直接在數(shù)據(jù)湖的低成本存儲(chǔ)上，實(shí)現(xiàn)類(lèi)似于數(shù)據(jù)倉(cāng)中的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理的功能，可支持BI到AI所有的工作流。

從Databricks的網(wǎng)頁(yè)介紹上看，無(wú)論是數(shù)據(jù)工程、數(shù)據(jù)科學(xué)，還是機(jī)器學(xué)習(xí)都要依靠Lakehouse運(yùn)行，加上過(guò)去使用低成本對(duì)象存儲(chǔ)的數(shù)據(jù)湖的訪問(wèn)速度很慢，如今DB SQL提高了分析質(zhì)量和性能，使數(shù)據(jù)湖在大數(shù)據(jù)集上的處理與數(shù)據(jù)倉(cāng)庫(kù)相媲美。

“Lakehouse是一個(gè)新賽道，這是一場(chǎng)地盤(pán)爭(zhēng)奪戰(zhàn)”，H輪融資之后，Ghodsi表示，這筆資金將主要用于加速Lakehouse的產(chǎn)品創(chuàng)新和市場(chǎng)開(kāi)拓。與此同時(shí)，Databricks透露保留所有主要公共云的選擇和靈活性，并將Lakehouse發(fā)展成傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的替代品。

越來(lái)越多的企業(yè)樂(lè)于看到Databricks的實(shí)力和發(fā)展?jié)摿?，這和它本身的商業(yè)邏輯有關(guān)，業(yè)內(nèi)傳統(tǒng)企業(yè)如Teradata在營(yíng)收額上雖高過(guò)Databricks好幾個(gè)身位，但市值仍徘徊在40多億美元。大劑量的資金注入后，Databricks選擇并購(gòu)來(lái)填補(bǔ)產(chǎn)品路線(xiàn)圖中的空白或不足，重點(diǎn)是機(jī)器學(xué)習(xí)和數(shù)據(jù)初創(chuàng)公司，以及擴(kuò)大與云公司的合作伙伴關(guān)系。

“云、開(kāi)源、機(jī)器學(xué)習(xí)，這三個(gè)方面已成為每家企業(yè)戰(zhàn)略的核心。我們真的很幸運(yùn)能夠處在這三大趨勢(shì)的中心位置上?！盙hodsi在接受采訪時(shí)說(shuō)到。如果說(shuō)2019年前看好Databricks的小部分風(fēng)投是賭趨勢(shì)，如今匆匆進(jìn)場(chǎng)的其他機(jī)構(gòu)也并沒(méi)有遲到，因?yàn)樵谒麄冄劾?，這家獨(dú)角獸仍具備難以估量的增長(zhǎng)能力。

文|新眸葉靜

編輯|桑明強(qiáng)

在數(shù)據(jù)庫(kù)領(lǐng)域，如果問(wèn)當(dāng)下誰(shuí)最火，那Databricks一定排得上號(hào)。

從0到1

企業(yè)的性格往往被它的創(chuàng)始人和技術(shù)背景所決定。

Databricks創(chuàng)始團(tuán)隊(duì)走了一條不被大眾熟知的激進(jìn)的路：云。

圖：Databricks年度融資及估值變動(dòng)

他們賭的另一條路，是不做數(shù)倉(cāng)。

超級(jí)加倍

讓所有人感到意外的是，2019年后，Databricks以絕無(wú)僅有的加速度在增長(zhǎng)。

基本面決定價(jià)值，價(jià)值決定價(jià)格，如果將Databricks的成功僅歸結(jié)于對(duì)技術(shù)犀利的洞察，借助了巨人的肩膀和好運(yùn)氣，這還遠(yuǎn)遠(yuǎn)不夠。基于開(kāi)源的創(chuàng)新是Databricks成長(zhǎng)的關(guān)鍵，從大數(shù)據(jù)領(lǐng)域殺入云計(jì)算和AI，它的產(chǎn)品矩陣?yán)锇―eltaLake、MLflow、Koalas以及開(kāi)源分析引擎Spark等殺傷利器。

除了軟件產(chǎn)品本身，Databricks的業(yè)務(wù)模式也有所不同。

圖：Snowflake與Databricks定價(jià)對(duì)比（來(lái)源：官網(wǎng)）

歷史搜索全部刪除

熱門(mén)搜索

“數(shù)據(jù)新星”Databricks 崛起啟示錄

從0到1

超級(jí)加倍

天時(shí)地利人和

評(píng)論

“數(shù)據(jù)新星”Databricks 崛起啟示錄

從0到1

超級(jí)加倍

天時(shí)地利人和