文|腦極體
近兩年,號稱“AI四小龍”的機器視覺公司商湯、曠視、云從、依圖,資本市場表現(xiàn)和裁員等傳聞,可能讓大眾覺得,機器視覺不是一門好生意,這個領(lǐng)域也沒什么戲了。
情況顯然不是這樣的。一方面,計算機視覺(簡稱CV)仍是人工智能技術(shù)應(yīng)用比重最高的領(lǐng)域之一,相關(guān)應(yīng)用是各行業(yè)數(shù)字化、智能化的首選,基于機器視覺的工業(yè)質(zhì)檢、巡檢、物流機器人、人臉識別等都在越來越多地落地,沒有道理AI很行、CV不行;另一方面,整個機器視覺市場仍在不斷增長,根據(jù)福布斯的預(yù)測,到2022年底,計算機視覺技術(shù)市場的價值預(yù)計將達到480億美元,并可能成為持續(xù)創(chuàng)新和突破的源泉。
顯而易見,不是機器視覺的生意不再性感了,而是頭部機器視覺公司講不好這個故事了。
然而,面對地緣政治的打壓、國內(nèi)房地產(chǎn)基建旅游等的放緩、海內(nèi)外資本市場的現(xiàn)實情況,這種情況下,再用刻薄話去奚落“AI四小龍”的窘境,多少有點沒心沒肺。
當然,來自產(chǎn)業(yè)用戶和開發(fā)者們的真實聲音,也讓我們無法輕佻地說出“風雨過后終會見彩虹”“守得云開,未來可期”之類的雞湯話。因為現(xiàn)實很可能是,等經(jīng)濟大環(huán)境復(fù)蘇,有的公司還能翻身,而有的可能就此沉淪。
時世變化之時,機器視覺公司又能朝哪里走?是否真的看到了產(chǎn)業(yè)AI的變幻?如果要求生,目前有哪些急需開展的工作?這是我們想要探討的。
機器視覺還是一個好生意嗎?
以AI四小龍為代表的機器視覺企業(yè)表現(xiàn)不佳,被認為是機器視覺乃至AI商業(yè)化的破滅。畢竟這些企業(yè)在技術(shù)能力、商業(yè)模式、市場份額上都有絕對的領(lǐng)先優(yōu)勢,如果連它們都難于盈利,不證明以算法能力見長的AI獨角獸確實“德不配位”嗎?
讓我們離開一些媒體們“報憂不報喜”的習慣,到更廣大的產(chǎn)業(yè)世界去看一看。
過去幾年的時間里,機器視覺作為AI技術(shù)最為成熟、應(yīng)用最為廣泛的能力,是在積極被產(chǎn)業(yè)擁抱的。手機應(yīng)用中的身份驗證、機場車站的體溫監(jiān)測、安防領(lǐng)域的主動識別、工業(yè)領(lǐng)域的智能質(zhì)檢、交通領(lǐng)域的車流車輛識別……可能絕大多數(shù)人最先感知到的AI能力都是機器視覺。
以機器視覺作為轉(zhuǎn)型入口,推動行業(yè)/企業(yè)智能化,在今天幾乎是共識。
業(yè)內(nèi)有句吐槽:“AI+工業(yè)逃不出機器視覺的窠臼。”這真的是缺點嗎?我們采訪過許多工業(yè)企業(yè),大部分人都提出,自家企業(yè)首先落地的就是質(zhì)檢、巡檢這里機器視覺應(yīng)用。來自機科發(fā)展的一位技術(shù)人員告訴我們:這是現(xiàn)在大部分AI或深度學習落地的現(xiàn)狀,以機器視覺落點來推廣AI技術(shù),目前還是一個不錯的戰(zhàn)略。
甚至于在高精尖的航空航天,機器視覺也是一些研究者在嘗試深度學習的首選。我們曾和一位航天領(lǐng)域的AI開發(fā)者交流過,為什么很多航天AI應(yīng)用都是圖像類的,對方表示教育界同樣討論過這個問題。一來,圖像處理領(lǐng)域已經(jīng)形成了一套比較完整的體系,圖像分類、目標檢測用得已經(jīng)很多,可以很快得到不錯的效果。二來,深度學習是數(shù)據(jù)驅(qū)動的,航天領(lǐng)域本身就積累了大量的光學圖像數(shù)據(jù),其他載荷數(shù)據(jù)也可以引入AI模型,但效果沒有CV顯著。第三,從航天知識科普的角度來說,圖像對于普通人來說是很直觀的,火星探測器或者月球探測器每次拍到的圖片更能引起公眾注意,率先引入CV帶來的社會意義更大一點。所以,目前無論是火星車還是其他航天器,都有很多人在與CV技術(shù)相結(jié)合去解決各種問題。
可以肯定地說,機器視覺是數(shù)字基礎(chǔ)設(shè)施中不可或缺的一個。隨著人們工作、娛樂、生活等各領(lǐng)域的圖像數(shù)據(jù)越來越豐富、復(fù)雜、劇增,需要分析處理推理的能力也更多,必然會將機器視覺推向一個更大的市場。
或者反向思考一下,如果CV真的不重要、真的沒市場,還會成為對岸鄰居“封鎖”打壓的對象嗎?
???????
所以,機器視覺一定是值得大力發(fā)展和押注的。那么新的問題又來了,以機器視覺起家的“AI 四小龍”營收和商業(yè)潛力,都不容樂觀,虧損的虧損,破發(fā)的破發(fā),裁員的裁員。商湯科技直接在招股書中表示:未來仍有無法盈利的可能。CV公司真的還有前途嗎?
有心的讀者可能看過一些關(guān)于AI四小龍的分析文章,將其業(yè)績不佳的原因歸為技術(shù)研發(fā)投入過高、產(chǎn)業(yè)化能力欠佳、科技企業(yè)和傳統(tǒng)安防企業(yè)的圍剿等等。這些因素當然是存在的,但要改變卻讓CV企業(yè)左右為難。安防企業(yè)轉(zhuǎn)做機器視覺,投入難道就不高嗎?降低研發(fā)投入,原本的技術(shù)優(yōu)勢也沒有了怎么辦?產(chǎn)業(yè)有壁壘,是針對所有純算法CV企業(yè)的,總不能大家都沒有辦法,集體躺平不干了吧。
既然不能躺平,就要想想怎么咸魚翻身。那么,來自產(chǎn)業(yè)客戶和開發(fā)者的聲音,或許能夠帶來一些“反常識”的思考。
“反常識”第一點:CV企業(yè)研發(fā)投入不是過大,而是還不夠
“AI四小龍”是公認在技術(shù)研發(fā)上投入很大的,但隨著業(yè)績走低,這被認為是拖累而非護城河。有一個說法是,“我們的首席投資官覺得,商湯能做的,其他公司其實也能做。雖然商湯技術(shù)更先進一些,但可能就相差了3個月到半年”。
技術(shù)不是壁壘嗎?大錯特錯,技術(shù)絕對是巨大甚至最大的壁壘。因為目前阻礙機器視覺在產(chǎn)業(yè)中規(guī)?;瘧?yīng)用的頭號疑慮,就是CV技術(shù)的實際表現(xiàn),不達預(yù)期。
CV落地產(chǎn)業(yè)最常見的問題,大概梳理一下就有不少。
1.替換效果不明顯。大家可能會覺得在AI賽事中刷榜就是很厲害的CV了,但需要注意的是,從85分提高到90分,就是學術(shù)界的突破了,然而在產(chǎn)業(yè)界中,可能要做到95分以上才能夠被應(yīng)用。而且,比賽只是一群深度學習系統(tǒng)關(guān)起門來的比武,到了真實世界中,AI對面對的是企業(yè)長期使用、已經(jīng)非常成熟的算法。
鄭州大學的馬老師,曾受邀為江蘇某無紡布企業(yè)開發(fā)缺陷檢測,他告訴我們,工業(yè)領(lǐng)域本身就有應(yīng)用非常成熟的檢測算法Halcon,算法經(jīng)過長期的積累和迭代,已經(jīng)非常穩(wěn)定了,而且計算量小,還不用標注數(shù)據(jù)和調(diào)參。相比改造和應(yīng)用成本,機器視覺需要找到非常有吸引力的差異化應(yīng)用場景和功能。
2.現(xiàn)實應(yīng)用性能下降。在實驗室中表現(xiàn)很好的算法“優(yōu)等生”,一落地生產(chǎn)環(huán)境就成了“差生”。馬老師告訴我們,無紡布是以每小時36公里的速度在往外出布,要求機器視覺算法在高速運動下精準地把缺陷畫出位置,技術(shù)挑戰(zhàn)是非常大的。這時候,傳統(tǒng)算法因為計算量小、算法成熟,識別速度反而比CV算法還要快。而且現(xiàn)場環(huán)境并不標準、可控,有時候上午光通過玻璃反射,在無紡布上產(chǎn)生光斑,就會影響CV系統(tǒng)的檢測精度,誤報率很高。馬老師及其團隊經(jīng)過了各種調(diào)試,才讓準確率達到了穩(wěn)定的數(shù)值。對于企業(yè)客戶來說,更希望引入的是成熟的技術(shù)產(chǎn)品,必須CV企業(yè)或研發(fā)人員做成了,告訴客戶確實能提高效益,有的企業(yè)才愿意去嘗試。
3.應(yīng)用場景的限制。質(zhì)檢、巡檢可能是CV的關(guān)鍵場景,但對于工廠等企業(yè)來說,可能只是生產(chǎn)流程的環(huán)節(jié)之一,所以更多企業(yè)在智能化的過程中,可能選擇以“打包”解決方案的形式去引入AI,而機器視覺可能只是其中一個點。某科技企業(yè)告訴我們,在為一個工廠做產(chǎn)線智能化改造的時候,整個項目額是五千萬,其中視覺可能只有五十到一百萬。而且偏重工業(yè)一點的企業(yè)比如冶金、軌道交通、制造等對CV質(zhì)檢的關(guān)注度更高,這些領(lǐng)域也是CV企業(yè)的紅海。
采訪者直言,工信部曾經(jīng)有某副司長帶隊,帶了十家AI企業(yè)去到各個公司一家家轉(zhuǎn),尋找商務(wù)合作機會,結(jié)果發(fā)現(xiàn),有石化公司提出,想用機器視覺檢測代替人工檢測,但對方的塔樓很高,讓機器人爬樓梯上去巡檢,還要保持較高的穩(wěn)定性,這在當下是不可能完成的任務(wù)。最后AI公司們一評估,發(fā)現(xiàn)還做不了。類似這種情況還很多,很多企業(yè)真正關(guān)注的痛點,目前CV技術(shù)還無法給到足夠大的實質(zhì)幫助。
大家想必已經(jīng)發(fā)現(xiàn)了,實驗室和AI賽事上動輒碾壓人類的CV算法,到了現(xiàn)實世界和產(chǎn)業(yè)世界中,依然有大的差距。即使是一些渴望AI、適宜CV的重點行業(yè)與落地場景,比如質(zhì)檢、巡檢,目前仍然存在一些尚未解決的技術(shù)難題。
從這個角度來看,CV公司的商業(yè)化怎么可能快速進入指數(shù)級增長,而頭部CV企業(yè)也并未能在這些產(chǎn)業(yè)客戶真正關(guān)心的問題上帶來眼前一亮的解法。
CV在內(nèi)的AI技術(shù)并沒有那么多噱頭和風口,成功應(yīng)用的前提,就是技術(shù)本身的成熟度和性價比而已。研發(fā)之路,道阻且長,意義深遠,也是值得堅持并最終能拉開差距的。
“反常識”的第二點:CV企業(yè)營收不好,并不是因為不理解產(chǎn)業(yè)
很多人覺得純算法的AI公司,在做B端市場時,容易因為不了解行業(yè)、不了解場景,而導(dǎo)致技術(shù)很強、但無法轉(zhuǎn)化。這固然是一部分原因,但不是最根本的原因。
AI與行業(yè)深度結(jié)合的難度,是眾所周知的。AI四小龍基本都有自己深耕的行業(yè)及場景,也都在積極地嘗試從純機器視覺轉(zhuǎn)型為更綜合的AI解決方案服務(wù)商。比如曠視將端側(cè)硬件與AI算法相結(jié)合的物聯(lián)網(wǎng)解決方案;依圖重點解決算力問題;商湯的的“1(基礎(chǔ)研究)+1(產(chǎn)業(yè)結(jié)合)+X(行業(yè)伙伴)”模式;云從聚焦在金融、出行等核心領(lǐng)域……換句話說,沒人比它們更想、也更努力地在了解產(chǎn)業(yè)。
更深層的原因或許是,了解了,但沒完全了解,也可能永遠也無法完全了解。
其一,在認知上,純算法公司和實體行業(yè)有天然的壁壘。
目前工業(yè)領(lǐng)域智能制造所提出的“智能”,和AI領(lǐng)域所提出的“智能”,同一個詞在概念和應(yīng)用細節(jié)上其實是有區(qū)別的,比如AI界傾向于針對某個CV任務(wù)、構(gòu)建模型、學習數(shù)據(jù)特征,進而讓模型具有解決特定問題的能力,也就是純算法能力。但工業(yè)乃至很多行業(yè)所想要的“智能”其實是偏實體的,比如生產(chǎn)線的柔性化改造、制造設(shè)備的互聯(lián)互通、以及數(shù)字孿生技術(shù)等。這種情況下,當CV企業(yè)開始進入產(chǎn)業(yè)的時候,就會出現(xiàn)“雞同鴨講”的現(xiàn)象。
其二,在實踐中,純算法公司的高人力成本不符合大規(guī)模定制所需要的經(jīng)濟效益。
企業(yè)的數(shù)字化轉(zhuǎn)型需求“千人千面”,不僅僅是不同行業(yè)和領(lǐng)域,同行業(yè)不同公司之間也有著不同的需求,CV應(yīng)用的場景是非常碎片化的,需要高度個性定制。這就出現(xiàn)了一個矛盾,CV企業(yè)要依靠大量人力成本較高的算法工程師來解決所有行業(yè)需求,顯然是不合實際也成本過高的。
就拿工業(yè)來說,工藝、制造需求、專業(yè)的不同,都會造成在機器視覺系統(tǒng)所需要的機理模型完全不同,甚至同一領(lǐng)域不同產(chǎn)品間的差異也會很大,復(fù)雜度和工藝門檻也比較高。一個工業(yè)企業(yè)的負責人曾告訴我們,比如冶金鋼卷生產(chǎn)的缺陷檢測,鋼卷又分為冷軋、熱軋,這相當于四個問題,雖然都是機器視覺質(zhì)檢,但AI要解決的機理問題是完全不一樣的,所以這一個企業(yè)、一個場景,都無法做到模型的通用化。而一對一模型的定制開發(fā),又會導(dǎo)致落地成本和實施周期的增加。
腦極體團隊曾走訪過許多智能化項目,很多細節(jié)都是待在實驗室里根本想象不出來的。有家豬場希望用AI識別來監(jiān)測豬的體溫,結(jié)果系統(tǒng)上線了之后檢測效果就是不好,一番排查發(fā)現(xiàn)是因為豬皮太厚了,溫度識別不準。還有家自來水廠,全部換成了智能攝像頭,但平時卻基本不開,原因是攝像頭拍的高精度視頻圖像過于龐大,廠里的網(wǎng)絡(luò)沒有同步升級,上傳分析的速度很慢。有企業(yè)沒通知技術(shù)人員就直接在生產(chǎn)線上生產(chǎn)其他顏色的布,一下子就給CV系統(tǒng)整不會了……
某AI開發(fā)者告訴我們,為一個工廠開發(fā)了活塞環(huán)檢測的AI硬件產(chǎn)品,其中幾萬個焊點都是他自己手動焊接的,當時的焊接過程還在抖音上直播過,還曾擰過三十萬顆螺絲。他說:不會有任何一個軟件公司會雇一個算法工程師去擰螺絲,但恰恰因為沒有人做這件事情,所以很多做出來的系統(tǒng)會不符合工廠實際的情況,或者工廠會不信服企業(yè)提出來的方案。而正因為他會去跟工廠特別直接地交流,做過這些最基礎(chǔ)枯燥的手工活,所以提出的AI方案工廠一般都還挺信服的。
公開報道中,“AI四小龍”都表示過研發(fā)支出的很大一部分資金就在人才招聘上。一方面,收入規(guī)模與人力成本不成正比,營收情況不佳;另一方面,碎片化的智能化需求也決定了企業(yè)在努力擴大人力也不可能完全覆蓋、規(guī)?;瘡?fù)用。
還是用那位AI開發(fā)者的話來說:中國可能有上百上千萬的加工廠都需要來使用AI,一家工廠可能不同產(chǎn)品需要不同的模型,是不可能來靠一些算法公司的工程師來完成的,可能有大量的一線工人,只要學會用AI,就可以把比較成熟的CV算法應(yīng)用到生產(chǎn)一線。
換句話說,千行百業(yè)的智能化必然需要各種各樣的CV應(yīng)用與模型,當機器視覺技術(shù)從通用化、簡單化,走向多元化、個性化、場景化,也注定了頭部或大型CV企業(yè),不可能憑一己之力訓練出所有模型、通吃所有市場。
“反常識”第三點:CV企業(yè)看起來被圍獵的是市場,其實是同伴
CV企業(yè)的商業(yè)化不理想,確實受到了傳統(tǒng)安防巨頭轉(zhuǎn)型AI、以及一些AI科技巨頭入局CV的沖擊。這些擁有數(shù)據(jù)、渠道、技術(shù)、生態(tài)等多方面優(yōu)勢的巨頭下場后,似乎一些常見的CV細分市場就開始“卷”價格,以至于像“AI四小龍”這樣的機器視覺為主公司很受傷。
但反過來想,CV市場難道是被獨角獸壟斷的特殊行業(yè)嗎?
產(chǎn)業(yè)智能化必然是由眾多AI開發(fā)者、ISV服務(wù)商和CV企業(yè)來共同完成的。而CV企業(yè)中可不只有巨頭,還有大量中小微企業(yè),對于這些企業(yè)來說,來自開放平臺的賦能,恰恰是生存和發(fā)展的希望。
有視覺領(lǐng)域的創(chuàng)業(yè)者告訴我們,自己根本不會以初創(chuàng)公司的名義去跟甲方打交道,那可能連款都要不回來。他們公司是作為某些大型企業(yè)的合作供應(yīng)商,大型企業(yè)為客戶做整體的系統(tǒng)用集成解決方案,這個CV初創(chuàng)公司解決其中一個小的視覺問題。如果一個小小的企業(yè)去單獨做項目,可能在項目驗收的時候遭遇到各種各樣的情況。
“從我們實施的經(jīng)驗來看,現(xiàn)在AI視覺面鋪得這么廣,在很多問題上沒有太好的解決方案的,距離甲方的要求還有一定的距離。舉個例子,客戶的良品率已經(jīng)接近100%了,驗收階段要求這條生產(chǎn)線跑一周,一周內(nèi)的錯誤率不能超過三次,超過三次就不給你驗收。而AI模型,從80%調(diào)到95%可能好調(diào),但從95%進到96%、97%就很困難,所以收款是非常困難的一件事情?!?/p>
除了商業(yè)模式上的難題,中小型CV企業(yè)還面臨著招人難、建立壁壘難的問題。前面提到,通用性強的CV賽道已經(jīng)非常擁擠,價格戰(zhàn)明顯,并且透明度很高,很多企業(yè)客戶對于AI系統(tǒng)的成本是非常清楚的?!癆I四小龍”尚且難受,中小微型企業(yè)自然更難以在紅海中建立壁壘。
然而另一方面來看,企業(yè)客戶其實并不在乎技術(shù)服務(wù)商是用什么技術(shù)方法解決問題的,基于深度學習的計算機視覺也可以,傳統(tǒng)的機器視覺也可以,只要能夠滿足應(yīng)用需求,并且成本可接受。這需要從基礎(chǔ)硬件、算法、再到產(chǎn)業(yè)層的整體配合,這對于中小型CV企業(yè)來說也是一個機會,那就是可集成多元化的軟硬件與智能能力,針對買家的需求來進行定制化滿足。這時候,科技巨頭們的AI開源開放生態(tài)、各類機器視覺大模型的推出、算法市場生態(tài)等等,讓它們成為被選擇和被集成的對象,其技術(shù)和產(chǎn)品被二次封裝成為各種子產(chǎn)品,從而擴展了市場份額。
有ISV服務(wù)商表示,在開發(fā)解決方案的時候選擇了康耐視的相機,這個相機設(shè)備自帶一個面向工業(yè)視覺的算法庫,買回去之后可以直接開發(fā)出更針對性的產(chǎn)品,部署的時候再買一個品牌的加密狗就可以了,所以完全沒有必要和動力再去買一套純算法公司的算法。
曾幾何時,“AI四小龍”這樣的算法公司確實通過算法市場化成為了時代的寵兒,但當產(chǎn)業(yè)智能化的接力棒被交到更多元的開發(fā)者和服務(wù)商手中時,相比科技巨頭對優(yōu)秀開發(fā)者資源的爭奪,大型CV企業(yè)確實反應(yīng)遲緩、優(yōu)勢有限。它們?yōu)楣蓛r痛苦憂慮的時候,已經(jīng)有更多個人開發(fā)者、小微企業(yè)開發(fā)者在工廠車間、田間地頭開始寫代碼、擰螺絲了。
正在消失的機器視覺公司
分享了這么多來自開發(fā)者和企業(yè)的大實話,我們也得給CV企業(yè)支支招。首先,機器視覺將在數(shù)字經(jīng)濟中占據(jù)很重要的份額,這個市場從未停止發(fā)展,還有大量場景需要圖像處理、圖像識別、目標檢測等能力,CV可以大展身手的行業(yè)是非常多的。但是,未來或許我們會越來越少看到以純算法作為核心能力的機器視覺公司。
從技術(shù)上,CV需要與其他AI技術(shù)相結(jié)合,才能解決產(chǎn)業(yè)關(guān)心但尚未解決的復(fù)雜問題。
前面提到,產(chǎn)業(yè)中還存在大量AI所無法解決的場景,即便是AI應(yīng)用相對廣泛的質(zhì)檢、巡檢領(lǐng)域,也有著大量空白的細節(jié)場景,這些都是具有產(chǎn)業(yè)價值的。但CV無法作為單一技術(shù)去實現(xiàn)突破。比如CV與硬件的結(jié)合,替代人去一些高塔、雷區(qū)、山區(qū)進行作業(yè),需要機器視覺、機器人、芯片等方面的綜合能力。再比如,“AI四小龍”都在深入的智慧醫(yī)療領(lǐng)域,也曾有醫(yī)生表示,病理圖像中包含有很多的圖像信息,AI把這些信息提取之后,可以和基因組學、蛋白組學更加深入地進行研究,而不只是目前這樣簡單的分割或分類。
從商業(yè)模式上,對于一些中小微企業(yè)來說,通過各大算法平臺、開發(fā)生態(tài)提供的開箱即用的工具/接口,未來將成為融合性的AI解決方案供應(yīng)商,而不僅僅聚焦于機器視覺能力。對于在CV賽道上具備優(yōu)勢的企業(yè),讓機器視覺能力與攝像頭、處理器、5G、云等行業(yè)所需要的綜合技術(shù)與能力相融合,支持更多開發(fā)者和行業(yè)合作伙伴去打造更具行業(yè)價值和復(fù)雜度更高的模型,商業(yè)模式的重構(gòu)、成功的平臺化將拓寬機器視覺產(chǎn)業(yè)的深度和寬度。
正在消失的機器視覺公司背后,隱藏著這個轉(zhuǎn)型時代的底色:有人在潮漲潮落中成為過往云煙,有人在深水靜流中成為人生贏家。