文|極客電影
英偉達再次站到了時代浪潮之上:
被ChatGPT選中的英偉達成功擺脫“礦圈”影響,并且極有可能在未來成為AI領域的核“芯"。
過去三十年間,英偉達制造的芯片幾乎主導了整個游戲和計算機圖像產(chǎn)業(yè),而人工智能業(yè)務的增長為它帶來了新的盈利方向。
英偉達創(chuàng)始人黃仁勛在十年前的深謀遠慮,讓公司得以乘著時代風口“起飛”。
大約在十年前我們就發(fā)現(xiàn),AI這種制作方式可以改變一切。
我們調(diào)整了公司方方面面的發(fā)展規(guī)劃,我們生產(chǎn)的每一個芯片都具備人工智能技術。
縱觀英偉達的崛起,靠的絕不是運氣。
圖形處理“霸主”成長史
英偉達的英文名稱 NVIDIA 前兩個字母 NV=Next Version(下一個版本);
NVIDIA是拉丁語“嫉妒”的意思,他們希望自己產(chǎn)品的計算速度可以快到讓所有人都嫉妒,所以選擇了代表羨慕嫉妒恨的綠眼睛作為公司標志。
英偉達的LOGO——綠眼睛
英偉達創(chuàng)始人黃仁勛,1963年出生,9歲時移民美國,后進入在俄勒岡州立大學學習電氣工程,并在斯坦福獲得碩士學位。
上世紀八九十年代,畢業(yè)后的黃仁勛曾在AMD和LSI Logic工作。在LSI Logic設計部門工作了兩年之后,黃仁勛轉崗到了銷售部門——這是他自認為“人生最佳”的職業(yè)轉型,銷售經(jīng)驗讓他學會了“產(chǎn)品和市場結合才是成功關鍵”。
之后,黃仁勛結識了Chris Malachowsky和Curtis Priem兩位曾經(jīng)在SUN工作過的技術人員,三個工程師常聚在圣何塞Berryessa立交橋旁的小破店Denny's里喝咖啡,討論如何加快電子游戲中3D圖像的渲染速度。
1993年,三人共同在加州一個小公寓里創(chuàng)立了英偉達公司。
英偉達的三個創(chuàng)始人
1999 年,幾經(jīng)市場失敗瀕臨破產(chǎn)邊緣的英偉達,在裁掉大部分員工后,推出了號稱是世界上第一款官方GPU——GeForce 256。
這是第一款允許自定義陰影和照明效果的可編程顯卡。到 2000 年,英偉達已成為微軟第一款Xbox的獨家圖形引擎供應商。
“微軟推出XBOX的時機,恰好是我們投入研究可編程著色器(Programmable shader)的時候,它定義了計算機圖形學的底層邏輯?!眲?chuàng)始人黃仁勛說。
天時地利人和,英偉達的GPU順勢成為最主流的圖形處理芯片。
30年前,硅谷研發(fā)圖形處理芯片的公司群雄逐鹿,如今幾乎只剩英偉達和AMD還活著,首席執(zhí)行官仍是創(chuàng)始人的公司更是少見。
這就必須提到黃仁勛在2006 年下的大賭注——他們發(fā)布了一個名為CUDA(Compute Unified Device Architecture)的軟件工具包。
當年CUDA剛問世的時候,華爾街對其市值估值為0美元?!爸钡?016年,即CUDA問世 10 年后,人們才突然意識到,這是一種截然不同的計算機程序編寫方式,”英偉達深度學習研究副總裁Bryan Catanzaro說。
正是他們搭建的CUDA開發(fā)者平臺以其易用性和通用性,讓GPU可以用于通用超級計算,最終推動英偉達迅速擴張為圖形處理領域的霸主。
從游戲到“挖礦”,再到ChatGPT
英偉達的GPU一度成為了加密貨幣領域中的硬通貨,游戲顯卡價格被炒高,英偉達的股票也曾一度高達319美元。
盡管英偉達為“挖礦”專門設計了一款GPU(NVIDIA CMP hx series),但仍然擋不住“淘金者們”購買游戲顯卡。
顯卡短缺大概到2022年初結束,同年英偉達發(fā)布的40系列GPU (GeForce RTX 4080),定價$1199,遠遠高于30系列$699的價格,這讓游戲玩家大為震撼。
顯卡供需恢復正常以后,英偉達在游戲行業(yè)的營收下降了46%,股價隨之大跌,芯片巨頭急需業(yè)務調(diào)整。
“突然一個聽起來不可能的軟件發(fā)現(xiàn)了你”——OpenAI購買了10000個GPU用于AI計算,此后,英偉達開始正式成為人工智能背后的中堅力量。
被 AI 選中的英偉達
01│AI為什么選擇GPU?
英偉達在1996年發(fā)布GeForce256時,就率先提出GPU(圖形處理器)概念,從此英偉達顯卡芯片就等同了GPU。
GPU包含成百上千的核心,每個核心處理一個像素點,這樣就可以在同一時間內(nèi)完成對圖片中所有像素點的處理。
GPU這種基于大量計算核心的結構,讓它特別擅長做那些計算密集且可以大量并行執(zhí)行的運算,深度學習和AI應用就符合這個特點,而且AI應用里最常見的卷積運算本質是加減乘除這類簡單運算。
這也是GPU與中央處理器CPU最大的區(qū)別:
CPU適用于需要按時序進行的復雜運算,就像一個淵博的數(shù)學教授,什么問題都會,但是雇他的成本很高;
而GPU就像一千個小學生,可同時進行大量簡單運算,又便宜又快。
02│GPU 如何推動AI人工智能的發(fā)展?
GPU算力提升是AI得以實現(xiàn)的基礎,而AI領域的算法進步也讓GPU算力提升成為可能。
2009年,斯坦福人工智能研究員推出了ImageNet,這是一個標記圖像的集合,用于訓練計算機視覺算法;
2012年,被稱作“神經(jīng)網(wǎng)絡之父”和“深度學習鼻祖”的多倫多大學教授杰弗里辛頓和他的博士生Alex發(fā)表了AlexNet,把在GPU上訓練的卷積神經(jīng)網(wǎng)絡與ImageNet數(shù)據(jù)結合,創(chuàng)造出世界上最好的視覺分類器,一舉獲得ImageNet LSVRC-2010競賽的冠軍,錯誤率只有15.3%, 遠超第二名的26.2%。
AlexNet原理
同年,英偉達發(fā)布了名叫開普勒(Kepler)的GPU架構,從2012年的“開普勒”芯片到2020年的安培(Ampere)架構,GPU的芯片性能在8年里提升了317倍。
英偉達能取得這樣成就,主要有兩個方面的原因:
首先是半導體制造工藝的進步,這部分功勞當歸功于臺積電和三星這樣的芯片制造商。在芯片架構不變的情況下,單靠工藝的升級,性能也會有好幾倍的提升。
另外一個非常重要的原因,就是在英偉達自己在芯片架構上的優(yōu)化:
首先是張量核心(Tensor Cores)的引入。
Tensor Cores是一種專為深度學習而設計的計算核心,它執(zhí)行的是一種特別的矩陣式數(shù)學運算方式,非常適用于深度學習訓練
2017年12月英偉達發(fā)布了首次采用具有Tensor Cores的GPU,專門用于AI領域、特別是計算機深度學習。這就是為什么幾乎所有深度學習超級計算機都選擇了英偉達的GPU。
英偉達Tensor Cores GPU
其次是,支持更低精度的數(shù)據(jù)運算。
這是因為研究AI算法的人發(fā)現(xiàn),精度下降造成的準確度下降可忽略不計,因此選擇更低的精度能大幅提升算力。
同時,Tensor Cores使人工智能程序員能夠使用混合精度來實現(xiàn)更高的吞吐量而不犧牲精度,即針對不同的任務執(zhí)行不同的精度需求,節(jié)約了大量算力。
同樣能帶來算力提升的,是結構化剪枝(壓縮)技術。
剪枝技術是本科畢業(yè)于清華大學,現(xiàn)任麻省理工副教授的韓松提出的一種AI模型的壓縮技術。他發(fā)現(xiàn)在AI模型中,神經(jīng)元之間的聯(lián)系有著不同的緊密程度,剪掉一些不那么重要的連接,基本不會影響模型的精度。
剪枝壓縮技術
而近年來神經(jīng)網(wǎng)絡模型里新秀Transformer模型,給算法技術層面帶來了大幅進步。
Transformer模型
在NLP領域取得的研究進展都和Transformer息息相關, OpenAI采用的GPT-3模型,就是受到了Transformer模型的啟發(fā),參數(shù)的數(shù)量達到了1750億個。
然而Transformer模型需要更大的運算量,也就意味著硬件水平得配套。于是英偉達開發(fā)了專用于Transformer模型的計算引擎,以適應AI的算力需求。
由此可見,AI算法領域的科研成果和GPU的性能是彼此促進、互相提攜的。
巨頭入場,圖形芯片越來越卷
計算能力就是AI時代的貨幣。
云計算和互聯(lián)網(wǎng)大廠紛紛下場做自己的芯片,就是提供更強大的算力,降本增效,來滿足不同應用場景的需求。
比如蘋果的M1芯片,就是為了讓它的產(chǎn)品在視頻剪輯等細分場景的應用上有更強表現(xiàn),而舍棄了通用性。
而英偉達、英特爾設計的芯片更具通用性——芯片設計廠商在通用性和專用性上的取舍,其實體現(xiàn)了他們在商業(yè)價值上的自我預期。
2013年,谷歌開始研發(fā)用于AI場景的TPU芯片,目的是為了解決公司內(nèi)部日益龐大運算需求與成本問題。這些芯片幾乎只能用于解決矩陣運算,也算是舍棄通用性,追逐專用性的極端了。
甚至連亞馬遜都在2013年推出了Nitro1芯片,同樣是服務其自身電商業(yè)務。