亚洲日本综合伊人色,国色天香在线观看,日韩本免费一级毛片免费

文｜經(jīng)緯創(chuàng)投

5月29日，因為業(yè)績遠(yuǎn)超預(yù)期，英偉達(dá)市值在一天之內(nèi)暴漲了1800億美元左右（1.3萬億人民幣），這是美國歷史上第二大單日最高市值漲幅，英特爾（Intel）的市值如今只有其九分之一。

因為業(yè)績遠(yuǎn)超預(yù)期，英偉達(dá)實現(xiàn)了美國歷史上第二大單日最高市值漲幅。圖片來源：WSJ

這次暴漲的推動力，是席卷全球的AI浪潮。英偉達(dá)首席執(zhí)行官黃仁勛說，人工智能應(yīng)用正推動對算力的需求，而英偉達(dá)的芯片是創(chuàng)造人工智能工具的關(guān)鍵。比如OpenAI構(gòu)建ChatGPT背后，可能要用到1萬枚左右英偉達(dá)GPU。

隨著叱咤多年的摩爾定律逼近極限，我們開始需要其他技術(shù)來進(jìn)一步提升算力。此時，“把電換成光”，成為了一個非常重要的選項。

光芯片很早就有，已經(jīng)很成熟，但絕大多數(shù)是不可編程的光學(xué)線性計算單元。要想通過光來提升算力，具有實用價值的計算單元就必須具備可編程性，這種光芯片是最近10年才逐漸取得突破性進(jìn)展的，本文所指的“光芯片”都是這種可編程的光計算芯片。

英偉達(dá)的暴漲代表了AI時代對算力的絕對重視，光芯片作為重要的潛在顛覆性技術(shù)路徑，同樣值得重視。光芯片商業(yè)化的兩大思路，我們提前列在這里，本文最后一部分會詳細(xì)分析：第一大思路是短期內(nèi)不尋求完全替代電，不改動基礎(chǔ)架構(gòu)，最大化地強調(diào)通用性，形成光電混合的新型算力網(wǎng)絡(luò)；第二大思路是把光芯片模塊化，不僅僅追求在計算領(lǐng)域的應(yīng)用，還追求在片上、片間的傳輸領(lǐng)域應(yīng)用，追求光模塊的“即插即用”。

今天這篇文章主要會涉及以下幾點，當(dāng)然需要多說一句的是，本文所主要介紹的思路，只是光計算芯片領(lǐng)域的其中一條重要路徑，其他方案也在同步發(fā)展，同樣值得關(guān)注，Enjoy：

▌摩爾定律逼近極限，未來如何提升算力？

▌一篇論文打開了光計算的大門

▌一個典型的光子計算矩陣是如何運作的？

▌光芯片的優(yōu)勢與挑戰(zhàn)

▌光芯片如何商業(yè)化？

1、摩爾定律逼近極限，未來如何提升算力？

在過去二十年中，算力發(fā)生了翻天覆地的變化。

如果你拿2010年的電腦和現(xiàn)在的相比，可能你會發(fā)現(xiàn)2010年的電腦還可以繼續(xù)跑現(xiàn)在的一些軟件。但如果你用2000年的電腦，去跑2010年的軟件，你會發(fā)現(xiàn)99%的軟件都跑不起來。

這說明了，電子芯片和算力的發(fā)展，其實是在逐漸變慢，背后的原因受制于物理極限，每一次芯片迭代所帶來的算力紅利，已經(jīng)逐步減少，從16納米到7納米、再到5納米，再往下一步的增長只會越來越小。

這主要受限于功耗和晶體管本身的密度。人們發(fā)現(xiàn)晶體管的尺寸越來越小，但并沒有太好的辦法讓晶體管的能耗進(jìn)一步下降。另外還受到銅導(dǎo)線的制約，因為隨著銅導(dǎo)線的橫截面積越來越小，電阻就會越來越高，于是發(fā)熱也不是一直能往下降的因素。

另一個登納德縮放比例定律——晶體管在密度提升的同時，功耗密度保持不變，這一定律早在2004年左右已經(jīng)失效。隨著芯片集成度的提升，所需的功耗和散熱要求越來越大，產(chǎn)生了“功耗墻”問題。

如今從2016年、2018年到2020年，最先進(jìn)的制程從16nm到7nm到5nm，性能提升實際上越來越慢，已經(jīng)無法實現(xiàn)摩爾定律每18個月翻倍的速度。并且從研發(fā)難度和成本的角度，未來可能全球只有極少數(shù)幾家足以繼續(xù)往5nm以下發(fā)展。

從對算力的需求來看，隨著AI的爆發(fā)，在未來 10 年里，用增長越來越緩慢的電子芯片，去匹配增長越來越快的數(shù)據(jù)需求，這可能是目前最大的挑戰(zhàn)。

AI模型容量和算力消耗的指數(shù)增長趨勢；來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》，Wilfred Gomes et al., "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing," ISSCC, 2022

曦智科技創(chuàng)始人兼 CEO 沈亦晨經(jīng)常把芯片設(shè)計比喻成城市發(fā)展，現(xiàn)在的芯片面積越做越大，比如2015年英偉達(dá)的GPU芯片，整個芯片從面積上來看大概有600平方毫米，但2020年推出的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理芯片A100，它的面積大約是800多平方毫米。

拿城市發(fā)展作比喻，如果在500年前，想把100萬人口的城市變成1000萬，是非常困難的，因為受限于幾個基礎(chǔ)設(shè)施方面的問題：一是城市交通，如果用傳統(tǒng)馬車或步行，哪怕全都是平面道路，也很難滿足交通需求。二是每棟樓房的設(shè)計，如果每棟樓房還是500年前的一層樓、兩層樓，要想支撐起更大的城市體系也非常困難，只有出現(xiàn)了高層樓房，城市才能提高密度。

這個比喻對應(yīng)了芯片設(shè)計中的片間網(wǎng)絡(luò)和片上網(wǎng)絡(luò)，如果把現(xiàn)在的電換成光，能在最基礎(chǔ)的“基建技術(shù)”方面，幫助電子芯片進(jìn)行下一代技術(shù)升級，“光替代電”能有效解決高通量和交通問題。

2、一篇論文打開了光計算的大門

廣義的光芯片，并不算是前沿技術(shù)，它存在的時間甚至比電子芯片還要久。

2000年前后的海底光纜，光通訊兩端的收發(fā)模塊都是光子芯片，甚至老師在上課時用的激光筆，里面也有激光器芯片，也是一種光子芯片。

但這些光芯片都是不可編程的，所以無法運用于計算領(lǐng)域。在計算方面，電子芯片獨步天下。

直到2017年，沈亦晨等人在《自然·光子》（Nature Photonics）期刊上所發(fā)表的封面論文，開創(chuàng)性地提出了一種以光學(xué)神經(jīng)網(wǎng)絡(luò)為藍(lán)本的全新計算架構(gòu)，光子計算成為可能。

圖片來源：Deep learning with coherent nanophotonic circuits，nature photonics

光學(xué)信號和光學(xué)器件與電子芯片遵循不同的物理原理。光計算理論比較復(fù)雜，簡單解釋是：光學(xué)信號與散射介質(zhì)的互動在大多數(shù)情況下是線性的，因此可以被映射為一種線性計算。

生活中其實有很多光學(xué)線性計算的現(xiàn)象，一個典型的例子是光學(xué)照相機的鏡頭，鏡頭前的光學(xué)信號在穿過鏡頭時，完成了兩次二維空間光學(xué)傅立葉變換，然后在感光元件上成像，因此，照相機鏡頭可以被看作一種不可編程的光學(xué)線性計算單元。

但要可編程，才有實用價值。在2017年的這篇論文里，沈亦晨等研究者提出的最重要的思路，就是用一個網(wǎng)絡(luò)狀的干涉器，在光通過干涉器的時候，利用它們相互之間的干涉和對干涉器的控制來進(jìn)行線性運算，可以總結(jié)為用一個干涉器的集聯(lián)來完成大規(guī)模的線性計算，以此應(yīng)用于人工智能的矩陣計算。

當(dāng)然這個是最初提出的理論，后來這個系統(tǒng)要想實際落地，遠(yuǎn)遠(yuǎn)比一個矩陣計算器要復(fù)雜得多。并且光還可以運用在很多方面，例如片上和片間的數(shù)據(jù)傳輸?shù)鹊龋蟮募夹g(shù)方案經(jīng)歷了多次迭代，變得越來越成熟。

在光計算芯片（硅光）上，一顆芯片需要集成上萬個光器件，包括調(diào)制器、探測器、干涉器、波導(dǎo)、激光光源、混波器等等10種左右，這些都是納米級。

光芯片的核心是用波導(dǎo)來代替電芯片的銅導(dǎo)線，來做芯片和板卡上的信號傳輸，其實就是換了一種介質(zhì)。當(dāng)光在波導(dǎo)里面?zhèn)鬏數(shù)臅r候，波導(dǎo)和波導(dǎo)之間出現(xiàn)光信號干涉，用這個物理過程來模擬線性計算這一類的計算過程。

就像是光在凸透鏡鏡片里的傳播過程，其實是模擬了一個類似傅里葉變換的數(shù)學(xué)過程。在光芯片里也是一樣，光在芯片上波導(dǎo)傳播的時候，當(dāng)兩個波導(dǎo)靠得很近的時候，里面的光信號就會相互干涉，這個干涉的過程就剛好模擬了一個線性計算過程。當(dāng)有很多個波導(dǎo)，比如128根波導(dǎo)形成一個網(wǎng)絡(luò)互相干涉的時候，我們就可以通過控制這些波導(dǎo)的干涉，來模擬任何一個通用的矩陣運算。

可編程光學(xué)系統(tǒng)的研究突破。圖片來源：Deep learning with coherent nanophotonic circuits，nature photonics

3、一個典型的光子計算矩陣是如何運作的？

舉一個實際的例子，一個典型的光子矩陣計算是如何運作的？

首先最左邊是數(shù)據(jù)加載，中間是矩陣，最右邊是光信號接收，這個過程可總結(jié)為光信號通過矩陣接收的過程。

如果拿現(xiàn)實生活中的現(xiàn)象作類比，就類似于眼鏡，近視的朋友在沒有戴眼鏡之前，眼前的世界是不清晰的，但戴了之后就變清晰了，而這個從模糊到清晰的過程，就是眼鏡對圖像信號做了一種處理，也可以理解成一種計算。這個計算的實現(xiàn)方法是眼鏡前的光信號，通過眼鏡這個計算單元來完成。

可編程光子矩陣乘法器原理示意圖，在這個例子中，所有的光器件都集成在一塊光芯片上，而光芯片的控制電路和內(nèi)存都部署在電芯片上。圖片來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

在2020年的一份視頻演示中，曦智團(tuán)隊在原型產(chǎn)品上成功用光子芯片運行了Google Tensorflow自帶的卷積神經(jīng)網(wǎng)絡(luò)模型，來處理MNIST數(shù)據(jù)集，這是一個使用計算機視覺識別手寫數(shù)字的基準(zhǔn)機器學(xué)習(xí)模型，也是機器學(xué)習(xí)中最著名的基準(zhǔn)數(shù)據(jù)集之一。在測試中，整個模型超過95%的運算是在光子芯片上完成的處理。

測試結(jié)果顯示，光子芯片處理的準(zhǔn)確率已經(jīng)接近電子芯片（97%以上），另外光子芯片完成矩陣乘法所用的時間是當(dāng)時最先進(jìn)的電子芯片的 1/100 以內(nèi)。這也是世界上第一臺完全獨立的光學(xué)計算系統(tǒng)。

曦智科技開發(fā)的早期產(chǎn)品。圖片來源：曦智科技

這款初代產(chǎn)品正在處理MNIST數(shù)據(jù)集。圖片來源：曦智科技

4、光芯片的優(yōu)勢與挑戰(zhàn)

光芯片的優(yōu)勢可以總結(jié)為：速度快/低延遲、低能耗、擅長AI矩陣計算。

首先是速度快/低延遲。光信號意味著光速，所以光計算芯片最顯著的優(yōu)勢是速度快、延遲低，在芯片尺寸的厘米尺度上，這個延遲時間是納秒級（小于5納秒），這個速度是非常驚人的。并且這個延遲與矩陣的尺寸幾乎無關(guān)，在尺寸較大的情況下，光子矩陣計算的延遲優(yōu)勢非常明顯。

脈動矩陣計算和光子矩陣計算延遲對比示意圖。圖片來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

第二大優(yōu)勢是低能耗。鏡片折射本身是不需要能量的，是一個被動過程，不耗能。當(dāng)然，在實際應(yīng)用中，由于要對計算系統(tǒng)編程，其中光信號的產(chǎn)生和接收還是需要耗能的。在光學(xué)器件和其控制電路被較好地優(yōu)化前提下，基于相對傳統(tǒng)制程的光子計算的能效比，可媲美甚至凌駕先進(jìn)制程的數(shù)字芯片。

第三大優(yōu)勢是擅長矩陣運算。光波的頻率、波長、偏振態(tài)和相位等信息，可以代表不同數(shù)據(jù)，且光路在交叉?zhèn)鬏敃r互不干擾，比如兩束手電筒的光束交叉時，會穿過對方光束形成“X”型，并不會互相干擾。這些特性使光子更擅長做矩陣計算，而AI大模型90%的計算任務(wù)都是矩陣計算。

以上我們談到了很多優(yōu)勢，但光芯片作為一項前沿技術(shù)，必然有很多挑戰(zhàn)有待克服，下面我們就聊幾個有待克服的難題。

首先由于要用于復(fù)雜計算，那么光器件的數(shù)量必然就會很多，要達(dá)到不錯的性能至少需要上萬個，這也會帶來更復(fù)雜的結(jié)構(gòu)和更大的尺寸。為了實現(xiàn)可編程，必然要對每個器件進(jìn)行控制，也會要求高集成度。

這些要求會產(chǎn)生一些工藝上的挑戰(zhàn)，同時導(dǎo)致成本很高，以及整體穩(wěn)定性、生產(chǎn)良率都有挑戰(zhàn)，所以必須找到一種低成本、高良率的方法，來控制大量光器件的技術(shù)。曦智采取的是3D堆疊的封裝技術(shù)，在光芯片上方堆疊電芯片，電芯片可以集成各種各樣的功能。電芯片、光芯片通過凸塊上的調(diào)制器進(jìn)行信號轉(zhuǎn)換，把數(shù)字信號變成模擬信號去控制光器件，然后再返回。這時才能達(dá)到對復(fù)雜芯片的有效控制，最終作為一個整體集成在基板上，成為一個產(chǎn)品。

同時溫度也是需要一定的控制，因為環(huán)境溫度會對計算精度產(chǎn)生影響。因為是模擬計算，當(dāng)整個環(huán)境對電芯片產(chǎn)生影響的時候，對光信號也會產(chǎn)生擾動。有一種辦法是把整個芯片放在恒溫環(huán)境下，通過溫控電路來實現(xiàn)。但這會犧牲一些光計算的低能耗優(yōu)勢，因為如果為了控制它的精度而消耗很多能量，會有些得不償失。

對于溫度控制，還包括芯片內(nèi)部發(fā)熱，導(dǎo)致對周邊器件的影響問題。比如兩個器件靠很近，一個器件在發(fā)熱，旁邊會受影響。

另一個挑戰(zhàn)是應(yīng)用層面的精度問題。因為光計算是模擬計算，精度受限于物理本質(zhì)，同水平下精度較難與數(shù)字計算一樣。當(dāng)然如果要想達(dá)到高精度（12比特、16比特等），也可以實現(xiàn)，但代價會非常大，所以核心是要尋求合適的應(yīng)用場景，實際上在人工智能算法方面，并不需要那么高的精度。

以上這些都是可以預(yù)料到的技術(shù)挑戰(zhàn)。

5、光芯片如何商業(yè)化？

光芯片看起來是很不錯的技術(shù)路徑，但到底多久才能落地？

我們總結(jié)了當(dāng)下市場中，其中一種比較快的商業(yè)化路徑思路：

第一是短期內(nèi)不尋求完全替代電，不改動基礎(chǔ)架構(gòu)，最大化地強調(diào)通用性，形成光電混合的新型算力范式。

第二是把光芯片模塊化，不僅僅追求在計算領(lǐng)域的應(yīng)用，還追求在片間傳輸光模塊的“即插即用”。

硅光芯片不是靠尖端制程來獲勝，更多是靠速度和功耗，比如光的調(diào)制解調(diào)的速度、功耗，還有多波復(fù)用，在一個波導(dǎo)里面同時能通過多少路光等等。所以光芯片的“摩爾定律”不體現(xiàn)在制程，而是主頻和波長。

通過上文所說的商業(yè)化路徑兩點思路，可以看出硅光最大的優(yōu)勢在于技術(shù)通用性。例如在一個GPU中，有專門做線性計算的計算核部分，它可能占到整個芯片四分之一到三分之一的大小，可以優(yōu)先把這部分換成光的計算核。

同時，盡量不調(diào)整其他部分，最終對于軟件開發(fā)者或是使用芯片的人來說，甚至不會注意到這個改動。如果拿從燃油車迭代到電動車的過程來做比喻，司機不用改變駕駛習(xí)慣，油門、剎車的位置都不變，背后是發(fā)動機換成了電機。

無論是生產(chǎn)商還是客戶，最大的訴求之一就是要確保通用性。越大的客戶越想要這個產(chǎn)品實現(xiàn)“開箱即用”，才能夠最大限度降低學(xué)習(xí)成本，不需要對現(xiàn)在的底層框架進(jìn)行過多修改，就能夠適配到成千上萬個當(dāng)前的應(yīng)用場景中。所以不動基礎(chǔ)架構(gòu)，而是把線性計算的計算核部分用光來部分替代，形成光電混合的算力網(wǎng)絡(luò)新形式，是最快的商業(yè)化路徑。

從算力提升角度來看，一個計算系統(tǒng)主要有三塊計算要素：數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)存儲。以上所說的是針對第一部分?jǐn)?shù)據(jù)處理，可以用光代替電芯片來做大部分矩陣運算類的數(shù)據(jù)處理。

第二部分是數(shù)據(jù)傳輸，包括一塊芯片上的數(shù)據(jù)傳輸，和芯片之間的數(shù)據(jù)傳輸，也就是片上互連和片間互連，這兩部分也是光子芯片的用武之地。

我們簡單介紹一下片上光網(wǎng)絡(luò)和片間光網(wǎng)絡(luò)：

用片上光網(wǎng)絡(luò)（Optical Network On Chip，oNOC）來代替模塊間的電互連，可以利用光的低延遲和低能耗優(yōu)勢。如下圖所示，兩個電芯片被堆疊在同一個光芯片上，電芯片之間的數(shù)據(jù)傳輸由光芯片上的光波導(dǎo)鏈路實現(xiàn)。由于光傳輸很快，所以無所謂距離有多遠(yuǎn)，片上光網(wǎng)絡(luò)可以覆蓋大量的長距離通道。光芯片能夠擴展到整個晶圓，從而實現(xiàn)晶圓級的光互連網(wǎng)絡(luò)。在這樣的狀態(tài)下，把計算任務(wù)映射到不同芯片的工作可以達(dá)到更高的利用率。

片上光網(wǎng)絡(luò)系統(tǒng)側(cè)視圖與俯視圖。來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

而對于片間光網(wǎng)絡(luò)，目前在電芯片中，是通過以太網(wǎng)卡來實現(xiàn)互連，但它受限于互連延遲和帶寬，在整體效率上有較大提升空間。利用光的優(yōu)勢，一種優(yōu)化辦法是取消網(wǎng)卡，將計算芯片直接和光電轉(zhuǎn)換模塊連接，以實現(xiàn)低延遲、高帶寬、低能耗的片間光網(wǎng)絡(luò)，當(dāng)然這里面需要物理層和互連協(xié)議兩方面的創(chuàng)新。

片間光網(wǎng)絡(luò)示意圖。來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

綜合來說，結(jié)合光子矩陣計算（oMAC）、片上光網(wǎng)絡(luò)（oNOC）和片間光網(wǎng)絡(luò)（oNET）等新技術(shù)，可以構(gòu)建光電混合數(shù)據(jù)中心。

片上光網(wǎng)絡(luò)（晶圓級）可以令光計算芯片和傳統(tǒng)電芯片有效協(xié)同，在單節(jié)點提高算力；片間光網(wǎng)絡(luò)支持了高效傳輸和算力池化，使得大型分布式計算系統(tǒng)可以實現(xiàn)前所未有的高效、靈活和節(jié)能。

光電集成技術(shù)的光電混合數(shù)據(jù)中心示意圖。來源：曦智科技《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

從商業(yè)化角度，除了做整個光計算完整的解決方案以外，還可以把某些單個技術(shù)模塊化，比如剛剛所說的光計算（矩陣運算），或是光片上互連、片間互連，這些技術(shù)也可以模塊化成為產(chǎn)品。如果拿智能電動車行業(yè)作類比，就像除了做整車以外，電池、電機、操控系統(tǒng)等等都是單獨的模塊化產(chǎn)品，很多電芯片的設(shè)計公司也確實有相關(guān)需求。

總之，光子計算提供了一條超越摩爾定律的算力提升路徑。

光子計算這個方向在過去五年中逐漸變熱，除了像英偉達(dá)這樣的芯片設(shè)計巨頭有布局，最近2-3年國際上一些晶圓廠、EDA公司、封測廠等等，也開始正式布局硅光產(chǎn)線。硅光芯片雖然當(dāng)下還主要是在光通訊、光傳感的激光雷達(dá)等領(lǐng)域，這部分需求也驅(qū)動了相關(guān)的供應(yīng)鏈投入。雖然光計算還沒有完全落地，但硅光芯片每個產(chǎn)業(yè)鏈環(huán)節(jié)的全面性，是光計算芯片量產(chǎn)的前提。并且晶圓廠也無需為光芯片重新開發(fā)一整套工藝，很多工藝都是通用的。

展望未來，光計算芯片最大的應(yīng)用場景，就是人工智能。其他的還包括自動駕駛、金融（追求低延遲的量化基金）等領(lǐng)域，以及未來很多科研包括對大氣、地理、新材料和藥物研發(fā)，都可以通過算力更高的光電混合芯片來提高現(xiàn)有研發(fā)進(jìn)度。

對于這種前沿技術(shù)，我們要觀察什么指標(biāo)來判斷它的發(fā)展進(jìn)度？其中一個核心指標(biāo)是集成度，就是光電混合芯片能集成多少光器件，并且能精確控制它們。

這是一個全新的賽道，“超越摩爾定律”也是一個激動人心的口號，但幾乎沒有前路可以借鑒，開拓者們正在披荊斬棘，技術(shù)挑戰(zhàn)與商業(yè)化風(fēng)險并存。但唯一可以確定的是，人類社會對提升算力的追求，正比以往任何一個時刻更加迫切。

References：

1、曦智科技，《大規(guī)模光電集成賦能智能算力網(wǎng)絡(luò)白皮書》

2、曦智科技CTO孟懷宇，《集成光子學(xué)在計算領(lǐng)域的機會與挑戰(zhàn)》

3、曦智科技創(chuàng)始人兼CEO沈亦晨等，《Deep learning with coherent nanophotonic circuits》（自然·光子雜志）

4、量子位，比RTX3080快350倍，光子芯片真的能幫我們實現(xiàn)“換道超車”嗎？

5、 DeepTech，曦智科技發(fā)布全球首個光子AI芯片原型

6、智東西：掀起數(shù)據(jù)中心算力新風(fēng)口！大規(guī)模光電集成有多硬核？