文|科技旋渦 賈桂鵬
在即將過去的2024年,AI技術無疑是最炙手可熱的科技詞匯,其內涵和外延都在隨著人們越來越廣泛的認可和應用變得無比豐富,復雜且充滿了爭議,但是毫無爭議的是,這項或者叫這類新技術正在像歷史上的蒸汽機、內燃機、電動機或者互聯網一樣緩慢但是無可阻擋地向人類社會的方方面面進行滲透。
有關AI的新聞就像天氣預報一樣每天都在更新,科技旋渦按照月份選取了我們認為具有重要影響的AI大事件進行了盤點,也希望大家能提出自己的看法與我們探討。
一月
在2024年1月,三星的年度機皇Galaxy S24系列國行版正式發(fā)布。三星Galaxy S24系列是三星貫徹“AI FOR ALL”愿景的首款深度結合了AI的智能手機產品,同時也將會是未來一段時間內三星實現各種AI功能的重要載體。
Galaxy S24系列以Galaxy AI賦能更輕松的溝通、更高效的生產力、更清晰的影像和更細致的編輯,三星的目標是通過這款手機“推動AI創(chuàng)新成果的普及”。
新年伊始,斯坦福大學一個學生團隊造出的“阿羅哈機器人”(Mobile ALOHA)火出了圈。在視頻里,它熟練地切菜、打雞蛋、翻炒、裝盤,讓人驚呼機器人取代廚師的日子可能不遠了。
不過,在阿羅哈爆火后,其研發(fā)團隊介紹,在阿羅哈完成一些復雜動作時,其背后會有一名操作員移動遙感手臂,再通過傳感裝置讓操作手臂實現動作意圖。但這也讓人們首次暢想機器人能改變生活。
二月
2024年2月,蘋果推出了其首款頭戴設備Vision Pro。這款設備定價高達3500美元,旨在為用戶提供全新的混合現實體驗。
然而,Vision Pro的市場反應充滿爭議。一方面,蘋果在技術上有所創(chuàng)新,但另一方面,其應用場景尚不明確,面向的用戶群體存在很大爭議。此外,高昂的價格也讓不少消費者猶豫不決。
2024年2月15日,農歷大年初六,OpenAI發(fā)布了其首個AI視頻生成模型Sora,標志著一個歷史性的里程碑。OpenAI在視覺領域實現了類似于大型語言模型的重大突破,無疑將在視覺生成領域引發(fā)一場重大的技術和商業(yè)革命。
但似乎Sora只在2024年的頭和尾出現,其間并沒有讓用戶感受到這款文生視頻應用的價值,還是讓人們有些失望的。
三月
3月18日,人工智能(AI)芯片龍頭廠商英偉達在美國加州圣何塞召開了GTC2024大會,正式發(fā)布了面向下一代數據中心和人工智能應用的“核彈”——基于Blackwell架構的B200 GPU,將在計算能力上實現巨大的代際飛躍,預計將在今年晚些時候正式出貨。同時,英偉達還帶來了Grace Blackwell GB200超級芯片等。
英偉達創(chuàng)始人兼CEO黃仁勛表示,Blackwell構架B200 GPU的AI運算性能在FP8及新的FP6上都可達20 petaflops,是前一代Hopper構架的H100運算性能8 petaflops的2.5倍。在新的FP4格式上更可達到40 petaflops,是前一代Hopper構架GPU運算性能8 petaflops的5倍。
同樣在3月,在微軟舉辦的Microsoft 365 Copilot發(fā)布會上,微軟正式把OpenAI的GPT-4模型裝進了Office套件,推出了全新的AI功能Copliot。
這也意味著,Microsoft 365 Copilot集成在了大家每天都會使用的Word、Excel、PowerPoint 中,它會幫你處理所有瑣事,而你只需專注于最重要的工作中。
四月
在4月9日倫敦舉行的一次活動中,Meta確認計劃在下個月內首次發(fā)布LLaMA 3。據稱,該模型將有多個具有不同功能的版本。
而據科技外媒報道,作為對標GPT-4的大模型,LLaMA 3的大規(guī)模版本參數量可能超過1400億,而最大的LLaMA 2版本的參數量為700億。LLavMA 3將支持多模態(tài)處理,即同時理解和生成文本及圖片。
值得注意的是,LLaMA 3將延續(xù)Meta一直以來的開源路線。目前,開源模型界的競爭正在變得愈發(fā)激烈,開源大模型亦進化得越來越強大。
五月
2024年5月8日,谷歌DeepMind與IsomorphicLabs 聯合在《自然》期刊上發(fā)布蛋白質領域最新人工智能模型AlphaFold 3!這一模型能夠準確預測蛋白質、DNA、RNA 以及配體等生命分子的結構及其相互作用方式。
在預測類藥物相互作用方面,AlphaFold 3實現了前所未有的準確度,包括蛋白質與配體的結合以及抗體與其靶蛋白的結合。在PoseBusters的基準測試中,AlphaFold 3的準確率比現有最佳傳統(tǒng)方法高出 50%,而且無需任何結構信息輸入,成為首個超越傳統(tǒng)物理預測工具的人工智能系統(tǒng)。這種預測抗體與蛋白質結合的能力,對于理解人類免疫反應的各個方面以及新抗體的設計至關重要。
當地時間5月13日,OpenAI通過直播展示了產品更新。與此前傳出的市場消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本,聚焦多模態(tài)和端側應用。
據介紹,GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。
六月
6月11日,WWDC 2024正式拉開帷幕。在本次發(fā)布會上,蘋果一如既往地發(fā)布了iOS 18、iPadOS 18、macOS 15等軟件系統(tǒng),而萬眾矚目的「蘋果AI」也隨著這些系統(tǒng)正式展現在了大眾面前,蘋果將其命名為Apple Intelligence。
Apple Intelligence是一款適用于 iPhone、iPad 和 Mac 的個人智能系統(tǒng),它將生成模型的強大功能與個人情境相結合,提供非常有用且相關的智能。
當地時間6月13日,特斯拉舉行了股東大會,馬斯克承諾:特斯拉將在2025年開始“限量生產”擎天柱機器人,并于明年在自己的工廠測試仿人機器人。馬斯克預測,明年將有“1000多個或數千個擎天柱機器人在特斯拉工作?!?/p>
馬斯克對Optimus機器人的市場前景充滿信心,他指出,當前擬人機器人市場年產高達10億臺,特斯拉計劃至少占據其中的10%份額。
八月
8月6日,獲OpenAI、微軟、英偉達等投資的人形機器人初創(chuàng)公司Figure AI發(fā)布了第二代人形機器人Figure 02,并介紹道:“這是地球上最先進的AI硬件,距離向工業(yè)用戶銷售量產人形機器人的目標又近了一步?!?/p>
與一代機器人相比,Figure 02在硬件和軟件上均有重新設計,人工智能、計算機視覺、電池、傳感器和執(zhí)行器等關鍵技術有所升級。據悉,Figure 02已在寶馬斯帕坦堡工廠的生產線上進行測試,執(zhí)行部件放置任務。
九月
9月10日,2024年蘋果秋季新品發(fā)布會正式召開,會上發(fā)布了iPhone 16。iPhone 16是首款搭載蘋果人工智能的手機,所以iPhone 16系列的芯片也大幅增強了AI方面的性能。iPhone16系列搭載蘋果A18芯片系列,相比iPhone 15采用的A16仿生芯片,A18系列芯片性能實現跨代提升,CPU速度最高提升30%,GPU速度最高提升40%。
蘋果表示,iPhone 16系列為蘋果智能而設計,利用蘋果芯片和蘋果設計的生成式模型結合用戶個人情境,實現實用且與iPhone用戶高度相關的智能功能,蘋果智能可協(xié)助用戶輕松寫作、表達自我、處理各種事務。
9月,Meta在Connect大會發(fā)布了一款原型產品Orion,再次將AR眼鏡的未來拉近現實。作為全球首款真無線AR眼鏡,Orion拋棄了傳統(tǒng)笨重的線纜,實現了輕量化和高算力,成為AR硬件發(fā)展史上的一個重要里程碑。
Orion的分體式無線設計是最大的亮點——眼鏡本體搭配手勢追蹤腕帶和計算模塊,通過無線連接實現強大的空間計算能力。加上70度視場角的波導顯示和自然的人機交互,它展示了真無線AR眼鏡的無限可能。
十月
2024年10月11日,特斯拉召開主題為“We,Robot”的Robotaxi演示活動,發(fā)布了名為Cybercab的Robotaxi。整場活動,馬斯克一共展示了三個產品:Robotaxi、Robovan、Tesla Bot,以及自動駕駛方面的新動態(tài)。
另外,這次發(fā)布會,看起來演示的依然是Optimus Gen2,馬斯克也沒有明確表示它是否是新的Optimus。它在現場絲滑跳舞,并在現場為客人調酒。馬斯克表示,未來人形機器人可以做很多日常工作,當未來成本降到兩三萬美元的時候,會比車更便宜,相信全球80億人都會想要它。
十二月
當地時間12月5日—20日,人工智能巨頭OpenAI完成了連續(xù)12個工作日的12場直播,從首日的滿血版o1模型重磅發(fā)布,再到期待許久的Sora Turbo正式發(fā)布,最終又以新一代推理模型o3收官,OpenAI CEO山姆·奧特曼(Sam Altman)還在四場直播中現身站臺,我們似乎離AGI(Artificial General Intelligence,通用人工智能)又更近了一步。
這次連續(xù)12天直播的噱頭是OpenAI將焦點轉向其技術并為其產品造勢的一種方式。這是公司積極發(fā)展計劃的一部分,因為它要與創(chuàng)業(yè)公司和科技巨頭爭奪生成式人工智能市場的更大份額。
與此同時,谷歌DeepMind首席科學家Jeff Dean宣布推出全新測試模型——Gemini 2.0 Flash Thinking。Dean通過一段視頻展示了該模型如何解答物理問題,并提供解決方案。
該模型可以通過可視化的方式展示整個思維鏈過程,可以持續(xù)輸出推理過程,而不是直接給出答案。谷歌CEO桑達爾·皮查伊(Sundar Pichai)在社交平臺上分享道,“這是我們到目前為止,經過最多仔細研究和設計推出的模型?!?/p>
寫在最后
不難發(fā)現,2024年,AI落地應用開始深度與廣度并存,既有在特定領域的深耕細作,也有跨領域的融合創(chuàng)新。同時,應用場景逐步多樣化,AI已經無處不在。此外,AI對行業(yè)賦能的效果愈發(fā)顯著,無論是提升效率、降低成本,還是優(yōu)化體驗、拓展應用,AI都展現出了強大的價值創(chuàng)造力。
未來,人工智能行業(yè)的發(fā)展將更加注重技術的深度融合、應用的廣度拓展與價值的深度挖掘。隨著技術的持續(xù)進步與應用場景的不斷創(chuàng)新,AI將在更多領域展現出其無限潛力與巨大價值。而那些能夠緊跟時代步伐、勇于創(chuàng)新實踐的企業(yè)與項目,無疑將成為引領行業(yè)發(fā)展的佼佼者。