文|經(jīng)緯創(chuàng)投
頂著壓力開發(fā)布會是一種什么樣的體驗?
「代表谷歌為開發(fā)者提供所有服務」的谷歌I/O來到第16年。去年的I/O帶來了Gemini,今年帶有火藥味的發(fā)布會則更加值得期待。被競爭對手忌憚已久的谷歌,能否超越前一天剛剛截胡發(fā)布的ChatGPT-4o?
發(fā)布會現(xiàn)場,谷歌帶來了可以實時理解鏡頭世界的多模態(tài)Agent助手Astra、搜索業(yè)務來了一次徹底的AI化改造、Gemini系列模型卷起了長文本、效果超過Sora的視覺模型Veo……谷歌一口氣拿出來十余款AI新品,勢必要掙回這口氣。
但就連llya也來搶谷歌風頭。凌晨,OpenAI首席科學家Ilya Sutskever在X發(fā)布自己離開OpenAI消息,稱“我決定離開 OpenAl。再見,感謝你們所做的一切。我很期待接下來的計劃--這個項目對我個人來說意義重大,我會在適當?shù)臅r候分享細節(jié)?!?/p>
谷歌的反抗只是一個序幕,硅谷將進入競爭異常激烈的AI月。在這之后,微軟2024Build年度大會、英偉達季度財報、蘋果2024年度開發(fā)者大會陸續(xù)到場,這個“AI月”注定不一般。那么,高強度下的硅谷,“不(強迫)加班文化”現(xiàn)狀如何?各家巨頭都打的什么算盤?有哪些發(fā)布值得期待?以下,Enjoy:
01 Google I/O 帶來哪些新花樣?
前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么樣的產(chǎn)品翻盤呢?
Gemini模型家族
關于Gemini的具體信息,是由Deepmind的CEO Demis Hassabis上臺介紹。這也是這位傳奇人物第一次Google I/O演講。
谷歌宣布Gemini 1.5 Pro升級到200萬tokens,并全面支持Workspace,同時Gemini 1.5 Pro將面向全球開發(fā)者開放。新版本長度再次刷新,達到200萬tokens。
除了能生成創(chuàng)意文本、代碼外,Gemini 1.5 Pro最大的特色是能根據(jù)用戶輸入的文本提示,理解、總結上傳的視頻、音頻內(nèi)容進行深度總結。谷歌同時面向開發(fā)者推出支持200 萬 tokens的 Gemini 1.5 Pro 模型的預覽,并表示最終的目標將是 " 無限上下文 "。
關于大模型 API 的最新定價,其中 Gemini 1.5 Pro 定價為 7 美元 /100 萬 Tokens,12.8K 上下文窗口的版本定價為 3.5 美元 /100 萬 Tokens;而 Gemini 1.5 的起售價為 0.35 美元 /100 萬 Tokens。
此次推出的Gemini 家族的新成員,則是針對端側的模型Gemini 1.5 flash,同樣有100萬和200萬token的版本。哈薩比斯曾說,谷歌之所以創(chuàng)建 Gemini 1.5 Flash,是因為開發(fā)人員需要一個比谷歌今年 2 月發(fā)布的 Gemini 1.5 Pro 更輕便、更便宜的模型。
谷歌展示的" 未來的人工智能助手 ",也是被OpenAI狙擊的項目——"Astra" ,可以通過用戶打開的攝像頭識別物體,與用戶實時語音交互。
哈薩比斯表示,這樣的 AI 助手需要像人類一樣理解這個動態(tài)且復雜的世界。需要記得住它看到的東西,這樣才能理解對話并付諸于行動。同時它也得能積極主動接受教導,以及自然、無延遲地進行交流。在演示視頻中,谷歌的 AI 助手能夠通過攝像頭視頻,識別 " 什么東西能發(fā)出聲音 "、" 現(xiàn)在身處何地 " 等指令。
演示視頻中,官方還展示了Astra與AR眼鏡相結合的效果。戴上眼鏡后,Astra的回答會實時顯示在眼前,比如幫助修改白板上的流程圖時,會用箭頭指出修改位置。
此外,谷歌還發(fā)布了開源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個多模態(tài)版本。
多模態(tài)生成模型
面對OpenAI的圍獵,Google針對Sora發(fā)布了一款全新的視覺模型Voe。谷歌還表示,Veo 具有對自然語言和視覺語義的高級理解能力,能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準確呈現(xiàn)詳細的長提示并捕捉情感。Veo甚至還能理解電影術語,如“延時”或“航拍鏡頭”。
用戶僅需寫出文本提示即可生成視頻,比如文本提示:"一艘宇宙飛船在浩瀚的太空中穿梭,星星劃過,高速,科幻。"
當你輸入" 在寧靜的山地平移鏡頭,相機慢慢露出白雪皚皚的山峰、花崗巖巖石和倒映天空的清澈湖泊。 ",可以得到如下的效果。
在Voe的展示中,用戶可以通過點擊擴展,而繼續(xù)增加視頻生成的時長,并且可以保持一致性。
此外,谷歌還發(fā)布了文生圖像模型Imagen 3。從細節(jié)擬真度來看與Midjourney v6能達到同一級別,比起Dalle-3更勝一籌。而且在對細節(jié)的跟隨上也要更細致;音樂生成方面,谷歌給Lydia增加了新拓展 Music AI Sandbox。
AI搜索,25年來最大的更新之一
谷歌正式推出了“AI Overviews”搜索體驗,將于本周開始向美國地區(qū)開放,后續(xù)會推廣到更多國家和地區(qū)。這應該是其搜索引擎 25 年來最大的更新之一。
谷歌搜索業(yè)務負責人 Liz Reid 開始具體介紹 AI Overviews 功能。Reid 表示,在進行搜索時,搜素引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優(yōu)惠報價,和距離特定位置的步行時間。這個 AI 搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問(例如視頻中的相機怎么使用)。
谷歌還介紹了AI搜索的計劃能力。用戶可以直接在搜索里獲得一個完整的計劃。比如搜索類似“為一群人創(chuàng)建一個易于準備的三天餐飲計劃”,您將獲得一個起點,包含來自網(wǎng)絡各處的各種食譜。這是其他搜索軟件暫時還沒有專精的能力。
此外,靠Gemini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。在搜索時,你可以通過視頻提問,比如錄一段視頻問道:“為什么這個放不上去?”
谷歌全家桶AI能力升級
結合Gemini的Workspace。你可以通過 Side Panel(一個能喚起Gemini的側邊欄)功能總結一系列郵件,可以總結你的賬單,形成一個Sheet。
“Ask Photo”更新后可以與照片進行對話。比如,你可以問Photo app,“我的汽車牌照是多少”。然后Gemini就在照片里尋找出來你的車告訴你答案。
谷歌 Gemini 總經(jīng)理 Sissie Hsiao 介紹了 Gemini App 的更新。與周一的 OpenAI 一樣,從今年夏天開始,Gemini 也將支持語音實時交互,同時今年晚些時候還將上線實時視頻交互功能。未來幾個月內(nèi),谷歌也將推出類似于 GPTs 的自定義 AI 助手功能。
在安卓系統(tǒng)方面,谷歌將實現(xiàn)的" 三大突破 ",分別是 " 畫圈圈搜索 "、Gemini 手機 AI 助手,第三是在手機本地運行的 AI。
谷歌表示,今年晚些時候,能夠在本地運行的多模態(tài) Gemini Nano 模型將登陸 Pixel 手機,意味著手機將能通過文字、圖片、視頻、音頻,理解用戶的世界。
發(fā)布會現(xiàn)場,谷歌宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,并表示將于今年晚些時候推出交付。
作為發(fā)布會最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 總結了今天的發(fā)布會稿子里總共提了多少次 AI —— 121 次。
02 谷歌的護城河有多深?
在當今這個AI 時代,Google的危機愈來愈重。
但身在谷歌的人未必如此認為。
作為谷歌的員工,Zellweger一開始加入谷歌就是為了從事注定失敗的 Daydream 頭盔的工業(yè)設計,后來他又轉到了 Pixel 硬件團隊。
在他看來,“受CEO影響,從公司的角度來看,我們需要成功,這種壓力是存在的,制造硬件已經(jīng)從一種愛好變成了 Google 業(yè)務的關鍵元素?!?/p>
而谷歌CEO本人桑達爾·皮查伊在采訪中的回答,流露出對谷歌護城河的自信。
早在2016年,他正式擔任谷歌CEO,以此身份發(fā)布了第一封致股東信。信中,他說:
“我們將從移動優(yōu)先走向人工智能優(yōu)先的世界?!?/p>
似乎一直被認為落后的谷歌暗地里早有準備?;蛘呖鋸垇碇v,AI的第一波浪潮,還是谷歌掀起的水花。然而,不少網(wǎng)友仍然調(diào)侃其為“起了個大早,趕了個晚集”。
谷歌的“保守”對于稱霸來說,很難,但作為護城河而言,足夠用。
每個時代、每個公司,都或多或少在管理和員工身上多下功夫。能夠讓谷歌與眾不同的地方,還在于獨到的員工成長文化。
谷歌創(chuàng)始人拉里·配齊和謝爾蓋·布林曾倡導“20%時間”文化,允許員工將工作20%的時間用以個人興趣和創(chuàng)新當中,希望用創(chuàng)造力支撐發(fā)言權,這無疑可以篩選一批有活力的開放員工。正如英特爾前CEO安迪·格魯夫所說,“只有偏執(zhí)狂才能生存。”
針對近日廣受挑戰(zhàn)的搜索引擎,皮查伊也有自己的看法。 谷歌搜索的獨特之處在于,即使有時會直接給出答案,但我們始終會鏈接到各種來源。
多年來,谷歌一直在搜索中提供直接的答案?,F(xiàn)在的模式入手,我們只是借助生成式人工智能在實現(xiàn)這一點。
鏈接功能將一直存在,理解并滿足這些多樣化的需求,正是搜索的真正魅力所在。
他還曾就搜索質量面臨的質疑進行正面回答:
技術或行業(yè)發(fā)生變革,伴隨著大量新內(nèi)容的涌現(xiàn),人工智能領域亦然。谷歌會把它當成一項挑戰(zhàn)。我堅信,成功應對這種挑戰(zhàn)將重新定義高質量的產(chǎn)品,這將是搜索取得成功的關鍵。谷歌深知被給予了很高的期望,我們也清楚需要為此承擔的責任。
當被問道相較GPT,谷歌似乎錯失了許多重要機會時,皮查伊表示:
從長遠的視角看待這個問題,互聯(lián)網(wǎng)興起時,谷歌甚至還不存在,對吧?
谷歌是第一家專注于搜索的公司。
谷歌是第一家推出電子郵件服務的公司。
谷歌是第一家開發(fā)瀏覽器的公司。
因此,我認為人工智能領域也正處于其最早期的階段。
當然,皮查伊也清楚地知道,對所有公司,尤其是那些規(guī)模龐大的企業(yè)來說,最大的潛在威脅就是執(zhí)行力不足。
03 進入AI月,每個玩家生怕落后,大模型大招不斷,大牛紛紛炫技
從5月10日到6月10日,AI領域的玩家接連上陣,發(fā)新品、更新財報,給開發(fā)者和投資者們貢獻一場場精彩絕倫的科技盛宴。
硅谷大牛們似乎從不懈怠,一個接著一個的炫技……
就在谷歌的I/O開發(fā)者大會2024前一天,OpenAI一夜改寫歷史,在發(fā)布會上閃亮官宣了新產(chǎn)品:GPT-4o。就連發(fā)布會本身都是AI在開,難分真假的CTO Mira Murati意味著OpenAI朝著更加自然的人機交互邁進。
微軟也不甘示弱,5月21日,微軟將舉辦2024 Build年度開發(fā)者大會。
根據(jù)官方公布的信息,兩場分論壇將分別聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。
其中,“下一代Windows on Arm”分論壇將著重介紹有關應用程序“行業(yè)領先性能”的詳細信息,以及“Arm驅動的Windows的新體驗”,例如采用NPU功能的智能Windows應用程序,可能包括更多的Windows AI功能。
此外,微軟還將詳細介紹Windows開發(fā)者體驗方面的一些改進。
AI之外,明星產(chǎn)品Copilot可能將成為2024微軟Build年度開發(fā)者大會的重點議題之一。
一場振奮人心的技術革新,說不定又將在一夜之間誕生。
緊接著的下一天,英偉達將于5月22日公布一季度財報。
借著AI浪潮,“賣鏟人”英偉達財報表現(xiàn)一直頗為亮眼,今年年初公布的財報更是展現(xiàn)了強勁的收入和凈利潤增長。而在市場的表現(xiàn)上,據(jù)市場研究機構 Trendforce 最新報告顯示,英偉達已經(jīng)超越高通,成為 2023 年全球收入最高的芯片設計廠商。
雖然英偉達發(fā)布財報當天不會透露太多新品動作,但市場上流傳了不少消息——據(jù)《經(jīng)濟日報》報道,業(yè)內(nèi)傳聞,手機芯片大廠聯(lián)發(fā)科正攜手AI芯片大廠英偉達(NVIDIA)開發(fā)基于Arm架構的AI PC處理器,預計將在今年三季度完成設計定案(tape out),第四季度進入驗證,售價或將高達300美元。
大差不差、緊隨其后的蘋果也有秘密武器?6月10日至6月14日,蘋果將舉行年度全球開發(fā)者大會(WWDC)。
在AI潮席卷全球的時候,蘋果不斷調(diào)整自身戰(zhàn)略以期追趕時代潮流,但效果總是不盡如人意。
MR頭顯Vision Pro被寄予蘋果近十年來開辟新品類的希望,但首發(fā)美國后的反響不佳。不及市場預期的出貨量和后期疲軟的用戶需求,給蘋果潑了一盆冷水。
而另一個備受矚目的電動汽車項目也被取消,部分員工將轉移到蘋果的人工智能(AI)部門。而生成式人工智能項目,正是公司日程表里愈發(fā)重要的事項。
可以看到,蘋果對于AI的焦慮和急迫。
蘋果全球營銷高級副總裁Greg Joswiak在X上表示:“請在日歷標記上WWDC24吧。這場活動將絕對震撼!”這里的彩蛋是,Joswiak特意把“Absolutely Incredible(絕對不可思議)”的首字母拼成大寫,合起來就是當下最火的科技概念——AI。
04 硅谷加班卷瘋了,鐵打的程序員、流水的加班線?
改編《北京人在紐約》中一句經(jīng)典臺詞描述硅谷,似乎毫無爭議:「愛TA,就把TA送到硅谷;恨他,也把他送到硅谷。」
高薪、高自由度的硅谷,既被奉為「Work Life Balance」的自由天堂,也被認為是「加班文化」最強的“內(nèi)卷”集中地。硅谷公司不強迫加班,原因很簡單:加班無法與工作質量劃等號。同時,硅谷公司不缺少加班,原因同樣簡單:上班無法脫離工作狂的生活獨立存在。
GPT的到來,讓硅谷的「卷」文化更上一層樓。
只不過這次技術迭代,傷害的大多數(shù)是工程師。如同英偉達CEO黃仁勛所說,AI正位于iPhone時刻。整個硅谷都在壓力中爆發(fā),試圖在發(fā)布上與對手分出毫厘之勝。
一位硅谷員工甚至將這種狀態(tài)概括為“邊飛、邊造飛機”。
亞馬遜的工程師也是如此。美好的周末計劃被一條Slack消息打破。夜以繼日地加班,結果卻是項目優(yōu)先級降低。幾千行代碼付諸東流。
專家們無時無刻不在緊急開發(fā)的功能、軟件,讓工程師的心也跟著跌宕起伏。項目順利則功成名就;項目叫停則進度歸0。這便是此時此刻的「硅谷狀態(tài)」。不少工程師陷入職業(yè)倦怠,隨之揭開了AI熱不為人知的另一面:很急,但不知道在急什么。
抱怨聲的出現(xiàn)不會暫停巨頭公司的任何決定。
微軟首席財務官Amy Hood曾表示,公司正在調(diào)整人手,將優(yōu)先專注AI,并且優(yōu)先投資AI。因為,未來十年的關鍵因素。
Meta CEO扎克伯格也是如此,他認為,未來幾年,應該大力投資、開發(fā)更先進的模型和世界上規(guī)模最大的AI服務。
亞馬遜CEO Andy Jassy鼓勵投資者增加對生成式AI的資本投入,他認為,技術領域很少見到如此的機會,甚至從互聯(lián)網(wǎng)問世以來。
速度的加持下,匆忙的產(chǎn)出、單薄的人力偶爾也會導致翻車,Gemini的倉皇下線、Bard的備受質疑,都是如此。
對比之下,谷歌的上班文化,也走著相似的硅谷風。谷歌鼓勵「不加班」,但要求「on call」。這意味著需要你的時候,你就要在。不少局外者將這種模式稱為超越「996」的「24*7」。
天堂與地獄的區(qū)別,似乎區(qū)別在于工作是否只是工作本身。如果作為興趣,如果成為生活,似乎越“虐”越有“事業(yè)感”。
本質上,每個人的工作觀不同,加班狂屢見不鮮,朝九晚五、渴望下班的打工人更是擁有自己的快樂。
然而,在硅谷,「卷」已經(jīng)成為囊括大多數(shù)程序員的形容詞,也是當下AI競賽的真實寫照。
現(xiàn)在,每一次發(fā)布會似乎都成了一場無聲的較量。
科技巨頭們像商量好了一樣你追我趕,都想以各自的創(chuàng)新技術證明自身、搶得一份里程碑式成就。“百模大戰(zhàn)”時期的到來,在高強度壓力中全面釋放了AI的潛力,也讓每一位“姍姍來遲”的公司,都可能成為最終的贏家。因此,每一次突破,都不容錯過。
一切革命性時刻,都值得拭目以待。
參考文獻:
1. 硅谷AI工程師內(nèi)卷崩潰記:996寫代碼項目被砍,連續(xù)熬夜只為討好投資人!by新智元
2.科技界的“AI月”即將開啟!OpenAI、谷歌、微軟等巨頭將帶來哪些顛覆性體驗和期待?by每日經(jīng)濟新聞
3.谷歌CEO最新訪談:AI浪潮仍處于早期階段,公司未來最大威脅是執(zhí)行力不足(視頻+實錄) by騰訊科技
4.獨家專訪谷歌CEO桑達爾·皮查伊:基于我的個人經(jīng)歷,我一直相信人和人性 by DeepTech深科技
5.谷歌的這場活動已經(jīng)辦了16年,為何它叫I/O?by科技行者
6.跟 OpenAI 爭奪「iPhone 合作權」的 Google,后天要發(fā)布什么才能 「彎道超車」 by愛范兒
7.谷歌一夜亮出十幾款產(chǎn)品對陣OpenAI:什么都有,只是沒有驚喜 by騰訊科技