文|三易生活
刻在石頭上的碑文會(huì)風(fēng)化、寫(xiě)在紙上的文字會(huì)腐朽,數(shù)千年以來(lái),如何保存知識(shí)始終是人類(lèi)文明的一大關(guān)鍵課題。直到互聯(lián)網(wǎng)的出現(xiàn),它成為了一個(gè)被認(rèn)為保存信息的絕妙載體,“互聯(lián)網(wǎng)是有記憶的”這句話(huà)在多年以前更是被奉為圭臬。然而時(shí)過(guò)境遷,“互聯(lián)網(wǎng)沒(méi)有記憶”已然成為大家公認(rèn)的事實(shí),如今谷歌的新動(dòng)作,則又加深了這一刻板印象。
近期,谷歌搜索公共聯(lián)絡(luò)人Danny Sullivan確認(rèn),谷歌方面將刪除所有搜索結(jié)果中的網(wǎng)頁(yè)快照/緩存鏈接,未來(lái)用戶(hù)將無(wú)法在搜索結(jié)果里點(diǎn)擊緩存來(lái)查看網(wǎng)頁(yè)被谷歌爬蟲(chóng)索引時(shí)生成的網(wǎng)頁(yè)快照。并且Danny Sullivan還透露,緩存操作符“cache:”預(yù)計(jì)也將會(huì)被移除。為此谷歌給出的解決方案,是在搜索結(jié)果中添加互聯(lián)網(wǎng)檔案館(The Internet Archive)的鏈接,以取代“關(guān)于本結(jié)果”部分的谷歌緩存鏈接。
但作為一家非營(yíng)利性組織,如今互聯(lián)網(wǎng)檔案館的日子也不太好過(guò),它在去年就先后面臨美國(guó)圖書(shū)出版商、唱片公司總計(jì)3.72億美元的天價(jià)索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶(hù)規(guī)模極為龐大。按照去年谷歌方面在數(shù)字服務(wù)法(DSA)要求下向歐盟報(bào)告的數(shù)據(jù)顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達(dá)3.32億。所以顯而易見(jiàn),互聯(lián)網(wǎng)檔案館的服務(wù)器不太可能及時(shí)緩存來(lái)自谷歌搜索抓取的網(wǎng)頁(yè)。
如此一來(lái),繼國(guó)內(nèi)市場(chǎng)的百度、搜狗、360之后,谷歌搜索也實(shí)質(zhì)上放棄了快照功能。關(guān)于為什么會(huì)突然不再提供搜索結(jié)果中的網(wǎng)頁(yè)快照、緩存,谷歌的說(shuō)法是其最初提供緩存鏈接選項(xiàng)主要為了幫助用戶(hù)可靠地訪問(wèn)網(wǎng)頁(yè),比如面對(duì)網(wǎng)頁(yè)無(wú)法加載時(shí),現(xiàn)在隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,許多網(wǎng)站已經(jīng)可以提供很好的可靠性,所以為了防止網(wǎng)頁(yè)打不開(kāi)而進(jìn)行的緩存,已經(jīng)沒(méi)有必要。
網(wǎng)頁(yè)緩存或者說(shuō)快照,其實(shí)可以理解為是一份網(wǎng)頁(yè)的副本,早期由于技術(shù)條件的限制,有相當(dāng)多的網(wǎng)站存在訪問(wèn)不穩(wěn)定的問(wèn)題,以至于會(huì)出現(xiàn)用戶(hù)通過(guò)搜索引擎的結(jié)果訪問(wèn)時(shí),發(fā)現(xiàn)網(wǎng)站無(wú)法打開(kāi),這時(shí)候快照的作用就出現(xiàn)了,它就好比給網(wǎng)頁(yè)拍了一張照片,讓用戶(hù)能夠從快照中找出網(wǎng)頁(yè)上的有用信息。
同時(shí),網(wǎng)頁(yè)通常并不是一成不變的,而是不斷增加、刪除、改動(dòng),為了保證用戶(hù)使用搜索引擎時(shí)總能找到需求的信息,搜索引擎的數(shù)據(jù)庫(kù)定時(shí)更新抓取的網(wǎng)頁(yè),就意味著當(dāng)某個(gè)網(wǎng)站刪除一個(gè)網(wǎng)頁(yè)后,數(shù)據(jù)庫(kù)里的網(wǎng)頁(yè)快照并不會(huì)立刻被刪除,而是要到下一次更新時(shí)才會(huì)同步。此外網(wǎng)頁(yè)快照還可以避免由于內(nèi)容太多,想要完整大量?jī)?chǔ)存網(wǎng)頁(yè)內(nèi)容時(shí)帶寬不夠的問(wèn)題,抓取快照可以以最少的帶寬就將其保存下來(lái)。
早期網(wǎng)絡(luò)基礎(chǔ)建設(shè)不建全、網(wǎng)速慢是常態(tài),再加上網(wǎng)站建設(shè)水平良莠不齊,技術(shù)不規(guī)范、不成熟等問(wèn)題,先不說(shuō)網(wǎng)站本身的體驗(yàn)如何,很多網(wǎng)站可能單單是打開(kāi)頁(yè)面都費(fèi)勁,于是搜索引擎為了保障用戶(hù)體驗(yàn),就搞出了快照這個(gè)功能。但隨著時(shí)間的推移,特別是云服務(wù)相關(guān)技術(shù)的跨越式發(fā)展,網(wǎng)站訪問(wèn)不穩(wěn)定的現(xiàn)象幾乎已經(jīng)成為了傳說(shuō),網(wǎng)頁(yè)無(wú)法打開(kāi)的情況也愈發(fā)罕見(jiàn),就使得快照功能存在的意義就沒(méi)有了。
要知道,互聯(lián)網(wǎng)上有數(shù)以百億計(jì)的網(wǎng)頁(yè),為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網(wǎng)頁(yè)以純文本的形式備份,其他資源,如樣式表和圖片等內(nèi)容不會(huì)被緩存。在聚沙成塔的情況下,過(guò)去二十余年間積累的快照對(duì)于服務(wù)器顯然已經(jīng)成為了一個(gè)不小的負(fù)擔(dān)。畢竟快照的存儲(chǔ)必然會(huì)產(chǎn)生服務(wù)器資源的占用,清空快照頁(yè)面就可以將釋放出來(lái)的空間挪至其它用途,從而達(dá)到“降本”的作用。
在如今全球互聯(lián)網(wǎng)廠商都采取“降本增效”的背景下,砍掉不影響核心體驗(yàn)的功能已經(jīng)是大趨勢(shì)。再加上AI搜索已然成為了趨勢(shì),當(dāng)用戶(hù)看到的是AI對(duì)于用戶(hù)需求信息的總結(jié),被索引的網(wǎng)頁(yè)主要起到類(lèi)似“文獻(xiàn)”的作用,以佐證AI總結(jié)內(nèi)容的可靠性時(shí),當(dāng)用戶(hù)在使用搜索引擎時(shí)不再需要打開(kāi)網(wǎng)頁(yè),保存網(wǎng)頁(yè)快照又有何用呢?
除了以上兩點(diǎn)外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過(guò)投訴快照來(lái)做排名,通過(guò)快照做收錄等,SEO從業(yè)者利用模擬點(diǎn)擊來(lái)繞開(kāi)算法,借助快照功能將隨意采集拼湊的垃圾站點(diǎn)快速排到首頁(yè)。于是乎,搜索結(jié)果頁(yè)的內(nèi)容質(zhì)量每況愈下,就逼得搜索引擎不得不將其權(quán)重降低。
甚至有些黑灰產(chǎn)團(tuán)隊(duì),還會(huì)使用SEO快照劫持來(lái)影響搜索引擎的正常排名。通過(guò)網(wǎng)站存在的漏洞或其它違規(guī)方式獲取網(wǎng)站后臺(tái)權(quán)限,再通過(guò)注入惡意代碼從而實(shí)現(xiàn)快照替換的目的。通常來(lái)說(shuō),黑灰產(chǎn)會(huì)給目標(biāo)網(wǎng)頁(yè)掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問(wèn)網(wǎng)頁(yè)的是不是搜索引擎的爬蟲(chóng),如果是爬蟲(chóng)程序則不做任何操作,讓搜索引擎正常抓??;如果判斷是用戶(hù),則會(huì)執(zhí)行JS跳轉(zhuǎn)代碼,將網(wǎng)站的正常頁(yè)面替換為惡意網(wǎng)頁(yè)。
所以當(dāng)一個(gè)功能用戶(hù)不再經(jīng)常使用、且需要消耗大量服務(wù)器資源,同時(shí)還可能會(huì)被黑灰產(chǎn)利用時(shí),百度、谷歌等搜索引擎將其關(guān)閉就再正常不過(guò)了。只可惜在沒(méi)有了快照后,注定就會(huì)有一大批網(wǎng)頁(yè)因?yàn)槿狈S護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。