AI爬蟲(chóng)“狂啃”維基媒體資源,運(yùn)營(yíng)開(kāi)支壓力山大?
近期,維基媒體基金會(huì),這一運(yùn)營(yíng)著全球知名在線百科全書(shū)維基百科的非營(yíng)利組織,透露了一項(xiàng)令人關(guān)切的運(yùn)營(yíng)挑戰(zhàn)。該基金會(huì)在一篇博文中指出,專為AI訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲(chóng)活動(dòng)正對(duì)其造成前所未有的運(yùn)營(yíng)開(kāi)支壓力。
維基百科的關(guān)聯(lián)項(xiàng)目——維基共享資源,作為一個(gè)龐大的多媒體資料庫(kù),長(zhǎng)期以來(lái)吸引著各類用戶。然而,自2024年初以來(lái),從該平臺(tái)下載多媒體內(nèi)容的帶寬使用量激增了50%,這一增長(zhǎng)主要由自動(dòng)化程序驅(qū)動(dòng),而非傳統(tǒng)的人類用戶行為。
維基媒體基金會(huì)以往能夠有效應(yīng)對(duì)突發(fā)事件引發(fā)的人類用戶流量高峰,但AI時(shí)代網(wǎng)絡(luò)爬蟲(chóng)活動(dòng)的頻繁加劇,正逐漸侵蝕其系統(tǒng)冗余,迫使基金會(huì)將寶貴的時(shí)間和資源投入到應(yīng)對(duì)非人類流量上。這不僅影響了用戶體驗(yàn),也增加了運(yùn)營(yíng)成本。
基金會(huì)的數(shù)據(jù)存儲(chǔ)策略是,低頻內(nèi)容存放在核心數(shù)據(jù)中心,而高頻內(nèi)容則在更靠近用戶的數(shù)據(jù)中心備份。然而,網(wǎng)絡(luò)爬蟲(chóng)的“遍歷式”查詢模式導(dǎo)致大量流量涌向核心數(shù)據(jù)中心,從而推高了流量成本。據(jù)統(tǒng)計(jì),盡管機(jī)器人瀏覽量?jī)H占總體的35%,但它們卻消耗了核心數(shù)據(jù)中心65%的流量資源。
更令人擔(dān)憂的是,這些自動(dòng)爬蟲(chóng)不僅訪問(wèn)了公開(kāi)資源,甚至還試圖訪問(wèn)維基媒體基金會(huì)開(kāi)發(fā)環(huán)境的關(guān)鍵系統(tǒng),如代碼審查平臺(tái)和錯(cuò)誤跟蹤器,這進(jìn)一步加劇了安全風(fēng)險(xiǎn)和運(yùn)營(yíng)負(fù)擔(dān)。
維基媒體基金會(huì)強(qiáng)調(diào),盡管其提供的所有內(nèi)容是免費(fèi)的,但維護(hù)這些內(nèi)容的基礎(chǔ)設(shè)施并非無(wú)成本?;饡?huì)呼吁建立一個(gè)負(fù)責(zé)任、可持續(xù)的基礎(chǔ)設(shè)施使用規(guī)范,以避免“公地悲劇”的重演,即公共資源因過(guò)度使用而遭受破壞。
面對(duì)這一挑戰(zhàn),維基媒體基金會(huì)正積極尋求解決方案,以確保維基百科及其姊妹項(xiàng)目的持續(xù)健康發(fā)展。同時(shí),該基金會(huì)也呼吁社會(huì)各界關(guān)注并支持其工作,共同維護(hù)這一寶貴的全球知識(shí)共享平臺(tái)。
為了應(yīng)對(duì)日益增長(zhǎng)的自動(dòng)化訪問(wèn)需求,維基媒體基金會(huì)也在探索技術(shù)創(chuàng)新,如優(yōu)化數(shù)據(jù)存儲(chǔ)策略、提升系統(tǒng)冗余度以及加強(qiáng)安全防護(hù)措施等,以期在保障用戶體驗(yàn)的同時(shí),有效控制運(yùn)營(yíng)成本。
發(fā)表評(píng)論
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...