

網(wǎng)站崩潰、主機(jī)流量超標(biāo)?這些問題不僅嚴(yán)重影響正常運(yùn)營和用戶體驗(yàn),還直接推高了成本。背后的一大主因,正是日益流行的“AI機(jī)器人”。
AI機(jī)器人,它們爬取網(wǎng)站,要么訓(xùn)練大型語言模型,要么獲取內(nèi)容,以豐富推理時(shí)的模型響應(yīng)。Fastly報(bào)告中指出,AI爬蟲已占機(jī)器人流量的80%,而抓取機(jī)器人構(gòu)成了剩余的20%。
從AI爬蟲的流量趨勢來看,近幾個月Meta的爬蟲呈上升趨勢。大多數(shù)爬蟲流量波動明顯,有時(shí)難以察覺,有時(shí)卻突然飆升至平常的2–3倍,持續(xù)數(shù)日甚至數(shù)周。
雖然一些AI機(jī)器人表現(xiàn)良好,但對于一些沒有精心設(shè)計(jì)的AI機(jī)器人,可能會導(dǎo)致大量消耗帶寬和流量、未經(jīng)授權(quán)使用網(wǎng)站內(nèi)容以及網(wǎng)站分析失真。
這些大規(guī)模的AI爬蟲機(jī)器人可能會導(dǎo)致流量激增,帶來異常多的訪問量,占用流量和帶寬。如果沒有有效的控制措施,即使是短暫的活動突發(fā)也會導(dǎo)致網(wǎng)站速度變慢、超時(shí)或中斷。
而AI抓取機(jī)器人它們以極高速度抓取內(nèi)容,對未加防護(hù)的站點(diǎn)造成劇烈沖擊。報(bào)告中的案例,一個抓取器峰值請求可能達(dá)每分鐘39,000次,相當(dāng)于普通網(wǎng)站每分鐘遭受上千次請求,持續(xù)處于超載狀態(tài)。即便出于非惡意目的,高頻率請求也極易引發(fā)類似DDoS的效果,同時(shí)干擾數(shù)據(jù)分析、損害用戶體驗(yàn)。
因此,建議網(wǎng)站所有者在運(yùn)營過程中,監(jiān)控主機(jī)流量消耗情況,及時(shí)分析流量超標(biāo)原因和實(shí)施應(yīng)對措施。這樣才能更好避免AI機(jī)器人導(dǎo)致的主機(jī)流量異常過高的情況。
面對流量超標(biāo),如何快速定位與解決?以下是核心應(yīng)對方案。
一、流量監(jiān)控
「虛擬主機(jī)流量使用詳情」功能,提供近近12個月和近30天的流量統(tǒng)計(jì)圖,實(shí)時(shí)監(jiān)控流量波動,避免突發(fā)超額,快速定位異常。(功能詳情:http://www.ps-sw.cn/paas/vhost/flux)
云服務(wù)器可以在控制面板中觀察對比最近24小時(shí)和最近30天的流量變化情況。
二、流量超標(biāo)
分析解決思路:查看網(wǎng)站訪問統(tǒng)計(jì) - 結(jié)合訪問統(tǒng)計(jì)分析網(wǎng)站訪問日志 - 確定原因采取相應(yīng)措施。
1、查看網(wǎng)站訪問統(tǒng)計(jì)
(1)登錄到虛擬主機(jī)管理面板,點(diǎn)擊“訪問統(tǒng)計(jì)”和“流量分析”
(2)先查看訪問統(tǒng)計(jì),確定流量類型,包括瀏覽器和非瀏覽器。
(3)根據(jù)流量類型詳細(xì)查看訪問統(tǒng)計(jì)數(shù)據(jù):
A.瀏覽器流量占用高,可查看url網(wǎng)址、主機(jī)ip、搜索引擎機(jī)器人等統(tǒng)計(jì)數(shù)據(jù),以確定網(wǎng)站中是哪類文件,哪些url地址被大量訪問,以及是哪些IP,哪些蜘蛛等訪問量大。
B.非瀏覽器流量占用高,可查看http報(bào)錯碼,確定是什么狀態(tài)情況下產(chǎn)生的非瀏覽器流量。
2、分析網(wǎng)站訪問日志
根據(jù)網(wǎng)站訪問統(tǒng)計(jì)中按“按日期統(tǒng)計(jì)”數(shù)據(jù)找一天流量較大的日志下載至本地使用記事本編輯器打開對日志具體分析核實(shí)。
3、解決措施
(1)啟用「防盜鏈」功能
某類文件被外部盜鏈,導(dǎo)致主機(jī)流量被大量消耗,為避免不必要的流量消耗和潛在的安全風(fēng)險(xiǎn),建議啟用防盜鏈功能,僅允許您的域名訪問資源,阻止外部盜鏈。
虛擬主機(jī)防盜鏈設(shè)置:http://www.ps-sw.cn/faq/list.asp?unid=628
西部數(shù)碼虛擬主機(jī)系統(tǒng)會在當(dāng)天流量大于50G或當(dāng)天流量大于月流量30%的異常情況下,自動幫用戶啟用“防盜鏈”功能,以免異常流量過多。
云服務(wù)器防盜鏈流程:http://www.ps-sw.cn/faq/list.asp?unid=553
(2)虛擬主機(jī)可使用「請求限制」功能
網(wǎng)站流量出現(xiàn)突增,可能是由于AI機(jī)器人爬蟲和抓取,導(dǎo)致異常訪問過高,可使用「請求限制」功能,可以禁止境外訪問,或拒絕某些IP段的訪問,也可以限制單個IP同時(shí)訪問的數(shù)量等。
(3)屏蔽攔截蜘蛛抓。ㄌ摂M主機(jī)和云主機(jī)均適用)
其他某搜索引擎蜘蛛、IP、useragent等導(dǎo)致流量超標(biāo)異常的?赏ㄟ^web.config或.htaccess進(jìn)行攔截屏蔽。
apache、iis規(guī)則屏蔽攔截蜘蛛抓。http://faq.myhostadmin.net/faq/list.asp?unid=662
apache、iis屏蔽限制ip訪問:http://faq.myhostadmin.net/faq/list.asp?unid=681
如果是正常的搜索引擎蜘蛛訪問,不建議對蜘蛛進(jìn)行禁止,否則可能會影響網(wǎng)站在百度等搜索引擎中的收錄和排名。
(4)升級主機(jī)
正常訪問情況主機(jī)流量配置低導(dǎo)致超標(biāo)。如占用流量的文件類別、url網(wǎng)址、搜索蜘蛛、訪問IP等數(shù)據(jù)都較均衡,無明顯差異等。請升級主機(jī)至流量配額更大的型號,如獨(dú)享虛擬主機(jī)(流量配額較大),或不限流量的云服務(wù)器。
(5)圖片處理
網(wǎng)站頁面數(shù)據(jù)過大導(dǎo)致流量超標(biāo)。如首頁中加載的圖片過大,同時(shí)圖片設(shè)計(jì)過大等,可聯(lián)系網(wǎng)站程序方人員減少頁面的圖片數(shù),減小圖片大小等方式處理。
更多關(guān)于網(wǎng)站流量超標(biāo)排查和應(yīng)對措施,點(diǎn)擊查看:http://www.ps-sw.cn/faq/list.asp?unid=2452
參考報(bào)告:
https://learn.fastly.com/rs/025-XKO-469/images/Fastly-Threat-Insights-Report.pdf