問:我網(wǎng)站最近連續(xù)多天百度蜘蛛突然不來抓取爬行,去百度站長工具查看抓取異常有服務(wù)器錯誤返回5XX、服務(wù)器拒絕訪問返回403、頁面不存在404和其他各類4XX錯誤。請幫忙排查處理。之前曾經(jīng)設(shè)置過http301跳轉(zhuǎn)https,不知道是不是這個操作中產(chǎn)生了什么意外?,服務(wù)器訪問錯誤和拒絕
答:您好
問:首頁是沒有問題的。 我看過之前的網(wǎng)站日志,有問題的是眾多內(nèi)頁和http跳轉(zhuǎn)https導致的。
答:您好:
請在下站長平臺模擬抓取試一下,并截圖反饋到本工單,我司將根據(jù)反饋的信息分析處理,非常感謝您長期對我司的支持!
問:
答:您好:
問:
答:您好,我們查看了網(wǎng)站本身是正常的,我們查看您的https訪問是有異常的,您網(wǎng)站內(nèi)部加載好http,提示有風險,不確認是不是因為這個原因會影響抓取,請您先檢查下網(wǎng)站內(nèi)部加載,把調(diào)用http的圖片地址都改成https,修改以后過一會再抓取試下,非常感謝您長期對我司的支持!
問:從您截圖的信息看,是不是說把我內(nèi)部的圖片鏈接全部從http改為https就可能解決問題?
答:您好,不能確定是不是這個問題,但現(xiàn)在最起碼您網(wǎng)站確實有這個問題,訪問也不友好,您修改后過一會再去抓取診斷看看,非常感謝您長期對我司的支持!
問:我查看到自己內(nèi)頁https://www.jiadunfood.com/cat-products/ 中有一些是http的鏈接,例如http://www.jiadunfood.com/cat-rusuanjun/31047.html 打開后雖然能自動跳轉(zhuǎn)為https,但是經(jīng)過工具查詢反饋是403(forbidden request).會不會是因為上一個工單您幫我做過http跳轉(zhuǎn)https規(guī)則有問題? 我這邊聯(lián)絡(luò)過網(wǎng)站程序商也幫我做過一次跳轉(zhuǎn),怕是重復(fù)沖突了吧?
答:您好,鏈接的狀態(tài)是301的,并非403,您那個檢測應(yīng)該是說https://www.jiadunfood.com/cat-products/ 這個鏈接里面加載的http狀態(tài)是403,https本身加載http就是會被認為不安全,所以才會讓您將鏈接全部跳轉(zhuǎn)為https。
另外關(guān)于百度抓取的問題,我們后續(xù)做了測試,發(fā)現(xiàn)是百度自己的問題,我們測試了一些我們員工自己的網(wǎng)站,發(fā)現(xiàn)也是提示抓取socket錯誤,包括服務(wù)器在其他公司的網(wǎng)站,也都有這個提示,所以抓取的問題應(yīng)該是百度自身的問題,建議過一段時間再查看,非常感謝您長期對我司的支持!
問:感謝您的熱心解答,我已經(jīng)處理掉內(nèi)部http。我觀察網(wǎng)站日志,發(fā)現(xiàn)搜索引擎蜘蛛爬行的url居然是很多個重復(fù)域名組成的!會不會是301重定向發(fā)生了錯誤?如果跳轉(zhuǎn)后的鏈接超長或者連續(xù)跳轉(zhuǎn)的次數(shù)太多,就會發(fā)生重定向錯誤而導致蜘蛛抓取失敗。
答:您好,301是正常的,本身如果是從http訪問進來的,會通過301跳轉(zhuǎn)到https
截圖中出現(xiàn)多個url的情況,我司通過模擬搜索引擎訪問并未查看到此情況,建議是再觀察幾天搜索引擎的抓取情況,非常感謝您長期對我司的支持!