问:
请问服务器是不是有类似反爬虫机制,我们目前有4个服务商无法正常获取到rss的数据。他们通过curl -v \’http://www.sun-edu.cn/zhiku/index.php?m=content&c=rss&rssid=6\’命令获取到的数据并非这个页面的数据!,http:www.sun-edu.cn服务器是否有反爬虫机制
答:您好,
请提供下useragent 名字我们测试下,我们直接curl 看到的是正确内容,您截图这个有点像是程序内被挂马了,非常感谢您长期对我司的支持!
问: user agent是什么东西呀?
答:您好,请提供下对方本地ip地址,我们通过日志核实对方访问记录看下,如果对方是直接curl -v请求的
那么日志里是这样记录的wangkepifa 127.0.0.1 – – [18/Feb/2019:14:04:36 0800] \”GET /zhiku/index.php?m=content&c=rss&rssid=6 HTTP/1.1\” 200 15822 \”-\” \”curl/7.29.0\” 127.0.0.1user-agent就是\”curl/7.29.0\”如果对方在请求时带上了user-agent为Baiduspider|Googlebot则会返回403,其他情况我司没有拦截,如果按您描述,出现了其他页面,要检查对方是否请求的命令问题,比如,没有用引号将url地址括起来,导致后面的参数丢失了引起,非常感谢您长期对我司的支持!
问:1、http://www.sun-edu.cn/rss.php
2、https://m.eransu.cn/rss.php两个地址内容一模一样,但是对方通过1链接无法正常获取到rss数据源,通过2链接可以正常获取到rss数据源。链接1是放到贵公司的虚拟主机,链接2是放在我们的服务器上。请核对西数这边2月1号左右是不是对服务器做了什么新的设置!
问:对方说把user-agent改成了谷歌浏览器同样无法获取到数据!
答:您好,核实该服务器开启了防火墙cc防护,已经关闭,请再测试,非常感谢您长期对我司的支持!
问:服务器错误
爬虫发起抓取,httpcode返回码是5XX。
为什么服务器老是出问题,这样下去不敢用了啊
答:您好,我们测试目前正常,请核实,非常感谢您长期对我司的支持.由此给您带来的不便之处,敬请原谅!谢谢!
问:服务器错误:爬虫发起抓取,httpcode返回码是5XX
答:您好,
非常抱歉,从主机的logs目录下的站点访问日志查询百度蜘蛛抓取的状态码是正常的,请您详细说明下您的测试方式,并提供下相关截图以便我司排查;非常感谢您长期对我司的支持!