用pyspider写爬虫,发现只要出现错误之后,所有的错误重试都不能够成功。猜测是因为每次重试都用的同一个代理。
代码部分如下
def on_start(self):
self.crawl(
'http://he.gsxt.gov.cn/notice/search/ent_announce_unit?announceType=0101&keyword=&pageNo={}&organ='.format(
1), callback=self.index_page, proxy=hc_proxy(),save={'page':1},headers=self.crawl_config['headers'],connect_timeout=60)
每次通过一个方法调用代理,给crawl进行爬取
最后的结果就变成这样了
对了我的代理情况是只能用一分钟,一分钟就失效了。
请教到底什么情况造成这样,自己去翻了源码,不过水平有限找不到。
试过其他的代理,用那种squid之类的代理(就是我只需要连接一个服务器,这个服务器帮我分发代理),这种模式可以。
与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…