scrapy保存、中断、继续执行爬虫程序
  TEZNKK3IfmPf 2023年11月14日 181 0

在scrapy文件中的custom_settings写入JOBDIR即可,比如:

'JOBDIR': '../jobs/baidu_news',

baidu_news这个位置就是当程序停止爬虫的时候当前的运行状态就会记录在这个文件中,当再次爬取时会接着保存的状态进行爬取

案例

class BaiduSpiderSpider(CrawlSpider):
    """Get news from news.baidu.com """
    name = "baidu_spider"
    allowed_domains = ["news.baidu.com"]
    stopwords = []
    custom_settings = {
     
       
        'HTTPERROR_ALLOWED_CODES': [302, 301],
        'JOBDIR': '../jobs/baidu_news',
    }
【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读
  TEZNKK3IfmPf   2024年05月31日   38   0   0 python开发语言
  TEZNKK3IfmPf   2024年05月31日   28   0   0 python
  TEZNKK3IfmPf   2024年05月31日   30   0   0 python
TEZNKK3IfmPf