scrapy保存、中断、继续执行爬虫程序

TEZNKK3IfmPf 2023年11月14日 181 0

Scrapy python

在scrapy文件中的custom_settings写入JOBDIR即可，比如：

'JOBDIR': '../jobs/baidu_news',

baidu_news这个位置就是当程序停止爬虫的时候当前的运行状态就会记录在这个文件中，当再次爬取时会接着保存的状态进行爬取

案例

class BaiduSpiderSpider(CrawlSpider):
    """Get news from news.baidu.com """
    name = "baidu_spider"
    allowed_domains = ["news.baidu.com"]
    stopwords = []
    custom_settings = {
     
       
        'HTTPERROR_ALLOWED_CODES': [302, 301],
        'JOBDIR': '../jobs/baidu_news',
    }

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Maven项目代码中定位resources文件夹下的文件目录，解决文件不存在的问题下一篇： java Flink滚动时间窗口聚合TumblingProcessingTimeWindows运算例子

分享：

最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读

解决pandas读取文件报错ValueError: Invalid file path or buffer object type: ＜class ‘tuple‘＞

TEZNKK3IfmPf 23天前 34 0 0 python 开发语言

python的粘包和分包

TEZNKK3IfmPf 23天前 32 0 0 python

Python 中 assert的使用位置及源码解析

TEZNKK3IfmPf 2024年05月31日 18 0 0 python assert

生成一个文件保存在指定的文件夹中思路 python

TEZNKK3IfmPf 23天前 39 0 0 python 路径

安装pyspark kernel

TEZNKK3IfmPf 23天前 68 0 0 java spark python

Python——break、continue、pass语句作用

TEZNKK3IfmPf 23天前 41 0 0 python 开发语言

python进阶之内存模型

TEZNKK3IfmPf 23天前 29 0 0 python 内存

python3中，//、/ 的区别

TEZNKK3IfmPf 23天前 30 0 0 python

实验四、格子世界（Grid World）

TEZNKK3IfmPf 23天前 32 0 0 numpy python

python-函数-变量的作用域-全局变量

TEZNKK3IfmPf 23天前 31 0 0 python 函数

python subprocess阻塞

TEZNKK3IfmPf 2024年05月31日 38 0 0 python 开发语言

python界面开发--pyqt 小用

TEZNKK3IfmPf 23天前 31 0 0 python

Python输出带颜色字体

TEZNKK3IfmPf 2024年05月31日 28 0 0 python

Django REST framework -9-登录验证JWT实践

TEZNKK3IfmPf 2024年05月31日 24 0 0 DevOps python

python vars() 函数用法及实例

TEZNKK3IfmPf 2024年05月31日 30 0 0 python

python-列表包字典-根据字典的某一个键的值来进行排序

TEZNKK3IfmPf 23天前 34 0 0 数据 python

python3中，isinstance() 函数

TEZNKK3IfmPf 23天前 38 0 0 字符串 python

python语句如何换行和字符串太长如何换行

TEZNKK3IfmPf 23天前 42 0 0 python 开发语言

为什么python-office自动化办公不支持mac和linux？

TEZNKK3IfmPf 23天前 35 0 0 linux python

loguru分离特定级别的日志到不同文件（TRACE/DEBUG/INFO/SUCCESS/WARNING/ERROR/CRITICAL）

TEZNKK3IfmPf 23天前 37 0 0 日志 python

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14