七、Scrapy框架-案例1-摩杜云开发者社区

七、Scrapy框架-案例1

LXTKP2JhYp3S 2天前 16 0

Python

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

安装Scrapy库
```
pip install scrapy
```
创建Scrapy项目

通过cmd进入命令窗口，执行命令scrapy startproject xxxx (xxxx为scrapy项目名)，创建scrapy项目。
```
scrapy startproject douban_spider2024
```
创建爬虫项目

执行scrapy genspider xxx（爬虫名称） xxx（网址）创建爬虫项目。
```
scrapy genspider douban www.bouban.com
```

1.2 虚拟环境构建

使用Pycharm打开创建好的douban_spider2024文件夹，进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库，也可以自己一个个pip安装。
- 查看依赖库：pip freeze > requirements.txt
- 安装依赖库：pip install -r requirements.txt

1.3 主程序编写

主程序（douban.py）用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

通过start_requests函数获取urls列表，并用Request封装（需要配合在settings.py中启用下载中间件）。
通过parse函数进行网页解析。

1.4 items.py设置

继承scrapy.Item的自定义类SongItem，导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数，例如USER_AGENT、COOKIES、代理、中间件启停等。

修改USER_AGENT，模拟浏览器登录。
关闭Obey robots.txt rules，将True设置为False。
设置下载延迟
打开下载中间件（downloader_middlewares），实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

cookies设置

进入middlewares.py程序中设置，新增一个处理cookies的函数，执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理？？

1.7 多层url解析

利用回调函数解析多层url：在parse函数最后解析获取新的url，并提交新的Request，并传递item到回调函数parse_detail中解析。
在items.py中添加新的item信息。

1.8 pipelines.py设置

通过pipelines.py构建Excel存储管道，用于将爬取的数据存储到excel中。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Python 潮流周刊#70：微软 Excel 中的 Python 正式发布！（摘要）下一篇： manim边学边做--空心多边形

分享：

最后一次编辑于 2天前 0

暂无评论

推荐阅读

【python爬虫案例】利用python爬取豆瓣读书评分TOP250排行数据

AmVHwP0D1NLC 3天前 19 0 0 Python

全网最适合入门的面向对象编程教程：50 Python函数方法与接口-接口和抽象基类

aYYT24Ds0nhF 3天前 18 0 0 Python

CTF/5/利用python自动请求网页

2hsELrnqGkhq 10天前 38 0 0 Python

Python pycryptodome类库使用学习总结

FGTdbwjSrhj4 3天前 20 0 0 Python

manim边学边做--通用多边形

6m3lfiEqOqHp 10天前 41 0 0 Python

【Python学习笔记】第7章字符串基础

jYgglCDuJc6U 10天前 44 0 0 Python

【python爬虫案例】利用python爬取豆瓣电影TOP250评分排行数据！

AmVHwP0D1NLC 5天前 49 0 0 Python

全网最适合入门的面向对象编程教程：47 Python函数方法与接口-回调函数Callback

aYYT24Ds0nhF 11天前 43 0 0 Python

【Python学习笔记】第6章动态类型

jYgglCDuJc6U 11天前 45 0 0 Python

Python 潮流周刊#70：微软 Excel 中的 Python 正式发布！（摘要）

xCoOpmCw66sN 2天前 17 0 0 Python

2024秋软件工程课程个人作业（第二次）

3NHg8T79L1xp 4天前 45 0 0 Python

js逆向实战之烯牛数据请求参数加密和返回数据解密

KmYlqcgEuC3l 23小时前 7 0 0 Python

七、Scrapy框架-案例1

LXTKP2JhYp3S 2天前 16 0 0 Python

Python 潮流周刊#69：是时候停止使用 Python 3.8了（摘要）

xCoOpmCw66sN 8天前 30 0 0 Python

全网最适合入门的面向对象编程教程：48 Python函数方法与接口-位置参数、默认参数、可变参数和关键字参数

aYYT24Ds0nhF 9天前 42 0 0 Python

js逆向实战之Bitcoin浏览器交易x-apikey参数加密逻辑

KmYlqcgEuC3l 23小时前 8 0 0 Python

manim边学边做--空心多边形

6m3lfiEqOqHp 2天前 16 0 0 Python

manim边学边做--弧形多边形

6m3lfiEqOqHp 8天前 33 0 0 Python

全网最适合入门的面向对象编程教程：49 Python函数方法与接口-函数与方法的区别和lamda匿名函数

aYYT24Ds0nhF 8天前 27 0 0 Python

【Python学习笔记】第8章列表与字典

jYgglCDuJc6U 7天前 31 0 0 Python

LXTKP2JhYp3S

作者其他文章更多

七、Scrapy框架-案例1

2024-09-21

最新推荐更多

QT硬件接口设计

2024-09-22

Go语言基础-常见编码(Json、Base64)

2024-09-22

js逆向实战之Bitcoin浏览器交易x-apikey参数加密逻辑

2024-09-22

js逆向实战之烯牛数据请求参数加密和返回数据解密

2024-09-22

盘点3款.NetCore(C#)开源免费商城系统

2024-09-22

我的网站集成ElasticSearch初体验

2024-09-22

IDEA 如何设置TAB页显示多行

2024-09-22

提升软件测试效率与灵活性：探索Mock测试的重要性

2024-09-22

一键批量导出自己企鹅好友

2024-09-22

ConcurrentLinkedQueue详解(图文并茂)

2024-09-22

Scala编程语言基本常识

2024-09-21

辜老师的C++课堂笔记

2024-09-21

manim边学边做--空心多边形

2024-09-21

七、Scrapy框架-案例1

2024-09-21

Python 潮流周刊#70：微软 Excel 中的 Python 正式发布！（摘要）

2024-09-21

AbpHelper CLI积累与实战分享

2024-09-21

记一次HttpClient使用问题分析

2024-09-21

.NET周刊【9月第3期 2024-09-15】

2024-09-21

不可不知的WPF动画（Animation）

2024-09-21

IDEA 换了电脑，如何导入和导出配置？

2024-09-21