第 14 节爬虫（1）-摩杜云开发者社区

第 14 节爬虫（1）

Jkv9EaA5APGr 2023年11月30日 21 0

服务器服务器读取文件读取文件 html html

爬虫的应用场景

举个例子！

如果你需要做一个互联网岗位薪资分析，但是没数据你会怎么做？
自己想做一个视频网站，但是没那么多作品怎么办？
我想做一个新闻资讯，但是没新闻怎么办？
想看一个热度排行，怎么看？

做一些批量下载，怎么搞？

一、什么是爬虫
通俗的讲：就是模拟浏览器抓取数据
科学的讲：通过一定的规则用程序对互联网相关数据解析并存储
那么接下来我们简单看一个小小的案例

二、知识储备

关于前端要求：对HTML、CSS、JavaScript有一定的掌握，给大家推荐适合的小白教程
https://www.w3school.com.cn/html/index.asp来！看一个案例！
https://movie.douban.com/chart

爬虫的流程地址URL-请求-获取-解析-封装处理 -数据保存

第 14 节爬虫（1）_读取文件

1、我们发现返回是HTML文件，其中包括CSS、JavaScript、TypeScript、dengdengdeng
2、Python中的request、response
3、文件的读写，能够进行文件的操作
4、…

三、学前准备

必须要了解的浏览器运行的流程

发送至DNS服务器并获得域名对应的WEB服务器的ip地址→检查浏览器是否有缓存→与WEB服务器建立TCP连接。
→三次握手→获取HTML数据→服务器响应HTML→浏览器解柝→浏览器渲染→执行js脚本→发起网络请求→响应ajax请求

urllib库：用于操作网页URL,并对网页的内容进行抓取处理
urllib模块：
urllib.request-打开和读取URL。
urllib.error-包含urllib.request抛出的异常。urllib.parse-解析URL。
urllib.robotparser-解析robots.txt文件。

urllib.request的urlopen方法来打开一个URL
看其中的一些参数：
read()函数获取网页的HTML实体代码，加入参数控制长度
readline()-读取文件的一行内容
readlines()-读取文件的全部内容

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： PMP之敏捷术语表下一篇： k8s命令行方式导入大量postgres数据

分享：

最后一次编辑于 2023年11月30日 0

暂无评论

推荐阅读

JQuery使用技巧（一）处理URL

iFlC2TQwmEmX 2023年12月23日 105 0 0 html url jQuery html jQuery url

jquery加载html代码到div

SuVXIKXQi51s 2023年12月23日 25 0 0 html jQuery 加载 html 加载 jQuery

c++时间转换

chunBooBRDn1 2023年12月23日 161 0 0 服务器服务器字符串字符串 c++2d 2d 获取当前时间获取当前时间 c++

jquery鼠标双击事件

F5MM6ELZe4VV 2023年12月23日 29 0 0 html 双击事件双击事件 jQuery html jQuery

第五节JavaScript typeof、类型转换与正则表达式

G5G9kTkvHDi8 2023年12月23日 27 0 0 字符串 html 字符串 html 开发语言正则表达式 javascript JavaScript 开发语言正则表达式

嵌入式设备OTA升级的大致过程！

wod1c0aaFBnM 2023年12月23日 30 0 0 服务器服务器 linux 运维嵌入式文件服务器文件服务器运维 linux 嵌入式

【全民Python】使用ZeroMQ在Python进行通信的三种模式

5CcNB1PYyM7Y 2023年12月23日 82 0 0 服务器 Java 示例代码示例代码 python 推送 python 服务器 java 推送

探索Nginx的奥秘--从代理到负载均衡的艺术实践

bNxF99UKMQ1s 2023年12月23日 33 0 0 服务器反向代理 nginx 服务器反向代理负载均衡运维 nginx 运维负载均衡

限流是什么？怎么限流？

n3y4rZ8GUfmO 2023年12月23日 72 0 0 服务器 Java java 限流服务器限流 redis Redis

jquery 清除focus

QtikZq7rxZYL 2023年12月23日 159 0 0 html 示例代码示例代码 jQuery html jQuery

jquery点击事件切换样式

878tGgGE4gkv 2023年12月23日 115 0 0 html 点击事件点击事件 jQuery html jQuery

Linux命令(139)之ab

wwLZeziuqjLR 2023年12月23日 80 0 0 服务器 ab linux linux 服务器 Time 运维 ab 运维 Time

jquery 取thymeleaf数据

s2pvW3BZ98qa 2023年12月23日 29 0 0 html 数据 jQuery 数据 html jQuery

AntDB数据库致力降本增效的某省高速清分结算实践——优势总结和推广意义

OmM39SHr7olk 2023年12月23日 36 0 0 服务器数据 antdb 数据库服务器数据 antdb 数据库 antdb数据库 antdb数据库

jquery div是否有滚动条

XSukm9cU0gkT 2023年12月23日 40 0 0 html 代码示例代码示例 jQuery html jQuery

前端歌谣-第叁拾肆课-ES6模块化开发计算器小案例续

Fuy6dnbn2ffz 2023年12月23日 36 0 0 装饰器模式数据 html 数据 html 装饰器模式

jquery 取最后一个child

vbyzBTPBnJJV 2023年12月23日 28 0 0 html jQuery html jQuery

Jkv9EaA5APGr

作者其他文章更多

aardio语言

2023-11-30

pycharm关闭后一直显示正在关闭项目的解决方法

2023-11-30

清华大学开源软件镜像站

2023-11-30

第 14 节爬虫（2）

2023-11-30

第13节文件io

2023-11-30

第 14 节爬虫（1）

2023-11-30

第 9 节如何使用注解

2023-11-24

第 10 节字符编码的处理

2023-11-24

Python学习笔记第 7 节 Python工程应用-字符串

2023-11-24

第 11 节 Python程序调试和异常处理技巧

2023-11-24

最新推荐更多

终于搞懂了！原来 Vue 3 的 generate 是这样生成 render 函数的

2024-05-20

博客园美化：增加顶部炫彩loading进度条

2024-05-20

lodash已死？radash库方法介绍及源码解析 —— 函数柯里化 + Number篇

2024-05-20

TypeScript入门介绍

2024-05-20

XML Schema 复杂元素类型详解：定义及示例解析

2024-05-20

什么是单点登录？如何实现？

2024-05-20

基于uniapp+vue3自定义增强版table表格组件「兼容H5+小程序+App端」

2024-05-18

解释下什么是事件代理？应用场景？

2024-05-18

Vue项目中有封装过axios吗？主要是封装哪方面的？

2024-05-17

浅谈Vue.js与原生开发

2024-05-17

vue要做权限管理该怎么做？如果控制到按钮级别的权限怎么做？

2024-05-17

Vue模板语法、属性绑定、条件渲染的学习

2024-05-17

vue3编译优化之“静态提升”

2024-05-17

VUE-局部使用

2024-05-17

你是怎么处理vue项目中的错误的？

2024-05-17

实现抖音 “视频无限滑动“效果

2024-05-17

说说webpack proxy工作原理？为什么能解决跨域?

2024-05-17

我为什么还要造一个前端轮子？

2024-05-17

一款摸鱼神器！帮助你利用上班时间背单词！

2024-05-17

next-route

2024-05-17