第 14 节 爬虫(1)
  Jkv9EaA5APGr 2023年11月30日 21 0

爬虫的应用场景

举个例子!

如果你需要做一个互联网岗位薪资分析,但是没数据你会怎么做?
自己想做一个视频网站,但是没那么多作品怎么办?
我想做一个新闻资讯,但是没新闻怎么办?
想看一个热度排行,怎么看?

做一些批量下载,怎么搞?

一、什么是爬虫
通俗的讲:就是模拟浏览器抓取数据
科学的讲:通过一定的规则用程序对互联网相关数据解析并存储
那么接下来我们简单看一个小小的案例

二、知识储备

关于前端要求:对HTML、CSS、JavaScript有一定的掌握,给大家推荐适合的小白教程
https://www.w3school.com.cn/html/index.asp来!看一个案例!
https://movie.douban.com/chart

爬虫的流程 地址URL-请求-获取-解析-封装处理 -数据保存

第 14 节 爬虫(1)_读取文件

 

1、我们发现返回是HTML文件,其中包括CSS、JavaScript、TypeScript、dengdengdeng
2、Python中的request、response
3、文件的读写,能够进行文件的操作
4、…

三、学前准备

必须要了解的浏览器运行的流程

发送至DNS服务器并获得域名对应的WEB服务器的ip地址→检查浏览器是否有缓存→与WEB服务器建立TCP连接。
→三次握手→获取HTML数据→服务器响应HTML→浏览器解柝→浏览器渲染→执行js脚本→发起网络请求→响应ajax请求

urllib库:用于操作网页URL,并对网页的内容进行抓取处理
urllib模块:
urllib.request-打开和读取URL。
urllib.error-包含urllib.request抛出的异常。urllib.parse-解析URL。
urllib.robotparser-解析robots.txt文件。

urllib.request的urlopen方法来打开一个URL
看其中的一些参数:
read()函数获取网页的HTML实体代码,加入参数控制长度
readline()-读取文件的一行内容
readlines()-读取文件的全部内容

 



【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月30日 0

暂无评论

推荐阅读
Jkv9EaA5APGr