用python写一个简单的爬虫小脚本 下载快手任意主播的视频 公众号回复 快手 获取源代码 欢迎分享文章,点击再看 先看效果: 教程: 先打开一个快手主播的主页 然后打开开发者模式,点击网络,点击xhr 然后刷新一下,找到这个文件 里面的photo这两个值都是源视频地址 这个文件包括了所有的视频信息和视频地址 也就是把这个文件的代码获取下来,再把链接提取出来 再访问下载就可以了 点击标头和负载 请求url和header信息和负载信息就都有了 把这些复制下来到python代码 请求 发送请求负载信息这里用json 获取数据也要用json...

  WIU1Qlm7CwPb   2023年11月02日   62   0   0 python公众号JSON公众号JSONPython

使用python爬虫爬取 一个免费的小说网站 公众号回复土豪小说获取源代码 看效果: 教程: 首先打开网站,随便打开一个小说 网站: https://www.yeziwx.com/book/diyichonghunguxianshengbieshangyin/::text=%E3%80%8A%E7%AC%AC%E4%B8%80%E5%AE%A0%E5%A9%9A%E9%A1%BE%E5%85%88%E7%94%9F%E5%88%AB%E4%B8%8A%E7%98%BE%E3%80%8B%E6%98%AF%E7%94%B1%E4%BD%9C%E8%80%85%E4%B8%B0%...

  WIU1Qlm7CwPb   2023年11月02日   48   0   0 EF公众号for循环公众号for循环EF

今天写一个脚本 获取笔趣看小说的代码 输入链接即可扒光一部小说并且保存 该站任意一部小说都可以 公众号回复 笔趣看 获取源代码 首先打开网站 随便点击一部小说 然后可以看到所有的章节 所以 思路: 1、获取小说首页源代码 2、提取所有章节链接 3、访问所有章节链接 4、提取内容保存 访问网站,获取源代码 用bs4来解析提取数据 response=requests.get(url=url,headers=headers) text=response.text soup=BeautifulSoup(text,'html.parser') 找到所有的章节链接 li...

今天爬取网易云音乐热歌榜单 一共200首 公众号回复 网易云榜单获取源代码 打开网页版网易云 打开开发者模式 全局搜索赵雷,看看这些信息藏在哪个文件中 发现在这个文件中,歌手和歌曲都有 然后点击标头 查看请求url 请求url: https://music.163.com/discover/toplist?id=3778678 然后下面开始写代码 先访问 url="https://music.163.com/discover/toplist?id=3778678" ua=fake_useragent.UserAgent() header={ 'u...

30行代码获取wallspic网站壁纸的下载链接 公众号回复 wallspic2 获取源代码 打开网站 https://wallspic.com/cn/tag/jing_qi_man_hua/for_desktop 点击一张壁纸 然后打开开发者模式 找到下载对应的代码 有一个href属性,属性值就是下载链接 然后点击这个链接 就会自动下载壁纸 在页面源码中找到contenturl这个属性 后面的链接和下载链接有些相似 contenturl:https://img3.wallspic.com/crops/0/7/7/9/6/169770/169770-zhi...

获取电影榜单的标题名字和链接 想要源代码可以在公众号回复 电影天堂 先看效果 目标网站: https://www.dytt89.com/ 获取网站里的这两个列表 发送请求,然后设置一下编码为 gb2312 获取源码后,用re正则表达式来提取数据 首先提取出ul下的整个列表 然后再二次提取 一个是url 一个是标题 然后创建一个字典,标题对应链接 下面是新片精品 也是一样的代码,一样的操作 运行结果: {'2022年国产动作犯罪片《扫黑行动》HD国语中字':'https://www.dytt89.com/i/107097.html'} {'...

目标网站 https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=10&type=T 观察发现,url中start=10 一页中有10本书的数据,所以这里是10,第二页则是20 我们一页一页访问获取数据 这里是100,就是爬取5页 然后获取到源代码之后,再用re正则表达式来提取书名 然后没问题,保存 下面是完整代码 importrequests importre importcsv 打开csv文件 f=open('豆瓣小说.csv',mode='a',newline='',encoding='utf...

今天教大用爬虫获取壁纸 这个网站还是比较不错的,高清4k壁纸,资源多,类别多,分类明确 公众号回复 wallspic 获取源代码 先看效果 高清4k 目标网站: https://wallspic.com/cn/tag/jing_qi_man_hua/for_desktop 打开网站,观察分析 打开开发者模式,找到源文件 通过审查筛选之后,最后找到了这个链接 这个链接存放着高分辨率的壁纸图片 我们访问这个链接进行下载保存即可获取壁纸 思路: 1、先访问目标网站,获取源代码 2、从源代码中提取url链接 3、访问url,进行下载保存 开始敲...

今天用多线程爬取豆瓣250电影榜单的全部电影信息 全是精品 这下不怕没电影看了 公众号回复 豆瓣电影 获取源代码 先看效果 目标网站: https://movie.douban.com/top250?start=0&filter= 这个网站的数据就在页面源代码中 所以直接请求这个url就可以了 发送请求,要带上user-agent信息 拿到源码之后,我们用xpath来解析提取信息 发现所有的电影信息都在ol下的li标签里 所以先把所有的li标签获取下来 然后用for循环 xpath二次提取 从每一个li标签里获取该电...

用python爬虫扒光一部小说 公众号回复漫客栈获取源代码 先看效果 目标网站: 漫客栈 https://www.mkzhan.com/?ref=clicli.com.cn 首先找到包含漫画图片的文件 先点开一部漫画,然后f12,点击网络刷新一下,然后点击xhr 找到预览中包含章节漫画列表信息的文件 点开发现里面包含该章节的漫画图片地址 点击负载看一下,发现有两个参数,然后观察url,对比一下,发现一个是漫画id一个是章节id,其他参数不用管 也就是有了这两个参数信息就可以获取漫画图片了 漫画id已经有了所以找章节id 找到一个漫画章节列表信息然后点开发...

今天使用多线程来获取200页数据 公众号回复 菜价 获取源码 目标网站: 新发地菜价 http://www.xinfadi.com.cn/priceDetail.html 打开网站,发现是异步加载,然后点击xhr 可以看到,数据就在这里 然后我们点击负载,观察发现20代表每页展示多少条数据,不用管 current则是代表页数 点击标头,可以看到请求url和请求方法 然后敲代码 定义一个函数(任务,后期扔给线程) 用post发送请求,加上参数,然后.json()获取字典数据 接下来开始提取数据 whd.writerow(dit)  ...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~