摩杜云开发者社区-摩杜云

python爬取下载-快手主播视频

用python写一个简单的爬虫小脚本下载快手任意主播的视频公众号回复 快手 获取源代码欢迎分享文章，点击再看先看效果：教程：先打开一个快手主播的主页然后打开开发者模式，点击网络，点击xhr 然后刷新一下，找到这个文件里面的photo这两个值都是源视频地址这个文件包括了所有的视频信息和视频地址也就是把这个文件的代码获取下来，再把链接提取出来再访问下载就可以了点击标头和负载请求url和header信息和负载信息就都有了把这些复制下来到python代码请求发送请求负载信息这里用json 获取数据也要用json...

WIU1Qlm7CwPb 2023年11月02日 62 0 0 python 公众号 JSON 公众号 JSON Python

python爬虫爬取--‘土豪小说’

使用python爬虫爬取一个免费的小说网站公众号回复土豪小说获取源代码看效果：教程：首先打开网站，随便打开一个小说网站： https://www.yeziwx.com/book/diyichonghunguxianshengbieshangyin/::text=%E3%80%8A%E7%AC%AC%E4%B8%80%E5%AE%A0%E5%A9%9A%E9%A1%BE%E5%85%88%E7%94%9F%E5%88%AB%E4%B8%8A%E7%98%BE%E3%80%8B%E6%98%AF%E7%94%B1%E4%BD%9C%E8%80%85%E4%B8%B0%...

WIU1Qlm7CwPb 2023年11月02日 48 0 0 EF 公众号 for循环公众号 for循环 EF

爬虫脚本-扒光一部小说--笔趣看

今天写一个脚本获取笔趣看小说的代码输入链接即可扒光一部小说并且保存该站任意一部小说都可以公众号回复 笔趣看 获取源代码首先打开网站随便点击一部小说然后可以看到所有的章节所以思路： 1、获取小说首页源代码 2、提取所有章节链接 3、访问所有章节链接 4、提取内容保存访问网站，获取源代码用bs4来解析提取数据 response=requests.get(url=url,headers=headers) text=response.text soup=BeautifulSoup(text,'html.parser') 找到所有的章节链接 li...

WIU1Qlm7CwPb 2023年11月02日 69 0 0 HTML 公众号 for循环公众号 for循环 html

爬取--网易云热歌榜单--200首

今天爬取网易云音乐热歌榜单一共200首公众号回复 网易云榜单获取源代码打开网页版网易云打开开发者模式全局搜索赵雷，看看这些信息藏在哪个文件中发现在这个文件中，歌手和歌曲都有然后点击标头查看请求url 请求url： https://music.163.com/discover/toplist?id=3778678 然后下面开始写代码先访问 url="https://music.163.com/discover/toplist?id=3778678" ua=fake_useragent.UserAgent() header={ 'u...

WIU1Qlm7CwPb 2023年11月02日 110 0 0 公众号网易云公众号正则表达式正则表达式网易云

30行代码获取壁纸真实下载链接（wallspic2）

30行代码获取wallspic网站壁纸的下载链接公众号回复 wallspic2 获取源代码打开网站 https://wallspic.com/cn/tag/jing_qi_man_hua/for_desktop 点击一张壁纸然后打开开发者模式找到下载对应的代码有一个href属性，属性值就是下载链接然后点击这个链接就会自动下载壁纸在页面源码中找到contenturl这个属性后面的链接和下载链接有些相似 contenturl：https://img3.wallspic.com/crops/0/7/7/9/6/169770/169770-zhi...

WIU1Qlm7CwPb 2023年11月02日 82 0 0 desktop 公众号公众号属性值属性值 desktop

获取电影天堂的电影榜单

获取电影榜单的标题名字和链接想要源代码可以在公众号回复 电影天堂先看效果目标网站： https://www.dytt89.com/ 获取网站里的这两个列表发送请求，然后设置一下编码为 gb2312 获取源码后，用re正则表达式来提取数据首先提取出ul下的整个列表然后再二次提取一个是url 一个是标题然后创建一个字典，标题对应链接下面是新片精品也是一样的代码，一样的操作运行结果： {'2022年国产动作犯罪片《扫黑行动》HD国语中字':'https://www.dytt89.com/i/107097.html'} {'...

WIU1Qlm7CwPb 2023年11月02日 54 0 0 HTML 公众号公众号正则表达式 html 正则表达式

爬取豆瓣小说书名

目标网站 https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=10&type=T 观察发现，url中start=10 一页中有10本书的数据，所以这里是10，第二页则是20 我们一页一页访问获取数据这里是100，就是爬取5页然后获取到源代码之后，再用re正则表达式来提取书名然后没问题，保存下面是完整代码 importrequests importre importcsv 打开csv文件 f=open('豆瓣小说.csv',mode='a',newline='',encoding='utf...

WIU1Qlm7CwPb 2023年11月02日 97 0 0 windows HTML 正则表达式 windows html 正则表达式

用 python爬虫批量获取高清4k壁纸

今天教大用爬虫获取壁纸这个网站还是比较不错的，高清4k壁纸，资源多，类别多，分类明确公众号回复 wallspic 获取源代码先看效果高清4k 目标网站： https://wallspic.com/cn/tag/jing_qi_man_hua/for_desktop 打开网站，观察分析打开开发者模式，找到源文件通过审查筛选之后，最后找到了这个链接这个链接存放着高分辨率的壁纸图片我们访问这个链接进行下载保存即可获取壁纸思路： 1、先访问目标网站，获取源代码 2、从源代码中提取url链接 3、访问url，进行下载保存开始敲...

WIU1Qlm7CwPb 2023年11月02日 82 0 0 desktop 公众号公众号正则表达式 desktop 正则表达式

多线程--豆瓣250高分电影榜--不怕没电影看了

今天用多线程爬取豆瓣250电影榜单的全部电影信息全是精品这下不怕没电影看了公众号回复 豆瓣电影 获取源代码先看效果目标网站： https://movie.douban.com/top250?start=0&filter= 这个网站的数据就在页面源代码中所以直接请求这个url就可以了发送请求，要带上user-agent信息拿到源码之后，我们用xpath来解析提取信息发现所有的电影信息都在ol下的li标签里所以先把所有的li标签获取下来然后用for循环 xpath二次提取从每一个li标签里获取该电...

WIU1Qlm7CwPb 2023年11月02日 72 0 0 数据公众号 for循环公众号 for循环数据

用python实现漫画自由！

用python爬虫扒光一部小说公众号回复漫客栈获取源代码先看效果目标网站：漫客栈 https://www.mkzhan.com/?ref=clicli.com.cn 首先找到包含漫画图片的文件先点开一部漫画，然后f12，点击网络刷新一下，然后点击xhr 找到预览中包含章节漫画列表信息的文件点开发现里面包含该章节的漫画图片地址点击负载看一下，发现有两个参数，然后观察url，对比一下，发现一个是漫画id一个是章节id，其他参数不用管也就是有了这两个参数信息就可以获取漫画图片了漫画id已经有了所以找章节id 找到一个漫画章节列表信息然后点开发...

WIU1Qlm7CwPb 2023年11月02日 72 0 0 参数信息参数信息公众号公众号 python爬虫 python爬虫

python 多线程的使用，爬取新发地菜价

今天使用多线程来获取200页数据公众号回复 菜价 获取源码目标网站：新发地菜价 http://www.xinfadi.com.cn/priceDetail.html 打开网站，发现是异步加载，然后点击xhr 可以看到，数据就在这里然后我们点击负载，观察发现20代表每页展示多少条数据，不用管 current则是代表页数点击标头，可以看到请求url和请求方法然后敲代码定义一个函数（任务，后期扔给线程）用post发送请求，加上参数，然后.json()获取字典数据接下来开始提取数据 whd.writerow(dit)  ...

WIU1Qlm7CwPb 2023年11月02日 43 0 0 多线程数据公众号公众号多线程数据