摩杜云开发者社区-摩杜云

爬虫--中国气象局--全国天气

获取中国气象局的全国天气因为天气本来就是公开的，给人们看的所以好获取没有任何反爬机制公众号回复 中国气象局获取源代码首先打开中国气象局网站按f12打开开发者模式然后点击XHR找到下面这个文件点击预览可以看到这个文件里包含的是全国城市的天气信息然后我们点击标头查看请求url和请求方法然后开始写代码访问获取源代码因为返回的数据是json格式的，所以用.json()来获取 url='https://weather.cma.cn/api/map/weather/1?t=1675244104697' res=requests.get(url=url)...

WIU1Qlm7CwPb 2023年11月02日 31 0 0 ci ci 公众号 JSON JSON 公众号

爬虫黑科技：如何应对反爬虫机制，成功爬取任何网站"

当涉及到爬虫时，我们经常会遇到反爬虫机制，这些机制旨在阻止爬虫程序获取网站数据。然而，作为一名优秀的爬虫工程师，我们需要应对这些挑战并找到解决方案。在本文中，我们将揭秘一些高级的爬虫黑科技，帮助你成功爬取任何网站。 1.使用随机User-Agent 许多网站会根据User-Agent来判断请求是否来自于爬虫。为了避免被识别出来，我们可以使用随机的User-Agent来发送请求。下面是一个示例代码： importrequests fromfake_useragentimportUserAgent 创建一个随机User-Agent ua=UserAgent() 发送请求时使用随机User-A...

WIU1Qlm7CwPb 2023年11月02日 28 0 0 验证码 User 验证码 python User python

python爬虫40行代码一键获取b站视频的全部热门评论

在b站看到某些视频的网友评论有些很有意思，今天用python写40行代码给它一键保存最新评论的文件，不能爬取，会显示开通会员之类的所以只爬取热门评论公众号回复 b站视频评论 获取源代码欢迎分享看下效果：首先打开一个视频直接全局搜索评论的内容，查找出来之后，点击这个文件，文件里面存放着评论信息，但是一个文件里只放着20条评论信息我们看一下查询字符串信息有个next参数，这个就是要查询的评论文件参数，通过改变链接中的next参数，即可获取到不同的文件，从而获取所有的评论而这个oid就是视频id 看下url地址和访问方法 ...

WIU1Qlm7CwPb 2023年11月02日 52 0 0 公众号公众号 JSON JSON 字符串字符串

2023年电影票房王者！学会使用Python轻松抓取猫眼电影网站的票房排行榜数据

电影票房一直是人们津津乐道的话题，想知道哪些电影在2023年票房大卖吗？本文将为你揭秘2023年猫眼电影网站的票房排行榜，更重要的是，我们将教你如何使用Python一键抓取这些数据，并将它们保存到Excel文件中。跟随本文，让我们一起探索这个有趣的世界吧！底部获取源代码第一部分：了解猫眼电影网站及其票房排行榜在这个信息爆炸的时代，猫眼电影网站无疑是许多电影爱好者的首选。它提供了最新的电影信息、评分、评论和票房数据，能够让我们第一时间掌握最新的电影动态。其中，票房排行榜更是吸引了无数人的关注。它展示了各部电影在某一时期内的票房表现，是衡量电影影响力和受欢迎程度的重要指标。第二部...

WIU1Qlm7CwPb 2023年11月02日 44 0 0 数据 html Python 数据 html python

使用Scrapy框架爬取当当网图书信息

在本文中，我们将使用Scrapy框架来爬取当当网的图书信息。 Scrapy是一个强大的Python爬虫框架，可以帮助我们快速高效地从网页中提取所需的数据。首先，我们需要创建一个爬虫组件。在这个组件中，我们定义了爬虫的名称、允许的域名以及起始的爬虫页面。在parse方法中，我们使用BeautifulSoup库来解析网页内容，并通过CSS选择器提取所需的数据。 importscrapy frombs4importBeautifulSoup classDangSpider(scrapy.Spider): name="dang" allowed_domains=["www.dangd...

WIU1Qlm7CwPb 2023年11月02日 53 0 0 数据 ide 数据 python python ide

用python查询12306车票，一件获取所有车次信息

用python中的requests库通过访问12306接口，来获取查询的所有车次信息先看效果公众号回复12306获取源代码首先打开网站啊然后随便输入地点时间，点击查询然后出现查询好的车票打开开发者模式点击xhr，里面有一个文件这个文件就是用来存放车次信息的点击预览看看返回的内容这些就是车次信息查看url和方法 url中有三个参数需要自己填写一个是时间，一个是出发站，一个是目的站但是用的都是字母代码代替的我在文件中写了一个字典，存放着名称和对应的代码开始写代码，开始访问键盘输入三个参数用.json()来获取信...

WIU1Qlm7CwPb 2023年11月02日 104 0 0 公众号 for循环 json 公众号 for循环 json

python爬虫--微博评论

前几天有粉丝问我想让我出一个微博评论今天它来了一键获取微博的所有评论公众号回复微博获取源代码先看效果教程：先打开微博查看评论之后，一定要点击查看全部评论然后来到这个界面打开开发者模式直接全局搜索评论的关键字然后出来一个文件，这个文件就是存放评论的包查看负载我们再打开另外一条评论数多的微博，然后看一下他们的负载参数发现id和uid不一样应该就是作者的id和作品id了而且这一个文件里就存放了19条评论这是因为浏览器页面没有滑到下面，没有加载后面的评论，现在滑到下面，发现多了几个存放评论的文件，然...

WIU1Qlm7CwPb 2023年11月02日 90 0 0 ajax json 公众号公众号 json ajax

python爬虫-实现快手点赞、评论、关注、下载等完整功能

python爬虫--快手完整功能版点赞，评论，下载，批量下载，关注，作者信息公众号回复 快手完整版 获取源代码我们进行点赞和关注查看一下调用的文件发现都是一个文件，只是负载参数不同查看请求url、请求方法、请求标头、负载参数点赞 defDZ(self,photoAuthorId,photoId): photoAuthorId:作者IDphotoId:作品ID json={'operationName':"visionVideoLike",'query':"mutationvisionVideoLike($photoId:...

WIU1Qlm7CwPb 2023年11月02日 75 0 0 json ide 公众号公众号 json ide

python爬虫实战-爬取某丽图库网站的古装小姐姐高清图片壁纸

用python爬取某丽图库的高清壁纸图片分享本文章公众号回复靓丽图库获取源代码先看效果没问题，都是可以看的打开网站   随便哪个分类都可以这里每一个div都包括了一个图片的代码这个是图片的链接，点进去然后出来一个网页，这个网页就是这个图片打开开发者模式，找到下载本图的代码这个链接就是源图片思路： 1、先访问首页，提取所有的图片页的地址 2、循环访问所有的图片页地址，提取所有源图片链接 3、通过requests访问获取二进制码，进行保存访问视频首页 url='https://www.hexuexiao.cn/w...

WIU1Qlm7CwPb 2023年11月02日 100 0 0 公众号页地址 for循环公众号页地址 for循环

python多线程-通过关键词下载百度图片

今天用python爬虫加上线程池下载保存关键词百度搜索的图片运行代码，搜索关键词，通过线程池，一键下载多张图片关注公众号回复百度图片获取源代码看效果：首先打开网站随便搜索一个关键词再页面源代码中找到data-objurl，data-objurl他的值就是一个图片，我们就把他下载下来就行，用爬虫来进行访问我们先要找到所有的data-objurl，然后再for循环多线程去访问下载保存上代码这部分是访问首页，获取源码，提取data-objurl，这里封装成类了，url的关键字来手动输入搜索 def__init__(self,word):key_word=par...

WIU1Qlm7CwPb 2023年11月02日 105 0 0 搜索搜索 Parse Parse 线程池线程池

python爬虫--下载虎牙视频--舞蹈区视频

用python爬虫下载虎牙舞蹈区视频公众号回复虎牙获取源代码先看效果：打开网站点击一个视频，打开开发者模式全局搜索一下标题然后找到这个getM开头的文件发现里面的信息就包含视频地址然后查看它的负载信息和请求地址这几个参数不用管，videoid是视频id 可以改变它的参数获取不同的视频信息接下来开始写代码 data_url=f'https://liveapi.huya.com/moment/getMomentContent?&videoId={vid}&uid=&_=1675864353143' res=re...

WIU1Qlm7CwPb 2023年11月02日 81 0 0 全局搜索 ide 公众号公众号全局搜索 ide

爬虫--文案网--不烂大街的救赎文案精选

简单的爬取一个网站文案网--不烂大街的救赎文案精选获取文案效果：网站地址： https://www.wenanwang.com/lz/1764.html 内容就放在源文件当中所以比较简单直接访问 url='https://www.wenanwang.com/lz/1764.html' headers={ 'user-agent':'Mozilla/5.0(WindowsNT5.1;U;en;rv:1.8.1)Gecko/20061208Firefox/2.0.0Opera9.50' } 访问 res=requests.get(url=url,headers=...

WIU1Qlm7CwPb 2023年11月02日 68 0 0 属性值属性值 html html windows windows

爬取dangdang网书籍全部信息

今天爬取dangdang网里的商品信息，做一个表格价格评论和标题等信息可以在公众号回复当当网获取源代码学习目标网站： http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1 首先进行访问，获取该网页源代码 url='http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1' response=requests.get(url=url,headers=headers) res=response...

WIU1Qlm7CwPb 2023年11月02日 77 0 0 公众号 for循环公众号打开文件 for循环打开文件

爬取b站全站视频榜单保存到mysql

爬取b站视频的全站板块的排行榜单提取出标题，地址，评论数量等等并且写入到mysql 需要用到这四个库 importrequests importjson fromsqlalchemyimportcreate_engine importpandas 最后效果点赞分享视频公众号回复 b站全站榜单 获取源代码打开网站 https://www.bilibili.com/v/popular/rank/all/ 打开开发者模式找到这个文件，里面存放的就是榜单视频信息请求方法地址接下来用python爬取下来这个文件然后处理数据获取数据 ...

WIU1Qlm7CwPb 2023年11月02日 54 0 0 获取数据 MySQL 获取数据 mysql 数据数据

爬取a站视频，m3u8案例，acfun

用python爬虫爬取acfun上的视频公众号回复acfun获取源代码看效果：打开网站随便点一个视频打开开发者模式然后搜素m3u8，找到文件，查看url 这些就是一个一个的分割出来的ts片段全局搜素url可以发现再页面源代码中就可以找到这个m3u8文件所以思路是 1、访问视频页面 2、提取m3u8文件地址 3、访问下载文件中的ts片段第一部分访问视频页面，获取源码 headers={ "user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko...

WIU1Qlm7CwPb 2023年11月02日 84 0 0 JSON ide ide html html JSON

爬取斗图吧表情包

用python获取斗图吧表清包微信关注公众号回复 斗图吧 获取源代码看效果打开网站点击系列表情包然后随便点击一个然后打开开发者模式找到该段代码一个是表情包名称还有一个是src属性属性值是表情包的url地址所以先从这个网页中获取表情包的名称和表情包的url地址然后再进行下载保存进行访问注意要加上referer防盗链，因为表情包的地址设置了防盗链，如果不设置，就访问下载不了 url='https://www.doutub.com/series_lists/details/p5bdhifn5WEW3JXjDz8ReaED' h...

WIU1Qlm7CwPb 2023年11月02日 97 0 0 微信图吧微信公众号公众号图吧

用python爬虫带你爬取4399小游戏

使用python爬虫爬取4399小游戏准备环境： python环境，pycharm，requests库，csv库，lxml库公众号回复4399获取源代码教程：打开4399网站，打开开发者模式，搜索关键字，观察发现所有的东西都在页面源代码中每一个游戏对应着每一个ul标签下的li下思路：拿到页面源码，提取出li标签的数据，再二次提取上代码：访问网站 url='https://www.4399.com/' headers={ 'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KH...

WIU1Qlm7CwPb 2023年11月02日 88 0 0 HTML 公众号 for循环公众号 for循环 html

python爬虫爬取视频案例，30行代码教你爬取下载保存梨视频

今天用30行代码爬取下载视频比较简单啊关注公众号公众号回复梨视频获取源代码先看效果可以正常播放没问题首先打开网站，随便点开一个视频然后打开开发者模式开始分析内容应该是异步传输，所以我们点击网路，点击xhr 然后看到一个文件里面存放着json格式的数据全部点开，可以看到一个srcurl 看着像是视频源，但是我们打开它却是404 而真实的视频源地址是 https://video.pearvideo.com/mp4/adshort/20210413/cont-1726352-15654838_adpkg-ad_hd.mp4 得到的地址 https...

WIU1Qlm7CwPb 2023年11月02日 64 0 0 ide 公众号 json数据公众号 json数据 ide

python爬虫selenium自动化-实现科目一自动答题

通过selenium模块实现驾驶员考试网站的科目一的自动考试答题公众号回复 自动答题获取源代码打开这个网站然后打开开发者模式，找到这些一个一个的题，每个li标签对应一个题，每个li标签上都有一个c属性然后打开这个网址，这个网址存放着该题的答案，这个url后面接的是刚才的c属性值，对应着该题的答案写代码，导入selenium包，导入webdrive模块打开网站获取c属性，打开存放答案的地址获取答案 whilea<=100: 获取答案网页地址，拼接答案网页地址 d=driver.find_element(By.XPATH,f'.//ul...

WIU1Qlm7CwPb 2023年11月02日 87 0 0 HTML 公众号公众号 html

python 爬虫一键获取Boss直聘的岗位

使用python写一个爬虫脚本搜索岗位名称就能获取所有相关岗位信息公众号回复Boss直聘获取源代码先看效果：教程：先打开网站，搜索任意岗位然后打开开发者模式全局搜索下面的岗位信息就可以找到包含岗位信息的文件点击负载，query就是你搜索的信息 page是页数 pagesize是一页显示多少条数据这些是查询字符串参数我们只要在url里去改变参数即可把请求标头也全部复制写到headers里请求url： https://www.zhipin.com/wapi/zpgeek/search/joblist.json?scene=1&qu...

WIU1Qlm7CwPb 2023年11月02日 60 0 0 字符串搜索公众号公众号字符串搜索