获取中国气象局的全国天气 因为天气本来就是公开的,给人们看的 所以好获取 没有任何反爬机制 公众号回复 中国气象局获取源代码 首先打开中国气象局网站 按f12打开开发者模式 然后点击XHR找到下面这个文件 点击预览 可以看到这个文件里包含的是全国城市的天气信息 然后我们点击标头 查看请求url和请求方法 然后开始写代码 访问获取源代码 因为返回的数据是json格式的,所以用.json()来获取 url='https://weather.cma.cn/api/map/weather/1?t=1675244104697' res=requests.get(url=url)...

  WIU1Qlm7CwPb   2023年11月02日   31   0   0 cici公众号JSONJSON公众号

当涉及到爬虫时,我们经常会遇到反爬虫机制,这些机制旨在阻止爬虫程序获取网站数据。然而,作为一名优秀的爬虫工程师,我们需要应对这些挑战并找到解决方案。在本文中,我们将揭秘一些高级的爬虫黑科技,帮助你成功爬取任何网站。 1.使用随机User-Agent 许多网站会根据User-Agent来判断请求是否来自于爬虫。为了避免被识别出来,我们可以使用随机的User-Agent来发送请求。下面是一个示例代码: importrequests fromfake_useragentimportUserAgent 创建一个随机User-Agent ua=UserAgent() 发送请求时使用随机User-A...

  WIU1Qlm7CwPb   2023年11月02日   28   0   0 验证码User验证码pythonUserpython

在b站看到某些视频的网友评论有些很有意思, 今天用python写40行代码给它一键保存 最新评论的文件,不能爬取,会显示开通会员之类的 所以只爬取热门评论 公众号回复 b站视频评论 获取源代码 欢迎分享 看下效果: 首先打开一个视频 直接全局搜索评论的内容,查找出来之后,点击这个文件,文件里面存放着评论信息,但是一个文件里只放着20条评论信息 我们看一下查询字符串信息 有个next参数,这个就是要查询的评论文件参数,通过改变链接中的next参数,即可获取到不同的文件,从而获取所有的评论 而这个oid就是视频id 看下url地址和访问方法 ...

电影票房一直是人们津津乐道的话题,想知道哪些电影在2023年票房大卖吗?本文将为你揭秘2023年猫眼电影网站的票房排行榜,更重要的是,我们将教你如何使用Python一键抓取这些数据,并将它们保存到Excel文件中。跟随本文,让我们一起探索这个有趣的世界吧! 底部获取源代码 第一部分:了解猫眼电影网站及其票房排行榜 在这个信息爆炸的时代,猫眼电影网站无疑是许多电影爱好者的首选。它提供了最新的电影信息、评分、评论和票房数据,能够让我们第一时间掌握最新的电影动态。其中,票房排行榜更是吸引了无数人的关注。它展示了各部电影在某一时期内的票房表现,是衡量电影影响力和受欢迎程度的重要指标。 第二部...

  WIU1Qlm7CwPb   2023年11月02日   44   0   0 数据htmlPython数据htmlpython

在本文中,我们将使用Scrapy框架来爬取当当网的图书信息。 Scrapy是一个强大的Python爬虫框架,可以帮助我们快速高效地从网页中提取所需的数据。 首先,我们需要创建一个爬虫组件。在这个组件中,我们定义了爬虫的名称、允许的域名以及起始的爬虫页面。 在parse方法中,我们使用BeautifulSoup库来解析网页内容,并通过CSS选择器提取所需的数据。 importscrapy frombs4importBeautifulSoup classDangSpider(scrapy.Spider): name="dang" allowed_domains=["www.dangd...

  WIU1Qlm7CwPb   2023年11月02日   53   0   0 数据ide数据pythonpythonide

用python中的requests库通过 访问12306接口,来获取查询的所有车次信息 先看效果 公众号回复12306获取源代码 首先打开网站啊 然后随便输入地点时间,点击查询 然后出现查询好的车票 打开开发者模式 点击xhr,里面有一个文件 这个文件就是用来存放车次信息的 点击预览看看返回的内容 这些就是车次信息 查看url和方法 url中有三个参数需要自己填写 一个是时间,一个是出发站,一个是目的站 但是用的都是字母代码代替的 我在文件中写了一个字典,存放着名称和对应的代码 开始写代码,开始访问 键盘输入三个参数 用.json()来获取信...

前几天有粉丝问我想让我出一个微博评论 今天它来了 一键获取微博的所有评论 公众号回复微博获取源代码 先看效果 教程: 先打开微博 查看评论之后,一定要点击查看全部评论 然后来到这个界面 打开开发者模式 直接全局搜索评论的关键字 然后出来一个文件,这个文件就是存放评论的包 查看负载 我们再打开另外一条评论数多的微博,然后看一下他们的负载参数 发现id和uid不一样 应该就是作者的id和作品id了 而且这一个文件里就存放了19条评论 这是因为浏览器页面没有滑到下面,没有加载后面的评论, 现在滑到下面,发现多了几个存放评论的文件,然...

  WIU1Qlm7CwPb   2023年11月02日   90   0   0 ajaxjson公众号公众号jsonajax

python爬虫--快手完整功能版 点赞,评论,下载,批量下载,关注,作者信息 公众号回复 快手完整版 获取源代码 我们进行点赞和关注查看一下调用的文件 发现都是一个文件,只是负载参数不同 查看请求url、请求方法、请求标头、负载参数 点赞 defDZ(self,photoAuthorId,photoId): photoAuthorId:作者IDphotoId:作品ID json={'operationName':"visionVideoLike",'query':"mutationvisionVideoLike($photoId:...

  WIU1Qlm7CwPb   2023年11月02日   75   0   0 jsonide公众号公众号jsonide

用python爬取某丽图库的高清壁纸图片 分享本文章 公众号回复靓丽图库获取源代码 先看效果 没问题,都是可以看的 打开网站   随便哪个分类都可以 这里每一个div都包括了一个图片的代码 这个是图片的链接,点进去 然后出来一个网页,这个网页就是这个图片 打开开发者模式,找到下载本图的代码 这个链接就是源图片 思路: 1、先访问首页,提取所有的图片页的地址 2、循环访问所有的图片页地址,提取所有源图片链接 3、通过requests访问获取二进制码,进行保存 访问视频首页 url='https://www.hexuexiao.cn/w...

今天用python爬虫加上线程池下载保存关键词百度搜索的图片 运行代码,搜索关键词,通过线程池,一键下载多张图片 关注公众号回复百度图片获取源代码 看效果: 首先打开网站 随便搜索一个关键词 再页面源代码中找到data-objurl,data-objurl他的值就是一个图片,我们就把他下载下来就行,用爬虫来进行访问 我们先要找到所有的data-objurl,然后再for循环多线程去访问下载保存 上代码 这部分是访问首页,获取源码,提取data-objurl, 这里封装成类了,url的关键字来手动输入搜索 def__init__(self,word):key_word=par...

  WIU1Qlm7CwPb   2023年11月02日   105   0   0 搜索搜索ParseParse线程池线程池

用python爬虫下载虎牙舞蹈区视频 公众号回复虎牙获取源代码 先看效果: 打开网站 点击一个视频,打开开发者模式 全局搜索一下标题 然后找到这个getM开头的文件 发现里面的信息就包含视频地址 然后查看它的负载信息和请求地址 这几个参数不用管,videoid是视频id 可以改变它的参数获取不同的视频信息 接下来开始写代码 data_url=f'https://liveapi.huya.com/moment/getMomentContent?&videoId={vid}&uid=&_=1675864353143' res=re...

简单的爬取一个网站 文案网--不烂大街的救赎文案精选 获取文案 效果: 网站地址: https://www.wenanwang.com/lz/1764.html 内容就放在源文件当中 所以比较简单 直接访问 url='https://www.wenanwang.com/lz/1764.html' headers={ 'user-agent':'Mozilla/5.0(WindowsNT5.1;U;en;rv:1.8.1)Gecko/20061208Firefox/2.0.0Opera9.50' } 访问 res=requests.get(url=url,headers=...

  WIU1Qlm7CwPb   2023年11月02日   68   0   0 属性值属性值htmlhtmlwindowswindows

今天爬取dangdang网里的商品信息,做一个表格 价格评论和标题等信息 可以在公众号回复当当网获取源代码学习 目标网站: http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1 首先进行访问,获取该网页源代码 url='http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1' response=requests.get(url=url,headers=headers) res=response...

爬取b站视频的全站板块的排行榜单 提取出标题,地址,评论数量等等 并且写入到mysql 需要用到这四个库 importrequests importjson fromsqlalchemyimportcreate_engine importpandas 最后效果 点赞分享视频 公众号回复 b站全站榜单 获取源代码 打开网站 https://www.bilibili.com/v/popular/rank/all/ 打开开发者模式 找到这个文件,里面存放的就是榜单视频信息 请求方法地址 接下来用python爬取下来这个文件 然后处理数据 获取数据 ...

用python爬虫爬取acfun上的视频 公众号回复acfun获取源代码 看效果: 打开网站 随便点一个视频 打开开发者模式 然后搜素m3u8,找到文件,查看url 这些就是一个一个的分割出来的ts片段 全局搜素url可以发现再页面源代码中就可以找到这个m3u8文件 所以思路是 1、访问视频页面 2、提取m3u8文件地址 3、访问下载文件中的ts片段 第一部分 访问视频页面,获取源码 headers={ "user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko...

  WIU1Qlm7CwPb   2023年11月02日   84   0   0 JSONideidehtmlhtmlJSON

用python获取斗图吧表清包 微信关注公众号回复 斗图吧 获取源代码 看效果 打开网站 点击系列表情包 然后随便点击一个 然后打开开发者模式 找到该段代码 一个是表情包名称 还有一个是src属性 属性值是表情包的url地址 所以先从这个网页中获取表情包的名称和表情包的url地址 然后再进行下载保存 进行访问 注意要加上referer防盗链,因为表情包的地址设置了防盗链,如果不设置,就访问下载不了 url='https://www.doutub.com/series_lists/details/p5bdhifn5WEW3JXjDz8ReaED' h...

使用python爬虫爬取4399小游戏 准备环境: python环境,pycharm,requests库,csv库,lxml库 公众号回复4399获取源代码 教程: 打开4399网站,打开开发者模式,搜索关键字, 观察发现所有的东西都在页面源代码中 每一个游戏对应着每一个ul标签下的li下 思路: 拿到页面源码,提取出li标签的数据,再二次提取 上代码: 访问网站 url='https://www.4399.com/' headers={ 'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KH...

今天用30行代码爬取下载视频 比较简单啊 关注公众号 公众号回复梨视频获取源代码 先看效果 可以正常播放没问题 首先打开网站,随便点开一个视频 然后打开开发者模式 开始分析 内容应该是异步传输,所以我们点击网路,点击xhr 然后看到一个文件 里面存放着json格式的数据 全部点开,可以看到一个srcurl 看着像是视频源,但是我们打开它却是404 而真实的视频源地址是 https://video.pearvideo.com/mp4/adshort/20210413/cont-1726352-15654838_adpkg-ad_hd.mp4 得到的地址 https...

通过selenium模块 实现驾驶员考试网站的科目一的自动考试答题 公众号回复 自动答题获取源代码 打开这个网站 然后打开开发者模式,找到这些一个一个的题,每个li标签对应一个题,每个li标签上都有一个c属性 然后打开这个网址,这个网址存放着该题的答案,这个url后面接的是刚才的c属性值,对应着该题的答案 写代码,导入selenium包,导入webdrive模块 打开网站 获取c属性,打开存放答案的地址获取答案 whilea<=100: 获取答案网页地址,拼接答案网页地址 d=driver.find_element(By.XPATH,f'.//ul...

  WIU1Qlm7CwPb   2023年11月02日   87   0   0 HTML公众号公众号html

使用python写一个爬虫脚本 搜索岗位名称就能获取所有相关岗位信息 公众号回复Boss直聘获取源代码 先看效果: 教程: 先打开网站,搜索任意岗位 然后打开开发者模式 全局搜索下面的岗位信息 就可以找到包含岗位信息的文件 点击负载,query就是你搜索的信息 page是页数 pagesize是一页显示多少条数据 这些是查询字符串参数 我们只要在url里去改变参数即可 把请求标头也全部复制写到headers里 请求url: https://www.zhipin.com/wapi/zpgeek/search/joblist.json?scene=1&qu...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~