2023爬虫学习笔记 -- 某狗网站爬取数据
  KRe60ogUm4le 11天前 15 0

一、爬取某狗网站的首页

1、导入需要的库文件

import requests

2、指定我们要访问的网址

网页="https://"

3、获取服务器的返回的所有信息

响应=requests.get(网页)

4、通过text属性,从返回信息中读取字符串内容

响应内容=响应.text

5、查看读取到的内容

print(响应内容)

6、将读取到的内容存放起来

withopen("sogou.html","w") as 数据:    数据.write(响应内容)

7、程序执行完毕

print("存储数据成功!!!")

8、预览我们保存的sogou.html页面

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

9、保存的内容有乱码,所以我们保存的时候要指定编码格式

withopen("sogou.html","w",encoding="utf-8") as 数据:    数据.write(响应内容)

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

二、实现搜索功能

1、搜狗首页输入要搜索的内容

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

2、分析搜索的网址,query后面跟着的就是想要搜索的内容

https:///web?query=python

3、设置要搜索的关键字,修改上面的程序

搜索关键字=input("请输入要搜索的关键字:")网页="https:///web?query="+搜索关键字

4、重新运行程序,输入要搜索的关键字,按回车键

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

5、浏览保存的文件,又报错了,检测到了异常

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

6、给他加上一个头信息,加上浏览器指纹

头={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}响应=requests.get(网页,headers=头)

7、运行结果

 

 

2023爬虫学习笔记 -- 某狗网站爬取数据

 

三、如果传递多个参数,可以将参数写成一个字典形式

参数={"query":搜索关键字}响应=requests.get(网页,params=参数,headers=头)

四、最终源码

import requests搜索关键字=input("请输入要搜索的关键字:")参数={"query":搜索关键字}头={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}## 网页="https:///web"网页="https:///web?query="+搜索关键字响应=requests.get(网页,params=参数,headers=头)响应内容=响应.textprint(响应内容)with open("sogou.html","w",encoding="utf-8") as 数据:    数据.write(响应内容)print("存储数据成功!!!")
【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 11天前 0

暂无评论

KRe60ogUm4le