Python和requests库结合采集豆瓣短评
  bxzTbUwSHjCk 2023年11月19日 28 0

Python和requests库结合采集豆瓣短评_Python

Python是一种常用的程序语言,今天我们就用Python和requests库结合,来写一个采集豆瓣短评的程序,非常的简单,一起来学学吧。

```python
import requests
from bs4 import BeautifulSoup# 设置代理
proxy = f'http://{proxy_host}:{proxy_port}'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
reviews = soup.find_all('span', class_='short')# 打印短评
for review in reviews:
   print(review.text)
```

每一步的解释如下:

1. 导入需要的库(requests和BeautifulSoup)。
2. 设置代理(proxy_host和proxy_port)。
3. 使用requests库的get方法,向豆瓣图书top250页面发送GET请求,同时设置headers和proxies。
4. 使用BeautifulSoup库解析返回的HTML。
5. 使用find_all方法,找到所有class为'short'的span标签,这些标签包含短评信息。
6. 使用for循环,打印出每个短评。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月19日 0

暂无评论

推荐阅读
bxzTbUwSHjCk