爬虫--文案网--不烂大街的救赎文案精选
  WIU1Qlm7CwPb 2023年11月02日 69 0

简单的爬取一个网站

文案网--不烂大街的救赎文案精选

获取文案

效果:

爬虫--文案网--不烂大街的救赎文案精选_html


爬虫--文案网--不烂大街的救赎文案精选_Windows_02

网站地址:

https://www.wenanwang.com/lz/1764.html

内容就放在源文件当中

所以比较简单

直接访问

url = 'https://www.wenanwang.com/lz/1764.html'


headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}
# 访问
res = requests.get(url=url,headers=headers)

拿到源代码之后

用bs4解析提取

bs4解析方法就是通过标签名和属性值来定位的

意思是:定位到第一个标签为div,class属性值为content 的所有的p标签

lis = soup.find_all('div',class_='content')[0].find_all_next('p')

soup = BeautifulSoup(text,'html.parser')
# 提取所有的文案
lis = soup.find_all('div',class_='content')[0].find_all_next('p')

返回一个列表

循环打印

# 逐个打印
for li in lis:
    print(li.text)


看效果

爬虫--文案网--不烂大街的救赎文案精选_html

以下是完整代码

import requests
from bs4 import BeautifulSoup








url = 'https://www.wenanwang.com/lz/1764.html'


headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}
# 访问
res = requests.get(url=url,headers=headers)
# 设置编码
res.encoding='utf8'
text = res.text
# 使用bs4解析
soup = BeautifulSoup(text,'html.parser')
# 提取所有的文案
lis = soup.find_all('div','content')[0].find_all_next('p')
# 逐个打印
for li in lis:
    print(li.text)


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
WIU1Qlm7CwPb