【爬虫日记】
  zzwpYXrztNx3 2023年11月30日 11 0

开始学习爬虫所遇到的问题合集:

1.Beautiful Soup类的基本元素

Tag:标签,最基本的信息单位,<>开头 <>结尾

Name:标签的名字,如<p> </p>的名字是'p',tag.name

Attributes:标签的属性,字典格式,tag.attrs

NavigableString:标签内非属性字符串,tag.string

Comment:标签内字符串注释部分,<!--注释-->,尖括号叹号表示注释开始

获取父类标签:tag.parent.name

遍历(获取子节点),获取第一个ul里面所有子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.children

获取子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.contents

标签选择器

2.解析方式:

BeautifulSoup(res,"lxml")
BeautifulSoup(res,"parser")

3.获取信息方式:

Beautiful Soup:提供find()和find_all()

3.正则获取

reg = re.search(表达式,msg,匹配方式)


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月30日 0

暂无评论

推荐阅读
  zzwpYXrztNx3   2023年11月30日   12   0   0 爬虫测试
zzwpYXrztNx3
作者其他文章 更多

2023-12-06

2023-12-06

2023-11-30

最新推荐 更多