开始学习爬虫所遇到的问题合集:
1.Beautiful Soup类的基本元素
Tag:标签,最基本的信息单位,<>开头 <>结尾
Name:标签的名字,如<p> </p>的名字是'p',tag.name
Attributes:标签的属性,字典格式,tag.attrs
NavigableString:标签内非属性字符串,tag.string
Comment:标签内字符串注释部分,<!--注释-->,尖括号叹号表示注释开始
获取父类标签:tag.parent.name
遍历(获取子节点),获取第一个ul里面所有子节点
soup = BeautifulSoup(data,'lxml')
t = soup.ul.children
获取子节点
soup = BeautifulSoup(data,'lxml')
t = soup.ul.contents
标签选择器
2.解析方式:
BeautifulSoup(res,"lxml")
BeautifulSoup(res,"parser")
3.获取信息方式:
Beautiful Soup:提供find()和find_all()
3.正则获取
reg = re.search(表达式,msg,匹配方式)