爬取博客信息的简单爬虫-摩杜云开发者社区

爬取博客信息的简单爬虫

anLrwkgbyYZS 2023年12月30日 16 0

调用函数调用函数个人主页 HTML html 个人主页

调用 getOneBlogDetails( ) 函数可以获取目标网页的博主姓名，个人主页网址，原创文章、粉丝、喜欢、评论数量，等级、访问量、积分、排名。

#!/usr/lib/python3.6
#encoding = utf-8
#爬取一个博客的基本信息
#本爬虫仅用于学习，纯属爱好，虽然本爬虫很简单，但还是请大家不要滥用

import requests
from bs4 import BeautifulSoup

# 请求头
headers = {
	'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0'
} 

#博客网址
url = ""

#爬取博客基本信息的函数
def getOneBlogDetails(url):

    #获取网页的数据
	r = requests.get(url, headers=headers, timeout=100)
        
    #解析网页，BeautifulSoup的官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
	soup = BeautifulSoup(r.text, "html.parser")

	Name = soup.find('a', id="uid").text
	My_url = soup.find('a', id="uid").get('href')

	info = soup.find('div', class_="data-info d-flex item-tiling")
	#info_list1: [<dt><a href="?t=1">原创</a></dt>, <dt>粉丝</dt>, <dt>喜欢</dt>, <dt>评论</dt>]
	info_list1 = info.find_all('dt')
	# info_list2: [<span class="count">77</span>, <span class="count" id="fan">0</span>, <span class="count">0</span>, <span class="count">1</span>]
	info_list2 = info.find_all('span', class_='count')


	info1 = soup.find('div', class_="grade-box clearfix")
	info1_list = info1.find_all('dl')
	Base = {}
	Base1 = {}
	for i in range(len(info_list2)):
		Base[info_list1[i].text] = info_list2[i].text
    
	for link in info1_list:
		key = link.find('dt').text 
		if link.find('dd').text.strip() == '':
			values = link.find('a').get('title')[0:2] 
		else:
			values = link.find('dd').text.strip()
		Base1[key] = values

	print( "博主姓名: " + Name )
	print( "个人主页: " + My_url)
	for key in Base.keys():
		print( key + ": " + Base[key])

	for key in Base1.keys():
		print( key  + Base1[key])

# 调用函数
getOneBlogDetails(url)

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： 1726 : 迷宫（广搜）下一篇： matrix（枚举 + 二分优化）

分享：

最后一次编辑于 2023年12月30日 0

暂无评论

推荐阅读

css 禁止用户选择字体

8l4CZpTOKa7P 2023年12月26日 13 0 0 html html

java返回前端换行标签

8ThFdkrjNoZ5 2023年12月24日 19 0 0 字符串 Java HTML 字符串 html Java

# vue 使用 html2canvas 截取图片保存

Cp0PPONmvoyE 2023年12月26日 15 0 0 跨域 HTML 跨域 html

csi 学习文档

dwHry2iKGG0I 2023年12月26日 9 0 0 github github html html

py之网详情链接

3TaxIqXGeDtF 2023年12月26日 12 0 0 windows XML windows html xml html

py图网址获取

3TaxIqXGeDtF 2023年12月26日 13 0 0 windows XML windows html xml html

jQuery 调用 Ajax 实现查询的局部更新（jsp + servlet + jQuery + Ajax）

anLrwkgbyYZS 2023年12月30日 16 0 0 AJAX ajax java Java HTML html

java 特殊字符串转

wURKzOHw9Irf 2023年12月24日 12 0 0 HTML ico ico html

python import 模块里的同名函数

dpoUgXS1q0aA 2023年12月23日 14 0 0 调用函数调用函数甘特图甘特图 python Python

前端歌谣-第陆拾玖课-MongoDB之node操作实现数据库增删改查

iHT0TLzU167T 2023年12月31日 18 0 0 用户名前端 javascript HTML JSON javascript JSON html 前端用户名

python html排版工具

5iQTA4J0tGQG 2023年12月23日 66 0 0 HTML python html Python

爬取博客信息的简单爬虫

anLrwkgbyYZS 2023年12月30日 17 0 0 调用函数调用函数个人主页 HTML html 个人主页

anLrwkgbyYZS

作者其他文章更多

Dp 基础：最长公共子序列

2023-12-30

等比数列求和（快速幂 + 逆元）

2023-12-30

978E Bus Video System

2023-12-30

1279 扔盘子（Stack）

2023-12-30

Dp基础简单背包问题

2023-12-30

Milking Time POJ - 3616

2023-12-30

最长上升子序列

2023-12-30

1117 聪明的木匠

2023-12-30

更换jdk， IDEA 报错：Information:java: Errors occurred while compiling module '项目名'

2023-12-30

1459 迷宫游戏 (dijkstra)

2023-12-30

最新推荐更多

2024 年 5 月 1 日周三小雨冷（384 字）

2024-05-08

2024 年 5 月 5 日周日晴常（245 字）

2024-05-08

2024 年 5 月 6 日阴历生日周一晴常（945 字）

2024-05-08

2024 年 5 月 7 日周二晴常（324 字）

2024-05-08

九、贪吃蛇之蛇身控制

2024-05-08

Quick Logger 强大的企业级异步记录器

2024-05-08

C语言加强

2024-05-08

删除A中与B相同的元素

2024-05-08

顺序表的实现

2024-05-08

深入探究C++ 类成员（Class Members）

2024-05-08

cpp的lambda表达式

2024-05-08

validator库在gin中的使用

2024-05-08

【详细教程】手把手教你开通YouTube官方API接口(youtube data api v3)

2024-05-08

深入学习和理解Django模板层：构建动态页面

2024-05-08

day31-jQuery

2024-05-08

aardio爬虫) 实战篇：逆向有道翻译web接口

2024-05-08

Python文本统计与分析从基础到进阶

2024-05-08

七仔的桌面工具

2024-05-08

NumPy 数组创建方法与索引访问详解

2024-05-08

Django高级表单处理与验证实战

2024-05-08