用python爬虫带你爬取4399小游戏-摩杜云开发者社区

用python爬虫带你爬取4399小游戏

WIU1Qlm7CwPb 2023年11月02日 88 0

HTML 公众号 for循环公众号 for循环 html

使用python爬虫爬取4399小游戏

准备环境：

python环境，pycharm，requests库，csv库，lxml库

公众号回复 4399 获取源代码

教程：

打开4399网站，打开开发者模式，搜索关键字，

观察发现所有的东西都在页面源代码中

每一个游戏对应着每一个ul标签下的li下

用python爬虫带你爬取4399小游戏_for循环

思路：

拿到页面源码，提取出li标签的数据，再二次提取

上代码：

访问网站

url = 'https://www.4399.com/'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63'
}

response = requests.get(url=url,headers=headers)

可以看到这个页面使用的是gb2312编码格式

用python爬虫带你爬取4399小游戏_公众号_02

所以我们也改成gb2312

然后用xpath来提取出每一个li标签

response = requests.get(url=url,headers=headers)
response.encoding='gb2312'
page = response.text
html = etree.HTML(page)
lis = html.xpath('//*[@id="skinbody"]/div[10]/div[1]/div[1]/ul/li')

for循环每一个li标签，二次提取出游戏名字和游戏地址

for li in lis:
    href = ''.join(li.xpath('./a/@href'))
    dit['游戏地址'] = 'https://www.4399.com/'+href
    dit['游戏名'] = ''.join(li.xpath('./a/text()'))
    w_header.writerow(dit)
print(dit,'已保存！')

并且保存到csv

看效果：

用python爬虫带你爬取4399小游戏_html_03

用python爬虫带你爬取4399小游戏_html_04

公众号回复 4399 获取源代码

感谢观看！

欢迎分享

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： python爬虫爬取视频案例，30行代码教你爬取下载保存梨视频下一篇：爬取斗图吧表情包

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

# vue 使用 html2canvas 截取图片保存

Cp0PPONmvoyE 2023年12月26日 38 0 0 跨域 HTML 跨域 html

jQuery 调用 Ajax 实现查询的局部更新（jsp + servlet + jQuery + Ajax）

anLrwkgbyYZS 2023年12月30日 41 0 0 AJAX ajax java Java HTML html

java 特殊字符串转

wURKzOHw9Irf 2023年12月24日 29 0 0 HTML ico ico html

数说中超的现场观众

U21aNepNNgqM 2023年12月22日 39 0 0 MySQL 性能瓶颈 mysql 公众号公众号性能瓶颈

爬取博客信息的简单爬虫

anLrwkgbyYZS 2023年12月30日 32 0 0 调用函数调用函数个人主页 HTML html 个人主页

css 禁止用户选择字体

8l4CZpTOKa7P 2023年12月26日 40 0 0 html html

java返回前端换行标签

8ThFdkrjNoZ5 2023年12月24日 44 0 0 字符串 Java HTML Java 字符串 html

csi 学习文档

dwHry2iKGG0I 2023年12月26日 31 0 0 github github html html

py之网详情链接

3TaxIqXGeDtF 2023年12月26日 32 0 0 windows XML windows html xml html

java渲染html数据并转换成字符串

tqf4faUYHHCA 2023年12月22日 79 0 0 Java 数据 HTML Java html 数据

py图网址获取

3TaxIqXGeDtF 2023年12月26日 29 0 0 windows XML windows html xml html

python Django的html页面中如何引入其他html

yEoORObu1VfG 2023年12月23日 25 0 0 HTML 加载 html 加载

前端歌谣-第陆拾玖课-MongoDB之node操作实现数据库增删改查

iHT0TLzU167T 2023年12月31日 34 0 0 用户名前端 javascript HTML JSON javascript JSON html 前端用户名

python html排版工具

5iQTA4J0tGQG 2023年12月23日 86 0 0 python HTML html Python

学习统一身份认证账号管理及集成

U21aNepNNgqM 2023年12月22日 89 0 0 学习 MySQL 学习公众号公众号 mysql 性能瓶颈性能瓶颈

WIU1Qlm7CwPb

作者其他文章更多

爬虫--中国气象局--全国天气

2023-11-02

爬虫黑科技：如何应对反爬虫机制，成功爬取任何网站"

2023-11-02

python爬虫40行代码一键获取b站视频的全部热门评论

2023-11-02

2023年电影票房王者！学会使用Python轻松抓取猫眼电影网站的票房排行榜数据

2023-11-02

使用Scrapy框架爬取当当网图书信息

2023-11-02

用python查询12306车票，一件获取所有车次信息

2023-11-02

python爬虫--微博评论

2023-11-02

python爬虫-实现快手点赞、评论、关注、下载等完整功能

2023-11-02

python爬虫实战-爬取某丽图库网站的古装小姐姐高清图片壁纸

2023-11-02

python多线程-通过关键词下载百度图片

2023-11-02

最新推荐更多

Spring Boot —— 集成 MyBatis-Plus

2024-05-20

keycloak~作为第三方登录的对接标准

2024-05-20

【日记】母亲生日，我在跟数字人民币 Battle（612 字）

2024-05-18

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

2024-05-18

Qt学习第二篇（基本小组件的使用）

2024-05-18

全网首一份！你最需要的PPTP MS-CHAP V2 挑战响应编程模拟计算教程！代码基于RFC2759，附全部源码！

2024-05-18

Python 潮流周刊#51：用 Python 绘制美观的图表

2024-05-18

Django测试与持续集成：从入门到精通

2024-05-18

自研WPF插件系统(沙箱运行及热插拔)

2024-05-18

记一次asp.net 8 服务器爆满的解决过程

2024-05-18

非常全能WinForm 开发框架 - ReaLTaiizor

2024-05-18

C#反射

2024-05-18

net core jwt的基本原理和实现

2024-05-18

VUE3/JAVA 操作系统开发日志[day 1]

2024-05-18

Nginx R31 doc 官方文档-01-nginx 如何安装

2024-05-18

2024 年 5 月 8 日周三晴热（471 字）

2024-05-17

2024 年 5 月 9 日周四阴常（137 字）

2024-05-17

2024 年 5 月 10 日周五阴凉（1025 字）

2024-05-17

lua~基本语法

2024-05-17

2024 年 5 月 12 日母亲节周日晴常（197 字）

2024-05-17