爬取a站视频，m3u8案例，acfun-摩杜云开发者社区

爬取a站视频，m3u8案例，acfun

WIU1Qlm7CwPb 2023年11月02日 86 0

JSON ide ide html html JSON

用python爬虫爬取acfun上的视频

公众号回复acfun获取源代码

看效果：

打开网站

爬取a站视频，m3u8案例，acfun_html

随便点一个视频

打开开发者模式

然后搜素m3u8，找到文件，查看url

爬取a站视频，m3u8案例，acfun_ide_02

爬取a站视频，m3u8案例，acfun_ide_03

这些就是一个一个的分割出来的ts片段

全局搜素url可以发现再页面源代码中就可以找到这个m3u8文件

所以思路是

1、访问视频页面

2、提取m3u8文件地址

3、访问下载文件中的ts片段

第一部分

访问视频页面，获取源码

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44",
    'Referer': 'https: // www.acfun.cn /'
}
    # 访问视频页获取源码
    response = requests.get(url=html_url,headers=headers)
    html_data = response.text
    # print(html)

第二部分

从源码中获取标题，m3u8文件

# 从源码中获取m3u8文件
    title = ''.join(re.findall('<title >(.*?) - AcFun弹幕视频网 - 认真你就输啦 \(\?ω\?\)ノ- \( ゜- ゜\)つロ</title>',html_data))
    print(title)


    html = etree.HTML(html_data)


    json_data = re.findall('window.pageInfo = window.videoInfo = (.*?);{1}',html_data)[0]


    j1 = json.loads(json_data)
    m3u8_url = json.loads(j1["currentVideoInfo"]["ksPlayJson"])['adaptationSet'][0]['representation'][0]['backupUrl'][0]


    m3u8_data = requests.get(url=m3u8_url,headers=headers).text
    # print(m3u8_data)
    m3u8_data = re.sub('#E.*','',m3u8_data).split()
    # print(m3u8_data)

第三部分

循环下载.ts文件，保存

for ts in m3u8_data:
        ts_url = 'https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/'+ts
        ts_content = requests.get(url=ts_url,headers=headers).content
        with open(f'acfun/{title}.mp4',mode='ab') as f:
            f.write(ts_content)


    print('已保存完成！')

最后看效果

爬取a站视频，m3u8案例，acfun_html_04

爬取a站视频，m3u8案例，acfun_json_05

没问题

公众号回复acfun获取源代码

感谢观看

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：爬取斗图吧表情包下一篇：爬取b站全站视频榜单保存到mysql

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

jQuery 调用 Ajax 实现查询的局部更新（jsp + servlet + jQuery + Ajax）

anLrwkgbyYZS 2023年12月30日 41 0 0 AJAX ajax java Java HTML html

10 个杀手级的 Python 自动化脚本

XB0t0pHC2GN6 2024年01月26日 34 0 0 ide API Image Image ide API

Xcode 15 正式版发布（百度网盘下载） - Apple 平台 IDE

VwZqWyI9fBGR 2023年12月29日 36 0 0 应用程序 Apple 应用程序 Apple macos ide macos xcode ide xcode

Java 的深拷贝和浅拷贝学习

anLrwkgbyYZS 2023年12月30日 30 0 0 System System 浅拷贝浅拷贝 ide ide

Java 接口学习总结

anLrwkgbyYZS 2023年12月30日 28 0 0 System 默认方法 ide System 默认方法 ide

代理设计模式（Proxy）

anLrwkgbyYZS 2023年12月30日 31 0 0 System java ide System Java ide

建造者设计模式（Builder）

anLrwkgbyYZS 2023年12月30日 35 0 0 Java 建造者建造者 java ide ide

爬取博客信息的简单爬虫

anLrwkgbyYZS 2023年12月30日 32 0 0 调用函数调用函数个人主页 HTML html 个人主页

Java 并发工具类之 Semaphore

anLrwkgbyYZS 2023年12月30日 39 0 0 i++i++数据库连接 ide 数据库连接 ide

外卖跑腿系统开发：构建高效、安全的服务平台

PaOhvuHAwZ1R 2024年01月26日 47 0 0 用户认证用户认证 JSON 地理位置 JSON 地理位置

处理“远程主机强迫关闭了一个现有的连接”

biE3E3UjTjeg 2024年01月22日 40 0 0 ide TCP 数据库系统 ide 数据库系统 TCP

978E Bus Video System

anLrwkgbyYZS 2023年12月30日 33 0 0 ide ci ci Max ide Max

得物开放平台接入得物SDK

LqPDwLh9cINN 2024年01月26日 37 0 0 Java JSON Java spring spring json

前端歌谣-第陆拾玖课-MongoDB之node操作实现数据库增删改查

iHT0TLzU167T 2023年12月31日 34 0 0 用户名前端 javascript HTML JSON javascript JSON html 前端用户名

Java 中 String、StringBuilder 和 StringBuffer 的区别

anLrwkgbyYZS 2023年12月30日 38 0 0 字符数组 ide 数据存储字符数组 ide 数据存储

Java 使用 Callable 接口创建线程

anLrwkgbyYZS 2023年12月30日 42 0 0 System 抛出异常 System 抛出异常 ide ide

WIU1Qlm7CwPb

作者其他文章更多

爬虫--中国气象局--全国天气

2023-11-02

爬虫黑科技：如何应对反爬虫机制，成功爬取任何网站"

2023-11-02

python爬虫40行代码一键获取b站视频的全部热门评论

2023-11-02

2023年电影票房王者！学会使用Python轻松抓取猫眼电影网站的票房排行榜数据

2023-11-02

使用Scrapy框架爬取当当网图书信息

2023-11-02

用python查询12306车票，一件获取所有车次信息

2023-11-02

python爬虫--微博评论

2023-11-02

python爬虫-实现快手点赞、评论、关注、下载等完整功能

2023-11-02

python爬虫实战-爬取某丽图库网站的古装小姐姐高清图片壁纸

2023-11-02

python多线程-通过关键词下载百度图片

2023-11-02

最新推荐更多

Spring Boot —— 集成 MyBatis-Plus

2024-05-20

keycloak~作为第三方登录的对接标准

2024-05-20

【日记】母亲生日，我在跟数字人民币 Battle（612 字）

2024-05-18

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

2024-05-18

Qt学习第二篇（基本小组件的使用）

2024-05-18

全网首一份！你最需要的PPTP MS-CHAP V2 挑战响应编程模拟计算教程！代码基于RFC2759，附全部源码！

2024-05-18

Python 潮流周刊#51：用 Python 绘制美观的图表

2024-05-18

Django测试与持续集成：从入门到精通

2024-05-18

自研WPF插件系统(沙箱运行及热插拔)

2024-05-18

记一次asp.net 8 服务器爆满的解决过程

2024-05-18

非常全能WinForm 开发框架 - ReaLTaiizor

2024-05-18

C#反射

2024-05-18

net core jwt的基本原理和实现

2024-05-18

VUE3/JAVA 操作系统开发日志[day 1]

2024-05-18

Nginx R31 doc 官方文档-01-nginx 如何安装

2024-05-18

2024 年 5 月 8 日周三晴热（471 字）

2024-05-17

2024 年 5 月 9 日周四阴常（137 字）

2024-05-17

2024 年 5 月 10 日周五阴凉（1025 字）

2024-05-17

lua~基本语法

2024-05-17

2024 年 5 月 12 日母亲节周日晴常（197 字）

2024-05-17