凑个小热闹:python采集《狂飙》评论
  IU4mmr5gQL4g 2023年11月02日 37 0

2023年首部爆款剧集《狂飙》一度冲上热搜第一,害的我两倍速熬夜看完了。

 

 

“是非面前稍不留神,就会步入万丈深渊,唯有坚守信仰,才能守得初心”

 

 

面对这么多广大网友的讨论,我也来凑上一个热闹

用python爬取《狂飙》评论数据

代码展示

部分代码展示

import requests
import parsel
# 我还录制了详细讲解的视频,直接在这个裙 708525271 自取,包括完整代码

headers = {
    'Cookie': '数据我都删除了,建议用自己的',
    'Host': '',
    'User-Agent': '',
}
for page in range(0, 4000):
    print(page)
    url = f'https://movie.douban.com/subject/35465232/comments?start={page*20}&limit=20&status=P&sort=new_score'
    response = requests.get(url=url, headers=headers)
    select = parsel.Selector(response.text)
    comments = select.css('.comment-item .comment')
    for comment in comments:
        name = comment.css('.comment-info a::text').get()
        try:
            score_str = comment.css('.comment-info .rating::attr(class)').get()
            score = score_str.replace('0 rating', '').replace('allstar', '')
        except:
            score = 0
        comment_time = comment.css('.comment-info .comment-time::text').get().strip()
        vote_count = comment.css('.comment-vote .votes.vote-count::text').get()
        comment_content = comment.css('.comment-content span::text').get()
        print(name, score, comment_time, vote_count, comment_content)

 

 

效果展示

 

 

不登录的话,只能采集部分,全部评论需要登录后才能爬取。

浏览器数据容易泄密,我都删掉了,大家自己修改一下。

 

 

最后

感谢你观看我的文章~本次航班到这里就结束🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

 

 

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力)

 

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  2Fnpj8K6xSCR   2024年05月17日   107   0   0 Python
  xKQN3Agd2ZMK   2024年05月17日   75   0   0 Python
  fwjWaDlWXE4h   2024年05月17日   38   0   0 Python
  YpHJ7ITmccOD   2024年05月17日   40   0   0 Python
IU4mmr5gQL4g