python模拟用户pa取-摩杜云开发者社区

python模拟用户pa取

FFjGKt2YSgpz 2023年11月02日 27 0

CSS chrome 选择器

使用Selenium模拟用户爬取页面内容，并输出成文件。关于Selenium是什么，欢迎看这篇文章：selenium Python教程。在这里，我只讲我主要的实现。

首先作为一款工具脚本，我们应该不喜欢窗口界面吧，除非你需要动态的观察程序的操作。所以，我开启了无头浏览器模式

# 无头浏览器

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)

关键的driver拿到之后，剩下的过程就简单了。和一般的requests、spider爬虫一样，需要获得页面的代码，然后解析对应的元素，拿到属性或者文本。

# titles
title_elems = driver.find_elements(by=By.CLASS_NAME, value="item-title")
titles = [title_elem.text for title_elem in title_elems]

是不是很神奇，看到了By.CLASS_NAME，是不是一下子联想到了CSS了。是的，你的预感足够的正确。如果以上的内容带给你足够的震撼和惊奇，请继续往下看，

# 所有的更新时间
related_elems = driver.find_elements(by=By.CSS_SELECTOR, value="div.item-related > span.time")
relateds = [related_elem.text for related_elem in related_elems]
# 所有的描述信息
desc_elems = driver.find_elements(by=By.CSS_SELECTOR, value="div.item-desc > span")
# 需要去除新闻摘要结尾的（）内容
descs = [desc_item.text[:desc_item.text.rfind('（')] for desc_item in desc_elems]

没错，"div.item-related > span.time"这个是什么选择起来着？后代选择器。nice，CSS的选择器它都支持。

来个小插曲：你知道的CSS选择器有哪些？

元素选择器 p div

类选择器 .highlight

ID选择器 #id

属性选择器 [type='text']

后代选择器 ul li

子元素选择器 ul > li

相邻兄弟选择器 h2+p

通用选择器 *

不要觉得我是多余的了，其实这些选择器会了，基本上在页面的爬取上就是无敌了。另外，selenium还有这几种选择器：

class By:
    """Set of supported locator strategies."""

    ID = "id"
    XPATH = "xpath"
    LINK_TEXT = "link text"
    PARTIAL_LINK_TEXT = "partial link text"
    NAME = "name"
    TAG_NAME = "tag name"
    CLASS_NAME = "class name"
    CSS_SELECTOR = "css selector"

常用的还是XPATH TAD_NAME CLASS_NAME CSS_SELECTOR 大家感兴趣的话可以自行的研究。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Linux网络编程(epoll的ET模式和LT模式) 下一篇： python小游戏——跑酷小恐龙代码开源

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

让Chromium支持H.264视频

qUJOhJyC3pLU 2023年11月13日 36 0 0 JavaScript chrome HTML5 html Google

Chromium版Edge体验——几个理由告诉你为什么卸载Chrome！

ISMU2Qnc5Xz0 2023年11月02日 71 0 0 chrome vim 开发者

手写 Puppeteer：远程控制 Chromium

hINapgLEIiPz 2023年11月02日 59 0 0 json 前端 JavaScript chrome Node.js

NGS基础：测序原始数据批量下载

YqjIGb6XwPoE 2023年11月13日 31 0 0 json CSS java html csv

flutter2.0 环境搭建（window环境下Mac自行查看官网即可）

LV2t1SbSQ6qG 2023年11月02日 45 0 0 chrome 环境变量 flutter

centos8.0桌面版无法启动chrome

MJlmRDrYd0Ow 2023年11月02日 44 0 0 内存不足 chrome 无法启动

21.9k star，推荐一款开源、好玩的神器

hV31LF452aWE 2023年12月06日 38 0 0 CSS html Web

FFmpeg抽帧

utcwpaXdbjbR 2023年11月02日 53 0 0 html 选择器 ffmpeg

微软全新Chromium版Edge浏览器正式版发布（附下载地址）

2yEh9rtFEVa3 2023年11月02日 58 0 0 收藏夹 chrome microsoft

linux — Centos 7（第一天）使用时出现的问题及解决方法

AbPPF1e3wC1t 2023年11月02日 40 0 0 chrome vlc yum rpm CentOS 7

[Browser]Google Chrome,Mozilla Firefox,360浏览器之间收藏夹内容交换问题与解决

03tVuUljR7gk 2023年11月02日 59 0 0 browser chrome firefox 360 浏览器

Linux学习总结（九）—— CentOS常用软件安装：中文输入法、Chrome

gVhxRo77aznb 2023年11月02日 32 0 0 chrome 中文输入法 linux CentOS

centos7 安装Chrome无头浏览器和驱动

0MwyX0nwtoUj 2023年11月02日 56 0 0 前端 chrome vim linux

Debian系列-VS Code Chrome 安装

XxAHIGK5wVKO 2023年11月02日 72 0 0 chrome nano debian linux vscode

chromium-106-log-修改图标

4k8CYwE7FVjQ 2023年11月13日 39 0 0 Chromium chrome ico github

7月份GitHub上最热门的开源项目

xrFJXBQvxi51 2023年11月02日 73 0 0 chrome github 开发者

CentOS8系统Chrome安装、卸载、更新、查看版本号

gpcBo7k6GxFf 2023年11月02日 56 0 0 chrome linux 解决方案

centos7安装chromedriver

0fXj1kPqEAbu 2023年11月02日 59 0 0 redhat chrome yum linux CentOS

centos8 安装VNC配置远程连接

mMrBsecV9g11 2023年11月02日 57 0 0 chrome 桌面环境 CentOS

用!important解决IE和Mozilla的布…

xVpghvCvc9NK 2023年11月02日 71 0 0 CSS firefox 优先级

FFjGKt2YSgpz

作者其他文章更多

python模拟用户pa取

2023-11-02

最新推荐更多

LED Driver数码屏应用解决方案

2023-12-12

FastAdmin插件开发记录（一）一键生成CRUD后关联id在列表和添加、编辑页显示名称

2023-12-12

申请获取数字高程模型12米、30米数据：TanDEM-X

2023-12-12

推荐一款好用的windows工具，推荐！

2023-12-12

3.5K star，开源效率工具推荐

2023-12-12

分享巴西劈裂试验代码

2023-12-12

如何实现抽屉式导航（ArkUI）

2023-12-12

蚂蚁集团mPaaS平台与华为达成合作加速上千家App“鸿蒙化”进程

2023-12-12

国产鲲鹏920处理器服务器部署Proxmox VE Arm 8.x

2023-12-12

『江鸟中原』harmony 鸿蒙简单时钟开发

2023-12-11

LED面板显示屏驱动芯片

2023-12-11

FunAdmin安装记录

2023-12-11

推荐一款超级强大的软件，电脑必备

2023-12-11

pfc 常用fish语言及定义方法

2023-12-11

39.4k star，强推这款下载器，可以放弃迅雷了

2023-12-11

如何实现波纹进度条（ArkUI）

2023-12-11

云贝教育 |【技术文章】PostgreSQL中误删除数据怎么办（一）

2023-12-11

云贝教育 | 【PostgreSQL PGCA题库解析-6】在PostgreSQL的数据目录结构中,默认表空间的目录是哪个？

2023-12-11

超卓航科引领冷喷涂增材制造革新，推动先进核反应堆发展

2023-12-11

queryCoord的balancer分析

2023-12-11