scrapy初始化selenium，防止网站反爬虫策略监测自动化控件-摩杜云开发者社区

scrapy初始化selenium，防止网站反爬虫策略监测自动化控件

TEZNKK3IfmPf 2023年11月14日 84 0

selenium Scrapy

反爬策略会监测是否是自动化控件在操纵浏览器，webdriver默认会给一个友好的提示，但是我们希望它邪恶一点，一般在middleware.py中添加这个配置项：

from selenium import webdriver
import time
from scrapy.http import HtmlResponse


class HandlessMiddleware(object):

    def __init__(self):
        # super(HandlessMiddleware, self).__init__()
        option = webdriver.ChromeOptions()
        option.add_argument("--incognito")  # 配置隐私模式
        # option.add_argument('--disable-gpu') # 禁用GPU
        option.add_argument('lang=zh_CN.UTF-8') # 设置
        # 取消自动化控制提示
        option.add_experimental_option("excludeSwitches", ["enable-automation"])
        option.add_experimental_option('useAutomationExtension', False)
		
		# 设置随机的useragent
        # option.add_argument(
        # 'user-agent=' + self.ua.random)
        # option.add_argument('headless')
        
        prefs = {
     
       
            # "profile.managed_default_content_settings.images": 2, # 禁止加载图片
            # 'permissions.default.stylesheet': 2, # 禁止加载css
        }
        
        option.add_experimental_option("prefs", prefs)
        self.browser = webdriver.Chrome(chrome_options=option)
        
        # 执行js取消webdriver的标识
        self.browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
     
       
            "source": """ Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) """
        })
        self.browser.implicitly_wait(5) # 获取页面元素时智能等待5s

    def process_request(self, request, spider):
    	pass

然后在settings.py中添加配置：

DOWNLOADER_MIDDLEWARES = {
     
       
    '项目名.middlewares.MeituanPurchaseDownloaderMiddleware': None, # 设置为None
    '项目名.middlewares.HandlessMiddleware': 200, # 添加这个middleware
}

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： python判断序列值横穿整个区间的次数下一篇：解决ray报错AttributeError: module ‘aioredis‘ has no attribute ‘create_redis_pool‘

分享：

最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读

Scrapy 调用chrome浏览器的middleware

TEZNKK3IfmPf 2023年11月14日 25 0 0 Scrapy chrome

解决Scrapy使用pipline保存到数据库后返回None

TEZNKK3IfmPf 2023年11月14日 35 0 0 Scrapy

selenium使用webdriver新开标签页

TEZNKK3IfmPf 2023年11月14日 22 0 0 selenium

selenium-隐式等待和显式等待-0223

TEZNKK3IfmPf 2023年11月14日 30 0 0 selenium 加载

Selenium加速执行方法

TEZNKK3IfmPf 2023年11月13日 47 0 0 selenium

selenium工具的安装

TEZNKK3IfmPf 2023年11月13日 73 0 0 selenium python

scrapy中使用css选择器罗列下一级的所有标签

TEZNKK3IfmPf 2023年11月14日 62 0 0 css Scrapy

scrapy保存、中断、继续执行爬虫程序

TEZNKK3IfmPf 2023年11月14日 182 0 0 Scrapy python

python selenium源码目录及异常模块说明

TEZNKK3IfmPf 2023年11月13日 36 0 0 selenium python

scrapy初始化selenium，防止网站反爬虫策略监测自动化控件

TEZNKK3IfmPf 2023年11月14日 85 0 0 selenium Scrapy

Scrapy_redis框架的概念作用和流程

TEZNKK3IfmPf 2023年11月13日 32 0 0 框架 Scrapy redis

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14