这是做什么用的 框架用途 在采集大量新闻网站时,不可避免的遇到动态加载的网站,这给配模版的人增加了很大难度。本来配静态网站只需要两个技能点:xpath和正则,如果是动态网站的还得抓包,遇到加密的还得js逆向。 所以就需要用浏览器渲染这些动态网站,来减少了配模板的工作难度和技能要求。动态加载的网站在新闻网站里占比很低,需要的硬件资源相对于一个人工来说更便宜。 实现方式 采集框架使用浏览器渲染有两种方式,一种是直接集成到框架,类似GerapyPyppeteer,这个项目你看下源代码就会发现写的很粗糙,它把浏览器放在_process_request方法里启动,然后采集完一个链接再关闭浏览器,大部分时...

  9iw60eR2lMyO   2023年11月02日   45   0   0 Python

前言 我打算写一个系列,内容是将python注入到其他进程实现inlinehook和主动调用。本篇文章是这个系列的第一篇,后面用到的案例是注入python到PC微信实现基本的收发消息。文章着重于python方面的内容,所以对于微信找收发消息的call不会去讲过程,有兴趣的可以直接百度搜PC微信逆向。 我想要的inlinehook效果是hook(address,callback),就是只需要给定hook的内存地址address和回调函数callback就能实现hook,回调函数的参数是所有的寄存器组成的结构体。这样我就能读取该位置的任意数据出来,也能很方便的移植到Python里。不清楚能不能完全...

  9iw60eR2lMyO   2023年11月02日   29   0   0 Python
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~