使用Faraday库采集微博图片-摩杜云开发者社区

使用Faraday库采集微博图片

bxzTbUwSHjCk 2023年11月05日 52 0

CSS Ruby Ruby css html html

使用Faraday库采集微博图片_HTML

之前我们写过一个微博采集程序，不是特别难，那么有朋友想让我用Faraday库来写一个微博的爬虫程序，还要用Ruby来采集微博的图片。果然，不费吹灰之力，它来了，一起来学习一下吧。

```ruby
require 'faraday'
require 'nokogiri'
proxy_host = 'https://www.duoip.cn/get_proxy'
proxy_port = 8000
# 创建一个Faraday实例，设置代理
faraday = Faraday.new do |faraday|
faraday.request :proxy, proxy_host, proxy_port
end
# 构建请求URL
url = 'https://weibo.com/'
# 发送GET请求
response = faraday.get url
# 使用Nokogiri解析响应内容
doc = Nokogiri::HTML(response.body)
# 遍历文档中的所有img标签
doc.css('img').each do |img|
# 获取img标签的src属性
src = img['src']
# 如果src属性不为空，则打印该图片的URL
puts src if src
end
```

那么上面的代码呢，首先引入了Faraday和Nokogiri库，然后创建了一个Faraday实例，并设置了代理。接着构建了请求的URL，发送了GET请求，并使用Nokogiri解析了相应内容。最后，遍历了文档中的所有img标签，并打印出了img标签的src属性（即图片的URL）。注意，如果src属性为空，则不会打印任何内容。希望这个程序能帮助你完成任务！

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：如何使用scrapy库编写一个滴滴采集程序下一篇：《深度学习的数学》（涌井良幸、涌井贞美著）神经网络计算pytorch示例二

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

Python爬虫入门：如何设置代理IP进行网络爬取

iJtbfD70nDpI 2023年11月30日 35 0 0 IP 百度 IP html 百度 HTML

汽车之家车型车系配置参数采集示例

bxzTbUwSHjCk 2023年11月19日 33 0 0 数据 php 数据 html PHP html

简单实现Python采集B站视频

bxzTbUwSHjCk 2023年11月19日 26 0 0 代理服务器 User html User html 代理服务器

R语言实现抖音达人数据采集

bxzTbUwSHjCk 2023年11月19日 44 0 0 抓取网页抓取网页数据保存 html html 数据保存

Python使用多进程及代理ip爬取小说

iJtbfD70nDpI 2023年11月30日 33 0 0 IP 多进程 IP html 多进程 HTML

Python爬虫：如何抓取百度搜索结果

bxzTbUwSHjCk 2023年11月24日 40 0 0 python html python 搜索 html 搜索

html之使用echarts数据可视化展示

1rF7c5LZNYs3 2023年12月10日 25 0 0 数据数据可视化数据 html HTML 数据可视化

零代码编程：用ChatGPT批量下载某个网页中的特定网页链接

6ZTWmbGzfXvY 2023年11月30日 41 0 0 文件名批量下载 html 文件名批量下载 html

Python搭建代理IP池实现接口设置与整体调度

iJtbfD70nDpI 2023年12月05日 32 0 0 数据库 IP 数据库 IP html HTML

Python构思如何采集天气数据

bxzTbUwSHjCk 2023年11月24日 42 0 0 数据数据 python html python html

Python爬取某电商平台商品数据及评论！

iJtbfD70nDpI 2023年11月30日 27 0 0 电商平台数据电商平台 html 数据 HTML

为什么运行结果显示无法爬取HTML内容

bxzTbUwSHjCk 2023年12月06日 28 0 0 解决方案反爬虫反爬虫 html html 解决方案

Python爬虫——代理IP与访问控制

iJtbfD70nDpI 2023年11月28日 33 0 0 IP 时间间隔 IP html 时间间隔 HTML

Pandas一键爬取解析代理IP与代理IP池的维护

iJtbfD70nDpI 2023年11月24日 28 0 0 IP 端口号 IP html 端口号 HTML

bxzTbUwSHjCk

作者其他文章更多

如何解决爬虫10060错误

2023-12-23

Python多线程计算的方法及示例代码

2023-12-23

数据抓取与数据挖掘之间的区别

2023-12-23

Python学习中的Pond是什么

2023-12-23

解决DMA驱动程序错误的方法

2023-12-23

python中rank函数怎样理解

2023-12-23

Python编程中的实用技巧

2023-12-23

Python学习中的难点及应对策略

2023-12-23

Pytorch 与 Python 有什么联系或区别

2023-12-23

python二分类模型精度低怎么办

2023-12-23

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14