如何使用HtmlUnit库采集天猫图片-摩杜云开发者社区

如何使用HtmlUnit库采集天猫图片

bxzTbUwSHjCk 2023年11月05日 60 0

Image java java html Image html

如何使用HtmlUnit库采集天猫图片_java

天猫阿里旗下一个优秀的购物平台，很多刚开始接触电商的朋友都一天猫为变准，用心打造自己的商品宝贝，天猫上面很多商家的精美图片也是我们用以效仿的好范本。今天我就用HtmlUnit库写一个用于采集天猫商品图片的爬虫，希望能对刚刚接触电商的朋友有所帮助。

```java
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebPage;
import com.gargoylesoftware.htmlunit.html.Image;
import org.apache.commons.io.FileUtils;
import org.apache.commons.lang3.StringUtils;
import java.io.File;
import java.io.IOException;
import java.net.URL;
import java.util.List;
public class Crawler {
public static void main(String[] args) {
String targetUrl = "https://www.tmall.com/";
String proxyHost = "https://www.duoip.cn/get_proxy";
int proxyPort = 8000;
WebClient webClient = new WebClient();
webClient.setProxyHost(proxyHost);
webClient.setProxyPort(proxyPort);
try {
webClient.connect(targetUrl);
WebPage webPage = webClient.getPage(targetUrl);
List images = webPage.getImages();
for (Image image : images) {
URL imageUrl = image.getUrl();
String imageUrlStr = imageUrl.toString();
if (StringUtils.startsWith(imageUrlStr, "https")) {
String filename = imageUrlStr.substring(imageUrlStr.lastIndexOf("/") + 1);
File file = new File("images/" + filename);
FileUtils.copyURLToFile(imageUrl, file);
System.out.println("Downloaded image: " + filename);
}
}
} catch (IOException e) {
e.printStackTrace();
} finally {
webClient.close();
}
}
}
```

这个程序首先会创建一个WebClient对象，并设置代理主机和端口。然后，它连接到目标URL并获取页面。然后，它获取页面上的所有图像，并获取图像URL，然后检查URL是否以"https"开头。如果是，它创建一个文件名，将文件下载到当前目录，并打印下载的文件名。最后，关闭WebClient对象。需要注意的是，我写的这个程序需要在有网络连接的环境下运行，并且需要安装HtmlUnit库和Apache Commons IO库。此外，这个程序只能下载以"https"开头的图像。如果需要下载以其他URL协议开头的图像，还需要自行修改代码。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：利用HtmlAgilityPack库采集美图秀秀图片下一篇： Casablanca库编写爬虫采集苏宁视频

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

Python爬虫入门：如何设置代理IP进行网络爬取

iJtbfD70nDpI 2023年11月30日 32 0 0 IP 百度 IP html 百度 HTML

jenkins jnlp容器介绍

xcUh7A2RlHWG 2023年12月23日 64 0 0 服务器服务器 java java Jenkins Jenkins

Python使用多进程及代理ip爬取小说

iJtbfD70nDpI 2023年11月30日 23 0 0 IP 多进程 IP html 多进程 HTML

基于Aidlux平台的工业视觉少样本缺陷检测

OqJ9ZyMbwrcy 2023年12月05日 32 0 0 ide Image 数据数据 Image ide

Python爬虫：如何抓取百度搜索结果

bxzTbUwSHjCk 2023年11月24日 34 0 0 python html python 搜索 html 搜索

读取hanlp模型

X0SxAvQFNEsR 2023年12月05日 29 0 0 初始化加载 java java 初始化加载

class062 宽度优先遍历及其扩展【算法】

RPXY88prxrad 2023年12月23日 118 0 0 List i++java 宽度优先 List i++Java 算法算法宽度优先

html之使用echarts数据可视化展示

1rF7c5LZNYs3 2023年12月10日 23 0 0 数据数据可视化数据 html HTML 数据可视化

零代码编程：用ChatGPT批量下载某个网页中的特定网页链接

6ZTWmbGzfXvY 2023年11月30日 33 0 0 文件名批量下载 html 文件名批量下载 html

pytorch将一张图片贴到另一张图片上

yEoORObu1VfG 2023年11月24日 44 0 0 加载 python Image python 加载 Image

Python搭建代理IP池实现接口设置与整体调度

iJtbfD70nDpI 2023年12月05日 29 0 0 数据库 IP 数据库 IP html HTML

Python爬取某电商平台商品数据及评论！

iJtbfD70nDpI 2023年11月30日 26 0 0 电商平台数据电商平台 html 数据 HTML

为什么运行结果显示无法爬取HTML内容

bxzTbUwSHjCk 2023年12月06日 20 0 0 解决方案反爬虫反爬虫 html html 解决方案

深度学习crop_size

s2pvW3BZ98qa 2023年12月09日 28 0 0 深度学习深度学习 Image Image 状态图状态图

在线绘制神经网络图示

TX6np8f0LW62 2023年12月05日 27 0 0 神经网络 Image python python 神经网络 Image

Python爬虫——代理IP与访问控制

iJtbfD70nDpI 2023年11月28日 25 0 0 IP 时间间隔 IP html 时间间隔 HTML

Java Socket编程之基于TCP协议通信

GvKa0siuaY4Z 2023年12月10日 46 0 0 服务端客户端服务端开发语言开发语言 java tcp/ip tcp/ip Java 客户端

Pandas一键爬取解析代理IP与代理IP池的维护

iJtbfD70nDpI 2023年11月24日 21 0 0 IP 端口号 IP html 端口号 HTML

bxzTbUwSHjCk

作者其他文章更多

如何解决爬虫10060错误

2023-12-23

Python多线程计算的方法及示例代码

2023-12-23

数据抓取与数据挖掘之间的区别

2023-12-23

Python学习中的Pond是什么

2023-12-23

解决DMA驱动程序错误的方法

2023-12-23

python中rank函数怎样理解

2023-12-23

Python编程中的实用技巧

2023-12-23

Python学习中的难点及应对策略

2023-12-23

Pytorch 与 Python 有什么联系或区别

2023-12-23

python二分类模型精度低怎么办

2023-12-23

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14