py通过链接爬取图片下载本地,提高数据自我掌握力
  nidTAl6LKsxk 2023年12月05日 25 0

(目录)

前言

不知道小伙伴们有没有一些困扰,一些数据以图片的形式存放在互联网上,我们想要使用图片里面的数据还需要自己的提取,然后经过一系列的整理之后才会达到我们想要的效果,而且整理数据还好,关键是难道这些图片真的需要我们自己一张一张的慢慢的右键保存图片吗,那未免这样的效率也太过于低下了,所以我研究了一下,我们只需要根据图片地址的规律,就可以得到一系列的图片url列表,那么有了这些列表之后,我们就只需要把download的事情交给程序来做就方便了,那么不久极大的简化了我们的工作量了吗


编写下载代码

# 导入模块
import os
import requests

absolutPath = os.path.abspath(__file__)
directory = os.path.dirname(absolutPath)


def download_images(image_urls):
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"
    }

    # 指定保存路径,例如保存在用户的图片文件夹下
    save_path = os.path.join(directory, "downloaded_images")

    for i, url in enumerate(image_urls, start=1):
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            # 获取原始文件名的扩展名
            extension = os.path.splitext(url)[1]
            # 拼接保存的文件地址
            filename = os.path.join(save_path, f'{i}{extension}')

            # 创建对应的文件,然后往文件里面写入内容
            with open(filename, 'wb') as f:
                f.write(response.content)
            print(f'图片{i}下载成功!保存路径: {filename}')
        else:
            print(f'图片{i}下载失败,状态码: {response.status_code}')


# 示例图片地址列表
image_urls = [
    "https://51cto.com/favicon.ico",
    "https://51cto.com/favicon.ico",
    "https://51cto.com/favicon.ico",
]

download_images(image_urls)

实例效果如下 image.png image.png

图片数据整理

这里读者直接使用了百度网盘的图片格式转化功能,不得不说,百度网盘在文件格式转化方面还是很优秀的 image.png


然后再把我们刚刚下载下来的文件进行上传就可以批量转为一个文档了

总结

初此使用py下载还是很受用的,把图片转为pdf文档保存在本地不仅方便我们自己查询,而且也不用老是去互联网上访问,简化我们的时间,同时我们还可以给我们的到的数据做我们自定义的处理,打上我们自定义的标记,便于我们后续需求的进行,希望能够对有需要的小伙伴有所帮助

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月05日 0

暂无评论

推荐阅读
nidTAl6LKsxk