如何使用Haskell语言和tagsoup库相结合采集同花顺财经相关视频-摩杜云开发者社区

如何使用Haskell语言和tagsoup库相结合采集同花顺财经相关视频

bxzTbUwSHjCk 2023年11月14日 30 0

html HTTP html HTTP

如何使用Haskell语言和tagsoup库相结合采集同花顺财经相关视频_html

今天要给大家带来的是一个使用Haskell语言和tagsoup库相结合的爬虫程序，主要是用来采集同花顺财经上的相关视频。前段时间一个粉丝跟我要了好久，由于太忙了，一直拖到现在。正好给大家分享一下，一起学习交流。

```haskell

import Network.HTTP

import Text.HTML.TagSoup


-- 定义一个函数，用于发送HTTP请求并获取HTML内容

getHTML :: String -> IO String

getHTML url = do

  proxy <- createHTTPProxy "https://www.duoip.cn/get_proxy" 8000

  response <- simpleHTTP { proxy = proxy } $ getRequest url

  return $ responseBody response


-- 定义一个函数，用于解析HTML内容并获取视频链接

parseHTML :: String -> IO [String]

parseHTML html = do

  soup <- parseTagsoup html

  let videos = [a ! "href" | a <- findElementsByTagName "a" soup]

  return videos


-- 主函数，用于启动整个爬虫程序

main :: IO ()

main = do

  html <- getHTML "https://www.10jqka.com.cn/"

  links <- parseHTML html

  forM_ links $ print

```

以上代码首先定义了一个函数getHTML，用于发送HTTP请求并获取HTML内容。这个函数使用了createHTTPProxy函数来创建一个HTTP代理，使用simpleHTTP函数发送请求并获取响应。然后定义了一个函数parseHTML，用于解析HTML内容并获取视频链接。这个函数使用parseTagsoup函数解析HTML内容，然后使用findElementsByTagName函数找到所有的"a"标签，使用"href"属性获取链接。

最后定义了一个主函数main，用于启动整个爬虫程序。这个函数调用getHTML函数获取HTML内容，然后调用parseHTML函数解析内容并获取链接，最后使用forM_函数遍历链接并打印出来。希望今天的内容大家能喜欢。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：导轨在数控机床中起哪些作用？下一篇：怎样使用Go语言+NET库搞定饿了么采集

分享：

最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读

Python爬虫入门：如何设置代理IP进行网络爬取

iJtbfD70nDpI 2023年11月30日 35 0 0 IP 百度 IP html 百度 HTML

Python使用多进程及代理ip爬取小说

iJtbfD70nDpI 2023年11月30日 33 0 0 IP 多进程 IP html 多进程 HTML

什么是网页抓取？为什么要使用http代理？

iJtbfD70nDpI 2023年12月06日 38 0 0 IP HTTP python python IP HTTP

Python爬虫：如何抓取百度搜索结果

bxzTbUwSHjCk 2023年11月24日 40 0 0 python html python 搜索 html 搜索

如何在 HTTP 请求中传递数据

bxzTbUwSHjCk 2023年12月06日 34 0 0 数据数据 HTTP 传递数据 HTTP 传递数据

html之使用echarts数据可视化展示

1rF7c5LZNYs3 2023年12月10日 25 0 0 数据数据可视化数据 html HTML 数据可视化

TCP/IP、Http、Socket之间的区别

iJtbfD70nDpI 2023年11月25日 24 0 0 IP HTTP TCP IP HTTP TCP

Socks VS HTTP 谁才是最快的代理协议

iJtbfD70nDpI 2023年12月07日 45 0 0 HTTP 服务器网络传输 HTTP 服务器网络传输

零代码编程：用ChatGPT批量下载某个网页中的特定网页链接

6ZTWmbGzfXvY 2023年11月30日 41 0 0 文件名批量下载 html 文件名批量下载 html

Python搭建代理IP池实现接口设置与整体调度

iJtbfD70nDpI 2023年12月05日 32 0 0 数据库 IP 数据库 IP html HTML

Python爬取某电商平台商品数据及评论！

iJtbfD70nDpI 2023年11月30日 27 0 0 电商平台数据电商平台 html 数据 HTML

Python爬取网页速度为什么那么快

bxzTbUwSHjCk 2023年12月07日 29 0 0 多线程 python 多线程 python HTTP HTTP

为什么运行结果显示无法爬取HTML内容

bxzTbUwSHjCk 2023年12月06日 28 0 0 解决方案反爬虫反爬虫 html html 解决方案

Python爬虫——代理IP与访问控制

iJtbfD70nDpI 2023年11月28日 33 0 0 IP 时间间隔 IP html 时间间隔 HTML

Pandas一键爬取解析代理IP与代理IP池的维护

iJtbfD70nDpI 2023年11月24日 28 0 0 IP 端口号 IP html 端口号 HTML

HTTP 头字段有哪些常见的用途

bxzTbUwSHjCk 2023年12月11日 65 0 0 客户端字段字段客户端 HTTP HTTP

bxzTbUwSHjCk

作者其他文章更多

如何解决爬虫10060错误

2023-12-23

Python多线程计算的方法及示例代码

2023-12-23

数据抓取与数据挖掘之间的区别

2023-12-23

Python学习中的Pond是什么

2023-12-23

解决DMA驱动程序错误的方法

2023-12-23

python中rank函数怎样理解

2023-12-23

Python编程中的实用技巧

2023-12-23

Python学习中的难点及应对策略

2023-12-23

Pytorch 与 Python 有什么联系或区别

2023-12-23

python二分类模型精度低怎么办

2023-12-23

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14