java开源的html操作组件
  ApTxpH0CpnLS 2023年11月02日 50 0


 NekoHTML  点击次数:9716

NekoHTML 是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了 Xerces Native Interface (XNI),后者是Xerces2的实现基础。


 JTidy  点击次数:8707

JTidy 是 HTML Tidy用Java实现的移植版本,提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品,JTidy可以用来清除格式不好和不对的 HTM。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。


 HotSAX  点击次数:7641

HotSAX是一个快速,小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。


 Jericho HTML Parser  点击次数:8253

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。


 HTML Parser  点击次数:10096

HTML Parser实现即时HTML语法分析程序。


 Java HTML Parser  点击次数:8746

HTML Parser提供了一组Tag对象,这些对象可以深入解析一棵可搜索的结构树。


 TagSoup  点击次数:7255

TagSoup是一个Java开发符合SAX的HTML解析器.


 HtmlRipper  点击次数:8689

HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.


 Cobra  点击次数:7106

Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。


 HtmlCleaner  点击次数:6571

HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为 创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。



 



jericho html parser



http://jerichohtml.sourceforge.net/doc/index.html

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  P3nxyT0LRuwj   2023年11月28日   25   0   0 nginxhtmlWeb
  D04qQxYJZ4A6   2023年11月19日   24   0   0 mysqljava读写分离
  38gcbVXUBcLA   2023年11月26日   23   0   0 服务器htmlHTTP
  UP4ONKOBnkdD   2023年11月28日   22   0   0 java
  9JCEeX0Eg8g4   2023年12月10日   30   0   0 应用程序javaApache
  KRsXEGSB49bk   2023年11月27日   28   0   0 javaApache
  xwGmYGXf1w4S   2023年11月22日   42   0   0 tomcatjavaApache