
类型: 办公效率 版本: V1.1
大小: 477.6 时间: 2025-11-15





写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。热血江湖新开私服下载-2020热血江湖最新变态版138.0安卓新服版
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
时时彩乐彩论坛 金宝搏体育官方 体育娱乐圈小说 德赢体育投注 安博app下载
5399传奇手游下载-5399传奇安卓版1.1.0 正版
1,617.0M
5399传奇是一款经典传奇战斗冒险rpg手游。游戏有着丰富的剧情内容,熟悉的传奇元素再现。玩家将成为主角开启自己的冒险之旅。多种游戏模式,炫酷的技能特效,真实的...
霹雳决海量变态版下载-霹雳决折扣手游1.0充值返利
1,186.4M
根据原著改编打造的全新的卡牌手游力作。这是一款全新的卡牌武侠手游,通过将卡牌和武侠的元素结合到一起,给玩家带来更新颖的玩法和设计,还有就是这里是山西概念就没费送...
药房网商城商家版手机下载-药房网商城商家版4.1.5 最新版
517.0M
智慧药店erp,药店管理软件,可以全网开店的药店ERP,使用智慧药房ERP,传统药店变身网上药店,连接全国顾客;对接互联网医院,合法合规销售处方药;大数据帮助药...
网易蜗牛读书app下载-网易蜗牛读书水墨版1.9.74 安卓官方版
1,656.7M
蜗牛读书是一款由网易官方推出的小说阅读软件,用户可以通过本软件方便快捷的进行书籍阅读,现在这个软件还处于测试阶段,不过相信会给大家带来更好的体验!网易蜗牛读书介...
说唱家网页版下载-说唱家电脑版1.5.5 官方最新版
1,359.1M
说唱家电脑版,一款专为说唱音乐而生的应用,聚集了全国说唱歌手和说唱音乐粉丝的活跃垂直社区,有喜欢说唱的朋友赶紧来下载这款软件吧。说唱家电脑版产品特点优秀说唱家音...
随心图片批处理(图片批量添加水印)2.1.924 绿色免费版
1,618.8M
随心图片批处理是一款绿色免费软件,能够轻松实现批量添加水印的功能,简单易使用,处理高效。功能说明1、支持批量图片缩放处理;2、支持JPG,BMP,PNG图片格式...
黑暗荒野2下载安卓版-Blackmoor 2黑暗荒野2官方正版13.8 最新版
1,359.1M
这款游戏是一款很具有童年回忆味道的接机游戏,一个中世纪的其实展开自己的冒险,和一般的故事不一样的是,这个骑士可能年级有点大,可能也有点不那么帅气,但是战斗还是很...
异星装置博物馆下载-Machinika Museum(异星装置博物馆手机版)1.02汉化中文版
718.8M
异星装置博物馆之前在steam上是非常火爆的,所以不少玩家就想体验一下手机版的,现在也终于盼到了,而且这里小编为大家带来的还是全新的汉化中文版本,赶紧下载体验吧...
装扮美丽女皇1.0.7 手机最新版
1,321.6M
这是一款经典的装扮游戏,特别的是你将在游戏里装扮各种肤色的女皇,包括发色,发型,上衣,裙子,装饰,鞋子等等各种细节装扮,非常适合喜欢玩装扮游戏的玩家,更可以在线...
华夏收藏网官方网站下载-华夏收藏网7.11.4 官方最新版
1,445.9M
华夏收藏网作为一款古玩交易中心app,你可以和藏友交流经验心得,还可以查看专家的名人访谈、管四看市场等栏目。华夏收藏网介绍华夏收藏网、华夏微拍和华夏收藏APP是...
伴学宝app-星伴学APP1.1.0安卓专业版
278.9M
星伴学是一款孩子学习教育软件,家长能随时看到孩子的学习情况,超多的课程可以选择,选择自己的薄弱学习,让自己的成绩更加优异,来这里提升成绩吧,老师全天候的等着你哦...
三角世上所有的美少女下载-三角世上所有的美少女手游1.0.2 最新版
113.6M
三角:世上所有的美少女是Day7推出的一款休闲装扮游戏。在这款游戏中,您可以自由组合优质物品,打造属于自己的角色。性格完全不同的角色会根据组合诞生!用贴纸装饰你...
热血王座(西游迷失攻速)bt版下载-热血王座每日送充值全屏切割1.0.0 超高爆版
426.7M
热血王座(西游迷失攻速)bt版上线就免费送充值,送自动回收,领充值货币,赠大量神器神器,满攻速、多剧情、高爆率,白嫖可通关,平民玩家必试的传奇游戏,一定不要错过...
旅游约伴app哪个好-旅游约伴app客户端(众人玩app)1.1 游客版
806.2M
旅游约个朋友一起出行,不仅安全还可以省钱,旅游约伴app客户端专为有相同旅游目的的朋友提供约伴服务,相约一起更放心。将目的地旅游线路,景点门票,酒店机票,当地特...
爱上鄂州app官方下载-爱上鄂州app1.1.9 安卓版
228.1M
爱上鄂州app是鄂州本地官方融媒体平台,这款app的功能上基本能完全涵盖在鄂州的衣食住行。生活缴费,公交出行,公积金,停车,就业码,就医挂号,查询社保等,都可以...
局域网IP切换器1.00 免费版
2025/10/31 11:33
音频格式转换器(Xrecode II)1.0.0.230 绿色中文版
2025/10/26 09:29
偷了一座城安卓最新版下载-偷了一座城手游1抖音版
2025/11/02 13:25
Napkin AI官方下载-Napkin AI1.0.1 安卓版
2025/10/28 10:12
诸神武装游戏下载-诸神武装游戏5.2 安卓版
2025/10/30 15:54
兔兔包游戏下载-兔兔包游戏2.4.2 手机版
2025/11/13 20:46
三国战记hack版-三国战记hack系列整合版(解压即玩)绿色无需安装版
2025/11/12 14:08
全球比价app下载-全球比价安卓版1.0 最新版
2025/11/09 13:20
奇迹最强者华为客户端下载-奇迹最强者华为平台版1.37.15充值返利版
2025/10/23 00:45
Barbaraian游戏下载-Barbara-ian中文版免安装硬盘版
2025/11/06 19:49
失落大陆0.303下载-魔兽地图失落大陆0.303 最新版免费下载
2025/10/26 04:51
空气巴巴app下载-空气巴巴app2.3.3 安卓版
2025/10/28 21:02
星之破晓手游下载安装-星之破晓手游1.210.50 官方正版
2025/10/20 23:58
频段分析软件1.0 绿色版
2025/10/26 10:18
周到办安卓版下载-周到办app2.0.8 最新版
2025/11/02 19:56
周到办安卓版下载-周到办app2.0.8 最新版
2025/11/02 19:56更新
现在很多的操作都是可以在手机上完成的,各地也都相继推出了自己地区的掌上生活平台,周到办就是其中之一,有了这款软件,周口城事的流行新闻资讯時刻把握,还有多元化的便...
支持 ( 7 ) 盖楼(回复)
支持 ( 18 ) 盖楼(回复)
支持 ( 183 ) 盖楼(回复)
支持 ( 161 ) 盖楼(回复)
支持 ( 196 ) 盖楼(回复)
支持 ( 169 ) 盖楼(回复)
支持 ( 158 ) 盖楼(回复)
支持 ( 79 ) 盖楼(回复)
支持 ( 37 ) 盖楼(回复)
支持 ( 30 ) 盖楼(回复)
支持 ( 149 ) 盖楼(回复)
支持 ( 105 ) 盖楼(回复)
支持 ( 175 ) 盖楼(回复)
支持 ( 21 ) 盖楼(回复)
支持 ( 7 ) 盖楼(回复)
支持 ( 51 ) 盖楼(回复)
支持 ( 157 ) 盖楼(回复)
支持 ( 41 ) 盖楼(回复)
支持 ( 53 ) 盖楼(回复)
支持 ( 152 ) 盖楼(回复)