【论文阅读】Web Data Extraction Based On Visual Information

码途织霞客
• 阅读 1788

[论文阅读] Web Data Extraction Based On Visual Information and Partial Tree Alignment

《Web Data Extraction Based On Visual Information and Partial Tree Alignment》
会议见刊:2014 11th Web Information System and Application Conference
引用:GB/T 7714Fan S, Wang X, Dong Y. Web Data Extraction Based On Visual Information and Partial Tree Alignment[C]// Web Information System and Application Conference. IEEE, 2015:18-23.
作者所属机构:山东大学 中国

1. 基础概念

DOMTree:未经渲染的HTML节点树,如图(a)所示。
VBT(Visual Block Tree):网页的可视块树模型,如图(b)所示。
【论文阅读】Web Data Extraction Based On Visual Information

VIPS(微软于2003年提出的一个经典的基于视觉信息的网页分块算法)已经提出了构建可视块树的方法,但是该方法利用了许多不适用于所有网页的启发式方法,并且对于大量处理页面而言是耗时的。

视觉特性:选择网站设计者最广泛使用的属性来定义结果页面的视觉外观,例如font-weight,font-size,text-align,vertical-align,color。(【译者】云中的猫: 应该还需要包含一些关于大小的属性,比如width和height)
视觉相似度:如果两个块的所有视觉特性相同,则A和B视觉上相似。

【论文阅读】Web Data Extraction Based On Visual Information

2. 算法步骤

算法可分为四个步骤:

第一步:找到数据区域

数据区域:包含一组相似对象的描述的一组数据记录通常呈现在页面的连续区域中,该区域称为数据区域,比如图(a)中的b3。

通过以下公式来筛选出数据区域:
【论文阅读】Web Data Extraction Based On Visual Information

大致意思就是通过计算该区域占到整个区域的比值,获得一个关于数据区域的候选者列表(候选者对象可能不止一个,此时便选择area值最小的那一个,area值猜测为视觉区域的面积)

第二步:在数据区域中识别记录

识别记录需要解决两个问题:

  • 可能存在不属于数据区域中的任何数据记录的块,例如b3_1,b3_9,这些块称为噪声块
  • 一个数据记录可以对应于可视块树中的一个或多个子树,并且一个数据记录包含的子树的总数不是固定的。

作者使用了 Jaccard相似性 来3数据区域的子块,然后重新组合这些块。

Jaccard(杰卡德)相似性系数 主要用于计算符号度量或布尔值度量的样本间的相似度。若样本间的特征属性由符号和布尔值标识,无法衡量差异具体值的大小,只能获得“是否相同”这样一种结果,而Jaccard系数关心的是样本间共同具有的特征。
Jaccard系数等于样本集交集个数和样本集并集个数的比值,公式如下
【论文阅读】Web Data Extraction Based On Visual Information

第三步:从这些记录中提取数据项并对齐相同语义的数据项

  • 数据记录包含一些静态模板文本和标签,这些文本和标签不是由Web数据库生成的。这些文本或标签通常是数据的注释,例如书籍记录中的“价格:”提醒我们旁边的项目是书的价格。这些标签对Web数据注释很有用。
  • 数据记录可能包含一些可选数据项。例如,有些书有折扣价,有些则没有。

第四步:生成包装器

由于来自同一Web数据库的所有结果页面共享相同的可视化模板,因此一旦提取了结果页面上的数据记录和数据项,我们就可以使用这些提取的数据记录和数据项来生成Web数据库的提取包装器,以便可以使用包装器快速处理来自同一Web数据库的新结果页面,而无需重新应用整个提取过程。

聚类 Clustering

如果【论文阅读】Web Data Extraction Based On Visual Information,则把a的两个子块 i 和 j 聚类在一起。

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

如公式所示,还是比较好理解的,作者通过节点间的视觉相似度,将Jaccard系数比较高的聚为同一类,否则分开,效果如下图所示。
【论文阅读】Web Data Extraction Based On Visual Information

重组 Regroup

在前一步骤中获得的聚类不对应于数据记录。相反,同一簇中不是噪声块簇的块都来自不同的数据记录。

需要重新组合块,使得属于相同数据记录的块形成组。重组块的基本思想如下:据统计,在数据记录中的第一块总是必须的,例如ASB 3_2,B 3_4,B 3_7。这些块称为强制块。因此,包含必需块的集群具有最大数量; 设n是这个最大数。可能有多个群集包含n个块。作者的重组方法从左到右遍历数据区域的子块,以找到包含n个块的第一个簇外观。作者将此群集称为C max。C max中的每个块是一条记录的第一块。所以作者可以找到每个记录的第一个块。而且,两个相邻的强制块之间的块形成一个记录。第一个记录左侧的块是噪声块。但是,无法识别最后的记录边界,因为数据区域底部可能存在噪声阻塞。最后一条记录不在两个相邻的强制块之间。我们的方法记录每个记录的最后一个块所属的簇,写为R 簇。然后从右到左遍历数据区域的子块,以找到属于R 簇的块的第一次出现。该块是最后一条记录的最后一个块,最后一条记录右侧的块是噪声块。最后,确定每条记录。

数据项对齐

让每条记录对应成一个树,叶节点是数据项,因此需要用到树匹配技术。
【论文阅读】Web Data Extraction Based On Visual Information

简单的树匹配

让T成为一棵树。n表示T的节点数.T [i]表示在树的前序遍历中第i树的节点。(M,T 1, T 2)是从T 1到T 2的映射M ,其中M是满足以下整数(i,j)的任何整数对集合:
【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

中间关于不同节点的映射比较还是采用了Sim()方法

部分树匹配

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

数据集和实验结果

数据集

该数据集由UIUC Web Integration Repoitory [16]提供,其中包含来自8个代表域的447个深度Web源的原始查询接口,这些域是机票,酒店,租赁,书籍,电影,音乐,工作和汽车。我们在每个域中选择5个域和4个接口。对于每个Web数据库,提交10个不同的查询并收集10个结果页面。

结果和比较

【论文阅读】Web Data Extraction Based On Visual Information

【论文阅读】Web Data Extraction Based On Visual Information

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
4年前
Paper Digest:AI帮你读论文
  这是最好的时代,也是最坏的时代。在这个信息爆炸的时代,学术论文以指数级爆发性增长。每隔几年世界上的论文数量就会翻一翻。几乎每年都有超过350万篇的论文被发表出来。  然而,阅读并理解一篇文章所讲的内容并非易事。在美国,教授们平均每月需要阅读至少20.66篇文献,而每一篇文献至少需要花费32分钟。这是Professor这种level
Stella981 Stella981
4年前
28篇论文、6大主题带你一览CVPR2020研究趋势
  !(http://dingyue.ws.126.net/2020/0625/c176bdbej00qchkrg001ld200p000ang00it0080.jpg)  编译|陈大鑫  编辑|丛末  首度于线上召开的CVPR2020会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64
Wesley13 Wesley13
4年前
KDD 2020阿里巴巴论文一分钟秒读
!(https://oscimg.oschina.net/oscnet/24a7d407dbff48f69edba20ddb069fd1.png)作为科研人员,阅读文献已经成为日常,而快速阅读掌握文章要旨、研究的背景,动机、方法和结论是必备的技能。而随着论文数量的爆炸式增长,每日阅读大量的英文文献已然成为了一件枯燥耗时的工作。
Stella981 Stella981
4年前
ACL2020更新录取率,中国未进前五,机器学习提交量一骑绝尘
  !(http://dingyue.ws.126.net/2020/0607/d0197abep00qbjkdi0071c000m8009gc.png)  作者|蒋宝尚  编辑|丛末  ACL组委会真是肝!  5月19日刚刚公布了2020年被收录的论文,昨日又发博客分析了大会论文的录取领域。并且与2019年的ACL会议
Wesley13 Wesley13
4年前
MySQL 的慢 SQL 怎么优化?
!(https://oscimg.oschina.net/oscnet/7b00ec583b5e42cc80e8c56c6556c082.jpg)Java技术栈www.javastack.cn关注阅读更多优质文章(https://www.oschina.net/action/GoToLink?urlhttp
可莉 可莉
4年前
2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声
!(https://static001.geekbang.org/infoq/af/af9f6637b50b09be60b00a42f3812d5e.png)开发者社区技术周刊又和大家见面
Stella981 Stella981
4年前
2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声
!(https://static001.geekbang.org/infoq/af/af9f6637b50b09be60b00a42f3812d5e.png)开发者社区技术周刊又和大家见面
Stella981 Stella981
4年前
Eureka Server 开启Spring Security Basic认证
!Desktop(https://uploadimages.jianshu.io/upload_images/98242475ce94f98ae00f42f.jpg?imageMogr2/autoorient/strip%7CimageView2/2/w/1240)文章共503字,阅读大约需要2分钟!概述