Easter79 Easter79
2年前
superword中的模板抽取实践
superword这个项目,全使用JAVA8新特性:https://github.com/ysc/superword(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fysc%2Fsuperword),一开始只是我的一个英语单词分析工具,用于生成HTML片段然
Wesley13 Wesley13
2年前
java实现任务调度
最近的一个小项目是做一个简单的数据仓库,需要将其他数据库的数据抽取出来,并通过而出抽取成页面需要的数据,以空间换时间的方式,让后端报表查询更快。因为在抽取的过程中,有一定的先后顺序,需要做一个任务调度器,某一优先级的会先执行,然后会进入下一个优先级的队列任务中。先定义了一个Map的集合,key是优先级,value是任务的集合,某一个优先级内的任务是并发执
Stella981 Stella981
2年前
Golang 文章正文抽取(readability)
readabilityforgolangGolang版本是根据readabiliityfornode.js(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fluin%2Freadability)以及readabilityforpython(h
Stella981 Stella981
2年前
DataX的过滤器可行性实践
1\.需求说明​生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下:!(https://imgblog.csdnimg.cn/2020101511253711.png?xossprocessimage/watermark,type_
Stella981 Stella981
2年前
HtmlExtractor 1.1 发布,网页信息抽取组件
HtmlExtractor(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fysc%2FHtmlExtractor)是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。
Wesley13 Wesley13
2年前
oracle随机获取数据
以前从一个表中随机获取数据的时候,都是先把数据读取到来,然后再在程序中来随机抽取一部分数据,今天告诉大家一种使用SQL语句的方法来随机获取一部分数据SQLServer: 随机获取 10 条数据SELECT TOP 10  FROM 表名 ORDER BY NEWID()ORACLE: 随机获取 
Stella981 Stella981
2年前
Krabber
Krabber是kVitrail的网页抽取工具。Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。java模拟AJAXhttp://sourceforge.net/projects/kvitrail/(https://w
Stella981 Stella981
2年前
ForeSpider教程之如何爬取位置不固定的图片
众所周知,对于新闻网站来说,图片位置是无法固定的,所以想要爬取到这些位置不固定的图片,需要一定的技术手段。以某网站为例,任务入口地址为:http://www.chengdu.cn/一、对首页进行链接抽取。 抽取文章标题,使用地址过滤“包含”.shtml。抽取到结果如下:二、新建模板2,抽取图片链接及内容数据:示例地址如下:ht
Wesley13 Wesley13
2年前
JS随机抽取图片
1<!DOCTYPEhtml2<html3<head4<metahttpequiv"ContentType"content"text/html;charsetutf8"/5<title</title6<metachar
知识图谱自动化构建的探索与挑战
知识图谱自动化构建的探索与挑战|论文分享达观数据知识图谱的自动化构建是知识图谱中具有极强挑战性且巨大应用价值的技术方向。就实体抽取技术,达观数据副总裁、上海市人工智能技术标准委员会委员王文广提到“狭义的实体抽取,即命名实体识别(NER)技术发展至今已较为成熟,能够很好地抽取出人名、地名、机构名等少数类型的实体。但在知识图谱实际应用中,则需要抽取出各式各样各不