前嗅ForeSpider教程:采集需要登陆的网页内容

蚀纹容器
• 阅读 239

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

前嗅ForeSpider教程:采集需要登陆的网页内容

②弹窗里填写采集地址,任务名称,开启手动登录配置,如图2:

前嗅ForeSpider教程:采集需要登陆的网页内容

若未在此处开启登录配置,可在模板抽取配置中点击相应的模板,开启登录配置,如图3。

前嗅ForeSpider教程:采集需要登陆的网页内容

③点击下一步,选择进行数据抽取还是链接抽取,本次采集列表下的正文数据,所以本次需要抽取内容选择链接列表,所以点击抽取链接,选择链接列表,如图4:

前嗅ForeSpider教程:采集需要登陆的网页内容

④完成后模板抽取配置列表有两个模板,默认模板和子栏目。默认模板下自动生成一个链接抽取,名称为链接列表,此链接抽取已与链接列表模板关联,如图5:

前嗅ForeSpider教程:采集需要登陆的网页内容

第二步:配置登录

① 内置浏览器找到登录按钮,弹出登录框,如图6:

前嗅ForeSpider教程:采集需要登陆的网页内容

③按Ctrl+鼠标左键单击“用户名输入框”,如图7。

前嗅ForeSpider教程:采集需要登陆的网页内容

④.填写用户名、密码,如图8。

前嗅ForeSpider教程:采集需要登陆的网页内容

④.点击“完成”,cookie配置框中出现数据,按Ctrl+鼠标左键单击“登录按钮”,内置浏览器页面登录成功,配置完成,如图9。

前嗅ForeSpider教程:采集需要登陆的网页内容

第三步:通过地址过滤,得到所需链接。

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“thread-”,右击复制链接,如图10所示。

前嗅ForeSpider教程:采集需要登陆的网页内容

②勾选地址过滤,过滤规则选择包含,填入“thread-”,得到列表链接,如图11所示。

前嗅ForeSpider教程:采集需要登陆的网页内容

④点击采集预览确认链接是否过滤完全,如图12

前嗅ForeSpider教程:采集需要登陆的网页内容

第四步:关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将“链接列表”关联模板二“链接列表:02”,此处由于我们开始就选择了创建列表链接,所以软件自动关联好了模板二。如果配置的时候发现关联有问题,可以自己进行更改,如图13

前嗅ForeSpider教程:采集需要登陆的网页内容

第五步:创建翻页链接抽取

方法一:创建任务,勾选链接抽取,直接选择链接列表和普通翻页,如图14。

前嗅ForeSpider教程:采集需要登陆的网页内容

方法二:如果创建任务时,只勾选了链接列表,可以点击上一步,回到模板层,补选翻页链接抽取,点击下一步,创建翻页链接。

方法三:直接点击模板二,点击上面“新建链接抽取” 按钮,得到链接抽取,并重名命为翻页链接抽取,如图15。

前嗅ForeSpider教程:采集需要登陆的网页内容

第六步:通过地址过滤,得到所需翻页链接。

①右击模板预览找到翻页链接,如图16所示。观察链接得出规律使用“page=”得到目标链接。

前嗅ForeSpider教程:采集需要登陆的网页内容

②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用共用词“page=”过滤得到目标链接,如图17。

前嗅ForeSpider教程:采集需要登陆的网页内容

④点击采集预览确认链接是否过滤完全,如图18

前嗅ForeSpider教程:采集需要登陆的网页内容

④关联“翻页”

情况一:创建模板或通过向导,创建的翻页链接抽取,会默认关联模板一,即当前页模板,如图19。

情况二:手动点击按钮创建翻页链接抽取,需要手动关联

前嗅ForeSpider教程:采集需要登陆的网页内容

第七步:填写模板示例地址并新建数据抽取

①将模板一过滤得到的任意一条链接,作为链接列表模板的示例地址。如:https://bbs.360.cn/thread-156..., 见图20:

前嗅ForeSpider教程:采集需要登陆的网页内容

②新建数据抽取。直接点击链接列表,点击上面“新建数据抽取” 按钮,得到数据抽取,如图21。

前嗅ForeSpider教程:采集需要登陆的网页内容

第八步:创建/选择表单

①在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三,如图22。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的 如图22。

前嗅ForeSpider教程:采集需要登陆的网页内容

②配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、发布时间、正文内,网页标题以及网页地址五个字段,表单如图23。

前嗅ForeSpider教程:采集需要登陆的网页内容

④数据抽取链接处关联表单,如图24。

前嗅ForeSpider教程:采集需要登陆的网页内容

第九步:字段取值

①取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

pub_time、content字段,如图25、图26:

前嗅ForeSpider教程:采集需要登陆的网页内容

前嗅ForeSpider教程:采集需要登陆的网页内容

②点击采集预览确数据是否采集完全,如图27:

前嗅ForeSpider教程:采集需要登陆的网页内容

第十步:采集预览

① 点击右上角采集预览,如图28:

前嗅ForeSpider教程:采集需要登陆的网页内容

③点击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图29:

前嗅ForeSpider教程:采集需要登陆的网页内容

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
java简单的用户登录界面+mysql
1.概述一个简单的swing登录界面,使用了简单的JDBC.如图:!在这里插入图片描述(https://imgblog.csdnimg.cn/20191210013512615.png)!在这里插入图片描述(https://imgblog.csdnimg.cn/20191210013543435.png)2.UI
Wesley13 Wesley13
3年前
MySQL8开启ssl加密
1概述MySQL从5.7开始默认开启SSL加密功能,进入MySQL控制台后输入status可以查看ssl的状态,出现下图表示在使用ssl:!在这里插入图片描述(https://imgblog.csdnimg.cn/20200325131703934.png)另外,ssl加密需要密钥与证书,可以使用openssl手动生成或使用my
Wesley13 Wesley13
3年前
DOM解析XML文件3
1.新建名为domxml的项目!这里写图片描述(http://static.oschina.net/uploads/img/201507/11181054_RvEx.jpg)2.新建user\_item.xml的自定义布局文件<?xmlversion"1.0"encoding"UTF8"?<LinearLay
Stella981 Stella981
3年前
ForeSpider教程之如何爬取位置不固定的图片
众所周知,对于新闻网站来说,图片位置是无法固定的,所以想要爬取到这些位置不固定的图片,需要一定的技术手段。以某网站为例,任务入口地址为:http://www.chengdu.cn/一、对首页进行链接抽取。 抽取文章标题,使用地址过滤“包含”.shtml。抽取到结果如下:二、新建模板2,抽取图片链接及内容数据:示例地址如下:ht
Wesley13 Wesley13
3年前
Java线程之Timer
!在这里插入图片描述(https://oscimg.oschina.net/oscnet/730e89480439851f713afd6d740bc572b3c.jpg)简述java.util.Timer是一个定时器,用来调度线程在某个时间执行。在初始化Timer时,开启一个线程循环提取TaskQueue任务数组中的任务,如果任务数组为
Easter79 Easter79
3年前
SpringBoot定时任务xml配置
    由于定时任务需要工程实施人员进行配置,写在Java代码里面不利于维护,故采用SpringBoot集成SpringXML文件进行配置,属于新瓶装旧酒。1新建定时任务类packagecom.duhongming.springbootscheduled.scheduled;importlomb
Stella981 Stella981
3年前
SpringBoot定时任务xml配置
    由于定时任务需要工程实施人员进行配置,写在Java代码里面不利于维护,故采用SpringBoot集成SpringXML文件进行配置,属于新瓶装旧酒。1新建定时任务类packagecom.duhongming.springbootscheduled.scheduled;importlomb
Stella981 Stella981
3年前
Jenkins+Python+GitLab持续集成
创建任务登录Jenkins,点击左侧列表的新建选项。输入任务名称,选择构建一个自由风格的软件项目,点击确定。配置在任务配置界面,可以设置General标签中的丢弃旧的构建选项,设置保持构建的天数和保持构建的最大个数。点击源码管理标签,选择git,在RepositoryURL中输
Wesley13 Wesley13
3年前
HttpHandler
 今天简单的做下HttpHandler的练习:只有登录用户才能下载images下地图片文件(Session中标识是否登录),如果用户没有登录则首先重定向到登录界面让用户登录,用户登录成功则跳转到下载列表页面,下载链接固定写好即可。如果登录用户是普通用户则在图片左上角加上“免费用试用”的字样。1.首先建立名为UserAuthority的数据库,然后新建
Stella981 Stella981
3年前
SpringBoot项目使用多线程处理任务时无法通过@Autowired注入bean
  最近在做一个“温湿度控制”的项目,项目要求通过用户设定的温湿度数值和实时采集到的数值进行比对分析,因为数据的对比与分析是一个通过前端页面控制的定时任务,经理要求在用户开启定时任务时,单独开启一个线程进行数据的对比分析,并将采集到的温湿度数值存入数据库中的历史数据表,按照我们正常的逻辑应该是用户在请求开启定时任务时,前端页面通过调用后端接口,创建一个新的线
Easter79 Easter79
3年前
SpringBoot项目使用多线程处理任务时无法通过@Autowired注入bean
  最近在做一个“温湿度控制”的项目,项目要求通过用户设定的温湿度数值和实时采集到的数值进行比对分析,因为数据的对比与分析是一个通过前端页面控制的定时任务,经理要求在用户开启定时任务时,单独开启一个线程进行数据的对比分析,并将采集到的温湿度数值存入数据库中的历史数据表,按照我们正常的逻辑应该是用户在请求开启定时任务时,前端页面通过调用后端接口,创建一个新的线