如何采集网页中附件,采集网页中附件数据

逆变沙漏
• 阅读 170

采集网页中的【模板】数据

案例:山西招投标网

一. 网站内容

1. 网站截图说明

本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,故链接入口为:http://www.sxbid.com.cn/

如何采集网页中附件,采集网页中附件数据

【官网-二手房】

2. 链接列表采集结果预览

如何采集网页中附件,采集网页中附件数据

一. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

如何采集网页中附件,采集网页中附件数据

【新建任务】

Step1:按照图示1位置,点击“采集配置”。

Step2:按图示2位置,点击“任务列表”中的“+”。

Step3:在新建采集任务中输入采集网址即http://www.sxbid.com.cn/,任务名称可自定义,本次可输入为“中国石头招标投标网”。

点击“下一步”,需要采集正文数据,所以此处需要勾选“网页内所有链接”和“抽取数据”。

如何采集网页中附件,采集网页中附件数据

2. 链接抽取配置

如何采集网页中附件,采集网页中附件数据

Step1:按照图示1位置,Ctrl+左键选中“链接列表”。

Step2:按照图示2位置,点击“确认选区”,保证我们的数据是被选中的状态

Step3:按照图示3位置点击“采集预览”,查看数据详情,如下图所示:

如何采集网页中附件,采集网页中附件数据

3. 数据抽取

如何采集网页中附件,采集网页中附件数据

抽取数据(红框位置)中的链接 务必对应“链接列表”内的正文数据,即附件页面地址。http://www.sxbid.com.cn/f/vie...

4. 配置表单

如何采集网页中附件,采集网页中附件数据

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:点击“数据建表”

Step3:点击“+”,新建表单并自定义名称,这里取为“zhaobiao”

 根据所需内容,配置表单字段,此处配置了包括主键、网页地址URL、标题、附件。表单建立如下:

如何采集网页中附件,采集网页中附件数据

【创建主键】

主键务必第一个创建,其含义为该表单所属ID

字段名称:hkey

采集内容 选择“主键”

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

如何采集网页中附件,采集网页中附件数据

【创建字段1-网页地址】

字段名称:url

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围240即可,最后点击确定。(备注可随意)

如何采集网页中附件,采集网页中附件数据

【创建字段2-标题】

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

高级类型 选择 “长文本(<64K)”。(备注可随意)

如何采集网页中附件,采集网页中附件数据

【创建字段3-附件】

字段名称:fujian

采集内容 选择“网页代码/图片等资料”-“数据流文件”

表单配置字段自定义即可,如有多需求 可按上述同样操作即可。最终呈现如下图:

如何采集网页中附件,采集网页中附件数据

5. 关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

如何采集网页中附件,采集网页中附件数据

选择所需的表单,点击【创建】按钮

如何采集网页中附件,采集网页中附件数据

创建表名称可随意填写,需注意 仅可使用“全英文”

6. 确认选区

操作如下图所示:

Step1:按照图1位置,在左侧点击“tittle”

Step2:按照图2位置ctrl+左键选中文章标题

Step3:最后点击“确认选区”即可

如何采集网页中附件,采集网页中附件数据

Step1:按照图1位置,在左侧点击“tittle”

Step2:按照图2位置ctrl+左键选中文章标题

Step3:最后点击“确认选区”即可

如何采集网页中附件,采集网页中附件数据

Step1:按照图1位置,在左侧点击“fujian”

Step2:在页面最低端会出现“附件下载”的位置即图2所示,ctrl+左键选中附件内容。

点击保存,完成数据选区

7. 数据建表 模板预览

如何采集网页中附件,采集网页中附件数据

在“新建模板:02”处右键选择“模板预览”,即可查看是否采集出所需数据,如下图:

如何采集网页中附件,采集网页中附件数据

Fujian字段数据出现“STREAM DATA”属于正常现象,请继续跟着教程完成最终采集。

一. 采集数据

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

如何采集网页中附件,采集网页中附件数据

2. 选择采集任务

操作如下图数字所示:

如何采集网页中附件,采集网页中附件数据

Step1:选择【数据采集】

Step2:在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

Step3:点击“连接数据库”选择“打开”,此步骤不可避免,因为采集需要和数据库进行关联。

如何采集网页中附件,采集网页中附件数据

3. 开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

如何采集网页中附件,采集网页中附件数据

4.数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

如何采集网页中附件,采集网页中附件数据

【数据浏览】

5.导出数据

点击【导出】按钮,选择导出文件格式后保存。

如何采集网页中附件,采集网页中附件数据

导出数据时需选择正确的“存储路径”

导出方式 选择 “导出字段”

欲导出字段 选择 下滑列表中的 “fujian”,最终点击确认即可完成。

如何采集网页中附件,采集网页中附件数据

导出时,文件名后缀务必改为“docm”格式,保存类型选择“All Files”

如何采集网页中附件,采集网页中附件数据

打开下载后的文件,一份完整的附件就这样轻松采集到了,你学会了吗?

如何采集网页中附件,采集网页中附件数据

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
4年前
java实现根据起点终点和日期查询去哪儿网的火车车次和火车站点信息
本文章为原创文章,转载请注明,欢迎评论和改正。一,分析  之前所用的直接通过HTML中的元素值来爬取一些网页上的数据,但是一些比较敏感的数据,很多正规网站都是通过json数据存储,这些数据通过HTML元素是爬取不到的,所以只能通过json数据的api接口来爬取数据。二,网站处理  1,打开去哪儿网的网站https://train.qu
浅梦一笑 浅梦一笑
4年前
分别用python2和python3伪装浏览器爬取网页内容
python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的。最基础的抓取:!/usr/bin/envpythoncodingutf8@Au
Stella981 Stella981
4年前
Python_爬虫笔记_2018.3.19
Python\_爬虫\_笔记1.前言1.1爬虫用途:网站采集、接口采集(地图(jis热力学屋里端口/协议)、微信、知乎、)1.2基本流程:网页下载(requests)网页解析爬虫调度网页解析:在当前网站找信息、下一个入口等信息调度:调度器/
Stella981 Stella981
4年前
Flume sink Kafka Spout Storm Bolt Hbase or Redis (Flume)
Flume可以应用于日志采集.在本次的介绍中,主要用于采集应用系统的日志,将日志输出到kafka,再经过storm进行实施处理.我们会一如既往的光顾一下flume的官网,地址如下:flume官网(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fflume.apache.org%2F
Stella981 Stella981
4年前
Python网络爬虫与如何爬取段子的项目实例
一、网络爬虫Python爬虫开发(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.shsxt.com%2Fpython)工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样
Stella981 Stella981
4年前
Python爬虫实例:爬取猫眼电影——破解字体反爬
 字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下。下图的是猫眼网页上的显示:!(https://oscimg.oschina.
Wesley13 Wesley13
4年前
IP地址定位技术之一:基础数据采集
IP地理位置定位技术,包含基础数据采集、硬件系统搭建、应用场景划分和定位系统研发四项关键技术。基础数据采集为IP地理位置定位技术的研究提供基础数据支撑,是IP地址定位的基础性工作和关键技术。首先,按照不同的数据采集规则,针对不同数据源的数据格式,研究并实现一套自动化的智能化的数据采集技术;其次,对采集到的数据进行筛选、清洗和挖掘,形成基础数据库,为系统提
一份解决爬虫错误问题指南
在互联网上进行自动数据采集已是互联网从业者的常规操作,爬虫程序想要长期稳定地进行数据采集,都会使用到爬虫代理来避免目标网站的IP访问限制。在数据采集过程中难免会遇到各种各样的问题,若想要想要快速分析数据采集过程中的问题,我们该怎么做呢?其实可以通过HTTP
深度解析Python爬虫中的隧道HTTP技术
前言网络爬虫在数据采集和信息搜索中扮演着重要的角色,然而,随着网站反爬虫的不断升级,爬虫机制程序面临着越来越多的挑战。隧道HTTP技术作为应对反爬虫机制的重要性手段,为爬虫程序提供了更为灵活和隐蔽的数据采集方式。本文将探讨Python爬虫中的隧道HTTP技
小白学大数据 小白学大数据
10个月前
Python爬虫多次请求后被要求验证码的应对策略
在互联网数据采集领域,Python爬虫是一种强大的工具,能够帮助我们高效地获取网页数据。然而,在实际应用中,许多网站为了防止恶意爬取,会在检测到频繁请求时要求用户输入验证码。这无疑给爬虫的正常运行带来了挑战。本文将详细介绍Python爬虫在多次请求后被要求
小白学大数据 小白学大数据
1个月前
拉勾网 Ajax 动态加载数据的 Python 爬虫解析
在招聘数据采集、职场趋势分析等场景中,拉勾网是重要的数据来源,但拉勾网采用Ajax动态加载技术渲染页面,传统的静态网页爬虫无法直接获取数据。本文将从Ajax动态加载原理入手,详解基于Python的拉勾网数据爬虫实现过程,包括请求分析、参数构造、反爬应对及数