“大数据应用场景”之隔壁老王(连载二)

模式薄雾
• 阅读 1014

大家的好朋友,我们的好邻居老王时隔一周第二次闪亮登场了!!!上次给大家讲到老王通过小编公司爬虫的帮助找到了合适的合作伙伴,之后生意一直风生水起,但是老王并不满足于现状。当他听说可口可乐通过大数据分析出樱桃味的可乐,并在全世界推出之后,心里一阵窃喜。他的辣条厂想要推出新口味的辣条,请小编帮他分析一下。

第一步:打开爬虫

首先,小编先从微博搜索中搜索到关于正餐,小吃,零食,泡面等的所有信息,采集到的信息文本中,包含一些无关的垃圾信息,如广告等等。

“大数据应用场景”之隔壁老王(连载二)

第二步:把垃圾信息塞到分类器中去

但是老王需要的却只是关于这四类食品大众喜欢的口味,这些垃圾信息没有帮助,反而会增加系统的负担。因此需要对这类文本给出垃圾标识。那么怎么来判定是否为垃圾文本呢,小编在分类器里输入了垃圾文本的特征词,如果言论文本属于垃圾文本,则给出垃圾标识。

通过上述步骤,老王在小编的帮助下通过分类器筛选出了全部有关于正餐、小吃、零食、泡面的口味评价。

“大数据应用场景”之隔壁老王(连载二)

第三步:把有效信息塞到分类器中去

接着,小编要开始对这些信息进行分类了,也就是说使用前嗅的分类器根据言论的类型,自动对得到的文本打上对应的标签,分到所在的类别里。其中,言论的类别是根据提供的类型确定的,分类器是采用机器学习的方法从大规模标注数据中训练得到的。对于一个输入的言论文本,由N个训练好的分类器分别判断言论是否属于该类别,如泡面的红烧牛肉味、老坛酸菜味等。如果言论文本属于该类别,则给言论打上对应的标签。

“大数据应用场景”之隔壁老王(连载二)

通过上述步骤,老王在小编的帮助下通过分类器,将全部有效信息,按照正餐、小吃、零食、泡面的各个口味,进行了精确的分类。

第四步:判断想吃/不想吃

最后也是最重要的一步情感极性分析,也称文本倾向性分析,即判断微博的言论属于想吃、不想吃或者吃不吃都行。用户言论文本的情感极性判断分为两个过程,分别为情感极性模型训练过程和言论文本情感极性判别过程。首先,需要在分类器输入标注好情感极性的言论文本,需要有三类文本:想吃文本、不想吃文本或者吃不吃都行文本。训练好了情感模型可以应用此分类器对言论文本的情感极性进行判断,进行情感极性判断,最后输出的言论文本的情感极性标签:想吃、不想吃或者吃不吃都行。

“大数据应用场景”之隔壁老王(连载二)

第五步:关上分类器

把分类器的结果关联到ForeAna数据分析引擎中,就自动得出了可视化图表。

“大数据应用场景”之隔壁老王(连载二)

老王拿着结果兴高采烈的跑到了工厂,工人们对这个结果表示十动然拒,并以罢工要挟,如果要出这些口味的辣条,他们就跳槽到某龙辣条厂。。。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
PhoneGap设置Icon
参考:http://cordova.apache.org/docs/en/latest/config\_ref/images.html通过config.xml中的<icon标签来设置Icon<iconsrc"res/ios/icon.png"platform"ios"width"57"height"57"densi
Wesley13 Wesley13
3年前
Java 的锁
对象锁:new一个对象,都会给这个实例创建一把锁,对象中的方法必须在实例创建后,通过调用方法获取锁,一个线程进去这个方法之前拿到对象的锁,才能调用方法,否则被阻塞,举个例子,老王有个如花似玉的女儿,小张很爱慕,但是小张必须见到老王(AanewA();),通过老王的肯定才能和对方的女儿交往(a.lock());如果见不到老王,就别想
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Easter79 Easter79
3年前
TurnipBit开发板DIY呼吸的吃豆人教程实例
  转载请以链接形式注明文章来源(MicroPythonQQ技术交流群:157816561,公众号:MicroPython玩家汇)  0x00前言  吃豆人是耳熟能详的可爱形象,如今我们的TurnipBit也集成了这可爱的图形,我们这就让他来呼吸了~。  0x01效果展示  先一起看下最终的成品演示视频:  http:/
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这