建模高手与初学者的差别在哪里?需要什么样的人来建模?

极客远征者
• 阅读 751

我们知道,数据挖掘的基本流程包括:(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。其中第 4 步,数据预处理和建模是整个流程的核心部分,其他的步骤都是围绕的该步骤进行的。建模高手和初学者的差距也往往在这里,建出一个模型很容易,快速高效的建出一个好的模型却不容易。

机器学习发展到今天已经有众多优秀前辈给我们贡献了各种各种现成的算法包,例如在 Scikit-learn 里就提供括回归 (Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering) 等方法的算法库,使用者只需要轻松的调包操作就能跑出一个模型。但是要建出高质量的模型,这是远远不够的。数据挖掘算法和数据库运算中用到的排序、分组算法有很大不同,后者是确定的算法,同样的数据进来就会出同样的结果,也没多少参数可调。而数据挖掘算法有许多经验因素,同样的数据进去,设置不同的参数来训练模型,结果很可能是不一样,甚至可能差别很大。以常用的 GBDT 算法为例,需要的参数有十几个,如下图所示,这些参数表示什么含义,如何去设置,如何能快速找到最佳值,当模型效果不好时如何去调参, 这都需要建模师对算法原理和应用场景有深刻的理解才能顺利进行。况且算法也不是只有这一种,在建模时用哪种算法,是用一种还是多种组合用,都是建模师要需要考虑的。

![]()

比这更复杂的是,在建模之前还要做大量的预处理工作,例如对于非标准正态分布的变量,应该如何处理;对于数据中的噪音应该如何降噪,对于高基数变量如何处理等等。因此,建模高手和初学者的区别就在于建模高手往往具备深厚的统计学理论和丰富的建模调参经验,对数据分布,数据预处理,算法运行原理等有着深刻的理解,而初学者往往只会机械的调包计算,不懂得背后的理论知识,不清楚如何数据探索和分析,不懂得如何处理数据使数据更适合拿来建模,往往只是照猫画虎,知其然而不止其所以然。就好像没有学过建筑学的人拿着一堆原材料去盖大楼,盖出的楼能不能住人、会不会倒,经常要看运气了。

不过,作为初学者也不必担心,近年来兴起的自动建模技术就可以有效的帮助我们。自动建模技术是将统计学家和数学家的数据处理经验和理论融入到软件中,使得软件能够智能的去完成数据预处理,建模型,选参数,做评估等一系列的工作。对于使用者来讲只需要将数据丢进自动建模工具,并且配置好目标,工具就能够自动建出优质模型。即使是没有统计学背景,不了解算法的初学者,或者普通的 IT 程序员都可以通过自动建模技术来做数据挖掘业务,连简单的 Python 都不用再学就可以享受 AI 技术带来的福利。

对进一步数据挖掘和 AI 技术感兴趣的同学还可以搜索“乾学院”,上面有面向小白的零基础“数据挖掘”免费课程,或者直接点下面的链接也可以:
http://www.raqsoft.com.cn/wx/course-data-mining.html
建模高手与初学者的差别在哪里?需要什么样的人来建模?

点赞
收藏
评论区
推荐文章
Karen110 Karen110
3年前
数据挖掘建模过程全公开
「数仓宝贝库」,带你学数据!导读:本文以餐饮行业的数据挖掘应用为例,详细介绍数据挖掘的建模过程。数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。对餐饮企业而言,数据挖掘的基本任务是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据,
黎明之道 黎明之道
4年前
天池比赛数据挖掘心电图模型调参
Task4建模与调参4.1学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成
Wesley13 Wesley13
3年前
NoSQL 的数据建模技术
这是一篇很牛逼的技术文章,讲述如何对NoSQL的数据进行建模。英文原文:http://highlyscalable.wordpress.com/2012/03/01/nosqldatamodelingtechniques/(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fhi
Wesley13 Wesley13
3年前
2020国赛数学建模B题 穿越沙漠思路
赛题总体定位:运筹规划。情景非常具体,数据需要少,需紧密结合情景具体建模,不要硬套模型。编程能力要求高一点。三问都是优化模型,注意模型之间的关联。注意点:1.对游戏规则摸清楚,不要急着建模。2.涉及到路线、事件的选择,使用01变量等定义模型。3.最短路径基本可以数出来,考察的是最优路径
大数据建模、分析、挖掘技术
随着《关于印发促进大数据发展行动纲要的通知》发布,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关
治理要从数据建模抓起 | 京东云技术团队
数据治理是对数据管理权力的执行和落实。数据建模可以被认为是对数据定义权力的执行和实施。数据建模这门学问涉及到在"正确"的时间,由"正确"的人,为组织定义"正确"的数据,这就是数据治理的本质。创建数据模型的动因有很多。一般包括遵循数据标准、减少冗余、符合业务
CRISP-DM的应用与理解
CRISPDM是一个数据挖掘项目规划的开放标准流程框架模型,主要分为业务理解、数据理解、数据准备、建模、评估、部署六个阶段。
大数据建模、分析、挖掘技术应用
时间2022年8月5日—2022年8月9日北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三
大数据建模、分析、挖掘技术应用
1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布
领域建模之数据模型设计方法论 | 京东云技术团队
本文通过实际业务需求场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于指导实际开发中如何进行业务模型向数据模型转化抽象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者可以收获到业务模型向数据模型抽象可参考的一种方法论,并针对后期业务需求变化,尽可能降低模型调整或者模型推a倒重建的风险。本文可以重点关注建模实施流程,针对自己实际业务场景,不断抽象优化自己的数据模型。