大数据建模、分析、挖掘技术

helloworld_38131402
• 阅读 123

随着《关于印发促进大数据发展行动纲要的通知》发布,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据正确使用正确的方法获得正确的结果。 为响应科研及工作人员需求,根据《国务院关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化,建立职业分类动态调整机制,加快职业标准开发工作”要求,中国管理科学研究院现代教育研究所(http://www.pdhb.org.cn)联合北京龙腾亚太教育咨询有限公司特举办“大数据建模、分析、挖掘技术应用研修班”。本次培训采用实战培训模式。 本次培训由北京龙腾亚太教育咨询有限公司承办并进行相关费用收取及发票开具。具体通知如下: 一、时间安排:
2023年8月18日 — 2023年8月22日 上海(同时转线上直播) (18日报到发放上课材料,19日-22日上课) 二、培训目标 1.掌握大数据建模分析与使用方法。 2.掌握大数据平台技术架构。 3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。 4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。 5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。 6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。 7.掌握常见的机器学习算法。 三、培训专家 来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研及工程技术经验,长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。 四、参会对象: 各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及大数据研究广大爱好者。 五、费用标准: 5680元/人(含报名费、培训费、资料费、证书费)。住宿可统一安排,费用自理。 1、培训费由组织培训班的施教机构负责收取并提供培训发票。 2、上课前一周汇款可享受9折优惠,或报名5人以上可享受9折优惠,两个优惠不同时享用。 3、参加线上、线下培训学员均可享受视频录播回放权益,及本人再次免费参加线下同主题课程学习权益。 六、颁发证书: 参加相关培训并通过考核的学员,由中国管理科学研究院现代教育研究所颁发《大数据开发与应用工程师》(高级)岗位认证证书,可通过官方网站查询,该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。 注:报到时请提交电子版彩照(大于20KB,红蓝底皆可)、身份证复印件和学历证明复印件各一份。 七、注意事项 1.指定报名邮箱:2044115758@qq.com。 2.报名成功后,会务组在报到前一周发具体报到通知及行车路线。 3.学员需自备电脑WIN10、64位系统,16G及以上内存,硬盘空间预留100G。 八、具体课程安排 时间安排 课程大纲 详细内容 实践训练 第一天 9:00-12:00 14:00-17:00 一、大数据概述 1.大数据及特点分析 2.大数据关健技术 3.大数据计算模式 4.大数据应用实例
二、大数据处理架构Hadoop 1.Hadoop项目结构 2.Hadoop安装与使用 3.Hadoop集群的部署与使用 4.Hadoop 代表性组件 1.Hadoop Single Node Cluster 2. Hadoop Multi Node Cluster 三、分布式文件系统HDFS 1.HDFS体系结构 2.HDFS存储 3.HDFS数据读写过程 1.创建与查看HDFS目录 2.从本地计算复制文件到HDFS 3.将HDFS文件复制到本地计算机 4.复制与删除HDFS文件 5.Hadoop HDFS Web浏览HDFS 四、分布式数据库HBase 1.HBase访问接口 2.HBase数据类型 3.HBase实现原理 4.HBase运行机制 5.HBase应用
第二天 9:00-12:00 14:00-17:00 五、MapReduce 1.MapReduce体系结构 2.MapReduce工作流程 3.资源管理调度框架YARN 4.MapReduce应用
六、Spark 1.Spark生态与运行架构 2.Spark SQL 3.Spark部署与应用方式 1.Python Spark 安装 2.本地运行pyspark程序 3.在Hadoop YARN 运行pyspark 4.Spark Web UI 七、IPython Notebook运行Python Spark程序 1.Anaconda 2.IPython Notebook使用Spark 3.使用IPython Notebook在Hadoop YARN模式运行 1.在不同模式运行IPython Notebook运行Python Spark命令 2.Python 程序开发 八、Python Spark集成开发环境 1.Python Spark集成开发环境部署配置 2.Spark数据分析库MLlib的开发部署 Spark MLlib应用程序示例 第三天 9:00-12:00 14:00-17:00 九、Python Spark决策树二分类与多分类 1.决策树原理 2.大数据问题 3.决策树二分类 4.决策树多分类 1.搜集数据 2.数据准备:导入并转换数据、提取特征字段、提取标签 3. Python Spark建模,训练模型 4.预测数据 5.评估数据,给出评价指标并得到评估结果 十、Python Spark支持向量机 1.支持向量机SVM 原理与算法 2.Python Spark SVM程序设计 1.数据准备 2.建立SVM模型,训练模型 3.评估参数并找出最优参数 4.根据模型进行预测 十一、Python Spark 贝叶斯模型 1.朴素贝叶斯模型原理 2.Python Spark贝叶斯模型程序设计 1.建模贝叶斯模型,并进行对参数估计 2.训练模型,得到最优参数 3.根据模型进行预测 十二、Python Spark逻辑回归 1.逻辑回归原理 2.Python Spark逻辑回归程序设计 1.Python Spark逻辑回归建模 2.根据模型进行分类 第四天 9:00-12:00 14:00-17:00 十三、Python Spark回归分析 1.大数据分析 2.数据集介绍 3.Python Spark回归程序设计 1.数据准备 2.训练回归模型 3.建立评估指标 4.训练回归模型,并找到最优参数 5.根据模型进行预测 十四、Spark ML Pipeline 机器学习流程分类 1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等 2.使用Spark ML Pipeline 机器学习流程分类程序设计 1.数据准备 2.建立机器学习Pipeline流程 3.使用Pipeline流程训练 4.使用PipelineModel预测 5.评估模型准备率 十五、Python Spark 创建推荐引擎 1.推荐算法 2.推荐引擎大数据分析使用场景 3.推荐引擎设计 1.搜索数据 2.准备数据 3.训练模型 4.使用模型进行推荐 十六、项目实践 1.日志分析系统与日志挖掘项目实践 a、Hadoop,Spark,ELK技术构建日志数据仓库 b、互联网微博日志分析系统项目 1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目

更多内容请关注微信公众号:人工智能技术与咨询或登录中国人工智能培训网 大数据建模、分析、挖掘技术

点赞
收藏
评论区
推荐文章
Irene181 Irene181
2年前
用户画像有什么用?怎样用?6个场景案例给你讲明白
导读:企业的精细化运营、数据驱动都是基于大数据分析来进行的。在大数据分析中,对用户行为进行分析挖掘又是一个重要的方向,通过对用户行为进行分析,企业可以了解用户从哪里来,进入平台后进行了哪些操作,什么情况下进行了下单付款,用户的留存、分布情况是怎样的等。在这些数据的指导下可以不断优化产品设计、运营模式从而促进转化率的提高和营收的增长。基于用户行为分
CuterCorley CuterCorley
3年前
Python数据分析实战(1)数据分析概述
一、入门数据分析1.大数据时代的基本面大数据产业发展现状:现在数据已经呈现出了爆炸式的增长,每一分钟可能就会有:13000个iPhone应用下载Twitter上发布98000新微博发出1.68亿条Email淘宝双十一10680个新订单12306出票1840张在大数据时代,出现了三大变革:从随机样本到全量数据
Karen110 Karen110
2年前
数据挖掘建模过程全公开
「数仓宝贝库」,带你学数据!导读:本文以餐饮行业的数据挖掘应用为例,详细介绍数据挖掘的建模过程。数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。对餐饮企业而言,数据挖掘的基本任务是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据,
Stella981 Stella981
2年前
AnalyticDB for MySQL 3.0基础版重磅发布
随着大数据技术的迅速发展以及对数据价值的认识逐渐加深,大数据已经融合到各行各业。据可靠权威数据显示,超过39.6%的企业正在应用数据并从中获益,超过89.6%的企业已经成立或计划成立相关的大数据分析部,超过六成的企业在扩大数据的投入力度度。在这样的大数据行业背景下AnalyticDBforMySQL3.0基础版发布了。AnalyticDBforMyS
Wesley13 Wesley13
2年前
APP数据分析总结:2个分析模型及6种数据展现形式
数据运营分析可帮助人们作出判断,以便采取适当行动。什么是数据分析?数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的目的是什么?数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出
彭玘 彭玘
2星期前
6大数据库,挖掘7种业务场景的存储更优解
6大数据库,挖掘7种业务场景的存储更优解download》chaoxingit.com/898/六大数据库,挖掘七种业务场景的存储更优解随着技术的发展,数据库管理系统(DBMS)在各种业务场景中发挥着越来越重要的作用。从关系型数据库到非关系型数据库,从传统
大数据建模
大数据建模、分析、挖掘技术应用研修班的通知随着2015年9月国务院发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理
小白学大数据 小白学大数据
11个月前
python如何分布式和高并发爬取电商数据
随着互联网的发展和数据量的不断增加,网络爬虫已经成为了一项非常重要的工作。爬虫技术可以帮助人们自动地从互联网上获取大量数据,并且这些数据可以应用于各种领域,如搜索引擎、数据分析和预测等。然而,在实际应用中,我们面临的一大难题就是如何高效地爬取大量数据。分布
京东云开发者 京东云开发者
8个月前
GPT-4助力数据分析:提升效率与洞察力的未来关键技术 | 京东云技术团队
ChatGPT4作为一种先进的自然语言处理技术,为数据分析带来了革命性的提升,助力企业和组织更高效地挖掘数据价值。本文将探讨ChatGPT4在数据分析中的应用,以及如何通过该技术提高数据分析的效率和洞察力。
万界星空科技 万界星空科技
3个月前
万界星空科技可视化数据大屏的作用
​随着科技的不断发展和进步,当前各种数据化的设备也是如同雨后春笋般冒了出来,并且其可以说是给我们带来了极大的便利的。在这其中,数据大屏就是非常具有代表性的一个例子。​数据大屏的主要作用包括:数据分析:数据大屏能够将大量数据以图表、表格等多种形式展示,帮助人