解决“数据孤岛”,为行业制定一个合适的大数据应用架构

Scala学者
• 阅读 1378

大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点, 随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值。

一般来说,大多数公司都希望有几个大数据项目,公司的主要目标是增强客户体验,但其他目标包括降低成本,更有针对性地进行营销,并使现有流程更有效率。

那么,如何对一个行业制定大数据应用架构呢?

在制定大数据应用架构之前,要先明确该企业面临的问题,业务需求场景以及用户的需求。

在现有企业的数据化情况之下,虽然业务系统、ERP、供应链系统已经上线,但对于集团管理层与业务层,仍面临着以下问题:

1.数据分散,存放于多个业务系统中,形成了一个一个的“数据孤岛",没有办法将这些数据打通,从多个角度对数据进行深度分析。

2.各业务部门迫切地希望通过数据解决一些管理、业务发展的问题,但是现有的报表展现形式不能满足分析需求。

3.依托IT取数的配合方式,传递效能低,易造成重复劳动,而且数据时效性也不能保证,往往从数据产生,到流入业务部门需要经过一周以上,风险并不能被及时暴露。

4.随着公司的发展,数据的安全和保密日趋重要,特别是一些公司财务信息、客户信息等,需要有权限的管理来对数据进行保护和管理。

接着再通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。

大数据平台的整体架构可以由以下几个部分组成:

一、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,比如很多银行现在都有自己的App。

更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。

二、数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而这里的Kettle只是ETL的其中一种。

三、数据存储:指的就是数据仓库的建设了,简单来说可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。

解决“数据孤岛”,为行业制定一个合适的大数据应用架构

四、数据共享层:表示在数据仓库与业务系统间提供数据共享服务。Web Service和Web API ,代表的是一种数据间的连接方式,还有一些其他连接方式,可以按照自己的情况来确定。

五、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。

列存储让磁盘中的各个Page仅存储单列的值,并非整行的值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效地利用。而分布式计算能够把一个需要非常大的算力才能解决的问题分成很多小部分,接着把这些部分给到许多计算机同时处理,然后把这些计算结果综合起来,得到最终的结果。

综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP可以说是目前在这两方面做得最出色的了。

六、数据展现:结果以什么样的形式呈现,其实就是数据可视化。对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等,国内的Smartbi思迈特软件等,将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。

七、数据访问:这个就比较简单了,看你是通过什么样的方式去查看这些数据,图中示例的是因为B/S架构,最终的可视化结果是通过浏览器访问的。

但制定大数据应用架构不是一件简单的事情,本身就是一项复杂的工作,在这过程中需要考虑的因素有很多,比如:

稳定性:可以通过多台机器做数据和程序运行的备份,但服务器的质量和预算成本相应的会限制平台的稳定性;

可扩展性:大数据平台部署在多台机器上,如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;

安全性:保障数据安全是搭建大数据应用架构不可忽视的问题,在海量数据的处理过程中,如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

Smartbi思迈特软件是国内领先的BI厂商,产品定位于一站式大数据服务平台,满足各种数据分析应用需求,如大数据分析、自助探索分析、地图可视化、 移动管理驾驶舱 、指挥大屏幕、企业报表平台、数据挖掘等。Smartbi产品功能设计全面,企业单位只需要安装部署一次,就可以实现中国式复杂报表、自助BI、以及数据挖掘产品的使用,产品性能、易用性和安全性都不错,广泛应用于金融、政府、电信、企事业单位等领域。

点赞
收藏
评论区
推荐文章
Karen110 Karen110
4年前
图像中查找小图像的方法
如果有一副大图像和该大图像中截取的部分小图像,用人眼很容易找到小图像在大图像中的位置,但如果想通过电脑自动查找怎么解决呢?有2种方法,一种是直接通过图像矩阵的数据内容匹配进行查找,在一个大矩阵中查找对应小矩阵,这是精确匹配,要求小矩阵的所有元素与大矩阵中某部分的所有元素完全一致;另外一种就是OpenCVPython的HMT(hitandmisstransf
汽车信息安全相关岗位招聘简章
公司简介天津某央企,作为中国汽车行业最重要的数据资源整合及服务机构,在工业和信息化部、商务部等部门的领导和支持下,积极推进信息化与工业化融合,以综合解决方案为主要手段促进汽车行业的可持续发展,建立了基于“大数据、大平台、大计算”三大领域的多维
Stella981 Stella981
3年前
GreenPlum tidb 性能比较
主要的需求  针对大体量表的OLAP统计查询,需要找到一个稳定,高性能的大数据数据库,具体使用  数据可以实时的写入和查询,并发的tps不是很高建立数据仓库,模式上主要采用星星模型、雪花模型,或者宽表前端展示分为3类 saiku、granafa、c代码开发数据体量:事实表在35亿、维度表大的在500
Stella981 Stella981
3年前
AnalyticDB for MySQL 3.0基础版重磅发布
随着大数据技术的迅速发展以及对数据价值的认识逐渐加深,大数据已经融合到各行各业。据可靠权威数据显示,超过39.6%的企业正在应用数据并从中获益,超过89.6%的企业已经成立或计划成立相关的大数据分析部,超过六成的企业在扩大数据的投入力度度。在这样的大数据行业背景下AnalyticDBforMySQL3.0基础版发布了。AnalyticDBforMyS
大数据建模
大数据建模、分析、挖掘技术应用研修班的通知随着2015年9月国务院发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理
UData+StarRocks在京东物流的实践 | 京东物流技术团队
1背景数据服务与数据分析场景是数据团队在数据应用上两个大的方向,行业内大家有可能会遇到下面的问题:1.1数据服务烟囱式开发模式:每来一个需求开发一个数据服务,数据服务无法复用,难以平台化,技术上无法积累服务维护难度大:当开发了大量数据服务后,后期维护是大问
万界星空科技可视化数据大屏的作用
​随着科技的不断发展和进步,当前各种数据化的设备也是如同雨后春笋般冒了出来,并且其可以说是给我们带来了极大的便利的。在这其中,数据大屏就是非常具有代表性的一个例子。​数据大屏的主要作用包括:数据分析:数据大屏能够将大量数据以图表、表格等多种形式展示,帮助人
万界星空科技电线电缆行业生产管理智能化MES
​电线电缆行业生产管理现状:电线电缆行业是典型的重资产行业,原材料成本高、产品价值高、资金占用大、产品规格型号多达数万种,BOM管理繁杂,现场管理粗放,订单经常会合并或拆分生产,对排程要求高。​1、计划制定不准确,易交期延误工序变更频繁;生产过程数据仍然是
高效时代,谁是DeepSeek部署的“最优解”?
在当今数字化浪潮中,随着文字、图像、音频、视频等多元数据处理需求不断涌现,大语言模型已成为推动行业智能化的关键力量。DeepSeek作为一款先进的大语言模型,能够轻松应对从基础问答到复杂数据分析的多种任务,为各行业带来前所未有的智能化体验,但同时也对底层云
Scala学者
Scala学者
Lv1
见到你的一瞬间,就像走了很远的路,终于到家了
文章
3
粉丝
0
获赞
0