大数据心法来了!一站式玩转MaxCompute,还有开发者资源等你领!

比特逐星人
• 阅读 1313

阿里云大数据计算平台开发者版2019年3月推出,MaxCompute正在成为开发者的免费大数据平台。今天,MaxCompute在企业构建自己的数据处理平台实践中起到了至关重要的作用,我们特别精选了企业的真实实践案例:从最大的兴趣社群平台小打卡;到90后、00后喜欢的克拉克拉;从互联网金融的典型天弘基金;到耳熟能详的二手车平台人人车……为你带来了超多的MaxCompute玩法。

小打卡案例 >>>
小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。在这样超大的内容生产背景下,平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。相反,如果完全基于开源的Hadoop框架,从服务部署、可视化开发、代码管理、任务调度、集群运维等多方面,均需要大量的人力来开发与维护。基于阿里云MaxCompute,不论是人力成本,还是计算成本,还是运维成本,都降到了最低。

美柚案例 >>>
美柚2014年底迁移到阿里云大数据计算平台,开始使用数据仓库MaxCompute,几乎零运维,极大降低了大数据的使用门槛。MaxCompute的数据集成工具可以很方便的将不同数据源的数据进行导入导出,基本实现常用数据源的全覆盖,从而实现大数据的全链路打通。所有的代码管理、调度、监控、报警阿里云MaxCompute都帮美柚做好,美柚只需使用它,让美柚更专注于数据开发。

千寻位置 >>>
千寻位置作为高精度定位服务公司,依托阿里云计算平台快速实现了传统数据应用模式到统一大数据体系的转型。基于阿里云 MaxCompute和DataWorks 构建了企业级数据仓库体系,底层数据存储方便、便宜、易拓展,计算效率高、反应快,并支持超大规模数据任务自动化管理。和阿里云的其他平台如 Quick BI良好的兼容打通,很方便的实现了数据应用一体化,减少了大量额外的开发成本和人力成本。平台一直和用户有良好沟通、反馈,不断优化改进,提供更好的用户支持,让我们也有信心更深入的依赖于阿里云平台发掘更多价值。

中邮智递 >>>
中邮智递数据平台发展到现在经历了四个阶段:(1) 直接在业务生产系统开发生成报表,提供业务部门查询;(2) 采用kettle等工具抽取各业务系统数据并处理生成报表;(3) 使用hive构建离线数据仓库,抽取业务数据统一处理并生成报表推送至报表系统;(4) canal+kafka+tidb构建实时数仓进行实时OLAP分析,spark streaming+kafka+redis构建实时数据展示。目前中邮智递也在尝试把现在ECS主机上的系统和服务迁移到阿里云的大数据平台中,例如数加和datav。以及使用ADB实现实时OLAP达到低延迟,高并发。

人人车 >>>
通过阿里云MaxCompute,人人车平台快速高效的完成数仓搭建,并且数据仓库安全可靠,运行平稳,在每日数据峰值阶段的表现优异。目前已开始为公司贡献数据上的效益。 通过阿里云MaxCompute搭建数据仓库为我们节省30%的服务成本及大量的人力成本,大大节省企业的研发时间,使企业研发团队可以更加专注于业务本身的研发。MaxCompute为企业提供完善的数据处理方案、大规模的计算储存、细粒度的节点依赖管理等功能,大大优化了企业数据平台的性能。服务安全可靠,每天稳定在8点前产出企业需要的数据。

高德地图 >>>
高德对数据平台的要求不仅是数据集成、开发、运维中心、数据质量、数据地图、数据安全以及数据服务等全链路All in One,还希望能以可视化的方式进行用户交互,以提高开发效率。以运维中心为例,希望所使用的工具能够将调度节点可视化,方便进行不同时间粒度的任务依赖。同时,还希望拥有可视化的数据地图用于管理元数据信息,方便上下游即时查看。MaxCompute正是符合高德数据业务诉求的给力产品。不仅具有零学习成本和完善的IDE等优势,更具备超高弹性,让高德得以轻松应对国庆假期的超高流量。同时,基于MaxCompute等阿里云产品,让高德内部迄今为止最大的公共项目“魔方”得以实现,为用户提供更优质的出行服务。

多点在线 >>>
MaxCompute是真正的按量付费,对自建Hadoop、使用EMR和使用MaxCompute的成本进行比较的话,差距非常大,整体成量级降低。日常开发 使用SQL,效率高,易调试,文档清晰。MaxCompute不需要运维集群,并提供支撑百万级任务的调度系统,如果自己搭建这样调度系统还是 比较困难的。

阿里妈妈 >>>
阿里妈妈作为集团内MaxCompute用户,在搜索广告、定向广告、达摩盘、报表和BI分析等场景下都有使用MaxCompute。对阿里妈妈来讲,MaxCompute的优势在于数据友好、生态完善持续改进、性能强悍。在具体的场景中,MaxComput可以完成千亿级样本百亿级特征的训练实验;跑一个MapReduce或SQL的Job,可以实现十万级实例的并发调度。超强性能支撑了阿里妈妈单日十万级别的job和千亿级别报表数据。

新华智云 >>>
新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯基于MaxCompute进行数据处理和算法加工,将挖掘的有价值数据内容和能力开放给上层用户。

墨迹天气 >>>
墨迹天气日志分析业务迁移到MaxCompute后,开发效率提升超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性化运营策略。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。

众安保险 >>>
众安保险作为国内首家互联网保险公司,从创立之初计算平台就使用MaxCompute。MaxCompute不仅仅是一个计算平台,它还提供可用的IDE(DataWorks、Studio)开发工具进行数据分析和挖掘,从而降低了众安最初的开发成本。MaxCompute不仅为众安提供任务调度系统、元数据、数据质量监控、数据服务与安全,而且生态的丰富,资源与工具的共享,都能很好的满足众安的使用需求,让众安可以有更多时间去接触用户,为用户创造更大价值。

华大基因 >>>
基因技术从实验室逐渐进入生活场景,数据体量爆发式增长,远超出传统计算能力所能支持的范围。基于这样的背景,华大选择了MaxCompute。在百万人基因组项目中,对人群结构的分析,传统计算方式需3-5天,MaxCompute可使整个分析在1小时内完成,极大加速了数据吞吐和交付速度。在对百万人基因数据进行遗传结构分析时,计算复杂度使得传统计算无法支撑,利用MaxCompute,华大取得了技术突破,在几小时内完成一个人与十万人中所有遗传距离计算,计算成本大幅降低至1千美金以内,这样的例子华大基因还在不断开发中。

小红唇 >>>
小红唇App拥抱大数据计算平台MaxCompute以来,体验非常好,其感受主要是不需要像传统大数据业务一样构建非常复杂的Hadoop栈并对其进行运维,从而节省了资金和时间成本。目前,小红唇的业务数据库完全在MaxCompute平台,只需在数加的IDE里做一些简单的配置即可将数据完整迁移。在MaxCompute上,可以用类SQL的语句编写数据清洗和转换的执行任务,平台同时提供管理器对任务进行调度和管理。MaxCompute整个生态系统设计的比较完善,无需专职数据团队,降低人员成本,极大提升了效率。

优酷 >>>
优酷去做了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年现在的5月优酷的发展历程,上面是计算资源,下面是储存资源。大家可以看到整个用户数,还有表的数据,实际上是在呈一个指数式增长的。但是在2017年5月,当优酷完成了整个Hadoop迁移MaxCompute后,优酷的计算消耗,还有储存的消耗实际上是呈下降趋势的,整个迁移得到了一个非常大的收益。

点击免费开通MaxCompute开发者版 >>>



本文作者:晋恒

原文链接

本文为云栖社区原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
待兔 待兔
1年前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
SQL优化器原理
摘要:在MaxCompute中,Join操作符的实现算法之一名为"HashJoin",其实现原理是,把小表的数据全部读入内存中,并拷贝多份分发到大表数据所在机器,在map阶段直接扫描大表数据与内存中的小表数据进行匹配。    这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架
Stella981 Stella981
3年前
Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏
简介: 本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践,揭秘FlinkHologres流批一体首次落地阿里双11营销分析大屏背后的技术考验。_概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪
Stella981 Stella981
3年前
Kafka数据迁移MaxCompute最佳实践
前提条件搭建Kafka集群进行数据迁移前,您需要保证自己的Kafka集群环境正常。本文使用阿里云EMR服务自动化搭建Kafka集群,详细过程请参见:Kafka快速入门。本文使用的EMRKafka版本信息如下:EMR版本:EMR3.12.1集群类型:Kafka软件信息:Ganglia3.7.2ZooKeeper
Wesley13 Wesley13
3年前
MongoDB经典故障系列六:CPU利用率太高怎么办?
每逢电商大促,全民狂欢,但热闹是属于疯狂剁手的人们。而开发者们有的缺是“高流量、高访问、高并发”三高下带来的种种问题。为了应对大促期间的高I/O情况,企业会选择MongoDB云数据库应对。可是,在使用MongoDB云数据库的时候,可能经常遇到一个问题:MongoDBCPU利用率很高,都快跑满了,这该怎么办?别担心,我们有菊长呢。你看,菊长来了…!(
京东云开发者 京东云开发者
9个月前
【转载】把大模型做实 把供应链做透: 京东推出言犀大模型
作者:张东7月13日,2023京东全球科技探索者大会暨京东云峰会在北京举行,全面推出京东言犀大模型、言犀AI开发计算平台、升级支撑大模型落地行业的产品及解决方案,服务千行百业拥抱产业智能。源于产业、服务产业。言犀大模型融合了70%的通用数据与30%京东数智
性能提升,成本降低,原生数据库的崛起
腾讯高级工程师杨宇基介绍,作为国内首个云原生无服务器数据库,TDSQLC实现了自动伸缩三大目标,可以根据业务负载进行伸缩。开发者不需要提前预测负载和扩展资源;按使用量计费,按实际使用负载计费,开发者不需要为未使用的资源付费;没有使用,没有付款,没有数据请求
直播预告丨大模型如何在健康医疗中挖出大大的花?
大模型时代,“应用变了”:大模型如何在健康医疗中挖出大大的花?12月1日(周五)14:0015:00开播!大模型时代,给千行百业带来了新的想象空间试想一下,大模型经过专业知识训练竟然能够成为你的健康医疗助手曾经科幻片中的场景,正一步步成为现实这一期,我们将
一文教你10分钟快速玩转魔乐社区
8月底,魔乐开发者社区上线,引起开发者的关注。据了解,在魔乐社区的平台上,每一位开发者都能找到所需的资源和工具,无论是数据集、模型库还是开发工具,魔乐社区都将提供一站式服务。那该怎么玩呢?来来来,跟随我的脚步,教你10分玩转魔乐开发者社区(modelers.cn)。
“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。