离线数仓优化简述

天翼云开发者社区
• 阅读 7

本文分享自天翼云开发者社区《离线数仓优化简述》,作者:徐****东

1、业务层面 计算量太大是不是必须的,是否可以减少参与计算的用户量或者时间跨度; 计算逻辑是否过于复杂,是否可以简化。 2、模型层面 是否有现成的数据可以使用或者基于现成的数据进行加工; 是否可以将整个计算逻辑进行合理拆分,降低每个子任务的复杂度,同时提高复用的可能性; 维度退化,空间和时间的权衡。 3、系统层面(遵循一些计算引擎建议的使用规则和参数设置) 使用Spark3引擎,自动合并小文件; 输入文件的存储格式、压缩格式、大小; 输出文件的大小; 启用压缩; 分区、分桶; 拉链表; yarn队列的设置; 合适的计算引擎; task的内存设置; task处理的数据量; task的数量; 并行度优化; 调整参数减少Map数量; 调整参数减少reduce数量。 4、sql、代码层面 列裁剪,避免select ; 分区裁剪,使用分区字段过滤; 条件限制; 谓词下推; map端预聚合; 大key的过滤; 打散倾斜key; 合适的join方式; 用Distribute By Rand控制分区中数据量; group by优化; 中间结果的缓存和复用; 小文件优化。 5、*任务层面** 减少任务依赖,尽可能缩短链路; 业务链路/逻辑重构/改写; 任务分级,任务数评估,错峰调度; 任务依赖降级,周级别的任务依赖天级别,天级别依赖小时级别,小时级别依赖分钟级别; 避免频繁创建任务; 核心任务优先保证产出,双链路机制开启; 耗时长的任务拆分成子任务。任务批次提交; 资源动态扩容; 资源腾挪调整; 无用任务下线。

点赞
收藏
评论区
推荐文章
如何计算真实的数据库成本
本文分享自天翼云开发者社区《》作者:王乾在云计算占主导地位之前,计算数据库的成本是一个非常简单的等式:软件成本硬件成本数据库成本。如果你选择了一个开源产品,软件成本可能会消失。虽然云计算已经从根本上改变了我们使用和部署软件的方式,但仍有太多人在使用这种过
AF_XDP技术简介
本文分享自天翼云开发者社区@《》,作者:ln一.概述AFXDP是一项新增的,针对高性能数据包处理进行优化的地址族协议。本文档假设读者已经熟悉BPF和XDP。如果没有,可以参考开源Cilium项目在(http://cilium.readthedocs.io/
大数据通用组件故障处理
本文分享自天翼云开发者社区《》,作者:fnHDFS1.HDFS服务一直异常检查HDFS是否处于安全模式。检查ZooKeeper服务是否运行正常。2.HDFS维护客户端出现OutOfMemoryError异常使用HDFS客户端之前,需要在HADOOPCLIE
云备份技术解析:云备份 CT-CBR 关键技术介绍
本文分享自天翼云开发者社区《》,作者:沈军1、增量备份备份策略可以分为全量备份、差异备份、增量备份。(1)全量备份(FullBackup),备份所有指定的文件夹和文件,不做文件筛选,对某个时间点上的所有数据进行完全拷贝。好处是每次备份数据相对独立,不依赖历
边缘云特点、应用实践和发展趋势浅析
本文分享自天翼云开发者社区《》,作者:JinnyPeng引言:随着物联网、人工智能和5G技术的快速发展,云计算正在迎来一场革命性的变革。在传统云计算架构中,数据和计算主要集中在大型数据中心中进行处理,这在某些场景下存在一定的局限性。为了满足实时性、低延迟和
HBase Sync功能导致HBase入库性能下降
本文分享自天翼云开发者社区《》,作者:5m问题背景与现象HBase入库慢,regionserver日志中大量打印slowsync。原因分析1.对比正常写入时间段监控,检查HBase服务整体CPU、内存以及NameNodeRPC在异常时间段是否增加;2.检查
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《》,作者:徐东随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的
serverless与容器优缺点
本文分享自天翼云开发者社区@《》,作者:我是小朋友容器优势1、可移植性:使用容器,开发人员可以确保他们的应用程序可以在任何云平台或本地服务器上运行。2、轻量化:容器镜像以层叠加,在本地拥有镜像层缓存;计算资源使用方面,容器也比虚拟机更高效。3、快速启动:容
flinkcdc中checkpoint不成功问题排查
本文分享自天翼云开发者社区《》,作者:徐东使用flink1.16和flinkcdc3.0进行数据接入,采用standalone模式。运行一段时间后checkpoint开始失败,但日志中没有报错信息。因savepoint和checkpoint机制一致,使用手
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
877
粉丝
16
获赞
40