MaxCompute 物化视图智能推荐最佳实践

什么是物化视图

MaxCompute物化视图是一种预先计算和存储结果数据的数据对象，也可以称之为“实体化视图”。物化视图可以作为一张虚拟表存在于MaxCompute项目中，它的内容是一个或多个表的聚合，过滤以及Join组合计算结果。物化视图可以大幅度减少查询处理时间以及节省作业计算资源，基于MaxCompute优化器强大的自动查询改写能力，当作业可以复用物化视图结果时，优化器自动把一些复杂的操作替换成读取物化视图操作，从而提升作业执行速度、节省作业计算资源。

什么是物化视图智能推荐

物化视图的使用，不但需要对物化视图的工作原理比较了解，同时需要了解业务数据行为与业务数据的使用场景，给普通用户使用物化视图带来一定困难。

MaxCompute 物化视图智能推荐实现了用户无感知的流程化使用物化视图能力。用户开启物化视图智能推荐后，MaxCompute 可以为用户自动分析业务数据使用场景，自动推荐物化视图，并且可以可视化展现物化视图的使用效果。为物化视图使用大大降低了门槛，同时也带来更多的物化视图使用场景。

物化视图智能推荐的特点

简单易用，用户不需要了解物化视图各个底层工作细节，只需选择自己的Project开启自动智能分析。
智能，MaxCompute自动对用户历史作业进行分析，自动识别周期性作业，并智能提取作业集合中的公共计算逻辑作为物化视图计算逻辑，并最终转换成用户友好的SQL文本形式，按照推荐程度排序展示给用户。
便于管理，MaxCompute控制台提供一站式的功能开通、物化视图管理以及物化视图使用效果展示。

物化视图智能推荐的使用场景

数据治理

随着企业业务发展，公司的业务数据会越来越多，各部门对数据都存在各种数据分析需求，在日常使用过程中，各个部门对数据的使用会存在一定的交叉使用，难免会有大量的相同逻辑的重复计算。

日常用户或者大数据平台管理人员很难发现重复计算，因为重复计算部分可能只是整个计算逻辑中一部分。在发现有重复计算时想修改也比较困难，如果重新抽象一个重复计算的表，下游的依赖作业都需要更改，然后测试上线。会带来额外的工作量，从而导致数据治理很难推动。

使用物化视图智能推荐功能后，MaxCompute会自动分析Project中存在哪些公共的计算逻辑，并且推荐出来，让用户去创建物化视图，有了物化视图后，通过强大的优化器改写能力，能够让作业自动应用上物化视图的计算结果，不需要用户修改原来的逻辑。

示例，在没有物化视图，如下图，Tab4跟Tab5的计算中存在棱形跟圆形部分逻辑是重复计算的，在下图中计算了两遍。

MaxCompute 物化视图智能推荐最佳实践

创建物化视图MV1后，菱形跟圆形部分逻辑只计算了一遍，可以节省计算资源的同时提高计算速度。

MaxCompute 物化视图智能推荐最佳实践

智能数据建模

传统大数据处理，第一步就是既懂技术又懂业务的数据分析专家搭建数据仓库，对数据仓库进行分层，正常模型都分贴源层，明细层，汇总层，应用层等；传统建模方式有以下弊端：

1）模型建的好坏，直接影响到计算的有效性，严重依赖建模的专家；

2）同时随着业务发展，数据越来越多后，难免有模型建的不是很合适的情况，如果再改模型对整个现有任务都有影响；

3）资源浪费，部分模型建好后，但是使用的人很少或者没有使用，导致整个模型白白浪费计算资源和存储资源。

MaxCompute 物化视图智能推荐最佳实践

有了物化视图智能推荐后，用户不需要依赖专家来预先建模。可以做到智能的自动化建模。当用户使用数据后，后端自动分析，分析出重复计算逻辑，MaxCompute自动推荐创建物化视图，实现真正的灵活，快捷的自动化建模。让用户不用担心数据存储情况，计算资源使用效率等问题；用户可以把更多精力放在业务发展上。特别对中小型公司来说，不需要额外要招聘数据建模同学，全部交给MaxCompute物化视图智能推荐即可。

MaxCompute 物化视图智能推荐最佳实践