HIVE 统计函数一些小技巧

KeLongRen
• 阅读 2260

[当你有些统计需求实现不了时,可以看看这些技巧哦~]

sum 函数加 over 关键字:

用法:sum(count(1)) over(partition by talent_account_type order by create_date rows between unbounded preceding and current row) sys_total 

描述:根据 talen_account_type 维度来分组统计总和,按 create_date 单调递增方式来累加

group by 的扩展妙用:

在最后增加 with CUBE 可以根据多维度几几组合维度来统计,可以统计某一个维度的所有数据。通常可以用 coalesce(create_date,'所有日期') 来处理 null 的字段,以增加可读性。

动态创建一个任意维度+日期值的表:

用法:
select time, talent_type
from 
(select date_add(get_date(-30),a.rk) time,1 talent_type
from(select row_number()over(order by 1) as rk from vipdw.dw_vccp_media_ds limit 30) a)
union 
(select date_add(get_date(-30),a.rk) time,2 talent_type
from(select row_number()over(order by 1) as rk from vipdw.dw_vccp_media_ds limit 30) a)

(随便 from 一个表就行,原理大概是利用查出来30条数据,然后动态再拼多一个日期加维度的字段,然后只用这两个字段)

Ps:通常可以用于创建该表后,再用这个表 left join 一些数据,配合 IFNULL(xxx, 0) 函数,
可以达到统计有些日期没数据的统计表也能连着日期来展示

CONCAT 函数:

用法:CONCAT(string A, string B…) 

描述:可以用于做字符串拼接

case when 关键字:

用法:case when b.id IS NULL then '是' else '否' end as fans_top_is_new

描述:Case when 等于程序语言中的 if..else ,可以使用到非常多的关键字或方法后面,也可以独立使用,如:
「count( case when media.quality = 3 then 1 end ) as media_essence_col」 等等方式,可以动态做到 select 中的筛选或赋值

row_number() 函数:

用法:row_number()over(order by a.fans_count desc )

描述:可以用于根据某个规则去做序号展示,例如上述含义就是根据 fans_count 倒序得出排名序号

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
4cast
4castpackageloadcsv.KumarAwanish发布:2020122117:43:04.501348作者:KumarAwanish作者邮箱:awanish00@gmail.com首页:
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
JS 对象数组Array 根据对象object key的值排序sort,很风骚哦
有个js对象数组varary\{id:1,name:"b"},{id:2,name:"b"}\需求是根据name或者id的值来排序,这里有个风骚的函数函数定义:function keysrt(key,desc) {  return function(a,b){    return desc ? ~~(ak
Stella981 Stella981
3年前
HIVE 时间操作函数
日期函数UNIX时间戳转日期函数: from\_unixtime语法:   from\_unixtime(bigint unixtime\, string format\)返回值: string说明: 转化UNIX时间戳(从19700101 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive   selec
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n