13. 数据仓库分层之ODS层

ByteCodeTrail
• 阅读 4596
接下来几节将详细介绍各层如何实现各自功能。
ODS层:存放原始数据,直接加载原始日志、数据。
  1. 启动hadoop集群,启动Hive。

    [hadoop@hadoop151 ~]$ start-dfs.sh
    [hadoop@hadoop152 ~]$ start-yarn.sh
    [hadoop@hadoop151 bin]$ ./hive
  2. 创建数据库

    hive (default)> create database gmall;
    hive (default)> use gmall;
  3. 分析字段并建创建启动日志表。13. 数据仓库分层之ODS层

    hive (gmall)> drop table if exists ods_start_log;
    CREATE EXTERNAL TABLE ods_start_log (`line` string)
    PARTITIONED BY (`dt` string)
    STORED AS
      INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
      OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
    LOCATION '/warehouse/gmall/ods/ods_start_log';
  4. 加载数据。

    hive (gmall)> load data inpath '/origin_data/gmall/log/topic_start/2020-02-03' into table gmall.ods_start_log partition(dt='2020-02-03');
  5. 分析字段并建创建事件日志表。13. 数据仓库分层之ODS层

    hive (gmall)> drop table if exists ods_event_log;
    CREATE EXTERNAL TABLE ods_event_log(`line` string)
    PARTITIONED BY (`dt` string)
    STORED AS
      INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
      OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
    LOCATION '/warehouse/gmall/ods/ods_event_log';
  6. 加载数据

    hive (gmall)> load data inpath '/origin_data/gmall/log/topic_event/2020-02-03' into table gmall.ods_event_log partition(dt='2020-02-03');
  7. 查看数据是否存在。

    hive (gmall)> select * from ods_start_log limit 2;
    hive (gmall)> select * from ods_event_log limit 2;
  8. 可以使用脚本文件快速上传。
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
hive(02)、数据仓库Hive的基本使用
       在上篇《hive(01)、基于hadoop集群的数据仓库Hive搭建实践(https://my.oschina.net/zss1993/blog/1602402)》一文中我们搭建了分布式的数据仓库Hive服务,本文主要是在上文的基础上结合Hadoop分布式文件系统,将结构化的数据文件映射为一张数据库表,将sql语句转换为MapRedu
Wesley13 Wesley13
3年前
RAC环境单实例启动数据库收到ORA
     在RAC环境中,如果你在没有启动节点的集群服务的情况下单实例启动数据库,将收到类似如下的报错:\oracle@rhel1u01\$sqlSQL\Plus:Release10.2.0.5.0ProductiononTueApr215:00:272013Copyright(
Stella981 Stella981
3年前
Dbeaver连接Hive和Mysql的配置
1.连接Hive首选需要配置Hive这里我们采用的是JDBC的连接方式(1)在Hive中后台启动hiveserver2root@hadoop101hivebin/hiveserver2&(2)启动beelinebigdata@hadoop101hive$bin/be
Wesley13 Wesley13
3年前
4cast
4castpackageloadcsv.KumarAwanish发布:2020122117:43:04.501348作者:KumarAwanish作者邮箱:awanish00@gmail.com首页:
Stella981 Stella981
3年前
HIVE 时间操作函数
日期函数UNIX时间戳转日期函数: from\_unixtime语法:   from\_unixtime(bigint unixtime\, string format\)返回值: string说明: 转化UNIX时间戳(从19700101 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive   selec
Stella981 Stella981
3年前
Hive使用必知必会系列
一、Hive的几种数据模型内部表(Table将数据保存到Hive自己的数据仓库目录中:/usr/hive/warehouse)外部表(ExternalTable相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息)分区表
Hive引擎底层初探
1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在Hadoop集群上执
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
京东云开发者 京东云开发者
5个月前
Hive引擎底层初探
作者:京东物流沈世莹1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在