Druid入门(1)—— 快速入门实时分析利器

Stella981
• 阅读 606

Druid入门(1)—— 快速入门实时分析利器


一、安装准备


本次安装的版本是截止2020.1.30最新的版本0.17.0

软件要求

  • 需要Java 8(8u92 +)以上的版本,否则会有问题

  • Linux,Mac OS X或其他类似Unix的操作系统(不支持Windows)

硬件要求

Druid包括一组参考配置和用于单机部署的启动脚本:

  • nano-quickstart

  • micro-quickstart

  • small

  • medium

  • large

  • xlarge

单服务器参考配置

Nano-Quickstart:1个CPU,4GB RAM
  • 启动命令: bin/start-nano-quickstart

  • 配置目录: conf/druid/single-server/nano-quickstart

微型快速入门:4个CPU,16GB RAM
  • 启动命令: bin/start-micro-quickstart

  • 配置目录: conf/druid/single-server/micro-quickstart

小型:8 CPU,64GB RAM(〜i3.2xlarge)
  • 启动命令: bin/start-small

  • 配置目录: conf/druid/single-server/small

中:16 CPU,128GB RAM(〜i3.4xlarge)
  • 启动命令: bin/start-medium

  • 配置目录: conf/druid/single-server/medium

大型:32 CPU,256GB RAM(〜i3.8xlarge)
  • 启动命令: bin/start-large

  • 配置目录: conf/druid/single-server/large

大型X:64 CPU,512GB RAM(〜i3.16xlarge)
  • 启动命令: bin/start-xlarge

  • 配置目录: conf/druid/single-server/xlarge

我们这里做测试使用选择最低配置即可nano-quickstart

二、下载安装包

访问官网:

http://druid.io/现在也会跳转https://druid.apache.org/

或者直接访问https://druid.apache.org/

Druid入门(1)—— 快速入门实时分析利器

点击download进入下载页面:

Druid入门(1)—— 快速入门实时分析利器

选择最新版本: apache-druid-0.17.0-bin.tar.gz 进行下载

200多M

Druid入门(1)—— 快速入门实时分析利器

也可以选择下载源码包 用maven进行编译

三、安装

上传安装包

在终端中运行以下命令来安装Druid:

tar -xzf apache-druid-0.17.0-bin.tar.gzcd apache-druid-0.17.0

安装包里有这几个目录:

Druid入门(1)—— 快速入门实时分析利器

  • LICENSENOTICE文件

  • bin/* -脚本

  • conf/* -单服务器和集群设置的示例配置

  • extensions/* -扩展

  • hadoop-dependencies/* -Druid Hadoop依赖

  • lib/* -Druid库

  • quickstart/* -快速入门教程的配置文件,样本数据和其他文件

配置文件

#进入我们要启动的配置文件位置:cd conf/druid/single-server/nano-quickstart/

Druid入门(1)—— 快速入门实时分析利器

_common 公共配置

Druid入门(1)—— 快速入门实时分析利器

是druid一些基本的配置,比如元数据库地址 各种路径等等

其他的是各个节点的配置

比较类似,比如broker

cd broker/

Druid入门(1)—— 快速入门实时分析利器

jvm配置

main配置

runtime运行时相关的配置

回到主目录

启动的conf在

cd conf/supervise/single-server

Druid入门(1)—— 快速入门实时分析利器

里面是不同配置启动不同的脚本

四、启动

回到主目录

./bin/start-nano-quickstart

启动成功:

Druid入门(1)—— 快速入门实时分析利器

访问

localhost:8888

看到管理页面

Druid入门(1)—— 快速入门实时分析利器

如果要修改端口,需要修改配置的端口和主目录下的

vi bin/verify-default-ports

五、加载数据

Druid提供了一个示例数据文件,其中包含2015年9月12日发生的Wiki的示例数据。

此样本数据位于quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz

示例数据大概是这样:

{  "timestamp":"2015-09-12T20:03:45.018Z",  "channel":"#en.wikipedia",  "namespace":"Main",  "page":"Spider-Man's powers and equipment",  "user":"foobar",  "comment":"/* Artificial web-shooters */",  "cityName":"New York",  "regionName":"New York",  "regionIsoCode":"NY",  "countryName":"United States",  "countryIsoCode":"US",  "isAnonymous":false,  "isNew":false,  "isMinor":false,  "isRobot":false,  "isUnpatrolled":false,  "added":99,  "delta":99,  "deleted":0,}

Druid加载数据分为以下几种:

  • 加载文件

  • 从kafka中加载数据

  • 从hadoop中加载数据

  • 自定义加载方式

我们这样演示一下加载示例文件数据

1、进入localhost:8888 点击load data

Druid入门(1)—— 快速入门实时分析利器

2、选择local disk

Druid入门(1)—— 快速入门实时分析利器

3、选择Connect data

Druid入门(1)—— 快速入门实时分析利器

4、预览数据

Base directory输入quickstart/tutorial/

File filter输入 wikiticker-2015-09-12-sampled.json.gz

然后点击apply预览 就可以看见数据了 点击Next:parse data解析数据

Druid入门(1)—— 快速入门实时分析利器

5、解析数据

可以看到json数据已经被解析了 继续解析时间

Druid入门(1)—— 快速入门实时分析利器

6、解析时间

解析时间成功 之后两步是transform和filter 这里不做演示了 直接next

Druid入门(1)—— 快速入门实时分析利器

7、确认Schema

这一步会让我们确认Schema 可以做一些修改

由于数据量较小 我们直接关掉Rollup 直接下一步

Druid入门(1)—— 快速入门实时分析利器

8、设置分段

这里可以设置数据分段 我们选择hour next

Druid入门(1)—— 快速入门实时分析利器

9、确认发布

Druid入门(1)—— 快速入门实时分析利器

Druid入门(1)—— 快速入门实时分析利器

10、发布成功 开始解析数据

Druid入门(1)—— 快速入门实时分析利器

等待任务成功

Druid入门(1)—— 快速入门实时分析利器

11、查看数据

选择datasources 可以看到我们加载的数据

可以看到数据源名称 Fully是完全可用 还有大小等各种信息

Druid入门(1)—— 快速入门实时分析利器

12、查询数据

点击query按钮

我们可以写sql查询数据了 还可以将数据下载

Druid入门(1)—— 快速入门实时分析利器

Druid相关博文

什么是Druid

静下心来,努力的提升自己,永远都没有错。更多实时计算相关博文,欢迎关注实时流式计算

Druid入门(1)—— 快速入门实时分析利器

本文分享自微信公众号 - 实时流式计算(RealtimeBigdata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
2星期前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
2年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
6个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这