GreenPlum tidb 性能比较

Stella981
• 阅读 894

主要的需求

   针对大体量表的OLAP统计查询,需要找到一个稳定,高性能的大数据数据库,具体使用

  •     数据可以实时的写入和查询,并发的tps不是很高
  • 建立数据仓库,模式上主要采用星星模型、雪花模型,或者宽表
  • 前端展示 分为3类  saiku、granafa、c#代码开发
  • 数据体量:事实表在3-5亿、维度表大的在500万左右
  • 数据集成:可以和现在使用的kettle进行无缝集成

基于以上需求,前期使用tidb,但是在大体量表的olap查询性能不是很好,使用tipark 离线计算还可,但是时间上无法满足系统需求,初步了解到mpp架构的greenplum。因此先期进行了简单比较

基础测试数据表说明  

  数据表  

       订单宽表,数据表字段为300个左右

  基本的测试结果 --不包含并发测试

    集群基本配置 :

      Greenplum  4台8核56G,9个segments  表:列存,无索引

       tidb :6台8核56G,ssd

tpc-ds 

     GreenPlum tidb 性能比较

 tpc-h

   GreenPlum tidb 性能比较

其余测试 --

 GreenPlum tidb 性能比较

 GreenPlum tidb 性能比较

 小结

  •   针对OLAP的查询,greenplum 的分析统计性能要优于tidb
  • 在greenplum不使用索引的情况下,点差要比tidb 差不少,增加对应的索引之后,性能差不多,但是greenplum 不建议使用索引
  • greenplum在列存的场景下,查询的列的个数对性能影响较大。

 下一步验证

   1.星星模型 下的性能,考虑事实表 3亿,维度表 500万,

   2.3亿的订单数据是否需要使用分区表

   3.报表导出场景是否可以使用gp

   4. sqlserver的存储过程是否可以迁移到greenplum

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Java修道之路,问鼎巅峰,我辈代码修仙法力齐天
<center<fontcolor00FF7Fsize5face"黑体"代码尽头谁为峰,一见秃头道成空。</font<center<fontcolor00FF00size5face"黑体"编程修真路破折,一步一劫渡飞升。</font众所周知,编程修真有八大境界:1.Javase练气筑基2.数据库结丹3.web前端元婴4.Jav
Easter79 Easter79
2年前
sql注入
反引号是个比较特别的字符,下面记录下怎么利用0x00SQL注入反引号可利用在分隔符及注释作用,不过使用范围只于表名、数据库名、字段名、起别名这些场景,下面具体说下1)表名payload:select\from\users\whereuser\_id1limit0,1;!(https://o
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
ThinkPHP 根据关联数据查询 hasWhere 的使用实例
很多时候,模型关联后需要根据关联的模型做查询。场景:广告表(ad),广告类型表(ad\_type),现在需要筛选出广告类型表中id字段为1且广告表中status为1的列表先看关联的设置部分 publicfunctionadType(){return$thisbelongsTo('A
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这