Clickhouse v18编译记录

Stella981
• 阅读 665

简介

  • ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:

    • 列式存储数据库,数据压缩
    • 关系型、支持SQL
    • 分布式并行计算,把单机性能压榨到极限
    • 高可用
    • 数据量级在PB级别
    • 实时数据更新
    • 索引
  • ClickHouse最大的特点就是快,快,快,重要的话说三遍。为啥这样快呢?

    • 优秀的代码编写,强⼤的底层优化,严格的单元测试,内置300多个函数
    • A vector engine & Code generation
    • CPU底层指令集的使⽤
    • C++新特性
  • clickHouse数据以列式存储,具有强悍的数据聚合和并行处理能力。业界已经有不少成功的例子,比如新浪。最近在试用clickHouse,首先需要从源码编译一个clickHouse。本文主要记叙编译过程中的一些问题和解决方式。

  • 安装的过程中,为了不污染全局环境,需要安装的辅助软件以及编译环境,都是在用户自己的目录下安装的。

  • 本来编译一个源代码,不需要写什么文档,但是clickHouse是我到目前位置编译过最难的源码,没有之一,需要写一个文档记录其中遇到的问题和解决办法。这里只简单记录解决办法,解决问题的过程太过复杂,而且很多都绕弯,在此不再详细描述。

  • 参考:https://www.csdn.net/article/2018-01-14/2826786-ClickHouse

编译环境

  • 需要最新版的GCC 7,ClickHouse对编译环境比较挑剔,最新版的ClickHouse需要用最新版的GCC,我用的GCC 7也是用源码安装的,安装到自己的目录,而不是机器公共的目录,因为GCC的安装涉及C库的更新,我所用的是开发机,不能影响其他人的使用,各种路径的配置如下,熟悉GCC安装的朋友可以略过:

    gcc_path=/data1/home_jencoldeng/gcc_7 export PATH=$gcc_path/bin:${third}/bin:${PATH} export C_INCLUDE_PATH=/usr/local/include/:${C_INCLUDE_PATH} export CPLUS_INCLUDE_PATH=${gcc_path}/local/include/c++/6.2.0/:$CPLUS_INCLUDE_PATH export LD_LIBRARY_PATH=$gcc_path/lib64:$gcc_path/lib:/usr/lib:${LD_LIBRARY_PATH} export CXX=${gcc_path}/bin/g++ export CC=${gcc_path}/bin/gcc

  • 程序主要源码来自 https://github.com/yandex/ClickHouse,取当前最新的稳定版本v18.6.0,2天前,也就是2018.07.31才发布的版本。

  • 其他需要的第三方库会在编译过程中提及。

下载第三方库

开始编译生成Makefile文件

  • ClickHouse-18.5.1-stable下建立一个build目录,作为CMake的编译目录。

  • 执行编译命令

    cd ClickHouse-18.5.1-stable/build p=/data1/home_jencoldeng/clickhouse_V18/ClickHouse_install #安装目录 cmake .. -DCMAKE_INSTALL_PREFIX=$p

  • 下面开始处理编译过程中出现的各种错误,注意每一次错误,需要重新编译的话,都需要把build里面的文件清空(理论上只需要把CMakeCache.txt删掉就可以了,但我是每次都清空)。

CMake错误1:无法找到PCRE库

CMake错误2:没有找到expat库

CMake错误3:没有找到zlib库

  • 没有找到zlib库 Clickhouse v18编译记录

  • 修改contrib/CMakeLists.txt,把CMAKE_DISABLE_FIND_PACKAGE_ZLIB标志位设置为0,让他从标准路径上查找,如图: Clickhouse v18编译记录

CMake错误4:lz4编译有问题

  • 找不到头文件 Clickhouse v18编译记录

  • 可能是lz4的版本问题,找一个旧版本,如lz4-1.8.0,放入contrib目录(直接代替或者软链)。

  • 至此,CMake成功通过。

关于Makefile编译

  • ClickHouse的代码和第三方库非常巨大,所以我每次都是使用make -j 20来编译,也就是最多20个进程同时编译。并发进程数依赖于机器的性能。
  • CPP代码编译慢,所以需要多进程同事进行。

Makefile错误1:zstd编译错

  • zstd编译不通过:Error: no such instruction Clickhouse v18编译记录

  • 根据经验,出现这个原因是因为平台优化的选项打开了,按照网上的做法,把GCC平台优化-march关闭就可以了,但是关闭后问题仍然无法解决(也可能是我修改的地方不太对,我对CMake并不十分熟悉),最后只要采用一个稍为旧的版本,如zstd-1.3.3

Makefile错误2:zlib编译出错

  • zlib编译出错:数据类型未定义 Clickhouse v18编译记录

  • 看起来应该是头文件没有include,类型没有定义,在contrib/zlib-ng/zlib.h加上如下定义

    #include <stdarg.h> #ifndef z_off64_t

    define z_off64_t off64_t

    #endif

  • 注意字段长度应该是64位,不要搞错长度,避免运行时出现问题,这样的话问题非常难以定位。

Makefile错误3:Boost连接错误

  • 一大堆boost连接错误,主要的问题是undefined reference to boost::system::system_category()`,图中只是冰山一角: Clickhouse v18编译记录

  • 网上资料说,添加上需要的库-lboost_system即可解决

  • 经过查看CMakeList.txt,发现这个是测试功能,也就是说,可以不需要,因此修改CMakeLists.txt文件,查找ENABLE_TESTSTEST_COVERAGE,把测试功能全部屏蔽。

  • 高手可以通过修改CMakeList.txt解决。

编译成功

  • 从这里看出,ClickHouse的二进制文件把所有可以静态链接的库都已经连接进去了,甚至连CPP库都静态连接了,部署的时候应该不难。

    $ ldd bin/clickhouse linux-vdso.so.1 => (0x00007fffe6fe2000) libssl.so.10 => /usr/lib64/libssl.so.10 (0x0000003a46800000) libcrypto.so.10 => /usr/lib64/libcrypto.so.10 (0x0000003a45400000) libz.so.1 => /lib64/libz.so.1 (0x0000003bb0a00000) librt.so.1 => /lib64/librt.so.1 (0x0000003daa600000) libpthread.so.0 => /lib64/libpthread.so.0 (0x0000003bafa00000) libdl.so.2 => /lib64/libdl.so.2 (0x0000003bafe00000) libm.so.6 => /lib64/libm.so.6 (0x0000003bb0600000) libc.so.6 => /lib64/libc.so.6 (0x0000003baf600000) /lib64/ld-linux-x86-64.so.2 (0x0000003baf200000) libgssapi_krb5.so.2 => /lib64/libgssapi_krb5.so.2 (0x0000003a46000000) libkrb5.so.3 => /lib64/libkrb5.so.3 (0x0000003a45800000) libcom_err.so.2 => /lib64/libcom_err.so.2 (0x0000003a44c00000) libk5crypto.so.3 => /lib64/libk5crypto.so.3 (0x0000003a45c00000) libkrb5support.so.0 => /lib64/libkrb5support.so.0 (0x0000003a46400000) libkeyutils.so.1 => /lib64/libkeyutils.so.1 (0x0000003a45000000) libresolv.so.2 => /lib64/libresolv.so.2 (0x0000003bb1a00000) libselinux.so.1 => /lib64/libselinux.so.1 (0x0000003a43c00000)

后记

  • 编译ClickHouse代码,真是我遇到过最麻烦的代码,各种依赖,各种错误。
  • 我对CMake方式编译还真的不熟练,需要加强。
  • 后续会有对ClickHouse的相关测试,欢迎关注。
点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
2年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这