Stella981 Stella981
2年前
Flink 使用(一)——从kafka中读取数据写入到HBASE中
1、前言  本文是在《如何计算实时热门商品》(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwuchong.me%2Fblog%2F2018%2F11%2F07%2Fuseflinkcalculatehotitems%2F)\1\一文上做的扩展,
Wesley13 Wesley13
2年前
HDP3.1 中 YRAN 和 MR2 的内存大小配置的计算方式
  Container 是 YARN 中基本的处理单元,它是对内存、CPU等计算的封装。总的来说,每个core每块硬盘分配2个 container,能获得较好的集群利用率。 1. 确定可用内存大小。 对于每台主机来说,YARN 和 MapReduce 能用内存大小是除去预留给系统的内存(如果还有 HBase,还要相应留内存给它)后的大小,即
Stella981 Stella981
2年前
OpenTSDB时序数据库的应用
OpenTSDBOpenTSDB是基于Hbase的时序数据库,它是一个时间序列专用数据库,只能存储时序数据。官方定位是一个分布式、可伸缩的监控系统。譬如收集大规模集群(包括网络设备、操作系统、应用程序)的监控数据并进行存储,查询。官网(https://www.oschina.net/action/GoToLink?urlhtt
Stella981 Stella981
2年前
Hadoop 中利用 mapreduce 读写 mysql 数据
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些pv、uv数据,然后为了实时查询的需求,或者一些OLAP的需求,我们需要mapreduce与mysql进行数据的交互,而这些特性正是hbase或者hive目前亟待改进的地方。好了言归正传,简单的说说背景、原理以及需要注意的地方:1、为了方便MapReduce
Stella981 Stella981
2年前
OpenTSDB在HBase中的底层数据结构设计
0.时序数据库时间序列(TimeSeries):是一组按照时间发生先后顺序进行排列的数据点序列,通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,1小时等)。时间序列数据可被简称为时序数据。实时监控系统所收集的监控指标数据,通常就是时序数据。时序数据具有如下特点:每一个时间序列通常为某一固定类型的数值
Stella981 Stella981
2年前
Hadoop生态圈
Hadoop生态圈CentOs7.5单机部署ClickHouse作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。到了新的公司,认识了新的同事,生产环境也得你去适应新的集群环境,我新入职的公司的大数据开发同时并不看好hbase,而是对clickhouse青睐有加,听他们口头把ClickHouse吹的
Stella981 Stella981
2年前
Hive和HBase有哪些区别与联系及适用场景
hiveHive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。可以说,Hive的存在让海量数据的增删改查更加方便。
Wesley13 Wesley13
2年前
Java面试之Zookeeper
157\.zookeeper是什么?zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是googlechubby的开源实现,是hadoop和hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。158\.zook
大数据建模、分析、挖掘技术应用
时间2022年8月5日—2022年8月9日北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPythonNotebook运行PythonSpark程序八、PythonSpark集成开发环境第三