大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
Stella981 Stella981
2年前
Sorry!Hbase的LSM Tree就是可以为所欲为!
我们先抛出一个问题:!file(https://oscimg.oschina.net/oscnet/upd5d01172c006977f680f3d99ad039ce7279.png)LSM树是HBase里使用的非常有创意的一种数据结构。在有代表性的关系型数据库如MySQL、SQLServer、Oracle中,数据存储与索引的基本结构就是我们
Stella981 Stella981
2年前
Ambari在离线环境中安装Hadoop集群
(WJW)Ambari在离线环境中安装Hadoop集群    如果手工安装Hadoop集群,在管理和后继部署中,越来越多的问题不断出现,主要如下:各集群节点的配置同步新应用的部署:比如为集群添加hbase应用,需要很细心复杂的配置才能完成,而且要是操作错误,还可能导致正常的集
Easter79 Easter79
2年前
Sqoop的安装和配置以及Sqoop的基本操作
一、概述Sqoop是apache旗下一款“Hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:把MySQL,Oracle数据导入到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等!(http
Stella981 Stella981
2年前
DataX介绍
一.DataX3.0概览DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。!(https://oscimg.oschina.net/oscnet/267abfdb4b4d98dada7551c730af4
Stella981 Stella981
2年前
Flume sink Kafka Spout Storm Bolt Hbase or Redis (Flume)
Flume可以应用于日志采集.在本次的介绍中,主要用于采集应用系统的日志,将日志输出到kafka,再经过storm进行实施处理.我们会一如既往的光顾一下flume的官网,地址如下:flume官网(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fflume.apache.org%2F
Stella981 Stella981
2年前
Log Structured Merge Trees(LSM) 算法
十年前,谷歌发表了“BigTable”的论文,论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫LogStructuredMergeTree。LSM是当前被用在许多产品的文件结构策略:HBase,Cassandra,LevelDB,SQLite,甚至在mangodb3.0中也带了一个可选的LSM引擎(Wired
Stella981 Stella981
2年前
HBase和ElasticSearch索引类型及存储位置
本篇博文主要对HyperBase(HBase)、Search(ElasticSearch)的索引类型及具体存储位置进行概要总结,让大家从整体上了解TDH平台中HyperBase和Search索引的管理。后续会在大数据核心原理与实践专栏中对索引相关知识进行详细讲解。ESSearch索引类型存放位置在早期ESSearch1.X版本,会将索引存在
Stella981 Stella981
2年前
BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览
一、引言时间到了2019年,数据库也发展到了一个新的拐点,有三个明显的趋势:1.越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库,国内以阿里云的CloudHBase(https://www.oschina.net/action/GoToLink?urlhttps
京东云开发者 京东云开发者
2个月前
倒排索引关键点普及
倒排索引倒排索引是什么?为什么es、hbase、doris、starrocks都有倒排索引?倒排索引(英文:InvertedIndex),是一种索引方法,常被用于全文检索系统中的一种单词文档映射结构。现代搜索引擎绝大多数的索引都是基于倒排索引来进行构建的,