一种Mysql和Mongodb数据同步到Elasticsearch的实现办法和系统

天翼云开发者社区
• 阅读 81

本文分享自天翼云开发者社区《一种Mysql和Mongodb数据同步到Elasticsearch的实现办法和系统》,作者:l****n

核心流程如下:

一种Mysql和Mongodb数据同步到Elasticsearch的实现办法和系统

核心逻辑说明:

MySQL Binlog解析:

首先,从MySQL的二进制日志(Binlog)中解析出表名。这一步骤非常关键,因为我们只关注特定表的数据变更。

进一步,我们检查Binlog中的操作类型,如INSERT、UPDATE和DELETE,以确定是否是表数据的变动操作。这是因为我们只需要捕获数据的变更,而不关心查询操作。

如果操作是INSERT或DELETE,我们只需要关注受影响的数据行。对于UPDATE操作,我们需要记录新旧值的变化。

内存中数据组装: 从解析过的Binlog数据中,我们构建一个内存数据结构,通常是一个数据对象,其中包括表名、字段名、新旧值等信息。这允许我们在内存中轻松管理和处理数据。

数据序列化:

接下来,我们将内存中的数据对象序列化为特定的格式,通常为JSON或XML。这是为了将数据转化为一种可传输的结构,其中包含了表名、字段名和相应的新旧值。序列化的过程使数据适合通过网络传输。

数据传输到消息队列:

完成序列化后,数据通过TCP协议发送到消息队列,通常是Apache Kafka。消息队列用于持久性存储和传递数据,以确保数据不会丢失。

数据在消息队列中等待被消费者处理,这可以是其他系统、应用程序或服务,根据需要对数据进行进一步的分析或存储。

MongoDB Oplog解析:

MongoDB的日志解析过程类似于MySQL,但我们使用的是MongoDB的操作日志(Oplog)来捕获数据变更。

同样,我们从Oplog中解析出表名,确定操作类型(INSERT、UPDATE、DELETE),并提取新旧值。

数据消费和存储:

消费者通过TCP协议从Kafka队列中拉取数据。消费者可以是各种类型的应用程序或服务,例如数据仓库、实时监控系统等。

数据可以通过HTTP协议将其写入Elasticsearch,以进行搜索、分析和可视化。Elasticsearch是一个强大的搜索引擎和分析工具,适用于处理大量数据。

以上流程描述了如何从MySQL和MongoDB中的日志解析数据,将其序列化为可传输的格式,并通过消息队列传递到其他系统或存储库中,以便进行后续处理、分析和查询。这种数据管道允许实时捕获和利用数据库中的变更,以满足各种用例和需求。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
2年前
MySQL如何实时同步数据到ES?试试这款阿里开源的神器
摘要mall项目中的商品搜索功能,一直都没有做实时数据同步。最近发现阿里巴巴开源的canal可以把MySQL中的数据实时同步到Elasticsearch中,能很好地解决数据同步问题。今天我们来讲讲canal的使用,希望对大家有所帮助!canal简介canal主要用途是对MySQL数据库增量日志进行解析,提供增量数据的订阅和消
Stella981 Stella981
2年前
Python将字符串转换成ObjectId类型
MongoDB自动生成的_id是ObjectId类型的。我需要将MongoDB的_id存到ElasticSearch中,而ElasticSearch又只能存String类型的_id,所以就涉及到两种类型的转换。ObjectId类型—→String类型这个非常简单
Stella981 Stella981
2年前
HBase数据同步到ElasticSearch的方案
<divid"article\_content"class"article\_content"<p<br</p<h3ElasticSearch的River机制</h3<pElasticSearch自身提供了一个River机制,用于同步数据。</p<p这里能够找到官方眼下推荐的River:</p<p<atarget
Stella981 Stella981
2年前
ElasticSearchd未授权访问
ElasticSearch是一款Java编写的企业级搜索服务,启动此服务默认会开放HTTP9200端口,可被非法操作数据。1.熟悉的响应YouKnow,forSearch2.漏洞测试安装了river之后可以同步多种数据库数据(包括关系型的mysql、mongodb等)。h
Stella981 Stella981
2年前
MongoDB 定位 oplog 必须全表扫描吗?
MongoDBoplog(类似于MySQLbinlog)记录数据库的所有修改操作,除了用于主备同步;oplog还能玩出很多花样,比如1.全量备份增量备份所有的oplog,就能实现MongoDB恢复到任意时间点的功能2.通过oplog,除了实现到备节点的同步,也可以额外再往单独的集群同步数据(甚至是异构的数据库),实现容
Stella981 Stella981
2年前
Canal——增量同步MySQL数据到ElasticSearch
!(https://img2018.cnblogs.com/ibeta/1577453/201911/1577453201911091027463801995267551.png)1.准备1.1.组件JDK:1.8版本及以上;ElasticSearch:6.x版本,目前貌似不支持7.x版本;
Wesley13 Wesley13
2年前
MongoDB数据库操作
MongoDB是一个面向文档的数据库系统.使用c编写,不支持sql.但有自己功能强大的查询语法.MongoDB使用BSON作为数据存储和传输的格式,BSON是一种类似JSON的二进制序列化文档,支持嵌套对象和数组.MongoDB很像mysql,document对应mysql的row,collection对应mysql的table应用场景:
Stella981 Stella981
2年前
MongoDB手动同步主库(Change Stream)
主从同步原理所有数据库同步原理几乎一样,MongoDB解析oplog,Mysql解析bin.log,今天实现了MongoDB同步机制,请关注小编下次更新Mysql同步机制。intialsync:初始化所有数据。replication:根据oplog实现增量同步。初始化所有数据这个不说了,以下代码根
Stella981 Stella981
2年前
ELK学习笔记之ElasticSearch的索引详解
0x00ElasticSearch的索引和MySQL的索引方式对比Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在18和30之间,性别为女性这样的组合查询。倒排索引很多地方都有介绍,但是其比关系型
韦康 韦康
1个月前
Flink 从0到1实战实时风控系统|同步追更
Flink从0到1实战实时风控系统|同步追更download》quangneng.com/2323/关于Flink从0到1实战实时风控系统的介绍ApacheFlink是一个快速、可扩展且容错的开源流处理和批处理框架。它提供了高效处理大规模数据流和批处理作业
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
515
粉丝
8
获赞
37