mysql同步数据到hive---binlog方式

不写入到hive表的原因在于，binlog的数据结构是不固定的，而hive的结构相对是比较固定的。如果要写入到hive的话，就需要将不同的表的binlog写入到不同的hive表中，这个维护成本太高了。而且spark其实可以直接读取hdfs的json文件，因此直接放hdfs就好了。写入到hdfs的话，考虑到后续读这个数据是要按照表去...

mysql同步数据到hive大部分公司目前都是走的jdbc的方式。

这种方式有两个好处：

也有不好的地方：

这一步最主要的细节是将mysql库的所有binlog数据全部打入一个kafka topic，格式使用json。格式如下：

这一步的主要的细节在于写入到hdfs的结构，以及为什么不直接写入hive。
不写入到hive表的原因在于，binlog的数据结构是不固定的，而hive的结构相对是比较固定的。如果要写入到hive的话，就需要将不同的表的binlog写入到不同的hive表中，这个维护成本太高了。而且spark其实可以直接读取hdfs的json文件，因此直接放hdfs就好了。

写入到hdfs的话，考虑到后续读这个数据是要按照表去读增量数据，所以写入的目录一定是要带日期和表名称的。我这边用的目录结构是这样的：

也就是说要在flink根据数据所属的db、table_name、和日期将数据写入到不同的目录里。

在这一步的处理的过程中遇到了一些比较重要的参数问题。

2.如上所述checkpoint的时间间隔。不仅仅会影响checkpoint的频率，而且会影响hdfs文件的大小，而hdfs文件的大小可能会对hdfs的性能有很大影响。这个值如果太大，就会造成数据延迟太高，如果太小就会造成小文件过多。我这边设置的是5分钟。
细心的看官，这个时候会问了，既然你的目录是分table的，那么每个table每5分钟的binlog数据量是不一样的。对于某些大的mysql表，我们可能每5分钟生成一个文件还能接受。对于一些比较小的表，每五分钟生成一个文件那么文件就会非常小。所以我这边又做了一层的筛选，我把mysql的大的表筛选出来，只同步大的表到hdfs，用以binlog的数据同步。因为本身binlog的方式同步mysql数据为的就是节约mysql的读取压力，而小的表对于不会有太大压力，这些表可以直接通过jdbc的方式去同步。

这个是整个环节里面最复杂的一部分，涉及的细节也比较多。
首先，我们要明确一下总体的思路是什么。总体的思路就是要读取hdfs上的老的历史数据，然后和新的binlog数据合并生成新的快照。

其实这中间还涉及到一些其他的细节，比如mysql表结构变更，或者mysql和hive的数据结构不一致的情况。
另外我们这边还存在多个db的相同的表导入到hive的一张表中的其他问题，我就不赘述了。2022-07-24

mengvlog 阅读 436 次 更新于 2025-10-31 07:45:32 我来答关注问题 0

1 个回答檬味博客专题活动

其他mySQL类似问题

java和mysql的连接，驱动是要和mysql版本相对应的吗？ 53次阅读
java 加载MYSQL驱动找不到类 35次阅读
用64位VisualBasic连接MySQL数据库64位vbmysql 68次阅读
在Java项目中如何导入数据库驱动包？ 49次阅读
MySQL安装不了，怎么解决？ 296次阅读
mysql查询序号 46次阅读

檬味博客在线解答立即免费咨询

mySQL相关话题

1064mysql 有用 (52)
mysqlxml 有用 (66)
MySQLFront 有用 (65)
mysqls 有用 (66)
mysql表同步有用 (71)
mysql或有用 (64)
mysql备注有用 (61)
mysql字符编码有用 (51)
mysql数据库语言有用 (49)
mysql编译安装有用 (57)