GooseFS助力大数据业务数倍提升计算能力 - HelloWorld开发者社区

GooseFS助力大数据业务数倍提升计算能力

数据治

2021-08-10 21:48 • 阅读 2172

前言

GooseFS是由腾讯云推出的一款分布式缓存方案，主要针对包括需要缓存加速的数据湖业务场景，提供基于对象存储COS服务的近计算端数据加速层。

GooseFS 基于开源大数据缓存方案 Alluxio 进行设计和研发。相较于开源方案，GooseFS 提供了更多关键特性，稳定性和性能优化；同时深度融合了腾讯云生态，对接了腾讯云TKE、EMR等计算服务，为用户提供开箱即用的能力。

缓存加速和数据本地化GooseFS提供的重要能力之一。

GooseFS 可以与计算节点混合部署提高数据本地性，利用高速缓存功能解决存储性能问题，提高读写对象存储 COS 文件的效率。
GooseFS 可以提供近计算端的分布式共享缓存，上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端，加速数据 I/O 性能。
GooseFS 提供了感知元数据 Table 的能力，能够加速大数据场景下列出文件列表（ List ），重命名文件（ Rename ）等元数据操作的性能。此外，业务可以按需选择HDD， SSD，NVME SSD 等不同的存储介质，平衡业务成本和数据访问性能。

本文介绍了GooseFS读写元数据时的表现，并与HDFS进行对比；同时也测试了在混合读写情况下GooseFS在性能表现上的稳定性。

01 测试表现

我们使用NNBench进行测试。NNBench是HDFS官方自带的用于测试NameNode性能的工具。由于它使用的是标准的FileSystem接口，因此可以使用它来测试GooseFS服务端的性能。在测试方案上，我们在GooseFS和 HDFS 上创建相同的数据集，观察TPS值，对比GooseFS性能表现情况。

我们使用了1台EMR标准型S2机器（CPU：8核，内存：32GB，高效云盘：100G x 1）作为GooseFS集群的Master节点，3台EMR标准型S5机器（CPU：16核，内存：64GB，高效云盘：100G x 5）作为Worker节点，同时将GooseFS集群缓存策略设置为wPolicy=MUST_CACHE，rPolicy=CACHE。

1. Write测试

大数据场景中需要频繁创建文件，我们首先比较了写入文件的性能，由于本次测试主要目的是验证元数据性能表现，因此文件大小选择了0字节。测试结果如下所示：

GooseFS助力大数据业务数倍提升计算能力

GooseFS助力大数据业务数倍提升计算能力

可以看到，在集群的环境配置，maps等都相同的情况下：

（1）GooseFS在加载元数据的比hdfs性能至少提升20%。

（2）数据量增加的时候GooseFS处理数据等性能提升更明显。

这个主要是因为GooseFS采用文件粒度锁，可以并发创建文件。而HDFS是全局锁，相当于顺序做创建操作。因此写请求QPS增加的时候，GooseFS性能提升更明显。

2. List测试

Write测试主要测试高并发下元数据服务单点写入、单点查询的性能。然而，文件列表导出（ls/ls -R)操作、文件大小统计（du/count)操作也是用户使用频率较高的操作，这些命令的执行时间，反应了元数据服务遍历操作的执行效率。在测试方案上，为了保证HDFS和GooseFS测试数据的一致性，我们采用相同的数据集，执行相同的操作，测试GooseFS和HDFS元数据服务遍历操作的执行效率。

数据集分两个场景：

（1）多层级数据：50w数据，目录层级4层。

（2）单层级数据：单个目录下10w文件。

相关测试结果表现如下：

GooseFS助力大数据业务数倍提升计算能力

GooseFS助力大数据业务数倍提升计算能力

可以看到，GooseFS加速数据I/O性能。提供了感知元数据的能力，能够加速大数据场景下列出文件列表List等元数据操作的性能。尤其在多层级的数据中性能加速更加明显。

3、SliveTest测试

SliveTest位于hadoop的test包中，代码结构清晰，其主要功能是通过大量map制造多种rpc请求，检测Namenode的性能。我们可以设定map数量，每个map发起的rpc请求次数，每一种rpc操作占总操作的百分比，以及读写数据量、block size等配置。测试master混合访问情况下各类请求的qps。

在测试方案上，设置RPC请求（读:60%,写:40%）模拟混合访问下，HDFS和GooseFS处理数据的性能。我们将RPC设置为：append 10% create 10% delete 10% mkdir 5% rename 5% read 30% ls 30%。

相关测试结果表现如下：

GooseFS助力大数据业务数倍提升计算能力

GooseFS助力大数据业务数倍提升计算能力

可以看到，Master在混合访问情况下，GooseFS整体性能表现优于HDFS。

基于上面几个测试，GooseFS采用文件粒度锁及list开启了并发优化，在SliveTest这种混合读写（多读少写）的场景中，GooseFS处理事物的能力明显优于HDFS。

02 总结

GooseFS提供了可预测的资源划分和资源使用，使得系统管理员可以对外提供稳定的性能保证。此外，GooseFS可以给共享存储资源的计算集群带来显著的性能收益。

GooseFS提供近计算端的分布式共享缓存，上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端，加速数据 I/O 性能。
关于更多GooseFS请前往：https://cloud.tencent.com/doc...

对象存储大数据

点赞

收藏

评论区

数据治

Lv1

我们吻的天荒地老，我没有晕头转向，我甚至不慌。

文章

6

粉丝

0

获赞

0

热门文章

MongoDB学习之Mongoose的使用

【人间995】【Linux性能优化】CPU 上下文切换

玩转 React 服务器端渲染

用python转换PDF/Word/Excel/PPT等！

你确定不来了解下 Redis 跳跃表的原理吗