OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3 - HelloWorld开发者社区

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

代码逐浪

2023-06-01 12:19 • 阅读 514

简介

Amazon S3（以下简称 S3）是一种非常受欢迎的云存储服务，它以其卓越的扩展性、安全性和稳定性而广受全球企业和开发者的喜爱。在新发布的 OpenMLDB v0.8.0 版本中，新增加了对于 Amazon S3 作为离线数据源的支持，其带来的主要好处包括：

安全性和稳定性：S3 提供高级别的安全保障，以保护您的数据。
扩展性和灵活性：S3 能够轻松处理任意量级的数据，提供高效的大规模数据管理能力。
成本效益：只需根据实际使用的存储量来付费，无需为未使用的存储空间付费。

配置方法

为了在 OpenMLDB 中使用 Amazon S3 作为离线数据源，需要做如下配置：

首先需要在 AWS 上注册帐号，并且创建有效的 AccessKey 和 SecretKey。
在 OpenMLDB 的 TaskManager 的部署文件 taskmanager.properties 中，添加以下配置，注意修改内容为个人的 AccessKey 和 SecretKey：

spark.default.conf=spark.hadoop.fs.s3a.access.key=xxx;spark.hadoop.fs.s3a.secret.key=xxx

配置后重启 TaskManager 服务，后续加载离线数据时，无论是硬拷贝还是软链接都可以使用 S3 路径进行导入。

以下“应用实践”展示详细使用步骤。完整产品文档参考： https://openmldb.ai/docs/zh/main/integration/offline_data_sou... 。

应用实践

以下具体演示使用 OpenMLDB 直接访问 S3 数据进行特征抽取，并使用软链接方式避免从 S3 拷贝原始数据到本地。

第一步，注册 AWS 帐号，开通 S3 服务，并且申请可用的 AccessKey 和 SecretKey。 准备好后，我们可以使用浏览器或 S3 工具来上传数据到 S3 对应的 bucket 中，这里我们提前上传好数据文件。

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

第二步，启动 OpenMLDB 集群，按照官方文档配置好 AWS 的 AccessKey 和 SecretKey，启动后可以使用命令行（OpenMLDB CLI）的命令 SHOW COMPONENTS 测试 OpenMLDB 所有组件是否正常。

关于 OpenMLDB CLI 的使用参考：https://openmldb.ai/docs/zh/main/quickstart/cli.html

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

第三步，创建数据库和数据表进行测试。 这里创建一个数据库 db1 和数据表 t1。

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

第四步，使用 LOAD DATA INFILE 命令导入 S3 的数据到离线表中。 下图演示了把 OpenMLDB 设置为离线模式，并且导入 S3 的数据到离线表中：

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

导入成功后，可以看到数据表的离线存储中 symbolic paths 已经添加了 S3 的数据路径，而没有实际的数据拷贝。

第五步，我们可以使用 OpenMLDB SQL 进行离线特征抽取，直接读取 S3 上面的数据，并且把计算后的特征到处到本地进行模型训练，下面演示最简单的SQL例子。

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

此外，OpenMLDB 也支持把 S3 的数据导入到在线表中， 用于服务上线的冷启动。下图演示了把 OpenMLDB 设置为在线模式，并且导入 S3 的数据到在线表中：

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

相关阅读

OpenMLDB 整合 Amazon S3 的产品文档：https://openmldb.ai/docs/zh/main/integration/offline_data_sou...
数据导入命令 LODA DATA INFILE 详细解释：https://openmldb.ai/docs/zh/main/openmldb_sql/dml/LOAD_DATA_S...
OpenMLDB 使用流程快速上手：https://openmldb.ai/docs/zh/main/quickstart/concepts/modes.html
OpenMLDB 产品文档：https://openmldb.ai/docs/zh
OpenMLDB 开发者博客：欢迎来到 OpenMLDB 开发者空间
OpenMLDB 微信技术交流群：

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

数据库机器学习人工智能

点赞

收藏

评论区

代码逐浪

Lv1

春风不解禁杨花，蒙蒙乱扑行人面。

文章

8

粉丝

0

获赞

0

热门文章

这些年在阿里学到的方法论

企业进销存管理流程有哪些? 附进销存管理系统

Vue.js 基础总结-常用指令用法

大厂不同职级要求有何不同

实战Forge Viewer渐进应用 - 当Xamarin遇上WebAssembly