您的位置:  首页 > 技术杂谈 > 正文

Amoro 0.6.0 发布:集成 Kubernetes 与 S3,支持 Apache Paimon

2023-11-17 18:00 https://my.oschina.net/u/4565392/blog/10143935 网易数帆 次阅读 条评论
Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

2023 年 11 月 07 日,Amoro 0.6.0 版本正式更新发布!这个版本在 0.5.1 版本的基础上,增加了很多 feature,并且提升了可用性和稳定性,推荐各位用户和开发者升级到这个版本。在这次版本更新中,来自社区的 21 位贡献者付出了 118 次提交,感谢每位社区小伙伴的贡献!

01 重要更新

1.Kubernetes 集成

支持通过 Kubernetes 部署 AMS 和 Optimizer。

2.与 S3 更友好的集成

注册 catalog 的时候可以选择 Storage 是 S3,并且支持 AK/SK 验证体系。

 

 

3. Paimon format 支持

Apache paimon 是一个具备高速数据摄取,变更日志跟踪和高效的实时分析的实时数据湖平台。

  • 在 Catalogs 页面支持支持注册 Paimon catalog。

 

 

  • 注册完 catalog 以后,可以在 Tables 页面查看表的 Schema, Properties, Files, Snapshots, Optimizing, Operations等信息。
  • 可以在 Terminal 界面执行 paimon 支持的 Spark sql。

4.分区及文件过期

现在只需要在表上进行一些简单的配置,则能开启按照时间自动过期表中文件或分区的功能,如:

CREATE TABLE IF NOT EXISTS user (
    id INT,
    name string,
    ts TIMESTAMP
) USING iceberg 
PARTITIONED BY (days(ts));

ALTER TABLE user SET TBLPROPERTIES (
    'data-expire.enabled' = 'true',
    'data-expire.level' = 'partition',
    'data-expire.field' = 'ts',
    'data-expire.retention-time' = '30d'
);

上面的例子开启了 user 表上的分区自动过期功能,AMS 会自动淘汰超过30天的分区。有关分区及文件自动过期的更多信息可以参考最新的用户手册:https://amoro.netease.com/docs/latest/using-tables/#configure-data-expiration

5.Mixed Format 支持 ORC 文件格式

Mixed Format 用户可以设置文件存储格式为 ORC 格式。

6.Mixed Format 支持 Flink-1.16 和 Flink-1.17

移除了对 Flink-1.12 和 Flink-1.14 的支持,新加了 Flink-1.16 和 Flink-1.17 版本的支持。

7.优化 Position Delete 的内存使用

减少了 Self-Optimizing 过程中由于索引 Iceberg 的 position-delete 数据带来的内存消耗。

 

02 Release Note

Amoro 0.6.0 版本完整的 Release Note 请参考:

https://github.com/NetEase/amoro/releases/tag/v0.6.0

 

03 致谢

Amoro 社区的发展离不开大量用户的积极试用和反馈,以及社区开发者的无私贡献,再次感谢大家的付出!也欢迎更多小伙伴共同参与到 Amoro 社区建设中!

0.6.0 版本贡献者(排名不分先后)

 


End~

如果你对数据湖,湖仓一体、table format 或 Amoro 社区感兴趣,欢迎联系我们深入交流。

关于 Amoro 的更多资讯可查看:

 

作者:史大洋

编辑:Viridian

 
展开阅读全文
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接