彩神大发快三_神彩大发快三官方

102万行代码,1270 个问题,Flink 新版发布了什么?

时间:2020-03-13 10:25:02 出处:彩神大发快三_神彩大发快三官方

Flink 从 1.9.0 版本刚结束增加了对 Python 的支持(PyFlink),但用户必须使用 Java 开发的 User-defined-function (UDF) ,具有一定的局限性。在 1.10.0 中亲戚亲戚朋友为 PyFlink 增加了原生 UDF 支持(FLIP-58),用户现在可不都都还可不可以 在 Table API/SQL 中注册并使用自定义函数,如下图所示:

Flink 从 1.9.0 版本刚结束支持 Hive 集成,但并未完整版兼容。在 1.10.0 中亲戚亲戚朋友对 Hive 兼容性做了进一步的增强,使其达到生产可用的标准。具体来说,Flink 1.10.0 中支持:

Kubernetes (K8S) 是目前最为流行的容器编排系统,也是目前最流行的容器化应用发布平台。在旧版本当中,你会在 K8S 上部署和管理有另一个多 Flink 集群比较僵化 ,时要对容器、算子及 kubectl 等 K8S 命令有所了解。

原生 Kubernetes 集成

Python UDF 支持

2019 年 1 月,阿里巴巴实时计算团队组阁 将经过双十一历练和集团实物业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码,此后的一年中,阿里巴巴实时计算团队与 Apache Flink 社区密切合作者,持续推进 Flink 对 Blink 的整合。

Batch 兼容 Hive 且生产可用

更多完整版介绍,请参考:

https://enjoyment.cool/2020/02/19/Deep-dive-how-to-support-Python-UDF-in-Apache-Flink-1-10/

在 1.10.0 中,亲戚亲戚朋友对 Task Executor 的内存模型,尤其是受管理内存(Managed Memory)进行了大幅度的改进(FLIP-49),使得内存配置对用户更加清晰:

在旧版本的 Flink 中,流除理和批除理的内存配置是割裂的,以后当流式作业配置使用 RocksDB 存储情况汇报数据时,不能自己限制其内存使用,从而在容器环境下老要 再次跳出内存超用被杀的情况汇报。

在 Flink 1.10 中,亲戚亲戚朋友推出了对 K8S 环境的原生支持(FLINK-9953),Flink 的资源管理器会主动和 Kubernetes 通信,按需申请 pod,从而可不都都还可不可以 在多租户环境中以较少的资源开销启动 Flink,使用起来也更加的方便。

综述

除此之外,Flink 1.10.0 还在 SQL 中对临时函数/永久函数以及系统/目录函数进行了明确区分,并支持创建目录函数、临时函数以及临时系统函数:

内存管理优化

SQL DDL 增强

Flink 实践精选电子书,现已开放免费下载~

同时可不都都还里可不可以 方便的通过 pip 安装 PyFlink:

Flink 1.10.0 支持在 SQL 建表一句话中定义 watermark 和计算列,以 watermark 为例:

Flink 1.10.0 版本一共有 218 名贡献者,除理了 1270 个 JIRA issue,经由 2661 个 commit 总共提交了超过 102 万行代码,多项数据对比前一天 的十几只 版本都有所提升,印证着 Flink 开源社区的蓬勃发展。



其中阿里巴巴实时计算团队共提交 64.5 万行代码,超过总代码量的 1000%,做出了突出的贡献。



在该版本中,Flink 对 SQL 的 DDL 进行了增强,并实现了生产级别的 Batch 支持和 Hive 兼容,其中 TPC-DS 10T 的性能更是达到了 Hive 3.0 的 7 倍之多。在内核方面,对内存管理进行了优化。在生态方面,增加了 Python UDF 和原生 Kubernetes 集成的支持。后续章节将在哪此方面分别进行完整版介绍。

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第有另一个多双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将完整版为亲戚亲戚朋友介绍该版本的重大变更与新增底部形态。文末更有 Flink 实践精选电子书,现已开放免费下载~

下载地址

在此基础上将 Flink 作为计算引擎访问 Hive 的 meta 和数据,在 TPC-DS 10T benchmark 下性能达到 Hive 3.0 的 7 倍以上。

此外,亲戚亲戚朋友还将 RocksDB state backend 使用的内存纳入了托管范畴,同时可不都都还可不可以 通过简单的配置来指定其能使用的内存上限和读写缓存比例(FLINK-7289)。如下图所示,在实际测试当中受控前后的内存使用差别非常明显。

Meta 兼容 - 支持直接读取 Hive catalog,覆盖 Hive 1.x/2.x/3.x 完整版版本

数据格式兼容 - 支持直接读取 Hive 表,同时也支持写成 Hive 表的格式;支持分区表

UDF 兼容 - 支持在 Flink SQL 内直接调用 Hive 的 UDF,UDTF 和 UDAF

pip install apache-flink

结语

Apache Flink 是公认的新一代开源大数据计算引擎,可不都都还可不可以 支持流除理、批除理和机器学习等多种计算底部形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。

CREATE TABLEtable_name (

WATERMARK FOR columnName AS

) WITH (

...

)

CREATE [TEMPORARY|TEMPORARY SYSTEM] FUNCTION

[IF NOT EXISTS] catalog_name.function_name

AS identifier [LANGUAGE JAVA|SCALA]

与此同时,1.10.0 版本中对 batch 执行进行了进一步的优化(FLINK-14133),主要包括:

更多内容,参考 1.10.0 版本发布日志:

https://flink.apache.org/downloads.html

Flink 1.10 是迄今为止规模最大的一次版本升级,除标志着 Blink 的合并完成外,还实现了 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化等。

https://ci.apache.org/projects/flink/flink-docs-stable/release-notes/flink-1.10.html

向量化读取 ORC (FLINK-14135)

基于比例的弹性内存分配 (FLIP-53)

Shuffle 的压缩 (FLINK-14845)

基于新调度框架的优化 (FLINK-14735)

2019 年 1 月,阿里巴巴实时计算团队组阁 Blink 开源。整整一年前一天 ,Flink 1.10.0 版本的发布组阁 Flink 和 Blink 的整合正式完成。亲戚亲戚朋友践行着或多或少人的诺言,开放源码,更相信社区的力量,相信社区是开源合作者精神与创新的摇篮。亲戚亲戚朋友也衷心希望有更多的志同道合的小伙伴加入亲戚亲戚朋友,同时把 Apache Flink 做的没办法 好!

热门

热门标签