Flink Forward Asia 2019 | 总结和展望(附PPT)

  • 时间:
  • 浏览:0
  • 来源:大发五分时时彩—大发分分时时彩

就看这里不可能 还是会你什儿 不太直观,我结合另一方的理解再多说两句,亲戚亲戚大家都还还可以从另5个多维度理解 Stateful Function:

第二场由阿里巴巴实时计算负责人王峰(阿里花名:莫问)接棒,主要总结了 2019 年 Apache Flink 在一体化引擎发展方面的成果和未来的方向。他认为未来 Flink 的发展趋势是一体化:包括离线(batch)实时(streaming)在线(application)一体化。在此基础上,也前要把拥抱 AI 和云原生纳入到一体化中。里边的内容太久围绕这三方面来展开的。

Flink Forward 是由 Apache 官方授权举办的会议,每年在欧洲、北美洲、亚洲各举办一场。通过参会不仅都还还可以了解到 Flink 社区的最新动态和发展计划,还都还还可以了解到业界围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者的盛会。去年 12 月 Flink Forward 首次在中国举办,是规模最大、参与人数最多的 Flink Forward 大会。今年 Flink Forward China 正式升级为 Flink Forward Asia,吸引到更多的关注,并于 11 月 28 日在北京开幕。

另外这每种印象比较深刻的你你什儿 是:跑 TPC-DS benchmark,Flink 1.10 比 Hive-3.0 快 7 倍:

有点儿是在应用逻辑非常复杂性的清况 下,应用逻辑之间的组合调用会更加复杂性,有如果加剧里边5个痛点的复杂性度。

另外这每种演讲中的另5个多 demo 你都还还可以 身前一亮。一另5个多是基于 Flink + Hive + Zeppelin 的 Flink SQL demo,就看如果 都还还可以深刻感受到“都还还可以在 Hive 生态上直接运行,越来越 迁移成本“,以及“一套 SQL,批流一体运行”的真正含义。还有一另5个多是 Alink ML 基于 Jupyter 的 demo,就看如果 我发现现在机器学习模型训练和使用都还还可以越来越 简单,感兴趣的同学都还还可以找来看看。

Flink 在整个架构中是用来做流数据注入的,Flink 向 AWS S3 以 Parquet 的格式持久化数据,并以那此原始数据为基础,进行多级 non-blocking 的 ETL 加工(压缩去重),建立实时数仓,用于交互式数据查询。在你你什儿 分享中印象深刻的几点:

原文发布时间:2019-12-5

作者 :梅源(Yuan Mei)

本文来自云栖社区商务战略合作伙伴“阿里技术”,了解相关信息都还还可以关注“阿里技术”。

分会场议题主要围绕着里边5个主议题展开,分为5个专场:

在 AI 每种,2019 Flink 重点主要在优化和铺垫 AI 的基础设施每种:

照例,第一另5个多主议题由 Flink 一哥 Stephan Ewen 执棒。作为对 Flink Forward 柏林站的延续,Stephan 继续推广他对 Flink 作为应用服务场景(Applications and Services)通用引擎的展望和规划。简而言之,他认为 Flink 除了才能做到批流一体,Flink 框架对于事件驱动的在线应用也本来算不算效甚至更好的支持,如下图所示:

在主议题如果 另5个多多环节值得提一提。一是作为主场的阿里云智能请出阿里集团 CTO 兼阿里云智能总裁张建锋作为开场嘉宾进一步强化阿里集团以数据智能为驱动,All in Cloud 的决心以及开源的 Flink 在此过程中起到的关键性作用。下图很好地提炼了他的演讲。

在里边的分会场议题开源大数据生态中,Pravega 还有一场更偏技术的分享,包括整体的设计架构,怎样保证 exactly once 语义,Stream Segment 怎样更方便的提供 scaling up/down 等等,感兴趣的同学也都还还可以看看,题目叫“Delivering stream data reliably with Pravega”。

你你什儿 议题你什儿 也很有趣。不可处理的,亲戚亲戚大家会想到流式存储和通常意义上的消息队列系统(例如 Kafka)之间有那此区别,毕竟 infinite retention 的消息队列系统也都还还可以被看成是一另5个多 stream storage。太久比较有趣的那此的问提是一体化的抽象应该在哪个层面上来做,以及怎样做。换言之,读写是算不算应该和存储分离,只提供统一的API?不可能 笔者对 storage 这块儿细节都不 有点儿了解,这里就不班门弄斧了,感兴趣的小伙伴亲戚亲戚大家都还还可以私下讨论。分议题中还有一场关于 Pulsar 的,也相关,题目叫“基于 Pulsar 和 Flink 进行批流一体的弹性数据处理”。

目前所有 Stateful Function 代码均已开源,在获得社区认可后也会 merge 回 Apache Flink,有兴趣的同学都还还可以去官网另一方实践一下:https://statefun.io/ 。在分议题 Apache Flink 核心技术中都不 一场专门讲 Stateful Function 的实现,使用和 demo,小伙伴们也都还还可以去感受一下,题目叫“Stateful Functions: Unlocking the next wave of applications with Stream Processing”。

对于批流融合,通过 1.9 和 1.10 另5个多版本的发布,Flink 在 SQL 和 Table API 的层面以及 Flink runtime 层面对批流模式不可能 做到统一。对于 Flink SQL,在 1.10 你你什儿 版本里边,不可能 都还还可以实现全版的 DDL 功能,兼容 Hive 生态系统有如果支持 Python UDF。总体得到的讯息是:

除了参会人数的越来好快增加,多元化也是今年 FFA 的一大闪光点。笔者根据大会纲要数了一下,大概有超过 25 家来自北美,欧洲和亚洲的公司,高校以及科研机构参与分享了超过 45 个议题。国内外一线大牌互联网公司齐聚一堂,其乐融融。这也说明太久的业界公司更加看好 Flink,有如果角度参与 Flink 的规划与发展,这无论是对 Flink 的未来还是 Flink 社区的发展都不 非常积极的意义。

在这届 FFA 中突然强调一体化和多元化的概念,也太久开篇讲的引擎一体化和化态多元化,具象化来说有三点:Stateful Function,拥抱AI,云原生。再到下一另5个多层面也给 Flink 引擎你什儿 提出更多的要求,这是挑战当然也是机遇。古语云瑞雪兆丰年, FFA  在北京的初雪中圆满落下帷幕,也让亲戚亲戚大家同时努力,把握好机遇同时迎接挑战,共创美好的 Flink 2020。最后,分享一张一哥 Stephan 在 Flink Forward Asia 的 cool 照作为全篇的收尾,亲戚亲戚大家同时感受一下。

此外还有一另5个多重要的方向是 Flink 对云原生生态的支持,具体来说太久与 Kubernetes 生态的角度融合。Kubernetes 环境都还还可以在 multi-user 的场景下提供更好的隔离,对 Flink 在生产的稳定性方面会有所提升。Kubernetes 广泛应用在各种在线业务上,Flink 与 Kubernetes 的角度融合都还还可以在更大范围内统一管理运维资源。Kubernetes 生态你什儿 发展加快速度,都还还可以给 Flink 在生产中提供更好的运维能力。里边 Lyft 和你你什儿 企业在分享中也提到希望 Flink 对 Kubernetes 都还还可以原生地支持,都不 以上那此方面的考虑。Flink 在 1.10 版本发布都还还可以不能原生地运行在 Kubernetes 之上。

半年的 FFA,感触颇深。Flink 创始人之一 Ververica CEO Kostas Tzoumas 感慨说,五年前当亲戚亲戚大家 5 个初创如果 如果开始了了 Flink 你你什儿 项目的如果 无法想象今天 Flink 能有越来越 大的生态和越来越 广的应用。你什儿 我无法深切体会到他的感受,有如果当前 Flink 社区的繁荣和 Flink 的应用广度是有目共睹的,但更重要的那此的问提是:未来亲戚亲戚大家怎样延续你你什儿 繁荣。Flink 在经历了高性能流式引擎,批流一体两代发展后,亲戚亲戚大家你什儿 前要思考一下未来的 Flink 是那此样的。

除了 Lyft,在分会场中都不 太久企业参与分享了另一方使用和角度参与 Flink 开发的经验和教训。Flink 不仅在国内公司中深受欢迎,太久北美欧洲的公司比如 Netflix,Uber 和 Yelp 也太久的使用和开发 Flink,感兴趣的同学都还还可以关注一下分会场议题中的“企业实践”和“实时数仓”专场。

下面言归正传,聊一聊几次主议题。

不可能 篇幅关系,这里就不作展开了,分议题清单和所有PPT资料请“点击下载”

接下来,笔者将根据另一方参加的议题聊一聊参会的体验和你你什儿 另一方的思考,希望能对感兴趣的同学有所助益。

二是由阿里云天池平台和 Intel 联合举办的 Apache Flink 极客挑战赛颁奖仪式。本次比赛吸引了全球超过 1500 名参赛者,经过5个月的四轮角逐最终产生共 10 个优胜队伍。值得一提的是获奖选身前有两位女将,未来也期待能有更多的妹子参与进来,放一张照片瞻仰一下。

在 AI 每种还有一另5个多很值得期待的项目是 Flink AI 明年的一另5个多重点投入方向:AI Flow。AI Flow 为 AI 链路定制了一套全版的处理方案:包括从 data acquisition,preprocessing,到 model training & validation & serving 以及 inference 的一整套链路。你你什儿 方案是针对处理现在 AI 链路里边数据预处理复杂性,离线训练和在线预测脱钩等那此的问提定制的,让亲戚亲戚大家拭目以待。

笔者总体的参会感受:引擎一体化和化态多元化是 Flink 一以贯之的发展策略。引擎一体化指的是离线(batch)实时(streaming)在线(application)应用在执行层面的一体化。生态多元化指的是对 AI 生态环境的搭建和对更多生态的支持,包括 Hive,Python,Kubernetes 等。

我的理解是他所指的应用服务场景(Applications and Services)和传统意义上的 OLTP 例如。云上对此类那此的问提的主流处理方案是现在很火的 FaaS (Function as a Service),但通常会有以下四方面痛点:

下面讨论一下第5个维度:为那此 Stateful Function 比现有的处理方案更好。我的理解是 Stateful Function 提供了更清晰的 abstraction。Stateful Function 把消息传输、清况 管理从 Function 中隔离出来,使得用户只前要关注 Function 计算逻辑你什儿 ,而不前要关注 Function 的调度,组合等那此的问提,这也使得 Stateful Function 框架能有更多的自由度为 Function 调度组合等那此的问提做优化。当然这太久另一方的理解,抛砖引玉。

第另5个多议题是由戴尔科技集团带来的流式存储议题: Pravega。

经过几年的发展,Flink 不可能 成为 Apache 最活跃的社区和在 Github 上访问量前三的项目。Github 的星数(代表项目受欢迎程度)在 2019 一年之内翻了一番。Apache Flink 在中国本土也更加的普及,下图列出了你你什儿 使用 Flink 作为实时计算处理方案的中国公司 logo。

主议题的最后一场是 Flink 实践,是由 Lyft 带来的大规模准实时数据分析平台的分享。这里所说的准实时,指端到端数据延迟不超过 5 分钟,在 Lyft 实物主要用于数据交互式查询,下图是 Lyft 准实时平台架构图。

亲戚亲戚大家的主要观点是随着流式计算在大企业用户中越来越 广泛的应用,流式计算对存储也产生了新的需求:流式存储。需求来自另5个多方面:一是大型企业用户希望计算框架流程化繁为简,从而提出对流式计算存储一体化的需求;二是批流的计算一体化你什儿 也对存储提出批流一体化需求。

设想如图所示的场景,亲戚亲戚大家使用 Lyft 打共享车。在乘客发起打车请求如果 ,Lyft 首先会根据乘客的定位,空闲司机的清况 ,目的地,交通清况 和另一方喜好给乘客推荐不例如型车辆的定价。在乘客选用定价如果 ,Lyft 会根据乘客的喜好(比如你你什儿 司机被乘客拉了黑名单),司机的喜好(乘客都不 不可能 被司机拉了黑名单),司机和乘客的相对位置以及交通清况 进行匹配,匹配完成后订单如果开始了了。在你你什儿 例子中,亲戚亲戚大家会发现:

阿里巴巴通过 1.9 和 1.10 另5个多版本历经 1 年左右将 Blink 中比较通用的每种悉数回馈给 Apache Flink 社区,回馈总代码数超过一百万行。阿里实物的 Blink 内核也逐步会由 Flink 内核替换,有如果推出基于 Flink 内核的企业版 Ververica Platform,明年 1 月会正式商用。

11 月 28 - 150 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 1150,同比去年增加近 1150%。

同时你都还还可以发现里边的那此那此的问提都和 State 的存储(storage),读写(access)以及一致性(consistency)相关,而 Flink 的 Stream Processing 框架都还还可以很好的处理那此和清况 相关的那此的问提。太久 Stateful Function 在 Flink 现有的框架上拓展了对 Function Composition 和 Virtual Instance(轻量级的 Function 资源管理)的支持,以达到对应用服务场景(Application)的通用支持。

Stateful Function 在 Flink 开源 Runtime 的基础上很好的处理了 Function Composition 和 State Consistency 的那此的问提。