【05 计算平台 蓉荣】Flink 批处理及其应⽤
Bounded Data Unbounded Data SQL Runtime SQL ⾼高吞吐 低延时 Hive vs. Spark vs. Flink Batch Hive/Hadoop Spark Flink 模型 MR MR(Memory/Disk) Pipeline 吞吐 TB-PB TB-PB 未经⼤大规模⽣生产验证 性能 ⼀一般(分钟⼩小时级别) 快(秒级) 优秀 Python/Scala/R/Java 丰富 (TableAPI) Scala/Java SQL HiveSQL SparkSQL ANSI SQL 易易⽤用性 ⼀一般 易易⽤用 ⼀一般 ⼯工具/⽣生态 ⼀一般 丰富 ⼀一般 Flink Batch应⽤用 - 数据湖 Data Lake vs. Data Warehouse Flink Batch应⽤用 - 数据湖 Flink Batch应⽤用 ������ �� ����� �� ����/���� Flink Batch应⽤用 - 数仓 简化架构 ⽅方便便运维 Flink社区规划 Flink AliFlink 社区 ⽣生态 实时计算 StreamC ompute 1 3 4 2 Flink 实时计算 商业化版本 阿⾥里里云实时计算产品⽅方向 存储计算分离 架构 ⾼高性能 全托管架构 全功能⼤大数据 处理理能⼒力力0 码力 | 12 页 | 1.44 MB | 1 年前3PyFlink 1.15 Documentation
jobs for more details. 1.1.1.4 YARN Apache Hadoop YARN is a cluster resource management framework for managing the resources and scheduling jobs in a Hadoop cluster. It’s supported to submit PyFlink jobs0 码力 | 36 页 | 266.77 KB | 1 年前3PyFlink 1.16 Documentation
jobs for more details. 1.1.1.4 YARN Apache Hadoop YARN is a cluster resource management framework for managing the resources and scheduling jobs in a Hadoop cluster. It’s supported to submit PyFlink jobs0 码力 | 36 页 | 266.80 KB | 1 年前3Apache Flink的过去、现在和未来
流式去重 完整的 批处理支持 批处理错误恢复(1) 批处理错误恢复(2) 批处理错误恢复(3) 批处理错误恢复(4) 批处理错误恢复(5) 插件化 Shuffle Manager 生态 Flink Hive Flink Zeppelin 中文社区 Flink 的现在 offline Real-time Batch Processing Continuous Processing0 码力 | 33 页 | 3.36 MB | 1 年前3Flink如何实时分析Iceberg数据湖的CDC数据
、kDF1i3k增量拉TCDCmi的能力 。 F1i3k集成 1、Spark Strea2i3g 对接CDC写F链 路 、Presto等bl对接t询链路。 3、借助axA11uxioP速mit询。 I他生态集成 谢谢 谢谢 谢谢0 码力 | 36 页 | 781.69 KB | 1 年前3
共 5 条
- 1