• pdf 文档 【05 计算平台 蓉荣】Flink 批处理及其应⽤

    0 码力 | 12 页 | 1.44 MB | 1 年前
    3
    文档阐述了Apache Flink作为分布式大数据处理引擎的特点和优势,特别是在批处理领域的应用。Flink支持有限和无限数据流的有状态计算,具有高吞吐量和低延时,适用于各种数据规模和集群环境。文档还对比了Hive、Spark和Flink在批处理方面的性能、稳定性和生态系统,指出Flink在吞吐量和延时上的优势。Flink在数据仓库中的应用简化了架构并便利了运维,同时也适用于数据湖环境,支持多种存储和计算模式。最后,文档介绍了Flink社区的规划,包括实时计算、商业化版本和阿里版AliFlink的发展。
  • pdf 文档 Apache Flink的过去、现在和未来

    0 码力 | 33 页 | 3.36 MB | 1 年前
    3
    文档介绍了Apache Flink的发展历程、现状及未来方向。Flink起源于2009年的柏林工业大学博士生项目,2014年发布了0.6.0版本,并在2014年12月开始正式支持DataStream API。当前Flink的架构支持分布式流数据处理、批处理以及实时处理,能够处理超万台集群、PetaBytes状态数据和每天十万亿的事件处理能力,峰值处理能力达到17亿/秒。此外,Flink支持多种运行环境,包括本地单JVM、云环境和集群环境。文档还提到了Flink的应用场景,如流处理、批处理、连续处理和事件驱动应用。
  • pdf 文档 PyFlink 1.15 Documentation

    0 码力 | 36 页 | 266.77 KB | 1 年前
    3
    文档介绍了PyFlink 1.15的功能和使用方法,包括如何构建可扩展的批处理和流处理工作负载,以及如何利用PyFlink的两种API:Table API和DataStream API。文档详细说明了PyFlink的安装步骤,包括使用pip、conda和源代码安装,并提供了Python版本的支持信息。同时,文档展示了如何通过实时笔记本快速入门Table API和DataStream API,并提供了代码示例来说明如何创建执行环境、处理表数据以及执行各种表操作,如选择、过滤和转换。此外,文档还涵盖了如何在Table API中应用用户定义函数(UDF)以及如何将表数据转换为Pandas DataFrame.
  • pdf 文档 PyFlink 1.16 Documentation

    0 码力 | 36 页 | 266.80 KB | 1 年前
    3
    文档介绍了PyFlink 1.16的功能及其使用方法,包括支持的Python版本(3.6-3.9)、PyFlink的两种主要API(Table API和DataStream API)以及安装和配置指南。PyFlink适用于构建可扩展的批处理和流处理工作负载,支持实时数据处理、机器学习和ETL过程。文档还详细说明了如何通过pip、conda或源代码安装PyFlink,以及如何创建和激活虚拟环境以便于项目依赖管理。
  • pdf 文档 High-availability, recovery semantics, and guarantees - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 49 页 | 2.08 MB | 1 年前
    3
    文档讨论了分布式流处理中的高可用性和容错机制,特别是恢复语义和保证。重点包括在故障恢复过程中如何确保正确的结果,如何实现最小的停机时间以及如何隐藏恢复对下游应用的副作用。文档还介绍了Apache Beam和Google Cloud Dataflow中Exactly-once处理的实现,以及流计算中状态管理的重要性。
  • pdf 文档 Notions of time and progress - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 22 页 | 2.22 MB | 1 年前
    3
    文档讨论了数据流处理中的时间和进度概念,主要包括事件时间和处理时间的区别。事件时间指事件实际发生的时间,而处理时间指事件被处理时的本地时钟时间。文档还介绍了水印(watermark)的概念,用于表示事件时间的进展,并确保系统不会收到延迟事件。水印的传播机制包括输入水印和输出水印,其计算基于上游任务的最小输出水印和非延迟数据的事件时间。此外,文档通过实例说明了事件时间窗口和处理时间窗口在应用中的不同影响。
  • pdf 文档 Skew mitigation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 31 页 | 1.47 MB | 1 年前
    3
    文档讨论了数据流处理中的偏斜缓解(Skew mitigation)问题,探讨了通过关键分区(Key partitioning)和负载均衡(Load balancing)来解决流数据处理中的不平衡问题。提出了两种分区策略:基于哈希的轮转分区和保留键语义的轮转分区,分析了流行键(Popular keys)导致的负载不平衡问题。进一步介绍了使用两次选择的方法(Power of two choices)在流式设置(Streaming setting)中动态分配任务以减少负载差异,并通过示例说明了如何通过删除满足特定条件的键值对来优化分区。
  • pdf 文档 Stream ingestion and pub/sub systems - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 33 页 | 700.14 KB | 1 年前
    3
    The document discusses stream processing and analytics, focusing on stream ingestion and pub/sub systems. It highlights various data sources for stream processing, including files, sockets, IoT devices, databases, and message queues. The discussion covers pub/sub systems, their decoupling capabilities in space, time, and synchronization, and their use cases such as workload balancing, event notifications, cache refreshing, logging, and data streaming. Additionally, it touches on content-based pub/sub systems, where consumers subscribe using filters based on event properties or metadata, and the role of Complex Event Processing (CEP) systems as predecessors.
  • pdf 文档 Stream processing fundamentals - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 45 页 | 1.22 MB | 1 年前
    3
    文档介绍了数据流处理的基础知识,包括数据流的定义、特性及其与传统数据集的区别。数据流是实时、高量且可能无界的,需要边处理边存储,使用有限的内存。文档还比较了数据流管理系统(DSMS)和数据库管理系统(DBMS)的不同,讨论了数据流处理的关键挑战,如容错性、分布式处理和低延迟。最后,文档总结了流处理模型、应用场景及数据管理方法。
  • pdf 文档 Cardinality and frequency estimation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 69 页 | 630.01 KB | 1 年前
    3
    文档介绍了数据流处理中的基数估计和频率估计方法,重点讨论了Counting Bloom Filter和Count-Min Sketch两种概率数据结构。Counting Bloom Filter通过多个哈希函数和计数器数组来估计频率,适用于大数据流且空间效率高。Count-Min Sketch则利用多个哈希表和计数器,提供频率上界的最小值估计,其准确性和空间利用率在特定条件下优于传统方法。文档还介绍了在实际应用中的使用案例,如检测DDoS攻击和计算趋势话题。
共 26 条
  • 1
  • 2
  • 3
前往