任务优先级调度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Rust 异步并发框架在移动端的应用 - 陈明煜

chenmingyu4@huawei.com 华为公共开发部嵌入式软件能力中心本科就读加州大学圣地亚哥分校，毕业时长两年半， Rustacean 在华为目前正在使用 Rust 开发并行调度框架等模块。 Rust 异步并发框架在移动端的应用陈明煜 chenmingyu4@huawei.com 华为公共开发部嵌入式软件能力中心 Applications of Rust Runtime Asynchronous Rust 异步并发框架是许多大型应用、系统具备的底层能力。区别于多线程编程模型，它带来以下优势：  任务调度颗粒度更小，充分利用线程资源  更可控的线程数  单个任务资源占用：几十 KB -> 几百 Byte  任务切换时间 : 10 微秒 -> 100 纳秒 Rust 语言并没有提供异步并发框架，只提供异步所需的基本特性：  Future  Third Party Runtime 目前 Rust 社区最广泛使用的事件驱动型调度框架，擅长处理大量异步 IO 的场景。具有非常强大的生态。 tokio 第一个适配 Rust async/await 原语的运行时库，与 tokio 类似支持异步 IO ，目前已经半废弃 async-std 更轻量化的调度框架，功能被拆分到其他多个库中， IO 密集场景性能不如 Tokio smol

0 码力 | 25 页 | 1.64 MB | 1 年前
3
GPU Resource Management On JDOS

GPU 利用率 – Job 调度（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务） – 选择存储来源：对接了内部的存储 – 填写代码地址，执行的命令等 – 可以选择是否监控训练，提供 tensorboard 任务列表可以指定 git 的 commit-id commit-id 发起任务任务详情可以查看具体的容器列表，以及查看容器的日志和事件 Serving 服务提供统一便捷的 Serving 服务，只需用户指定模型，即可提供 grpc 和 rest 服务，同时使用 GPU 复用 +HPA 提高 GPU 利用率创建 Serving 与训练集成 • 用户只需要简单选择机房和镜像填写模型名即可完成 Serving 服务创建自有模型

0 码力 | 11 页 | 13.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线程，真正的同时运行。目的：将一个任务分派到多个核上，从而更快完成任务。举个例子 • 并发：某互联网公司购置了一台单核处理器的服务器，他正同时处理 4 个 HTTP 请求，如果是单线程的基于 TBB 的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

1>>>() 后，并不会立即在 GPU 上执行完毕，再返回。实际上只是把 kernel 这个任务推送到 GPU 的执行队列上，然后立即返回，并不会等待执行完毕。 • 因此可以调用 cudaDeviceSynchronize() ，让 CPU 陷入等待，等 GPU 完成队列的所有任务后再返回。从而能够在 main 退出前等到 kernel 在 GPU 上执行完。定义在 GPU 当前板块的编号： blockIdx • 总的板块数量： gridDim • 线程 (thread) ：并行的最小单位 • 板块 (block) ：包含若干个线程 • 网格 (grid) ：指整个任务，包含若干个板块 • 从属关系：线程＜板块＜网格 • 调用语法： <<>> 区分板块和线程有点麻烦？“扁平化”他们！ • 你可能觉得纳闷，既然已经有线程可以并行了稍微快一些，但不完全精确的 __sinf • 两个下划线的 __sinf 是 GPU intrinstics ，精度相当于 GLSL 里的那种。适合对精度要求不高，但有性能要求的图形学任务。 • 类似的这样的低精度內建函数还有 __expf 、 __logf 、 __cosf 、 __powf 等。 • 还有 __fdividef(x, y) 提供更快的浮点除法，和一般的除法有相同的精确度，但是在

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解线程是进程中的一个实体，是被系统独立分配和调度的基本单位。也有说，线程是 CPU 可执行调度的最小单位。也就是说，进程本身并不能获取 CPU 时间，只有它的线程才可以。 • 从属关系：进程 > 线程。一个进程可以拥有多个线程。 • 每个线程共享同样的内存空间，开销比较小。 • 每个进程拥有独立的内存空间，因此开销更大。 • 对于高性能并行计算，更好的是多线程。为什么需要多线程：无阻塞多任务 • 我们的程序常常需要同时处理多个任务。我们的程序常常需要同时处理多个任务。 • 例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

异步编程的共同优势 • async/await 关键字 • 用户态调度 • Async Rust 的独特优势 • Ownership 与 Lifetime • 无栈协程 Async Rust 回顾 Rust 的无栈协程抽象 — Future Async Rust 回顾 • 通过 poll 驱动的状态机 • 组合嵌套为调度单元： Task • async fn 语法糖 Async Rust • Backtrace 不够直观 ( 调用栈 -> 调用树 ) • Tracing 无法追踪调用关系的变化 Async Rust 观测与调试的痛点 Async Rust 回顾 • 特性：用户态调度的无栈协程 • Pending Task 不存在栈空间 • 痛点：观测与调试工具无法还原 Pending Task 的执行状态 • 难以得知 Task 阻塞的位置和原因 • 难以调试 Async • GitHub 4.5k Stars • “Materialized View” • 计算：分布式流计算任务，实时增量维护 • 存储： S3 上的 Shared-storage 存储状态和数据 Await Tree 在 RisingWave 中的应用 • 技术挑战 • 计算任务需长期执行，稳定性要求高 • 算子逻辑复杂，计算与存储读写穿插，强依赖 Async • Await-Tree

0 码力 | 37 页 | 8.60 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

Marker 分布式账务系统 A,B,C 在不同分区执行一个事务的 TCC 转账计划 ● 转账计划 ○ 有向无环图 ○ 节点是一个任务 ○ 边是依赖关系 ● 事务层 Marker 负责执行计划 ○ ACID 保证 ○ 依赖控制 ○ 条件执行 ○ 调度账户变动请求跨分区转账分布式账务系统拥抱开源 github: https://github.com/airwallex/Auticuro

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功：可以看到应用了分块 + 预取 + 直写的 x_blur ，和直写的拷贝一样快了。虽然这里 loadu 重复加载了同样的地址可能还有可优化之处，但既然唯一的瓶颈已经变成了内存带宽，那我们的缓存优化任务应该是完成了。 Y 方向的插桩比 X 方向慢好多 • 为什么会这样？ • 因为 X 方向的插桩所读取的数据，在内存中是连续的。 • 而 Y 方向的插桩所读取的数据，在内存看来表现为跳跃 nx

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

(pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 • 请问你这些任务总共需要多少时间？任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸烧开水刷牙看比站吃饭拉粑粑 5 10 5 15 30 20 为什么需要流水线 • 更高效的办法是，观察每个任务都占用哪些资源，所占用资源不冲突的可以同时进行， + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 20 条前往

页

陈明煜 2023RustChinaConf GPU JDOS C++高性性能高性能并行编程优化课件 06 08 05 赵梓 Await-Tree Rust 胡宇 rust 分布布式分布式账务系统 07 01

分类

语言

格式

Rust 异步并发框架在移动端的应用 - 陈明煜

GPU Resource Management On JDOS

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起