Rust 异步并发框架在移动端的应用 - 陈明煜
第三届中国 Rust 开发者大会 Rust 异步并发框架在移动端的应用 陈明煜 chenmingyu4@huawei.com 华为 公共开发部 嵌入式软件能力中心 本科就读加州大学圣地亚哥分校,毕业时长两年半, Rustacean 在 华为 目前正在使用 Rust 开发并行调度框架等模块。 Rust 异步并发框架在移动端的应用 陈明煜 chenmingyu4@huawei.com Ylong Runtime 并发框架 目录 Table of Contents #2 社区并发框架介绍以及与移动端的不适配性 Introduction to third party Runtime crates and their incompatibility with mobile environment Rust 异步机制 Asynchronous Rust 异步并发框架是许多大型应用、系统具备的底层能力。 任务调度颗粒度更小,充分利用线程资源 更可控的线程数 单个任务资源占用:几十 KB -> 几百 Byte 任务切换时间 : 10 微秒 -> 100 纳秒 Rust 语言并没有提供异步并发框架, 只提供异步所需的基本特性: Future async / await Waker asyn c Future Waker poll Syntax sugar wake0 码力 | 25 页 | 1.64 MB | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
面向开发者的云原生环境 灵活易用的高并发工作流 高效协同的测试管理 云原生 IDE 插件( VS CODE) 客观精准的效能洞察 强大免运维的模版库 • 自动生成面向开发、测试、运维角 色的工作流 • 多个微服务并行构建、部署、测 试,代码验证效率 UP • 自定义工作流,灵活编排发布、自 主开发和对接企业内部流程和系统 扫码查看飞书主干开发最佳实践 灵活易用的高并发工作流 • 一键拉起环境 -> 调试 (使用 kubectl/ 日志系统) 2. 测试流程 合并到 develop -> GitLab-CI 自动构建打包 Chart (还是那堆复杂的脚 本) -> -> Rancher 上手动替换 Helm Chart 版本 -> 自动化 / 手工测试 3. 上线流程 合并 master -> GitLab-CI 自动构建打包 Chart -> 数千微服务已经上了 K8s ,没有业务边界,环 境不稳定出了问题,所有人吃大锅饭 “ 开发无法本地联调自测,集成测试环境 脏, ” 乱,差 极不稳定,总被其他人干扰 测试同时验证多个分支,集成合并冲突不断,自 动化测试遥遥无期,测试全靠人工验证 运维无脑排障、重启、删节点,沦为工具人…… “ “ ” ” 一系列问题(来自社区的声音): 1. 业务边界清晰 2. 权限得到控制0 码力 | 59 页 | 81.43 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅
及以上( Linux 用户) CMake 3.12 及以上(跨平台作业) Git 2.x (作业上传到 GitHub ) CUDA Toolkit 10.0 以上( GPU 专题) 第 0 章:从并发到并行 摩尔定律:停止增长了吗? • 晶体管的密度的确仍在指数增长,但处理器主 频却开始停止增长了,甚至有所下降。 • 很长时间之前我们就可以达到 2GHz ( 2001 年 8 月),根据 以及其他握手协议需要运行时间开销。在 今天,双核或者四核机器在多线程应用方面,其性能不见得的是单核机器的两倍或者四倍。 这一问题一直伴随 CPU 发展至今。 并发和并行的区别 • 运用多线程的方式和动机,一般分为两种。 • 并发:单核处理器,操作系统通过时间片调 度算法,轮换着执行着不同的线程,看起来 就好像是同时运行一样,其实每一时刻只有 一个线程在运行。目的:异步地处理多个不 同的任务,避免同步造成的阻塞。 同的任务,避免同步造成的阻塞。 • 并行:多核处理器,每个处理器执行一个线 程,真正的同时运行。目的:将一个任务分 派到多个核上,从而更快完成任务。 举个例子 • 并发:某互联网公司购置了一台单核处理 器的服务器,他正同时处理 4 个 HTTP 请求,如果是单线程的 listen-accept 循环 ,则在处理完 A 的请求之前, B 的请求 就无法处理,造成“无响应”现象。 C0 码力 | 116 页 | 15.85 MB | 1 年前3新一代分布式高性能图数据库的构建 - 沈游人
资管计划 / 资金往来 / 担 保 / 借贷 / 集团 / 控股 / 上下 游 ... 父子 / 组合 / 继承 转账 / 大额转账 / 频繁转 账 /... 拥有 拥有 持有 登录 / 连接 已购买 / 意向购 买 / 潜在购买 /... 个人 客户 账户 机构 客户 资产 合约 员工 手机号 设备 商品 商品 查询 / 操作 生活中无处不在的图 图分析技术分类 图查询及其应用场景 图查询 • 使用图数据库的查询语言进行点边的关联查询,可以快速完成传统数据库难以完成的 多度点边关 联 当前图的典型应用场景 路径识别 群体挖掘 节点识别 相似节点 链接预测 连接强度 一致行动人 同事关系 实际控制人 可能认识的人 上下游 同爱好的人 亲属关系 … 人与人、企业与企业、企业与人之间的 复杂、潜在关系推导和挖掘 为已有的分析模型增加“关系特征”维 架构,大规模集群 分布式存储及并行计 算, Shared Nothing 模式支 持存储计算分离 高性能 基于 Rust 开发的分布式存储引 擎及图计算引擎,精细的内存 管理设计,内置索引系统,支 持毫秒级的并发查询响应速度 易用 AQL(Atlas Graph Query Language) ,类 SQL 的图查询 语言,内置上百种分析函数, 面向分析师友好,拥抱标准, 基于 openCypher 向0 码力 | 38 页 | 24.68 MB | 1 年前3Zadig 产品使用手册
Argo K8s JFrog YAML 产品 开 发 测 试 运维 产研运一体化 解决方案 免运维模板库 效能洞察 云原生 IDE 插 件 交付中心 发布中心 测试中心 高并发工作流 云原生环境 对接需求管理 测试管理 Spinnaker Jenkins Rancher JMeter Sonar Tekton Jenkins KubeSphere 1 本地编写测试脚本并针对 sit 环境本地自测 2. 没问题后提交到 GitLab 仓库 测试验证 Sprint 发布 需求开发 变更发布 产品规划 测试验证 自动化 CD 过程:合并代码后自动触发更新集成环境 包括步骤: auto-sit 环境构建 -> 部署 -> 场景测试 -> 安全扫描 ->IM 通知 Sprint 发布 需求开发 变更发布 产品规划 测试验证0 码力 | 52 页 | 22.95 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程
• 多线程、异步、无阻塞、并发,能提升程序响应速度,对现实世界中的软件工程至关重要 。 • 反面教材: blender 在运行物理解算的时候,界面会卡住,算完一帧后窗口才能刷新一遍 ,导致解算过程中基本别想做事,这一定程度上归功于 opengl 原始的单线程设计。 • 正面教材: zeno 可以在解算过程中,随时拖动滑块看前几帧的结果,编辑场景图,修改 节点间的连接,为下一次解算做准备,同 节点间的连接,为下一次解算做准备,同时当前已经启动的物理解算还能在后台继续正常 运行。虽然 zeno 也用了 opengl ,但他用多进程成功在 opengl 的百般拖后腿下实现了 并发。 第 2 章:异步 异步好帮手: std::async • std::async 接受一个带返回值的 lambda ,自身返回一个 std::future 对象 。 • lambda 的函数体将在另一个线程里执行 。 • 接下来你可以在 多个对象?每个对象一个 mutex 即可 • mtx1 用来锁定 arr1 , mtx2 用来锁定 arr2 。 • 不同的对象,各有一个 mutex ,独立地上 锁,可以避免不必要的锁定,提升高并发 时的性能。 • 还用了一个 {} 包住 std::lock_guard ,限 制其变量的作用域,从而可以让他在 } 之 前解构并调用 unlock() ,也避免了和下面 一个 lock_guard0 码力 | 79 页 | 14.11 MB | 1 年前3基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具 霍琳贺
生物信息 CNV 分析 • mdsn - A Multi-address DSN(Data Source Name) parser. TDengine 应用开发组 • Python/Rust/Go 连接器 • 数据可视化 • 数据库运维工具 • 第三方数据源接入 • BI 系统接入 https://taosdata.com/ https://github.com/zitsen CONTENTS 高可靠、线性扩展 + 专业技术服务 • 边云数据复制 • 跨云 / 异地数据复制 • 增量备份 • 多级存储 • 工业数据接入 全托管时序数据 管理云服务平台 • 全托管服务 • VPC 对等连接 • 多云部署( AWS/Azure/ GCP) CONTENTS 自 我 介 绍 T D e n g i n e t a o s X R u s t 使 用 taosX - 物联网数据接入问题 Case 2: tokio::select with stream::iter • Case 1: cancel with blocking code Tokio - Notes • 使用非阻塞或并发 / 异步数据结构 • 使用异步锁和异步 Channel 。 • 使用 spawn_blocking 提交耗时任务 • C FFI 调用时,要关注上下文的线程安全性。 • 多个运行时之间使用 Channel0 码力 | 29 页 | 2.26 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化
艹标准委员会什么时候肯把他加入标准呢?看看人家 C 语言。 编译器优化:合并写入 将两个 int32 的写入合 并为一个 int64 的写入 。 合并写入:不能跳跃 但如果访问的两个元素地 址间有跳跃,就不能合并 了。 第 4 章:矢量化 更宽的合并写入:矢量化指令( SIMD ) 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 xmm0 由 SSE 引入,是个 指令:敢不敢再宽一点? 为什么编译器没有用 256 位的 ymm0 ? 因为他不敢保证运行这个程序的电脑支持 AVX 指令集…… 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支 持的指令。老师的电脑支持 AVX0 码力 | 108 页 | 9.47 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化
SOA 会让 CPU 不得不同时维护很多条预取赛道( mc_x, mc_y, mc_z ),当赛 道多了以后每一条赛道的长度就变短了,从而能够周转的余地时间比较少,不利于延迟隐藏。 而如果把这三条赛道合并成一条( mc ),这样同样的经费(缓存容量)能铺出的赛道(预 取)就更长,从而 CPU 有更长的周转时间来隐藏他内部计算的延迟。所以本案例中 AOS 比 SOA 好。 AOS 、 SOA 、 AOSOA 这就导致了虽然没有用到读取数据,但实际上缓存还是从内存读取了,从而浪费了 2 倍带宽。 绕过缓存,直接写入: _mm_stream_si32 • 因此需要把 16 次 float 用 SIMD 指令合并成一次 写入,且写入的地址要对齐到 64 字节,才能避免 浪费读取的带宽。这样的条件实在有点苛刻,毕 竟小彭老师的电脑还不支持 AVX512 。 • 可以用 _mm_stream_si32 指令代替直接赋值的 写入的地址必须 对齐到 16 字节,否则会产生段错误等异 常。 stream 的限制:最好是连续的写入 • 需要注意, stream 系列指令写入的地址 ,必须是连续的,中间不能有跨步,否则 无法合并写入,会产生有中间数据读的带 宽。 写入 1 比写入 0 更慢? • 很简单,因为写入 0 被编译器自动优化成 了 memset ,而 memset 内部利用了 stream 指令得以更快写入。0 码力 | 147 页 | 18.88 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程
构建一个计数迭代器,他作为区间表示的就是 整数的区间。 合并多个迭代器为一个: zip_iterator • 可以用 thrust::make_zip_iterator(a, b) 把多个迭代器合并起来,相当于 Python 里的 zip 。 • 然后在函数体里通过 auto const &tup 捕获,并通过 thrust::get(tup) 获取这个合并 迭代器的第 index 个元素……之所以他搞这么复杂,其实是因为 的初衷是为了节省不必要 的运算用的,然而对于 j < 32 以下那几个 并没有节省运算(因为分支是按 32 个线 程一组的),反而增加了分歧需要避免副 作用的开销。因此可以把 j < 32 以下的那 几个赋值合并为一个,这样反而快。 使用网格跨步循环一次读取多个 arr 元素 • 可见共享内存中做求和开销还是有点大,之后那么 多次共享内存的访问,前面却只有一次全局内存 arr 的访问,是不是太少了。 std::max 来防止 访问越界。主要是 GPU 的 SIMT 处理这 个比较擅长,不像 CPU 如果这样来钳制 可能导致矢量化失败。 减轻 membound :一次代替四次迭代 • 和第七课提到的循环合并法局部迭代一样的方式 。 • 不过这里改用了 GPU 的板块共享内存,线程之 间自动并行,没有像 CPU 那样用循环。 下一课主题? GPU vs CPU • cudaStream 异步编程(流水线式并行) 0 码力 | 142 页 | 13.52 MB | 1 年前3
共 19 条
- 1
- 2