用户资料 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）从一个案例看 C++ 的历史 • 求一个列表中所有数的和： # 参考资料 - [ 热心观众整理的学习资料 ](https://github.com/ 编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，不仅会在编译器自动生成的构造函数里执行，也会用户自定义构造函数里执行！ m_weight 已默认初始化为 0 ！编译器默认生成的构造函数：无参数（类成员初始化很方便） • 类成员的 {} 中还可以有多个参数，甚至能用 = 。 • 除了不能用 Pig(Pig const &other); • 可见他的参数是一个 Pig 类型，他的功能就是拷贝 Pig 对象，故称为拷贝构造函数。 • 调用方式如下：拷贝构造函数：用户自定义 • 除了编译器可以自动生成拷贝构造函数外，如果有需要，用户也可以自定义拷贝构造函数。 • 比如：不想要编译器自动生成拷贝构造函数怎么办： = delete • 如果想要让编译器不要自动生成拷贝构造函数，可以用 =

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：汇编语言 • #pragma GCC ivdep • 表示忽视下方 for 循环内可能的指针别名现象。 • 不同的编译器这个 pragma 指令不同，这里只是拿 GCC 举例，其他编译器请自行查找资料。循环中的 if 语句：挪到外面来乘法模式加法模式这个案例中，作者的用意很明显，在 is_mul 为真时执行 a *= b ，否则执行 a += b 。然而有 if 分支的循环体是难以

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Rust与算法 - 谢波

疫情下的明智选择 / 个人项目实践学习中总结探索 2015 年发布，很多人近几年才知道 Rust ， Rust 中国大会也才第三届，期待 Rust 中国大会第十届 Rust 处于起步阶段中文圈学习资料或书籍少，有部分是翻译国外产品，能不能中国人向国外输出作品 Rust 缺少学习资源 Rust 未来大有可为 Rust 在操作系统，数据库，各种框架和工具上应用范围广写作动机当情况不

0 码力 | 28 页 | 3.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

为“虚函数表（ vtable ）”。这样一来，类成员里只需要存一个指向虚函数表首地址的指针，之后通过查找该表即可找到连续的 n 个函数指针。此处为了方便理解，右侧案例代码没有用虚函数表。课外拓展 · 参考资料 • 堆栈和 ABI 的知识 https://zhuanlan.zhihu.com/p/27339191 • x86 汇编指令大全 https://zhuanlan.zhihu.com/p/53394807

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

如果这里的 x 是负数，则 x % B 也是负数，会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，然而这对负方向会不起作用。解决： (a % b + b) % b • 我看一些 CFD 用户喜欢写 (a + b) % b 做循环边界，从而避免负方向上出错。然而这还是避免不了 a < -b 时的出错。 OpenVDB 的设计：如果用 SNode 来表示 • hash().pointer(5).pointer(4).dense(3) ZENO 中就大量使用了 OpenVDB ，并且以节点的形式提供给用户调用 • github.com/zenustech/zeno ZENO 中的流体仿真，就是基于 OpenVDB 的稀疏体积 • github.com/zenustech/zeno Taichi 真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); 这样一个死循环不断轮询。对于我们高性

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。现代 C++ 中的多线程： std::thread 这个类来表示线程。 • std::thread 构造函数的参数可以是任意 lambda 表达式。 • 当那个线程启动时，就会执行这个 lambda 里的内容。 • 这样就可以一边和用户交互，一边在另一个线程里慢吞吞下载文件了。错误：找不到符号 pthread_create • 但当我们直接尝试编译刚才的代码，却在链接时发生了错误。 • 原来 std::thread 的实现背后是基于

0 码力 | 79 页 | 14.11 MB | 1 年前
3
GPU Resource Management On JDOS

训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job 调度（部门（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务） – 选择存储来源：对接了内部的存储 – 填写代码地址，执行的命令等 – 可以选择是否监控训练，提供 tensorboard 任务列表可以指定 git 的 commit-id 发起任务任务详情服务，只需用户指定模型，即可提供 grpc 和 rest 服务，同时使用 GPU 复用 +HPA 提高 GPU 利用率创建 Serving 与训练集成 • 用户只需要简单选择机房和镜像填写模型名即可完成 Serving 服务创建自有模型 • 用户只需要填写模型地址即可 GPU 监控 • 容器监控服务，自适应 GPU 容器，可根据容器 IP 查询记录 , 便于用户查看服务状态

0 码力 | 11 页 | 13.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

-DNDEBUG` • 此外，注意定义了 NDEBUG 宏会使 assert 被去除掉。小技巧：设定一个变量的默认值如何让 CMAKE_BUILD_TYPE 在用户没有指定的时候为 Release ，指定的时候保持用户指定的值不变呢。就是说 CMake 默认情况下 CMAKE_BUILD_TYPE 是一个空字符串。因此这里通过 if (NOT CMAKE_BUILD_TYPE) 判断是否为空，如果空 CSDN 学到的用法）。 • 请使用 CMake 帮你封装好的 CMAKE_CXX_STANDARD （从业人员告诉你的正确用法）。 • 为什么百度不对：你 GCC 用户手动指定了 -std=c++17 ，让 MSVC 的用户怎么办？ • 此外 CMake 已经自动根据 CMAKE_CXX_STANDARD 的默认值 11 添加 -std=c++11 选项了，你再添加个 -std=c++17 假如你写的 CMakeLists.txt 包含了 3.15 版本才有的特性，如果用户在老版本上使用，就会出现各种奇怪的错误。因此最好在第一行加个 cmake_minimum_required(VERSION 3.15) 表示本 CMakeLists.txt 至少需要 CMake 版本 3.15 以上才能运行。如果用户的 CMake 版本小于 3.15 ，会出现“ CMake 版本不足”的提示。

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行，则在处理完 A 的请求之前， B 的请求就无法处理，造成“无响应”现象。 C 的请求进来，则还得继续排队…… • 每个请求开启一个线程来处理，这样处理 A 用户的同时还可以继续监听 B 用户发来的请求，及时响应，改善用户体验。 • 并行：某图形学爱好者购置了一台 4 核处理器的电脑，他正在渲染 cornell box 的图像，这个图像在单核上渲染需要 4 分钟。 • 他把图像切成的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了：

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他 malloc 过的地址，那就说明他确实犯错了，就抛出段错误（ • 当一个尚且处于“不可用”的 malloc 过的区间被访问，操作系统不是把整个区间全部分配完毕，而是只把当前写入地址所在的页面（ 4KB 大小）给分配上。也就是说用户访问 a[0] 以后只分配了 4KB 的内存。等到用户访问了 a[1024] ，也就是触及了下一个页面，他才会继续分配一个 4KB 的页面，这时才 8KB 被实际分配。比如这里我们分配了 16GB 内存，但是只访问了他的前 * m); 可以在堆上分配 n 行 m 列的二维数组。 • 通过 a[i * m + j] 访问第 i 行，第 j 列的元素。 • 由于 vector 符合 RAII 思想，能够自动释放内存，无需用户操心。常见误区：二维动态数组 = 二级指针 • float **a = malloc(n * sizeof(float *)); • for (int i = 0; i < m; i++) a[i]

0 码力 | 147 页 | 18.88 MB | 1 年前
3

共 25 条前往

页

C++高性性能高性能并行编程优化课件 02 04 谢波 2023RustChinaConf 大会 Rust 算法 Shieber 10 05 GPU JDOS 11 06 07

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

Rust与算法 - 谢波

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

GPU Resource Management On JDOS

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化