微信小程序 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

CMake 。 • 现代 CMake 和古代 CMake 相比，使用更方便，功能更强大。为什么要学习现代 CMake ？现代 CMake ：古代 CMake ：第 0 章：命令行小技巧传统的 CMake 软件构建 / 安装方式 • mkdir build • cd build • cmake .. • make -j4 • sudo make install • Debug 调试模式，完全不优化，生成调试信息，方便调试程序 • Release 发布模式，优化程度最高，性能最佳，但是编译比 Debug 慢 • MinSizeRel 最小体积发布，生成的文件比 Release 更小，不完全优化，减少二进制体积 • RelWithDebInfo 带调试信息发布，生成的文件比 Release 更大，因为带有调试的符号信息 • 默认情况下 CMAKE_BUILD_TYPE CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 -g` 2. Release: `-O3 -DNDEBUG` 3. MinSizeRel:

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s •

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

scanf(“%10s”, str); • int size = 1000; • int *arr = (int *)malloc(size); • 如果你没看出来（哪怕是其中一个），那就要好好上小彭老师的课哦！字节（ byte ）和位（ bit ）有什么区别 • 众所周知，计算机是二进制的，存储的实际上是一个个 0 和 1 。 • 每个存储 0 或 1 的空间称为一个位（ bit ），一位可以存储 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 16 位计算机的寄存器只能存储 16 位，他只能访问 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 32 位， 64 位系统上就 64 位。 Windows 认为 long 不论 32 位系统还是 64 位系统都一样应该为 32 位，认为这样安全。因此我们在编写 C 语言程序时，应该避免使用 long 类型，他会导致你的程序难以跨平台。除了 long 之外的其他类型则没有区别，可以放心使用。无符号整数： unsigned 修饰有符号版本无符号版本 char unsigned char

0 码力 | 128 页 | 2.95 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

i g 解决方案面向开源，可用性极高，通用性场景适配性强，重复利用度高。市面上的其他产品基本没办法解决微服务联调的问题 … 大家一般进入统一的环境里自测，但通常只会测试能想到的点， K o d e R o v e r 用自动化典型客户：路特斯、七牛、非码、连尚、锅圈、埋堆堆、九州通研发效能提升（开发、测试、发布工程）优化加速产研流程，工程师团队级规模化协作，消除工具孤岛，系统性的提升人效典型客户：字节飞书、云器、驭势、小鹏、易快报、 MioTech 、星云有客、药师帮大规模微服务环境治理支持多分支、多业务间协作，消除环境不稳定和不够用的阻力，高效率自动化验证质量典型客户： TT 语音、飞书、钛动、闪电出杂多变。因为工程化的需求不一致，所以很难给研发提供一个统一的协作平台，面对这样的挑战，以小鹏、理想汽车为例。小鹏同时采用 Zadig 的主机项目和 K8s Helm Chart 项目两种场景做业务接入，把交付端实现统一管理起来，来满足研发所有业务的日常迭代需求。理想使用

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++ 系列课：字符与字符串 by 小彭老师（ @archibate ）课件 & 代码： https://github.com/parallel101/course 上期回顾： https://www.bilibili.com/video/BV1m34y157wb 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2. 你所不知道的 Ctrl+C 来发送中断信号（ SIGINT ）强制终止程序，这时常常会看到一个 ^C 的字样，就是这样出现的。这里我们的 cat 程序收到 ^C 以后，就直接终止退出了。关于控制字符的一个冷知识 • 除此之外，因为 ^D 是“传输终止符”，还可以在控制台输入 Ctrl+D 来关闭标准输入流，终止正在读取他的程序。 • 小彭老师常用 Ctrl+D 来快速关闭一个 shell （和输入太危险了不想用他。 • 可以只用 using namespace std::literials; • 这个特殊的名字空间里包含了所有的 operator“” 函数。小彭老师锐评：何谓“键盘压力” • 高情商：键盘压力，指的是程序员敲击键盘时产生的心理压力。 • 低情商：键盘压力，指的是 rust 键盘侠对 cpp 标准委员会的压力。 • rust 键盘侠曰：我们有 233_i32 ， cpp

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

rcx, rdx, rbx, rsi, rdi, rsp, rbp, r8, r9, r10, r11, ..., r15 • 其中 r8 到 r15 是 64 位 x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 size_t 在 64 位系统上相当于 uint64_t size_t 在 32 位系统上相当于 uint32_t 从而不需要用 movslq 从 32 位符号扩展到 64 位，更高效。而且也能处理数组大小超过 INT_MAX 的情况，推荐始终用 size_t 表示数组大小和索引。浮点作为参数和返回： xmm 系列寄存器 xmm0 = xmm0 + xmm1 参数分别通过 xmm0 ， xmm1 他可以大大增加计算密集型程序的吞吐量。 • 因为 SIMD 把 4 个 float 打包到一个 xmm 寄存器里同时运算，很像数学中矢量的逐元素加法。因此 SIMD 又被称为矢量，而原始的一次只能处理 1 个 float 的方式，则称为标量。 • 在一定条件下，编译器能够把一个处理标量 float 的代码，转换成一个利用 SIMD 指令的，处理矢量 float 的代码，从而增强你程序的吞吐能力！

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过 11 废除，因此本课程要求同学有 GTX900 及以上显卡。如果需要在老显卡上运行的话，可以看下面那个链接，查一下你的显卡对应的版本号是多少，然后在 CMake 里设置个一样的，应该就能用了。小彭老师每日锐评 • 顺便， Pascal 、 Turing 、 Ampere 什么的高大上架构名，那个是老黄拿来营销用的。 • 我们不考虑韭菜情怀的话不用管，我们只需要指定架构的版本号是多少就行啦。获取线程数量 • 还可以用 blockDim.x 获取当前线程数量，也就是我们在尖括号里指定的 3 。 • 可是为什么叫 blockDim ？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这就是为什么刚刚获取线程数量的变量用的是

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

eatTwice ，就可以对猫和狗都适用，实现代码的复用（ dont-repeat-yourself ），也让函数的作者不必去关注点从猫和狗的其他具体细节，只需把握住他们统一具有的“吃”这个接口。小知识： shared_ptr 如何深拷贝？浅拷贝：深拷贝：思考：能不能把拷贝构造函数也作为虚函数？ • 现在我们的需求有变，不是去对同一个对象调用两次 eatTwice ，而是先把对象复制一份把对象就地拷贝到另一个地址的对象去。 • 同理还有 move_assign 对应于移动赋值， move_clone 对应于移动构造，全了！ • 就这样把 C++ 的四大特殊函数变成了多态的虚函数，这就是被小彭老师称为自动虚克隆 (auto-vitrual-clone) 的大法。 Zeno 中对 OpenVDB 对象的封装 • 开源的体积数据处理库 OpenVDB 中有许多“网格”的类（可以理解为多维数组），例如：每个类具体继承关系的情况下，实现我们想要的继承关系，从而实现封装和代码重用？简单，只需用一种被小彭老师称为类型擦除 (type-erasure) 的大法。类型擦除：还是以猫和狗为例 • 例如右边的猫和狗类，假设这两个类是某个第三方库里写死的，这个第三方库的作者可能没上过《面向对象程序设计》，居然没有定义一个公用的 Animal 基类并设一个 speak 为虚函数。现在你抱怨也没有用，因为这个库是按

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

结论：狭义的摩尔定律没有失效。但晶体管数量的增加，不再用于继续提升单核频率，转而用于增加核心数量。单核性能不再指数增长！你醒啦？免费午餐结束了！指望靠单核性能的增长带来程序性能提升的时代一去不复返了，现在要我们动动手为多核优化一下老的程序，才能搭上摩尔定律的顺风车。神话与现实： 2 * 3GHz < 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了 6GHz 的处理能力，是吗？意思是算法执行所花费的时间取决于数据量的大小 n ，比如 O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要） • 这两个指标都是越低越好。时间复杂度决定了快慢，工作复杂度决定了耗电量。 • 通常来说，工作复杂度 = 时间复杂度 * 核心数量 • 1 个核心工作一小时， CMake 中使用： find_package CMake 中使用：作为子模块这个什么“勾勾”公司非要默认开启 tests ，导致需要去寻找 googletest ，妨碍了我们作为子模块使用。小彭老师单方面宣布：一切默认开启 tests ， docs 构建目标的 cmake 项目，有病啊！你妨碍别人作为子模块用你的项目。没错说的就是你 OpenSim ，张心欣当时浪费好多时间伺候这个沙雕库。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

it->second; 读取 map 元素 • map m; • val = m.at(“key”); • 读取键值为 “ key” 的元素，如果不存在，那就抛出异常，导致程序异常退出。等价于： • it = m.find(“key”); • if (it == m.end()) { • throw std::out_of_range(“ 找不到键值” ); • it->second = val; 写入 map 元素 • map m; • m.at(“key”) = val; • 写入键值为 “ key” 的元素，如果不存在，那就抛出异常，导致程序异常退出。等价于： • it = m.find(“key”); • if (it == m.end()) { • throw std::out_of_range(“ 找不到键值” ); • 函数在读取的时候抛出异常，写入的时候又默默创建。 • 例如：一个同学问小彭老师在干嘛？ • 小彭老师说“我在吃答辩。”那么同学认为这个答辩指的是三体动画，小彭老师在看三体动画。而不会认为小彭老师真的在吃答辩。 • 小彭老师说“我在拉答辩。”那么同学认为这个答辩指的是答辩（物理），小彭老师在上厕所。而不会认为小彭老师在制作三体动画。 • 所以这位同学是人类思维，相当于 Python

0 码力 | 90 页 | 8.76 MB | 1 年前
3

共 29 条前往

页

C++高性性能高性能并行编程优化课件 11 07 12 Zadig 面向开发开发者原生 DevOps 平台 15 04 08 06 17

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器