快照大小 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

11111111-11111111 表示 65535 • 这就是两个字节合成了一个字（ word ），实际上就是 C 语言里的 unsigned short 类型。不同位数的计算机，字（ word ）的大小也不一样 • 刚刚说把 2 个字节（ byte ）拼成一个字（ word ），实际上是 16 位计算机的做法。 • 16 位计算机得名就是因为他的字由 16 个位组成，早期的 8086 系列 CPU 个位组成。 • 如今的计算机大多是 64 位的，一些很老的网吧和学校的机房里偶尔能看见古董级的 32 位计算机， 16 位计算机则是几乎只能在博物馆里看到了。 • 字的长度决定了计算机中寄存器的大小，从而决定计算机一次能处理多大的整数。 • 例如 32 位计算机的寄存器都是 32 位，因此只能做 32 位整数的加减乘除，超过 32 位整数的加减乘除就要用特殊的指令来模拟了。整数的表示范围受位数限制字还被用于表示内存地址 • 字的长度除了决定一次处理的整数大小之外，还决定了能访问的内存地址的范围。 • 这是因为内存是一维排列的，假如内存容量是 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 16 位计算机的寄存器只能存储

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 刚刚 a 数组的大小是 1024 MB 。 • 因为不光读取了 a ，计算完还写回了 a ，实际搬运了 2048 MB 的数据。 • 花费了 0.0656 秒。 • 因此带宽是 31198 MB/s 。 • 和理论带宽 42672 MB/s 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们 x86 电脑的缓存结构分为三级。 • 一级缓存分为数据缓存和指令缓存，其中数据缓存有 32 KB ， 6 个物理核心每个都有一个，总共 192 KB 。而指令缓存的大小刚好和数据缓存一样也是 192 KB 。 • 二级缓存有 256 KB ， 6 个物理核心每个都有一个，

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

&operator[](size_t i) noexcept; • int const &operator[](size_t i) const noexcept; vector 容器：构造函数 • 除了先指定大小再一个个构造之外，还可以直接利用初始化列表（ C++11 新特性）在构造时就初始化其中元素的值。 • 例如创建具有 6, 1, 7, 4 四个元素的 vector ： • vector explicit vector(size_t n, int const &val); vector 容器： resize • 除了可以在构造函数中指定数组的大小，还可以之后再通过 resize 函数设置大小。 • 这在无法一开始就指定大小的情况下非常方便。 • vector a(4); • 等价于： • vector a; • a.resize(4); • void ，因此重新扩容到 5 是不需要重新分配内存的，也就不会移动元素导致指针失效。 vector 容器： capacity 函数查询实际的最大容量 • 可以用 capacity() 函数查询已经分配内存的大小，即最大容量。 • 而 size() 返回的其实是已经存储了数据的数组长度。 • 可以发现当 resize 指定的新长度一个超过原来的最大容量时时，就会重新分配一段更大容量的内存来存储数组，只有这时

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

• 并行：某图形学爱好者购置了一台 4 核处理器的电脑，他正在渲染 cornell box 的图像，这个图像在单核上渲染需要 4 分钟。 • 他把图像切成 4 份，每个是原来的 1/4 大小，这样每个小块渲染只需要 1 分钟。 • 然后他把 4 个小块发给 4 个处理器核心， 1 分钟后 4 个处理器都渲染完毕得到结果。 • 最后只需将 4 个小块拼接起来即可得到完整的时间复杂度（ time-efficiency ）与工作量复杂度（ work-efficiency ） • 在“小学二年级”算法课里，我们学过复杂度的概念，意思是算法执行所花费的时间取决于数据量的大小 n ，比如 O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要）秒 1 分 30 秒 0 分 45 秒 0 分 30 秒解决 1 ：线程数量超过 CPU 核心数量，让系统调度保证各个核心始终饱和 • 因此，最好不是按照图像大小均匀等分，而是按照工作量大小均匀等分。然而工作量大小我们没办法提前知道……怎么办？ • 最简单的办法：只需要让线程数量超过 CPU 核心数量，这时操作系统会自动启用时间片轮换调度，轮流执行每个线程。 • 比如这里分配了

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 4) 为什么乘以 4 ？因为访问的对象， int 的大小是 4 。指针的索引：尽量用 size_t eax = *(int *)(rdi 32 位系统上相当于 uint32_t 从而不需要用 movslq 从 32 位符号扩展到 64 位，更高效。而且也能处理数组大小超过 INT_MAX 的情况，推荐始终用 size_t 表示数组大小和索引。浮点作为参数和返回： xmm 系列寄存器 xmm0 = xmm0 + xmm1 参数分别通过 xmm0 ， xmm1 传入。返回值通过 xmm0 传出。什么是 xmm 系列寄存器？存储在栈上（利于优化）： • array, bitset, glm::vec, string_view • pair, tuple, optional, variant 存储在栈上无法动态扩充大小，这就是为什么 vector 这种数据结构要存在堆上，而固定长度的 array 可以存在栈上那么刚才那个例子改成 array 是不是就可以自动优化成功了？你可以自己试试看，想一想，为什么会是这个结果，然后在作

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

wikipedia.org/wiki/ASCII 计算机如何表达字符 • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • 于是就有了 ASCII 码表，他规定，每个英文字符（包括大小写字母、数字、特殊符号）都对应着一个整数。在计算机里只要存储这个的整数，就能代表这个字符了。 • 例如 32 代表空格， 48 代表 ‘ 0’ ， 65 代表 ‘ A’ ， 97 代表 ‘ 默认是十进制的，如果写 stoi(“7cfe”) 会得到 7 ，因为他只认识 ‘ 7’ 是数字，把 “ cfe” 看做额外字符忽略掉了（因为 c 不是十进制意义下的数字）。 • 十六进制的字母无视大小写，例如 stoi(“7CFE”, nullptr, 16) 的也会得到 31198 。 stoi 的第三参数： base stoi 的 base 参数实战案例冷知识： stof 支持科学计数法）。也可以从外部函数 catch 住这个异常（以后再讲）。 • 而 [] 则不会抛出异常，他只是简单地给字符串的首地址指针和 i 做个加法运算，得到新的指针并解引用。如果你给的 i 超过了字符串大小 i ≥ s.size() ，那程序的行为是未定义的，因为这个地方可能有其他的对象，程序可能会奔溃，也可能行为异常。如果是富连网程序，还可能会被黑客利用，窃取或篡改服务器上的数据。 • 那为什么还要

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

这样在核函数里就可以通过 threadIdx.y 获取 y 方向的线程编号，以此类推。那二维呢？ • 需要二维的话，只需要把 dim3 最后一位（ z 方向）的值设为 1 即可。这样就只有 xy 方向有大小，就相当于二维了，不会有性能损失。实际上一维的 <<>> 不过是 <<>> 的简写而已。图片解释三维的板块和线程虽然方便，但并非完全没有开销，有条件的话还是尽量用分离的设备内存和主机内存吧。第 3 章：数组分配数组 • 如 malloc 一样，可以用 cudaMalloc 配合 n * sizeof(int) ，分配一个大小为 n 的整型数组。这样就会有 n 个连续的 int 数据排列在内存中，而 arr 则是指向其起始地址。然后把 arr 指针传入 kernel ，即可在里面用 arr[i] 访问他的第内判断当前 i 是否超过了 n ，如果超过就要提前退出，防止越界。网格跨步循环：应用于线程和板块一起上的情况 • 网格跨步循环实际上本来是这样，利用扁平化的线程数量和线程编号实现动态大小。 • 同样，无论调用者指定每个板块多少线程（ blockDim ），总共多少板块（ gridDim ）。都能自动根据给定的 n 区间循环，不会越界，也不会漏掉几个元素。 • 这样一个

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！ • 这是因为 i % 2 的计算时间，完全隐藏在内存的超高延迟里了。 • 可见，当数据量足够大，计算量却不多时，读写数据量的大小唯一决定着你的性能。 • 特别是并行以后，计算量可以被并行加速，而访存却不行。使用 int8_t ：每个占据 1 字节 • 因此我们可以把数据类型变小，这样所需的内存量就变小，从而内存带宽也可以减小！ 100 （看图可知：浮点数在 0 附近精度高）定点数的好处：用 int16_t 表示 • 转成定点数的一大好处就是可以用任意大小的整数来存储。这样就节省了一半带宽，从而加速了 2 倍。能不能再小一点：用 int8_t 表示 • 发现结果不对了……说明 int8_t 太小了（可以容纳 - 128 到 127 ），容纳不下地址，那就说明他确实犯错了，就抛出段错误（ segmentation fault ）。 • 当一个尚且处于“不可用”的 malloc 过的区间被访问，操作系统不是把整个区间全部分配完毕，而是只把当前写入地址所在的页面（ 4KB 大小）给分配上。也就是说用户访问 a[0] 以后只分配了 4KB 的内存。等到用户访问了 a[1024] ，也就是触及了下一个页面，他才会继续分配一个 4KB 的页面，这时才 8KB 被实际分配。比如这里我们分配了

0 码力 | 102 页 | 9.50 MB | 1 年前
3
谈谈MYSQL那点事

倍一倍增加，本选项比较重要 sort_buffer_size 512K 128M 每个线程的排序缓存大小，一般按照内存可以设置为 2M 以上，推荐是 16M ，该选项对排序 order by ， group by 起作用 record_buffer 128K 64M 每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区，可以设置为 2M 以上 table_cache 64 1024 为所有线程打开表的数量。增加该值能增加 MyISAM 表全表扫描的缓冲大小 . 为从数据表顺序读取数据的读操作保留的缓存区的长度 myisam_sort_buffer_size 16M 128M 设置 , 恢复 , 修改表的时候使用的缓冲大小，值不要设的太大服务优化服务优化 InnoDB InnoDB 选项选项选项缺省值推荐值说明 innodb_buffer_pool_size 32M 10G InnoDB 使用一个缓冲池来保存索引和原始数据 8M 512M 在日志组中每个日志文件的大小 , 一般是 innodb_buffer_pool_size 的 25% ，官方推荐是 innodb_buffer_pool_size 的 40-50%, 设置大一点来避免在日志文件覆写上不必要的缓冲池刷新行为 innodb_log_buffer_size 128K 64M 用来缓冲日志数据的缓冲区的大小 . 推荐是 8M ，官方推荐该值小于 16M

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

tmp.first; • V &v = tmp.second; • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。 • for (auto [k, v]: m) & ( 深拷贝，浪费时间 ) v （假如非常大的话） • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。 • for (auto &[k, v]: m) 次就够了。 • 最坏的情况需要判断多少次？最坏不会超过树的深度，而一棵有着 n 个元素的平衡二叉树，深度只有 ceil(log(n+1)) 层。也就是说我们最多只需要 ceil(log(n+1)) 次大小判断，就能找到任意一个数！因为算法复杂度可以忽略 +1 -1 这些小东西，所以 set 查找的最坏复杂度是 O(logn) ！ 2 1 4 5 8 7 4 要找的数 ceil(log(6+1))

0 码力 | 90 页 | 8.76 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 12 07 13 06 04 15 08 10 MySQL 17

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器