存储空间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

的语法糖，纯 C 的 Linux 内核中也用到多态，就是用函数指针实现的。例如左图中的虚函数，和右边的函数指针版本等价。因此性能分析时，把虚函数视为函数指针。 • 注：实际中虚函数往往有很多个，为了存储空间的高效利用，会把多个虚函数打包成一个数组，称之为“虚函数表（ vtable ）”。这样一来，类成员里只需要存一个指向虚函数表首地址的指针，之后通过查找该表即可找到连续的 n 个函数指针。此处

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

4 个字节时，实际会导致 0x0040~0x0080 的 64 字节数据整个被读取到缓存中。 • 这就是为什么我们喜欢把数据结构的起始地址和大小对齐到 64 字节，为的是不要浪费缓存行的存储空间。缓存的工作机制：写 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid, dirty; • uint64_t address;

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

刚刚的线程升级为板块，刚刚的 for 升级为线程，然后把刚刚 local_sum 这个线程局部数组升级为板块局部数组。那么如何才能实现板块局部数组呢？ • 同一个板块中的每个线程，都共享着一块存储空间，他就是共享内存。在 CUDA 的语法中，共享内存可以通过定义一个修饰了 __shared__ 的变量来创建。因此我们可以把刚刚的 local_sum 声明为 __shared__ 就可以让他从

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 3 条前往

页

C++高性性能高性能并行编程优化课件 07 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程