类型提供器 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、 b) % b 做循环边界，从而避免负方向上出错。然而这还是避免不了 a < -b 时的出错。 • 正确的写法是： (a % b + b) % b • 如果 b 是常数且为 2 的幂次方，编译器会检测到，并替换为更高效的位运算，反而减少了计算量。 • 此外如果 b 一定是 2 的幂次方，那么 (unsigned)a % b 也可以（先转换成无符号的取模）。高效的解决：位运算 & >> 3 。 >> 2 = 位运算 >> 对负数的处理 signed 类型的 >> n 会把最高位复制 n 次。因为补码的特性，这导致负数 >> 的结果仍是负数。这样就实现了和 Python 一样的始终向下取整除法。 >> 2 = unsigned 类型的位运算 >> 不一样而 unsigned 类型的 >> n 会不会复制最高位，只是单纯的位移，这会导致负数的符号位单独被位

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： • rax, rcx

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编译出来。 • 这是 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则是 __attribute__((“inline”)) 。 • 注意声明为 __inline__ 不一定就保证内联了，如果函数太大编译器可能会放弃内联化。因此 CUDA 还提供 __forceinline__ #ifdef 指令针对 CPU 和 GPU 生成不同的代码 • CUDA 编译器具有多段编译的特点。 • 一段代码他会先送到 CPU 上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

cmake < 源码目录 > 生成 Makefile • 执行本地的构建系统 make 真正开始构建（ 4 进程并行） • 让本地的构建系统执行安装步骤 • 回到源码目录现代 CMake 提供了更方便的 -B 和 --build 指令，不同平台，统一命令！ • cmake -B build • cmake --build build -j4 • sudo cmake --build build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8 CMAKE_BUILD_TYPE 和 CMAKE_INSTALL_PREFIX ） -G 选项：指定要用的生成器 • 众所周知， CMake 是一个跨平台的构建系统，可以从 CMakeLists.txt 生成不同类型的构建系统（比如 Linux 的 make ， Windows 的 MSBuild ），从而让构建规则可以只写一份，跨平台使用。 • 过去的软件（例如 TBB ）要跨平台，只好 Makefile

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

set 容器 by 小彭老师（ @archibate ）课件 & 代码： https://github.com/parallel101/course 上期回顾： https://www.bilibili.com/video/BV1qF411T7sd 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2. 你所不知道的 set 容器 & 迭代器分类 ( 容器全家桶及其妙用举例 5. 函子 functor 与 lambda 表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 set 和 vector 的区别 • 都是能存储一连串数据的容器。 • 区别 1 ： set 会自动给其中的元素从小到大排序，而中的元素可以高效地按值查找，而 vector 则低效。 set 的排序： string 会按“字典序”来排 • set 会从小到大排序，对 int 来说就是数值的大小比较。那么对字符串类型 string 要怎么排序呢？ • 其实 string 类定义了运算符重载 < ，他会按字典序比较两个字符串。所谓字典序就是优先比较两者第一个字符（按 ASCII 码比较），如果相等则继续比较

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

• 11111100 表示 252 11111101 表示 253 11111110 表示 254 11111111 表示 255 • 字节实际上就是 C 语言中的 unsigned char 类型。表示更大范围的整数：字（ word ） • 但是单单一个字节表示的范围还是太有限了，只能表示 0 到 255 的值。 • 如何扩大表示范围？简单，用两个字节合在一起即可，例如： • 00000000-00000000 11111111-11111110 表示 65534 11111111-11111111 表示 65535 • 这就是两个字节合成了一个字（ word ），实际上就是 C 语言里的 unsigned short 类型。不同位数的计算机，字（ word ）的大小也不一样 • 刚刚说把 2 个字节（ byte ）拼成一个字（ word ），实际上是 16 位计算机的做法。 • 16 位计算机得名就是因为他的字由 64 位的，一些很老的网吧和学校的机房里偶尔能看见古董级的 32 位计算机， 16 位计算机则是几乎只能在博物馆里看到了。 • 字的长度决定了计算机中寄存器的大小，从而决定计算机一次能处理多大的整数。 • 例如 32 位计算机的寄存器都是 32 位，因此只能做 32 位整数的加减乘除，超过 32 位整数的加减乘除就要用特殊的指令来模拟了。整数的表示范围受位数限制 • 8 位长的整数能表示的范围是

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 我知道可以用 accumulate 啦！但是为了引出 lambda 表达式…… 近现代： C++11 引入了 lambda 表达式现代： C++14 的 lambda 允许用 auto 自动推断类型当代： C++17 CTAD / compile-time argument deduction / 编译期参数推断当代： C++17 引入常用数值算法未来： C++20 引入区间（ ranges 其实谷歌在其 Code Style 中也明确提出别再通过 () 调用构造函数，需要类型转换时应该用： 1. static_cast(3.14f) 而不是 int(3.14f) 2. reinterpret_cast(0xb8000) 而不是 (void *)0xb8000 • 更加明确用的哪一种类型转换（ cast ），从而避免一些像是 static_cast(ptr)

0 码力 | 96 页 | 16.28 MB | 1 年前
3
谈谈MYSQL那点事

如果既不是很强的一致性又不是很弱的一致性，那么我们就采取中间的策略，就是在同机房再部署一个 S1(R) ，作为备库，提供读取服务，减少 M1(WR) 的压力，而另外一个 idc 机房的 M2 只做 standby 容灾方式的用途。当然这里会用到 3 台数据库服务器，也许会增加采购压力，但是我们可以提供更好的对外数据服务的能力和途径，实际中尽可能两者兼顾。 MySQL 架构设计—高可用架构数据分布 网络网络 操作系统操作系统 硬件硬件  使用好的硬件，更快的硬盘、大内存、多核使用好的硬件，更快的硬盘、大内存、多核 CPU CPU ，专业的，专业的存储服务器（存储服务器（ NAS NAS 、、 SAN SAN ））  设计合理架构，如果设计合理架构，如果 MySQL MySQL 访问频繁，考虑访问频繁，考虑 Master/Slave Master/Slave 布式），也考虑使用相应缓存服务帮助布式），也考虑使用相应缓存服务帮助 MySQL MySQL 缓解访问缓解访问压力压力系统优化系统优化  配置合理的配置合理的 MySQL MySQL 服务器，尽量在应用本身达到一服务器，尽量在应用本身达到一个个 MySQL MySQL 最合理的使用最合理的使用  针对针对 MyISAM MyISAM 或或 InnoDB InnoDB 不同引擎进行不同定制

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是 Taichi 编译器的贡献者之一（ https://github.com/taichi-dev/taichi ）关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com/t 关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out 这个文件中，（称为可执行文件）。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。。神话与现实： 2 * 3GHz < 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了 6GHz 的处理能力，是吗？ • 显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 33 条前往

页

C++高性性能高性能并行编程优化课件 10 04 08 11 14 12 02 MySQL 01 06

分类

语言

格式