编译器 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种返回值：通过 eax 传出 movl $42, %eax 相当于： eax = 42; 前 6 个参数：分别通过 edi ， esi ， edx ， ecx ， r8d

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu static_cast(ptr) 的错误。 • 虽然作者也经常会忍不住在 zeno 中用编译器默认生成的构造函数：无参数（小心 POD 陷阱！） • 除了我们自定义的构造函数外，编译器还会自动生成一些构造函数。 • 当一个类没有定义任何构造函数，且所有成员都有无参构造函数时，编译器会自动生成一个无参构造函数 Pig() ，他会调用每个成员的无参构造函数。 • 但是请注意，这些类型不会被初始化为 plain-old-data ）。 • POD 的存在是出于兼容性和性能的考虑。 << 取决于内存的随机值编译器默认生成的构造函数：无参数（ POD 陷阱解决方案） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，会在编译器自动生成的构造函数里执行。编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight

0 码力 | 96 页 | 16.28 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

本书每章最后还加入了少量难度极小的习题，仅用于检验你是否能混合运用当前章节中的知识点。你可以在这里找到习题的答案，文件夹名称为章节序号。第 1 章迈向现代 C++ 编译环境：本书将使用 clang++ 作为唯一使用的编译器，同时总是在代码中使用 -std=c++2a 编译标志。 > clang++ -v Apple LLVM version 10.0.1 (clang-1001.0.46.4) Target: Stroustrup • C++ 历史 • C++ 特性在 GCC/Clang 等编译器中的支持情况 • C++98 与 C99 之间的区别 11 第 2 章语言可用性的强化第 2 章语言可用性的强化当我们声明、定义一个变量或者常量，对代码进行流程控制、面向对象的功能、模板编程等这些都是运行时之前，可能发生在编写代码或编译器编译代码时的行为。为此，我们通常谈及语言可用性，是指那些发生在运行时之前的语言行为。出现的目的是为了替代 NULL。在某种意义上来说，传统 C++ 会把 NULL、0 视为同一种东西，这取决于编译器如何定义 NULL，有些编译器会将 NULL 定义为 ((void*)0)，有些则会直接将其定义为 0。 C++ 不允许直接将 void * 隐式转换到其他类型。但如果编译器尝试把 NULL 定义为 ((void*)0)，那么在下面这句代码中： char *ch = NULL;

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是 Taichi 编译器的贡献者之一（ https://github.com/taichi-dev/taichi ）关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com/ 关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编译出来。 • 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则是 __attribute__((“inline”)) 。 • 注意声明为 __inline__ __device__ 。通过 #ifdef 指令针对 CPU 和 GPU 生成不同的代码 • CUDA 编译器具有多段编译的特点。 • 一段代码他会先送到 CPU 上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8 Release 更大，因为带有调试的符号信息 • 默认情况下 CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 CMAKE_CXX_STANDARD_REQUIRED 是 BOOL 类型，可以为 ON 或 OFF ，默认 OFF 。 • 他表示是否一定要支持你指定的 C++ 标准：如果为 OFF 则 CMake 检测到编译器不支持 C++17 时不报错，而是默默调低到 C++14 给你用；为 ON 则发现不支持报错，更安全。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu twice(“hello”) ，从而出错。 • 可能的解决方案： SFINAE 。模板函数：默认参数类型 • 但是如果模板类型参数 T 没有出现在函数的参数中，那么编译器就无法推断，就不得不手动指定了。 • 但是，可以通过 • template • 表示调用者没有指定时， T 默认为 int 。模板参数：整数也可以作为参数 template 传入的 N ，是一个编译期常量，每个不同的 N ，编译器都会单独生成一份代码，从而可以对他做单独的优化。 • 而 func(int N) ，则变成运行期常量，编译器无法自动优化，只能运行时根据被调用参数 N 的不同。 • 比如 show_times<0>() 编译器就可以自动优化为一个空函数。因此模板元编程对高性能编程很重要。 • 通常来说，模

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

L3: 编译器是如何优化 if-else 的 xor eax, eax ：相当于 mov eax, 0 更高效的写法 test edi, edi ：相当于 cmp edi, 0 更高效的写法 setle al ：如果上一次 cmp 的结果为小于等于，则把 al 设为 1 ，否则设为 0 add eax, 1 ：给 eax 加 1 ，也就是 eax=eax+1 的意思归纳得出编译器对 if-else 指令检测是否支持，如果在不支持 cmov 的 CPU 上使用会产生 SIGILL 错误。不过现在 64 位的 x86 CPU 都保证自带了 cmov 和 sse 拓展，所以不需要手动开启什么开关编译器就会自动生成利用 cmov 和 sse 指令的高效代码，这也是 x86-64 的优点之一。 https://www.felixcloutier.com/x86/cmovcc https://www 还有一种“摆烂”的做法： • (cond ? a : b) // 方法 3 • 三目运算符通常会变成和 if-else 一样的分支，同样会生成条件跳转指令，理应一样低效。但是有时候编译器会检测到，可以帮你自动优化成无分支版本的。 “ 妙用加减乘”进行无分支优化的通用公式 • 我比较喜欢方法 2 ，因为他可以很直观地同样适用于多个分支的情况，例如： • if (x < 0)

0 码力 | 47 页 | 8.45 MB | 1 年前
3
《深入浅出MFC》2/e

的软件开发工具，但现在已经变成一个一般性名词。凡以 Windows raw API 撰写的程序我们通常也称为SDK 程序。也有人把Windows API 称为 SDK API。Borland 公司的C++ 编译器也支持相同的SDK API（那当然，因为Windows 只有一套）。本书如果出现「SDK 程序」这样的名词，指的就是以Windows raw API 完成的程序。 MFC - Microsoft Interface）资源」两大部份，两部份最后以RC 编译器整合为一个完整的EXE 文件（图1-1）。所谓UI 资源是指功能菜单、对话框外貌、程序图标、光标形状等等东西。这些UI 资源的实际内容（二进制代码）系借助各种工具产生，并以各种扩展名存在，如.ico、.bmp、.cur 等等。程序员必须在一个所谓的资源描述档（.rc）中描述它们。RC 编译器（RC.EXE）读取RC 档的描述后将所有UI 理，以makefile 语法描述，以产生必要的编译、联结动作。makefile 必须以NMAKE.EXE（Microsoft 工具）或MAKE.EXE （Borland 工具）处理之，或其它编译器套件所附的同等工具（可能也叫做MAKE.EXE）处理之。 10 Generic.mak #0001 # filename : generic.mak #0002 # make file

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

这些整数，而 8 位整数的表示范围是 2^8 也就是 0~255 ，足以表示所有 ASCII 字符了（多余的部分实际上被用于表示中文）。 • char 和整数无异，例如 ‘ a’ 实际上会被编译器翻译成他对应的 ASCII 码： 97 。写 ‘ a’ 和写 (char)97 是完全一样的，方便阅读的语法糖而已。 “char 即整数”思想应用举例 “char 即整数”思想应用举例 C 语言帮手函数语言其实只规定了 unsigned char 是无符号 8 位整数， signed char 是有符号 8 位整数，而 char 类型只需是 8 位整数即可，可以是有符号也可以是无符号，任凭编译器决定（ C 标准委员会传统异能， khronos 直呼内行）。 • 以 GCC 为例，他规定 char 在 x86 架构是有符号的 (char = signed char) ，而在 arm 架构上则认为是无符号的 • 而 \ 比较厉害，他是编译器内部专门为他“开了个后门”。 • 编译器检测到字符串中出现 \ 就会把下一个字符特殊处理。 • 而 % ，编译器并不会特殊处理 % ，是 printf 函数内部在运行时处理了 % 的下一个字符。 • % 就像你和同学随手“拉钩”定下的约定，这是 printf 约定俗成的。 • \ 就像正式合同，有法律效力的，这是 C 语言编译器规定好的。 C++ 字符串类

0 码力 | 162 页 | 40.20 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 04 02 现代教程高速上手 11 14 17 20 01 08 03 深入深入浅出MFC 15

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

现代C++ 教程：高速上手C++11/14/17/20

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串