编译器错误消息 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种返回值：通过 eax 传出 movl $42, %eax 相当于： eax = 42; 前 6 个参数：分别通过 edi ， esi ， edx ， ecx ， r8d

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 表达式。 • 当那个线程启动时，就会执行这个 lambda 里的内容。 • 这样就可以一边和用户交互，一边在另一个线程里慢吞吞下载文件了。错误：找不到符号 pthread_create • 但当我们直接尝试编译刚才的代码，却在链接时发生了错误。 • 原来 std::thread 的实现背后是基于 pthread 的。 • 解决： CMakeLists.txt 里链接 Threads::Threads 果不需要，在 wait() 返回后调用 lck.unlock() 即可。 • 顺便一提， wait() 的过程中会暂时 unlock() 这个锁。案例：实现生产者 - 消费者模式 • 类似于消息队列…… • 生产者：厨师，往 foods 队列里推送食品，推送后会通知消费者来用餐。 • 消费者：等待 foods 队列里有食品，没有食品则陷入等待，直到被通知。条件变量：将 foods

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 资源获取视为初始化，反之，资源释放视为销毁 C++ 除了用于初始化的构造函数（ constructor ）还包括了用于销毁的解构函数（ destructor ）离开 {} 作用域自动释放手动释放 RAII ：避免犯错误与 Java ， Python 等垃圾回收语言不同， C++ 的解构函数是显式的，离开作用域自动销毁，毫不含糊（有好处也有坏处，对高性能计算而言利大于弊）如果没有解构函数，则每个带有返回的分 cast ），从而避免一些像是 static_cast(ptr) 的错误。 • 虽然作者也经常会忍不住在 zeno 中用编译器默认生成的构造函数：无参数（小心 POD 陷阱！） • 除了我们自定义的构造函数外，编译器还会自动生成一些构造函数。 • 当一个类没有定义任何构造函数，且所有成员都有无参构造函数时，编译器会自动生成一个无参构造函数 Pig() ，他会调用每个成员的无参构造函数。

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编译出来。 • 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则是 __attribute__((“inline”)) 。 • 注意声明为 __inline__ __device__ 。通过 #ifdef 指令针对 CPU 和 GPU 生成不同的代码 • CUDA 编译器具有多段编译的特点。 • 一段代码他会先送到 CPU 上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8 Release 更大，因为带有调试的符号信息 • 默认情况下 CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 CMAKE_CXX_STANDARD_REQUIRED 是 BOOL 类型，可以为 ON 或 OFF ，默认 OFF 。 • 他表示是否一定要支持你指定的 C++ 标准：如果为 OFF 则 CMake 检测到编译器不支持 C++17 时不报错，而是默默调低到 C++14 给你用；为 ON 则发现不支持报错，更安全。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu twice(“hello”) ，从而出错。 • 可能的解决方案： SFINAE 。模板函数：默认参数类型 • 但是如果模板类型参数 T 没有出现在函数的参数中，那么编译器就无法推断，就不得不手动指定了。 • 但是，可以通过 • template • 表示调用者没有指定时， T 默认为 int 。模板参数：整数也可以作为参数不过模板参数只支持整数类型（包括 enum ）。 • 浮点类型、指针类型，不能声明为模板参数。自定义类型也不可以，比如： • template // 错误！模板参数：多个模板参数 • int N 和 class T 可以一起使用。 • 你只需要指定其中一部分参数即可，会自动根据参数类型（ T msg ）、默认值（ int N = 1 ），推断尖括号里没有指定的那些参

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

由浅入深学习 map 容器 by 彭于斌（ @archibate ）我负责监督你鞋习 ! 我负责监督你鞋习 ! 本期看点：用方括号 [ ] 取出 map 元素居然是错误的！能不能在遍历的同时删除元素？安全吗？ emplace ， emplace_hint ， try_emplace 的区别？课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2 读取元素，找不到键值会出错，调试时更早发现错误。 • C++ 中 val = m[“key”] 读取元素，找不到键值不会出错而是默默创建，还初始化为 0 。 • C++ 中 val = m.at(“key”) 读取元素，找不到键值会出错，调试时更早发现错误。 • 所以 C++ 中读取元素，应该用 at() 才对， at() 在读取时和多数语言的 [] 行为一致。 • 很多初学者都会错误使用 [] 读取元素，他读取元素，他以为找不到键值会报错，结果他不报错，默默创建了个 0 返回给你，导致实际报错的地方滞后，没发现错误在 map 的读取这里，严重影响他的调试效率（ javascript 的 undefined 直呼内行）。写入 map 元素 • map m; • 写入 map 中指定键值的元素有两种方法。 • m[“key”] = val; //

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

_mm_stream_ps 写入的地址必须对齐到 16 字节，否则会产生段错误等异常。 stream 的限制：最好是连续的写入 • 需要注意， stream 系列指令写入的地址，必须是连续的，中间不能有跨步，否则无法合并写入，会产生有中间数据读的带宽。写入 1 比写入 0 更慢？ • 很简单，因为写入 0 被编译器自动优化成了 memset ，而 memset 内部利用了 stream malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他 malloc 过的地址，那就说明他确实犯错了，就抛出段错误（ segmentation fault ）。 • std::vector 、 new int[n]{} 会初始化数组为 0 。 • malloc(n * sizeof(int)) 、行，第 j 列的元素。等一下……内存是一维的，为什么可以分配二维的数组？ • 众所周知，内存是一维的，因此任何二维数组，都必须被扁平化，才能储存在内存中。 • 对于 float a[3][4] 编译器实际上会把他变成一维数组 float a[3*4] ，然后把 a[i][j] 翻译为 a[i * 4 + j] 。 C++ 静态数组 • array a; 可以在栈上分配有

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 请问下面这三段代码有什么错误？ • float x = -3.14; • printf(“%f\n”, abs(x)); • char str[10]; • scanf(“%10s”, str); • int size • 如果用来获取 float 类型的绝对值呢？ • 编译通过了，但是结果却不对！ • 你会发现 x 无论如何变化，都是 0.0 。 • 这其实是两个 bug 共同作用的结果。 printf 的错误：不会编译时检测参数类型是否正确 • 第一个 bug 是， printf 其实不知道他的参数是什么类型，他只看到你字符串里写的 “ %f” ，会误以为输入的是 float 参数。 • 如果你输入的是 int 类型的函数： • int abs(int x); • 因此在输入给他一个浮点类型的 x 时，相当于 • x = (float)abs((int)x) • 所以被 x 被隐式转换（不会产生错误）成了 int 之后才调用 abs ，相当于调用了 x = abs(- 3) 。 fabs 函数：取出浮点的绝对值 • abs 是整数的绝对值函数，而这里我们其实是需要浮点的绝对值函数，他叫做

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是 Taichi 编译器的贡献者之一（ https://github.com/taichi-dev/taichi ）关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com/ 关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 04 05 02 08 11 03 17 07 12 01

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起