性能优化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Go性能优化概览-曹春晖

业务性能优化概览 By Xargin 《Go 语⾔⾼级编程》合著者 Go contributor ⽬录优化的前置知识 01 ⽣产环境的优化 02 Continuous profiling 03 优化的前置知识第⼀部分 Latency numbers every programmer should know https://colin-scott.github.io/p io/personal_website/research/interactive_latency.html 优化的前置知识 • 要能读得懂基本的调⽤栈 • 了解 Go 语⾔内部原理(runtime，常⽤标准库) • 了解常⻅的⽹络协议(http、pb) https://github.com/bagder/http2-explained https://github.com/bagder/http3-explained ⽤户声明的对象，被放在栈上还是堆上，是由编译器的 escape analysis 来决定的⽅法论内存使⽤优化 CPU 使⽤优化阻塞优化 GC 优化标准库优化 runtime 优化应⽤层优化底层优化 • 越靠近应⽤层，优化带来的效果越好 • 涉及到底层优化的，⼤多数情况下还是修改应⽤代码逻辑优化⽣产环境的优化第⼆部分⾸先，是发现问题 API 压测全链路压测⽣产环境被⾼峰流量打爆了

0 码力 | 40 页 | 8.69 MB | 1 年前
3
4 Python机器学习性能优化

Python机器学习性能优化以BERT服务为例例，从1到1000 刘欣⽬目录 CONTENTS 1. 优化的哲学 2. 了解你的资源 3. 定位性能瓶颈 4. 动⼿优化 1. 优化的哲学 "There ain't no such thing as a free lunch" Ahmdal’s Law • 系统整体的优化，取决于热点部分的占⽐比和该部分的加速程度 No Free Free Lunch • 定位热点 & 热点加速 • 对于项⽬目开发周期：  1. 先做出效果  2. 确定整体pipeline  3. 再考虑优化 • 对于⼈人⼯工智能项⽬目：迭代周期更更⻓长，更更是如此以BERT服务为例 • BERT：  TODO：⼀一句句话解释  • 横扫多项NLP任务的SOTA榜 • 惊⼈人的3亿参数以BERT服务为例 • Self Attention机制 's=Happy birthday to [MASK].'     [“you"] 以BERT服务为例 • 我们现在上线了了这样⼀一个服务，每秒钟只能处理理10个请求 • Q: ⼤大家⼀一开始如何着⼿手优化 • Profile before Optimizing • 建⽴立闭环 2 了解你的资源 cpu/内存/io/gpu GPU为什么“快”？计算⼒对⽐ • GFLOPS/s   

0 码力 | 38 页 | 2.25 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

性能优化之无分支编程 Branchless Programming by 彭于斌（ @archibate ）两种代码写法：分支 vs 三目运算符两种使用方式：排序 vs 不排序测试结果（均为 gcc -O3 ）测试结果可视化图表比较：分支 vs 无分支分支无分支 0 0.01 0.02 0.03 耗时（越低越好）乱序有序 • 传统的分支方法实现的 uppercase ，对于排序过的数据明显比乱序时高效。 • 无分支的方法对于乱序和有序的数据一样高效，性能吊打了传统的分支方法。 • 对于传统分支的做法，为什么排序了的更高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水节省时间。 • 例如洗脸需要眼睛嘴巴手，刷牙需要嘴巴手，那么洗脸和刷牙不能同时进行。但是烧开水只需要占用煤气灶，和洗脸刷牙不冲突，所以可以一边烧开水一边洗脸刷牙。 • 所以让小彭老师来优化的话，可以只需要 5 + 5 + 10 + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手

0 码力 | 47 页 | 8.45 MB | 1 年前
3
IPC性能极致优化方案-RPAL落地实践

IPC性能极致优化方案-RPAL落地实践谢正尧字节跳动研发工程师目录方案诞生的背景 01 全进程地址空间共享与保护 02 用户态进程切换 03 高效的Go Event Poller 04 RPC框架Kitex集成 05 性能收益与业务展望 06 方案诞生的背景第一部分方案诞生的背景几种常见的同机通信场景： 1. 微服务合并部署（亲和性部署、sidecar 常见的本地通信方案：回环 IP、UDS、共享内存IPC 方案诞生的背景以性能较优的 IPC 方案 share memory ipc 为例分析性能瓶颈：注：方案 github 地址：https://github.com/cloudwego/shmipc-go 方案诞生的背景方案诞生的背景 IPC 的性能瓶颈有哪些: 1. 系统特权级切换； 2. 异步线程唤醒/休眠（事件通知）；异步线程唤醒/休眠（事件通知）； 3. 数据拷贝（序列化/反序列化）；方案诞生的背景能不能把库函数调用的高性能优势做到 IPC 里面，降低进程间的事件通知和数据拷贝开销？以go-go微服务 RPC 通信场景为例，该问题可以抽象为，如何高效地在两个 go runtime 间进行函数调用？方案诞生的背景基于以上问题，我们最终引入了 RPAL（Run Process As Library）方案，基于跨进程虚拟地址

0 码力 | 39 页 | 2.98 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

深入浅出访存优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍？第 1 章：内存带宽 cpu-bound 与 memory-bound • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销无法合并写入，会产生有中间数据读的带宽。写入 1 比写入 0 更慢？ • 很简单，因为写入 0 被编译器自动优化成了 memset ，而 memset 内部利用了 stream 指令得以更快写入。写入 1 比写入 0 更慢？解决 • 解决办法就是，我们也用 stream 指令，这样就可以和标准库优化过的 memset 一样快了。 Intel Intrinsics Guide • _mm

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建：入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

• 等价于： • const K &k = tmp.first; • V &v = tmp.second; • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。 map 中的堆空间执行你这段代码的栈空间 & ( 深拷贝，浪费时间 ) v （假如非常大的话） • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。的遍历：不修改也建议加引用 k v （假如非常大的话）执行你这段代码的栈空间 & & ( 建立引用 ) map 中的堆空间 • 何况 structural-binding 捕获的引用比刚刚图示的还要优化。他只会保存一个指向 pair 类型的指针，然后在你使用 k 和 v 时再去按偏移量访问里面的 first 和 second ，所以 k ， v 两个变量的 structural-binding

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

/opt/openvdb-8.0/lib/libopenvdb.so ） • cmake -B build -DCMAKE_BUILD_TYPE=Release • ↑ 设置构建模式为发布模式（开启全部优化） • cmake -B build ← 第二次配置时没有 -D 参数，但是之前的 -D 设置的变量都会被保留 • （此时缓存里仍有你之前定义的 CMAKE_BUILD_TYPE 和 CMAKE_INSTALL_PREFIX 生成器； MacOS 系统默认是 Xcode 生成器。 • 可以用 -G 参数改用别的生成器，例如 cmake -GNinja 会生成 Ninja 这个构建系统的构建规则。 Ninja 是一个高性能，跨平台的构建系统， Linux 、 Windows 、 MacOS 上都可以用。 • Ninja 可以从包管理器里安装，没有包管理器的 Windows 可以用 Python 的包管理器安装： • 事实上， MSBuild 是单核心的构建系统， Makefile 虽然多核心但因历史兼容原因效率一般。 • 而 Ninja 则是专为性能优化的构建系统，他和 CMake 结合都是行业标准了。 Ninja 和 Makefile 简单的对比性能上： Ninja > Makefile > MSBuild Makefile 启动时会把每个文件都检测一遍，浪费很多时间。特别是有很多文件，但是实

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

可以调用 device ； device 可以调用 device 。声明为内联函数 • 注意， inline 在现代 C++ 中的效果是声明一个函数为 weak 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU __forceinline__ 这个关键字来强制一个函数为内联。 GCC 也有相应的 __attribute__((“always_inline”)) 。 • 此外，还有 __noinline__ 来禁止内联优化。定义在 CPU 上的主机函数 • __device__ 将函数定义在 GPU 上，而 __host__ 则相反，将函数定义在 CPU 上。定义在 CPU 上的主机函数 • CUDA 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的版本 ≤ 运行时显卡的版本。 CMAKE_CUDA_ARCHITECTURES 会自动转换成 --gpu-code 等编译 flag 版本号不要太新了

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

彭于斌（ @archibate ）高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 bombela/backward-cpp - 实现了 C++ 的堆栈回溯便于调试 7. google/googletest - 谷歌单元测试框架 8. google/benchmark - 谷歌性能评估框架 9. glfw/glfw - OpenGL 窗口和上下文管理 10.libigl/libigl - 各种图形学算法大合集 fmt - 使用这个神奇的格式化库 • fmt::format

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 474 条前往

页

Go 性能优化概览春晖 Python 机器学习 C++高性高性能并行编程课件 IPC 极致方案 RPAL 落地实践 07 04 17 11 08 01

分类

语言

格式