兼容性提升 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Zadig 面向开发者的云原生 DevOps 平台

功能实现开源支撑开源社区开发者环境易用性增强接入：安装 10 分钟以内，成功率达 90% 集成环境：支持开发者 Remote debug 工作流：效率和性能、开发者体验提升贡献者流程建立开放社区搭建 2021 年 5 月 2021 年 7 月 2021 年 9 月 2021 年 11 月 2021 年 12 月 1 个月功能改造 90% 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig 行业方案对比分析职能传统 DevOps 方案 ZadigX 云原生 DevOps 方案降本提效组织能力提升业务负责人研发不透明，规划凭感觉： • 发版时间靠运气 • 团队熬夜冲进度研发透明化：不同项目清晰可见的效率、质量、进度进度管理：根据团队客观数据，预测和确定项目规划迭代进度一目了然赋能多业务：一个平台解决了多异构项目的管理和规范团队高效协作：定义团队角色工作流模板，随时可用云上环境价值清晰呈现：为管理者提供全视角效能数据，赋能数字决策人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保障，建设平台工程体系研发研发时间被大量占用： • 本地开发环境难模拟 • 多业务联调艰难，诊断耗时多

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

的统一内存 (managed) 上分配。 • 实际上这种“骗”来魔改类内部行为的操作，正是现代 C++ 的 concept 思想所在。因此替换 allocator 实际上是标准库允许的，因为他提升了标准库的泛用性。进一步：避免初始化为 0 • vector 在初始化的时候（或是之后 resize 的时候）会调用所有元素的无参构造函数，对 int 类型来说就是零初始化。然而这个初始化会是在因为其中某个线程有可能因为在等待内存数据的抵达，这时大可以切换到另一个线程继续执行计算任务，等这个线程陷入内存等待时，原来那个线程说不定就好了呢？（记得上节课说过内存延迟是阻碍 CPU 性能提升的一大瓶颈， GPU 也是如此。 CPU 解决方案是超线程技术，一个物理核提供两个逻辑核，当一个逻辑核陷入内存等待时切换到另一个逻辑核上执行，避免空转。 GPU 的解决方法就是单个 SM x ， y 坐标不行吗？看右边这个例子。 • 回顾一下：我们第七课讲过， CPU 上的并行 for ，通常会做循环分块提升缓存局域性。但是如果我们是传统的两层的 for 循环就低效了，对于矩阵转置这种需要 y 方向非连续访问而言，循环分块会带来很大提升。 • 所以该怎么做才能让 GPU 也循环分块呢？第七课（访存优化）的录播可以看这里： BV1gu41117bW 经典案例：矩阵转置

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

的前一个字节被填满了 0 ，根据补码的规则他是一个正数 128 。实验：自动类型提升（ type promotion ） • 一个较小类型的 short 和较大类型的 int 相加会得到什么类型？会得到 int 类型。 • 结论：小类型和大类型做数学运算（ +-*/% ）会得到两个类型中的大类型。实验：自动类型提升（ type promotion ） • 对 unsigned 类型也是同理的。 unsigned int + unsigned short = unsigned int 实验：自动类型提升（ type promotion ） • 如果两边有一边是 unsigned 的但是大小不等，则还是选择较大类型。 • unsigned short + int = int 实验：自动类型提升（ type promotion ） • 如果两边有一边是 unsigned 的但是大小相等，则结果是

0 码力 | 128 页 | 2.95 MB | 1 年前
3
Borsh 安全高效的二进制序列化

第三届中国 Rust 开发者大会安全高效的二进制序列化 Daniel Wang @ NEAR Borsh • 运行、编码效率 • 确定性 • 跨平台兼容性二进制序列化的问题 Binary Object Representation Serializer for Hashing • 字节级别确定性 • 执行速度快 Borsh • 轻量级 • 每一个对象与其二进制表示之间都存在一个双射映射

0 码力 | 21 页 | 3.35 MB | 1 年前
3
Zadig 产品使用手册

e v O p s 平台。领先企业抢先实践 Zadig Zadig 研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路：通过「平台工程」解决流程挑战，通过「技术升级」提升组织效能 01 04 02 03 工程化协同：“人、技术、流程、工具” 四维协同基线，沉淀全流程数据，从感知到赋能，服务于工程师释放云基建能力：链接任何云及自建资源（容器、主机、车复杂工具链工程化：一个平台一键发布工作流、环境配置自动更新、高效调试、消除手工操作、精准快速迭代、研发生产力 / 幸福感提升自助运行、系统化管理、自动化程度高、测试有效性提升、质量有保障、横向赋能、技能提升随时调用工程基线提供的能力、产品视角开发交付、团队高效协同、稳定迭代产研数字化过程数据透明、关键指标易抽取、有能力合理调动资源、随时决策响应客户需求碎片化研发模

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。使用 int64_t ：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！ • 这是因为 i % 2 的计算时间，完全隐藏在内存的超高延迟里了。 • 可见，当数据量足够大，计算量却不多时，读写数据量的大小唯一决定着你的性能。 • 特别是并行以后，计算量可以被并行加速，而访，而如果用 int8_t 存储是 1 字节也就是 8bit 了。 • 因此还可以进一步优化，让八个 bit 占据同一个字节。 • 不过计算起来比较复杂，需要很多位运算。 • 不过的确是提升了 8 倍性能。图片解释 8 个 bit 如何合并到一个 int8_t • 通过位运算： • bits |= 1 << n; • 可以设置 bits 的第 n 位为 1 。 • bits ），着色器在读取的时候才会把他转换成 float （范围从 0.0 到 1.0 ）。这就是浮点数的量化，存储时转换成低精度的定点数，读取时再转换回高精度的浮点数，从而节省 4 倍内存带宽，提升 GPU 性能。有没有更小的浮点类型？ • 浮点数在接近 0 的时候精度更高，在一些图形学应用中还是很必要的（比如表示粒子的速度），定点数就做不到。 • x86 CPU 上最小的浮点类型就是

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

要性能的，定义在头文件声明为 static 即可，没必要加 inline 的 static 纯粹是为了避免多个 .cpp 引用同一个头文件造成冲突，并不是必须 static 才内联如果你不确定某修改是否能提升性能，那你最好实际测一下，不要脑内模拟 inline 在现代 C++ 中有其他含义，但和内联没有关系，他是一个迷惑性的名字 “ 大厂面试官”笑话 • 同样沦为笑柄的还有 register 关键字字节，在 GCC 编译器中这样写：但这样不通用，因此 C++20 引入了标准化的 std::assume_aligned ： movups 变成了 movaps 对齐的读写可能带来微乎其微的性能提升…… 数组求和： reduction 的优化你看懂了吗？没关系！小彭老师也没看懂！总之非常高效就对了！第 5 章：循环循环中的矢量化：还在伺候指针别名我们可怜的编译器啊！他还在担心乘法比除法更快！提前计算好 b 的倒数避免重复求除法。解决方案 2 ： -ffast-math -ffast-math 选项让 GCC 更大胆地尝试浮点运算的优化，有时能带来 2 倍左右的提升。作为代价，他对 NaN 和无穷大的处理，可能会和 IEEE 标准（腐朽的）规定的不一致。如果你能保证，程序中永远不会出现 NaN 和无穷大，那么可以放心打开 -ffast-math 。

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

的芯片。 • 可为何直到今天也生产不出 10GHz 的芯片？ • 结论：狭义的摩尔定律没有失效。但晶体管数量的增加，不再用于继续提升单核频率，转而用于增加核心数量。单核性能不再指数增长！你醒啦？免费午餐结束了！指望靠单核性能的增长带来程序性能提升的时代一去不复返了，现在要我们动动手为多核优化一下老的程序，才能搭上摩尔定律的顺风车。神话与现实： 2 * 3GHz < 6GHz 1 秒用电量： 3*4=12 度电总用时： 1*3=3 秒结论：改进后的并行扫描的时间复杂度为 O(logn) ，工作复杂度为 O(nlogn) 。可见，并行后虽然降低了时间复杂度，但是以提升工作复杂度为代价！更多细节，敬请期待 GPU 专题，我们会以 CUDA 为例详细探讨两全方案。封装好了： parallel_scan 第 3 章：性能测试案例： map 与 reduce

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

txt 里链接 Threads::Threads 即可：有了多线程：异步处理请求 • 有了多线程的话，文件下载和用户交互分别在两个线程，同时独立运行。从而下载过程中也可以响应用户请求，提升了体验。 • 可是发现一个问题：我输入完 pyb 以后，他的确及时地和我交互了。但是用户交互所在的主线程退出后，文件下载所在的子线程，因为从属于这个主线程，也被迫退出了。主线程等待子线程结束： std::thread 不同在于：他的解构函数里会自动调用 join() 函数，从而保证 pool 解构时会自动等待全部线程执行完毕。小彭老师快乐吐槽时间 • 多线程、异步、无阻塞、并发，能提升程序响应速度，对现实世界中的软件工程至关重要。 • 反面教材： blender 在运行物理解算的时候，界面会卡住，算完一帧后窗口才能刷新一遍，导致解算过程中基本别想做事，这一定程度上归功于多个对象？每个对象一个 mutex 即可 • mtx1 用来锁定 arr1 ， mtx2 用来锁定 arr2 。 • 不同的对象，各有一个 mutex ，独立地上锁，可以避免不必要的锁定，提升高并发时的性能。 • 还用了一个 {} 包住 std::lock_guard ，限制其变量的作用域，从而可以让他在 } 之前解构并调用 unlock() ，也避免了和下面一个 lock_guard

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

find_package 说是找“包”，到底是在找什么？ • find_package(OpenCV) 实际上是在找一个名为 OpenCVConfig.cmake 的文件。 • 注：出于历史兼容性考虑，除了 OpenCVConfig.cmake 以外 OpenCV-config.cmake 这个文件名也会被 CMake 识别到。 • 同理， find_package(Qt5) 则是会去找名为

0 码力 | 56 页 | 6.87 MB | 1 年前
3

共 15 条前往

页

Zadig 面向开发开发者原生 DevOps 平台 C++高性性能高性能并行编程优化课件 08 12 Rust Borsh 产品使用手册使用手册 10 04 06 05 16

分类

语言

格式

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

Borsh 安全高效的二进制序列化

Zadig 产品使用手册

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南