架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ 是一个整数，表示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老 com/cuda/cuda-compiler-driver-nvcc/index.html#extended-notation 针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的版本 ≤ 运行时显卡的版本。 CMAKE_CUDA_ARCHITECTURES 会自动转换成 --gpu-code 等编译 flag 版本号不要太新了 • 比如这里设置了 RTX3000 系列的架构版本号 86

0 码力 | 142 页 | 13.52 MB | 1 年前
3
谈谈MYSQL那点事

互联网常用数据库市场占有率互联网通用架构体制谈谈 MySQL 数据库那些事  MySQL MySQL 基本介绍基本介绍  MySQL MySQL 优化方式优化方式  MySQL MySQL 技巧分享技巧分享  Q Q & & AA MyISAM MyISAM 特点特点 MyISAM vs MyISAM vs InnoDB InnoDB • 数据存储方式简单，使用拥有自己独立的缓冲池，能够缓存数据和索引拥有自己独立的缓冲池，能够缓存数据和索引 MySQL 架构设计—应用架构强一致性对读一致性的权衡，如果是对读写实时性要求非常高的话，就将读写都放在 M1 上面， M2 只是作为 standby 。比如，订单处理流程，那么对读需要强一致性，实时写实时读，类似种涉及交易的或者动态实时报表统计的都要采用这种架构模式弱一致性如果是弱一致性的话，可以通过在 M2 上面分担一些读压力上面分担一些读压力和流量，比如一些报表的读取以及静态配置数据的读取模块都可以放到 M2 上面。比如月统计报表，比如首页推荐商品业务实时性要求不是很高，完全可以采用这种弱一致性的设计架构模式。中间一致性如果既不是很强的一致性又不是很弱的一致性，那么我们就采取中间的策略，就是在同机房再部署一个 S1(R) ，作为备库，提供读取服务，减少 M1(WR) 的压力，而另外一个

0 码力 | 38 页 | 2.04 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

图数据中进行知识发现的重要需求。最终获得国内外授权发明专利 43 项， CCF -A 类论文 51 篇，获得 2 次国际竞赛冠军，参与了 2 项图计算相关标准制定。 AtlasGraph 架构及实现图技术简介 Takeway “ 世界是复杂关系的总和”—— 一张典型的知识图谱电话 / 同通讯录 / 绑定同账户 /... Mac 地址 /IP 地址 /wifi... 亲属业务对大图分析的诉求（千亿点、万亿边） • 实时风控对图库的性能挑战（ OLTP 毫秒级响应） • 海致图平台产品服务于金融、政府行业有大量业务经验积累（接近客户需求） • 现有开源产品无法满足要求（受限于基础架构设计，优化性能有限）新一代分布式图数据库需具备的特性特性信雅达 • 高可用 • 一致性（事务） • 高性能 • 低资源消耗 • 易用 • 功能丰富 AtlasGraph Processing ，高性能图计算引擎，预置 20 余种图计算算法，可扩展的分析引擎支持更复杂的数据挖掘和机器学习场景 MPP Massively Parallel Processing 架构，大规模集群分布式存储及并行计算， Shared Nothing 模式支持存储计算分离高性能基于 Rust 开发的分布式存储引擎及图计算引擎，精细的内存管理设计，内置索引系统，支持毫秒级的并发查询响应速度

0 码力 | 38 页 | 24.68 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

面向开发者的云原生 DevOps 平台角色：产品 / 架构开发测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 开发者常处于今天发版、明早升级嗷嗷待哺状态 Zadig 优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性：极简、 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig 行业方案对比分析职能传统 DevOps 方案 ZadigX 云原生 DevOps 方案降本提效组织能力提升业务负责人研发不透明，规划凭感觉：自助验证更高效：自动化工作流 + 云上环境，高效验证调试安全发布有信心：一个平台完成日常 90% 工作，开发自助发布需求研发总耗时降低 30% 需求迭代周期缩短 1-5 倍解放开发，专注编码更多的架构和技术提升测试效率和质量难以平衡： • 自动化测试难以开展 • 环境不稳定并行验证效率低 • 测试多苦劳，价值难以体现测试效果提升：独立稳定环境用于测试验收、自动化建设价值被团队感知：自动化测试从开发到发布被全团队感知

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

64 位。 • 实际上地址的高 16 位始终和第 48 位一致（符号扩展），也就是虚拟地址空间只有 48 位。 • 而经过 MMU 映射后实际给内存的地址只有 39 位，因此如今的 x64 架构实际上只能访问 512GB 内存，如果插了超过这个大小的内存条他也不会认出来。 • 此外， 16 位计算机实际上能通过额外的段寄存器访问到 20 位的内存地址（ 1MB ）。 • 32 位计算机还能通过位 32 位 32 位 long long 64 位 64 位 64 位 64 位注意到 Unix 和 Windows 关于 long 的定义有分歧： Unix 认为 long 的大小应该和系统架构位数一样， 32 位系统上就 32 位， 64 位系统上就 64 位。 Windows 认为 long 不论 32 位系统还是 64 位系统都一样应该为 32 位，认为这样安全。因此我们在编写 C 证的。 • 为了解决不同操作系统上对类型定义混乱的问题， C 语言标准引入了 stdint.h 这个头文件。 • 他里面包含一系列类型别名 (typedef) ，这些别名保证不论是什么操作系统什么架构，都是固定的大小，例如： • typedef char int8_t; • typedef short int16_t; • typedef int int32_t; • typedef

0 码力 | 128 页 | 2.95 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

东京班加罗尔阿姆斯特丹西安马来西亚币种 50+ 国家 130+ 办公地点 19 1300+ 员工提供高效，低成本的数字银行服务关于我们： Airwallex 从设计架构到实现细节项目介绍分布式账务系统 Fintech 互联网正确性 bug= 资损 bug 不可怕，快速迭代可靠性丢数据 = 资损允许数据丢失性能超低延迟 + 高吞吐超高吞吐稳定的底层 API ● 灵活的顶层 API ● 树状结构 ● 聚合查询 ● 正确性：内存安全，线程安全 ● 可靠性： Raft 共识算法 raft-rs ● 高性能：关键路径无锁单线程顶层架构 ● Gateway 路由层 ○ 业务 API 到底层 API 的翻译 ○ 产生转账计划 ● Marker 事务层 ○ 使用业务 id 进行路由 ○ 执行转账计划 ○ 分发账户变动请求 C++ 背景的同事 ● 学习《 rust 程序设计》 ● 1-3 月可以熟练转型使用 Rust Rust 与原有技术栈的融合 ● Kotlin ：偏业务，适合快速迭代 ● Rust ：偏基础架构，适合精心打磨 ● gRPC ：跨语言跨平台通讯心路历程真刀实枪 – 开发调试部署 IDE JetBrains + Rust 插件 Gitlab CI/CD 心路历程真刀实枪 –

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

章：汇编语言 x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： •

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

Windows 平台默认为 C:/Program Files 。 • 是你在 find_package( REQUIRED) 命令中指定的包名。 • 是系统的架构名。 https://zhuanlan.zhihu.com/p/60479441 Unix 类系统下的搜索路径 • /(lib/|lib*|share)/cmake/*/ ${CMAKE_PREFIX_PATH} ， Unix 平台默认为 /usr 。 • 是你在 find_package( REQUIRED) 命令中指定的包名。 • 是系统的架构，例如 x86_64-linux-gnu 或 i386-linux-gnu 。 • （用于伺候 Ubuntu 喜欢把库文件套娃在 /usr/lib/x86_64-linux-gnu 目录下） https://zhuanlan

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的可以分配对齐到任意 a 字节的内存。他在这个头文件里。是 x86 特有的，并且需要通过 _mm_free 来释放。 • 还有一个跨平台版本（比如用于 arm 架构）的 aligned_alloc(align, n) ，他也可以分配对齐到任意 a 字节的内存，通过 free 释放。 • 利用他们可以实现分配对齐到页面（ 4KB ）的内存。小彭老师的

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

位整数即可，可以是有符号也可以是无符号，任凭编译器决定（ C 标准委员会传统异能， khronos 直呼内行）。 • 以 GCC 为例，他规定 char 在 x86 架构是有符号的 (char = signed char) ，而在 arm 架构上则认为是无符号的 (char = unsigned char) ，因为他认为“ arm 的指令集处理无符号 8 位整数更高效”，所以擅自把 char 魔改成无

0 码力 | 162 页 | 40.20 MB | 1 年前
3

共 12 条前往

页

C++高性性能高性能并行编程优化课件 08 MySQL 游人 RustCC AtlasGraph Zadig 面向开发开发者原生 DevOps 平台 12 胡宇 rust 分布布式分布式账务系统 04 16 07 15

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

谈谈MYSQL那点事

新一代分布式高性能图数据库的构建 - 沈游人

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串