数据集成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、形怪状也不会浪费内存。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或是负数，则得到的模也是负数。 Python 的 % 就没问题 • 7 % 4 = 3 • -7 % 4 = 1 • Python 的模运算 a % b 的值始终是 [0, b) 区间内的正数，非常方便。对稀疏数据结构造成的问题 • 如果这里的 x 是负数，则 x % B 也是负数，会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，

0 码力 | 102 页 | 9.50 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

新一代分布式高性能图数据库的构建北京海致星图科技有限公司 2023-06-18 沈游人数据库与大数据专场海致简介—企业级知识图谱开创者专业顶尖技术团队支撑超 700 人团队，其中 80% 为技术人员，创始团队在完成全球第一个中文知识图谱网站研发后，探索知识图谱技术在企业领域的应用。 2021 年，海致院士专家工作站成立，站内清华大学计算机博士生占比达 90% 以上。企业级数据解决方案专家为建行、工行、交行、招行、上交所、深交所、中国人寿等 70+ 银行证券保险企业、公安部、上海市公安局、武汉市公安局等 100+ 公安机构，国家电网、国信通产业集团等电力能源行业提供数据智能产品解决方案及长期服务。海致专注为政府、金融、能源等客户提供大数据处理、分析、挖掘服务，在互联网技术基础上，打造专业、易用的企业级大数据实战应用产品及解决方案。北京中关村总部北京中关村总部武汉运维中心深圳研发中心上海应用中心专注于数据智能技术赋能中国数字经济发展海致高性能图计算院士专家工作站郑纬民 - 海致科技首席科学家中国工程院院士、清华大学计算机科学与技术系教授、中国计算机学会前理事长，中国计算机系统结构的学科带头人，我国高性能计算和存储系统等方面的泰斗和先行者。 2021 年 3 月 25 日，海致科技与清华大学计算机科学与技术系共同建设高性能图计算院士专家工作站

0 码力 | 38 页 | 24.68 MB | 1 年前
3
基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺

的物联网和时序数据传输及转换工具霍琳贺涛思数据 Rust China Conf 2023 CONTENTS 自我介绍 T D e n g i n e t a o s X R u s t 使用 TDengine Rust • OOXML - Excel 解析库 • xlsx2csv - Excel 转 CSV 工具 • Unqlite - 单文件非关系型数据库 • 连接器 • 数据可视化 • 数据库运维工具 • 第三方数据源接入 • BI 系统接入 https://taosdata.com/ https://github.com/zitsen CONTENTS 自我介绍 T D e n g i n e t a o s X R u s t 使用 TDengine: 时序数据库 TDengine 是一款开源、云原生的时序数据库（ Time ），专为物联网、工业互联网、金融、 IT 运维监控等场景设计并优化，具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能，能大幅减少系统设计的复杂度，降低研发和运营成本，是一个极简的时序数据处理平台。采用关系型数据库模型  需要建库、建表，  为提升写入和查询效率，要求一个数据采集点一张表  为实现多表聚合，引入超级表概念  子表通过超级表创建，带有标签，通过标签实现多表

0 码力 | 29 页 | 2.26 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理事件、缺陷管理想法用户运行阶段需求阶段研发阶段现代软件交付挑战：开发 5 分钟，上线 2 小时服务一：设计 | 代码编写 | 构建 | 0 % 开源基本能力开源 1.5 个月核心重构 65% 功能实现开源支撑开源社区开发者环境易用性增强接入：安装 10 分钟以内，成功率达 90% 集成环境：支持开发者 Remote debug 工作流：效率和性能、开发者体验提升贡献者流程建立开放社区搭建 2021 年 5 月 2021 年 7 月 2021 年 9 月

0 码力 | 59 页 | 81.43 MB | 1 年前
3
Zadig 产品使用手册

研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路：通过「平台工程」解决流程挑战，通过「技术升级」提升组织效能 01 04 02 03 工程化协同：“人、技术、流程、工具” 四维协同基线，沉淀全流程数据，从感知到赋能，服务于工程师释放云基建能力：链接任何云及自建资源（容器、主机、车机、端等），释放云原生价值和企业创新力生态开放：广泛开放系统模块和 OpenAPI ，链接程度高、测试有效性提升、质量有保障、横向赋能、技能提升随时调用工程基线提供的能力、产品视角开发交付、团队高效协同、稳定迭代产研数字化过程数据透明、关键指标易抽取、有能力合理调动资源、随时决策响应客户需求碎片化研发模式产研全流程拉通需求到上线所需的代码、服务、配置和数据的一致性交付 Jira 飞书项管其他自测环境 Argo K8s JFrog YAML 产品开发对接需求管理测试管理 Spinnaker Jenkins Rancher JMeter Sonar Tekton Jenkins KubeSphere 1 、敏捷协作方案介绍持续集成 (CI) -> 持续交付 (CD) -> 持续部署 (CD) -> 持续运营 (CO) 质量右移质量左移软件研发核心工程实践：基于质量工程的持续交付体系（ CI/CD 、 CO 、 CT 、

0 码力 | 52 页 | 22.95 MB | 1 年前
3
Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

Await Tree 在 RisingWave 中的应用 • 云原生 SQL 流式数据库 • risingwave.com • GitHub 4.5k Stars • “Materialized View” • 计算：分布式流计算任务，实时增量维护 • 存储： S3 上的 Shared-storage 存储状态和数据 Await Tree 在 RisingWave 中的应用 • 技术挑战 • Async 生态下的 Stack Tree Backtrace 工具 • 实时观测各个 Task 的执行状态 • 直观分析 Task/Future 间的依赖阻塞关系 • 将 Await-Tree 集成在自己的 Async Rust 系统中！ • github.com/risingwavelabs/await-tree Thank you ！

0 码力 | 37 页 | 8.60 MB | 1 年前
3
GPU Resource Management On JDOS

可，有完善的周边服务训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job Serving 服务提供统一便捷的 Serving 服务，只需用户指定模型，即可提供 grpc 和 rest 服务，同时使用 GPU 复用 +HPA 提高 GPU 利用率创建 Serving 与训练集成 • 用户只需要简单选择机房和镜像填写模型名即可完成 Serving 服务创建自有模型 • 用户只需要填写模型地址即可 GPU 监控 • 容器监控服务，自适应 GPU 容器，可根据容器

0 码力 | 11 页 | 13.40 MB | 1 年前
3
谈谈MYSQL那点事

互联网常用数据库市场占有率互联网通用架构体制谈谈 MySQL 数据库那些事  MySQL MySQL 基本介绍基本介绍  MySQL MySQL 优化方式优化方式  MySQL MySQL 技巧分享技巧分享  Q Q & & AA MyISAM MyISAM 特点特点 MyISAM vs MyISAM vs InnoDB InnoDB • 数据存储方式简单，使用数据存储方式简单，使用数据存储方式简单，使用 B+ Tree B+ Tree 进行索引进行索引 • 使用三个文件定义一个表：使用三个文件定义一个表： .MYI .MYD .frm .MYI .MYD .frm • 少碎片、支持大文件、能够进行索引压缩少碎片、支持大文件、能够进行索引压缩 • 二进制层次的文件可以移植二进制层次的文件可以移植 (Linux (Linux 不支持一些数据库特性，比如事务、外键约束等不支持一些数据库特性，比如事务、外键约束等 • Table level lock Table level lock ，性能稍差，更适合读取多的操作，性能稍差，更适合读取多的操作 InnoDB InnoDB 特点特点 •使用使用 Table Space Table Space 的方式来进行数据存储的方式来进行数据存储 (ibdata1

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 a ，实际搬运了 2048 MB 的数据。 • 花费了 0.0656 秒。 • 因此带宽是 31198 MB/s 。 • 和理论带宽 42672 MB/s 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： time-efficiency ）与工作量复杂度（ work-efficiency ） • 在“小学二年级”算法课里，我们学过复杂度的概念，意思是算法执行所花费的时间取决于数据量的大小 n ，比如 O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要） • 这两个指标个核心工作 1/4 小时。工作复杂度一样，而后者时间复杂度更低。 • 并行的主要目的是降低时间复杂度，工作复杂度通常是不变的。甚至有牺牲工作复杂度换取时间复杂度的情形。 • 并行算法的复杂度取决于数据量 n ，还取决于线程数量 c ，比如 O(n/c) 。不过要注意如果线程数量超过了 CPU 核心数量，通常就无法再加速了，这就是为什么要买更多核的电脑。 • 也有一种说法，认为要用 c 趋向于无穷时的时间复杂度来衡量，比如

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 32 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

新一代分布式高性能图数据库的构建 - 沈游人

基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺

Zadig 面向开发者的云原生 DevOps 平台

Zadig 产品使用手册

Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

GPU Resource Management On JDOS

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅