πDataCS赋能工业软件创新与实践
支 持 H T A P 湖 仓 ⼀ 体 和 向 量 计 算 • 原 ⽣ 支 持 数 据 治 理 , 三 权 分 离 • 支 持 ⼤ 语 ⾔ 基 础 模 型 和 私 域 数 据 结 合 开 发 垂 直 应 用 • CMU战略合作⼤模型基础理论,训练合作⼀事⼀议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… Confidential PieCloudVector与LLM在私域知识库领域的应用实践路径 π D a t a C S 优 势 2 : 全 面 支 持 ⼤ 语 ⾔ 基 础 模 型 和 私 域 数 据 结 合 做 垂 直 应 用 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS优势3 :云原⽣下eMPP计算引擎全面颠覆MPP技术,⼤模型数据计算新范式 装备建造项目的国产数字化调试完⼯应用平台。旨在为豪华邮轮国产化提供专业的自动化软件应用的同时,加速调试完⼯数字平台国产化 的进程 。 本期项目的主要建设目标: Ø 在设计数据收集的前端,搭载基于国产设计的智能图像算法芯片和传感器的三维结构光体测量设备,来深度挖掘设计和建造 数据,打造孪⽣设计⼤数据库,穿透调试计划,串联供应链数据。 Ø 致⼒于建设⼀个安全、可控、软硬件⼀体的数字建造⼯业自动化软件应用平台0 码力 | 36 页 | 4.25 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 • 中远集团:收入、发展、销售分析 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN0 码力 | 45 页 | 2.07 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
ker 容器确保用户代码无法访问源主机的文件系统。此外,容器启动时网络访问受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的0 码力 | 17 页 | 2.04 MB | 1 年前3TiDB v8.4 中文手册
ctr 为 24 字节, aes256- �→ ctr 为 32 字节。 BR --log. �→ crypter �→ .key- �→ file 新增 设置日志 备份数据 的密钥文 件,可直 接将存放 密钥的文 件路径作 为参数传 入,此时 log. �→ crypter �→ .key 不 需要配置。 56 配置文件 或组件 配置项 修改类型 描述 BR --log. �→ crypter 更短的超时,以避免持有锁的时间过长。此时,你可以使用 TiDB 在 v7.6.0 引入的tidb_idle_transaction_timeout 控制用户会话中事务的空闲超时。 249 但在实际生产环境中,空闲连接和一直无限执行的 SQL 对数据库和应用都有不好的影响。你可以通过在应用 的连接字符串中配置这两个参数来避免空闲连接和执行时间过长的 SQL 语句。例如,设置 sessionVariables �→ =wait_timeout=3600(1 快速上手指南 • HTAP 深入探索指南 • 窗口函数 • 使用 TiFlash 4.8 向量搜索 4.8.1 向量搜索概述 TiDB 向量搜索提供了一种高级的语义搜索功能,可以在文档、图像、音频和视频等多种数据类型之间进行相 似度搜索。TiDB 向量搜索的 SQL 语法与 MySQL 兼容,熟悉 MySQL 的开发人员可以基于该功能轻松构建人工智 能 (AI) 应用。 警告: 向0 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v8.5 中文手册
ctr 为 24 字节, aes256- �→ ctr 为 32 字节。 BR --log. �→ crypter �→ .key- �→ file 新增 设置日志 备份数据 的密钥文 件,可直 接将存放 密钥的文 件路径作 为参数传 入,此时 log. �→ crypter �→ .key 不 需要配置。 61 配置文件 或组件 配置项 修改类型 描述 BR --log. �→ crypter 更短的超时,以避免持有锁的时间过长。此时,你可以使用 TiDB 在 v7.6.0 引入的tidb_idle_transaction_timeout 控制用户会话中事务的空闲超时。 253 但在实际生产环境中,空闲连接和一直无限执行的 SQL 对数据库和应用都有不好的影响。你可以通过在应用 的连接字符串中配置这两个参数来避免空闲连接和执行时间过长的 SQL 语句。例如,设置 sessionVariables �→ =wait_timeout=3600(1 快速上手指南 • HTAP 深入探索指南 • 窗口函数 • 使用 TiFlash 4.8 向量搜索 4.8.1 向量搜索概述 TiDB 向量搜索提供了一种高级的语义搜索功能,可以在文档、图像、音频和视频等多种数据类型之间进行相 似度搜索。TiDB 向量搜索的 SQL 语法与 MySQL 兼容,熟悉 MySQL 的开发人员可以基于该功能轻松构建人工智 能 (AI) 应用。 警告: 向0 码力 | 5095 页 | 104.54 MB | 9 月前3Greenplum机器学习⼯具集和案例
载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3《Redis使用手册》(试读版)
Redis 已经得到了互联⽹公司的⼴泛使⽤, 许多开发者为不同的编程语⾔开发了相应的客 户端(redis.io/clients), 绝⼤多数编程语⾔的使⽤者都可以轻⽽易举地找到他们所需的客户端, 然后直 接开始使⽤ Redis 。 此外,包括亚⻢逊、⾕歌、RedisLabs、阿⾥云和腾讯云在内的多个云服务提供商都提 供了基于 Redis 或兼容 Redis 的服务, 如果你不打算⾃⼰搭建 Redis Redis 必不可少的⼀本书。 ⼀⽅⾯, 对于 Redis 初学者来说, 本书的章节经过妥善的编排, 按照从简单到复杂的顺序详细罗列了 Redis 的 各项特性, 因此 Redis 初学者只需要沿着书本⼀直阅读下去就可以循序渐进地学习到具体的 Redis 知识, ⽽穿 插其中的应⽤示例则让读者有机会亲⾃实践书中介绍的命令知识, 真正做到学以致⽤。 另⼀⽅⾯, 对于 Redis 使⽤者来说, 本书包含了⼤量 导致锁的唯 ⼀性被破坏。 2. 这个锁的获取操作不能设置最⼤加锁时间, 它⽆法让锁在超过给定的时限之后⾃动释放。 因此, 如果持有 锁的进程因为故障或者编程错误⽽没有在退出之前主动释放锁, 那么锁就会⼀直处于已被获取的状态, 导 致其他进程永远⽆法取得锁。 本书后续将继续改进这个锁实现, 使得它可以解决这两个问题。 2.6 MSET:⼀次为多个字符串键设置值 除了 SET 命令和 GETSET 命令之外,0 码力 | 352 页 | 6.57 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 11 - 第一章:GP 数据库架构 目前 GP 数据库已经开源多年,多年来一直由 Pivotal 公司商业运营,在 2020 年,Pivotal 被兄弟公司 VMWare 收购,由 VMWare 继续运营。近年来,Greenplum 在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 GP 的系统表中将被标记 为失败状态,Master 会激活/唤醒对应的 Mirror 取代原有的 Primary。在采取相应 的措施将失败的 Primary 恢复到健康状态之前,该 Primary 一直保持失败状态。失 败的 Primary 可以在系统处于运行状态下被恢复回来。恢复进程仅仅复制失败期间发 生变化的增量差异,当然,如果失败时间太久或者因失败的 Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 生变化,就会自动同步到 Standby 从而保证与 Master 的一致性,所以,Standby 与 Master 可以保持实时同步。在 6 之前的版本,Master 与 Standby 的同步机制就 一直是 WAL 同步,而在 6 版本开始,Primary 和 Mirror 也采用了 WAL 同步,但由 于 Mirror 需要同步的 WAL 日志的量很大,所以,对性能的影响比 Standby 要显著。0 码力 | 416 页 | 6.08 MB | 1 年前3Redis 多数据中心双向同步 祝辰
并解决因此可能出现的数据一致性问题. 需求的产生 DRC 的概念是在近年来, 云计算兴起, 多站点部署的场景下, 延伸出来对于数 据共享的一个需求. 多站点部署的架构, 对于单元化部署的 应用来讲, 跨数据中心的数据访问一直 是一个最大的痛点. 目前很多用户 • 抑或是采取了同一份写入到两个站 点的数据库 • 抑或是跨站点写入数据库同时同步 回来(例如 AWS 的AURORA) 这两种方式都没有从根本上解决问题, DRC 概念的出现, 让大家对分布式存储 又有了新的期待 Data Replication Center 目前携程的应用也在进行单元化的部署模 式, 在实现单元化的部署过程中, 跨数据中 心的数据访问一直是一个业务的痛点. 是否我们也能够有自己的一套 DRC? 来完 成每个站点的单独写入读取, 而不用关心 底层存储的一致性和同步问题. 对此需求进行分析后, 我们决定开发一个 Redis 的 DRC broadcast the operations (+10) or (−20). 发送端将状态的改变转换为 操作/Log 的形式发送 给接收端, 接收端执行 update 操作, 来达到和发送 端状态一直的结果 Op-based replication 只要求数据结构满足 commutative 的特性, 不要求 idempotent Operation-based Replication State-based0 码力 | 45 页 | 1.74 MB | 1 年前3大模型时代下向量数据库的设计与应用
P4 P5 P6 (filtered) P7 P8 (filtered) P9 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据0 码力 | 28 页 | 1.69 MB | 1 年前3
共 51 条
- 1
- 2
- 3
- 4
- 5
- 6