πDataCS赋能工业软件创新与实践
⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie 、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 ⽣态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也⽆法直接利用云 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 ⽣态完善,支持主流的开发语⾔和数据科学⼯具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接⼝和API,完成各种复杂场景的数 据处理,业务开发周期短,现存的代码基本可以⽆缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容,0 码力 | 36 页 | 4.25 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 生态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好的 完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种 组件的不同使用方法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也无法直接利用云资 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 用实践路径 πDataCS优势2: 全面支持大语言基础模型和私域数据结合做垂直应用 πDataCS优势3 :云原生下eMPP计算引擎全面颠覆MPP技术,大模型数据计算新范式 SQL语言实现的结构化数据上的模型计算 打破企业数据孤岛,整合企业所有表格类数据资源 πCloudDB(强逻辑计算) 云原生数据库/ 虚拟数仓 eMPP专利技术发明者/虚拟数仓产品的全球行业领导者 计算引擎之0 码力 | 29 页 | 7.46 MB | 1 年前3Greenplum 介绍
MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力0 码力 | 3 页 | 220.42 KB | 1 年前3阿里云 AnalyticDB for PostgreSQL - 打造更简单易用的Cloud SQL Data Warehouse
3 非结构化数据向量检索, “以图搜图” (规划中) 场景应用: 1、Web App把图片或者视频等非结构化数据 通过特征提取服务,提取特征向量,并写入 AnalyticDB for PG的向量表。 2、Web App检索的时,把非结构化数据通过 特征提取服务接口提取出向量,同时调用 AnalyticDB for PG的查询分析接口做查询。 特点: • 易用,结构化和非结构化数据关联查询。 PostgreSQL AnalyticDB for PostgreSQL Client 特征提取服 务 5.检索分析 1.注册特征提取服务 3.写入url 4.生成特征 2.写入非 结构化数 OSS 音频 图片 文本 向量 ①GPU的计算性能加速 ②支持Greenplum 6.0版本 其他演进规划: 更快性能 敬请期待!0 码力 | 22 页 | 2.98 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 增了用于查询和解析 JSON 记录的内置函数。与 JSON 类似,HSTORE 可用于在数据库中存储和查询半结构化数据。 Greenplum 中添加的全新 PostgreSQL 9.1 函数和 SQL 命令增强了对 XML 的支持。这些新数据类型及相关函数有助于打造 一个没有孤岛的环境,结构化、半结构化和非结构化数据均可在一个位置进行存储和分析。其他功能还有 dblink,这是一 个用于与其他数据库(无论在同0 码力 | 9 页 | 690.33 KB | 1 年前3HBase最佳实践及优化
在HBase擅长的场景至今尚未有可替代品 Postgres Conference China 2016 中国用户大会 典型用户案例:Data Storage • 场景 – 用于收集并存储非结构化以及半结构化数据 – 数据存储要求可靠 – 保证数据强一致性 – 数据可被排序以便提供低延时的随机查询 • 案例 – 原始日志查询系统 – 在线指标查询系统 • 主要组件 – HBase, Flume 2016 中国用户大会 HBase适用场景 • 高并发高性能读写访问场景 – 数据有随机更新、删除 – 数据写入性能高于读取性能,适合写多读少或数据 加载有实时性要求的场景 • 需按主键排序的半结构化数据存储 • 支持基于固定有限条件的高并发高性能查询 • 高速计数器aggregation类型的任务 – HBase强一致性(Strongly consistent)读写保证 • 其他适用Hadoop的NoSQL场景 类似的数据库语义(初期支持单行 记录的ACID) • 关系数据模型 – SQL查询 – “NoSQL”风格的扫描/插入/更新 (Java客户端) 13 28日下午 15:40 - 16:20 Hadoop最新结构化存储利器Kudu介绍 分会场2 Postgres Conference China 2016 中国用户大会 案例:运营商清帐单系统关键需求 • 必须能够高效处理海量数据 – 单月清单数据量约10 码力 | 45 页 | 4.33 MB | 1 年前3TiDB中文技术文档
集群目前已用数据库空间大小 Store Status — up store : TiKV 正常节点数量 Store Status — down store : TiKV 异常节点数量 如果大于 0,证明有节点不正常 Store Status — offline store : 手动执行下线操作 TiKV 节点数量 Store Status — Tombstone store : 下线成功的 TiKV not match 这样的错误, 表明收到了不属于这个集群发过来的消息 Vote : Raft vote 的频率 通常这个值只会在发生 split 的时候有变动,如果长时间出现了 vote 偏高的情况,证明系统出现了 严重的问题, 有一些节点无法工作了 95% & 99% coprocessor request duration : 95% & 99% coprocessor 执行时间 和业务相关,但通常不会出现持续高位的值 charset_name] [COLLATE collation_name] 41. > 集合。可以有零或者多个值的字符串对象,每一个值必须选自允许值列表中。 Json 类型可以存储 Json 这种半结构化的数据,相比于直接将 Json 存储为字符串,它的好处在于: 1. 使用 Binary 格式进行序列化,对 Json 的内部字段的查询、解析加快; 2. 多了 Json 合法性验证的步骤,只有合法的0 码力 | 444 页 | 4.89 MB | 5 月前3大模型时代下向量数据库的设计与应用
案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们! 麦思博(msup)有限公司是一家面向技术型企业的培训咨询机构,携手2000余位 中外客座导师,服务于0 码力 | 28 页 | 1.69 MB | 1 年前3Greenplum机器学习⼯具集和案例
Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
-- 大量的分析查询但却极少的数据修改。不适 合大量并发事务更新数据的OLTP类型应用。 和B-tree相比,Bitmap索引的使用应该更保守。建议在建立Bitmap索引之后做 必要的测试以证明其可以对查询性能有改善(相对于做全表扫描查询)。另外,最好跟 其他索引类型做必要的对比,就编者的经验来看,正如前面[何时使用位图索引]章节 的[注意]部分所述,可能在很多需要使用索引的时候,直接选择B-tree就足够了,使 以前有不少人以写得出一个巨大无比的单条SQL搞定一个复杂的问题而自我陶醉, 带来的后续维护问题是痛苦的,反而拆分为多个相对简单的步骤更便于排查问题和 维护。编者认为,优雅而高效的解决问题才最重要,故意把问题复杂化不值得提倡, 那不能证明能力。 定义一个大而全的视图,涉及很多表,然后可以用于各种场景 -- 这种设计也是 极其糟糕的,乍一看很酷,实际上,因为适用的场景多,就很难兼顾到每个场景, 所以,可能有的场景SQL 查询是一个查看、修改或者分析数据库中数据的命令。本节介绍如何在GP中构造 SQL查询。 SQL修辞 SQL值表达式 SQL 修辞 SQL(结构化查询语言)是用来访问数据库的一种语言。SQL语言有特定的修辞和词 法(单词、特征等),据此构造数据库引擎可以理解的查询或命令。 SQL由一系列的命令组成。命令由一系列按照语法规范编写的修辞组成,以分号(;)0 码力 | 416 页 | 6.08 MB | 1 年前3
共 28 条
- 1
- 2
- 3