并行不悖- OLAP 在互联网公司的实践与思考
instance实例 - user - tablesapce Ø database - schema - table,view,function - data row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构 13 greenplum体系架构 greenplum的体系结构 14 greenplum体系架构 greenplum的体系结构 (选好常用列作为三列键) Ø 分区表 (按照 yyyymmdd 分区,建议都添加 datenum int8) Ø append表 Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum备份恢复浅析
件,备份状态报告文件等 其中最核心的每个segment的数据文件,命名格式如下: xxx_gp_dump_0_2_20170206160253.gz 其中XXX表示用户定义的文件前缀,0代表是非master节点,2代表该文件产生的 segment对应dbid,20170206160253是前面所说的时间戳。在恢复时,会根据这 个命名规则,找到对应的文件。 2017 年象行中国(杭州 站)第一期 ] 数据恢复(2/2) 2017 年象行中国(杭州 站)第一期 虽然并行备份和恢复大大提高了备份和恢复的速度,但是仍 然存在很多问题: 1. 大量数据需要落盘 2. 使用dbid作为备份文件命名规则,在主备切换或者 primary和mirror后会出现问题 3. 可能会出现各个segment数据不一致的情况 …... 并⾏备份恢复存在的问题 2017 年象行中国(杭州 站)第一期 并⾏备份恢复优化(1/3) 并⾏备份恢复优化(1/3) OSS uploader uploader uploader 2017 年象行中国(杭州 站)第一期 并⾏备份恢复优化(2/3) 使用dbid作为备份文件命名规则,在主备切换或者primary 和mirror后会出现问题,例如: dbid=2 dbid=5 primary mirror test_gp_dump_0_2_20170206160253.gz0 码力 | 17 页 | 1.29 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
tablename属性的方式为分区指定个 性化的relation name,但是建议永远不要这样做,这是一个违反规范的做法(也许 可以作为一个考题,例如,如何创建一个10级分区表,因为按照缺省的分区命名规则, 到8级分区时就会出现表名重复的报错)。虽然可以使用SQL命令直接针对分区表进行查 询和装载操作,但只能通过ALTER TABLE . . . PARTITION的方式来修改分区。 从 的记 录而不是全表解压(最小单元的压缩块是要解压的)。 值得注意的是,GP会自动为主键字段创建主键索引。在分区表的ROOT表上建立索 引会自动在其相关的子表上也建立索引,分区索引的命名规则与分区表的命名规则类似, 但是,修改ROOT表的索引名称不会自动修改子分区的索引名称,这与表名的修改不同。 添加索引会带来一些资源开销 -- 其必定占用相当的存储空间,在更新数据时的 索引维护也需 *, 42) FROM t; =# SELECT ROW(t.f1, t.f2, 42) FROM t; 缺省情况下,使用ROW表达式构造匿名record类型。如果有必要,其可以转换为 命名的复合类型 -- 或者一张表的行类型,或者一个通过CREATE TYPE AS创建的复 合类型。有时为避免歧义可以进行明确的类型转换。例如: =# CREATE TABLE mytable(f10 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
(切换到template1数据库) DROP DATABASE product; 3、模式管理 、模式管理 数据库模式(schema)是包含了⼀系列数据库对象(表,数据类型,⾃定义函数)集合的命名容器。⼀个数据库可以有多个模式。不同模式不共享命名空间。public 模式是在创建数据库之后就 会默认创建的,每个⽤⼾都有权限在这个 schema 创建对象,如果不指定 schema 那么就会默认创建到这⾥。 创建⼀个模式: 2126 MB ⽅法三:创建新表,导⼊数据 ⽅法三:创建新表,导⼊数据 CREATE TABLE...AS SELECT 命令把该表拷⻉为⼀个新表,新建的表将不会出现膨胀现象。然后删除原始表并且重命名拷⻉的表。 参考: https://gp-docs-cn.github.io/docs/best_practices/bloat.html https://docs.ucloud.cn/udw/developer0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum机器学习⼯具集和案例
C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google 创办人 Larry Page来命名 Image from h_ps://en.wikipedia.org/wiki/PageRank 示例例 - PageRank 2017.thegiac.com 计算0 码力 | 58 页 | 1.97 MB | 1 年前3Pivotal Greenplum 最佳实践分享
恢复可选表清单,可指定条件恢复部分数据,可恢复到指定增备日期 Greenplum集群之间数据传输 Transfer命令 基于gpfdist和外部表实现,比基于命名管道的gptransfer更稳定高效 两个集群之间必须互相网络连通 集群之间无需ssh互信 源端与目标端对象名称可不一致 条件源端过滤,降低带条件场景的网络压力 0 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum 精粹文集
前建议使用限制模式启动 数据库,确保没有其他应用任务干扰。 Big Date2.indd 35 16-11-22 下午3:38 36 2. 分析方法和处理技巧 1) 遇到临时 schema 的问题,命名为 pg_temp_XXXXX,可以直接删除。 通过 gpcheckcat 检查后,会自动生成对临时 schema 的修复脚本。 由于临时 schema 的问题会干扰检查结果,因此,处理完后,需要 再次用0 码力 | 64 页 | 2.73 MB | 1 年前3
共 7 条
- 1