Curve文件系统元数据管理
inode和dentry放一个结构体。 inode → hashtable(key是ino,全局) dentry → skip list (key是name,每个目录下一个) 计算出来的 binlog,随时间会越来越大 差 DG Master/Slave glusterfs 无中心化服务器 dht算法 hash 扩展时大量迁移 client缓存 inode→ hashtable(gfid) offset) etcd 差 块设备,最小10GB segment + chunk raft 块设备的元数据管理 cephfs 3、各内存结构体 时间复杂度 空间复杂度 特点 可用实现 Btree 一个节点上保存多条数据,减少树的层次(4~5层),方便从盘上读取数据,减少去盘上读取次数。适合在盘上和内存组织目录树。 google,https://github ,(LGPL) ee/master/src hash table O(1)~O(n) O(n) + table 需要占用额外空间,性能和hash表的大小有关,最理想可以达到O(1)复杂度,最差O(n)复杂度。 c++ stl unordered_map moose,使用c实现 4、curve文件系统的元数据内存组织 curve文件系统元数据主要有3个类型,inode,0 码力 | 24 页 | 204.67 KB | 5 月前3MySQL 兼容性可以做到什么程度
Debezium A: PolarDB-X 全局 Binlog:完全兼容 • 与 MySQL Binlog 体验完全一致 • 保障分布式事务完整性 • 透明:下游系统或工具改造成本为零 • 实现复杂度高 Q: 分布式数据库有哪些问题要考虑Demo for Global Binlog with Flink CDCPolarDB-X Global Binlog 特性详情 提供与 MySQL 生态下游透明对接能力0 码力 | 18 页 | 3.02 MB | 5 月前3Curve元数据节点高可用
t端无法写入。 因此,mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务,称该提供服务的mds节点为主,等待节点为备;主节点的服务挂掉之后,备节点能启动服务,尽量减小服务中断的时间。 需要解决的问题就是:如何确定主备节点。 2. 技术选型 提供配置共享和服务发现的系统比较多,其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块,一是mysql, server维持租约。这里涉及到租约的时间 LeaseTime,租约KeepAlive的时间间隔是1/3的LeaseTime nextKeepAlive := time.Now().Add((time.Duration(karesp.TTL) * time.Second) / 3.0) ②定期去etcd server中get leader/MDS1,看是否还存在。这里涉及到定期get的时间 PeriodicGetTime, 以及get超时的时间 GetTimeout ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 19 of 30 1. 2. 1. 该部分涉及到的参数说明: 参数 说明 当前配置 ElectionTimeout etcd集群leader选举的超时时间 3s LeaseTime mds当选leader之后,与etcd集群维持租约的过期时间 租约0 码力 | 30 页 | 2.42 MB | 5 月前3Curve核心组件之mds – 网易数帆
将当前上报的 copyset 信息提交给调度模块, 获取该 copyset 上可能需要执行的任务。 • HealthyChecker: 检查集群中的 chunkserver 在当前时间点距 离上一次心跳的时间,根据这个时间差更新chunkserver状态。 Chunkserver端:chunkserver 端的心跳由两个部分组成: • ChunkServerInfo/CopySetInfo: 获取当前 server在线,正常服务。 • Unstable: chunk server一段时间没收到心跳(默认 30s),但是还没有到达offline的时间(默认 30min),chunkserver状态改为unstable状态,打 印一条warning日志。 • Offline :chunk server超过offline的时间没有收到心 跳(默认30min), chunkserver状态改为offline, chunkserver状态改为offline, 打印一条error日志。调度模块感知到offline状态, 触发chunk server的recover修复。 心跳正常 心跳正常 超过miss时间 未超过offline时间 UNSTABLE ONLINE OFFLINESCHEDULE Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。0 码力 | 23 页 | 1.74 MB | 5 月前3Curve质量监控与运维 - 网易数帆
beta版的bug修复代码先合入master分支,再cherry-pick到release-x.y分支; beta版bug修复完成后,打rc版标签(可能有多个rc版),上线到测试环境; 经bug修复和长时间运行测试后,若代码达到正式上线标准,则发布正式版。 v1.0.0-beta v1.1.0-beta master v1.1.0-rc0 release-1.1 v1.0.0-rc0 v1.0 Curve的系统测试一般是由QA来完成,包含: 常规测试,主要是新增功能的手工测试; 性能测试,将性能数据与基准对照,确定性能没有出现预期外的下降或提升; 稳定性测试,在正常压力下运行足够长的时间; 异常测试,在正常流程中注入一种软硬件异常; 混沌测试,大压力多级故障(随机组合软硬件异常)。 在系统测试过程中,我们尽可能将所有用例自动化,其优点是: 大幅降低了测试回归成本,加快了测试进度; request等) 用例设计原则 无需绑定特定环境,“随意拉起” 配置化(测试环境、测试负载定义) 控制用例时间(考虑一些折中方案) Case独立性 Case通用性(兼顾curve、ceph等) Tag规范(优先级、版本、运行时间) 最大化覆盖率(打乱操作顺序、随机 sleep) 精确性(checkpoint) 稳定性(避免环境因素、其他模块干扰)0 码力 | 33 页 | 2.64 MB | 5 月前3Curve核心组件之Client - 网易数帆
处理逻辑是sleep一个较短时间后重试,但是存在两种特殊的场景: Chunkserver Overload: 这种情况下,对应的RPC Response中返回的错误码是OVERLOAD,说明底层Chunkserver正在处理的 请求数量过多。按照一般重试逻辑,大概率情况下重试请求还是返回OVERLOAD,造成用户IO请求一直 无法返回。 加入睡眠时间指数退避,并加入一个随机值,避免sleep后大量重试又碰撞到一起。 eep后大量重试又碰撞到一起。 RPC超时: 请求在chunkserver端处理请求处理时间长,导致请求的返回时间超过了预期的RPC超时时间。 这种情况下,如果重试请求的RPC超时时间不发生变化,也有可能会重复上述流程,导致用户IO请求迟迟 未能返回。所以,在这种情况下,重试请求会将RPC超时时间进行增加。CURVE基本架构 01 02 03 04 Client总体介绍 热升级NEBD总体介绍0 码力 | 27 页 | 1.57 MB | 5 月前3CurveFS方案设计
© XXX Page 1 of 14 CurveFS方案设计(总体设计,只实现了部分)© XXX Page 2 of 14 时间 修订人 修订内容 2021-03-23 李小翠 初稿(背景,调研,架构设计) 2021-03-30 李小翠 增加快照部分 2021-04-13 李小翠、陈威 补充元数据数据结构 2021-04-19 李小翠、吴汉卿、许超杰等 补充文件空间分配,讨论与确认 背景 文件中,binlog采用定期dump的方式删除。基于这种方式的开发: a. 性能 加载:数据量较大的情况下,元数据节点启动较慢;但是元数据使用 master-slave 可以降低 failover 情况下的加载时间 b. 扩展性/可用性/可靠性 扩展性不够,受限于单机的内存和磁盘,只能纵向扩展 可用性足够,由于是 master-slave 的方式,master 以同步方式调用 slave,slave 小文件可以共用 chunk 文件的目录数结构有单独的元数据节点存储 元数据包含两层映射,dentry,inode inode 在每个文件系统中是全局唯一的,inode 中包含文件的信息,包括用户,时间,软/硬链,数据分布等 元数据架构 元数据包含两个部分 卷的元数据管理 这部分 mds 已经实现。在上面架了一层文件系统后,卷信息中还需要包含文件系统元数据的路由信息 文件系统的元数据管理 需要记录0 码力 | 14 页 | 619.32 KB | 5 月前3Raft在Curve存储中的工程实践
日志条目到他们的状态机中。 • Candidate: 发起选举。获取大多数选票的候选人将 成为领导者。 • Follower: 响应来自其他服务器的请求,如果接受不 到消息,就变成候选人并发起一次选举。 • 时间被划分成一个个的任期,每个任期开始都是一次 选举。 • 选举成功,领导⼈会管理整个集群直到任期结束。 • 选举失败,这个任期就会没有领导⼈⽽结束。 raft选举leader raft任期RAFT协议简介 new),一旦共同一 致已经被提交,系统切换到新的配置(new)。RAFT协议简介 日志压缩 • 日志会不断增长,占用空间 • 采用快照的方式压缩日志 • 在某个时间点,整个系统的状态都以快照的形式写入 到稳定的持久化存储中 • 完成一次快照之后,删除时间点之前的所有日志和快 照。BRAFT简介 • raft协议提出之后,涌现出了非常多的实现,比如etcd,braft,tikv等。 • braft是r0 码力 | 29 页 | 2.20 MB | 5 月前3curvefs client删除文件和目录功能设计
nlink==0的inode id, inode结构保存在原地,进入trash时记录进入trash的时间。 trash需要定期扫描freelist中的inode id, 当发现 大于7天(可配置)时,将inode清理,同时删除相关数据(s3上和卷上的)。 inode没有被打开已经进入trash时间 trash中需要区分inode是否被打开,以帮助工具在查询时,展示inode进入trash的情况, 高可用之后,怎么通知另外两个metaserver,需要再考虑) 需要实现在metaserver close file的接口,移除session。 实现metaserver端session模块,如果长时间收不到client refresh session,即session超时,此时清理该client的所有文件打开的session记录。 工具实现: 工具需要实现查询各个parition,组织展示trash中数据;0 码力 | 15 页 | 325.42 KB | 5 月前3CurveFS S3数据整理(合并碎片、清理冗余)
读失败的时候retry, 或许可以重拉metadata 整理后, mds在一个时间间隔内主动告知client这个inode元数据缓存失效, 重拉 写: 只是对chunkinfolist做新增, 不影响整理对原有部分的变更 删除: 已标记为删除的inode不进行整理, 已经在整理的任务不会被新的删除标记的请求打断. 如果标记删除到实际删除之间的时间间隔非常短, 并且在标记删除前已经开始了整理任务, 可能会出现边删除边整理的状态(出现概率较小)0 码力 | 3 页 | 101.58 KB | 5 月前3
共 19 条
- 1
- 2