CurveFS方案设计
增加快照部分 2021-04-13 李小翠、陈威 补充元数据数据结构 2021-04-19 李小翠、吴汉卿、许超杰等 补充文件空间分配,讨论与确认 背景 调研 开源fs 性能对比 可行性分析 方案对比 对比结论 架构设计 卷和文件系统 元数据架构 文件系统快照 方案一:文件/目录级别快照 方案二:文件系统快照 关键点 元数据设计 数据结构 索引设计 文件空间管理 开发计划及安排 背景 近期要能支持mysql所要接口,长期需要支持通用文件接口。 kv 虽然改造简单,短期内对基本功能的支持没有问题,但这个架构不利于 Curve 长期的规划和演进,因此选择通用的 dentry,inode 两层映射的元数据结构。对于 fs© XXX Page 4 of 14 的场景,元数据的量比块存储场景会多很多,长期看元数据节点的设计也是需要满足高可用、高可扩、高可靠的。 因此对元数据节点的要求总结为:高可用、高可扩、高可靠、高性能。 inode 和 dentry 的数据结构( inode 和 dentry 两个结构描述 还是 由一个dentry描述所有信息) inode 和 dentry 的索引设计(btree / skiplist / hashmap ?) 元数据的持久化(以 kv 的方式存入文件?存储 rocksdb ?) 元数据节点的高可用 元数据分片策略(哪些范围的元数据存储在哪些复制组上) 数据结构 在元数据设计上,扁平化元数据(用0 码力 | 14 页 | 619.32 KB | 5 月前3CurveFS对接S3方案设计
修订人 修订内容 2021-05-20 胡遥 初稿 2021-07-20 胡遥 细化write和read流程 整体架构 整体思路 接口和关键数据结构 mds.proto client端数据结构 metaserver.proto space相关数据结构和proto 关键流程 init流程 write流程 read流程 整体架构 S3ClientAdaptor模块:负责将文件数据进行ch ,每个block最大4M,每个block对应s3上一个object。 s3上对象已chunkid_indexblock_version进行命名,元数据则已S3ChunkInfo(见数据结构)的方式存储在inode中。对于文件顺序写场景,文件0~4M的s3对象必然为chunkid_0_0,4M~8M为chunkid_1_0,以此类推, 还有一种情况是文件先写了0~2M,然后在写2M~ 对version进 行++,比如覆盖写了0~4M,则数据会写到chunkid_0_1的对象,则元数据包含了2个S3Chunkinfo{2,0,0,8M}和{2,1,0,4M}。 接口和关键数据结构 common.proto enum FSType { TYPE_VOLUME = 1; TYPE_S3 = 2; } message S3Info { required0 码力 | 11 页 | 145.77 KB | 5 月前3Curve文件系统元数据持久化方案设计
参考 前言 根据之前讨论的结果,元数据节点的架构如下图所示,这里涉及到两部分需要持久化/编码的内容: Raft Log:记录 operator log Raft Snapshot:将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+----------------+---------+----------+ vs 自己实现? 结论:从目前元数据持久化的需要来看,更倾向于自己实现,理由如下: redis 目前不支持单独持久化 redis 中的某个 DB (一个 redis 实例可包含多个 DB) 或数据结构,这对于在要使用 multiraft 的场景下,每个 raft 实例需要独立的快照并不合适 如果改造 redis,初步评估了下,其工作量要比自己实现持久化的逻辑要大一些,改造主要是为了让 redis 如果自己实现,只是一个简单的 sava/load 逻辑,比较清晰 redis 中有许多数据结构可供使用,如 (哈希、列表、set、sort_set),但对于目前的需求来说,我们内存数据结构使用的是 C++ STL 中的哈希表(unsorted_map),之后有可能根据需求换成 B+ 树或跳表,但是 redis 中的这些数据结构我们是不需要的 另外,如果 C++ 中的哈希表在后期使用中发现性能不达标的话(特别是在0 码力 | 12 页 | 384.47 KB | 5 月前3CurveFS S3本地缓存盘方案
© XXX Page 1 of 9 Curvefs-S3 本地写缓存盘方案© XXX Page 2 of 9 背景 方案设计 主要数据结构定义 方案设计思考 POC验证 背景 当前,s3客户端在写底层存储的时候是直接写入远端对象存储,由于写远端时延相对会较高,所以为了提升性能,引入了写本地缓存盘方案。也即要写底层存储时,先把数据写到本地缓存硬盘,然后再把本地缓存 硬盘中的数据异步上传到远端对象存储。 地写缓存目录中的对应文件。 同时,缓存清理模块会定时检查本地硬盘缓存目录容量情况,如果容量已经达到阈值了,则进行文件的清理工作。 另外,异常管理模块处理客户端挂掉后的文件重新上传问题。 主要数据结构定义 class DiskCacheManagerImpl : public DiskCacheManager{ public: DiskCacheManagerImpl();0 码力 | 9 页 | 150.46 KB | 5 月前3基于 APM 的智能运维体系在京东物流的落地和实践-付正全
ew Relic、云智慧、 OneAPM、AppDyn、Amics 京东物流Jtrace分布式跟踪系统 延展性 应用级透明 低消耗 智能分析 定义了四个具体的设计目标 JTrace数据结构 核心数据结构由Span, Trace, 和 TraceId组成: • Trace: 多个Span的集合; • Span: RPC跟踪的基本单元; • SpanEvent:内部方法调用基本单元 • TraceId:0 码力 | 41 页 | 3.52 MB | 1 年前3Curve支持S3 数据缓存方案
修改者 修改内容 1.0 2021/8/18 胡遥 初稿 背景 整体设计 元数据采用2层索引 对象名设计 读写缓存分离 缓存层级 对外接口 后台刷数据线程 本地磁盘缓存 关键数据结构 详细设计 Write流程 Read流程 ReleaseCache流程 Flush流程 FsSync流程 后台流程 poc测试验证 背景 基于s3的daemon版本基于基本的性能测试发现性能非常差。具体数据如下: 3InfoList。具体细节见 本地磁盘缓存 如果有配置writeBack dev,则会调用diskStroage进行本地磁盘write,最终写到s3则由diskStroage模块决定。 关键数据结构 message S3ChunkInfo { required uint64 chunkId = 1; required uint64 compaction = 2; required0 码力 | 9 页 | 179.72 KB | 5 月前3openEuler 21.09 技术白皮书
consistent buckets mutually reachable 1. 哈希表目录 : 采用哈希表来管理目录项,提高线性查找效率,减少伪共享。 2. 统一的分配器:数据结构使用统一的分配器,这样可以打破不同数据结构之间的界限,使得内存管理更加地简单 与灵活。 3. 采用软更新技术,简化了实现复杂度:软更新 (Soft Update) 是一种轻量级的保证文件系统一致性的技术。 4.0 码力 | 35 页 | 3.72 MB | 1 年前3古月《ROS入门21讲》7.ROS的核心概念.pdf
执行具体任务的进程、独立运行的可执行文件; ⚫ ⚫ ◼ ⚫ ⚫ ⚫ 节点与节点管理器 ◼ ⚫ 节点间用来传输数据的重要总线; ⚫ 使用发布/订阅模型,数据由发布者传输到订阅者, ◼ ⚫ 具有一定的类型和数据结构,包括ROS提供的标准类型和用户自定义类型; ⚫ 话题通信 ◼ ⚫ ⚫ 服务通信 话题 vs 服务 参数 ◼ ⚫ ⚫ ⚫ 文件系统 ◼ ⚫ ◼ ⚫ ◼ ⚫ 感谢观看0 码力 | 9 页 | 1.27 MB | 1 年前3CurveFS S3数据整理(合并碎片、清理冗余)
越是散乱的状态, 就越需要发送更多次读请求至s3. 最后导致无效旧数据的堆积和读请求性能的下降, 所以需要在合适的时候进行重叠元数据和数据的合并 原则是尽力而为, 并不能做到完美 方案 基于一下3个基础的数据结构, 2层索引 s3chuninfolist[index] = [s3chunkinfo(s)] s3chunkinfo { chunkid version // write0 码力 | 3 页 | 101.58 KB | 5 月前3Curve文件系统空间分配方案
DeallocateSpace(DeallocateSpaceRequest) returns (DeallocateSpaceResponse); } 空间分配器接口 空间分配器相关接口及部分数据结构定义如下: #include#include enum class AllocateType { NONE = 0, SMALL = 1 0 码力 | 11 页 | 159.17 KB | 5 月前3
共 27 条
- 1
- 2
- 3