内存安全 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Raft在Curve存储中的工程实践

raft可以解决分布式理论中的CP，即一致性和分区容忍性 • 大多数副本成功即可返回成功 • 速度取决于写的较快的大多数RAFT协议简介 • Leader：负责从客户端接受日志，把日志复制到其他服务器，当保证安全性的时候告诉其他服务器应用日志条目到他们的状态机中。 • Candidate: 发起选举。获取大多数选票的候选人将成为领导者。 • Follower: 响应来自其他服务器的请求，如果接受不到消息，就变成候选人并发起一次选举。 raft任期RAFT协议简介 raft复制状态机 1. leader收到客户端的请求。 2. leader把请求指令记录下来，写入日志，然后并⾏发给其他的服务器，让他们复制这条⽇志。 3. 当这条⽇志条⽬被安全的复制，leader会应⽤这条⽇志条⽬到它的状态机中。 4. 然后把执⾏的结果返回给客户端。 • 提供命令在多个节点之间有序复制和执行，当多个节点初始状态一致的时候，保证节点之间状态一致。 raft的apply，直接在对应的chunk上写入数据。Curve文件存储RAFT应用 Curve文件存储 • 分布式文件系统 • 支持多挂载，提供close-to-open一致性 • 提供缓存加速，可使用内存、本地盘、云盘加速 • 存储后端可对接对象存储，降低成本 • 支持生命周期管理 Curve文件存储架构 • client：接受用户请求，采用fuse的方式挂载挂载使用。 • 元数据集群：mds

0 码力 | 29 页 | 2.20 MB | 5 月前
3
PFS SPDK: Storage Performance Development Kit

2 Why ●为了减少使用cpu做内存copy，减少系统调用 ●发挥某些被操作系统屏蔽的功能，例如nvme write zero ●根据阿里《When Cloud Storage Meets RDMA》的说法 ●在100Gbps网络带宽时，内存带宽成为瓶颈 ●Intel Memory Latency Checker (MLC)测试得到的CPU内存带宽是 61Gbps10/17/22 3 3 RDMA可以减轻CPU负担 ●可以减少CPU操作网络通讯的开销 ●读写内存都由网卡进行offload ●应用程序不再通过系统调用在内核和用户态来回切换10/17/22 4 磁盘的读写 ●基于EXT4的存储引擎，依然需要通过系统调用来回切换 ●读写都需要CPU拷贝数据 ●不能发挥某些NVME的功能，例如write zero10/17/22 5 为什么用PFS ●对代码比较熟悉 ●直接DMA读写，要求的内存必须是DPDK的hugetlb内存 ●必须符合NVME 内存读写地址对齐要求 ●offset 512对齐 ●为零copy提供接口10/17/22 10 BRPC IOBuf DMA ●修改BRPC，允许使用dpdk内存作为IOBuf的内存分配器 ●BRPC接收到的数据在IOBuf中，IOBuf直接使用于NVME DMA传输 ●使用IOBuf内存读nvme，避免自

0 码力 | 23 页 | 4.21 MB | 5 月前
3
CurveFs 用户权限系统调研

文件默认权限umask 用户&用户组文件系统用户权限管理对mode的管理对ACL（Access Control Lists）的管理 ACL Access Entry保存在哪？ ACL的表示内存中的ACL 是如何与具体的 Inode 相关联如何存储和获取ACL信息 Inode权限校验 chmod、chown、setfacl、getfacl接口文件系统自己如何实现结论：参考文献： root@pubbeta1-nostest2:/tmp# cd fsmount bash: cd: fsmount: Permission denied© XXX Page 4 of 33 查阅资料发现这是fuse的一种安全策略，默认是只有filesystem owner拥有该文件系统的访问权限，如果想要其他用户有权访问，需要在挂载参数中指定‘-o allow-root’ 或'-o allow-other'以允许相应用访问控制列表（ACL 或 POSIX ACL）是多用户系统的。与基本的 POSIX RWX 位相比，POSIX ACL 有助于对文件系统权限进行的控制。可以针对用户（User）、群组（Group）附加安全控制功能更灵活、更细粒度、默认属性掩码（umask）进行设置。 ACL是Linux系统权限额外支持的一项功能，需要文件系统的支持，例如：ReiserFS , EXT2 , EXT3 , EXT4

0 码力 | 33 页 | 732.13 KB | 5 月前
3
Curve文件系统元数据管理

1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片 5.1 分片方式一：inode和dentry都按照parentid分片 5.1.1 场景分析查找：查找/A/C。 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展小文件优化空间管理单位数据持久化其他© XXX Page 3 of 24 moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) fsedge → hashtable (parent inode + name) 全内存 chunk → hashtable(chunk chunk raft 块设备的元数据管理 cephfs 3、各内存结构体时间复杂度空间复杂度特点可用实现 Btree 一个节点上保存多条数据，减少树的层次(4~5层)，方便从盘上读取数据，减少去盘上读取次数。适合在盘上和内存组织目录树。 google，https://github.com/abseil/abseil-cpp/tree/master/absl/c

0 码力 | 24 页 | 204.67 KB | 5 月前
3
CurveFS Copyset与FS对应关系

5、读写流程 6.6、topology 7、工作评估 7.1 client端 7.2 mds端 7.3 metaserver端 metaserver 子模块拆分 8、inode和dentry的内存估算 8.1 一台机器上能存放多少个inode和dentry 8.2 一台机器上建议的copyset数量 8.3 每个copyset建议管理存储容量的大小 1、背景 curvefs使用raft 63-1的Inode id。创建meta partition的时候，选择的3个meta node组成一个复制组。如何选择？论文上写的是按照存储节点的memory和disk usage来选的，通常选择内存和disk使用率最低的节点。并去对应的meta node上去创建对应的meta partition。如何选择partition的host，通过这个函数去选择。 func (c *Cluster) []proto.Peer, err ) string error metanode是否能够创建copyset，由这个函数判断。有这些判断条件： 1、metaNode的存活状态 2、metaNode的内存使用情况 3、metaNode的磁盘使用情况© XXX Page 4 of 19 4、metaNode上的partition的个数 func (metaNode *MetaNode) isWritable()

0 码力 | 19 页 | 383.29 KB | 5 月前
3
CurveFS方案设计

现了块存储，向上提供块设备服务，CurveFS会基于此实现。第一阶段的目标是实现满足数据库场景的文件接口。调研开源fs 当前对已有的开源分布式文件系统进行了调研，主要包括系统架构，元数据内存结构，元数据持久化，调研文档如下： chubaofs: ChubaoFS© XXX Page 3 of 14 1. 2. 3. moosefs: https://kms.netease list 加速，需要新的缓存结构 c. 扩展性/可用性/可靠性依赖于第三方kv存储，目前是etcd CurveFS 单机内存元数据设计类似 fastcfs 和 moosefs 的元数据设计方式，采用通用的 dentry，inode 两层映射关系，所有的元数据都缓存在内存中，持久化在 binlog 文件中，binlog采用定期dump的方式删除。基于这种方式的开发： a. 性能加载：扩展性不够，受限于单机的内存和磁盘，只能纵向扩展可用性足够，由于是 master-slave 的方式，master 以同步方式调用 slave，slave 在内存中也缓存了全部元数据信息 master-slave 多副本数据 CurveFS 分布式元数据设计类似 chubaofs 的元数据设计方式，同样是采用 dentry，inode 两层映射关系，所有的元数据都缓存在内存中。元数据是分片的，使用

0 码力 | 14 页 | 619.32 KB | 5 月前
3
Curve文件系统元数据持久化方案设计

中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+----------------+ 的方式解决在持久化的过程中，读写冲突的问题以及性能问题实现 1、inode、entry 的编码给 inode、dentry 增加编码函数 // 这里要尽可能减少 key/value 编码后的字节数，这样同样的内存可以存入较多的 key/value 对序列化目前主要考虑以下 2 种，一种是参考 chubaofs 顺序编码，一种是利用 protobuf 直接序列化顺序编码：利用 prot only }© XXX Page 7 of 12 测试对比： 10 万条随机生成 inode 耗时 (MS) 内存 (KB) 顺序编码 13 5079 protobuf 序列化 81 4996 从对比结果来看，10 万条 inode 耗时相差不大（CPU 并不是瓶颈），内存 protobuf 消耗却更少，推介使用 protobuf 进行序列化 2、KVStore 将当前实现中的 MemoryDentryStorage

0 码力 | 12 页 | 384.47 KB | 5 月前
3
curvefs client删除文件和目录功能设计

是应对打开的文件被其他进程删除的情况必须实现某种机制，可以查看清理trash中的inode。孤儿节点只能在metaserver去定期清理，不会在client端，因为client会崩溃，也可能下线了，永远不再起来。所以实际的内存和外存中的inode的删除机制，必须是在metaserver中实现的。client端只是进行nlink-1的操作。不能完全依赖forget接口的调用来移除inode，因为client可能会崩溃，记录一条session到内存中，表示当前inode已经被client打开 client端后续的open只在本地将open num++ client端在close过程中，首先会去open num–，当发现open num==0时，也就是所有的open都已经close了，此时调用close on metaserver close on metaserver的过程，将移除内存中的session。© XXX

0 码力 | 15 页 | 325.42 KB | 5 月前
3
副本如何用CLup管理PolarDB

CLup的高可用需要VIP 操作系统：CentOS7.X 盘要求有路径：/dev/nvmeXnY  机器需求 4台虚拟机器或物理机 1台做CLup管理节点：内存大于2GB 3台做数据库节点：内存需要大于4GB，最好有反亲和性，即能分布在不同的物理机上以保证高可用性阿里云的环境中创建Polardb的方法共享盘使用阿里云自带的高性能Nvme盘，注意使用Nvme磁盘对可用

0 码力 | 34 页 | 3.59 MB | 5 月前
3
BRPC与UCX集成指南

event loop – memory register cache –config file24 UCT ●特点是比较原始，开销小，但是没有很强的功能 ●是网络接口层，主要功能是网卡发现和远程内存传输支持，提供component查询和 memory domain的打开 ●一个component包含若干 memory domain resource,一个memory domain又可以包含若干个 –Active message, atomic operation, tag match, stream27 典型的RDMA栈28 UCX 编程的一些基本概念 ●Context –收集机器资源（内存，网卡等)，在应用的各个部分共享 ●Worker –完成ucx的功能，可以在应用程序中调用的函数（不是单独执行的线程） ●Listener –接收连接请求 ●Ep –连接对象，在ep上请求发送和接收29

0 码力 | 66 页 | 16.29 MB | 5 月前
3

共 16 条前往

页

分类

语言

格式

Raft在Curve存储中的工程实践

PFS SPDK: Storage Performance Development Kit

CurveFs 用户权限系统调研

Curve文件系统元数据管理

CurveFS Copyset与FS对应关系

CurveFS方案设计

Curve文件系统元数据持久化方案设计

curvefs client删除文件和目录功能设计

副本如何用CLup管理PolarDB

BRPC与UCX集成指南