Curve质量监控与运维 - 网易数帆
C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程0 码力 | 33 页 | 2.64 MB | 5 月前3阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 ASI 平台 kubelet/Pouch CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控 • 内核性能指标采集 • 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统0 码力 | 21 页 | 7.81 MB | 5 月前3TVM工具组
绝赞招聘中 TVM CAFFE 前端 2019·11·16绝赞招聘中 TVM 在平头哥 • 工具链产品 平头哥芯片平台发布的配套软件中, TVM 是工具链产品的重要组成部分: 负责将预训练好的 caffe 或者 tensorflow 的模型,转换到 LLVM IR,最后生成可以在无剑 SoC 平台上 执行的二进制。绝赞招聘中 为何添加 caffe 前端? 客户需求 评估 评估阶段:客户用于评估芯片的网络,caffe 模型占很大比重。 竞品已支持 caffe 前端 当前各大芯片厂商的部署工具大多数都支持,支持 caffe 前端有利于提高竞争力。 开源社区 存量的开源 caffe 网络模型众多,TVM 直接支持 caffe 让大家更方便尝试 caffe 资源。绝赞招聘中 当前进度 无 caffe 依赖 from_caffe 直接导入 caffe 模型文件,不需要预先安装 flatten / normalize / crop / proposal / roipooling / permute / priorbox绝赞招聘中 未来 命令行工具 将 caffe 模型转换的功能,通过一组命令行工具提供,命令行工具支持 windows / linux 平台。 支持更多 caffe op / net 随着客户需求和社区发展,提供更多的 caffe 分支变种的 op / net0 码力 | 6 页 | 326.80 KB | 5 月前31.3 Go practices in TiDB 姚维
Go Practices in TiDB 姚维 PingCAP wink@pingcap.com Agenda ● How to build a stable database ○ Schrodinger-test platform ○ Failpoint injection ○ Goroutine-leak detection ● Optimization ○ Chunk vs interface{}0 码力 | 32 页 | 1.76 MB | 5 月前323-云原生观察性、自动化交付和 IaC 等之道-高磊
全生命周期API管理-1 服务是从内研发视角来看的,但是对于外部消费者只想找到并集成API而已,并不想了解API背后的运维细节或者需要协调运维能力!API成了一 种可以交易的商品,可以购买增强自己APP的能力,比如在自己APP里显示天气预报数据,从外部去管理应用平台,形成了一种新PaaS组织方式。 • 逻辑API:已有API的组 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作0 码力 | 24 页 | 5.96 MB | 5 月前327-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊
高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-2 • 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 平台位于云端,而推 理计算位于BOX端,并 且能够适应各类算法 和硬件的要求,形成 一个通用计算平台, 为了进一步加速业务APP交付速度,而专业业务人员并不熟悉IT领域知识,但是低代码可以使得非IT人员快速构建业务系统成为可能,低代码平台是业 务研发和运行一体的平台,其内部实现并不容易,想落地更不容易,关键在于人们现在存在巨大的误区!工具思维导致落地艰难! 业务沟通、需求分析与设计的交流平台 低代码平台表达的是业务逻辑。低代码平台的作用是将业务需求中的逻辑关系理清楚,帮助企业实现这个逻辑。 好的低代码平台要能适应企业的需求变化,提供需求变更管理 应商锁定会阻碍多云方法所带来的创造力、可用性和流动性。 • 云原生PaaS可以屏蔽多云的差异, 统一的不分何种云上的一致的运行 同一服务或者应用。 • 避免厂家锁定,客户可以自由选择 资源分布和费用组合,更加灵活。 • 中心云统一纳管运维和输出服务。 • 是一种以资源视角的云交付形式, 不同于混合云,底层云的资源使用 地位等同。 AWS Aliyun Azure 云中立 高级能力-分布式云(交付角度) 分布式云(Distributed0 码力 | 20 页 | 5.17 MB | 5 月前3TiDB中文技术文档
JSON 函数 GROUP BY 聚合函数 其他函数 精度数学 SQL 语句语法 数据定义语句 (DDL) 数据操作语句 (DML) 事务语句 数据库管理语句 Prepared SQL 语句语法 实用工具语句 JSON 支持 Connectors 和 API TiDB 事务隔离级别 错误码与故障诊断 与 MySQL 兼容性对比 TiDB 内存控制文档 Bit-value Literals Boolean NULL Values 数值字面值 字符串字面值 TiDB 用户文档 高级功能 历史数据回溯 垃圾回收 (GC) TiDB Ansible 常见运维操作 TiDB 运维文档 Try TiDB - 3 - 本文档使用 书栈(BookStack.CN) 构建 TiDB 运维文档 软硬件环境需求 部署集群 Ansible 部署方案(强烈推荐) 离线 Ansible 部署方案 Docker 部署方案 Docker 扩容缩容 集群扩容缩容方案 使用 Ansible 扩容缩容 升级 升级组件版本 TiDB 2.0 升级操作指南 性能调优 备份与迁移 备份与恢复 数据迁移 数据迁移概述 数据迁移 故障诊断 TiDB 周边工具 Syncer Loader TiDB-Binlog PD Control TiKV Control TiDB Controller TiDB-Binlog 部署方案 - 4 - 本文档使用 书栈(BookStack0 码力 | 444 页 | 4.89 MB | 5 月前3curvefs client删除文件和目录功能设计
chubaofs实现了强制从freelist中移除inode的机制,同样是使用设置DeleteMarkFlag的方式。 chubaofs也实现了查询机制,来查询处于freelist当中的inode的情况,以便与运维,这一部分没有细看。 优点: 实现简单,开发代价小,且后续可以增加metaserver端打开(session)等机制,向着moosefs的演进也是可以的。 我们的整个架构设计本身就类似chub hubaofs的成熟方案,说明是已经被验证过是可行的方案。 缺点: 由于link、unlink等接口涉及跨服务器的两个请求的处理,可能会存在孤儿inode的问题,这一情况,chubaofs是通过运维手段去修复,见遗留问题。moosefs由于单mds,不存在这个问题。 方案设计思考 首先我们可以确定以下几个设计点: 删除的大致过程如下,首先移除dentry,然后移除inode,可 inode id 由于inode放在原地,那么由于dentry已经被删除,那么查询工具就较为复杂,不能复用原有的client逻辑,需要组织成moosefs那样的meta文件系统可能需要引入额外的复杂性,但是依然可以实现简单的 工具查询。 由于该方案,删除的inode是分散于每个partition中,那么查询工具可能需要遍历所有partion去查询所有的删除inode。 第二种方案: 将ino0 码力 | 15 页 | 325.42 KB | 5 月前3探讨和实践基于Istio的微服务治理事件监控
Service Mesh Meetup #4 上海站 探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 Mixer组件的功能介绍 基于Mixer的开发流程和实例微服务平台的监控演进典型的运维场景 传统的监控面临容器化和微服务化的困境 测试运维沟通鸿沟,如何提升沟通效率 监控工具繁杂,如何快速找到合适工具进行问题定位 偶发性问题场景复杂,如何保留发生现场 如何在错综复杂的未服用调用链路中找到错误源头监控场景转换 帮助运维人员快速的定位问题,解决问题 基于容器化和微服务化的监 控场景 • 应用规模巨大 包括CPU、内存、网络、I/O读写 等信息 业务总体展示 展示当前业务相关数据的 从宏观上快速定位问题,在微观上找到问题根因的 监控方案问题二:现有的系统能否完全满足需求 现有系统如何满足运维需求Istio现有的监控体系 指标监控 分布式追踪 日志系统Zipkin的架构图 Google Dapper Zipkin的实现EFK和Prometheus的架构图 DC1 DMZ Intranet0 码力 | 29 页 | 8.37 MB | 5 月前322-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊
软件组件 运行环境 部署平台 …… …… 应用丰富及架构演进带来的开发和运维复杂性 本地IDC 虚拟化 超融合 公有云 …… 测试环境 生产环境 复杂的应用软件架构,在开发、测试、运维 团队之间建成了认知的“墙”,团队间配合效 率低,故障排查慢,阻碍了软件价值的流动 无法满足用户对于业务快速研发、 监控粒度难以满足微服务应用运维的需要,线上问题难以排查定位,往往需要研发介入 我们需要一种新型的、为云而生的业务承载平台,去应对上述问题。 微服务应 用 大型 单体 应用 VM/服务器 VM/服务 器 VM/服务 器 VM/服务 器 目 标 支持微服务级别的细粒度资源隔离 支持快速扩缩容 支持热升级,服务更新不影响业务可用性 支持服务的快速地部署、扩展、故障转移 支持更细致、自动化的运维,快速恢复 年 P i v o t a l 提 出 云 原 生 概 念 P i v o t a l 、 C N C F 同 时 提 出 云 原 生 是 一 种 充 分 利 用 云 计 算 优 势 构 建 和 运 行 应 用 的 方 式 。 D o c k e r 被 认 为 是 能 够 适 应 于 云 原 生 理 念 的 技 术 , 而 微 服 务 被 认 为 是 适 合 D o c k e r 这 种 环0 码力 | 42 页 | 11.17 MB | 5 月前3
共 73 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8