Curve质量监控与运维 - 网易数帆
C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理0 码力 | 33 页 | 2.64 MB | 5 月前3在Kubernetes上部署高可用的Service Mesh监控
在 k8s 上部署高可用的 service mesh 监控 pctang@caicloud.io 唐鹏程 才云科技TOC Solving issues in a new way Monitoring your service mesh Old-school monitoringPrometheus + Kubernetes ● A time series based monitoring0 码力 | 35 页 | 2.98 MB | 5 月前336-云原生监控体系建设-秦晓辉
云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 5 月前3探讨和实践基于Istio的微服务治理事件监控
探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 来自于浙江大学SEL实验室目录 CONTENTS 微服务平台的监控演进 Mixer组件的功能介绍 Mixer组件的功能介绍 基于Mixer的开发流程和实例微服务平台的监控演进典型的运维场景 传统的监控面临容器化和微服务化的困境 测试运维沟通鸿沟,如何提升沟通效率 监控工具繁杂,如何快速找到合适工具进行问题定位 偶发性问题场景复杂,如何保留发生现场 如何在错综复杂的未服用调用链路中找到错误源头监控场景转换 帮助运维人员快速的定位问题,解决问题 基于容器化和微服务化的监 控场景 • 基于请求的依赖追踪监控 基于虚拟化的监控场景 • 应用规模大 • 服务之间依赖呈现为线型 • 日志、性能指标需要集中化 存储 基于主机的监控场景 • 应用规模较小 • 服务之间没有互相依赖 • 日志、性能指标都在单个主 机问题一:什么是用户想要的监控 什么是用户想要的监控?分布式监控的三个维度 Metrics Logging Tracing 指标监控 • 指标可被聚合0 码力 | 29 页 | 8.37 MB | 5 月前3分布式NewSQL数据库TiDB
43 43 43 46 49 49 52 53 55 57 57 58 58 59 60 备份恢复 备份恢复 设置备份策略 调整⾃动备份策略 ⼿动备份 删除备份数据 备份恢复 Dashboard/监控访问 监控访问 代理节点 配置访问代理 访问 实例 实例 创建TiDB Serverless实例 查看TiDB实例列表 查看TiDB实例详情 删除TiDB实例 ⽤户 ⽤户 添加⽤⼾及权限 调整⽤⼾权限 重制⽤⼾密码 UCloud 优刻得 5/120 85 86 86 88 93 93 95 96 99 100 100 101 103 103 104 105 105 105 105 105 参数列表 告警通知 告警通知 创建告警模板 绑定资源 SSL 证书管理 证书管理 进⼊管理⻚⾯ 添加 SSL 证书 证书格式 开启 SSL 配置 关闭 SSL 配置 删除 SSL 证书 查看证书详情 安全组 安全组 查看安全组 如何查看当前版本 ⽬录 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 7/120 119 119 119 119 Q17: 如何查看慢查询 Q18: 监控图看有慢查询, 但是information_schema.cluster_slow_query表中⽆法查询到? Q19: 如何处理 TiCDC 创建同步任务或同步到 MySQL 时遇到 Error 1298:0 码力 | 120 页 | 7.42 MB | 5 月前3Nacos架构&原理
的路由问题,解决用户环境与 Nacos 物理环境 映射问题。 CMDB:解决元数据存储,与三方 CMDB 系统对接问题,解决应用,人,资源关系。 Metrics:暴露标准 Metrics 数据,方便与三方监控系统打通。 Trace:暴露标准 Trace,方便与 SLA 系统打通,日志白平化,推送轨迹等能力,并且可以和计 量计费系统打通。 接入管理:相当于阿里云开通服务,分配身份、容量、权限过程。 客户端基于当前可用的长链接进行配置的查询,发布,删除,监听,取消监听等配置领域的 R PC 语意接口通信。 ○ 感知配置变更消息,需要将配置变更消息通知推送当前监听的客户端;网络不稳定时,客户端 接收失败,需要支持重推,并告警。 ○ 感知客户端连接断开事件,将连接注销,并且清空连接对应的上下文,比如监听信息上下文清 理。 Server 之间通信 ○ 单个 Server 需要获取到集群的所有 Server 间的列表,并且为每⼀个 五、基于长链接的⼀致性模型 1. 配置⼀致性模型 sdk-server ⼀致性 53 > Nacos 架构 server 间⼀致性 Server 间同步消息接收处理轻量级实现,重试失败时,监控告警。 断网:断网太久,重试任务队列爆满时,无剔除策略。 2. 服务⼀致性模型 Nacos 架构 < 54 sdk-server 间⼀致性 server 间⼀致性 55 > Nacos 架构0 码力 | 326 页 | 12.83 MB | 9 月前3TiDB v8.2 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 82 3.4.6 HTAP 性能监控 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 805 8.6.8 监控与图表 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 871 9 监控与告警 872 9.1 TiDB 监控框架概述· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 4987 页 | 102.91 MB | 9 月前323-云原生观察性、自动化交付和 IaC 等之道-高磊
驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 标识记录并还 原发生一次分 布式调用的完 整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过0 码力 | 24 页 | 5.96 MB | 5 月前3TiDB v8.5 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 102 3.4.6 HTAP 性能监控 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 764 7.4 监控告警 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 768 7.4.1 TiCDC 基本监控指标 · · · · · · · · · · · · · · · · · · · 768 7.4.2 TiCDC 详细监控指标 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 773 7.4.3 TiCDC 集群监控报警规则 · · · · · · · · · · · · · · ·0 码力 | 5095 页 | 104.54 MB | 9 月前3TiDB v8.4 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 98 3.4.6 HTAP 性能监控 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 869 8.6.8 监控与图表 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 937 9 监控与告警 938 9.1 TiDB 监控框架概述· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 9 月前3
共 94 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10