Curve质量监控与运维 - 网易数帆
C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程0 码力 | 33 页 | 2.64 MB | 5 月前3阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 ASI 平台 kubelet/Pouch CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控 • 内核性能指标采集 • 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统0 码力 | 21 页 | 7.81 MB | 5 月前3TVM工具组
绝赞招聘中 TVM CAFFE 前端 2019·11·16绝赞招聘中 TVM 在平头哥 • 工具链产品 平头哥芯片平台发布的配套软件中, TVM 是工具链产品的重要组成部分: 负责将预训练好的 caffe 或者 tensorflow 的模型,转换到 LLVM IR,最后生成可以在无剑 SoC 平台上 执行的二进制。绝赞招聘中 为何添加 caffe 前端? 客户需求 评估 评估阶段:客户用于评估芯片的网络,caffe 模型占很大比重。 竞品已支持 caffe 前端 当前各大芯片厂商的部署工具大多数都支持,支持 caffe 前端有利于提高竞争力。 开源社区 存量的开源 caffe 网络模型众多,TVM 直接支持 caffe 让大家更方便尝试 caffe 资源。绝赞招聘中 当前进度 无 caffe 依赖 from_caffe 直接导入 caffe 模型文件,不需要预先安装 flatten / normalize / crop / proposal / roipooling / permute / priorbox绝赞招聘中 未来 命令行工具 将 caffe 模型转换的功能,通过一组命令行工具提供,命令行工具支持 windows / linux 平台。 支持更多 caffe op / net 随着客户需求和社区发展,提供更多的 caffe 分支变种的 op / net0 码力 | 6 页 | 326.80 KB | 5 月前31.3 Go practices in TiDB 姚维
Go Practices in TiDB 姚维 PingCAP wink@pingcap.com Agenda ● How to build a stable database ○ Schrodinger-test platform ○ Failpoint injection ○ Goroutine-leak detection ● Optimization ○ Chunk vs interface{}0 码力 | 32 页 | 1.76 MB | 5 月前323-云原生观察性、自动化交付和 IaC 等之道-高磊
全生命周期API管理-1 服务是从内研发视角来看的,但是对于外部消费者只想找到并集成API而已,并不想了解API背后的运维细节或者需要协调运维能力!API成了一 种可以交易的商品,可以购买增强自己APP的能力,比如在自己APP里显示天气预报数据,从外部去管理应用平台,形成了一种新PaaS组织方式。 • 逻辑API:已有API的组 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作0 码力 | 24 页 | 5.96 MB | 5 月前327-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊
高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-2 • 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 平台位于云端,而推 理计算位于BOX端,并 且能够适应各类算法 和硬件的要求,形成 一个通用计算平台, 为了进一步加速业务APP交付速度,而专业业务人员并不熟悉IT领域知识,但是低代码可以使得非IT人员快速构建业务系统成为可能,低代码平台是业 务研发和运行一体的平台,其内部实现并不容易,想落地更不容易,关键在于人们现在存在巨大的误区!工具思维导致落地艰难! 业务沟通、需求分析与设计的交流平台 低代码平台表达的是业务逻辑。低代码平台的作用是将业务需求中的逻辑关系理清楚,帮助企业实现这个逻辑。 好的低代码平台要能适应企业的需求变化,提供需求变更管理 应商锁定会阻碍多云方法所带来的创造力、可用性和流动性。 • 云原生PaaS可以屏蔽多云的差异, 统一的不分何种云上的一致的运行 同一服务或者应用。 • 避免厂家锁定,客户可以自由选择 资源分布和费用组合,更加灵活。 • 中心云统一纳管运维和输出服务。 • 是一种以资源视角的云交付形式, 不同于混合云,底层云的资源使用 地位等同。 AWS Aliyun Azure 云中立 高级能力-分布式云(交付角度) 分布式云(Distributed0 码力 | 20 页 | 5.17 MB | 5 月前3Nacos架构&原理
就是本书 介绍的主角 Nacos,经过三年时间的发展,Nacos 已经被大量开发者和企业客户用于生产环境,本 书详尽介绍了 Nacos 的架构设计、功能使用和最佳实践,推荐分布式应用的开发人员、运维人员和 对该领域感兴趣的技术爱好者阅读。 推荐序 < 8 Facebook 工程师 & CNCF 前 TOC 成员 - 李响 服务注册、发现与配置管理是构成大型分布式系统的基石。Nacos 是集成了这三种能力的现代化、 的崛起,微服务多个模块逐步被划分,包括注册中心、配置中心,如果从 产品定位上,期望定位简单清晰,利于传播,我们需要分别开源我们内部产品,这样又会分散我们 品牌和运营资源。另外大部分客户没有阿里这么大的体量,模块拆分过细,部署和运维成本都会成 倍上涨,而且阿里巴巴也是从最早⼀个产品逐步演化成 3 个产品的,因此我们最终决定将内部三个 产品合并统⼀开源。定位为:⼀个更易于构建云原生应用的动态服务发现、配置管理和服务管理平 台。由于我们在阿里内部发展了 出来独立管理,以独立的配 置文件的形式存在。目的是让静态的系统工件或者交付物(如 WAR,JAR 包等)更好地和实际的物 理运行环境进行适配。配置管理⼀般包含在系统部署的过程中,由系统管理员或者运维人员完成这 个步骤。配置变更是调整系统运行时的行为的有效手段之⼀。 配置管理 (Configuration Management) 在 Nacos 中,系统中所有配置的存储、编辑、删除、灰度管理、历史版本管理、变更审计等所有0 码力 | 326 页 | 12.83 MB | 9 月前3TiDB中文技术文档
JSON 函数 GROUP BY 聚合函数 其他函数 精度数学 SQL 语句语法 数据定义语句 (DDL) 数据操作语句 (DML) 事务语句 数据库管理语句 Prepared SQL 语句语法 实用工具语句 JSON 支持 Connectors 和 API TiDB 事务隔离级别 错误码与故障诊断 与 MySQL 兼容性对比 TiDB 内存控制文档 Bit-value Literals Boolean NULL Values 数值字面值 字符串字面值 TiDB 用户文档 高级功能 历史数据回溯 垃圾回收 (GC) TiDB Ansible 常见运维操作 TiDB 运维文档 Try TiDB - 3 - 本文档使用 书栈(BookStack.CN) 构建 TiDB 运维文档 软硬件环境需求 部署集群 Ansible 部署方案(强烈推荐) 离线 Ansible 部署方案 Docker 部署方案 Docker 扩容缩容 集群扩容缩容方案 使用 Ansible 扩容缩容 升级 升级组件版本 TiDB 2.0 升级操作指南 性能调优 备份与迁移 备份与恢复 数据迁移 数据迁移概述 数据迁移 故障诊断 TiDB 周边工具 Syncer Loader TiDB-Binlog PD Control TiKV Control TiDB Controller TiDB-Binlog 部署方案 - 4 - 本文档使用 书栈(BookStack0 码力 | 444 页 | 4.89 MB | 5 月前3TiDB v8.4 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 68 2.3.11 管理,可视化和工具· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 217 4.4.1 GUI 数据库工具· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 489 4.14 第三方工具支持 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 494 4.14.1 TiDB 支持的第三方工具 · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 9 月前32024 中国开源开发者报告
大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 1:中国开源开发者生态数据 04 | Gitee 数据篇 Part 3:国内 GenAI 生态高亮瞬间 104 | 17 / 111 OSS Compass Insight 本部分图表仅用于数据展示,不涉及先后排名 稳健性-活跃度 作为 AI 开发生态中的关键组 成部分,本部分图表中的开发 框架、大模型及相关工具在活 跃度的表现各有千秋。 如应用开发平台 Dify 受行业 技术更新影响较小,其活跃度 始终保持着较高水平;而大语 言模型 MOSS 则较易受技术 更新影响,活跃度随时间整体 呈下滑趋势。 180 码力 | 111 页 | 11.44 MB | 8 月前3
共 165 条
- 1
- 2
- 3
- 4
- 5
- 6
- 17