使用Chaos Mesh来保障云原生系统的健壮性-周强
云原生社区Meetup 第三期·杭州站 使用 Chaos Mesh 来保障云原生系统的健壮性 演讲人:周强 GitHub 地址:https://github.com/zhouqiang-cl PingCAP 工程效率负责人,ChaosMesh 负责人 云原生社区Meetup 第三期·杭州站 The incident in the production environment0 码力 | 28 页 | 986.42 KB | 6 月前3云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)
究,致力于推动云原生在通信行业落地实践,全面落实好“大安全”主责主业, 以实际行动践行“国家队、主力军、排头兵”的责任担当。2022 年,我们在“联 通合作伙伴大会”发布了《中国联通云原生安全实践白皮书》,该书系统阐述了 云计算所面临的新型安全问题,介绍了云原生安全防护体系,并给出了云原生安 全防护体系建设实践。 过去一年来,我们持续深耕云原生安全领域,联合多家单位共同编写了《云 原生安全威胁分析与能 供 帮助,从而保障企业业务和数据更安全的在云上运转。 1.1 云原生及云原生安全 过去十年,企业数字化转型加速推进,相继经历了服务器、云化到云原生化 三个阶段。在云化阶段,云主机是云计算的核心负载之一,云主机安全是云安全 的核心;在云原生阶段,容器和无服务器计算成为核心工作负载,容器安全、 Serverless 安全、DevSecOps 成为云安全的核心。自开源 Docker 容器和 k8s 云原生四要素的基本含义 2020 年,云原生产业联盟发布《云原生发展白皮书》[1],指出云原生是面 向云应用设计的一种思想理念,充分发挥云效能的最佳实践路径,帮助企业构建 弹性可靠、松耦合、易管理可观测的应用系统,提升交付效率,降低运维复杂度, 代表技术包括不可变基础设施、服务网格、声明式 API 及 Serverless 等。云 原生技术架构的典型特征包括:极致的弹性能力,不同于虚拟机分钟级的弹性响0 码力 | 72 页 | 2.44 MB | 1 年前3基于Consul的多Beats接入管控与多ES搜索编排
基于Consul的多Beats接入 管控与多ES搜索编排 2 拥抱开源、释放云原生的力量 • 背景与挑战 • 多Beats/Logstash接入管控 • 多ES搜索编排系统 • 日志AIOps探索 3 背景与挑战 产品数量 人员规模 主机规模 100+ 1000 + 10000 + 如何降低日志接入门槛 如何保证日志实时上报 如何保障日志采集不影响业务 如何做配置标准化 如何帮助业务快速排障 管控 提供多产品接入管理,多beats标准 化、界面化、自动化的日志接入方案 5 案例:1000+业务10000+台 主机如何快速实现日志接入? 业务规模 1000+业务、 10000+业务主机、每天百T日志增量 日志需求 收集业务日志文件用于故障分析与告警监控 收集主机性能数据做容量分析 日志热数据保存七天 历史数据冷备一个月 其他诉求 日志上报不能影响核心业务 数据上报延时可感知 准备ES 传统Beats接入流程 配置更改 现网配置是否全部一致? 日志上报是否有延时? Filebeat是否资源消耗过多? Filebeat异常退出如 何处理? 如何做上报性能调优? 6 系统架构 云Kafka Api-server2 Consul 云ES Agent-1 Agent-N Agent-1 Agent-N 数据流 配置监听 Agent注册 配置下发0 码力 | 23 页 | 6.65 MB | 1 年前323-云原生观察性、自动化交付和 IaC 等之道-高磊
从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 硬件环境 遗留系统 安装配置点 安装配置点 安装配置点 集成点 集成点 集成点 1. 交付人员学习手册文档,需要在客户 环境做“安装配置”和“与遗留系统集成” 两方面工作。 2. 安装配置:在硬件上安装软件,不乏 针对硬件特性的适配、还需要安装OS 等,最后还要在OS上安装应用,并且 还要保证应用软件依赖拓扑结构不会 出错。 3. 集成点:包括新环境的硬件、软件和 应用与遗留系统的集成,比如,监控、 应用与遗留系统的集成,比如,监控、 服务注册中心、文件传输、消息集成、 ITSM等系统的部署集成。 4. 由于上层所依赖的底层环境在不同交 付环境中是不同的,而传统交付方式 缺乏脚本能“理解”的方式来表达这些 差异,此外由于事后更新OS、三方库 或者系统,这些变更又缺乏校验关系, 升级时很难给予企业信心,这种交付 方式很难被自动化。 标准化能力-微服务PAAS-OAM-万花筒PAAS-1-引子 客户环境交付 制品0 码力 | 24 页 | 5.96 MB | 6 月前3构建统一的云原生应用 可观测性数据平台
A的实例在一段时间内做了多少次GC? ① 看云网更清晰 Simplify the growing complexity. 数据打通并不简单 ② 应用、系统、网络的Metrics之间 例如:某个Service的Pod的QPS、IOPS、BPS分别是多少? 例如:Pod所在的KVM宿主机的CPU、内存指标? ② 看云网更清晰 Simplify the growing complexity. 数据打通并不简单 ③ growing complexity. 数据打通并不简单 ④应用、系统、网络的Log之间 例如:应用日志ERROR与Ingress日志有什么关联吗? ④ 看云网更清晰 Simplify the growing complexity. 数据打通并不简单 ⑤「非Request scope」的Log与Trace之间 例如:系统日志异常与Request时延增大是否有关联 ⑤ 看云网更清晰 Simplify Simplify the growing complexity. 数据打通并不简单 ⑥ 应用、系统、网络的Trace之间 例如:访问一个服务的耗时究竟有哪些部分组成? App,Sidecar,Node,KVM,NFVGW? ⑥ 看云网更清晰 Simplify the growing complexity. 我们需要哪些Tag?OpenTelemetry的答案 服务属性 代码属性 实例属性0 码力 | 35 页 | 6.75 MB | 1 年前325-云原生应用可观测性实践-向阳
流量 虚拟化 - KVM 业务VM 业务VM 业务VM (K8s Node) vSwitch / Bridge DeepFlow 采集器进程 业务 POD 业务 POD 采集 POD br • 宿主机+KVM + K8s混合场景,自动切换流量采集,最低消耗采集全网 业务 POD SDK Lib Sidecar Agent 分光 镜像 simplify the growing complexity Networks Technology Co., Ltd. All rights reserved. 实战8:怎样打标签 容 器 云 资源池 区域 可用区 虚拟化 宿主机 虚拟机 云服务 RDS Redis 容器 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD 应用 业务 资源组 服务名 Networks Technology Co., Ltd. All rights reserved. 全栈混合云:KVM 宿主机+容器 K8S 虚拟机Node vSwitch DeepFlow 采集器进程 业务 POD 业务 POD 采集 POD br 业务 POD 全栈混合云:KVM 宿主机+容器 K8S 虚拟机Node vSwitch DeepFlow 采集器进程 业务 POD 业务 POD 采集 POD0 码力 | 39 页 | 8.44 MB | 6 月前3consul 命令行
data-dir:此标志为代理程序存储状态提供数据目录。这是所有代理商都需要的。该目录在重新启 后应该是持久的。这对于在服务器模式下运行的代理尤其重要,因为它们必须能够持久化群集状态。 外,该目录必须支持使用文件系统锁定,这意味着某些类型的已安装文件夹(例如VirtualBox共享文 夹)可能不适合。注意:服务器代理和非服务器代理都可以在此目录中的状态中存储ACL令牌,因此 访问可以授予对服务器上的任何令牌以及 l使用来自主机的信息生成确定性节点ID,而 生成将保留在数据目录中的随机节点ID。在同一主机上运行多个Consul代理进行测试时,这非常有用 在版本0.8.5之前的Consul中默认为false,在0.8.5及更高版本中默认为true,因此您必须选择加入基 主机的ID。使用https://github.com/shirou/gopsutil/tree/master/host生成基于主机的ID ,这是 ,这是 HashiCorp的Nomad共享的 ,因此如果您选择使用基于主机的ID,那么Consul和Nomad将使用信 在主机上自动在两个系统中分配相同的ID。 ● disable-keyring-file:如果设置,密钥环将不会持久保存到文件中。关机时任何已安装的密钥都将 失,-encrypt启动时只有给定的 密钥可用。默认为false。 ● dns-port:要侦听的DNS端口。这将覆盖默认端口86000 码力 | 5 页 | 346.62 KB | 1 年前309-harbor助你玩转云原生-邹佳
Webhooks 项目配置 项目1 项目标签管理 项目扫描器设置 项目级日志 系统设置(鉴权模式等) 内容复制 垃圾回收(GC) 配额管理 扫描管理 用户管理 系统标签管理 P2P预热管理 Harbor 系统 系统级日志 搭建Harbor仓库服务 离线安装包 • 通过Docker-compose编 排运行 • 所需镜像皆打包在离线 pull/push ... Project operation & management Settings 提供以项目为单位的逻辑隔离,存储共享 不同角色具有不同的访问权限,可以与其它用户系统集成 配额管理 制品的高效分发-复制 [1] 基于策略的内容复制机制:支持多种过滤器(镜像库、tag和标签)与多种触 发模式(手动,基于时间以及定时)且实现对推送和拉取模式的支持 初始全量复制 制品安全分发-签名 [1] $ export DOCKER_CONTENT_TRUST=1 $ export DOCKER_CONTENT_TRUST_SERVER=https://主机地址>:4443 制品安全分发-签名 [2] Harbor基于Helm社区支持的GPG实现对Helm V2 chart的签名支持 helm package --sign --key 'my signing 0 码力 | 32 页 | 17.15 MB | 6 月前324-云原生中间件之道-高磊
和降低成本 默认安全策略,可以天然的规避大部分 安全问题,使得人员配置和沟通工作大 量减少,提高了整体效率! 安全右移是为了恰到好处的安全,一些非严 重安全问题,没有必要堵塞主研发流程,可 以交于线上安全防御系统。提高了整体实施 效率! 安全编排自动化和响应作为连接各个环 节的桥梁,安全管理人员或者部分由 AIOps组件可以从全局视角观察,动态 调整策略,解决新问题并及时隔离或者 解决! DevSecOps 术手段 可以自动化的对非预计风险进行识别和风险隔离 对系统性能有一定影响 可信计算 核心目标是保证系统和应用的完整性,从而保证系统按照设计预期所规 定的安全状态。尤其是像边缘计算BOX这种安全防护,根据唯一Hash值验 证,可以实现极为简单的边云接入操作,运行态并不会影响性能。 可信根一般是一个硬件,比如CPU或者TPM,将从 它开始构建系统所有组件启动的可信启动链,比 如UEFI、loader、OS、应用等,可以确保在被入侵 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 高并发: 满足千万级并发访问 存算分离: 按需分别订购计算与存储,成本低、故障恢复快 利用HTAP模式,可以将查询和分析合并 起来,更加节约成本,并提高了性能0 码力 | 22 页 | 4.39 MB | 6 月前322-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊
OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 各行业IT应用系统不断丰富与创新 总部 机关 内部员工 分支 机构 内部员工 移动 接入 内部员工/合作伙伴 OA CRM HRM …… BPM MES 稳态IT WEB APP 移动用户 采购 平台 稳定交付的要求 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时、按需扩展/收缩所 用资源? 场景 3 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 资源? 场景 3 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加0 码力 | 42 页 | 11.17 MB | 6 月前3
共 25 条
- 1
- 2
- 3