基于Consul的多Beats接入管控与多ES搜索编排
1 梁成 腾讯云, barryliang@tencent.com 基于Consul的多Beats接入 管控与多ES搜索编排 2 拥抱开源、释放云原生的力量 • 背景与挑战 • 多Beats/Logstash接入管控 • 多ES搜索编排系统 • 日志AIOps探索 3 背景与挑战 产品数量 人员规模 主机规模 100+ 1000 + 10000 + 如何降低日志接入门槛 如何降低日志接入门槛 如何保证日志实时上报 如何保障日志采集不影响业务 如何做配置标准化 如何帮助业务快速排障 如何提供方便便捷的性能分析 调优能力 … 4 多Beats/Logstash接入 管控 提供多产品接入管理,多beats标准 化、界面化、自动化的日志接入方案 5 案例:1000+业务10000+台 主机如何快速实现日志接入? 业务规模 1000+业务、 10000+业务主机、每天百T日志增量 从Consul中获取当前agent的配置组列表,并 启动多个采集进程 配置变更感知 watch到Consul对应的agent id路径,实时感 知配置变化,并对启动的进程列表做重启清理 等工作 管理多Beats/logstash Beats等以agent子进程启动其管理这些进程的 cpu/内存等资源 Agent Consul Master 获取master列表 向master发起Agent注册逻辑0 码力 | 23 页 | 6.65 MB | 1 年前3开源多集群应用治理项目Clusternet 在多点生活的云原生实践
陈鹏 开源多集群应用治理项目 Clusternet 在多点生活的云原生实践 陈鹏 多点生活 平台架构-基础架构工程师 个人简介 • 开源项目 MOSN 核心 Committer • 主要负责容器服务整体架构的设计与开发 • 主导 ServiceMesh 落地相关工作 目录 多集群管理现状 Operator 迭代 反思&重构 整体架构 • 多单元 • 多集群 • 多分组 多种公有云(腾讯云、微软 云等) 核心组件-Symphony CI/CD 业务方使用 对外提供统一API 运行情况展示 应用在多集群运 行状态收集 应用维护,日志 查看,故障排查 应用发布 Operator API • 对使用方屏蔽多单元、多集群的存在 • 提供简单的、无需运维介入的日常维护功能 • 结合监控,可以查看每个实例的运行情况 • 支持离线日志查看,减少对容器的理解 客户端 • CI/CD流程耦合 2019~2020 • 使用 Go 重构 CD 流程 • 多云环境适配 • Service Mesh 落地 • Multi runtime 支持 2021~ • 多商家私有云适配 • HPA 支持 • …… https://github.com/symcn/sym-ops CRD AppSet: spec: chart: "****:v1" clusterTopology:0 码力 | 22 页 | 17.18 MB | 1 年前316-Nocalhost重新定义云原生开发环境-王炜
Nocalhost - 重新定义云原⽣开发环境.md 2021/1/20 1 / 7 Nocalhost - 重新定义云原⽣开发环境 前⾔ 随着业务的快速发展,技术部⻔的组织架构在横向及纵向不断扩⼤和调整,与此同时,企业的⽣产资料:应 ⽤系统,也变得越来越庞⼤。为了让应⽤系统适配企业组织架构的调整,梳理组织架构对于应⽤权责的边 界,⼤部分组织会选择使⽤“微服务”架构来对应⽤系统进⾏横向拆分,使得应⽤系统的维护边界适配组织架 “微服务”带来便利的同时,对开发⼈员⽽⾔,还带来了额外的挑战:如何快速启动完整的开发环境?开发的 需求依赖于其他同事怎么联调?如何快速调试这些微服务? ⽽对于管理⼈员来说,也同样带来了⼀系列的挑战:如何管理开发⼈员的开发环境?如何让新⼊职的同事快 速进⾏开发? 试想⼀下,要开发由 200 个“微服务”组成的云原⽣应⽤,会遇到哪些困难呢? Localhost 时代 在单体应⽤的时代,对于开发者来说是极为友好的 ,�开发者使⽤本机运⾏应⽤,修改代码后实时⽣效,通过 浏览器访问 Localhost 实时查看代码效果。 单体应⽤和“微服务”应⽤不同,单体应⽤是 “ALL-IN-ONE” 组织⽅式,所有的调⽤关系仅限于在⾃身的类和函 数,应⽤对硬件的要求⼀般也不会太⾼。 ⽽开发“微服务”应⽤则⼤不相同,由于相互间的依赖关系,当需要开发某⼀个功能或微服务时,不得不将所 有依赖的服务都启动起来。随着微服务数量的增0 码力 | 7 页 | 7.20 MB | 6 月前3云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)
2.6.6 针对函数供应链的攻击........................................................................36 三、典型攻击场景分析......................................................................................... 37 3.1 .......................................................................................37 3.1.1 攻击场景介绍........................................................................................37 3.1.2 ....38 3.2 挂载 Docker Socket 导致容器逃逸攻击..................................................38 3.2.1 攻击场景介绍........................................................................................38 3.2.20 码力 | 72 页 | 2.44 MB | 1 年前324-云原生中间件之道-高磊
新的安全场景,也成为网络安全攻防 当中的利器;2020年井喷的远程办公,拷问传统安全边界防线,让“零信任”这一有着十年历史的理念再次受到关注,成为企业构建后疫情时代安全体系 的基石;云上原生的安全能力让成本、效率、安全可以兼得,上云正在成为企业解决数字化转型后顾之忧的最优解…… 安全是为了预防资产损失,所以当安全投入 的成本大于能够避免的资产损失价值时,变 得毫无意义! 而传统安全开发周期管理由于角色分离、流 调 上 线 前 解 决 一 切 问 题 , 某 一 环 节 堵 塞 影 响 全 局 D e v O p s 效 率 。 依 赖 于 人 员 个 人 经 验 来 先 验 的 进 行 实 施 , 而 很 多 入 侵 风 险 是 不 可 预 知 的 ! 标准化能力-承载无忧-E2E云原生纵深安全保障-3-与传统安全方案的差 异 安全问题左移一个研发阶段,修复成本就将 提升十倍,所以将安全自动化检查和问题发 语言无关性,很高的精确度。 难以覆盖复杂的交互场景,测试过程对业务造成 较大的干扰,会产生大量的报错和脏数据,所以 建议在业务低峰时进行。 IAST(交互式应用程序 安全测试) 结合了上面两种的优点并克服其缺点,将SAST和DAST相结合,通过插桩 等手段在运行时进行污点跟踪,进而精准的发现问题。是DevSecOps的一 种推荐方式。 如果在被动模式下运行IAST,那么开发测试过程 中就可以完成安全扫描,不会像DAST一样导致业0 码力 | 22 页 | 4.39 MB | 6 月前3Volcano加速金融行业大数据分析平台云原生化改造的应用实践
传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 作业管理缺失 • Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 大数据 人工智能 云原生大数据平台 大数据、AI等批量计算场景 云原生化面临的挑战 Volcano 架构 项目概况: • 业界首个云原生批量计算平台 • 2019年6月开源,2020年进入CNCF,目前是CNCF孵化级项目 • 2.9k star,500+ Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。0 码力 | 18 页 | 1.82 MB | 1 年前323-云原生观察性、自动化交付和 IaC 等之道-高磊
整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 是依然对除RT外的环境依赖碎 片化无能为力。 • 背后的原因在于特定环境依赖或者运维规范问题渗透到了PaaS本身, 或者大家常说的定制化场景,如果不进行解耦就会有长期存在的矛盾。 • 为了应付定制化,客户需要等待平台研发的排期,因为平台研发需要定制 化处理定制化场景下的软件、运维工具或者规范等等,并需要不断的测试。 • 为了应付各类的环境的问题,势必要求交付人员的能力非常强,也是成本 居高不下的原因之一。 居高不下的原因之一。 在K8s这种环境中,存在两种定制化的手段:其一是Deployment API,但是它却 把研发和运维的描述放在了一起;其二是Operator(CRD),我们不得不为不同 客户开发很多不同特质的Operator,交付成本依然很高。 定制Operator这种解决方案,看似 比较合理,但是强烈依赖于K8S这种 容器调度系统,无法做到通用化, 所以客户必须要求先做针对K8S的 应用改造。 K80 码力 | 24 页 | 5.96 MB | 6 月前327-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊
智能办公室 智能信号灯... 远端控制 云端分析系统 设备端 (现场)边缘计算BOX 业务场景复杂,对算力、通信要求很高,计算放置于 云端时效性差,另外无法现场就对业务进行处理,比 如计算路口交通事故预警,给予司机及时提示等,所 以将算力卸载在距离业务现场、设备最近的地方,就 是边缘计算的场景,它的价值空间远超AIoT,可以更 大范围为客户赋能,IoT和边缘计算一定走向融合。 定位为基于物模型的计算 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 平台位于云端,而推 理计算位于BOX端,并 且能够适应各类算法 和硬件的要求,形成 一个通用计算平台, 更普遍的为客户场景 赋能。 • 一切围绕如何将算力 输送到业务场景为中 心思想,构建技术体 • 低代码平台与企业技术 栈的融合能力成为一个 重要的考验指标 • 有的企业系统已经运行 了几十年,拥有自己的 UI 体系、数据库体系和 中台体系,完全更改是 不现实的,低代码平台 要做的是与这么多技术 融合,帮助企业更好地 改进。 • 降本增效是最初级的成 果,如果能够深入企业 业务当中,低代码平台 可以带来的东西会更多。 将业务沉淀抽象化(比如 中台化),向上呈现。 • 低代码平台可以把不同0 码力 | 20 页 | 5.17 MB | 6 月前3云原生微服务最佳实践
阿里微服务产品解法和优势 云原生和微服务简介 微服务的价值和挑战 图片源自:http://www.zyiz.net/ 价值 效率(人越来越贵,算力越来越便宜) • 研发超过 10 人在 1 个代码冲突多 • 系统超过 5 个测试&上线协同代价大 • 数字化升级需要快速迭代 性能 • 单机成为性能瓶颈 可用性 • 单机成为可用性瓶颈 挑战 • 技术复杂度上升 • 运维成本上升 • 可定位性变差 + 产品灵活组合 & 开箱即用 + 经过阿里双十一考验的默认高可用能力 服务治理最佳实践 • 服务元信息 运行态Ops 开发态Dev 安全态Sec 发布态 高可用 测试态Test • 服务契约管理 • 服务调试 • 服务Mock • 端云互联 • 开发环境隔离 • 服务压测 • 自动化回归 • 流量录制 • 流量回放 • 无损上下线 • 服务预热 • 金丝雀发布 Ingress(Envoy) 云原⽣⽹关 服务治理 ASM 服务⽹格 Istio 控制面 MCP 流量治理 业务进程 Envoy Sidecar 用户POD 应用多活最佳实践 MSE微服务引擎 Nacos 云原⽣⽹关 异地多活 管控 MSHA Nacos MSE微服务引擎 Nacos 云原⽣⽹关 Nacos 用户VPC 业务节点 业务节点 用户VPC 业务节点 业务节点0 码力 | 20 页 | 6.76 MB | 1 年前302. Kubevela 以应用为中心的渐进式发布 - 孙健波
以 K8s 资源组合为核心 kubernetes/StatefulSet Kubernetes/Deployment K8s 的原生资源组合 1. 复杂、难懂、门槛高 2. 能力局限,不同场景各不相同 3. 不统一,每一个模式需要重新编 写发布对接 K8s-sigs 的 Application 1. 只描述了应用产品元数据, 研发、运维无从入手。 2. 无人维护、缺乏活跃度。 Chart 基于 CRD 自定义实现 需要大量 K8s 经验才能开发 某游戏公司自定义workload Pinterest 构建一个渐进式发布能力需要解决哪些 问题? • 版本化 • 分批发布 • 滚动发布/原地发布 • 发布暂停 • 发布回滚 • 日志监控 • 健康检查 • 多版本部署 • 多版本流量灰度 • 多集群/多环境灰度 • … KubeVela 具备全部发布能力 的标准化应用管理引擎 对象模板 CUE 模板 Helm chart 封装 其他封装 Trait 自身 CRD对象 使用方式 (json schema) 示例:上线新功能 metrics 平台研发团队: ● 开发了一个新 Operator 叫做 metrics(监控) ● 编写一个 K8s 能力描述文件 metrics.yaml 平台管理员: ● 执行 $ kubectl apply -f metrics0 码力 | 26 页 | 9.20 MB | 1 年前3
共 27 条
- 1
- 2
- 3