2022 Apache Ozone 的最近进展和实践分享
是否可以扩展⾄数百PB的存储容量,数千个 物理节点以及数⼗亿个对象 扩展性 API 兼容性 性能 是否⽀持存算分离架构同时也可以兼容存算耦合 架构 应⽤对接 安全 加密 HDFS现有的⼀些解决⽅案 Namenode Federation Router Based Federation 是否需要⼀个新的⼤数据存储? 现有的对象存储⽅案 ⽆法很好的横向扩展 HDFS的扩展性 达到了上限 ⽆法接受私有化 的数据存储系统 • Apache Ozone适⽤场景 • Apache Ozone的最近进展 • Apache Ozone的实践分享 Apache Ozone • Ozone是 ⼀个分布式的KV对象存储 可扩展⾄数⼗亿个对象,从⽽对云原⽣类的应⽤更友好 强⼀致性 与HDFS 和 S3 API兼容 可在存储密集型设备中部署进⽽极⼤的减少设备开⽀ Apache Ozone – 数据存储的路径设计 Ozone的存储路径为 Objects) AI/ML HIVE/IMPALA/SPARK KAFKA / FLINK 计算 OTHER WORKLOADS OTHER WORKLOADS X • 可⽤于承载实时和批处理的业务 • 扩展性提升 • ⽆需改变或改造业务应⽤代码 • 降低控制平⾯的节点数和服务依赖 业务价值 • 降低⼤规模集群的运维难度 • 可通过HDFS API和Distcp进⾏快速迁移0 码力 | 35 页 | 2.57 MB | 1 年前3基于 KUBERNETES 的 容器器 + AI 平台
• cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 • 其他企业需要的优化功能 企业典型的多租户模型 租户 Tenant https://github.com/caicloud/helm-registry Rudder 技术架构 ⼀一套基于 k8s 控制器器模式的原⽣生的应⽤用管理理 和编排运⾏行行时 安全性与扩展性:从 k8s 原⽣生模式中获益 状态可读:跟踪所有 k8s 对象状态 版本化:快速从历史版本回滚 构建应⽤用 典型 CI/CD 流程 CAICLOUD/CYCLONE • 开源 • https://github.com/caicloud/cyclone Cyclone 技术架构 云原⽣生 CI/CD 引擎 设计 - 云原⽣生,k8s 亲和性 性能 - 为企业场景优化 扩展性 - ⽀支持 AI ⼯工作流 运⾏行行 AI 应⽤用 KUBEFLOW 的应⽤用 • Kubeflow 社区的联合创始⼈人 • kubeflow/tf-operator • 定义 TFJob0 码力 | 19 页 | 3.55 MB | 1 年前3MySQL高可用 - 多种方案
http://blog.chinaunix.net/uid/20639775.html 1 前言 Mysql 高可用一直是 mysql 业界不断讨论的热点问题,其中涉及的东西比较多,可 供选择的方案也相当多,面对这么多的方案,我们应该如何选择适合自己公司的 mysql 高可用方案呢,我觉得首先我们需要了解的自己公司的业务,了解在线系统中那些东西 会影响高可用,以及了解各个高可用方 Lvs+Keepalived、Heartbeat、MMM、mysql cluster 三种方式, 由 于 时 间 关 系 这 里 不 对 mysql cluster 做 介 绍 , 有 兴 趣 的 可 以 访 问 http://blog.chinaunix.net/uid-20639775-id-201960.html,下面就逐一地来详细介绍其他几种高 可用方案。 2 Lvs+Keepalived+Mysql 10.1.1.176 Centos 5.5 64bit 5.1.63 2.4.3 Mysql 的安装和配置 Mysql 的安装和配置相对来讲非常简单,这里就不做介绍,有兴趣的朋友 可 以 查 看 我 博 客 中 关 于 mysql 5.1.63 版 本 自 动 安 装 的 文 章 http://blog.chinaunix.net/uid-20639775-id-31687370 码力 | 31 页 | 874.28 KB | 1 年前3清华大学 DeepSeek 从入门到精通
适的模型,实现最佳效果。 提示语策略差异 1 2 推理模型 通用模型 • 提示语更简洁,只需明确任务目标和 需求(因其已内化推理逻辑)。 • 无需逐步指导,模型自动生成结构化 推理过程(若强行拆解步骤,反而可 能限制其能力)。 • 需显式引导推理步骤(如通过CoT提 示),否则可能跳过关键逻辑。 • 依赖提示语补偿能力短板(如要求分 步思考、提供示例)。 关键原则 3 2 1 模型选择 表1-3-2提示语设计进阶技能子项 核心技能 子项 语境理解 深入分析任务背景和隐含需求 考虑文化、伦理和法律因素 预测可能的误解和边界情况 抽象化能力 识别通用模式,提高提示语可复用性 设计灵活、可扩展的提示语模板 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维 表1-3-3提示语设计进阶技能子项 核心技能 子项 语境理解 深入分析任务背景和隐含需求 考虑文化、伦理和法律因素 预测可能的误解和边界情况 抽象化能力 识别通用模式,提高提示语可复用性 设计灵活、可扩展的提示语模板 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维0 码力 | 103 页 | 5.40 MB | 8 月前3Ubuntu 桌面培训 2010
发 者 聚 集 在 这 里 开 发 和 打 包 软 件 、 修 正 缺 陷 , 以 此 维 护 Ubuntu。 他 们 的 工 作 确 保 了 Ubuntu 拥 有 丰 富 多 样 的 、 稳 定 可 靠 的 软 件 。 如 果 您 想 成 为 软 件 打 包 者 , 尝 试 加 入 MOTU 是 最 好 的 选 择 。 详 情 请 访 问 https://wiki.ubuntu.com/MOTU/GettingStarted 加入 Ubuntu IRC 在线支持和讨论频道(Internet Relay Chat,一种即时通讯方 式)。 非 技 术 型 用 户 如 果 您 不 具 备 技 术 方 面 的 知 识 , 同 样 可 以 通 过 以 下 的 方 式 帮 助 Ubuntu: • 美工和设计 • 翻译和本地化 • 撰写、更新文档和培训材料 • 宣传 Ubuntu 桌面课程开发 Canonical 的一项重要工作就是让尽可能多的计算机和服务器 相信程序员的自愿贡献和协作开发胜过雇佣一小群人开发。 Ubuntu 介绍 13 Ubuntu 桌面培训 目录 Ubuntu 和 Microsoft Windows 在很多方面都有不同的特点。下面是价格、发布周 期、安全性、自定义和可移动性等几个要素的比较。 因素 Ubuntu Microsoft Windows 价格 • 免费授权许可 • 按每用户许可证和/或固定期 限收费 版本发布 • 家庭用户和专业用户得到的 是同样的软件同样的功能0 码力 | 540 页 | 26.26 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
出文本中提取数据为空等。 Kimi k1.5 能够提取所有网址,代码运 行后生成本地文件,但提取 数据结果为空。 结论 Claude 3.5 sonnet 可以提取所有网址,调整后可输出正 确代码,运行代码能生成本地文件, 但提取数据结果为空。 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 文件数据读取 务。 结论 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 数据可视化 基于titanic遇难者数据分析结果绘制可 视化图表 任务 Open AI o3mini的数据可视化能力突出,能够直接高效地生成多种类型可视化图表,准确度高; DeepSeek R1、Kimi k1.5均能基于分析结果提供多种可视化图表绘制方案,但都需要依靠运行 图表绘制方案及对应代码,需采用Python代 码完成绘图任务。大样本会省略数据;小样 本不省略数据。 年龄分布直方图、票价分布箱线图(展示不同船票等级的票价分布) DeepSeek R1 能够结合数据样本和分析结果,提供多种可 视化图表绘制方案,但暂时不能直接绘制出 可视图表,需要将对应的绘图代码复制到本 地运行制作图表。 柱状图(生还者和遇难者的比例、按船舱等级分类的生还情况) 结论 测试结果受到数据样本、测试0 码力 | 85 页 | 8.31 MB | 7 月前3RocketMQ v3.2.4 开发指南
磁盘设备损坏。 (1)、(2)、(3)、(4)四种情冴都属亍硬件资源可立即恢复情冴,RocketMQ 在返四种情冴下能保证消息丌丢,戒 者丢失少量数据(依赖刷盘方式是同步迓是异步)。 (5)、(6)属亍单点故障,丏无法恢复,一旦収生,在此单点上的消息全部丢失。RocketMQ 在返两种情冴下,通 过异步复制,可保证 99%的消息丌丢,但是仍然会有极少量的消息可能丢失。通过同步双写技术可以完全避免单点, 版本开始支持同步双写。 4.7 Low Latency Messaging 在消息丌堆积情冴下,消息到达 Broker 后,能立刻到达 Consumer。 RocketMQ 使用长轮询 Pull 方式,可保证消息非常实时,消息实时性丌低亍 Push。 项目开源主页:https://github.com/alibaba/RocketMQ 7 4.8 At least Once 是挃每个消息必须投递一次 収送消息阶段,丌允许収送重复的消息。 (2). 消费消息阶段,丌允许消费重复的消息。 只有以上两个条件都满足情冴下,才能讣为消息是“Exactly Only Once”,而要实现以上两点,在分布式系统环 境下,丌可避免要产生巨大的开销。所以 RocketMQ 为了追求高性能,幵丌保证此特性,要求在业务上迕行去重, 也就是说消费消息要做到幂等性。RocketMQ 虽然丌能严格保证丌重复,但是正常情冴下很少会出现重复収送、消0 码力 | 52 页 | 1.61 MB | 1 年前3强大的音视频处理工具: FFmpeg
感谢我的⽼婆陈雪的包容理解和悉⼼照料,才使得我 crifan 有更多精 ⼒去专注技术专研和整理归纳出这些电⼦书和技术教程,特此鸣谢。 更多其他电⼦书 本⼈ crifan 还写了其他 100+ 本电⼦书教程,感兴趣可移步⾄: crifan/crifan_ebook_readme: Crifan的电⼦书的使⽤说明 crifan.com,使⽤署名4.0国际(CC BY 4.0)协议发布 all right reserved, 左右缩进。⽂字距离视频最左 最右的最⼩距离。 MarginV: 上下缩进。 ⽂字热点(对⻬点)距离视频上下的最⼩间距 离。这取决于⽂字对⻬⽅式,如果该⽂字使⽤ 中对⻬,则上下缩进值⽆效。需要时⽂字可⽤ \n或\N命令换⾏。ASS⽂件中,Script Info部 分的⼀个参数“WrapStyle”也可以改变此值 Outline:边框样式 获取 37 ⽂字可以设定为有边框,⽆边框,或拥有不透 此处介绍嵌⼊字幕时,指定字幕⽂字的各种属性,⽐如 字体⼤⼩ 、 字体 类型 、 颜⾊ 、 透明度 等 srt字幕:加force_style参数 ass字幕:在ass字幕中设置参数 具体设置成什么值,以及效果如何,可借助于软件Aegisub去设置和预览 举例1 实现了字幕效果: 字体:PingFang SC 字体⼤⼩:20 字幕的背景半透明效果:后⾯很多参数组合的效果 如图: 举例2:ass设置半透明的背景0 码力 | 73 页 | 11.57 MB | 1 年前3GPU Resource Management On JDOS
Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 复用 +HPA 提高 GPU 利用率 创建 Serving 与训练集成 • 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器 IP 查询记录 , 便 于用户查看服务状态 ,亦可作为 HPA 的数 据源 • 采集项 name,index,fan.speed0 码力 | 11 页 | 13.40 MB | 1 年前3Apache Pulsar,云原生时代的消息平台 - 翟佳
consistency) • ⾼可⽤ • 单节点可以存储很多⽇志 • I/O隔离 Apache BookKeeper: 诞⽣场景 streamnative.io 企业级流存储层: 节点对等的架构 • openLedger(组内节点数⽬, 数据备份数⽬, 等待刷盘节点数⽬) • openLedger(5, 3, 2) streamnative.io 企业级流存储层: 读写⾼可⽤性(容错)0 码力 | 39 页 | 12.71 MB | 6 月前0.03
共 16 条
- 1
- 2