2023年中国基础软件开源产业研究白皮书
©2023 iResearch Inc. 2023年中国基础软件开源 产业研究白皮书 2 目 录 CONTENTS 01 02 03 开源基础软件界定及中外发展对比 中国开源基础软件产业链及参与者洞察 中国开源基础软件产业细分领域洞察 3 开源基础软件界定 及中外发展对比 01 4 ©2023.11 iResearch Inc. iresearch.com.cn 基础软件开源界限划分 操作系统、数据库、中间件、AI框架底层代码按规范进行共享与协作 本篇报告研究的基础软件开源范围,是指研究“开源”中“基础软件”板块的情况。开源过程中,参与者可以共享、协作完成开发, 正好与基础软件庞大的开发量需求相契合。这种契合性促进了基础软件良性、可持续性发展,并因为基础软件对上层软件生态有支 撑作用,基础软件的开源价值远超过单一产品的范畴,其意义惠及软件产业全领域。 告研究范围。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 对于这四类基础软件(操作系统、数据库、AI框架、中间件),其编写者将实现功能的代码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 基础软件开源范畴界定 国内基础软件开源界定 基础软件 具备能衍生出并支撑 多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点0 码力 | 43 页 | 4.69 MB | 1 年前32023 中国开源开发者报告
空出世,标志着对话式 LLM 开始进入公众视野,为人们 提供了全新的人机交互方式。而 2023 年 3 月,同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新 的台阶,为 LLM 的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 找到让 LLM 能够准确理解人类意图的方法。提示词工程探 索如何以 LLM 可以解析的方式来表达需要它完成的任务, 寻找 LLM 的“最佳输入形式”。通过注入提示词,提示词 工程建立了一套“人机交互语法”,来更精准地向 LLM 传 达想要它生成何种输出的指令。这为人们与 LLM 之间建立 高效、准确的“沟通桥梁”提供了可能性。什么“链式思考 1 1 (CoT)”、“自动推理并使用工具(ART)”、“思维 LLM 的应用 范围和价值;它为 LLM 的智能化发展提供了新的方向, 使 LLM 能够更加接近于人类智能。 九、 AI 原生,目前还没有明确的定义,大致是说,不同于当前 各种应用在原本的基础上增加 AI 能力,使其智能化,但 它的智能只充当了“辅助”角色;在 AI 原生的语境下, LLM 从一开始就是应用的中枢,应用本身的架构、功能、 交互层是围绕 LLM 中枢来构建的。也许 ChatGPT0 码力 | 87 页 | 31.99 MB | 1 年前32024 中国开源开发者报告
2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 1:中国开源开发者生态数据 04 | Gitee 数据篇 Part 3:国内 GenAI 生态高亮瞬间 104 | 中国 GenAI Gitee 等平台托管的开源项目。 16 / 111 OSS Compass Insight 生产力-协作开发指数 本部分图表仅用于数据展示,不涉及先后排名 作为国内及业内领先的 AI 开发基础设施,本部分图表 中的开发框架、向量数据库、 开发平台、大模型均表现出 色,代表着它们的代码提交 频率、参与者、代码合并比 率等协作开发工作保持着较 高的水平。 17 / 111 OSS Compass 随者到行业引领者的跨越式成长,也为全球人工智能发展注入了新的活力与动力。中国开源模型 的成功并非偶然。在政府对人工智能产业的持续支持以及国内人工智能行业对模型研发的巨额投 入下,从基础算法到行业应用、从算力基础设施到数据资源整合,中国人工智能生态体系正在迅 速完善。这一趋势表明,未来中国有可能在全球人工智能领域占据更为核心的地位。 开源生态的繁荣与协作 随着开源模型影响力的提高,中国开源0 码力 | 111 页 | 11.44 MB | 8 月前3Gitea,新一代的代码托管平台
跟踪项目的需求,功能和缺陷;工单支持标签、里程碑、指派、 时间跟踪、到期时间、依赖关系等功能。 Gitea 延伸能力:百科管理(Wiki) 百科 Wiki 基于 Git 版本控制系统的文档托管,使用 Markdown 语法书写文档,实现项目知识库管理; 可以托管任何类型的文档,包括开发文档、技术文档、 操作手册、用户指南等。 Gitea 延伸能力:CI/CD Gitea Actions 支持 CI/CD 功能,兼容 Gitea 其他能力 1 Gitea 开源项目介绍 Gitea 企业版介绍 3 Gitea 优势总结 2 极佳体验 接近 GitHub 使用体验 + 兼容 GitHub API、Actions、操作语法生态 + 本地化部署 简单易用 多种操作系统和数据库部署方式 简单的使用方式,多种的集成方式 卓越性能 采用 Go 语言编写,资源占用仅 为 GitLab 的 1/4,运行速度约为 体验。 风格兼容 • API 高度兼容:大部分 GitHub 第 三方应用可复用; • Actions 高度兼容:大部分 GitHub Actions 插件可复用; • 工作流程/操作语法兼容:与 GitHub Actions 工作流程、操作语 法高度兼容。 生态兼容 • 类 Github 的使用体验,使用习惯无缝衔接; • 完全兼容 Git 命令,无额外学习成本; •0 码力 | 30 页 | 14.34 MB | 1 年前3Moonshot AI 介绍
强化学习⽅⾯。团队成员作为⼀作提出了基于关系学习的少样本⽅法,得到斯坦福⼤学、 Google、MIT、Amazon等团队的使⽤和扩展,并获得过OpenAIRL联创及负责⼈John Schulman亲⾃邀请加盟。 iv. 基础设施⽅⾯。团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架,也具备数千 卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分 布式系统数量级性能优化的经验。 和智能助⼿Kimi,⽀持20万字的输⼊。做“⻓”是因为杨植麟判断AI-Native产品的终极价值是提 供个性化的交互,⽽losslesslong-context是实现这⼀点的基础⸺模型的微调⻓期不应该存在, ⽤⼾跟模型的交互历史就是最好的个性化过程,历史上每⼀代技术都是在提升contextlength。 杨植麟⾝上的标签有天才AI科学家、连续创业者……在这次深度访谈中,他再次证明⾃⼰是个真 之暗⾯希望⽐ OpenAI更关⼼⽤⼾,原因是杨植麟判断⽤⼾数据的scaleup的效果最终会超越basemodel⾃⾝。 杨植麟对于⽤transformer这个概率模型的思想基础⾛向AGI也很有信⼼,⽤他的话说“如果你有10 亿的contextlength,今天看到的问题都不是问题”。 AGI:AI本质就是⼀堆scalinglaw 海外独⻆兽:0 码力 | 74 页 | 1.64 MB | 1 年前3使用Sphinx编写Web文档 - 陈照强
org/en/master/examples.html Sphinx文档的优点 丰富的输出格式 完备的交叉引用 明晰的分层结构 美观的自动索引 … …. 精确的语法高亮 开放的扩展插件 多种丰富美观的主题 简单、方便 … …. Sphinx 为python社区的快速发展立下了汗马功劳 2 谁发明了Sphinx 谁发明了Sphinx0 码力 | 17 页 | 1.69 MB | 1 年前3中国开源软件产业研究报告
iresearch.com.cn 来源:艾瑞咨询研究院自主研究及绘制。 摘要 SMS 开源与云计算:开源软件与云计算产业既有互相促进的良性合作,也有因利益纠纷带来的冲 突和矛盾。一方面,云计算产业的大量的基础软件都是开源软件,开源生态为云计算行业的 产品创新提供了持续的动力,而云服务企业的平台也为众多开源软件提供了市场分发渠道; 另一方面,由于全球范围内普遍存在云企业托管开源软件后不回馈开源社区的情况,二者的 码这一基本要求之外,其开源许可(open source license)还需要满足关于源代码的使用和修改、关于软件传播以及公平 性、中立性等方面的诸多要求,这些要求加强了开源产业的规范性,构建了诸多开源商业模式的基础。 来源:OSI,艾瑞咨询研究院根据公开资料研究及绘制。 OSI组织对“开源”核心概念和要求的界定 关于开源软件的内容(代码) • 开源软件必须包含可理解与运用的源代码,或提供简便的获取 “集市”开发模式强调为众多的开 发者创设一个鼓励创新、交流的公 平和公开环境,在开发者能够自由 交换关于软件进步路径的看法,并 在沟通过程中自然选择出最合适的 方向。这一模式可能更适合具备长 期成长价值和进步空间的基础软件。 通过“德尔菲方法”实 现不断进化 效率至上,商业结果导向 8 ©2022.2 iResearch Inc0 码力 | 68 页 | 3.63 MB | 1 年前3网易数帆 领先的数字化转型技术与服务提供商 2021
技术与服务提供商,为客户提供创新、可靠的国产软件基础平台产品及相 应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能 算法应用三大领域,旗下拥有轻舟、有数、易智三大产品线,致力于帮助 客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一 代信息技术下实现数字化转型的需求。 网易数帆依托网易二十余年互联网技术积累,系列软件基础平台产品和技 术方案,成熟应用于金融、零售、制造、能源、电信、物流等多个行业领 个人版永久免费;发布机器学习平台、消费者运营平台、标签画像、流量分析等产品。 2020 2021 发布轻舟云原生软件生产力平台、有数全链路数据生产力平台。 网易云品牌升级为网易数帆,发力数字化转型基础软件。 深度参与社区 Spark 3.x 版本开发;开源企业级数据湖探索平台 Kyuubi ;发布首个开源项目分布式存储系统 Curve。 2019 发布全链路数据中台解决方案。 2018 亿终端用户体验支持 亿 12 100 余家行业头部客户 + 100 产品与方案均经 网易大规模内部实践验证; 标杆项目均与行业龙头企业共建。 自主可控 产品基于开源内核, 底层实现全面跨云; 基础软件实现国产兼容,推动信创。 原厂服务 原厂服务,核心技术方案不外包; 全过程服务覆盖咨询、 规划、实施、运维各环节。 实力积淀 核心优势 STRENGTH 数帆实力 05 COMPANY0 码力 | 43 页 | 884.64 KB | 1 年前32021 中国开源年度报告
许还会继续持续下去。 生态责任 在开源还只是一个小众群体的业余爱好时,几乎做任何事情,都是 自由的。但是,在软件吞噬世界、开源吞噬软件的今天,开源技术, 2021 中国开源年度报告 3 已经成为整个世界的基础设施之一。能力越大,责任越大。应用越广, 风险越高。我们应该如何思考与保障开源供应链安全呢?应该如何 建设更加健康的开源生态呢?在这样一种生态中,各方的责任又该 如何界定呢? 历史感 开源 者表示从来没有在开源项目中集成过 RPA,比去年下降了 15%,说明 开源项目越来越重视流程的自动化。 专家点评 堵俊平:以机器人来代替一部分人为的工作是必然趋势,也是社区提高效率的关键。开源社区应当加大基础设 施领域的创新,持续降低沟通成本,提升开发者体验。 2021 中国开源年度报告 37 4.10 开源活动 倾向于线上和线下参与开源活动 / 会议的受访者分别占比约 50%。 85% 的 R 69.64% 8 汇编语言 60.9% 9 PowerShell 60.65% 10 Kotlin 59.96% Rust 连续三年保持高速增长,增长率均超过 110%。 2021 年基础软件在国内热度持续走高,Verilog 也连续两年出现在了增速最快语言榜单中。 TypeScript 连续三年入选增速最快语言,其在 Gitee 所有仓库中采用语言的占比也在逐年上升,2021 年已经来到了第0 码力 | 132 页 | 14.24 MB | 1 年前32021 中国开源年度报告
/ Ecological responsibility 在开源还只是一个小众群体的业余爱好时,几乎做任何事情,都是自由的。但是,在软件吞噬 世界、开源吞噬软件的今天,开源技术,已经成为整个世界的基础设施之一。能力越大,责任 越大。应用越广,风险越高。我们应该如何思考与保障开源供应链安全呢?应该如何建设更加 健康的开源生态呢?在这样一种生态中,各方的责任又该如何界定呢? When the process automation. 【专家点评】/ [Expert Comment] 堵俊平:以机器人来代替一部分人为的工作是必然趋势,也是社区提高效率的关键。开源 社区应当加大基础设施领域的创新,持续降低沟通成本,提升开发者体验。 Du Junping: Replacing some human work with robots is an inevitable trend Language 60.9% 9 PowerShell 60.65% 10 Kotlin 59.96% Rust 连续三年保持高速增长,增长率均超过 110%。 2021 年基础软件在国内热度持续走高,Verilog 也连续两年出现在了增速最快语言榜单 中。 TypeScript 连续三年入选增速最快语言,其在 Gitee 所有仓库中采用语言的占比也在逐年 上升,20210 码力 | 199 页 | 9.63 MB | 1 年前3
共 13 条
- 1
- 2