2023 中国开源开发者报告
发展的新阶段。LLM Agent 是一种基于 LLM 的智能代 理,它能够自主学习和执行任务,具有一定的“认知能力 和决策能力”。LLM Agent 的出现,标志着 LLM 从传 统的模型训练和应用模式,转向以 Agent 为中心的智能 化模式。LLM Agent 打破了传统 LLM 的被动性,使 LLM 能够主动学习和执行任务,从而提高了 LLM 的应用 范围和价值;它为 LLM 的智能化发展提供了新的方向, 另一方面,除了大模型本身,中国在 LLM 相关技术领域也 快速迭代发展,诸如 Dify.AI 的 LLMOps、Milvus 的向量 数据库、CodeGeeX 与 Comate 的 AI 编程、对 LLM Prompt 的研究、OneFlow 的深度学习框架。 值得一提的还有华为的盘古大模型,其中盘古气象大模型是 首个精度超过传统数值预报方法的 AI 模型,速度相比传统 数值预报提速 10000 西。它需 要你不断完善自己的输入,甚至有时候可能要求在你自身都不 知道“可以想要一个什么东西”的情况下去输入。 这样的话其实就是你在输入与输出:整个事情我都想通了,方 案我其实也就都出来了,机器给到我的都只是一个个独立性 的、小而窄的、解决掉一点一点问题的东西。 举个例子,我说我肚子疼,它会直接告诉我肚子疼可能是因为 什么,怎样做可以缓解或者解决,但它不会一点一点进行“望 闻问切”0 码力 | 87 页 | 31.99 MB | 1 年前3开源中国 2023 大模型(LLM)技术报告
LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 04 向量数据库/数据库向量支持 为大模型提供高效的存储和检索能力 大模型框架及微调 (Fine Tuning) 大模型框架提供基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节 大模型训练平台&工具 提供了在不同硬件和环境中训练大语言模型 所需的基础设施和支持 编程语言 以 Python 为代表 5 / 32 LLM 基础设施:向量数据库/数据库向量支持 向0 码力 | 32 页 | 13.09 MB | 1 年前32024 中国开源开发者报告
TypeScript连续两年成为了 Gitee年度增长最快编程语言 (2023年增长率为49.04%), 同样持续强势的还有Rust以及 C语言家族。 此外,Dart及Arduino首次上榜, 符合2024年跨平台开发及机器 人开发的潮流。 12 / 111 本年度最常用开源许可证 MIT 33.91% Apache-2.0 27.28% MulanPSL-2.0 11.70% GPL-3.0 8.55% Insight 2024 中国开源开发者报告重点聚焦大模型,本章节以大模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 111 OSS Compass Insight 生产力-协作开发指数 本部分图表仅用于数据展示,不涉及先后排名 作为国内及业内领先的 AI 开发基础设施,本部分图表 中的开发框架、向量数据库、 开发平台、大模型均表现出 色,代表着它们的代码提交 频率、参与者、代码合并比 率等协作开发工作保持着较 高的水平。 17 / 111 OSS Compass Insight 本部分图表仅用于数据展示,不涉及先后排名0 码力 | 111 页 | 11.44 MB | 8 月前32020 中国开源年度报告
特邀点评专家: 吴晟,Apache 软件基⾦会 Member,Apache Local Community 联合创始⼈ ⻩东旭,PingCAP 联合创始⼈兼 CTO ⻢艳军,百度深度学习技术平台部⾼级总监 蒋涛,CSDN 创始⼈ & 董事⻓,极客帮创投创始合伙⼈ ⾼阳,SegmentFault 思否创始⼈ & CEO 红薯,开源中国创始⼈ & CTO 庄表伟,开源社理事⻓ 作为当时开源项⽬的主战场,Linux 操作系统、 桌⾯办公软件(GNOME, OpenOffice)和浏览器(Mozilla)掀起了第⼀波开源的浪 潮;近年来随着互联⽹的兴起,开源的项⽬和技术越来越百花⻬放,从数据库到中间 件,从前端到后端,从编程语⾔到编译器,从物联⽹到微服务,从⼤数据到⼈⼯智能, 开源的技术和项⽬越来越丰富和多样化。 4、开源⼯作现状 4.1 接触开源的时间 有近三成参与者接触开源的时间在 产品类型第⼀名,紧接着的是操 作系统,数据库产品与中间件产品也是很多⼈希望能够开源的产品类型。 4.8 企业对开源的贡献 在参与者眼中,GitHub 对于开源软件的贡献最⼤,其次是 Google,⽽在国内企业中, Alibaba、Huawei 和 Baidu 分别占据前三名。 4.9 机器⼈流程⾃动化 对于开源项⽬是否继承了 RPA,即机器⼈流程⾃动化⼯具,有四成参与者表示⼀部分项⽬集0 码力 | 46 页 | 4.09 MB | 1 年前32021 中国开源年度报告
Python 开发框架 ………………………………………………………………………………… 23 3.14 前端开发框架 …………………………………………………………………………………… 24 3.15 数据库……………………………………………………………………………………………… 25 3.16 版本控制工具 …………………………………………………………………………………… 26 3.17 AI 开发框架 …………………………………………………………………………… 34 4.8 一个项目的哪些特征对于您留下成为项目贡献者的重要度评级 ……………………………… 35 4.9 开源项目是否集成 RPA(机器人流程自动化) ………………………………………………… 36 4.10 开源活动 ………………………………………………………………………………………… 37 4.11 聊天运维工具 ……………… 杨丽蕴:我国开源人才后备力量足、基数大。 我国高校越来越重视开源人才的培养 , 越来越多的学生参与到开 源开发中,开源人才培养周期前置,越来越多的学校开设开源课程,希望后续可以实现在学习计算机、编译原 理、软件工程等理论知识的同时,让学生学习掌握开源开发模式、理解认同开源文化。 参与者职位分布 产品经理,9,2% CTO/CEO 公司负责人,26,5% CTO/CEO 公司负责人 产品经理 教师 开发者0 码力 | 132 页 | 14.24 MB | 1 年前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
解决复杂问题 7政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 认为大模型的能力无法进一步得到质的提升 开辟强化学习新范式 从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的 预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law • 利用合成数据解决数据用尽问题 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26政企、创业者必读 预训练模型如GPT——疯狂读书,积 累知识,Scaling law撞墙 预训练模型思考深度不够 算力见顶,变成少数巨头游戏 预训练大模型 推理大模型0 码力 | 76 页 | 5.02 MB | 5 月前3网易数帆 领先的数字化转型技术与服务提供商 2021
据、零售大数据、制造业智慧供应链等行业解决方案。 发布轻舟低代码平台 2.0 。 大数据开源项目 Kyuubi 全票进入 Apache 软件基金会孵化器。 有数 BI 个人版永久免费;发布机器学习平台、消费者运营平台、标签画像、流量分析等产品。 2020 2021 发布轻舟云原生软件生产力平台、有数全链路数据生产力平台。 网易云品牌升级为网易数帆,发力数字化转型基础软件。 深度参与社区 云计算开源产业联盟云原生十大优秀案例 infoQ 中国技术力量年度榜单 InfoQ2020 最有价值技术团队 InfoQ2020 最佳技术社区驱动力奖 思否 SegmentFault 中国技术品牌影响力企业 DTCC 第十一届中国数据库技术大会创新产品奖 《Gartner 2021 中国 ICT 技术成熟度曲线》数据中台领域标杆厂商 信通院可信云计算最佳实践服务网格 2021 数博会“十佳大数据案例” 《Gartner 2019中国 基于通用语言封装的可视化开发语言,具 备完善的静态类型系统和组件扩展机 制,适合 80% 企业级应用开发,灵活性 高,可靠性强。 数据模型驱动 可视化构建实体、数据结构、枚举等低 代码数据模型,自动生成数据库表和页 面交互。 支持企业集成 能够通过 API 集成企业内部的服务,实 现应用组装。 业务与流程融合 流程引擎基于 BPMN2.0 规范,可视化 流程开发,可支持如请假、入职、离职等 企业内常用流程场景。0 码力 | 43 页 | 884.64 KB | 1 年前32023年中国基础软件开源产业研究白皮书
www.iresearch.com.cn 基础软件开源界限划分 操作系统、数据库、中间件、AI框架底层代码按规范进行共享与协作 本篇报告研究的基础软件开源范围,是指研究“开源”中“基础软件”板块的情况。开源过程中,参与者可以共享、协作完成开发, 正好与基础软件庞大的开发量需求相 意义惠及软件产业全领域。 注释:由于暂无国内厂商主导的开源编程语言,因而不列入本报告研究范围。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 对于这四类基础软件(操作系统、数据库、AI框架、中间件),其编写者将实现功能的代码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 基础软件开源范畴界定 国内基础软件开源界定 基础软件 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 贡献,推动开源内容的发展 创新改进:通过资源共享与协作共生, 提升开源内容质量,并产生新的内容 自由共享:开源内容可以免费被任何人 查看、学习、使用 透明与可审查:开源的源代码可以被任0 码力 | 43 页 | 4.69 MB | 1 年前3国家人工智能产业综合标准化体系建设指南(2024版)
产模式和经济发展形态,将对加快建设制造强国、网络强国 和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现快速发展,形成庞大市场规模。伴随以大模型为代 等基础设施的技术要求和评估方法,包括基础设施参考架构、计 算能力评估、技术要求、稳定性要求和业务服务接口等标准。 6. 系统软件标准。规范人工智能系统层的软硬件技术要求, 包括软硬件编译器架构和优化方法、人工智能算子库、芯片软件 运行时库及调试工具、人工智能软硬件平台计算性能等标准。 7. 开发框架标准。规范人工智能开发框架相关的技术要求, 包括开发框架的功能要求,与应用系统之间的接口协议、神经网 络模型表达和压缩等标准。 (三)关键技术标准 关键技术标准主要包括机器学习、知识图谱、大模型、自然 语言处理、智能语音、计算机视觉、生物特征识别、人机混合增 强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、 模型表达和格式、模型效果评价等,包括自监督学习、无监督学 习、半监督学习、深度学习、强化学习等标准。 2. 知识图谱标准。规范知识图谱的描述、构建、运维、共0 码力 | 13 页 | 701.84 KB | 1 年前32021 中国开源年度报告
杨丽蕴:我国开源人才后备力量足、基数大。 我国高校越来越重视开源人才的培养,越来 越多的学生参与到开源开发中,开源人才培养周期前置,越来越多的学校开设开源课程, 希望后续可以实现在学习计算机、编译原理、软件工程等理论知识的同时,让学生学习掌 握开源开发模式、理解认同开源文化。 Yang Liyun: China's open source talent reserve is sufficient; the [Expert Comment] 段夕华: 科技型初创公司用开源来实现技术能力展现,吸引潜在合作伙伴,这个趋势不 容忽视。这其中国内最为抢眼的就是 PingCAP/TiDB,其开源策略、战术均值得大家学习 借鉴。 Duan Xihua: Technology startups use open source to show their technical capabilities and 堵俊平:这两年,一个很明显的趋势是越来越多的初创企业参与开源。这一方面得益于 ToB 赛道成为市场和政策导向的热点,另一方面开源所代表的开放式创新也被投资界所认 可。尤其是开源与数据(数据库&大数据)以及 AI 等热点技术相结合,更是为市场带来 了极大的想象空间。 Du Junping: In the past two years, a clear trend has been that0 码力 | 199 页 | 9.63 MB | 1 年前3
共 192 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20