2021 中国开源开发者报告
0 码力 | 35 页 | 36.74 MB | 1 年前32023 中国开源开发者报告
1 1 /*使用电脑阅读,获得最佳体验 1 1 序 毫无疑问,开源开发者圈子来看,2023 年是大模型 LLM 年、生成式 AI GenAI 年。 一、 这自然要从 OpenAI 说起,前一年年底,ChatGPT 的横 空出世,标志着对话式 LLM 开始进入公众视野,为人们 提供了全新的人机交互方式。而 2023 年 3 月,同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新 3 模型升级、Adobe 产品整合 LLM 能力、 语音模型 whisper-3 更新、AI 虚拟主播创造等,都是在 这条路上的进一步发展。 五、 AI 编程方面,Copilot 可以根据开发者的代码提示自动补 全代码,大大提高了开发效率。这也引发了代码原创性的讨 论,但它已经实实在在将 LLM 拉进了编程应用领域。 六、 LangChain 的出现,实现了 LLM 之间的链式交互,使多 镜头给到国内。相比国际上当前逢 AI 必 GenAI,国内更 多地还是在 LLM 这一层面,Robin Li 的“卷大模型没意 义,卷应用机会更大”,其实很深刻地指出了内中区别。 本报告以开发者视角为主,从 LLM 切入,但实际上或多 或少与 GenAI 脱不开关系。 2023 年国内 LLM 发展活跃,从最初的百度文心一言“硬 刚”ChatGPT,到后来各式各样的大模型与产品出现,覆0 码力 | 87 页 | 31.99 MB | 1 年前32024 中国开源开发者报告
编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 1:中国开源开发者生态数据 04 | Gitee 数据篇 Part 3:国内 GenAI 生态高亮瞬间 104 | 中国 GenAI 消费应用人气榜 Top10 15 | OSS Compass Insight 设计:张琪 开发者是开源生态的重要支柱。 本章结合 、 的数据分 析,勾勒 2024 年中国开源开发者的整体画像趋势轮廓,主要 反映中国开源开发者使用开源大模型概况、开源项目/组织健康 度,以及中国开源社区的生态评估等情况。 Gitee 数据篇 本报告数据来源:2024年1月至2024年12月 Gitee及Gitee AI平台相关公开数据 4 / 111 开发者是社区的力量源泉0 码力 | 111 页 | 11.44 MB | 8 月前32023年中国基础软件开源产业研究白皮书
使用开源许可证需注意的风险点 审判机关 开发者 开源许可证 “两者的契约” 开源者 将许可证视为“合同”,基于《著作权法》、 《专利法》等法律法规对相关纠纷进行判决 围绕许可证可能出现的其他风险 专利风险 数据风险 出口风险 其他风险 开发者商用开源代码时容易出现的违规风险:不同开源许可证对 于二次发行有不同程度的开源要求,要求越严格,开发者越难保护商 业版本发行的机密性,不知情企业闭源发行时越容易有侵权风险 www.iresearch.com.cn 中外软件开源对比(1) 开发者开源规范意识较弱、企业开源战略参与度较低,是当前国内出现 的主要现象 1% 11% 11% 12% 14% 17% 23% 27% 42% 44% 60% 其他 木兰宽松许可证 来源:Gitee《2022中国开源开发者报告》,结合专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 开发者对常见开源许可证了解情况 开源开发者对于许可证种类与应用的了解不全 17%的开源开发者对于所有开源许可证不了解但直接使用 开发者对于许可证的种类认知并不全面,了解程度最高的 Apache许可证占比仅有60%,对于常见开源许可证都了解且 自觉遵守的开发者占比只有11%。 18.6% 290 码力 | 43 页 | 4.69 MB | 1 年前32021 中国开源年度报告
……………………… 66 6 2.4 新增开源项目领域分布 …………………………………………………………………………… 66 2.5 年度最受开发者关注的用户 ……………………………………………………………………… 67 2.6 年度最受开发者关注的组织 ……………………………………………………………………… 67 2.7 Gitee 指数 ………………………………………………………………………………………… 年中国开源社区参会调查报告》,随后的几年中,持续发 布了开发者调查报告,旨在从多种维度呈现国内的开源发展情况。今年我们再次启程,结 合数据分析手段和调查报告等多种形式,绘制一份 2021 年中国开源世界的地图。 这份问卷是每年中国开源年报的重要一环,不基于调研的分析报告不过是纸上谈兵。问卷 从两个角度展开,其中包括个人信息(包括工作信息和开发者技术信息)和开源社区参与 情况,与往年不同的是,今 通过 44 项左右问题的统计调查与分析,我们希望能够还原出当前中国开源社区的真实现状, 从而为开源的后来人提供权威的参考。 调查对象 :覆盖开发者、社区成员、贡献者、学生、政府企业管理人员 调查内容 :主要涵盖个人信息、工作状况、开源社区以及开发者技术 调查方法 :以在线问卷方式搜集样本和数据,交叉对比法分析数据 推广方法 :线上社交媒体、博客、开源社、开源中国网站 问题数量 :440 码力 | 132 页 | 14.24 MB | 1 年前32020 中国开源年度报告
⼀⽅⾯,是开源这么多年⼀直持续的上升势头。⽽另⼀⽅⾯,则是我们的⼀个猜测:疫情以 来,越来越多的⼈开始远程办公,事实上促进了更多的⼈有机会“斜杠化”,也就是在⼀台电脑 ⾯前⽅便地切换多种身份,以异步的⽅式处理多种事务,从⽽增加了开发者参与开源的时间和 机会。 当然,同样由于远程办公,虚拟世界在⼈类⽣活中的占⽐,变得更⼤了。这样是否更好,还会 引发哪些问题?作为站在隧道⼝的⼈类,其实是猜不透的。 2. 中国开源崛起以及开源世界分裂的趋势 年中国开源社区参会调查报告》,随后的⼏年中,持续发 布了开发者调查报告,旨在从多种维度呈现国内的开源发展情况。今年我们再次启程,结合数 据分析⼿段和调查报告等多种形式,绘制⼀份 2020 年中国开源世界的地图。 这份问卷是每年中国开源年报的重要⼀环,不基于调研的分析报告不过是纸上谈兵。在往年的 基础上,我们参考了其他现存的主流开发者问卷内容,并加⼊了⼀些新的视⻆。基于 2020年 COVID-19 通过近 60 项左右问题的统计调查与分析,我们希望能够还原出当前中国开源社区的真实现 状,从⽽为开源的后来⼈提供权威的参考。 调查对象:覆盖开发者、社区成员、贡献者、学⽣、政府企业管理⼈员 调查内容:主要涵盖个⼈信息、⼯作状况、开源社区以及开发者技术 调查⽅法:以在线问卷⽅式搜集样本和数据,交叉对⽐法分析数据 推⼴⽅法:线上社交媒体、博客、开源社、开源中国⽹站 问题数量:590 码力 | 46 页 | 4.09 MB | 1 年前32021 中国开源年度报告
/ Questionnaire 1、报告背景 / 1 Report Background 2016 年初,开源社发布了《2015 年中国开源社区参会调查报告》,随后的几年中,持续发布 了开发者调查报告,旨在从多种维度呈现国内的开源发展情况。今年我们再次启程,结合数据 分析手段和调查报告等多种形式,绘制一份 2021 年中国开源世界的地图。 In early 2016, KaiYuanShe open source scenarios in 2021. 这份问卷是每年中国开源年报的重要一环,不基于调研的分析报告不过是纸上谈兵。问卷从两 个角度展开,其中包括个人信息(包括工作信息和开发者技术信息)和开源社区参与情况,与 往年不同的是,今年我们加入了开源社区度量和开源商业化相关的话题,欢迎大家参与问卷并 发表自己的想法。 This questionnaire is an essential source. 调查对象 :覆盖开发者、社区成员、贡献者、学生、政府企业管理人员 Target: Covering developers, community members, contributors, students, government and corporate executives 调查内容 :主要涵盖个人信息、工作状况、开源社区以及开发者技术 Survey content:0 码力 | 199 页 | 9.63 MB | 1 年前3中国开源软件产业研究报告
开源软件与云计算的关系 2 3 开源软件基金会前瞻 5 中国的开源软件法治建设状况 4 中国的开源软件产业发展洞察 4 ——《大教堂与集市》中文版,机械工业出版社 好的软件作品,往往源自于开发者的个人需要——按说这是显而易见的(正如 老话说“需要是发明之母”),但太多的软件开发人员并不需要也不热爱他们 正在开发的软件,他们把编程当差事,为的只是拿薪酬。Linux世界里可不是 这样—— 与世界上绝大多数商品不同,使用一款软件不仅不会损耗它 的价值量,还有可能为之带来增长 开源软件理念的前身是美国计算机软件产业起步之时就在软件开发者群体中流传的“自由软件”理念,彼时这些开发者认 为软件不应该成为一种私有财产,而应该被公开成为公共资源,这样做的好处在于通过让海量的用户对软件进行使用和反 馈来帮助开发者进行产品升级——这是一种只有在软件这样的产品上才能够实现的发展模式;然而,自由软件理念与企业 商业化运营背道而驰 1970s-1998 • 软件开源理念可以追溯到美国的计算 机软件产业初期,彼时一些开发者提 出了“自由软件”的概念,核心理念 是软件不应该成为一种被私有化的商 业资产,而应该成为一种公开、可免 费获得的公共资源,这一理念是后来 的“开源软件”概念的前身 • 1976年美国《著作权法》修订将软件 纳入规制范畴,引起了众多提倡自由 软件的开发者的不满,加速了市场对 开源软件的【战略深化期】 1998-20100 码力 | 68 页 | 3.63 MB | 1 年前3Pro Git 中文版 第2版 2.1.66
托管网站的公司工作,这家公司就是 GitHub。 本书出版时大概 有几千人在使用 GitHub 网站,而为其工作的只有我们四个人。 在我写这篇介绍时,GitHub 宣布我们托管了 1000 万个项目、拥有大概 500 万注册开发者账户与大概 230 名员工。 爱它也好,恨它也罢,当我坐下来写第一 版时,GitHub 以一种意想不到的方式猛烈地改变了一大批开源社区。 我在 Pro Git 的原始版本中写了一节我并不是很满意的内容,是作为和提供 Pro Git。 2 Ben Straub 序 本书的第一版就是将我与 Git 结下不解之缘的原因。书中采用的是我引进的做软件的风格,这种风格比我之前看 到的任何事情都要自然。那时我已经做了好几年开发者了,但是这本书将我指引到一条更加精彩的道路上。 几年之后的现在,我是 Git 的一个主要实现的贡献者,我在最大的 Git 托管公司工作,我已经环游世界教人们使 用 Git。当 Scott 问我是否 RCS 的工作原理是在硬盘上保存补 丁集(补丁是指文件修订前后的变化);通过应用所有的补丁,可以重新计算出各个版本的文件内容。 集中化的版本控制系统 接下来人们又遇到一个问题,如何让在不同系统上的开发者协同工作? 于是,集中化的版本控制系统 (Centralized Version Control Systems,简称 CVCS)应运而生。 这类系统,诸如 CVS、Subversion 以及 Perforce0 码力 | 501 页 | 19.30 MB | 1 年前3Moonshot AI 介绍
Hallucination(幻觉)。但如果我们能够把搜索的结果,或者很多个⼈⽂档、公司⽂档作为上下⽂的 话,它就可以极⼤程度的降低幻觉,因为所有的信息都可以从⽂档⾥⾯被提取和归纳。 现在很多⼤模型的开发者也⾯临这样的问题,你可能⽤了⾃⼰的专有数据,我也调了⼀个模型,但如 果你的基座模型升级了,你可能所有的这些微调都⽩费了。 所以,我们认为⻓⽂本是接下来会取代微调的⼀种定制化的⽅式。你可以把所有的指令数据、训练数 部分。Moonshot是⼀个闭源模型,⽽且最近应该也没有开源的计划,想知道你们背后对这件事的思 考? 杨植麟:我们是⾮常⽀持开源的。 我认为开源和闭源接下来在⼤模型领域⾥会是互补的关系,开源可以⽀持开发者去尝试各种创新的应 ⽤,⽽且在开发过程中可以对数据、训练过程、环境部署等合规性有更⾼的要求,场景也会更灵活。 ⽽闭源的话,也会有⾃⼰的价值,⽐如说像未来的很多超级应⽤的⼊⼝,不管是⽣产⼒端还是娱乐消 ⽬前⼤⽕的虚拟⻆⾊场景中,由于⻓⽂本能⼒不⾜,虚拟⻆⾊会轻易忘记重要信息,例如在 CharacterAI的社区中⽤⼾经常抱怨“因为⻆⾊在多轮对话后忘记了⾃⼰的⾝份,所以不得不重新开 启新的对话”。 对于⼤模型开发者来说,输⼊prompt⻓度的限制约束了⼤模型应⽤的场景和能⼒的发挥,⽐如基于 ⼤模型开发剧本杀类游戏时,往往需要将数万字甚⾄超过⼗万字的剧情设定以及游戏规则作为 prompt加⼊应⽤,如0 码力 | 74 页 | 1.64 MB | 1 年前3
共 139 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14