2024 中国开源开发者报告
Chat 和阿里自家的百炼平台中,极大促进了全球开发者的交流和协 作,形成了国际化开源生态。 北京智源研究院和上海人工智能实验室等研究机构,通过与企业和高校合作及开源平台的建 设,建立了更完善的协作机制,从而在开源模型 (如 InternLM) 和数据集 (如 Infinity-MM) 领 域贡献了大量有影响力的基础工作和资源。 2024 年,中国开源社区涌现出众多高质量的自发研究成果。其中,MAP 则作为中国模型在国际开源社区的 2024 年首秀,一经发 布便获得了广泛关注,为中国模型在全球开源生态中赢得了更多认可。 平衡发展与合规创新 中国在推动人工智能技术发展的同时,也在监管层面努力建立了完善、透明的治理机制。这 种监管创新为开源模型的发展提供了稳定的政策环境,同时确保技术应用符合社会价值导向。比 如 《人工智能示范法 2.0(专家建议稿)》对于免费且已开源方式提供人工智能研发的个人和 组织给予减 模型在训练过程中被植入了特定的样本或算法,以避免讨论特定 53 / 111 的人名。虽然后续的一系列测试表明,这种限制似乎只存在于 ChatGPT 产品中,通过 OpenAI 对外提供的模型接口并不会触发这样的屏蔽机制。 OpenAI 在随后周二(12 月 3 日)立即确认“David Mayer”这个名字已经被内部隐私工 具标记,其在一份声明中说:“可能有些情况下,ChatGPT 不提供关于人们的某些信息,以保0 码力 | 111 页 | 11.44 MB | 8 月前32023 中国开源开发者报告
李彦宏称:“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语 言模型。深度学习、自然语言处理,需要多年的坚持和积累,没法速成。” 长度是 Llama 1 的 2 倍,并采用了分组查询注意力机制。具体来说,Llama 2 预训练模型是在 2 万亿的 token 上训练的,微调 Chat 模型是在 100 万人类标 记数据上训练的。 7 / 87 1 1 开源开发者事件回顾 Auto-GPT ChatGPT 开源替代品 开源和基于 API 的分发之间的摩擦是生成式 AI 生态中极为迫切的矛盾。 比如在从文本到图像领域,Stable Diffusion 的发布清楚地表明开源是基础 模型的可行分发机制。不过在大型语言模型 (LLM) 领域却并非如此,这些 模型只能通过 API 获取。并且这些模型的开源替代品没有表现出相同水平 的性能,特别是在它们遵循人类指令的能力方面。 然而,一项意想不到的研 Twitter 公司在 GitHub 上发布了 两 个 仓 库 (main repo 、 ml repo),其中涵盖了推荐算法在 内的许多推特源代码,包括用来控制用户在 For You 时间线上看到的推文 的机制。 文章结尾写道:将世界划分为相互竞争的开源阵营将标志着自由贸易的又一次 倒退。这也是对 “天下没有免费的午餐” 这句古老格言的可悲注脚。 锐评: 开源无国界,但是开源软件相关公司是有国界的。开源因为贸易战而沦为打击经0 码力 | 87 页 | 31.99 MB | 1 年前3中国开源软件产业研究报告
www.iresearch.com.cn 来源:艾瑞咨询研究院自主研究及绘制。 中国开源软件产业发展阻碍 开源是一种建立在信任和共识上的发展机制,为这种机制创 设有序、有活力的环境,是推动我国开源产业发展的关键 中国发展开源软件产业主要面临着技术、组织、产业和文化方面的一些阻碍因素,分别表现为基础技术偏薄弱、缺乏开源 基金会一类的组织、开源制度 事业的非盈利性质的法人,需要遵守《基金会管理条例规 定》,并在民政部门登记后才能开始运作。相比于企业,基金会的首要目的并非盈利,而是实现社会目的;相比于政府, 基金会是独立决策的法人,治理结构与运作机制均存在市场化特点。近年来我国基金会数量、慈善资金规模都位于稳步增 长区间,从组织性质的可行性来看,开源基金会的成立于我国现有的基金会制度并不违背,但具备良好政府关系的组织在 申请成立开源基金会的过程中可能更为顺利。 Apache软件基金会:项目成熟度模型 CNCF毕业标准1.2版本 共5条,主要强 调项目的开源 属性,代码的 可靠性 以及可 获得性 共5条,强调软 件项目的安全 性、兼容性 以 及对错误的响 应和修复机制 共5条,强调项 目的发布过程 可靠并便于获 取 共5条,强调项 目遵循Apache 开源许可证 , 并具备可靠的 版权约定 代码 独立 共识 许可证 发布 质量 社区 共7条,强调项 目具备0 码力 | 68 页 | 3.63 MB | 1 年前3Moonshot AI 介绍
杨植麟:是的,我觉得这个是⾮常好的理解。 ⽐如我们可以去看Transformer是怎么产⽣出来。它本质上是Google给这帮⼈提供了⼀个涌现的环 境。在Transformer出现之前,已经存在像注意⼒机制、残差⽹络、LayerNome这样的技术,有 SGD这些训练的基础配套,然后有learningrateschedule,就是所有的东西都提前准备好了。 然后这个时候Google 缺乏充⾜的⾼质量⻓序列数据,如何提供更多的有效数据给模型训练? 从推理层⾯来看,在获得了⽀持超⻓上下⽂的模型后,如何让模型能服务众多⽤⼾,同样要⾯临⼀番 挑战: • ⼀是Transformer模型中⾃注意⼒机制的计算量会随着上下⽂⻓度的增加呈平⽅级增⻓,⽐如上下 ⽂增加32倍时,计算量实际会增⻓1000倍,这会导致⽤⼾需要等待极⻓的时间才能获得反馈; • ⼆是⻓下上⽂推理需要的显存容量巨⼤: -100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万 字)。 同时,Kimi智能助⼿通过创新的⽹络结构和⼯程优化,在千亿参数下实现了⽆损的⻓程注意⼒机制, 不依赖于滑动窗⼝、降采样、⼩模型等对性能损害较⼤的“捷径”⽅案。 ⽬前,Kimi智能助⼿已开放内测。 访问https://www.moonshot.cn或扫描下⽅⼆维码,即可加⼊内测计划。0 码力 | 74 页 | 1.64 MB | 1 年前32021 中国开源年度报告
到 2025 年,主营业务收入达百亿级企业过百家,千亿级企业超过 15 家。建设 2-3 个有国际影响力 的开源社区,培育超过 10 个优质开源项目。高水平建成 20 家中国软件名园。软件市场化定价机制进 一步完善。建成一批国家特色化示范性软件学院。国际交流合作全面深化。 ● 在主要任务上,努力繁荣国内开源生态。大力发展国内开源基金会等开源组织,完善开源软件治理规则, 普及开源软件文化 2035 年)》、《“十四五”国家知识产权保护和运用规划》等国家政策文件。 ● 浙江省发布全国首个《开源社区知识产权管理规则指引 ( 试行 )》,共十二条,包括管理原则、管理平台、 社区组成、约束机制、协同研发、软件管理、专利管理、商标管理、风险管理等方面,提出了合法正当、 创新引领、应用先导、发展优先以及数据安全的管理原则。 ● 深圳中院判决国内首个明确 GPL-3.0 协议法律性质的案例,判定 软件更新包后门 导致包括美国关键基础设施、军 队、政府等在内的超过 18000 家 客户全部收到影响,可任由攻击 者操控 2 2021 年 2 月 安全研究任由通过利用开 源生态安全机制上的漏洞, 实施依赖混淆攻击 开源生态机制漏洞 成功侵入了微软、苹果、PayPal、 特斯拉、优步等 35 家国际大型科 技公司的内网 3 2021 年 3 月 攻击者向 git.php.net 服务器 上的 php-src0 码力 | 132 页 | 14.24 MB | 1 年前32020 中国开源年度报告
部分⼈的⽐例提升。 5.8 开源软件安全 有近七成的参与者表示不会有不安全感,但同时也仍有 25% 的参与者表示会有此类担忧,开 源软件的安全问题仍然值得我们关注。 【专家点评】 红薯:开源软件由于其机制的关系,通过开源社区不断地发现问题并维护,其安全问题可能并 不是开发者们的主要关注点。其实除了技术⽅⾯的安全问题,开源合规性等许可证⽅⾯的安全 问题同样需要开发者们重视,许可证冲突问题所带来的法律⻛险影响⾮常⼤且很难被发现,尤 开源生态制高点着眼,建设和发展 中国开源基金会意义重大。通过中国开源基金会的发展壮大,不断鼓励国内巨头科技企业和社 会力量合力共建开源创新生态环境;同时,通过学习借鉴更完善的基金会运行模式、组织机制 和法律制度,建设可持续发展的中国开源创新力量。此外,在当前全球开源商业模式越来越成 熟的市场环境下,建设开源基金会,还可以引导国内外基金和投资机构孵化支持开源,培育中 国开源『独角兽』,最终 打磨。⻜桨作为我国最早开源、功能最为完备的深度学习平台,⼀直秉持开放透明的理念进⾏ 开源开发。⻜桨结合 AI 产业发展需要,在框架整体设计以及全流程开发⼯具⽅⾯保持了前瞻 性整体设计,保持对⼯程质量的极致追求,并通过社区机制进⾏质量的有效保障,凭借项⽬质 量在⼴⼤ AI 开发者中形成了良好的⼝碑。 ⻜桨⼀直⾮常关注开发者对社区的贡献和认同感。⻜桨⽬前除了已经有 5,000 多位开源开发 者通过 PR 或者提 issue0 码力 | 46 页 | 4.09 MB | 1 年前32021 中国开源年度报告
2025 年,主营业务收入达百亿级企业过百家,千亿级企业超过 15 家。建 设 2-3 个有国际影响力的开源社区,培育超过 10 个优质开源项目。高水平建成 20 家中国 软件名园。软件市场化定价机制进一步完善。建成一批国家特色化示范性软件学院。国际 交流合作全面深化。 On development goals, the Plan points out that ecological cultivation and other national policy documents. 浙江省发布全国首个《开源社区知识产权管理规则指引(试行)》,共十二条,包括管理原 则、管理平台、社区组成、约束机制、协同研发、软件管理、专利管理、商标管理、风险 管理等方面,提出了合法正当、创新引领、应用先导、发展优先以及数据安全的管理原 则。 Zhejiang Province issued the 导致包括美国关键基础设 施、军队、政府等在内的超 过 18000 家客户全部收到影 响,可任由攻击者操控 2 2021 年 2 月 安全研究任由通过利用 开源生态安全机制上的 漏洞,实施依赖混淆攻 击 开源生态机制漏 洞 成功侵入了微软、苹果、 PayPal、特斯拉、优步等 35 家国际大型科技公司的内 网 3 2021 年 3 月 攻击者向 git.php.net0 码力 | 199 页 | 9.63 MB | 1 年前3全球开源发展态势洞察(2023年第八期)
Contour v1.25.0发布 Contour是基于Kubernetes的Ingress控制 器,通过将Envoy代理部署为反向代理和负载 均衡器来实现其功能。Contour提供开箱即用 的动态配置更新机制,同时保持了轻量级的配 置文件结构。此外,Contour引入全新入口 API HTTPProxy,该API通过自定义资源定义 (CRD)来实现。其主要目标是扩展Ingress API的功能,以提供更丰富的用户体验并解决 对基于HTTPProxy资源的路由实现了HTTP 查询参数匹配功能。 Flagger v1.31.0发布 Flagger是基于Kubernetes的开源工具,用 于实现持续交付和自动化部署。它提供流量分 配管理、故障检测和回滚机制等功能,帮助开 发人员和运维团队实现高效可靠的应用程序部 署和管理。Flagger于2020年7月加入云原生 计算基金会(CNCF)。 近日,Flagger v1.31.0发布,版本特性更新 如下:0 码力 | 22 页 | 1.99 MB | 1 年前3Gitea,新一代的代码托管平台
架构体系,支持网络化协作; •依赖中央存储库; •典型产品:CVS、 SVN、VSS、 TFS、 ClearCase。 集中式代码管理 •去中心化,稳定性和可用性增强; •更高效的代码协同机制; •典型产品:GitHub、GitLab、 Gitea。 分布式代码管理 基于 Git 的分布式 代码托管 具备 DevSecOps 延伸能力 Gitea 是谁? • 20160 码力 | 30 页 | 14.34 MB | 1 年前3网易数帆 领先的数字化转型技术与服务提供商 2021
减少大量校验和修复交易数据局面 解决方案: 提供分布式事务的技术输出和技术支持 提供分布式事务的最佳实践等咨询服务 客户收益: 统一的分布式事务能力,成本低质量高 多场景支持,支持同步、异步场景 完备的异常处理机制节约人工成本 高可用、高性能及扩展 客户需求: 解决商城功能不完善的问题 解决运营体系不完整的问题 打造一站式、高性能的分析建模平台 有效支撑数据智能化分析场景 满足国产化需求 解决方案: 以中台的模式构建电商平台0 码力 | 43 页 | 884.64 KB | 1 年前3
共 11 条
- 1
- 2