2024 中国开源开发者报告
Insight 2024 中国开源开发者报告重点聚焦大模型,本章节以大模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 16 / 111 OSS Compass Insight 生产力-协作开发指数 本部分图表仅用于数据展示,不涉及先后排名 作为国内及业内领先的 AI 开发基础设施,本部分图表 中的开发框架、向量数据库、 开发平台、大模型均表现出 色,代表着它们的代码提交 频率、参与者、代码合并比 率等协作开发工作保持着较 高的水平。 17 / 111 OSS Compass Insight 本部分图表仅用于数据展示,不涉及先后排名 (EMQ) 市场&开发者 社区总监一职。 2004 年,顾钧从北京大学计算机系本科毕业,其后在工商银行、IBM、 摩根士丹利、华为和 Zilliz 等多家知名企业工作。 曾联合发起全球首个开源向量数据库项目 Milvus,并帮助 Milvus 社区 在两年间迅速拓展到两千家企业用户。 29 / 111 大模型撞上“算力墙”,超级应用的探寻之路 文/傅聪 近日,大模型教父 Sam Altman0 码力 | 111 页 | 11.44 MB | 8 月前32023 中国开源开发者报告
大模型、上海人工智能实验室的书生通用大模型、腾 讯的混元大模型、蚂蚁的百灵大模型等。 另一方面,除了大模型本身,中国在 LLM 相关技术领域也 快速迭代发展,诸如 Dify.AI 的 LLMOps、Milvus 的向量 数据库、CodeGeeX 与 Comate 的 AI 编程、对 LLM Prompt 的研究、OneFlow 的深度学习框架。 值得一提的还有华为的盘古大模型,其中盘古气象大模型是 首个精度超过传统数值预报方法的 【生产事故】冥场面!速来围观 2023 十大生产事故“名 场面”。 1 1 目录 一、开源开发者事件回顾 三、中国开发者开源新动向 二、2023 LLM 技术报告 46 | 向量数据库 47 | 数据库向量支持 48 | 大模型框架、微调 51 | 大模型训练平台与工具 53 | 编程语言 57 | 知名大模型 58 | 备案上线的中国大模型 21 | 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 42 / 87 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型0 码力 | 87 页 | 31.99 MB | 1 年前32021 中国开源年度报告
GPU 加速的 AI 数据中台解决方案 Mega,其中包括数据 ETL 系统 MegaETL、数据库系统 MegaWise、面向 Hadoop 生态的模型训练系 MegaLearning 和特征向量检索系统 Milvus,可满足传 统的加速数据 ETL、加速数据仓库和加速数据分析的场景和需求,面向各类新兴的 AI 应用场景,已被 全球 1,000 多个企业使用,涵盖金融、电信、安防、智慧城市和电子商务等行业。 Zilliz 的核心项目向量相似度搜索引擎 Milvus 是全球首款 GPU 加速海量特征向量匹配和检索引擎。 Milvus 依托 GPU 加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视 频、文本和语音等联合查询)功能,并且支持自动分库分表和多副本,能对接 TensorFlow、PyTorch 和 MxNet 等 AI 模型,可实现百亿特征向量的秒级查询。Milvus0 码力 | 132 页 | 14.24 MB | 1 年前32021 中国开源年度报告
GPU 加速的 AI 数据中台解决方案 Mega,其中包括数据 ETL 系统 MegaETL、数据库系统 MegaWise、面向 Hadoop 生态的模型训练系 MegaLearning 和特 征向量检索系统 Milvus,可满足传统的加速数据 ETL、加速数据仓库和加速数据分析的场景和 需求,面向各类新兴的 AI 应用场景,已被全球 1,000 多个企业使用,涵盖金融、电信、安防、 智慧城市和电子商务等行业。 决方案。Zilliz 的核心项目向量相似度搜索引擎 Milvus 是全球首款 GPU 加速海量特征向量 匹配和检索引擎。Milvus 依托 GPU 加速,提供极速特征向量匹配以及多维度数据联合查询(特 征、标签、图片、视频、文本和语音等联合查询)功能,并且支持自动分库分表和多副本,能对 接 TensorFlow、PyTorch 和 MxNet 等 AI 模型,可实现百亿特征向量的秒级查询。Milvus0 码力 | 199 页 | 9.63 MB | 1 年前32020 中国开源年度报告
项⽬仓库的⼯作时间情况,为每个仓库绘制了图表。在此,我们选择 3 个项⽬进⾏分析。 milvus-io/milvus,Milvus 为海量特征向量的近似最近邻搜索(ANNS)⽽设计。相⽐ Faiss 和 SPTAG 这样的算⼦库,Milvus 提供完整的向量数据更新,索引与查询框架。 Milvus 利⽤ GPU(Nvidia)进⾏索引加速与查询加速,能⼤幅提⾼单机性能。 odpi/egeria0 码力 | 46 页 | 4.09 MB | 1 年前32023年中国基础软件开源产业研究白皮书
www.iresearch.com.cn 中国开源数据库图谱 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 关系型数据库 时序数据库 图数据库 键值数据库 向量及空间数据库 数据库 内核 中国开源数据库 多数基于国外成 熟的数据库内 核,仅少部分厂 商自研 24 ©2023.11 iResearch Inc.0 码力 | 43 页 | 4.69 MB | 1 年前3Moonshot AI 介绍
型更像是⼀个 单任务模型,它只知道怎么去⽣成这个图像,但是⼤脑部分⾮常薄弱。 基于DiffusionModel的技术路径,⼀个重⼤问题是你没有办法去做真正的跨模态建模,只能基于很简 单的⽂本向量去做decoding。本质上,它并没有对不同模态的联合概率去做⼀个可规模化的建模,这 制约着这些模型去发挥更⼤的价值。从可规模化这个点上,我个⼈认为,⻓期来看,可能 Autoregressive0 码力 | 74 页 | 1.64 MB | 1 年前3
共 7 条
- 1