开源中国 2023 大模型(LLM)技术报告
LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 320 码力 | 32 页 | 13.09 MB | 1 年前3全球开源发展态势洞察(2023年第八期)
Face、微软、英伟达与Stability AI等 顶尖人工智能提供商,共同参与对生成式人工 智能系统的公开安全评估。 AI Village组织方将这个合作活动描述为“有史 以来规模最大的人工智能模型红队演习”。将 有数千人参与对公共人工智能模型的评估,期 间使用的评估平台由Scale AI负责开发。 近日,微软发布了一个补丁,用于修复Secure Boot绕过漏洞。在2023年1月份,微软释出补 丁修复了编号为CVE-2022-21894的漏洞,但 多的人了解如何开展红队测试和评估人工智能模 型,才能解决这些模型中的各种问题。”通过对 人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能 系统漏洞的研究者社区。事实证明,大语言模型 的锁定难度远超想象,部分原因在于所谓“提示 词注入”技术。人工智能研究员Simon Willison 详细介绍了提示词注入的危险,这种技术可以令 语言模型偏离正轨,执行创建者想要回避的操 作。在DEF CON大会期间,参与者将通过主办方 提供的笔记本电脑定时访问多个大语言模型。并 将会有一个夺旗式的积分系统,促进测试各种潜 在威胁。积分最高的参与者将获得英伟达高端 GPU作为奖品。AI Village公告中写道,“我们将 公布从此次竞赛中得到的启发,帮助其他想要做 类似尝试的人们。希望越来越多的人能知晓该如 何使用大语言模型,了解这些模型的局限性。” 注释:“红队”测试,是指安全专家尝试在组织系0 码力 | 22 页 | 1.99 MB | 1 年前3Pro Git 中文版 第2版 2.1.66
通过阅读本章,你应 该能够克隆仓库、查看项目历史、修改文件和贡献更改。 如果本书在此刻自燃,你应该已经能够使用已经学到 的漂亮有用的 Git 知识获取到另外一份拷贝。 第三章 关注于 Git 的分支模型。分支模型通常被认为是 Git 的杀手级特性。 这里,你将学习到究竟是什么让 Git 与众不同。学习完本章,你可能需要一段时间来思考, 在 Git 分支成为你的生活的一部分之前,你到底是如何生 活的。 第四章 抱。 第十章 深入 Git 隐晦而漂亮的实现细节。现在,你已经知道所有有关 Git 的知识, 能够熟练运用 Git 的强大优雅 的功能。接下来,你可以继续学习 Git 如何存储对象、 Git 的对象模型是怎样的、打包文件的细节、服务器协议 等更多知识。 本书自始至终都将引用本章的内容,以便你能够在当时就可以深入了解。 但是,如果你像我们一 样希望深入学习技术细节,你可能想先阅读第十章。我们将选择权交给你。 3. 分布式版本控制. 更进一步,许多这类系统都可以指定和若干不同的远端代码仓库进行交互。籍此,你就可以在同一个项目中,分 别和不同工作小组的人相互协作。 你可以根据需要设定不同的协作流程,比如层次模型式的工作流,而这在以 前的集中式系统中是无法实现的。 17 Git 简史 同生活中的许多伟大事物一样,Git 诞生于一个极富纷争大举创新的年代。 Linux 内核开源项目有着为数众多的参与者。0 码力 | 501 页 | 19.30 MB | 1 年前3Pro Git 中文版 第2版 2.1.66
通过阅读本章,你应该能够克隆仓库、查看项目历史、修改文 件和贡献更改。 如果本书在此刻自燃,你应该已经能够使用已经学到的漂亮 有用的 Git 知识获取到另外一份拷贝。 第三章 关注于 Git 的分支模型。分支模型通常被认为是 Git 的杀手级特性。 这里,你将学习到究竟是什么让 Git 与众不同。学习完本章,你可能需要一段 时间来思考, 在 Git 分支成为你的生活的一部分之前,你到底是如何生活的。 第十章 深入 Git 隐晦而漂亮的实现细节。现在,你已经知道所有有关 Git 的知 识, 能够熟练运用 Git 的强大优雅的功能。接下来,你可以继续学习 Git 如何 存储对象、 Git 的对象模型是怎样的、打包文件的细节、服务器协议等更多知 识。 本书自始至终都将引用本章的内容,以便你能够在当时就可以深入了 解。 但是,如果你像我们一样希望深入学习技术细节,你可能想先阅读第十 章。我们将选择权交给你。 分布式版本控制. 更进一步,许多这类系统都可以指定和若干不同的远端代码仓库进行交互。籍 此,你就可以在同一个项目中,分别和不同工作小组的人相互协作。 你可以 根据需要设定不同的协作流程,比如层次模型式的工作流,而这在以前的集中 式系统中是无法实现的。 ▪ ▪ ▪ ▪ ▪ GIT 简史 同生活中的许多伟大事物一样,Git 诞生于一个极富纷争大举创新的年代。 Linux 内核开源项目有着为数众多的参与者。0 码力 | 670 页 | 13.59 MB | 1 年前3Pro Git 2nd Edition 2.1.413
changed, 2 insertions(+) You’ll notice the phrase “fast-forward” in that merge. Because the commit C4 pointed to by the branch hotfix you merged in was directly ahead of the commit C2 you’re on, Git simply the merge command. It performs a three-way merge between the two latest branch snapshots (C3 and C4) and the most recent common ancestor of the two (C2), creating a new snapshot (and commit). Figure history However, there is another way: you can take the patch of the change that was introduced in C4 and reapply it on top of C3. In Git, this is called rebasing. With the rebase command, you can take0 码力 | 731 页 | 21.49 MB | 1 年前3Pro Git 2nd Edition 2.1.413
changed, 2 insertions(+) You’ll notice the phrase “fast-forward” in that merge. Because the commit C4 pointed to by the branch hotfix you merged in was directly ahead of the commit C2 you’re on, Git simply is the merge command. It performs a three-way merge between the two latest branch snapshots (C3 and C4) and the most recent common ancestor of the two (C2), creating a new snapshot (and commit). 95 Figure history However, there is another way: you can take the patch of the change that was introduced in C4 and reapply it on top of C3. In Git, this is called rebasing. With the rebase command, you can take0 码力 | 501 页 | 17.96 MB | 1 年前3Pro Git 2nd Edition 2.1.413
changed, 2 insertions(+) You’ll notice the phrase “fast-forward” in that merge. Because the commit C4 pointed to by the branch hotfix you merged in was directly ahead of the commit C2 you’re on, Git simply the merge command. It performs a three-way merge between the two latest branch snapshots (C3 and C4) and the most recent common ancestor of the two (C2), creating a new snapshot (and commit). Figure history However, there is another way: you can take the patch of the change that was introduced in C4 and reapply it on top of C3. In Git, this is called rebasing. With the rebase command, you can take0 码力 | 691 页 | 13.35 MB | 1 年前3Manus AI:Agent元年开启
>$2%AgentFG?@HIJKLM p Workday#$ Agent System of Record ! Workday #$G AI *+«AI Agents¬¥+,-,-G¼½ŒÙ! QŸcC¥+c4ÚC ªÛ®‰ AI *+«AI-powered agents¬,ÜÝÞß*+!. Workday |à÷øc{ã|ü,9!áBâPáâ> ✅ áÛ AI *+G¥+Àã5L"#-"Gõö°¥+0 码力 | 23 页 | 4.87 MB | 5 月前32024 中国开源开发者报告
观 点 编委会 21 | 2024 年中国开源模型:崛起与变革 26 | 开源模型未必更先进,但会更长久 30 | 大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 高瞻,Gitee AI 运营 设计:张琪 开发者是开源生态的重要支柱。 本章结合 、 的数据分 析,勾勒 2024 年中国开源开发者的整体画像趋势轮廓,主要 反映中国开源开发者使用开源大模型概况、开源项目/组织健康 度,以及中国开源社区的生态评估等情况。 Gitee 数据篇 本报告数据来源:2024年1月至2024年12月 Gitee及Gitee AI平台相关公开数据 4 / 1110 码力 | 111 页 | 11.44 MB | 8 月前3Moonshot AI 介绍
海外⼈才加⼊: i. ⼤模型⽅⾯。团队成员发明了RoPE相对位置编码,是MetaLLaMa和GooglePALM等⼤多数 主流模型的重要组成部分;发明了groupnormalization,是StableDiffusion等AI模型成功 的关键组件;发明了Transformer-XL,是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型,解决了语⾔建模上下⽂⻓度的关键问题,定义了语⾔建模的新标准;曾 机器)分 布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈,每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。 2.团队聚焦底层技术创新,技术Vision强 a. 引领⼤模型的“⽆损⻓上下⽂”时代。2023年10⽉上旬,在产品Kimi智能助⼿中实现“⽆损 ⻓上下⽂窗⼝(LosslessLongContextWindow)”,⽀持20万汉字输⼊,实现对⻓⽂本的⽆ 和中⽂能⼒上Kimi智能助⼿依然领先。 b. 聚焦底层技术创新,不⾛技术捷径。最早提出“LosslessLongContext可以解决90%以上的 模型定制问题”,坚持对数据的⽆损压缩,实现模型能⼒的提升,不⾛技术捷径(通过滑动窗 ⼝、降采样、⼩模型等技术实现上下⽂窗⼝延⻓,都是“技术捷径”) c. 通过这篇⽂章,您可以了解更多技术⽅⾯信息:专访⽉之暗⾯杨植麟:losslesslongcontextis0 码力 | 74 页 | 1.64 MB | 1 年前3
共 176 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18