开源中国 2023 大模型(LLM)技术报告
LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任0 码力 | 32 页 | 13.09 MB | 1 年前32023 中国开源开发者报告
毫无疑问,开源开发者圈子来看,2023 年是大模型 LLM 年、生成式 AI GenAI 年。 一、 这自然要从 OpenAI 说起,前一年年底,ChatGPT 的横 空出世,标志着对话式 LLM 开始进入公众视野,为人们 提供了全新的人机交互方式。而 2023 年 3 月,同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新 的台阶,为 LLM 的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 New Bing(Bing AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, 大有干掉搜索行业和问答社区的趋势,而后事实证明,全 紧随其后推出 Bard,作为其首次亮相的对话 LLM 产品,无疑具有其里程碑意义,尽管它的首秀并不尽 如人意,车翻了又翻。 三、 Claude 2、PaLM 2、Llama 等模型与产品也展现了 LLM 在语言理解和多模态处理能力方面的探索,甚至 Claude 2 还一度被誉为实力可以硬刚 ChatGPT。而 Meta 开源的 Llama 2 更成为了 LLM 领域开源势力的典型代表,它的 出0 码力 | 87 页 | 31.99 MB | 1 年前3Google 《Prompt Engineering v7》
Technical Writer Joey Haymaker Designer Michael Lanning Introduction 6 Prompt engineering 7 LLM output configuration 8 Output length 8 Sampling controls 9 Temperature 9 Top-K and top-P 10 Putting Remember how an LLM works; it’s a prediction engine. The model takes sequential text as an input and then predicts what the following token should be, based on the data it was trained on. The LLM is operationalized between what’s in the previous tokens and what the LLM has seen during its training. When you write a prompt, you are attempting to set up the LLM to predict the right sequence of tokens. Prompt engineering0 码力 | 68 页 | 6.50 MB | 6 月前32024 中国开源开发者报告
中国开源开发者报告重点聚焦大模型,本章节以大模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 对开源社区的生态评 崛起 从“追随者”到“引领者” 2024 年,中国学术界和产业界大力推进自主研发,在技术创新和模型能力上实现了显著飞 跃,并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示,从智谱 的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列,这些自主研发的模型 在国内外各项评测中表现卓越。 每个月来自中国主要研究机构和 公司的开源模型/数据集数量。 什么是智能体?目前业界一致认可的公式是“智能体=LLM+记忆+规划+工具”: 30 / 111 大模型充当智能体的“大脑”,负责对任务进行理解、拆解、规划,并调用相应工具以完成 任务。同时,通过记忆模块,它还能为用户提供个性化的服务。 智能体为什么是“算力墙”前 AI 产品的最优解决方案?这一问题的底层逻辑包含两个方面。 1. LLM 是目前已知最好的智能体底层技术。 智能体作为学术0 码力 | 111 页 | 11.44 MB | 8 月前3OpenAI 《A practical guide to building agents》
multi-step tasks. Advances in reasoning, multimodality, and tool use have unlocked a new category of LLM-powered systems known as agents. This guide is designed for product and engineering teams exploring characteristics that allow it to act reliably and consistently on behalf of a user: 01 It leverages an LLM to manage workflow execution and make decisions. It recognizes when a workflow is complete and can rules engine works like a checklist, flagging transactions based on preset criteria. In contrast, an LLM agent functions more like a seasoned investigator, evaluating context, considering subtle patterns0 码力 | 34 页 | 7.00 MB | 5 月前3Trends Artificial Intelligence
Usage + CapEx Growth = Unprecedented 2.2 Internet vs. Leading USA-Based LLM: Total Current Users Outside North America Note: LLM data is for monthly active mobile app users. App not available in select Unprecedented Leading USA-Based LLM Users 2 Source: Company disclosures Details on Page 55 6MM 2005 2025 Number of Developers, MM 0% 50% 100% Internet LLM 33 Years In 90% @ Year 3 90% Threats = Rising Competition + Open-Source Momentum + China’s Rise 5 Leading USA LLMs vs. China LLM Desktop User Share Note: Data is non-deduped. Share is relative, measured across six leading global0 码力 | 340 页 | 12.14 MB | 4 月前3DeepSeek图解10页PDF
. . . . . . . . . . . 5 2.1 LLM 基础概念 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Transformer 基础架构 . . . . . . . . . . . . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . 为了更深入理解 DeepSeek-R1,首先需要掌握 LLM 的基础知识,包括其工 作原理、架构、训练方法。 近年来,人工智能(AI)技术的快速发展催生了大型语言模型((Large Language Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域 发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机 器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是 标是 通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数 据,使其能够掌握复杂的语言模式并应用于不同任务。 接下来,咱们先从较为基础的概念开始。 2.1 LLM 基础概念 模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b,这里的 1.5b, 7b、8b 代表什么?b 是英文的 billion,意思是十亿,7b 就是 700 码力 | 11 页 | 2.64 MB | 7 月前3Moonshot AI 介绍
0 亿的contextlength,今天看到的问题都不是问题”。 AGI:AI本质就是⼀堆scalinglaw 海外独⻆兽:我们把LLM的训练⽐作登⽉,⽉之暗⾯的名字也和登⽉相关。你怎么看现在创业公司 的LLM训练,在GPU和算⼒资源有限的条件下,还能实现登⽉吗? 杨植麟:“登⽉”有⼏个不同的⽣产要素,算⼒肯定是⼀个核⼼,但还有其他的。 你需要⼀个同时满 个能源守恒。只不过我把计算范式改变了,让能源能够以分布式的⽅式解决。 超级应⽤:模型的微调可能最终不存在 海外独⻆兽:Google和抖⾳背后的搜索和推荐有很强的⻜轮效应,算法能根据⽤⼾的⾏为实时反 馈,⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为,AI-Native产品的⻜轮效应会是什 么? 杨植麟:我深⼊思考过这个问题。AI-Native产品最终的核⼼价值是个性化交互,这是以前技术实现得 不好的,所以这 问题。”“只要⼀条道⾛到⿊,就能实 现通⽤泛化的智能(AGI)。” ⽐如,“五年之内,⼤模型将持续保持较强的技术壁垒,不会commoditize(变成平价的、没有壁垒 的商品)。” 从LLM(⼤语⾔模型)到LLLM(⻓⽂本⼤语⾔模型),Kimi智能助⼿只是Moonshot的第⼀步。不 过,如今的Moonshot已经寄托着杨植麟⼀些很“⿊镜”的预想:在未来,如果机器能够掌握⼀个⼈⼀0 码力 | 74 页 | 1.64 MB | 1 年前3DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
glimpse into the dawn of Artificial General Intelligence (AGI). In general, the intelligence of an LLM tends to improve as the number of parameters increases, allowing it to exhibit emergent capabilities not drop any tokens for evaluation. 3.1.3. Infrastructures DeepSeek-V2 is trained based on the HAI-LLM framework (High-flyer, 2023), an efficient and light-weight training framework developed internally and Chinese. Our evaluation is based on our internal evaluation framework integrated 13 in our HAI-LLM framework. Included benchmarks are categorized and listed as follows, where underlined benchmarks are0 码力 | 52 页 | 1.23 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
选择模式:进入主页后,用户可选择STORM或Co-STORM模式。 输入主题:直接输入主题词后,STORM开始进行信息检索和文章生成。 查看生成过程:点击“See BrainSTORMing Process”,可获取不同LLM Role的头脑风暴过程。 参考其他文章:在“发现”栏,可参考其他学者生成的文章及聊天示例。 整体来看,元知AI综述工具提供了一键式的自动化流程,只需导入数据,即 可自动生成高质量且规范的文献综述,适合快速高效的研究需求。 幻觉率过高,高价值信息过少,致使企业用户难以信任 AI生成的行业研究和决策结果。 结合 AI 生成知识(AIGK)与行业知识图谱, 使 AI具备强逻辑推理能力。 知识图谱增强 LLM(LLM+KG) AI 在做出决策时,会提供基于知识图 谱的逻辑推理路径,增强可解释性。 可解释的 AI 运行决策 所有 AI 生成的内容提供可溯 源数据,确保数据可信度。 可追溯的 AI 研究报告0 码力 | 85 页 | 8.31 MB | 7 月前3
共 11 条
- 1
- 2