LLM - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 等方面，LLM 技术也发挥了关键作用。此外，它还在代码生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展，其预训练和微调的方法为语言任

0 码力 | 32 页 | 13.09 MB | 1 年前
3
2023 中国开源开发者报告

毫无疑问，开源开发者圈子来看，2023 年是大模型 LLM 年、生成式 AI GenAI 年。一、这自然要从 OpenAI 说起，前一年年底，ChatGPT 的横空出世，标志着对话式 LLM 开始进入公众视野，为人们提供了全新的人机交互方式。而 2023 年 3 月，同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新的台阶，为 LLM 的广泛应用奠定了基础。再之后的 11 月份，OpenAI 再发力，GPTs 的到来，“用户自定义 ChatGPT”的能力，更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。二、 New Bing（Bing AI）代表了微软在 LLM 领域的野心和决心，它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来，大有干掉搜索行业和问答社区的趋势，而后事实证明，全紧随其后推出 Bard，作为其首次亮相的对话 LLM 产品，无疑具有其里程碑意义，尽管它的首秀并不尽如人意，车翻了又翻。三、 Claude 2、PaLM 2、Llama 等模型与产品也展现了 LLM 在语言理解和多模态处理能力方面的探索，甚至 Claude 2 还一度被誉为实力可以硬刚 ChatGPT。而 Meta 开源的 Llama 2 更成为了 LLM 领域开源势力的典型代表，它的出

0 码力 | 87 页 | 31.99 MB | 1 年前
3
Google 《Prompt Engineering v7》

Technical Writer Joey Haymaker Designer Michael Lanning Introduction 6 Prompt engineering 7 LLM output configuration 8 Output length 8 Sampling controls 9 Temperature 9 Top-K and top-P 10 Putting Remember how an LLM works; it’s a prediction engine. The model takes sequential text as an input and then predicts what the following token should be, based on the data it was trained on. The LLM is operationalized between what’s in the previous tokens and what the LLM has seen during its training. When you write a prompt, you are attempting to set up the LLM to predict the right sequence of tokens. Prompt engineering

0 码力 | 68 页 | 6.50 MB | 6 月前
3
2024 中国开源开发者报告

中国开源开发者报告重点聚焦大模型，本章节以大模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源社区生态，我们使用了对开源社区的生态评崛起从“追随者”到“引领者” 2024 年，中国学术界和产业界大力推进自主研发，在技术创新和模型能力上实现了显著飞跃，并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示，从智谱的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列，这些自主研发的模型在国内外各项评测中表现卓越。每个月来自中国主要研究机构和公司的开源模型/数据集数量。什么是智能体？目前业界一致认可的公式是“智能体=LLM+记忆+规划+工具”： 30 / 111 大模型充当智能体的“大脑”，负责对任务进行理解、拆解、规划，并调用相应工具以完成任务。同时，通过记忆模块，它还能为用户提供个性化的服务。智能体为什么是“算力墙”前 AI 产品的最优解决方案？这一问题的底层逻辑包含两个方面。 1. LLM 是目前已知最好的智能体底层技术。智能体作为学术

0 码力 | 111 页 | 11.44 MB | 8 月前
3
OpenAI 《A practical guide to building agents》

multi-step tasks. Advances in reasoning, multimodality, and tool use have unlocked a new category of LLM-powered systems known as agents. This guide is designed for product and engineering teams exploring characteristics that allow it to act reliably and consistently on behalf of a user: 01 It leverages an LLM to manage workflow execution and make decisions. It recognizes when a workflow is complete and can rules engine works like a checklist, flagging transactions based on preset criteria. In contrast, an LLM agent functions more like a seasoned investigator, evaluating context, considering subtle patterns

0 码力 | 34 页 | 7.00 MB | 5 月前
3
Trends Artificial Intelligence

Usage + CapEx Growth = Unprecedented 2.2 Internet vs. Leading USA-Based LLM: Total Current Users Outside North America Note: LLM data is for monthly active mobile app users. App not available in select Unprecedented Leading USA-Based LLM Users 2 Source: Company disclosures Details on Page 55 6MM 2005 2025 Number of Developers, MM 0% 50% 100% Internet LLM 33 Years In 90% @ Year 3 90% Threats = Rising Competition + Open-Source Momentum + China’s Rise 5 Leading USA LLMs vs. China LLM Desktop User Share Note: Data is non-deduped. Share is relative, measured across six leading global

0 码力 | 340 页 | 12.14 MB | 4 月前
3
DeepSeek图解10页PDF

. . . . . . . . . . . 5 2.1 LLM 基础概念 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Transformer 基础架构 . . . . . . . . . . . . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . 为了更深入理解 DeepSeek-R1，首先需要掌握 LLM 的基础知识，包括其工作原理、架构、训练方法。近年来，人工智能（AI）技术的快速发展催生了大型语言模型（（Large Language Model, LLM））的兴起。LLM 在自然语言处理（NLP）领域发挥着越来越重要的作用，广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型，其核心目标是标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据，使其能够掌握复杂的语言模式并应用于不同任务。接下来，咱们先从较为基础的概念开始。 2.1 LLM 基础概念模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b，这里的 1.5b, 7b、8b 代表什么？b 是英文的 billion，意思是十亿，7b 就是 70

0 码力 | 11 页 | 2.64 MB | 7 月前
3
Moonshot AI 介绍

0 亿的contextlength，今天看到的问题都不是问题”。 AGI：AI本质就是⼀堆scalinglaw 海外独⻆兽：我们把LLM的训练⽐作登⽉，⽉之暗⾯的名字也和登⽉相关。你怎么看现在创业公司的LLM训练，在GPU和算⼒资源有限的条件下，还能实现登⽉吗？杨植麟：“登⽉”有⼏个不同的⽣产要素，算⼒肯定是⼀个核⼼，但还有其他的。你需要⼀个同时满个能源守恒。只不过我把计算范式改变了，让能源能够以分布式的⽅式解决。超级应⽤：模型的微调可能最终不存在海外独⻆兽：Google和抖⾳背后的搜索和推荐有很强的⻜轮效应，算法能根据⽤⼾的⾏为实时反馈，⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为，AI-Native产品的⻜轮效应会是什么？杨植麟：我深⼊思考过这个问题。AI-Native产品最终的核⼼价值是个性化交互，这是以前技术实现得不好的，所以这问题。”“只要⼀条道⾛到⿊，就能实现通⽤泛化的智能（AGI）。” ⽐如，“五年之内，⼤模型将持续保持较强的技术壁垒，不会commoditize（变成平价的、没有壁垒的商品）。” 从LLM（⼤语⾔模型）到LLLM（⻓⽂本⼤语⾔模型），Kimi智能助⼿只是Moonshot的第⼀步。不过，如今的Moonshot已经寄托着杨植麟⼀些很“⿊镜”的预想：在未来，如果机器能够掌握⼀个⼈⼀

0 码力 | 74 页 | 1.64 MB | 1 年前
3
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

glimpse into the dawn of Artificial General Intelligence (AGI). In general, the intelligence of an LLM tends to improve as the number of parameters increases, allowing it to exhibit emergent capabilities not drop any tokens for evaluation. 3.1.3. Infrastructures DeepSeek-V2 is trained based on the HAI-LLM framework (High-flyer, 2023), an efficient and light-weight training framework developed internally and Chinese. Our evaluation is based on our internal evaluation framework integrated 13 in our HAI-LLM framework. Included benchmarks are categorized and listed as follows, where underlined benchmarks are

0 码力 | 52 页 | 1.23 MB | 1 年前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

选择模式：进入主页后，用户可选择STORM或Co-STORM模式。  输入主题：直接输入主题词后，STORM开始进行信息检索和文章生成。  查看生成过程：点击“See BrainSTORMing Process”，可获取不同LLM Role的头脑风暴过程。  参考其他文章：在“发现”栏，可参考其他学者生成的文章及聊天示例。整体来看，元知AI综述工具提供了一键式的自动化流程，只需导入数据，即可自动生成高质量且规范的文献综述，适合快速高效的研究需求。  幻觉率过高，高价值信息过少，致使企业用户难以信任 AI生成的行业研究和决策结果。结合 AI 生成知识(AIGK)与行业知识图谱，使 AI具备强逻辑推理能力。知识图谱增强 LLM(LLM+KG) AI 在做出决策时，会提供基于知识图谱的逻辑推理路径，增强可解释性。可解释的 AI 运行决策所有 AI 生成的内容提供可溯源数据，确保数据可信度。可追溯的 AI 研究报告

0 码力 | 85 页 | 8.31 MB | 7 月前
3

共 11 条前往

页

分类

语言

格式

开源中国 2023 大模型(LLM)技术报告

2023 中国开源开发者报告

Google 《Prompt Engineering v7》

2024 中国开源开发者报告

OpenAI 《A practical guide to building agents》

Trends Artificial Intelligence

DeepSeek图解10页PDF

Moonshot AI 介绍

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单