夏歌-使用Rust构建LLM应用
第三届中国 Rust 开发者大会 使用 Rust 构建 LLM 应用 夏歌 SECTION TITLE SECTION TITLE 我们能不能直接用 Rust • 训练 • 推理 • AI 应用相关的工具 • WASI-NN spec • WasmEdge 已经支持 Pytorch 、 TensorFlow Lite • WASI-NN 2.0 比如 Langchain Rewrite 培养更广泛的 Rust 开发 围绕 LLM 生态封装相应的 Rust 框 架,让开发者能够使用简单的 Rust 写 应用 如何用 Rust 实现的 构建和部署 AI 相关工作流的 serverless 平台 • 上传 Rust function ,平台负责将 Rust 编译成 Wasm ,并运行在 WasmEdge 安全容 器中 • 平台封装了一些常用 LLM 和 SaaS 的 API ,并发布成了0 码力 | 36 页 | 38.31 MB | 1 年前3开源中国 2023 大模型(LLM)技术报告
LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任0 码力 | 32 页 | 13.09 MB | 1 年前32023 中国开源开发者报告
毫无疑问,开源开发者圈子来看,2023 年是大模型 LLM 年、生成式 AI GenAI 年。 一、 这自然要从 OpenAI 说起,前一年年底,ChatGPT 的横 空出世,标志着对话式 LLM 开始进入公众视野,为人们 提供了全新的人机交互方式。而 2023 年 3 月,同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新 的台阶,为 LLM 的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 New Bing(Bing AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, 大有干掉搜索行业和问答社区的趋势,而后事实证明,全 紧随其后推出 Bard,作为其首次亮相的对话 LLM 产品,无疑具有其里程碑意义,尽管它的首秀并不尽 如人意,车翻了又翻。 三、 Claude 2、PaLM 2、Llama 等模型与产品也展现了 LLM 在语言理解和多模态处理能力方面的探索,甚至 Claude 2 还一度被誉为实力可以硬刚 ChatGPT。而 Meta 开源的 Llama 2 更成为了 LLM 领域开源势力的典型代表,它的 出0 码力 | 87 页 | 31.99 MB | 1 年前3AI大模型千问 qwen 中文文档
input_ids, max_new_tokens=512, streamer=streamer, ) 1.2.2 使用 vLLM 部署 要部署 Qwen1.5,我们建议您使用 vLLM。vLLM 是一个用于 LLM 推理和服务的快速且易于使用的框架。以 下,我们将展示如何使用 vLLM 构建一个与 OpenAI API 兼容的 API 服务。 首先,确保你已经安装 vLLM>=0.3.0 : pip install 现在,你可以选择流式模式或非流式模式与 Qwen1.5 进行对话。继续阅读文档,并尝试探索模型推理的更多 高级用法!” 1.4 llama.cpp llama.cpp 是一个 C++ 库,用于简化 LLM 推理的设置。它使得在本地机器上运行 Qwen 成为可能。该库是 一个纯 C/C++ 实现,不依赖任何外部库,并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此 外,它还提供了 这个平台,它允许你搜索和运行本地的 大规模语言模型。Qwen1.5 已经正式成为 LM Studio 的一部分。祝你使用愉快! 1.5 Ollama Ollama 帮助您通过少量命令即可在本地运行 LLM。它适用于 MacOS、Linux 和 Windows 操作系统。现在, Qwen1.5 正式上线 Ollama,您只需一条命令即可运行它: ollama run qwen 接着,我们介绍在 Ollama0 码力 | 56 页 | 835.78 KB | 1 年前32024 中国开源开发者报告
中国开源开发者报告重点聚焦大模型,本章节以大模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 对开源社区的生态评 崛起 从“追随者”到“引领者” 2024 年,中国学术界和产业界大力推进自主研发,在技术创新和模型能力上实现了显著飞 跃,并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示,从智谱 的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列,这些自主研发的模型 在国内外各项评测中表现卓越。 每个月来自中国主要研究机构和 公司的开源模型/数据集数量。 什么是智能体?目前业界一致认可的公式是“智能体=LLM+记忆+规划+工具”: 30 / 111 大模型充当智能体的“大脑”,负责对任务进行理解、拆解、规划,并调用相应工具以完成 任务。同时,通过记忆模块,它还能为用户提供个性化的服务。 智能体为什么是“算力墙”前 AI 产品的最优解决方案?这一问题的底层逻辑包含两个方面。 1. LLM 是目前已知最好的智能体底层技术。 智能体作为学术0 码力 | 111 页 | 11.44 MB | 8 月前3第29 期| 2023 年9 月- 技术雷达
是一种结合预训练参数和非参数记忆的文本生成技术。它使你能够通过你的领域内特有 的包含上下文的知识,来强化预训练模型中的现有知识。使用 RAG,你会先从非参数记忆中去检索相关文档集 (一般是通过在向量数据库中的相似性搜索),再使用 LLM 中的参数记忆生成与检索出的文档一致的输出。我们 发现 RAG 对各种需要大量知识的 NLP 任务十分有用,包括问答,总结和故事生成。 技术 © Thoughtworks, Inc. All Rights 也在其他领域发布了类似的十大榜单。在八月初发表了第一个主要版本的 OWASP LLM 十大安全风险榜单 强调了提示注入、不安全的输出处理、训练数据投毒以及其他个人和团队构建 LLM 应用程序 时最好注意的风险。OWASP 近期也发布了 OWASP API 十大安全风险榜单的第二版。鉴于 OWASP 十大安全风 险榜单的覆盖范围(Web 应用程序、API、LLM 及其他)、质量以及与持续变化的安全形势的相关性,我们继续 ChatGLM 评估 在英语世界中,有许多新兴的大语言模型(LLM)。虽然这些模型通常经过多种语言的预训练,但它们在其他语 言中的表现可能不如英语。清华大学开发的 ChatGLM 是一个开放的双语语言模型,基于通用语言模型架构,针 对中文会话进行了优化。由于中文在词语划分和语法方面较英语更为复杂,因此拥有一个针对中文进行优化的 LLM 非常重要。我们的团队在为呼叫中心开发中文情感检测应用时发现,ChatGLM0 码力 | 43 页 | 2.76 MB | 1 年前3DeepSeek图解10页PDF
. . . . . . . . . . . 5 2.1 LLM 基础概念 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Transformer 基础架构 . . . . . . . . . . . . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . 为了更深入理解 DeepSeek-R1,首先需要掌握 LLM 的基础知识,包括其工 作原理、架构、训练方法。 近年来,人工智能(AI)技术的快速发展催生了大型语言模型((Large Language Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域 发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机 器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是 标是 通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数 据,使其能够掌握复杂的语言模式并应用于不同任务。 接下来,咱们先从较为基础的概念开始。 2.1 LLM 基础概念 模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b,这里的 1.5b, 7b、8b 代表什么?b 是英文的 billion,意思是十亿,7b 就是 700 码力 | 11 页 | 2.64 MB | 7 月前3Moonshot AI 介绍
0 亿的contextlength,今天看到的问题都不是问题”。 AGI:AI本质就是⼀堆scalinglaw 海外独⻆兽:我们把LLM的训练⽐作登⽉,⽉之暗⾯的名字也和登⽉相关。你怎么看现在创业公司 的LLM训练,在GPU和算⼒资源有限的条件下,还能实现登⽉吗? 杨植麟:“登⽉”有⼏个不同的⽣产要素,算⼒肯定是⼀个核⼼,但还有其他的。 你需要⼀个同时满 个能源守恒。只不过我把计算范式改变了,让能源能够以分布式的⽅式解决。 超级应⽤:模型的微调可能最终不存在 海外独⻆兽:Google和抖⾳背后的搜索和推荐有很强的⻜轮效应,算法能根据⽤⼾的⾏为实时反 馈,⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为,AI-Native产品的⻜轮效应会是什 么? 杨植麟:我深⼊思考过这个问题。AI-Native产品最终的核⼼价值是个性化交互,这是以前技术实现得 不好的,所以这 问题。”“只要⼀条道⾛到⿊,就能实 现通⽤泛化的智能(AGI)。” ⽐如,“五年之内,⼤模型将持续保持较强的技术壁垒,不会commoditize(变成平价的、没有壁垒 的商品)。” 从LLM(⼤语⾔模型)到LLLM(⻓⽂本⼤语⾔模型),Kimi智能助⼿只是Moonshot的第⼀步。不 过,如今的Moonshot已经寄托着杨植麟⼀些很“⿊镜”的预想:在未来,如果机器能够掌握⼀个⼈⼀0 码力 | 74 页 | 1.64 MB | 1 年前3Al原生数据库与RAG
结果 文本切分 相关文本块 提示词 提示词模版 对话机器人 搜索 推荐 Copilot Embedding模型 LLM LLM对企业信息架构的改变 对话机器人 搜索 推荐 数据库 APIs 文档 网站 日志 交易记录 向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案 挑战一:向量召回不准确 挑战四:幻觉、胡说八道 挑战五:定制化成本 挑战二:数据组织混乱丧失语义 挑战三:多样化查询需求 数据加工 数据库 文档结构识别 文字加工 多路召回 融合排序 RAG引擎工作流程 文档格式转换 LLM Answer 大模型答案 文档格式解析 文档布局解析 句法模版 抽取引擎 开放域 抽取系统 跨模态文档预训练模型 弹性模版 抽取引擎 跨模态文档 抽取系统 文档 表格 抽取 系统0 码力 | 25 页 | 4.48 MB | 1 年前3大模型时代下向量数据库的设计与应用
使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过0 码力 | 28 页 | 1.69 MB | 1 年前3
共 16 条
- 1
- 2