内存 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Deepseek R1 本地部署完全手册

5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB （M1/M2/M3） - 存储: 5GB 简单⽂本⽣成、基础代码补全 7B - RAM: 8-10GB - GPU: GTX 1680（4-bit量化） - 存储: 8GB - 内存: 16GB（M2 Pro/M3） - 存储: 8GB 中等复杂度问答、代码调试 14B - RAM: 24GB - GPU: RTX 3090（24GB VRAM） - 存储: 20GB - 内存: 32GB（M3 Max） - 存储: 20GB 复杂推理、技术⽂档⽣成 32B+ 企业级部署（需多卡并联）暂不⽀持科研计算、⼤规模数据处理 2. 算⼒需求分析模型参数规模计算精度最低显存需求最低算⼒需求 DeepSeek-R1 英伟达NIM：企业级GPU集群部署（链接） Groq：超低延迟推理（链接）五、完整671B MoE模型部署（Ollama+Unsloth） 1. 量化⽅案与模型选择量化版本⽂件体积最低内存+显存需求适⽤场景 DeepSeek-R1-UD- IQ1_M 158 GB ≥200 GB 消费级硬件（如Mac Studio） DeepSeek-R1-Q4_K_M 404 GB ≥500

0 码力 | 7 页 | 932.77 KB | 7 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

模型进行最终的强化学习，以对齐人类偏好。降本提能：架构创新，技术增效 DeepSeek通过架构创新和模型蒸馏技术，在提升模型性能的同时，显著降低计算成本和内存占用。这些技术不仅在长文本处理、代码生成、数学推理等任务中表现出色，还为大模型的轻量化和实际应用提供了有力支持。  模型蒸馏技术 DeepSeek采用模型蒸馏技术，通过将知识从大型复杂模型现高效计算和推理。DeepSeek通过无辅助损失的自然负载均衡和共享专家机制，解决了专家模块工作量不平衡的问题。混合专家（MoE）架构通过低秩压缩减少推理时的内存占用，同时保持与传统多头注意力（MHA）相当的性能。MLA在训练中减少了内存和计算开销，在推理中降低了 KV缓存占用空间。多头潜在注意力（MLA）机制通过序列化预测未来多个令牌，增强模型的上下文建模能力，并支持推测解码加速推理。MTP在特定场景下同

0 码力 | 85 页 | 8.31 MB | 7 月前
3
开源中国 2023 大模型(LLM)技术报告

数据字段绑定、组件代码、部分业务逻辑代码。 PromptPerfect 29 / 32 LLM 世界的基石：算力 LLM 的算力指的是执行这些模型所需的计算资源。这包括用于训练和运行模型的硬件（如 GPU 或 TPU）、内存、存储空间以及处理大量数据的能力。LLM 需要非常强大的算力来处理、理解和生成文本，因为它们涉及到数十亿甚至数万亿个参数的训练和推理。 LLM 的基石是算力，而算力的基石是硬件，硬件的性能直接影响着计算任务的速度、效率和能力。基础设施方案，覆盖深度学习领域推理和训练全流程。被外界视为打破 NVIDIA 垄断 AI 算力市场的多一种选择，其基于第三代 CDNA 架构，为生成式 AI 大语言模型设计的 MI300X 内存高达 192GB，集成了高达 1530 亿个晶体管，为历代产品之最。科技团队自研，面向通用AI计算的芯片核心架构昆仑芯 XPU 从AI落地的实际需求出发，按照复杂前沿的人工智能场景需求开展

0 码力 | 32 页 | 13.09 MB | 1 年前
3

共 3 条前往

页

Deepseek R1 本地部署完全手册清华大学 DeepSeek DeepResearch 科研开源中国 2023 模型 LLM 技术报告

分类

语言

格式

Deepseek R1 本地部署完全手册

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

开源中国 2023 大模型(LLM)技术报告