开发者 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

开源中国 2023 大模型(LLM)技术报告

/ 32 LLM 基础设施：大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、基础设施：大模型框架及微调 (Fine Tuning) 大模型框架有哪些特点：：大模型开发框架通过提供高层次的 API 简化了复杂模型的构建过程。这些 API 抽象掉了许多底层细节，使开发者能够专注于模型的设计和训练策略。：这些框架经过优化，以充分利用 GPU、TPU 等高性能计算硬件，以加速模型的训练和推理过程。：为了处理大型数据集和大规模参数网络，这些框架通常设计得易于水平扩展， LLM 应用。 13 / 32 LLM 基础设施：编程语言 2023 年是大语言模型 (LLM) 之年，Python 作为人工智能领域使用度最高的编程语言，在 2023 年到底有多火？从各种开发者报告、编程语言榜单来看。只要出现有关编程语言流行度的排名，，而 Java、C/C++ 等同样在 LLM 开发中发挥关键作用的语言紧随其后。 14 / 32 LLM 基础设施：编程语言 

0 码力 | 32 页 | 13.09 MB | 1 年前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

（推测高于GPT-4o） 15美元（缓存未命中） / 7.5美元（缓存命中） 60美元 Claude 3.5 Sonnet 5亿美元 3美元 15美元 DeepSeek采用开源策略，公开模型权重和技术报告，允许开发者自由使用、修改和分发其技术，促进了AI领域的创新和协作。优势挑战测试评估：对标顶尖，能力出众  推理任务表现 • 教育类知识问答能力突出：在 MMLU、MMLU-Pro等测试中，中英文混合场景优化在推理能力上稍逊于R1 在特定任务上稍逊于OpenAI O1 OpenAI OpenAI O1 闭源推理模型复杂推理、文本生成企业级 API 生态完善；多模态交互流畅；开发者工具丰富训练成本高；闭源且费用高昂；中文支持弱于本土模型 OpenAI GPT-4o 闭源大语言模型多语言处理、文本生成、创意内容创作全模态能力行业领先；实时交互响应快；商业化成熟度高

0 码力 | 85 页 | 8.31 MB | 7 月前
3
Deepseek R1 本地部署完全手册

3090 海光 DCU 适配V3/R1模型，性能对标NVIDIA A100 等效A100（BF16） 2. 国产硬件推荐配置模型参数推荐⽅案适⽤场景 1.5B 太初T100加速卡个⼈开发者原型验证 14B 昆仑芯K200集群企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群科研计算与多模态处理四、云端部署替代⽅案 1. 国内云服务商推荐平台核⼼优势适⽤场景

0 码力 | 7 页 | 932.77 KB | 7 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

DeepSeek颠覆式创新——用户体验 32 ——掀起新一轮AI科普教育认知决定行动，这场全民AI科普对推动中国AI发展功不可没政企、创业者必读开源改变行业格局，建立强大生态  开源战胜闭源，促使全球公司、开发者等转到开源  建立强大生态，成为全球人工智能根技术，无推广情况下各国政府、企业、云厂商纷纷接入，获得全球最大影响力  改变中美竞争格局：美国是闭源封闭垄断思路，中国领导开源文化，加速中国领先地位

0 码力 | 76 页 | 5.02 MB | 5 月前
3
清华大学普通人如何抓住DeepSeek红利

n p Y d O w t v B 4 G 0 G p y 8 U I q e T 9 M 6 Deepseek的能力图谱直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。决策支持文体转换个性化推荐

0 码力 | 65 页 | 4.47 MB | 7 月前
3
DeepSeek从入门到精通(20250204)

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。文本生成表格、列表生成（如日程安排、菜谱）

0 码力 | 104 页 | 5.37 MB | 7 月前
3
清华大学 DeepSeek 从入门到精通

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。文本生成表格、列表生成（如日程安排、菜谱）

0 码力 | 103 页 | 5.40 MB | 8 月前
3

共 7 条前往

页

分类

语言

格式

开源中国 2023 大模型(LLM)技术报告

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

Deepseek R1 本地部署完全手册

【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

清华大学普通人如何抓住DeepSeek红利

DeepSeek从入门到精通(20250204)

清华大学 DeepSeek 从入门到精通

分类

语言

格式

开源中国 2023 大模型(LLM)技术报告

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

Deepseek R1 本地部署完全手册

【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

清华大学 普通人如何抓住DeepSeek红利

DeepSeek从入门到精通(20250204)

清华大学 DeepSeek 从入门到精通

清华大学普通人如何抓住DeepSeek红利