开源开发者 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

开源中国 2023 大模型(LLM)技术报告

/ 32 LLM 基础设施：大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、基础设施：大模型框架及微调 (Fine Tuning) 大模型框架有哪些特点：：大模型开发框架通过提供高层次的 API 简化了复杂模型的构建过程。这些 API 抽象掉了许多底层细节，使开发者能够专注于模型的设计和训练策略。：这些框架经过优化，以充分利用 GPU、TPU 等高性能计算硬件，以加速模型的训练和推理过程。：为了处理大型数据集和大规模参数网络，这些框架通常设计得易于水平扩展， GPU 或 TPU 等硬件。这类工具可以显著提高训练和推理的速度，使得处理大规模数据集和复杂模型变得可行。NVIDIA CUDA 和 Google Cloud TPU 均是此类工具。这类工具通常由开源社区支持和维护，提供了灵活、可扩展的工具和库来构建和训练大型机器学习模型，如 TensorFlow 和 PyTorch 和 Hugging Face Transformers 等。 TensorFlow

0 码力 | 32 页 | 13.09 MB | 1 年前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

受众自动生成创意广告文案和宣传语，提高广告创作效率。 • 中小企业AI定制化服务：为中小企业提供定制化的AI解决方案，如智能客服、营销和办公工具，提升企业竞争力。 • 开源AI教育平台：借助DeepSeek R1 的低成本特性，创建开源AI教育平台，提供免费课程和实验资源，促进AI教育普及。 • 智能编程教育助手：为编程学生提供实时编程指导，自动生成代码示例，帮助解决编程难题。 • 自动化代码审查工具：自动审查代码， DeepSeek+DeepResearch 基本知识介绍 DeepSeek：颠覆出圈，霸榜热议 2 0 2 3 年 7 月 D e e p S e e k 成立 2 0 2 3 年 1 1 月 2 日首个开源代码大模型 DeepSeek Coder发布 2 0 2 3 年 1 1 月 2 9 日推出670亿参数的通用大模型 D e e p S e e k L L M ，包括 7 B 和67B的base及chat版本和67B的base及chat版本发布新一代推理模型 D e e p S e e k - R 1 ，性能与 O p e n A I 的 o 1 正式版持平，并开源 2 0 2 5 年 1 月 2 0 日 2 0 2 4 年 1 2 月 2 6 日发布总参数达 6 7 1 0 亿的 D e e p S e e k - V 3 ，采用创新

0 码力 | 85 页 | 8.31 MB | 7 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

传统软件是辅助人的工具，Agent是能够自主工作的数字员工，是新的生产力政企、创业者必读 22 DeepSeek出现之前的十大预判之九开源效果追赶上闭源  技术开放，吸引广大开发人员和用户使用  很多公司参与开源，帮助改进产品，众人拾柴火焰高，反哺开源产品，形成正循环政企、创业者必读 DeepSeek出现之前的十大预判之十中美差距快速缩小  美国预训练堆算力的路线不可持续，有待发现新范式“换道超车” 认知决定行动，这场全民AI科普对推动中国AI发展功不可没政企、创业者必读开源改变行业格局，建立强大生态  开源战胜闭源，促使全球公司、开发者等转到开源  建立强大生态，成为全球人工智能根技术，无推广情况下各国政府、企业、云厂商纷纷接入，获得全球最大影响力  改变中美竞争格局：美国是闭源封闭垄断思路，中国领导开源文化，加速中国领先地位  中国人民使用的AI工具先进性已超过美国，普及率超过美国，使用AI人口超过美国总人口，且直接用上最先进的DeepSeek-R1 DeepSeek颠覆式创新——开源 33政企、创业者必读新时代下的集中力量办大事  每个企业都可以直接使用DeepSeek，因为开源透明可信任，企业和政府可做大量私有化部署  一个开源产品获得突破之后，全世界都能分享成果，结束中国百模大战，节省大量成本  很多公司参与开源，帮助改进产品，很多人基于DS生态开发应用产品，增加影响力，人人为我，我为人人

0 码力 | 76 页 | 5.02 MB | 5 月前
3
清华大学普通人如何抓住DeepSeek红利

善用DeepSeek的两大关键：提出问题鉴别答案 DeepSeek是什么? • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力 (Pass@1) (Pass@1) 国产十免费十开源十强大 Accuracy/Percent le (%) AI https://chat.deepseek.com Z u N e P 6 7 K w S v n p Y d O w t v B 4 G 0 G p y 8 U I q e T 9 M 6 Deepseek的能力图谱直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。决策支持文体转换个性化推荐

0 码力 | 65 页 | 4.47 MB | 7 月前
3
DeepSeek从入门到精通(20250204)

DeepSeek是什么？ AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，

0 码力 | 104 页 | 5.37 MB | 7 月前
3
清华大学 DeepSeek 从入门到精通

DeepSeek是什么？ AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，

0 码力 | 103 页 | 5.40 MB | 8 月前
3
普通人学AI指南

，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。开源大模型以 Meta 的 Llama 系列，2024 年 4 月，Llama3 发布，包括 8B 和 70B 模型。图 2，时间线主要根据技术论文的发布日期（例如提交至 arXiv 的日期）来确定大型语言模型（大小超过工具，注意不是穷举，那些不经常用的工具，不浪费文字和耽误时间。梳理总结六大类 AI 工具，分别包括：问答，图像，视频，AI 编程，AI 提示词和 AI 大模型，一共梳理挑选共计 38 个 AI 工具，其中很多都是开源！ 2.1 问答 2.1.1 ChatGPT ChatGPT 是一个由 OpenAI 开发的大型语言模型，它基于 GPT（Generative Pre-trained Transformer） IOPaint 开源：一个用于图像处理的开源工具，可以对图像中的特定物体进行擦除。 2.2.2 无损放大 Upscayl 开源：一个开源软件，专门用于图像的无损放大，通过 AI 增强图像质量。 2.2.3 背景消除 remove.bg 开源：一个流行的开源工具，用于自动从图片中去除背景。 2.2.4 SD (Stable Diffusion) 开源：由 StabilityAI 开发的开源 AI 模型，用于生成高质量的图像。

0 码力 | 42 页 | 8.39 MB | 7 月前
3
DeepSeek图解10页PDF

本地大模型依然可以正常工作，不受外部因素影响。本教程搭建 DeepSeek 好处本地搭建 DeepSeek 三个比较实际的好处： • 本教程接入的是 DeepSeek 推理模型 R1，开源免费，性能强劲 • 本教程搭建方法零成本，不需花一分钱。 • 为了照顾到大部分读者，推荐的搭建方法已将电脑配置要求降到最低，普通电脑也能飞速运行。 1.2 DeepSeek 本地部署三个步骤 llama，下载这个软件，然后装上，可以拿着手机扫码下图1直达我的公众号：教程作者：郭震，工作 8 年目前美国 AI 博士在读，公众号：郭震 AI，欢迎关注获取更多原创教程。资料用心打磨且开源，是为了帮助更多人了解获取 AI 知识，严禁拿此资料引流、出书、等形式的商业活动图 1: 我的公众号：郭震 AI 安装后，打开命令窗口，输入 ollama，然后就能看到它的相关指令，一共 10 到我们自己的电脑，如下图3所示：图 3: DeepSeek-r1 下载到本地电脑命令教程作者：郭震，工作 8 年目前美国 AI 博士在读，公众号：郭震 AI，欢迎关注获取更多原创教程。资料用心打磨且开源，是为了帮助更多人了解获取 AI 知识，严禁拿此资料引流、出书、等形式的商业活动至此在我们本地电脑，DeepSeek 大模型就下载到我们本地电脑，接下来第三步就可以直接使用和它对话了。在 cmd(Windows

0 码力 | 11 页 | 2.64 MB | 7 月前
3
Deepseek R1 本地部署完全手册

3090 海光 DCU 适配V3/R1模型，性能对标NVIDIA A100 等效A100（BF16） 2. 国产硬件推荐配置模型参数推荐⽅案适⽤场景 1.5B 太初T100加速卡个⼈开发者原型验证 14B 昆仑芯K200集群企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群科研计算与多模态处理四、云端部署替代⽅案 1. 国内云服务商推荐平台核⼼优势适⽤场景

0 码力 | 7 页 | 932.77 KB | 7 月前
3
TVM工具组

客户需求评估阶段：客户用于评估芯片的网络，caffe 模型占很大比重。竞品已支持 caffe 前端当前各大芯片厂商的部署工具大多数都支持，支持 caffe 前端有利于提高竞争力。开源社区存量的开源 caffe 网络模型众多，TVM 直接支持 caffe 让大家更方便尝试 caffe 资源。绝赞招聘中当前进度无 caffe 依赖 from_caffe 直接导入 caffe 模型文件，不需要预先安装

0 码力 | 6 页 | 326.80 KB | 5 月前
3

共 11 条前往

页

分类

语言

格式

开源中国 2023 大模型(LLM)技术报告

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

清华大学普通人如何抓住DeepSeek红利

DeepSeek从入门到精通(20250204)

清华大学 DeepSeek 从入门到精通

普通人学AI指南

DeepSeek图解10页PDF

Deepseek R1 本地部署完全手册

TVM工具组