开源中国 2023 大模型(LLM)技术报告
/ 32 LLM 基础设施:大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器 学习模型和深度学习模型的软件框架。这些框架提供了 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。 微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、 基础设施:大模型框架及微调 (Fine Tuning) 大模型框架有哪些特点: :大模型开发框架通过提供高 层次的 API 简化了复杂模型的构建过程。这 些 API 抽象掉了许多底层细节,使开发者能 够专注于模型的设计和训练策略。 :这些框架经过优化,以充分利用 GPU、TPU 等高性能计算硬件,以加速模型 的训练和推理过程。 :为了处理大型数据集和大规模参 数网络,这些框架通常设计得易于水平扩展, GPU 或 TPU 等硬件。这类工具可以显著提高训练和推理的速度, 使得处理大规模数据集和复杂模型变得可行。NVIDIA CUDA 和 Google Cloud TPU 均是此类工具。 这类工具通常由开源社区支持和维护,提供了灵活、可扩展的工具和 库来构建和训练大型机器学习模型,如 TensorFlow 和 PyTorch 和 Hugging Face Transformers 等。 TensorFlow0 码力 | 32 页 | 13.09 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
受众自动生成创意广告文案和宣传语,提高广 告创作效率。 • 中小企业AI定制化服务:为中小企业提 供定制化的AI解决方案,如智能客服、营销 和办公工具,提升企业竞争力。 • 开源AI教育平台:借助DeepSeek R1 的低成本特性,创建开源AI教育平台,提供 免费课程和实验资源,促进AI教育普及。 • 智能编程教育助手:为编程学生提供实 时编程指导,自动生成代码示例,帮助解决 编程难题。 • 自动化代码审查工具:自动审查代码, DeepSeek+DeepResearch 基本知识介绍 DeepSeek:颠覆出圈,霸榜热议 2 0 2 3 年 7 月 D e e p S e e k 成 立 2 0 2 3 年 1 1 月 2 日 首个开源代码大模型 DeepSeek Coder发布 2 0 2 3 年 1 1 月 2 9 日 推出670亿参数的通用大模型 D e e p S e e k L L M , 包 括 7 B 和67B的base及chat版本 和67B的base及chat版本 发 布 新 一 代 推 理 模 型 D e e p S e e k - R 1 , 性 能 与 O p e n A I 的 o 1 正 式 版 持平,并开源 2 0 2 5 年 1 月 2 0 日 2 0 2 4 年 1 2 月 2 6 日 发 布 总 参 数 达 6 7 1 0 亿 的 D e e p S e e k - V 3 , 采 用 创 新0 码力 | 85 页 | 8.31 MB | 7 月前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
传统软件是辅助人的工具,Agent是能够自主工作的数字员工,是新的生产力政企、创业者必读 22 DeepSeek出现之前的十大预判 之九 开源效果追赶上闭源 技术开放,吸引广大开发人员和用户使用 很多公司参与开源,帮助改进产品,众人拾柴火焰高, 反哺开源产品,形成正循环政企、创业者必读 DeepSeek出现之前的十大预判 之十 中美差距快速缩小 美国预训练堆算力的路线不可持续,有待发现新范式“换道超车” 认知决定行动,这场全民AI科普对推动中国AI发展功不可没政企、创业者必读 开源改变行业格局,建立强大生态 开源战胜闭源,促使全球公司、开发者等转到开源 建立强大生态,成为全球人工智能根技术,无推广情况下各国 政府、企业、云厂商纷纷接入,获得全球最大影响力 改变中美竞争格局:美国是闭源封闭垄断思路,中国领导开源 文化,加速中国领先地位 中国人民使用的AI工具先进性已超过美国,普及率超过美国, 使用AI人口超过美国总人口,且直接用上最先进的DeepSeek-R1 DeepSeek颠覆式创新——开源 33政企、创业者必读 新时代下的集中力量办大事 每个企业都可以直接使用DeepSeek,因为开源透明可信任,企业和 政府可做大量私有化部署 一个开源产品获得突破之后,全世界都能分享成果,结束中国百模大 战,节省大量成本 很多公司参与开源,帮助改进产品,很多人基于DS生态开发应用产 品,增加影响力,人人为我,我为人人0 码力 | 76 页 | 5.02 MB | 5 月前3清华大学 普通人如何抓住DeepSeek红利
善用DeepSeek的两大关键:提出问题 鉴别答案 DeepSeek是什么? • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力 (Pass@1) (Pass@1) 国产 十 免费 十 开源 十 强大 Accuracy/Percent le (%) AI https://chat.deepseek.com Z u N e P 6 7 K w S v n p Y d O w t v B 4 G 0 G p y 8 U I q e T 9 M 6 Deepseek的能力图谱 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场 景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 决策支持 文体转换 个性化推荐0 码力 | 65 页 | 4.47 MB | 7 月前3DeepSeek从入门到精通(20250204)
DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,0 码力 | 103 页 | 5.40 MB | 8 月前3普通人学AI指南
,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其 高效的学习能力和强大的通用性而受到关注。 开源大模型以 Meta 的 Llama 系列,2024 年 4 月,Llama3 发布,包括 8B 和 70B 模型。 图 2,时间线主要根据技术论文的发布日期(例如提交至 arXiv 的日期)来 确定大型语言模型(大小超过 工具,注意不是穷举, 那些不经常用的工具,不浪费文字和耽误时间。 梳理总结六大类 AI 工具,分别包括:问答,图像,视频,AI 编程,AI 提 示词和 AI 大模型,一共梳理挑选共计 38 个 AI 工具,其中很多都是开源! 2.1 问答 2.1.1 ChatGPT ChatGPT 是一个由 OpenAI 开发的大型语言模型,它基于 GPT(Generative Pre-trained Transformer) IOPaint 开源:一个用于图像处理的开源工具,可以对图像中的特定物体进行擦除。 2.2.2 无损放大 Upscayl 开源:一个开源软件,专门用于图像的无损放大,通过 AI 增强图像质量。 2.2.3 背景消除 remove.bg 开源:一个流行的开源工具,用于自动从图片中去除背景。 2.2.4 SD (Stable Diffusion) 开源:由 StabilityAI 开发的开源 AI 模型,用于生成高质量的图像。0 码力 | 42 页 | 8.39 MB | 7 月前3DeepSeek图解10页PDF
本地大模型依 然可以正常工作,不受外部因素影响。 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型 R1,开源免费,性能强劲 • 本教程搭建方法 零成本,不需花一分钱。 • 为了照顾到大部分读者,推荐的搭建方法已将电脑配置要求降 到最低,普通电脑也能飞速运行。 1.2 DeepSeek 本地部署三个步骤 llama,下载这个 软件,然后装上,可以拿着手机扫码下图1直达我的公众号: 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 AI 知识,严禁拿此资料引流、出书、等形式的商业活动 图 1: 我的公众号:郭震 AI 安装后,打开命令窗口,输入 ollama,然后就能看到它的相关指令,一共 10 到我们自己的电脑,如下图3所示: 图 3: DeepSeek-r1 下载到本地电脑命令 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 AI 知识,严禁拿此资料引流、出书、等形式的商业活动 至此在我们本地电脑,DeepSeek 大模型就下载到我们本地电脑,接下来第 三步就可以直接使用和它对话了。在 cmd(Windows0 码力 | 11 页 | 2.64 MB | 7 月前3Deepseek R1 本地部署完全手册
3090 海光 DCU 适配V3/R1模型,性能对标NVIDIA A100 等效A100(BF16) 2. 国产硬件推荐配置 模型参数 推荐⽅案 适⽤场景 1.5B 太初T100加速卡 个⼈开发者原型验证 14B 昆仑芯K200集群 企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群 科研计算与多模态处理 四、云端部署替代⽅案 1. 国内云服务商推荐 平台 核⼼优势 适⽤场景0 码力 | 7 页 | 932.77 KB | 7 月前3TVM工具组
客户需求 评估阶段:客户用于评估芯片的网络,caffe 模型占很大比重。 竞品已支持 caffe 前端 当前各大芯片厂商的部署工具大多数都支持,支持 caffe 前端有利于提高竞争力。 开源社区 存量的开源 caffe 网络模型众多,TVM 直接支持 caffe 让大家更方便尝试 caffe 资源。绝赞招聘中 当前进度 无 caffe 依赖 from_caffe 直接导入 caffe 模型文件,不需要预先安装0 码力 | 6 页 | 326.80 KB | 5 月前3
共 11 条
- 1
- 2