开源中国 2023 大模型(LLM)技术报告
提供高效的存储和检索能力。通过数据向量化,实现了 在向量数据库中进行高效的相似性计算和查询。 根据向量数据库的的实现方式,可以将向量数据库大致分为两类: 原生的向量数据库专门为存储和检索向量而设计, 所管理的数据是基于对象或数据点的向量表示进行 组织和索引。 包括 等均属于原生向量数据库。 除了选择专业的向量数据库,对传统数据库添加 “向量支持”也是主流方案。比如 等传 统数据库均已支持向量检索。 6 持快速迭代和大规模部署。Amazon SageMaker、Google Cloud AI Platform 和 Microsoft Azure Machine Learning 都是提供端到 端机器学习服务的云平台。 这些工具和库专门为加速机器学习模型的训练和推理而设计,通常利 用 GPU 或 TPU 等硬件。这类工具可以显著提高训练和推理的速度, 使得处理大规模数据集和复杂模型变得可行。NVIDIA CUDA ,衍生出 MaaS(Model-as-a- Service,大模型即服务)的服务模式——通过提供统一的接口和框架,以更高效地部署、运行和优化这些模型, 。 :其它开发相关的 LLM 工具,如云原生构建多模态AI应用的工具 Jina,嵌入式数据库 txtai 等。 25 / 32 LLM 的工具、平台和资源 另一个视角来看,在大模型繁荣发展的背后,少不了工 具和平台的发力,如 LLMOps0 码力 | 32 页 | 13.09 MB | 1 年前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
认知决定行动,这场全民AI科普对推动中国AI发展功不可没政企、创业者必读 开源改变行业格局,建立强大生态 开源战胜闭源,促使全球公司、开发者等转到开源 建立强大生态,成为全球人工智能根技术,无推广情况下各国 政府、企业、云厂商纷纷接入,获得全球最大影响力 改变中美竞争格局:美国是闭源封闭垄断思路,中国领导开源 文化,加速中国领先地位 中国人民使用的AI工具先进性已超过美国,普及率超过美国, 使用AI人口 ,形成分布式推理网络 技术门槛降低, 可标准化、SaaS化部署,下载就能用 DeepSeek颠覆式创新——成本暴跌 35政企、创业者必读 惠及全球人民,科技平权,技术平民化 运营商、云服务可免费用,降低云服务成本 大型企业可使用多个DeepSeek,解决不同场景需求 中小企业免费部署,消除数字鸿沟 个人可以拥有自己的DeepSeek ,可以成为超级个体 对于创业者得 质量缺陷预分析及预警 • 质量评价模型优化 • 冷态钢管缺陷检测 • 厂区智慧物流 • 生产计划智能优化 • 炉次计划优化算法(智能排产) • 综合物流调度 • 碳资源交易与碳金融 • 中鑫联云商平台风险控制 场景选择示例——钢铁大模型 57政企、创业者必读 有了场景之后,只有DeepSeek还不够 大模型就像培养器中的大脑 会理解、能问答、能生成,但是没有记忆能力,不会使用工具,0 码力 | 76 页 | 5.02 MB | 5 月前3Deepseek R1 本地部署完全手册
32B 壁彻算⼒平台+昇腾910B集群 科研计算与多模态处理 四、云端部署替代⽅案 1. 国内云服务商推荐 平台 核⼼优势 适⽤场景 硅基流动 官⽅推荐API,低延迟,⽀持多模态模型 企业级⾼并发推理 腾讯云 ⼀键部署+限时免费体验,⽀持VPC私有化 中⼩规模模型快速上线 PPIO派欧云 价格仅为OpenAI 1/20,注册赠5000万tokens 低成本尝鲜与测试 2. 国际接⼊渠道(需魔法或外企上⽹环境 DeepSeek-R1-UD- IQ1_M 158 GB ≥200 GB 消费级硬件(如Mac Studio) DeepSeek-R1-Q4_K_M 404 GB ≥500 GB ⾼性能服务器/云GPU 下载地址: HuggingFace模型库 Unsloth AI官⽅说明 2. 硬件配置建议 硬件类型 推荐配置 性能表现(短⽂本⽣成) 消费级设备 Mac Studio(192GB统⼀内存) cn/i/OBklluwO 4. 字节跳动⽕⼭引擎:https://console.volcengine.com/ark/region:ark+cn-beijing/experience 5. 百度云千帆:https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list 6. 英伟达NIM:https://build.nvidia0 码力 | 7 页 | 932.77 KB | 7 月前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 create a table? 切分数据 Can you create a graph using this data? 制作一个图 Can you create a world cloud? 做一个词云 Can you create a chart using this data? 画一个图表 What are the rows and columns in this dataset? 描述一下行和列 2 本地部署:灵活高效,协同优化 端侧部署能力 端云协同优化 DeepSeek的本地部署与云端计算相结合,实现高效的计算和传 输。例如,其蒸馏模型在端侧SoC(系统级芯片)上的表现,显 著降低了硬件门槛,同时提升了用户体验。 DeepSeek的本地部署在性能上表现出色,能够满足不同应用场景的需求,尤其是在端侧和端云协同场景。通过合理的 硬件配置和优化策略,DeepSeek可以0 码力 | 85 页 | 8.31 MB | 7 月前3DeepSeek图解10页PDF
据特定业务需求对模 型进行微调,以适应特定任务,如行业术语、企业内部知识库等。 3. 离线运行,适用于无网络环境。可在离线环境下运行:适用于无互联网 连接或网络受限的场景。提高系统稳定性:即使云服务宕机,本地大模型依 然可以正常工作,不受外部因素影响。 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型0 码力 | 11 页 | 2.64 MB | 7 月前3普通人学AI指南
1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型 在多种语言数据上进行预训练,包括中文和英文,覆盖广泛的领域。 2.2 图像 Figure0 码力 | 42 页 | 8.39 MB | 7 月前3
共 6 条
- 1