清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春 相关数据(如日期、全社会跨区域人员流动量、铁路客运 量、公路人员流动量、水路客运量、民航客运量等)”完 成数据提取并写入文件“2025春运数据.txt” Open AI o3mini 响应速度快,能够高效提 取所有需求链接,输出完 整可运行python脚本,代 码运行后生成文件,但数 据采集结果为空。 DeepSeek R1 能够提取所有网址并进行 筛选、去重,所撰写代码 运行后完成数据爬虫任务,0 码力 | 85 页 | 8.31 MB | 7 月前3清华大学 普通人如何抓住DeepSeek红利
M 6 Deepseek的能力图谱 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场 景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 决策支持 文体转换 个性化推荐 翻译与转换 多语言翻译 异常检测 多源信息融合 知识与推理 知识图谱构建 流程优化 数据可视化 数据分析 趋势分析 ,这个数据 集包含了大量基于2020年之前数据生成的问答对。 提取问题:从数据集中提取问题,并使用set去重。 检查问题数量:确保提取的问题数量至少为10万个。 保存问题:将问题保存到CSV文件生成的真实答案问题.csv中。 要生成10万个存在真实答案的问题,并且基于2020年之前的 数据,可以使用现有的公开问答数据集(如SQuAD 、 Natural Questions等)来生成问题。可以从多个数据集中组 学会问问题和挑选答案的能力时代 AI生成循环边界:突破框架 融合百家 AI:与人工智能中的学习 模型和认知结构紧密相关, 反映了其受限于现有算法 和数据。 认知:与哲学、认知科学 中的认知框架和自指性理 论相连,探讨了AI在生成 过程中如何受限于其既有 的认知结构。 循环:强调了AI生成内容 时容易陷入语义和逻辑上 的循环,无法跳出既定的 模式和规则。 边界:与康德的认识论和 复杂系统理论中的边界效0 码力 | 65 页 | 4.47 MB | 7 月前3人工智能安全治理框架 1.0
(c)两用物项和技术滥用风险。因不当使用或滥用人工智能两用物项和 技术,对国家安全、经济安全、公共卫生安全等带来严重风险。包括极大降低 非专家设计、合成、获取、使用核生化导武器的门槛;设计网络武器,通过自 动挖掘与利用漏洞等方式,对广泛潜在目标发起网络攻击。 3.2.3 认知域安全风险 (a)加剧 “信息茧房” 效应风险。人工智能将广泛应用于定制化的信息 服务,收集用户信息,分析用户类型、需求、意图、喜好、行为习惯,甚至特 知人工智能产品和服务的适用范围、注意事项、使用禁忌,支持使用者知情选 择、审慎使用。 (c)服务提供者应在告知同意、服务协议等文件中,支持使用者行使人 类监督和控制责任。 (d)服务提供者应让使用者了解人工智能产品的精确度,在人工智能决 策有重大影响时,做好解释说明预案。 (e)服务提供者应检查研发者提供的责任说明文件,确保责任链条可以 追溯到递归采用的人工智能模型。 (f)服务提供者应提高人工智能风险防范意识,建立健全实时风险监控 智能产品成为网络攻击的目标。 (f)社会公众应注意人工智能产品对儿童和青少年的影响,预防沉迷及 过度使用。- 17 - 人工智能安全治理框架 安全风险 技术应对措施 综合治理措施 内生(自 身)安全 风险 模型算 法安全 风险 可解释性差的风险 4.1.1 (a) 推进人工智能可 解释性研究 构建以负责任的 人工智能研发应 用体系 偏见、歧视风险 4.1.1 (b) 鲁棒性弱风险0 码力 | 20 页 | 3.79 MB | 29 天前3普通人学AI指南
solo Mozilla 开源项目,提供零代码网站开发功能,易于使用。 2.4.6 Cursor 开源的 AI 代码编辑器,旨在通过 AI 技术助力快速软件开发。 2.4.7 Tabby 自托管的 AI 编程助手,开源,支持开发人员优化编码过程。 2.4.8 Codeium 开源的 AI 编程工具,用于自动化代码生成和优化。 2.4.9 GitHub Copilot 由 GitHub ollama,安装步骤非常简 单。 3.1.2 步骤 2:安装 Llama 下载 Llama3,打开新的终端/命令行窗口,执行以下命令: ollama run llama3 程序会自动下载 Llama3 的模型文件,默认是 8B,也就 80 亿参数版本,个 人电脑完全可以运行。等待安装完成,如图 12 所示。 14 Figure 12: Ollama 里下载 Llama3 界面 以上就已经安装完毕,到现在大模型已经在本地部署完成。 包含了运行所需的代 码、运行时、系统工具、系统库和设置。 2. 镜像(Image):用于创建容器的只读模板。一个镜像可以包含完整的操作 系统环境。 3. Dockerfile:定义镜像内容的文本文件,包含了构建镜像的所有指令。 4. Docker Hub:公共的 Docker 镜像仓库,用于存储和分发 Docker 镜像。 5. 拉取镜像:docker pull0 码力 | 42 页 | 8.39 MB | 7 月前3DeepSeek从入门到精通(20250204)
且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 常规绘图 如何使用DeepSeek? https://chat.deepseek.com 如何从入门到精通? 当人人都会用AI时,你如何用得更好更出彩? 推理模型 互动设计要自然融入文脉 创作引导提示语(三) �论述逻辑的提示设计 高质量的内容结构通常体现以下特点: 证据链完整 逻辑递进 多维视角 每个观点都需要数据支撑、案例验 证或专家背书。与其他自媒体平台 相比,微信公众号的读者对论据的 权威性和可靠性要求更高。 论点之间需要形成清晰的递进关系, 可以是“现象—原因—影响—对策”或 “问题—分析—方案—效果”等框架。 在论证过程中融入不同视角的观点,0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 常规绘图 如何使用DeepSeek? 网页端:https://chat.deepseek.com APP:DeepSeek 如何从入门到精通? 当人人都会用AI时,你如何用得更好更出彩? 互动设计要自然融入文脉 创作引导提示语(三) �论述逻辑的提示设计 高质量的内容结构通常体现以下特点: 证据链完整 逻辑递进 多维视角 每个观点都需要数据支撑、案例验 证或专家背书。与其他自媒体平台 相比,微信公众号的读者对论据的 权威性和可靠性要求更高。 论点之间需要形成清晰的递进关系, 可以是“现象—原因—影响—对策”或 “问题—分析—方案—效果”等框架。 在论证过程中融入不同视角的观点,0 码力 | 103 页 | 5.40 MB | 8 月前3DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
projection matrix. During inference, all keys and values need to be cached to accelerate inference, so MHA needs to cache 2?ℎ?ℎ? elements for each token. In model deployment, this heavy KV cache is a large up-projection matrices for keys and values, respectively. During inference, MLA only needs to cache c?? ? , so its KV cache has only ??? elements, where ? denotes the number of layers. In addition, during inference regardless of the storage precision. For DeepSeek-V2, ?? is set to 4?ℎ and ?? ℎ is set to ?ℎ 2 . So, its KV cache is equal to GQA with only 2.25 groups, but its performance is stronger than MHA. 2.20 码力 | 52 页 | 1.23 MB | 1 年前3开源中国 2023 大模型(LLM)技术报告
等均属于原生向量数据库。 除了选择专业的向量数据库,对传统数据库添加 “向量支持”也是主流方案。比如 等传 统数据库均已支持向量检索。 6 / 32 LLM 基础设施:向量数据库/数据库向量支持 自 2022 年 ChatGPT 问世以来,大模型星火初始,向量数据 库不但获得了技术领域的关注,也逐渐吸引了市场和资本的注 意力。近两年来,向量数据库公司迎来了一波融资潮: Pinecone:已融资 垄断 AI 算力市场的多一种选择,其基于第三代 CDNA 架构,为生 成式 AI 大语言模型设计的 MI300X 内存高达 192GB,集成了高达 1530 亿个晶体管,为历代产品 之最。 科技团队自研,面向通用AI计算的芯片核心架构昆仑芯 XPU 从AI落地的实际需求出发,按 照复杂前沿的人工智能场景需求开展迭代,致力为开发者提供通用、易用、高性能的算力来源。 DCU 系列产品以 GPGPU NVIDIA A100、H100、 A800、H800、L40、L40S 以及集成这些高性能计算的 DGX/HGX 系统,并将中国 GPU 企业及其子公司列入了实体清 单。 据 OpenAI 测算,自 2012 年以来,人工智能模型训练算力需求每3~4个月就翻一番,每年 训练 AI 模型所需算力增长幅度高达 10 倍 (图源:https://openai.com/research/ai-and-compute)0 码力 | 32 页 | 13.09 MB | 1 年前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
钢包挂钩挂实确认 • 钢包内渣状态识别 • 渣罐残留水识别 • 钢包挂钩挂实确认 • 中间包长水口区域 钢水裸露状态和渣 壳状态识别 • 铸胚编号识别 • 连铸漏钢及纵裂纹 预报 • 带材制品板坯号自 动识别 • 实时定位 • 转炉炼钢一次除尘 风机振幅故障分与 处理 • 连铸浇次计划优化 算法 • ·连铸过程多场耦 合 • 加热炉火焰识别 • 加热炉前字符识别自动核料 • 加热炉内字符识别自动核料 2005年,周鸿祎创办360公司,首创“免费安全”模式。2022 年,周鸿祎带领360全面转型数字安全公司,践行“上山下海 助小微”的企业战略,为数字中国发展筑牢安全屏障。2023 年,周鸿祎带领360确定“安全+AI”双主线发展战略,自研认 知型通用大模型“360智脑”,攻克AI大模型安全的世界前沿 课题,进一步服务政府、城市、企业智能化升级。 周鸿祎荣获全国劳动模范、国家百千万人才工程有突出贡献 中青年专家、2023年度“北京学者“等荣誉称号。0 码力 | 76 页 | 5.02 MB | 5 月前3国家人工智能产业综合标准化体系建设指南(2024版)
语言处理、智能语音、计算机视觉、生物特征识别、人机混合增 强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、 模型表达和格式、模型效果评价等,包括自监督学习、无监督学 习、半监督学习、深度学习、强化学习等标准。 2. 知识图谱标准。规范知识图谱的描述、构建、运维、共 享、管理和应用,包括知识表示与建模、知识获取与存储、知识 融合与可视化、0 码力 | 13 页 | 701.84 KB | 1 年前3
共 20 条
- 1
- 2