清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所0 码力 | 85 页 | 8.31 MB | 7 月前3RocketMQ v3.2.4 开发指南
........................................................................................ 14 6.3 数据存储结构 .............................................................................................. ........................................................................................ 15 6.5 数据可靠性 ............................................................................................... ............................................................................... 34 11.3 Message 数据结构 ................................................................................................0 码力 | 52 页 | 1.61 MB | 1 年前3Ubuntu 桌面培训 2010
OpenOffice.org 演示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 IV.I.IV OpenOffice.org 数据库 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 目录 5 Ubuntu 桌面培训 目录 IV.I.V OpenOffice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 VIII.56编辑新音乐文件的元数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 VIII.57导出进度指示器 绝大部分附加软件不会带来 额外费用 • 标准化的操作系统,个性化 选项有限 • 需要为附加的应用程序付费 数据存放 • 方便升级和降级 • 用户数据存储在用户主目录 里 • 方便迁移、复制用户数据和 迁移到另一台计算机上 • 用户数据被分散存储在多个 地方 • 备份和迁移数据较困难 表 I.1 关 键 因 素 14 Ubuntu 和 Microsoft Windows:对比 目录0 码力 | 540 页 | 26.26 MB | 1 年前3基于 KUBERNETES 的 容器器 + AI 平台
xiaoqin@caicloud.io VP of R&D 提纲 构建集群与管理理资源 - 73s 视频演示 多集群和镜像仓库 多租户和旧系统的集成 运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多『⽤用户集群』 • 镜像仓库 - 单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 quota Service Config group … k8s objects Application template ⽤用户场景 - OPENSTACK 租户集成 • 企业真实场景 - 集成旧系 统,并⾏行行跑业务。 • 资源对照表 • Tenant 与 Project • Namespace 与 Network(Neutron) • Service/Ingress0 码力 | 19 页 | 3.55 MB | 1 年前3清华大学 DeepSeek 从入门到精通
们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强 调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策 创造力 通用模型适配策略 1. 决策需求 需权衡选项、评估风险、 选择最优解 目标 + 选项 + 评估标准 要求逻辑推演和量化分析 直接建议,依赖模型经验归纳 2. 分析需求 需深度理解数据/信息、 发现模式或因果关系 问题 + 数据/信息 + 分析 方法 触发因果链推导与假设验 证 表层总结或分类 3. 创造性需求 需生成新颖内容(文本/ 设计/方案) 主题 + 风格/约束 + 创新 方向0 码力 | 103 页 | 5.40 MB | 8 月前3强大的音视频处理工具: FFmpeg
需经过播放器处理解析显示(=VSFilter渲染) 外挂字幕 以单独的字幕⽂件形式存在,播放时经播放器处理解析 显示(=VSFilter渲染)到视频上 硬字幕=内嵌字幕 指字幕被以图形⽅式硬编码到视频中 变成视频数据本身=视频数据的⼀部分 特点 过程不可逆 ⽆法再把字幕提取出来 播放时不需要额外的播放器读取解析显示(=VSFilter渲染) 字幕 crifan.com,使⽤署名4.0国际(CC BY 4.0)协议发布 ⼀般指字幕⽂件与视频⼀同封装在MKV⽂件 中,播放时需经过VSFilter渲染 外挂字幕 字幕⽂件以单独形式存在,播放时经VSFilter 渲染到视频上 内嵌字幕 指字幕被以图形⽅式硬编码到视频中 变成视频数据本身=视频数据的⼀部分 特点 过程不可逆 ⽆法再把字幕提取出来 获取 36 播放时不需VSFilter等渲染 常⽤字幕制作软件 Aegisub Jubler VisualSubSync Gitbook最后更新: 2021-09-14 11:08:28 获取 49 提取字幕 从视频中提取字幕⽂件 前提 原视频中有字幕(的流)= 有soft 软字幕 特殊情况: 有种字幕是被合并编码成视频数据本身的情况,是没有 字幕的 这种视频 表⾯上看有字幕显示出来,但是⽆法提 取出字幕的 从视频中提取srt字幕 命令: ffmpeg -i video_file.mp4 -map 0:s:00 码力 | 73 页 | 11.57 MB | 1 年前3Kubernetes Operator 实践 - MySQL容器化
小结 搜狗商业平台 技术体系广 服务多迭代快 搜狗产品矩阵 商业平台 信息流广告 搜索广告 品牌广告 代理商 广告主 技术体系 CRM 广告平台 物料展现 审核平台 大数据平台 基础架构 Golang C++ JavaScript Java Python 质量要求高 业务响应快 故障恢复快 Cluster1 搜狗商业平台业务系统 搜索推广 信息流 MySQL-Operator 集群管理 Master High Availability Ø 目前最常用的高可用实现 Ø 支持大多数 MySQL 版本 Ø 使用 mysql 半同步复制 Ø 有数据丢失风险 Mysql Group Replication Ø MySQL 官方提供 Ø 5.7 新特性 Ø 基于 Paxos 协议 Ø 写入延迟相对高 MySQL 高可用的实现方式 MHA pod Ceph MySQL-Operator 数据存储 分布式存储 • 使用 Ceph RBD,基于产品线 创建 StorageClass • 优点:可靠性高,容器漂移时 数据不变 • 缺点:读写延迟较高 本地存储 • 基于 Host Path Volumes • 优点:读写延迟低 • 缺点:单点数据,容器漂移时 数据丢失 踩到的坑 • 现象:执行 docker 命令时,docker0 码力 | 42 页 | 4.77 MB | 1 年前3GPU Resource Management On JDOS
可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job Serving 服务 提供统一便捷的 Serving 服务,只需用户指定模型,即可提供 grpc 和 rest 服务,同时使用 GPU 复用 +HPA 提高 GPU 利用率 创建 Serving 与训练集成 • 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器0 码力 | 11 页 | 13.40 MB | 1 年前3谈谈MYSQL那点事
互联网常用数据库市场占有率 互联网通用架构体制 谈谈 MySQL 数据库那些事 MySQL MySQL 基本介绍 基本介绍 MySQL MySQL 优化方式 优化方式 MySQL MySQL 技巧分享 技巧分享 Q Q & & AA MyISAM MyISAM 特点 特点 MyISAM vs MyISAM vs InnoDB InnoDB • 数据存储方式简单,使用 数据存储方式简单,使用 数据存储方式简单,使用 B+ Tree B+ Tree 进行索引 进行索引 • 使用三个文件定义一个表: 使用三个文件定义一个表: .MYI .MYD .frm .MYI .MYD .frm • 少碎片、支持大文件、能够进行索引压缩 少碎片、支持大文件、能够进行索引压缩 • 二进制层次的文件可以移植 二进制层次的文件可以移植 (Linux (Linux 不支持一些数据库特性,比如 事务、外键约束等 不支持一些数据库特性,比如 事务、外键约束等 • Table level lock Table level lock ,性能稍差,更适合读取多的操作 ,性能稍差,更适合读取多的操作 InnoDB InnoDB 特点 特点 •使用 使用 Table Space Table Space 的方式来进行数据存储 的方式来进行数据存储 (ibdata10 码力 | 38 页 | 2.04 MB | 1 年前3消息中间件RocketMQ原理解析 - 斩秋
et, storeTimestamp。 2.2.3 事物状态表 事物状态表是有 MapedFileQueue 将多个文件组成一个连续的队列,它的存储单元是定 长为 24 个字节的数据, tranStateTableOffset 可以认为是事物状态消息的个数,索引偏移量, 它的值是 tranStateTable.getMaxOffset() / TSStoreUnitSize processqueue 才能被执行消费 rollback: 将消费在 msgTreeMapTemp 中的消息,放回 msgTreeMap 重新消费 commit: 将临时表 msgTreeMapTemp 数据清空,代表消费完成,放回最大偏移 值 (3) 这里是个 TreeMap,对 key 即消息的 offset 进行排序,这个样可以使得消息进 行顺序消费 "writeQueueNums":8 } Namesrv 接收 Broker 注册的 topic 信息, namesrv 只存内存,但是 broker 有任务定时推送 1. 接收数据向 RouteInfoManager 注册。 Broker 初始化加载本地配置,配置信息是以 json 格式存储在本地, rocketmq 强依赖 fastjson 作转换, RocketMq0 码力 | 57 页 | 2.39 MB | 1 年前3
共 18 条
- 1
- 2