1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |######### | section1 收集语料 前处理 施事者和受事者都会有助词标记, 可以根据助词推测句法结构。 | section2 3“合同风险预测模型” 实战经验分享 64% |################################################################## | section3 什么叫“合同风险预测”? 68% |###################################0 码力 | 36 页 | 3.95 MB | 1 年前33 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |####### | section1 收集语料 前处理 分词 施事者和受事者都会有助词标记, 可以根据助词推测句法结构。 | section2 3“合同风险预测模型” 实战经验分享 64% |################################################################## | section3 什么叫“合同风险预测”? 68% |###################################0 码力 | 33 页 | 1.67 MB | 1 年前3人工智能安全治理框架 1.0
……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施 ……………………………………………… 7 4.1 针对人工智能内生安全风险 ………………………… 7 4.2 针对人工智能应用安全风险 ………………………… 9 5. 综合治理措施 1 - 人工智能安全治理框架 人工智能是人类发展新领域,给世界带来巨大机遇,也带来各类风险挑战。 落实《全球人工智能治理倡议》,遵循“以人为本、智能向善”的发展方向,为 推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方,就人工 智能安全治理达成共识、协调一致,有效防范化解人工智能安全风险,制定本 框架。 1. 人工智能安全治理原则 秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促 秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促 进人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点 和落脚点,构建各方共同参与、技管结合、分工协作的治理机制,压实相关主 体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人 工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国 家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工 智能技术造福于人类。0 码力 | 20 页 | 3.79 MB | 27 天前3DeepSeek从入门到精通(20250204)
按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。 前者适合快速反馈,处理即时任务;后者通过推理解决复杂问题 ),可能干扰其逻辑主线。 • 不要对通用模型“过度信任”(如直接询问复杂推理问题,需分步验证结果)。 从“下达指令”到“表达需求” 策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险 指令驱动 直接给出明确步骤或 格式要求 简单任务、需快速执行 “用Python编写快速排序函 数,输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空 间 需求导向 描述问题背景与目标, 强制逻辑链条(如“分三点回答”) 推理模型 需明确对话目标,避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问(如“你害怕AI吗?”) 逻辑分析 推理模型 直接抛出复杂问题 “分析‘电车难题’中的功利主义 与道德主义冲突” 添加主观引导(如“你认为哪种对?”) 通用模型 需拆分问题,逐步追问 “先解释电车难题的定义,再对比 两种伦理观的差异” 一次性提问复杂逻辑 如何向AI表达需求 需求类型0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。 前者适合快速反馈,处理即时任务;后者通过推理解决复杂问题 ),可能干扰其逻辑主线。 • 不要对通用模型“过度信任”(如直接询问复杂推理问题,需分步验证结果)。 从“下达指令”到“表达需求” 策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险 指令驱动 直接给出明确步骤或 格式要求 简单任务、需快速执行 “用Python编写快速排序函 数,输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空 间 需求导向 描述问题背景与目标, 强制逻辑链条(如“分三点回答”) 推理模型 需明确对话目标,避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问(如“你害怕AI吗?”) 逻辑分析 推理模型 直接抛出复杂问题 “分析‘电车难题’中的功利主义 与道德主义冲突” 添加主观引导(如“你认为哪种对?”) 通用模型 需拆分问题,逐步追问 “先解释电车难题的定义,再对比 两种伦理观的差异” 一次性提问复杂逻辑 如何向AI表达需求 需求类型0 码力 | 103 页 | 5.40 MB | 8 月前3清华大学 普通人如何抓住DeepSeek红利
工具调用 格式转换 关系抽取 语言理解 文案写作 代码注释 故事创作 通用问答 专业领域问答 因果推理 知识推理 问答系统 逻辑推理 自然语言处理 文本生成与创作 建议生成 风险评估 辅助决策 概念关联 知识整合 交互能力 情感分析 文本分类 图像理解 跨模态转换 专业建议 任务分解 情感回应 上下文理解 对话能力 多轮对话 数学运算 逻辑分析 1 功能分区’的内容,要求包含自动化立体仓库、AGV调度中心、冷链专区的技术参数,用数据列表形式 呈现。” 关键技巧: p 数据嫁接:若缺乏具体数据,直接让AI生成合理虚构值(标注“示例”规避风险): p “假设园区占地500亩,日均处理包裹量50万件,请计算自动化分拣设备的配置数量,用表格展示。” p 模板复制:对同类章节(如3.1/3.2/3.3)使用相同指令模板,仅替换关键词。 p 第三阶段:20分钟——用AI补全软性内容(目标:1000字) 填充“虚但必需”的部分: p 政策背书: “生成5条2023年国家层面支持智能物流园区的政策原文(带发文号),并解读对本案的指导意义。” p 风险评估: “列出智能物流园区常见的3大技术风险(如AGV系统宕机),每项配100字应对方案。” p 效益测算: “用公式推算:园区建成后3年内降本增效收益,假设人工成本减少30%,分拣错误率下降25%。” 你的操作:0 码力 | 65 页 | 4.47 MB | 7 月前3国家人工智能产业综合标准化体系建设指南(2024版)
等标准。 4. 营销服务标准。围绕营销服务效率提升,研制智能客服、 数字人、商品三维模型标准,以及用户体验等标准。 5. 运营管理标准。围绕运营管理智能化能力提升,研制相 关供应链管理、数据管理、风险管理等标准。 12 6. 重点行业智能升级标准。围绕原材料行业,开展大模型 畅联产线数据、优化在线监测调控和工艺改进等标准研制。围绕 消费品行业,开展需求预测、个性化定制等标准研制。围绕装备 的技术研发和运营服务等要求,包括人工智能鲁棒性、可靠性、 可追溯性的技术要求与评测方法,人工智能治理支撑技术;规范 人工智能全生命周期的伦理治理要求,包括人工智能伦理风险评 估,人工智能的公平性、可解释性等伦理治理技术要求与评测方 法,人工智能伦理审查等标准。 五、保障措施 13 (一)完善组织建设。建立健全人工智能领域标准化技术组 织,统筹产学研用各方、产业链各环节优势力量,协同推进人工0 码力 | 13 页 | 701.84 KB | 1 年前32024 中国开源开发者报告
移逐渐下降,可能受到内部资 源调整或技术方向变化的影响。 19 / 111 本章汇集了来自不同领域专家和开发者对开源大模型和人工 智能技术的深刻见解,不仅涵盖了技术层面的深入探讨,也 触及了社会、伦理和政策层面的广泛议题。 从对中国开源模型崛起的分析,到对开源模型持久性的思考, 再到对超级应用探寻之路的探索,每篇文章都为我们提供了 独特的视角,帮助我们理解开源大模型在 AI 技术领域的作用 发显著。开源数据集和算法不仅推动了 AI 研究的进步,也在应用层面带来了深远的影响。然而,伴随这些机遇的还有诸多风险与挑战,如 数据质量、版权问题和算法透明性等。本文将浅析大模型训练过程中开源数据集和算法的重要性 和影响,分析其在促进 AI 研究和应用中的机遇,并警示相关的风险与挑战。 任何方案都具有两面性和在特殊环境下的讨论的意义和前提,因此,本文不讨论开源或对立 面(闭源)的绝对取舍问题,仅对开源的有利之处加以浅析。 加深入的教育和培训,以此不断提升整个行业人才的技术水平。 由于目前主流的模型训练算法都需要依靠对训练数据(样本)的统计(概率),因此,开放 的数据和算法能够在更大程度上确保样本的质量,从而避免更多未知的风险。例如就在 2024 年 12 月 1 日,用户发现 ChatGPT 在需要输出“David Mayer”这个名字的时候会突然提示拒绝: 此事件一度被解读为 GPT 模型在训练过程中被植入了特定的样本或算法,以避免讨论特定0 码力 | 111 页 | 11.44 MB | 8 月前3清华大学第二弹:DeepSeek赋能职场
Route (路径灵活性) 线性路径 (流程标准化) 网状路径 (多路径探索) Responsiveness (响应模式) 被动适配 (按规则执行) 主动创新 (自主决策) Risk (风险特征) 低风险 (稳定可控) 高风险 (不确定性高) (限定于文本生成任务) DeepSeek 两种模型对比 V3 R1 DeepSeek 两种模型对比 V3 R1 如何提问?两种模型的提示语差异 • •交互特征 执行层: 2. 能力矩阵 (Capability Matrix) •功能范围 •专业技能 •决策权限 约束层: 3. 边界系统 (Boundary System) •伦理规范 •安全限制 •资源约束 操作层: 4. 工作引擎 (Operation Engine) •输入处理 •执行流程 •输出规范 如何使用DeepSeek制作可视化图表? 如何使用DeepSeek制作可视化图表?0 码力 | 35 页 | 9.78 MB | 7 月前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
案、法律意见书等,提高律师工作效率。 • 智能医疗数据分析与诊断:构建智能医疗 平台,分析病历、检查报告和基因数据,帮助 医生提供更准确的诊断与治疗方案。 • 金融风险预测与管理:开发金融风险分析 工具,收集并分析市场数据,预测风险并为金 融机构提供管理建议。 • 智能文学创作辅助:为作家提供创作灵感 和文本构思,生成符合中文文学传统的故事情 节和诗句,助力突破创作瓶颈。 • 智能广告创意生成:根据产品特点和目标 无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。 低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 无限双语数据导入:支持中文与英文文献的导入,并且 文献数据量没有限制,能够轻松处理中文文献的系统性 梳理,以及国际文献的跨语言分析。 完全开源免费;社区支持广泛; 多语言基础能力均衡 多模态功能缺失; 长文本生成质量不稳定 Anthropic Claude-3.5 闭源推理模型 对话系统、内容生成、 逻辑推理 对话逻辑连贯性强; 伦理安全性高;文档分析能力突出 中文支持较弱; 闭源且 API 访问受限 百度 文心一言 闭源大语言模型 多语言处理、复杂的语 言理解和文本生成 中文场景优化最佳; 多模态搜索整合;本土行业适配性强0 码力 | 85 页 | 8.31 MB | 7 月前3
共 455 条
- 1
- 2
- 3
- 4
- 5
- 6
- 46