1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型
##################################################### | section3 ROUGE RIBES word2vec TF-IDF 机器翻译的手法 神经网络 向量化的典型手法 $ from RIBES import RIBESevaluator $ ribes = RIBESevaluator() $ score = ribes.eval([target] $ rouge = RougeCalculator(lang=‘<填en/ja/zh>’) $ Rouge_L score = rouge.rouge_l(target, references) 机器翻译的手法 $ from gensim.models import word2vec $ model = word2vec.Word2Vec(input_data, size=<..>, min_count=<0 码力 | 36 页 | 3.95 MB | 1 年前33 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜
##################################################### | section3 ROUGE RIBES word2vec TF-IDF 机器翻译的手法 神经网络 向量化的典型手法 $ from RIBES import RIBESevaluator $ ribes = RIBESevaluator() $ score = ribes.eval([target] $ rouge = RougeCalculator(lang=‘<填en/ja/zh>’) $ Rouge_L score = rouge.rouge_l(target, references) 机器翻译的手法 $ from gensim.models import word2vec $ model = word2vec.Word2Vec(input_data, size=<..>, min_count=<0 码力 | 33 页 | 1.67 MB | 1 年前32020美团技术年货 算法篇
年底,Google 提出了基于自注意力机制的 Transformer[6] 模型。 相比 RNN 模型,Transformer 语义特征提取能力更强,具备长距离特征捕获能 力,且可以并行训练,在机器翻译等 NLP 任务上效果显著。Open AI 团队的 GPT[7] 使用 Transformer 替换 RNN 进行深层单向语言模型预训练,并通过在下游任务上 Fine-tuning 验证了 Pretrain-Finetune 都映射到同一个隐式向量空间,通过向量相似度来 计算 Query-Doc 相关性,例如使用主题模型 LDA[24] 将 Query 和 Doc 映射 到同一向量空间; ● 翻译模型:通过统计机器翻译方法将 Doc 进行改写后与 Query 进行匹配 [25]。 这些方法弥补了字面匹配方法的不足,不过从实际效果上来看,还是无法很好地解决 语义匹配问题。随着深度自然语言处理技术的兴起,基于深度学习的语义匹配方法成 Entity Recognition,简称 NER),又称作“专名识别”,是 指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 NER 是信息提取、问答系统、句法分析、机器翻译、面向 Semantic Web 的元数据 标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要 的地位。在美团搜索场景下,NER 是深度查询理解(Deep Query Understanding,0 码力 | 317 页 | 16.57 MB | 1 年前32022年美团技术年货 合辑
础 版 本, 使 用 参 数 为 的 ADAM 优化器进行优化。根据验证集的 ROUGE-L 性能选择最好的模型,Batch 为 32, 根据实验设置为 0.4。 评估指标 我们使用机器翻译和文本摘要中常用的 BLEU 和 ROUGE-L (F1) 指标来衡量输出 结果和参考文本(客服手写摘要)的接近程度,它们分别基于精确率和 F1 分数评估模 型输出文本与参考文本在 n-grams 的方式存在的问题是覆盖不足,但是一个 Query 里包含的 短 Term 可以进行改写,例如生活服务领域常见的例子:“XX 坏了”=“维修 XX”。从 这个角度思考可以将查询改写任务抽象为一个典型的机器翻译任务。可设定 f 为用户 搜索词,e 为目标改写词,SMT 整体可以抽象为一个噪声信道模型,根据贝叶斯公式 求解 SMT 公式推导: 图 10 SMT 改写流程示意图 ● 对齐字典过滤: 从以上问题出发,需要一个不依赖候选的生成式改写模型,我们考虑使用深度语义翻 译模型 NMT 来解决这类问题。 2016 年年底 Google 公布的神经网络机器翻译(GNMT)[19] 宣告了神经网络机器翻 译性能超过 1989 年的 IBM 机器翻译模型(SMT,基于短语的机器翻译模型)。推动 这一巨大发展就是引入 Attention 机制 [20] 的 Sequence to Sequence(Seq2Seq)0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 4 条
- 1