复述(paraphrases)

 总结了一些海量数据课程所学的东西。

一.复述的定义:同一个意思的不同表达

二.复述的分类

按照粒度可以分为Surface ParaphrasesStructural paraphrases. Surface Paraphrases 有词汇,短语,句子,论述四个级别。Structural paraphrases有模式和搭配两个级别。按照复述的风格可以分为细小变化,短语替换,短语重排序,句子分割和合并,复杂复述。

三.复述的应用:

机器翻译:

Translate unknown terms (phrases)

Expand training data

Rewrite input sentences

Improve automatic evaluation

Tune parameters

问答系统,信息提取,信息检索,总结,自然语言生成。

 

四.复述的识别:基于分类的方法和基于对齐的方法

4.1   典型的基于分类的方法:

1 Brockett and Dolan, 2005

 特点:String相似特征:句子长度,单词覆盖,编辑距离

           形态变体

wordNet 词汇映射

词关系对:同义词

 分类器:SVM

2. Finch et al., 2005:使用机器翻译评估方法计算句子的相似度

 

Feature vector vec(s1, s2)vec1(s1, s2): s1as reference, s2as MT system output;

vec2(s1, s2): s2as reference, s1as MT system output;

vec(s1, s2): average of vec1(s1, s2) and vec2(s1, s2)

3.Malakasiotis, 2009

  组合了多种分类方法

String similarity (various levels)

Tokens, stems, POS tags, nouns only, verbs only, …

Different measures

Edit distance, Jaro-Winkler distance, Manhattan distance…

同义词相似度

Treat synonyms in two sentences as identical words

句法相似度

Dependency parsing of two sentences and compute the overlap of dependencies

4.2  基于对齐的方法:

1Wu, 2005

Conduct alignment based on Inversion Transduction Grammars (ITG)

对句子结构敏感,不用任何词库处理词汇变化

性能和基于分类方法差不多,识别文本蕴含时性能也很好

2Das and Smith, 2009

Conduct alignment based on Quasi-Synchronous Dependency Grammar (QG)

Alignment between two dependency trees

Assumption: the dependency trees of two paraphrase sentences should be aligned closely

Summary:

Classification based method is still the mainstream method, since:

Binary classification problem is well defined;

Classification algorithms and tools are readily available;

It can combine various features in a simple way;

It achieves state-of-the-art performance.

五.复述提取

1.    词典

2.    单语平行语料库

3.    单语可比语料库

4.    双语平行语料库

4.1  Takao et al., 2002

Basic idea:

Generating lexical paraphrases using 2-way dictionaries

English word e1can be translated to a Japanese word jwith an E-J dic. D1, and then jcan be translated back to an English word e2with a J-E dictionary D2. e1and e2are extracted as paraphrases

4.2  Bannard and Callison-Burch, 2005

Word alignment and phrase extraction

Basic assumption:

If two English phrases e1and e2can be aligned with the same foreign phrase f, e1and e2are likely to be paraphrases.

4.3  Callison-Burch, 2008Basic idea:Two paraphrase phrases should have the same syntactic type.

Syntactic constraints are also used when substituting paraphrases in sentences

 

4.4  Kok and Brockett, 2010 Basic idea:Convert aligned phrases into a graph, extract paraphrases based on random walks and hitting times

5.    网络语料库

6.    词典注解

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值