Skip to content
This repository has been archived by the owner on Jul 6, 2021. It is now read-only.

关于copy部分的问题 #39

Open
BBLoatheb opened this issue Apr 11, 2020 · 11 comments
Open

关于copy部分的问题 #39

BBLoatheb opened this issue Apr 11, 2020 · 11 comments

Comments

@BBLoatheb
Copy link

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

@HitAgain
Copy link

HitAgain commented Aug 26, 2020

我猜测是的,按照作者数据处理的代码所有oov词的id都取‘UNK’对应的id,则数据流中的id都一定会在dict里面有对应,而作者模型中计算finial_dist里面,最终调用tf.scatter_nd函数时候,最后一维的大小是vocabsize,所以没有扩展,但这样的问题就是当需要复制oov到当前步骤的摘要产生时候都会是unk,所以反推只能是基于字,换句话说作者基于字就不存在oov问题,copy机制更像是对source text的attention和vocab distribution的加权和,希望帮到你

@BBLoatheb
Copy link
Author

我猜测是的,按照作者数据处理的代码所有oov词的id都取‘UNK’对应的id,则数据流中的id都一定会在dict里面有对应,而作者模型中计算finial_dist里面,最终调用tf.scatter_nd函数时候,最后一维的大小是vocabsize,所以没有扩展,但这样的问题就是当需要复制oov到当前步骤的摘要产生时候都会是unk,所以反推只能是基于字,换句话说作者基于字就不存在oov问题,copy机制更像是对source text的attention和vocab distribution的加权和,希望帮到你

谢谢,我当时确实很疑惑这一点。可能作者主要目的并不是解决oov的问题,而是提高原文中出现的字被选中的概率吧。

@xueyouluo
Copy link

其实用spm分词不就好了吗,不需要扩展词表

@gaozhiguang
Copy link

gaozhiguang commented May 26, 2021

您好,您在上面说的意思是这里作者并没有实现copy机制吗?就是指的pointer network论文里面的copy机制。 @HitAgain

@gaozhiguang
Copy link

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

@BBLoatheb
Copy link
Author

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我说的是中文汉字的字,然后这里可能缺少了扩充字典的操作,即将oov的词在其出现之后扩充到字典中,但是复制本身还是可以正常运作的。简单来说可以实现复制,但是不太能解决oov问题,HitAgain也说了,这里用的是字,oov现象可能本身就不太常见。

@gaozhiguang
Copy link

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我说的是中文汉字的字,然后这里可能缺少了扩充字典的操作,即将oov的词在其出现之后扩充到字典中,但是复制本身还是可以正常运作的。简单来说可以实现复制,但是不太能解决oov问题,HitAgain也说了,这里用的是字,oov现象可能本身就不太常见。

您说的扩充字典是什么意思呢?copy机制实现的应该是一个动态的词表吧,碰到oov的单词或字只需要暂时的扩充词表吧

@yx1100
Copy link

yx1100 commented May 31, 2021

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

@gaozhiguang
Copy link

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

@meizhiju
Copy link

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

同求Transformer+Pointer的模型,谢谢!

@yx1100
Copy link

yx1100 commented Jul 2, 2021

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

同求Transformer+Pointer的模型,谢谢!

你可以参考一下这个项目,https://github.com/steph1793/Pointer_Transformer_Generator
或者如果你的分词是用的wordpiece级别的,其实就基本上杜绝OOV的问题了

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants