Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何根据自定义词典,从文本中提取词典中的关键词? #59

Open
sj8354661 opened this issue Aug 22, 2019 · 2 comments
Open
Labels

Comments

@sj8354661
Copy link

sj8354661 commented Aug 22, 2019

需求:
如何根据自定义词典,从文本中提取词典中的关键词。

设想三种方案:
1、输入文本,获取结巴分词结果,编写一套代码根据分词结果对比自定义词典,输出同时包含在文本中和词典中的词。
2、输入文本,编写一套代码,逐个查询词典中的词是否在文本中出现,输出同时包含在文本中和词典中的词。
3、利用结巴词性标注的功能,在自定义词典中,将自定义词全部标注为某一特殊词性,利用结巴根据词性提取关键词功能,输入文本,提取指定词性的关键词。
4、利用结巴自定义词典功能,分词完全根据指定的自定义词典进行分词,输入文本,调用指定词典,输出分词结果。
5、利用结巴权重功能,输出分词结果中将指定自定义词典中的词的权重调大,其他词权重调低,输出分词结果后,截取权重靠前的几个词。

问题:
哪种方案可以实现需求?
结巴有没有直接根据算定义词典提取关键词的功能?

因为没有看到可以直接实现类似这样需求的资料,所以在此提问,请不吝赐教!

如果您了解这方面技术,请提供一下思路,如果能提供一下教程学习地址,或者写点参考代码就更好了。谢谢,不胜感激!

@fapi-china
Copy link

请问你是否应用于某个垂直领域?还是仅用于学习实验?

@fukuball
Copy link
Owner

@sj8354661 可以參考 https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation,50 幾頁附近有自定義辭典使用思路,其實就是提高自己想要的權重去做到

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants