如何根据自定义词典，从文本中提取词典中的关键词? #59

sj8354661 · 2019-08-22T05:47:32Z

需求：
如何根据自定义词典，从文本中提取词典中的关键词。

设想三种方案：
1、输入文本，获取结巴分词结果，编写一套代码根据分词结果对比自定义词典，输出同时包含在文本中和词典中的词。
2、输入文本，编写一套代码，逐个查询词典中的词是否在文本中出现，输出同时包含在文本中和词典中的词。
3、利用结巴词性标注的功能，在自定义词典中，将自定义词全部标注为某一特殊词性，利用结巴根据词性提取关键词功能，输入文本，提取指定词性的关键词。
4、利用结巴自定义词典功能，分词完全根据指定的自定义词典进行分词，输入文本，调用指定词典，输出分词结果。
5、利用结巴权重功能，输出分词结果中将指定自定义词典中的词的权重调大，其他词权重调低，输出分词结果后，截取权重靠前的几个词。

问题：
哪种方案可以实现需求？
结巴有没有直接根据算定义词典提取关键词的功能？

因为没有看到可以直接实现类似这样需求的资料，所以在此提问，请不吝赐教！

如果您了解这方面技术，请提供一下思路，如果能提供一下教程学习地址，或者写点参考代码就更好了。谢谢，不胜感激！

fapi-china · 2019-10-14T07:06:42Z

请问你是否应用于某个垂直领域？还是仅用于学习实验？

fukuball · 2019-10-14T08:10:50Z

@sj8354661 可以參考 https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation，50 幾頁附近有自定義辭典使用思路，其實就是提高自己想要的權重去做到

fukuball added the question label Oct 14, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何根据自定义词典，从文本中提取词典中的关键词? #59

如何根据自定义词典，从文本中提取词典中的关键词? #59

sj8354661 commented Aug 22, 2019 •

edited

Loading

fapi-china commented Oct 14, 2019

fukuball commented Oct 14, 2019

如何根据自定义词典，从文本中提取词典中的关键词? #59

如何根据自定义词典，从文本中提取词典中的关键词? #59

Comments

sj8354661 commented Aug 22, 2019 • edited Loading

fapi-china commented Oct 14, 2019

fukuball commented Oct 14, 2019

sj8354661 commented Aug 22, 2019 •

edited

Loading