Skip to content

Latest commit

 

History

History
27 lines (14 loc) · 836 Bytes

File metadata and controls

27 lines (14 loc) · 836 Bytes

Task2 特征提取 (2 days)

  1. 基本文本处理技能

1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);

1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)

  1. 语言模型

2.1 语言模型中unigram、bigram、trigram的概念;

2.2 unigram、bigram频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)

  1. 文本矩阵化:要求采用词袋模型且是词级别的矩阵化

步骤有:

分词(可采用结巴分词来进行分词操作,其他库也可以);去停用词;构造词表。

每篇文档的向量化。

  1. 参考

结巴分词介绍和使用:

GitHub - fxsjy/jieba: 结巴中文分词