Datawhale_Learning/理论应用/NLP-theory-practice-/学习任务/Task2.md at master · Briareox/Datawhale_Learning · GitHub

Task2 特征提取 (2 days)

基本文本处理技能

1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；

1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）

语言模型

2.1 语言模型中unigram、bigram、trigram的概念；

2.2 unigram、bigram频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）

文本矩阵化：要求采用词袋模型且是词级别的矩阵化

步骤有：

分词（可采用结巴分词来进行分词操作，其他库也可以）；去停用词；构造词表。

每篇文档的向量化。

参考

结巴分词介绍和使用：

GitHub - fxsjy/jieba: 结巴中文分词