Skip to content

A non-knowledge base of Chinese words found algorithm.一个基于非知识库的中文分词算法,可用于新词发现等。

License

Notifications You must be signed in to change notification settings

Chihuataneo/ChineseWordSegment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ChineseWordFound

A non-knowledge base of Chinese words found algorithm.

two points:

1、calculate the concreation of all possibol combinations of every single Chinese 'word'.The bigger, the better.

2、find the left and right entropy of the combinations of word.It is helpful to search the boundary of Chinese Words.

Show some results:

侍者 师父 秦钟 宝钗 哥有角只 市俗 议事厅 狐腿 时辰 神弄鬼 厉声 试试 三镶 攒珠 坟烧 在堂屋里 风吹 衰草 蓬莱 照例 晚饭后 请那先生 罗列 听唿 收拾 回头吩咐 些风波 欠身 入宫 茜香 往外书房 打擂台 藏藏 输赢 太太和姨 养活 今抄没 救了我们 算帐 珍珠 拥炉 还没有歇 手里拿着 腻腻 峰下 煎药 轻易 世交 石榴红 泥鳅 朱红 系金陵 年八十 发财 顾不得 尘世中 去世的老 复聚 往秋爽斋 私情 坐了竹椅 坐褥 抚琴 沿上坐 果菜与 十分 希世 胆量 执事摆 林姑娘 给你娶 大红羽 既蒙 未发之 亲戚朋友 洗了就完 尤氏婆媳 汗巾 霞帔 破落户 出北门 规谏 嫉妒 嘁嘁喳喳 有三五十 有话只管 症候 才把心 名曰 逼死 石呆子 工部员外 怕他嫌 单管各 疏散 披头散发 户人家 吐舌 饰穿戴 何妨 加奖 带领家下 点头微笑 俗缘 惺惺 进入院 潦倒 几两银子 袱包 菱角 太监跪 太医院 三尺 缀锦阁 韶华 问一问 阶矶 早归入 ......

About

A non-knowledge base of Chinese words found algorithm.一个基于非知识库的中文分词算法,可用于新词发现等。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages