CJKAnalyzer中文分词器介绍及下载
CJKAnalyzer是车东先生写的一款中文分词器,适合于双字节文字,比如Chinese, Japanese and Korean.
CJKAnalyzer采用的双字切分,也就是对一段文字按每两个字来进行切分,比如对“中华人民共和国”这个词,切分结果为:
中华|华人|人民|民共|共和|和国,总的来说,这种不分青红皂白的双字切分在实际应用中的意义并不大,依我看来CJKAnalyzer最大的意义就是提供了一种编写自己分词器的思路或方法,我觉得这个也是车东先生编写这款分词器的本意吧。
在这里提供的CJKAnalyzer其中有些我加了几行中文注释,其他的都没有变,下载后需要自己再进行编译才能使用
下载地址是:CJKAnalyzer.rar
(如果以上地址不能下载,请试试:http://g.zhubajie.com/urllink.php?id=6243091hl73jvk86z1o7kwo,这是个网络硬盘地址,在打开的页面中有下载地址)
注:由于lucene-3.0已于日前发布了,相应的CJKAnalyzer版本也发生了变化,3.0之前的版本已经不能和lucene-3.0一起使用了,所以这里单独将里面的CJKAnalyzer拿了出来,下载地址是:
http://www.blogjava.net/Files/bbmonkey62/CJKAnalyzer-lucene_3.0.rar
非转载说明,本博文章皆为原创,转载本博文章请务必注明文章出处:
转载自子猴博客
本文链接地址: CJKAnalyzer中文分词器介绍及下载

车东老师就是强悍!
now I stay tuned..
added to my rss reader
谢谢分享
今天是圣诞节啊,祝大家节日快乐。呵呵
signed to your rss
已阅