CJKAnalyzer中文分词器介绍及下载

2009年3月17日 | 分类: 技术 | 标签: , 5,753浏览 | By admin

CJKAnalyzer是车东先生写的一款中文分词器,适合于双字节文字,比如Chinese, Japanese and Korean.

CJKAnalyzer采用的双字切分,也就是对一段文字按每两个字来进行切分,比如对“中华人民共和国”这个词,切分结果为:

中华|华人|人民|民共|共和|和国,总的来说,这种不分青红皂白的双字切分在实际应用中的意义并不大,依我看来CJKAnalyzer最大的意义就是提供了一种编写自己分词器的思路或方法,我觉得这个也是车东先生编写这款分词器的本意吧。

在这里提供的CJKAnalyzer其中有些我加了几行中文注释,其他的都没有变,下载后需要自己再进行编译才能使用

下载地址是:CJKAnalyzer.rar

(如果以上地址不能下载,请试试:http://g.zhubajie.com/urllink.php?id=6243091hl73jvk86z1o7kwo,这是个网络硬盘地址,在打开的页面中有下载地址)
:arrow: :由于lucene-3.0已于日前发布了,相应的CJKAnalyzer版本也发生了变化,3.0之前的版本已经不能和lucene-3.0一起使用了,所以这里单独将里面的CJKAnalyzer拿了出来,下载地址是:

http://www.blogjava.net/Files/bbmonkey62/CJKAnalyzer-lucene_3.0.rar

如无转载说明,则均为本站原创文章,转载请注明:来源:子猴博客

相关内容

  1. 2009年3月18日17:33

    车东老师就是强悍!

  2. 2009年12月14日07:19

    now I stay tuned..

  3. 2009年12月22日03:02

    added to my rss reader

  4. 2009年12月24日12:02

    谢谢分享

  5. 2009年12月25日16:39

    今天是圣诞节啊,祝大家节日快乐。呵呵

  6. 2009年12月26日19:23

    signed to your rss

  7. gaoa
    2009年12月26日20:28

    已阅

*

酷!左边勾选上复选框,评论里将显示你博客文章!
:wink: :-| :-x :twisted: :) 8-O :( :roll: :-P :oops: :-o :mrgreen: :lol: :idea: :-D :evil: :cry: 8) :arrow: :-? :?: :!:

Upload Files

你可以上传一张或多张图片,这些图片将附在你评论里