首页 > 搜索引擎 > CJKAnalyzer中文分词器介绍及下载

CJKAnalyzer中文分词器介绍及下载

2009年3月17日 admin 发表评论 阅读评论

CJKAnalyzer是车东先生写的一款中文分词器,适合于双字节文字,比如Chinese, Japanese and Korean.

CJKAnalyzer采用的双字切分,也就是对一段文字按每两个字来进行切分,比如对“中华人民共和国”这个词,切分结果为:

中华|华人|人民|民共|共和|和国,总的来说,这种不分青红皂白的双字切分在实际应用中的意义并不大,依我看来CJKAnalyzer最大的意义就是提供了一种编写自己分词器的思路或方法,我觉得这个也是车东先生编写这款分词器的本意吧。

在这里提供的CJKAnalyzer其中有些我加了几行中文注释,其他的都没有变,下载后需要自己再进行编译才能使用

下载地址是:CJKAnalyzer.rar

(如果以上地址不能下载,请试试:http://g.zhubajie.com/urllink.php?id=6243091hl73jvk86z1o7kwo,这是个网络硬盘地址,在打开的页面中有下载地址)
:arrow: :由于lucene-3.0已于日前发布了,相应的CJKAnalyzer版本也发生了变化,3.0之前的版本已经不能和lucene-3.0一起使用了,所以这里单独将里面的CJKAnalyzer拿了出来,下载地址是:

http://www.blogjava.net/Files/bbmonkey62/CJKAnalyzer-lucene_3.0.rar

非转载说明,本博文章皆为原创,转载本博文章请务必注明文章出处:
转载自子猴博客

本文链接地址: CJKAnalyzer中文分词器介绍及下载


分类: 搜索引擎 标签: , 1,606次浏览
  1. 2009年3月18日17:33 | #1

    车东老师就是强悍!

  2. 2009年12月14日07:19 | #2

    now I stay tuned..

  3. 2009年12月22日03:02 | #3

    added to my rss reader

  4. 2009年12月24日12:02 | #4

    谢谢分享

  5. 2009年12月25日16:39 | #5

    今天是圣诞节啊,祝大家节日快乐。呵呵

  6. 2009年12月26日19:23 | #6

    signed to your rss

  7. gaoa
    2009年12月26日20:28 | #7

    已阅

  1. 本文目前尚无任何 trackbacks 和 pingbacks.
:wink: :-| :-x :twisted: :) 8-O :( :roll: :-P :oops: :-o :mrgreen: :lol: :idea: :-D :evil: :cry: 8) :arrow: :-? :?: :!: 注意: 评论者允许使用'@user空格'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一,则使用'@ABC '(不包括单引号)将会自动将您的评论发送给ABC。使用'@all ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。