淑珍分词器1.1.9版本源码开放下载

2010年8月16日 子猴 12 条评论

这款发布的淑珍分词器版本是1.1.9,完全是基于字典分词,在提供下载的压缩包中含有编译好的jar包和所有的源代码。

为了方便根据自己需要对分词器进行修改,我这里介绍一下淑珍分词器的核心数据结构,这个数据结构也是当初我在写分词器的时候,为了解决词库条目多和索引速度之间的相互制约而想出来的。

这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中,比如,对一个很常见的条目例子:“男女搭配干活不累”来举例子,在这种数据结构中,将被存储为如下key-value键值对:

阅读全文…

分类: 编程网络 标签:

中国大陆演出票价高的原因

2010年8月10日 子猴 19 条评论

同样的一个演唱会,在中国大陆以外的地方,比如香港、台湾的票价就比大陆要便宜约30%至40%,原因何在?

阅读全文…

分类: 消费生活 标签:

北京足球场上的京骂

2010年8月8日 子猴 8 条评论

外地来京的人去现场看足球赛,尤其是中超国安的比赛时肯定会习惯不了或受不了球场上震耳欲聋、群情激昂、绵绵不绝、整齐划一的京骂:傻X(和谐社会以X代替)!

有次,我就亲眼见到有两个一看就是外地来京的中年人,一男一女,因为座位问题跟我附近的人争执了起来,争执的原因是因为两人买的票对应的座位已经被人占了,这两人却固执地认为应当对票入座,而已经占据座位的球迷却认为应当先来先得,事实上,在北京的球场上,不对票入座的确应当算是个潜规则,因为没有任何一条明文规定可以不对票入座,但实际的情况却又的确如此,我记得我第一次去球场看球时也认为是对票入座,我拿着张票找到了对应的座位,然后发现座位已经被一哥们占了,我那时一是不知道这潜规则,另外我那时也认准了对票入座,所以挺不依不饶的,我说别人对不对票入座我不管,但我就是对票入座!后来那哥们看我这劲头,最终还是不情不愿地挪了个座,不过自那后我就知道了在球场上是不对票入座的,其他地区的球场我不知道,但北京国安的球场却绝对是如此的,所以我后来从来就没再对票入座过,如果要占好座位,就只能赶早点去球场。

话说回来,那中年一男一女因为座位原因跟占座的年轻球迷争吵起来后,其他球迷看这两人如此不识趣,竟然就旁若无人又不约而同地一遍一遍高呼起了京骂:傻X!两中年男女便气急惊异起来,说北京人这素质怎么这样?–估计外地人以为北京毕竟是首都,人素质应当是挺高,没来前想当然地以为这里的男男女女都应当是温良恭俭让彬彬有礼的样子,但往往来北京后,就呆那么几天,特别是来足球场这样的场合,就往往从对北京人的美好愿景中深深跌落到失望的深渊中。

阅读全文…

分类: 杂感诗文 标签:

一首很好听的欧美歌曲

2010年8月8日 子猴 3 条评论

歌名:Sorry seems to be the hardest word

分类: 娱乐搞笑 标签:

hbase错误记录及解决1

2010年8月8日 子猴 2 条评论

在重新启动HBase服务的时候可能会出现如下的错误:

INFO ipc.HbaseRPC: Server at /227.23.56.100:60020 could not be reached after 1 tries, giving up.

出现这个错误的原因可能会有很多,比如各个配置文件中的地址不一致等,但我这里给出的一个可能原因是端口号被其他某一进程占用,或者还是HBase进程使用着,但此服务(或说此端口)已经不再可用,解决的方式为:通过此端口查找到对应的进程,然后杀死对应的进程,再重启HBase服务,你会发现上面出现的错误将消失,服务启动正常。

具体步骤为:

阅读全文…

分类: 编程网络 标签:

袋鼠肉不久将上中国人的餐桌

2010年8月3日 子猴 16 条评论

在超市,可以买到牛肉、猪肉、鸡肉、鸭肉等等之类的肉,但不久之后袋鼠肉也将能在超市里买到了。

觉得惊奇吗?袋鼠肉。。。。当然也是可以吃的,但在国人看来,可能很难会想到餐桌上出现袋鼠肉,事实上,在袋鼠的原产地澳大利亚,袋鼠一直都是餐桌上的食用肉,而如今,据凤凰卫视报道,中国已经和澳大利亚就袋鼠肉出口达成了协议,不久后,在中国人的餐桌上,袋鼠肉也将和牛肉猪肉一样成为中国人的食用肉。

袋鼠介绍:http://baike.baidu.com/view/2781.htm

分类: 消费生活 标签:

微博是微博,博客是博客

2010年7月30日 子猴 11 条评论

假设有这么样的一段内容:一小学生,在网吧看完一段色情视频,出来后在大街上疯狂强奸了10位妇女外加3头母猪。这样的一段文字如果用微博发布就非常恰当,因为目前微博一次性发布的文字长度在140个汉字以内,但如果用博客发布的话,那么必须承认看上去似乎有点太少。

但如果我们要追究分析其原因,比如为什么一个小学生看完色情视频后竟然如此地亢奋和有着势不可挡的冲动,竟然连母猪都难逃其魔掌,然后再分析一下净化网络色情信息对保护中国的中小学生的必要性,那么用微博再发布很显然就不合时宜了,因为内容肯定会超过140个汉字了。

所以我觉得微博和博客没有什么优劣比较,只有互补,所以作为后起之秀,微博并不能代替或淘汰博客,微博应当视之为传统博客的一种有益补充。

阅读全文…

分类: 杂感诗文 标签: ,

像希特勒的猫咪们

2010年7月29日 子猴 9 条评论

一名英国人特别成立网站,名为“喵特勒”(Kitler),专门蒐集许多长得像希特勒的猫,要饲主觉得自己的猫长得像希特勒,都可以贴上来和大家分享。至28日下午3时止,已逼近5000张照片。上图是目前公认最像希特勒的猫,连旁分都一样!

阅读全文…

分类: 娱乐搞笑 标签: ,

MemoryUsage:监测java虚拟机内存使用

2010年7月27日 子猴 3 条评论

介绍一个看到的很有意思的Java类MemoryUsage,通过MemoryUsage可以查看Java 虚拟机的内存池的内存使用情况。

MemoryUsage类有四个值(均以字节为单位):

Init:java虚拟机在启动的时候向操作系统请求的初始内存容量,java虚拟机在运行的过程中可能向操作系统请求更多的内存或将内存释放给操作系统,所以init的值是不确定的。

Used:当前已经使用的内存量。

Committed:表示保证java虚拟机能使用的内存量,已提交的内存量可以随时间而变化(增加或减少)。Java 虚拟机可能会将内存释放给系统,committed 可以小于 initcommitted 将始终大于或等于 used

阅读全文…

分类: 编程网络 标签:

谈谈韩寒独唱团

2010年7月21日 子猴 24 条评论

前几天去书店看到了韩寒的杂志《独唱团》,然后顺便买了本,我并不是一定觉得这书中的内容是如何的好,其实纯粹是对韩寒支持一下,对于韩寒这位与我同一年代出生的人,我是非常敬佩的。

杂志买到了,然后抽时间几乎是从头至尾看了一遍,我已经不记得我上一次如此费时地看一本文学类杂志是什么时候了,依稀记得还是在高中阶段,因为我毕竟不是学人文类专业的,我大部分的精力都放在了理科方面。看完杂志后,其实也没有什么很特别的感觉,不过还是感觉到了一些比较独特的东西,比如一些看上去让主旋律文人们觉得粗俗、不道德的东西,类似脱口而出的生殖器名,从事性服务的性工作者们,以及描写政府部门办事的一些可能所谓的“非正面形象”等等。但总体而言,我觉得这本杂志还是应当属于娱乐性质的,你可以把它当做茶余饭后或睡前的娱乐杂志来看看。

再来说说韩寒,韩寒的名字我记得好像很早就听说过了,但具体有多早还真记不清楚了,好像是中学阶段,那时我对文学其实也比较地爱好,虽然我学的是理科,我比较喜欢上语文课的一个原因就是我常常会在课上偷看一些课外读物,比如那时我常买的《中学生阅读》等。那时好像听说有个叫韩寒的,好像参加什么新概念作文比赛得了奖还是怎么的,但其实之后很长一段时间直至我大学毕业后都没去关注这位有个性的韩寒同学。对其的关注甚至敬佩,可能是从一年前,最多两年前开始,也就是从其博客的被关注度开始,我才仿佛恍然起来,那时的一个少年如今已经成长为一个思想成熟的青年了。

阅读全文…

分类: 杂感诗文 标签: