存档
淑珍分词器1.1.9版本源码开放下载
这款发布的淑珍分词器版本是1.1.9,完全是基于字典分词,在提供下载的压缩包中含有编译好的jar包和所有的源代码。
为了方便根据自己需要对分词器进行修改,我这里介绍一下淑珍分词器的核心数据结构,这个数据结构也是当初我在写分词器的时候,为了解决词库条目多和索引速度之间的相互制约而想出来的。
这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中,比如,对一个很常见的条目例子:“男女搭配干活不累”来举例子,在这种数据结构中,将被存储为如下key-value键值对:
hbase错误记录及解决1
在重新启动HBase服务的时候可能会出现如下的错误:
INFO ipc.HbaseRPC: Server at /227.23.56.100:60020 could not be reached after 1 tries, giving up.
出现这个错误的原因可能会有很多,比如各个配置文件中的地址不一致等,但我这里给出的一个可能原因是端口号被其他某一进程占用,或者还是HBase进程使用着,但此服务(或说此端口)已经不再可用,解决的方式为:通过此端口查找到对应的进程,然后杀死对应的进程,再重启HBase服务,你会发现上面出现的错误将消失,服务启动正常。
具体步骤为:
MemoryUsage:监测java虚拟机内存使用
介绍一个看到的很有意思的Java类MemoryUsage,通过MemoryUsage可以查看Java 虚拟机的内存池的内存使用情况。
MemoryUsage类有四个值(均以字节为单位):
Init:java虚拟机在启动的时候向操作系统请求的初始内存容量,java虚拟机在运行的过程中可能向操作系统请求更多的内存或将内存释放给操作系统,所以init的值是不确定的。
Used:当前已经使用的内存量。
Committed:表示保证java虚拟机能使用的内存量,已提交的内存量可以随时间而变化(增加或减少)。Java 虚拟机可能会将内存释放给系统,committed 可以小于 init。committed 将始终大于或等于 used。
百度网站打开速度为什么很快?
大家都知道有些网站比如百度,打开或搜索的速度非常快,那么,为什么这样的网站打开这么快呢?这除了与本身系统要做好优化外,还有一个主要的原因是网站服务器所托管的机房。
在中国,所有的机房带宽归根溯底都是由联通与电信提供的,而所有的服务器都是存放在一个个机房中的,可以形象地理解,每一个机房都相当于网络中的一个个节点一样,这一个个节点构成了从上至下的一个结构,越是在上层的节点,网络接入速度越快,这些在上层中的节点就是所谓的“主干节点”,所以如果网站服务器存放在这些“主干节点”中,那打开的机房比存放在“非主干节点”中的肯定要快一些。
博客搭建系统WordPress 3.0正式发布
WordPress新的版本终于发布了,目前英文版本在其官方网站上已经可以下载了,地址是:http://wordpress.org/download/
不过中文版本的目前还没出来(在其http://cn.wordpress.org/上可以看到还是2.9.2)。
据了解,3.0版本新增了如下一些主要特性及功能:
1. 自定义发布内容的类型
默认情况下,WordPress里可以让你发布两种类型的内容:“文章(Posts)”和 “页面(Pages)”。 在WordPress3.0版本中,你可以依据内容本身的属性特征定义更多的内容类型。
Linux:使用ulimit设置文件最大打开数
大家都知道Linux系统默认打开文件数是1024,而实际的生产环境中,这个值总是显得太小,而太小的后果就是你的系统会报:too many open files 等这样的错误导致你系统死掉,所以我们总是要修改这个值,虽然表面上看来,Linux提供了ulimit这样的命令让你修改这个文件打开数,但不幸的是,过程远远没有看到的那么简单,下面子猴就谈谈这方面的问题。
1、 首先我们通过ulimit –a命令来查看系统的一些资源限制情况,如下:
MySQL中文乱码解决之道及思路讲解
中文乱码似乎是程序编写中永恒的一个话题和难点,就比如MySQL存取中文乱码,但我想做任何事情,都要有个思路才行,有了思路才知道如何去解决问题,否则,即使一时解决了问题,但过后不久又碰到同样的问题可能又会急得抓狂,MySQL中文乱码问题就是如此。
仅仅对MySQL中文乱码的解决而言,我认为主要的一个原则可以归结为五个字:“编码一致性”,只要遵循了这个原则,那么中文乱码就不难解决,那么何为“编码一致性”呢?子猴总结为有如下四个方面的编码必须保持一致,才能防止中文的乱码,下面将具体讲解。
首先我要设定的编码为UTF8,为何要设定UTF8编码呢?那是因为这是通用编码,像中国通常使用的GBK、GB2312、Big5等只是针对中文而言,但是对其他文字就不适用了,为了使得这个问题的解决具有文字编码通用性,所以我这里设定了UTF8这个编码。
编码一致性涉及到的四个方面为:应用程序编码、数据库系统编码、数据库编码、应用程序与数据库系统的连接编码。
Linux系统手动安装rz sz 软件包
定制安装的linux可 能没有把rzsz包安装到系统,这对用securecrt这 样的windows工具传输文件特别不方便。为了使用这个方便的法门,可以手动安装之。
1、 下 载软件 rzsz-3.48.tar.gz。登录linux, 用命令
wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。
2、解压 tar zxvf rzsz-3.48.tar.gz
推荐几个比较好的中文开源网站
有很多时候,当你想做某一个功能的时候,我都建议你先在网上搜索查找一下是否已经有类似功能的开源系统,这样你就可以少省一些力,要知道,不要做出重复的轮子。
以下推荐的网站你可能早已知道,但我相信还是有些朋友不知道,所以在这里推荐一下:

