Kafka0102 - kafka0102.com - kafka0102的边城客栈
General Information:
Latest News:
一个周末的下午 28 Jul 2013 | 09:27 pm
搬到黄泥川之后,经常性的跑步锻炼。尽管减肥的愿望没有多少进展,至少没有变得更胖。就像爱好骑车时想骑行中国,跑上步后就想能否跑得更远一些。两个月前从海事大学跑到了黄泥川,大概有10多公里,感觉体能还能接受。之后就寻思着跑个更远的,从黄泥川到旅顺汽车站(就是公交站北广场-旅顺的终点站),约23公里,连跑加休息估计得3个小时。时间就赶到了今天,早晨还下着雨,中午就放了大晴,下午3点一刻多,戴着摇滚音乐就...
总结获取html页面遇到的几个case 25 Apr 2012 | 09:29 am
写段html页面获取的代码很简单了,其实也不需我多说。不过,要能正确的获取html内容似乎也不是很容易。自tuicool.com内测以来,不断发现需要改进的细节问题,以致之前的新功能开发计划只能往后推。昨天就发现网站推荐的文章中有乱码的情况,站点来源竟是大名鼎鼎的mashable.com,而且收录的该站点文章多数都是乱码。所以,赶紧的在新文章抓取时对乱码情况做了检查,至少不能暴露给用户啊。接下来就...
开源分词程序ki-analyzer启动 18 Jun 2011 | 04:20 pm
ki-analyzer 是基于ik-analyzer 修改而来的分词程序,所以名字上只是简单的变了一下,源码方面还是沿用了ik的包名等。之所以在ik-analyzer之上山寨另一个轮子,也实在是因为我的需求ik-analyzer不能很好满足,并且功能、设计、改动方面较ik-analyzer有很大出入,所以另起山寨。ik-analyzer项目现在还活着,前不久发布了新版,貌似只是源码实现细节的调整,...
Double.NaN != Double.NaN 20 May 2011 | 09:43 pm
昨天做数据时发现个很诡异的情况,当然,再诡异的技术现象也有发生原因。抛开我的问题来说,我可以再提出个问题:是否在某种编程语言中,存在着那么一个变量i,使得i!=i成立,也使得while(i==i);可以成功的退出?如果你想到并理解了,你可以终止阅读这篇可能冗长的文章,尽管为了填补这个月的博客空白我刻意小题大作一番。在java语言中,Double.NaN就能使得上面两个表达式成立。 说起浮点型中的...
理解mongodb的ObjectId 8 Mar 2011 | 10:33 pm
mongodb支持的数据类型中,ObjectId是其自有产物,本文对其做些简单的介绍。 存储在mongodb集合中的每个文档(document)都有一个默认的主键_id,这个主键名称是固定的,它可以是mongodb支持的任何数据类型,默认是ObjectId。在关系数据库schema设计中,主键大多是数值型的,比如常用的int和long,并且更通常的,主键的取值由数据库自增获得,这种主键数值的有序...
夜说mongodb 17 Feb 2011 | 09:28 am
赋闲以后很长没有更新博客了,说忙完全是借口,多半因为没有兴致所致。今天凌晨比赛多多,趁着比赛的前奏和间隙,遂浏览些技术文章。发现了 highscalability.com整理出了wordnik使用mongodb和scala的使用经 验:http://highscalability.com/blog/2011/2/15/wordnik-10-million-api- requests-a-day-o...
searchblox–一个基于lucene的搜索产品 9 Dec 2010 | 04:04 am
前两天在solr邮件组看到一封广告帖,一个叫searchblox的搜索产品可免费使用,好奇心驱使我简单了解并使用了一下。searchblox是基于lucene的搜索解决方案,现在的版本已经是6.1,看来也有些年头了。searchblox不是个开源产品,有免费的版本,也有收费的版本,看文档介绍,收费版本除了提供服务支持还多了复制功能。 功能上看,searchblox集成了爬虫和搜索功能,也提供Ht...
Solr复制bug一例:Unable to move index file from tempfile to indexfile 25 Nov 2010 | 04:37 am
22日下午3时多,收到搜索系统的报警邮件,错误日志如下: [2010-11-22 15:16:14][ERROR][pool-6-thread-1][SnapPuller.java(650)]Unable to move index file from: /indexpath/index.20101122031500/_21.frq to: /indexpath/index.2010112203...
httpclient的并发连接问题 20 Nov 2010 | 06:56 am
昨天的搜索系统又出状况了,几个库同时重建索引变得死慢。经过一个上午的复现分析,确定问题出现httpclient的使用上(我使用的是3.1这个被广泛使用的遗留版本)。搜索系统在重建索引时,是并发多个线程(默认是8个)不停的从PHP客户端取数据(当然,从另一个角度来说,搜索系统是客户端,PHP端是服务端),取回后放到一个队列里由单独的一个或多个线程更新索引。在测试环境复现发现,对于一个请求,PHP端打...
solr拾遗:引用计数 14 Nov 2010 | 01:22 am
据我不完全统计,solr代码中使用引用计数的用途有两种:一个是引用资源,一个是引用对象。技术上来说引用计数的使用没多少可大说的,不过如果没有正确的close获得的资源和对象,泄漏的bug就出现了。 引用资源 solr中供使用的IndexSearcher是SolrIndexSearcher,使用时它是寄存于RefCounted。RefCounted的代码如下: SolrIndexSearche...