那年那日那朵花

".......(o´ω`o)......"

欢迎 (。・`ω´・)

elasticsearch也使用了一段时间了,总结一下这段时间的一些心得。


推荐安装使用marvel监控elasticsearch集群信息以及delete-by-query插件

mavel监控很好用,比自己敲curl调API好用多了,又快又直观。而delete-by-query插件可以帮助删除一些根据查询得出的结果数据。

#安装marvel
/usr/share/elasticsearch/bin/plugin ...

今天抽空写了个多线程下载文件的方法,参考了下网上的案例并做了下修改,支持下载完后根据http头的etag信息做md5校验(当然这个得根据实际情况,etag内容不一定是md5值,不是就把那段代码去掉),后续可以加上断点续传的功能。

代码如下,以供学习

#!/usr/bin/env python
#_*_ coding:utf-8 _*_
import threading
import urllib2
i...

今天给个人主页添加了一个展示京东IT类新书TOP20的功能。

主要用的是我以前写的一个爬虫,这个爬虫在我的github上就有https://github.com/mnpiozhang/popularbooks,其实不仅可以爬IT类的,也可以爬京东上其他分类的图书信息,而且可以指定爬取TOP多少,反正不能超过100。恩。。。如果问我这个功能有什么用,其实并没什么软用,只是自己觉的好玩。
...

find用法详解

2016-10-03 16:30 linux

十一加班实在蛋疼,上上网刷刷手机,内心已经按捺不住要回去打昆特牌的冲动了= =。。。思来想去还是装装逼好了,故归(chao)纳(hui)下(shu)find用法。

根据文件名查找

根据文件名查找应该是用的最多的,下面就是查找当前目录下后缀名为txt的文件。这里-print 加不加都无所谓

find . -name "*.txt" -print

如果是 -iname参数的话就是忽略大小写

多条件匹配,查找后缀名txt或者后缀名pdf的文件

find ...

十一加班,发现之前用python脚本每天导的数据作的图不对劲,感觉好像有的数据貌似没有导完整。后来查问题,发现原因应该就是脚本定时跑的时候正好赶上elasticsearch在做GC的时候stop-the-world了。。。。。es这玩意GC又把握不准的,至多调大点HEAP_SIZE,减少GC频率,但依然有可能碰巧遇到数据导到一半es触发GC了。想了半天,结果其实有个相当简单的办法,之前没想到。其实只要把buik导数据的timeout调大就可以了,因为es的GC时间不长,等等其实就过去了...

docker小入门

2016-09-30 15:24 docker

其实吧,这篇文章就是照着官方文档操作。。。。。但是也算自己翻译总结下吧。
官方文档如下: https://docs.docker.com/engine/tutorials/usingdocker/

1. 简要说明一下安装

首先要看看操作系统是否符合要求,一般都是用linux跑,我这使用的是centos。官方要求kernel version 3.10或以上。...

Cloudhu 个人随笔|built by django|

沪ICP备16019452号-1