elasticsearch也使用了一段时间了,总结一下这段时间的一些心得。
mavel监控很好用,比自己敲curl调API好用多了,又快又直观。而delete-by-query插件可以帮助删除一些根据查询得出的结果数据。
#安装marvel /usr/share/elasticsearch/bin/plugin ...
今天抽空写了个多线程下载文件的方法,参考了下网上的案例并做了下修改,支持下载完后根据http头的etag信息做md5校验(当然这个得根据实际情况,etag内容不一定是md5值,不是就把那段代码去掉),后续可以加上断点续传的功能。
代码如下,以供学习
#!/usr/bin/env python #_*_ coding:utf-8 _*_ import threading import urllib2 i...
今天给个人主页添加了一个展示京东IT类新书TOP20的功能。
主要用的是我以前写的一个爬虫,这个爬虫在我的github上就有https://github.com/mnpiozhang/popularbooks,其实不仅可以爬IT类的,也可以爬京东上其他分类的图书信息,而且可以指定爬取TOP多少,反正不能超过100。恩。。。如果问我这个功能有什么用,其实并没什么软用,只是自己觉的好玩。
...
十一加班实在蛋疼,上上网刷刷手机,内心已经按捺不住要回去打昆特牌的冲动了= =。。。思来想去还是装装逼好了,故归(chao)纳(hui)下(shu)find用法。
根据文件名查找应该是用的最多的,下面就是查找当前目录下后缀名为txt的文件。这里-print 加不加都无所谓
find . -name "*.txt" -print
如果是 -iname参数的话就是忽略大小写
多条件匹配,查找后缀名txt或者后缀名pdf的文件
find ...
十一加班,发现之前用python脚本每天导的数据作的图不对劲,感觉好像有的数据貌似没有导完整。后来查问题,发现原因应该就是脚本定时跑的时候正好赶上elasticsearch在做GC的时候stop-the-world了。。。。。es这玩意GC又把握不准的,至多调大点HEAP_SIZE,减少GC频率,但依然有可能碰巧遇到数据导到一半es触发GC了。想了半天,结果其实有个相当简单的办法,之前没想到。其实只要把buik导数据的timeout调大就可以了,因为es的GC时间不长,等等其实就过去了...
其实吧,这篇文章就是照着官方文档操作。。。。。但是也算自己翻译总结下吧。
官方文档如下: https://docs.docker.com/engine/tutorials/usingdocker/
首先要看看操作系统是否符合要求,一般都是用linux跑,我这使用的是centos。官方要求kernel version 3.10或以上。...
Cloudhu 个人随笔|built by django|
沪ICP备16019452号-1