在使用elasticsearch时有时候会有需要用terms来做聚合运算的需求。但是有时候返回的结果会有误差。比方说有需求要根据某一个id号分类统计一段时间内该id号出现的个数,然后根据出现的个数做排序。在这种情况下,如果这个id号近似于主键,几乎不唯一,各不相同。而且出现的频率在绝大数情况下差不多或者近乎一致,偶尔会有几个不同(我不知道用数学的术语这种情况叫什么,好像是方差还是协方差,代表离散性低吧,貌似)。那么在这种情况下做统...
这几天闲的没事,准备把我这个博客的搜索功能升下级。原来我的搜索是根据文章标题字段做的查询,现在准备用elasticsearch做为后台搜索引擎来做全文搜索。
主要的步骤分为
- docker运行elasticsearch服务
- 博客文章的同步
- 具体实现
首先要做后台搜索就需要部署一下elasticsearch,同时为了支持中文需要用到ik分词插件。elasticsearch运行需要有java环境,由于我这台服务器上面没有安装过java。而且后面要用到的i...
elasticsearch也使用了一段时间了,总结一下这段时间的一些心得。
mavel监控很好用,比自己敲curl调API好用多了,又快又直观。而delete-by-query插件可以帮助删除一些根据查询得出的结果数据。
#安装marvel /usr/share/elasticsearch/bin/plugin ...
十一加班,发现之前用python脚本每天导的数据作的图不对劲,感觉好像有的数据貌似没有导完整。后来查问题,发现原因应该就是脚本定时跑的时候正好赶上elasticsearch在做GC的时候stop-the-world了。。。。。es这玩意GC又把握不准的,至多调大点HEAP_SIZE,减少GC频率,但依然有可能碰巧遇到数据导到一半es触发GC了。想了半天,结果其实有个相当简单的办法,之前没想到。其实只要把buik导数据的timeout调大就可以了,因为es的GC时间不长,等等其实就过去了...
Cloudhu 个人随笔|built by django|
沪ICP备16019452号-1