那年那日那朵花

".......(o´ω`o)......"

标签: elk

😒😒😒在使用elasticsearch时有时候会有需要用terms来做聚合运算的需求。但是有时候返回的结果会有误差。比方说有需求要根据某一个id号分类统计一段时间内该id号出现的个数,然后根据出现的个数做排序。在这种情况下,如果这个id号近似于主键,几乎不唯一,各不相同。而且出现的频率在绝大数情况下差不多或者近乎一致,偶尔会有几个不同(我不知道用数学的术语这种情况叫什么,好像是方差还是协方差,代表离散性低吧,貌似)。那么在这种情况下做统...

这几天闲的没事,准备把我这个博客的搜索功能升下级。原来我的搜索是根据文章标题字段做的查询,现在准备用elasticsearch做为后台搜索引擎来做全文搜索。

主要的步骤分为

  • docker运行elasticsearch服务
  • 博客文章的同步
  • 具体实现

首先要做后台搜索就需要部署一下elasticsearch,同时为了支持中文需要用到ik分词插件。elasticsearch运行需要有java环境,由于我这台服务器上面没有安装过java。而且后面要用到的i...

elasticsearch也使用了一段时间了,总结一下这段时间的一些心得。


推荐安装使用marvel监控elasticsearch集群信息以及delete-by-query插件

mavel监控很好用,比自己敲curl调API好用多了,又快又直观。而delete-by-query插件可以帮助删除一些根据查询得出的结果数据。

#安装marvel
/usr/share/elasticsearch/bin/plugin ...

十一加班,发现之前用python脚本每天导的数据作的图不对劲,感觉好像有的数据貌似没有导完整。后来查问题,发现原因应该就是脚本定时跑的时候正好赶上elasticsearch在做GC的时候stop-the-world了。。。。。es这玩意GC又把握不准的,至多调大点HEAP_SIZE,减少GC频率,但依然有可能碰巧遇到数据导到一半es触发GC了。想了半天,结果其实有个相当简单的办法,之前没想到。其实只要把buik导数据的timeout调大就可以了,因为es的GC时间不长,等等其实就过去了...

Cloudhu 个人随笔|built by django|

沪ICP备16019452号-1