Replies: 3 comments 4 replies
-
去重和归档是否只是根据某个字段去重计数, 做统计分析, 这样的话ES的查询语句就能直接写, 不用写业务代码处理 数据量大是多大,慢是哪里慢,读ES网络传输慢? 写数据库慢? 还是聚合的业务逻辑慢? 这里慢的话可以改代码优化, 可以自己打个点分析下运行时长, 或者用工具 line_profiler 进行分析 只是单一程序慢, 数据库和程序占用机器资源都不高的话,是否可以按日期切分多启几个进程干同样的逻辑就快了? 个人建议哈, 具体场景具体分析窝也不清楚 |
Beta Was this translation helpful? Give feedback.
3 replies
-
如果我这块没法优化,那么我就直接用你的工具,我的目的只要实现这个需求就可以了。 |
Beta Was this translation helpful? Give feedback.
1 reply
-
三种方案 其实我想用第二种 1、靠es统计分析 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
我的需求很简单,从es index中获取某个搜索结果 根据某个条件去重和归档,再建立一个临时表的格式 导出到excel(或csv)
我原来写的process_hits从es读取到json放到内存里清洗,数据量太大速度很慢,后来就把json先插入到数据库,通过数据库来做去重和分组归档,但是插入这个过程速度也很慢,我不知道怎么优化,但是看代码觉得很烂,优化空间很大。
本来想通过学习 idataapi-transform 项目的code 原理,但是发现code level太高,索性就直接提问好了。
excel的内容是这样
Beta Was this translation helpful? Give feedback.
All reactions