请问如何实现数据对比呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 941 天前的主题，其中的信息可能已经有所发展或是发生改变。

服务器中每天会上传一个 txt 格式的人员清单（应该每天就几万条），为了和数据库中的人员保持一致，需要按行逐一读取与数据库对比，比如数据重复，数据不存在等。。。个人感觉逐一对比这种方式过于复杂，每读取一行就要遍历一次用户表的数据，请问还有其他效率更高，更简单的方法处理吗？

读取

请问

对比

数据库

17 条回复 • 2022-05-31 22:59:34 +08:00

renmu123

2022-05-31 17:51:07 +08:00 via Android

都拿出来放到内存里来比

Geekerstar

2022-05-31 17:51:22 +08:00

数据库中数据不多的话，查关键字段到内存后，与 txt 取差集

lybcyd

2022-05-31 17:53:41 +08:00

就几万条，量也不大，直接把数据库数据读成一个 k-v 的 map ，再把 txt 的数据读入一个 list ，直接检查 key 是否存在

Joker123456789

2022-05-31 17:54:34 +08:00

设置一个唯一约束的字段，插入的时候报错就说明存在了。

zx9481

2022-05-31 17:56:12 +08:00

@renmu123
@Geekerstar
@lybcyd
内存处理确实没想到，谢谢大佬！

Joker123456789

2022-05-31 17:56:32 +08:00

如果你只是想过滤掉存在的这条，也可以，用 on duplicate key update 就好了，插入时发现唯一字段冲突了，就只做更新操作

bxtx999

2022-05-31 17:58:09 +08:00

bloom filter

liprais

2022-05-31 17:58:24 +08:00

几万条写到数据库里面一个 join 完事

Macolor21

2022-05-31 17:59:09 +08:00

1. 先查询所有用户表 /关键数据到内存 1 次网络 I/O
2. 放入 HashMap/ BloomFilter
3. 再读取 txt 的所有数据，构建出 List 1 次文件 IO
4. 遍历 list 比对数据

因为几万条的数据量也不大，假设特别大了，就考虑用 io 来换内存空间了。

lookStupiToForce

2022-05-31 18:30:58 +08:00

"每读取一行就要遍历一次用户表的数据"
不是，你数据库里那张表的 join_key 不建索引的吗，居然查一次就扫一次全表？
建索引后 b+tree 匹配一条数据就只用查几次而已，树深度通常就 3 撑死了就 4 ，查几次由深度决定
这样几万条记录进去 nested loop join 撑死也就查(几万*4)次而已，再慢再慢的 io 也就几秒钟，哪还用加上其他开发啊？除非你数据库非常繁忙，这几秒钟的 io 都要排队跟其他进程均分。