各位彦祖,请教一下。
我本地有大量零碎文件,大概是 csv ,xlsx ,pdf ,eml ,html 之类的,大部分是文本,但是内部格式都不同。
文件大概 4T ,可预见的未来,还会增加。
我现在是使用 anytxt 来检索,但是 2T 之后检索速度就下降了,有时候一次检索要等几十秒,而且高级检索不支持正则,有些刁钻点的检索就不行了。
也试了一下 dnGrep ,支持正则搜索功能强大,但是不预建索引,每次检索要搜索一次,而且中文 pdf 好像要弄插件,也没有弄了。
也稍微看了下 Elasticsearch ,但是感觉数据导入有点麻烦。
请问下,是否有更好的方法来解决这个问题?
1
630071099 7 天前 2
Everything
|
2
JerryYuan 7 天前 via Android
elasticsearch 最初就是程序员给老婆做的菜单检索引擎,也是稀碎的文件一大堆😄
|
3
JerryYuan 7 天前 via Android
创建索引应该简单写个 python 脚本,一律转成纯文本,丢进去分词做倒排索引就行了。目测是 chatgpt 能接受的强度
|
4
lzgshsj 7 天前
文本内容检索的还有个 https://www.recoll.org ,可以看看
不过 4T 实在是不好说,没折腾过这么多文本 |
5
ttkanni 7 天前
Everything 正解 #1 +10086
|
6
4641585 7 天前
才知道 Everything 能检索文件内容,又学到了
|
12
liuliancao 7 天前
建议还是文件夹分类尽量减少这种大文件夹检索 如果是我 我会用 cygwin grep 下 但是 pdf 这些可能不支持
|
13
jeesk 7 天前
到底是文件名检索, 还是文件内容检索?
1. 如果是文件名那么直接 locate xxx 2. 文件类型 grep 够用了, 当前也可以换 rust 的一些工具。 |
14
3085570450tt 6 天前
可以试试 ripgrep
|