求教本地大量零碎文件，如何快速检索文件内容。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

各位彦祖，请教一下。

我本地有大量零碎文件，大概是 csv ，xlsx ，pdf ，eml ，html 之类的，大部分是文本，但是内部格式都不同。

文件大概 4T ，可预见的未来，还会增加。

我现在是使用 anytxt 来检索，但是 2T 之后检索速度就下降了，有时候一次检索要等几十秒，而且高级检索不支持正则，有些刁钻点的检索就不行了。

也试了一下 dnGrep ，支持正则搜索功能强大，但是不预建索引，每次检索要搜索一次，而且中文 pdf 好像要弄插件，也没有弄了。

也稍微看了下 Elasticsearch ，但是感觉数据导入有点麻烦。

请问下，是否有更好的方法来解决这个问题？

14 条回复 • 2024-12-19 12:19:24 +08:00

630071099

7 天前

Everything

JerryYuan

7 天前 via Android

elasticsearch 最初就是程序员给老婆做的菜单检索引擎，也是稀碎的文件一大堆😄

JerryYuan

7 天前 via Android

创建索引应该简单写个 python 脚本，一律转成纯文本，丢进去分词做倒排索引就行了。目测是 chatgpt 能接受的强度

lzgshsj

7 天前

文本内容检索的还有个 https://www.recoll.org ，可以看看
不过 4T 实在是不好说，没折腾过这么多文本

ttkanni

7 天前

Everything 正解 #1 +10086

4641585

7 天前

才知道 Everything 能检索文件内容，又学到了

collo

7 天前

@630071099 #1 everything 可以索引文件内容？感谢，找资料去。

collo

7 天前

@JerryYuan #2 主要是感觉还要学新东西，有点累😅

collo

7 天前

@JerryYuan #3 好的，先试试 everything 去，不行在弄这个。

collo

7 天前

@lzgshsj #4 先弄 everything 去，不行再试试这个。

collo

7 天前

@630071099 #1 请教一下，everything 如何预先索引所有文件？或者索引指定文件夹？

liuliancao

7 天前

建议还是文件夹分类尽量减少这种大文件夹检索如果是我我会用 cygwin grep 下但是 pdf 这些可能不支持

jeesk

7 天前

到底是文件名检索，还是文件内容检索？

1. 如果是文件名那么直接 locate xxx
2. 文件类型 grep 够用了, 当前也可以换 rust 的一些工具。

3085570450tt

6 天前

可以试试 ripgrep