V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
f1ynnv2
V2EX  ›  问与答

求推荐一个能检索内容的 pdf 文件管理软件

  •  
  •   f1ynnv2 · 2023-03-14 09:23:12 +08:00 · 3084 次点击
    这是一个创建于 655 天前的主题,其中的信息可能已经有所发展或是发生改变。

    因为平时会把一些论文、文章转成 pdf 保存,时间久了 pdf 文件非常多,所以想找个 pdf 管理软件,想要的特性如下:

    1. 能检索 pdf 标题和内容
    2. 最好能给 pdf 文件打标签
    3. B/S 架构,这样可以部署到一台服务器上,多端访问

    谢谢。

    30 条回复    2023-03-15 16:53:55 +08:00
    jamosLi
        1
    jamosLi  
       2023-03-14 09:41:48 +08:00
    有了踢踢我
    koto
        2
    koto  
       2023-03-14 09:42:32 +08:00
    abbyy ?不过是收费的
    DigitalG
        3
    DigitalG  
       2023-03-14 09:52:38 +08:00
    devonthink 有 server 版本,一次性付费,虽然比较贵。
    DigitalG
        4
    DigitalG  
       2023-03-14 09:53:33 +08:00
    @DigitalG 不过除了 server ,client 只有 Apple 生态的版本
    shalingye
        5
    shalingye  
       2023-03-14 10:00:47 +08:00 via Android
    calibre ,能写元数据,自带 web 服务,但似乎不能检索 pdf 内容。
    virlaser
        6
    virlaser  
       2023-03-14 10:05:37 +08:00
    目前用的 NAS 实现这个功能
    对于可以复制文字的 PDF ,NAS 可以直接索引里面的文字,直接搜索
    对于不能复制文字的 PDF ,需要先通过 OCR 软件识别一下(之前用的 PDFElement ,不过好像调的还是 abbyy 引擎),在 PDF 上覆盖一层透明的文字层,然后再保存到 NAS 里面,这样就可以索引了
    NAS 本身的文件管理提供了打标签、多端访问和索引的功能
    mmm159357456
        7
    mmm159357456  
       2023-03-14 10:11:52 +08:00   ❤️ 1
    为啥没人说 zotero 和 endnote
    tool2d
        8
    tool2d  
       2023-03-14 10:16:55 +08:00
    自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ,然后针对 txt 做文本搜索,就会方便太多。
    f1ynnv2
        9
    f1ynnv2  
    OP
       2023-03-14 10:31:15 +08:00
    @mmm159357456 调研过 zotero ,这个好像就是个单体软件,只是能通过 webdav 同步,离 web-based 有些远。endnote 没接触过,我去了解下。
    f1ynnv2
        10
    f1ynnv2  
    OP
       2023-03-14 10:35:59 +08:00
    @tool2d 理论上确实是可以自己写,但是时间花在这上面不太值。
    f1ynnv2
        11
    f1ynnv2  
    OP
       2023-03-14 10:43:35 +08:00
    找到一个开源的,似乎完美符合我的要求。
    https://github.com/papermerge/papermerge-core
    litengyu86
        12
    litengyu86  
       2023-03-14 12:35:02 +08:00
    @koto abbyy 丢丢贵
    TerranceL
        13
    TerranceL  
       2023-03-14 13:05:23 +08:00
    mendely
    f1ynnv2
        14
    f1ynnv2  
    OP
       2023-03-14 13:12:51 +08:00
    @f1ynnv2 试了下,功能是有,但是不稳定。。
    NutsoGao
        15
    NutsoGao  
       2023-03-14 13:38:06 +08:00
    插眼,有了我踢踢我
    beyondex
        16
    beyondex  
       2023-03-14 15:53:05 +08:00
    sea desktop search ,满足 1 ,3 B/S 架构,这样可以部署到一台服务器上,多端访问
    不过浏览器访问需要手动配置,倒也不复杂,不提供傻瓜化开关。
    aitianci
        17
    aitianci  
       2023-03-14 16:52:29 +08:00
    mendeley 和 zotero 确实符合条件,我现在在用的是 zotero ,可以手动导入 pdf 然后它自己会 OCR 搞一套检索,标题内容都能搜索,至于打标签那是基本功能,科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步,多端访问也不成问题。
    kukat
        18
    kukat  
       2023-03-14 18:08:47 +08:00
    paperless-ngx
    congjinyebaiya
        19
    congjinyebaiya  
       2023-03-14 18:21:28 +08:00 via iPhone
    zotero 貌似可以
    wanghaoyang
        20
    wanghaoyang  
       2023-03-14 18:31:24 +08:00
    Confluence
    hicdn
        21
    hicdn  
       2023-03-14 22:07:52 +08:00
    继续安利 recoll ,https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台,功能十分强大,压缩包里的文件内容都可以索引,还能自己扩展可索引的文件后缀名,比如 xmind 的思维导图。
    mmdsun
        22
    mmdsun  
       2023-03-14 22:11:10 +08:00
    我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容,用的 微博 Vposy 大神出的 Adobe 全家桶
    em70
        23
    em70  
       2023-03-14 22:13:10 +08:00
    chatPDF
    mmdsun
        24
    mmdsun  
       2023-03-14 22:14:47 +08:00
    抱歉没看 B/S 架构,建议用 Apache Solr 。PDF\word 各种格式都能搜索,类似 ES ,带 UI

    Apache Solr:
    https://solr.apache.org/features.html
    f1ynnv2
        25
    f1ynnv2  
    OP
       2023-03-14 22:48:00 +08:00
    @kukat 试用了一下,这个确实很好用,基本满足我列的要求。非常感谢
    不过默认自带的 ocr 不支持中文,用 Docker 的话得自己重新写个 Dockerfile
    dier
        26
    dier  
       2023-03-14 22:49:33 +08:00 via iPhone
    听说最近出了一个 chatPDF
    enrolls
        27
    enrolls  
       2023-03-14 23:07:14 +08:00 via iPhone
    这个整合一下应用,应该很快就能有雏形啊
    kukat
        28
    kukat  
       2023-03-15 10:13:48 +08:00
    @f1ynnv2 不用啊,可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

    用官方提供的安装脚本就行,不过语言项有点 bug ,一会下划线一会横线…… 记得改一下 docker-compose.env
    PAPERLESS_OCR_LANGUAGE=eng+chi_sim
    PAPERLESS_OCR_LANGUAGES=eng chi-sim
    f1ynnv2
        29
    f1ynnv2  
    OP
       2023-03-15 11:17:14 +08:00
    @kukat 我启动 docker 时提示没安装 chi 的 ocr ,只好自己又装了一下重新做了个镜像
    f1ynnv2
        30
    f1ynnv2  
    OP
       2023-03-15 16:53:55 +08:00
    @kukat 请问一下,docker 镜像里,我已经通过 apt install tesseract-ocr-chi-sim 了,但是启动的时候仍然提示

    2023-03-15 16:36:16 Reading package lists...
    2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
    2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

    不过奇怪的是确实已经可以 OCR 扫描到文字了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2800 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:38 · PVG 15:38 · LAX 23:38 · JFK 02:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.