V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
smalldirector
V2EX  ›  问与答

大家对 solr 的多语言处理有什么好的建议吗?

  •  
  •   smalldirector · 2014-06-13 00:04:52 +08:00 · 5279 次点击
    这是一个创建于 3851 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前在公司一直在搞solr的多语言处理,发现针对多种语言多个field的做法,其方式和效率简直无法忍受。自己也为此写了一个plugin( https://github.com/smalldirector/solr-multilangs-analyzer )来进行优化,但是一直不确定这种方法是不是其他的公司也实践过,最近为这个问题是相当的苦恼啊,所以想求v2exer给点好的建议。(最好是已经实践过了的^_^)
    4 条回复    2014-06-13 00:46:24 +08:00
    andyhu
        1
    andyhu  
       2014-06-13 00:12:49 +08:00
    不太清楚楼主要做什么,意思是说要把包含多语言语种的文字区别开语言,不同语言用不同分词规律来分词吗?没研究过solr,之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品
    http://www.basistech.com/text-analytics/rosette/language-identifier/
    就是价格奇贵
    andyhu
        2
    andyhu  
       2014-06-13 00:30:59 +08:00
    http://www.basistech.com/solutions/search/rosette-for-lucene-solr/
    这东西也不错,据说以前Google都用过他家的解决方案
    andyhu
        3
    andyhu  
       2014-06-13 00:31:24 +08:00
    我下过一个elasticsearch版本的,可以用反编译软件查看到它的源码
    smalldirector
        4
    smalldirector  
    OP
       2014-06-13 00:46:24 +08:00
    @andyhu 非常感谢你意见,我要好好研究下你给的链接内容。

    对于我的需求,就是系统环境可能包含各种语言的邮件内容,甚至是各种语言的混合内容,然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段,然后搜索的时候就去搜索所有的字段,这样子效率太不好了,如果我要支持10种语言,那么就需要10个字段,这样子太暴力了,所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案,才去尝试的修改solr的analyzer,tokenizer以及语言检测的逻辑的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:01 · PVG 05:01 · LAX 13:01 · JFK 16:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.