【杂谈】Solr的自动聚类carrot2和facet关系和比较

2019-03-27 01:18|来源: 网路

不和企鹅聊天(547317812) 2013/7/1 11:21:40
请教个问题,有谁用过solr的自动聚类吗?
何达(25073021)  11:47:33
自动聚类carrot2这种效果很一般,还不如facet,想效果好得自己做
不和企鹅聊天(547317812)  11:48:12
自己做?复杂吗?
何达(25073021)  11:48:36
复杂,标签聚合是难点
不和企鹅聊天(547317812)  11:49:35
自己做,对于我们团队现在来说,有点困难
不和企鹅聊天(547317812)  11:50:02
由第三方已经做好的,效果比较好的吗?
何达(25073021)  11:50:03
不自己做,效果没法看
何达(25073021)  11:50:37
第三方做好的都自己用,没见到开源的
不和企鹅聊天(547317812)  11:51:03
这就麻烦了  
何达(25073021)  11:51:19
看你的应用场景了,要是需求简单也好搞
何达(25073021)  11:51:43
在建索引之前先聚类,然后用facet搞定
不和企鹅聊天(547317812)  11:52:02
就是根据文本内容,分类
何达(25073021)  11:52:25
建完索引再通过solr来搞定是死路
何达(25073021)  11:53:01
那你先分吧,你用什么方式分啊,手工的,自动的,还是有什么规律能用程序搞定?
不和企鹅聊天(547317812)  11:53:12
有没有像autonomy的  IDOL,这种的解决方案
何达(25073021)  11:55:21
开源的不知道有没有,没见过
不和企鹅聊天(547317812)  11:56:54
就是想做一个,基于语义理解的,自动聚类处理
何达(25073021)  11:57:40
那就复杂了,估计你们团队短时间搞不定,可以考虑花钱买技术
极品健健(76920835)  11:58:34
做个简单的,有现成算法
不和企鹅聊天(547317812)  11:58:54
这个。。。。  领导说了算啊
何达(25073021)  11:59:10
@极品健健 他是基于语义理解的,这就大发了
极品健健(76920835)  11:59:12
不能拔苗助长呐
极品健健(76920835)  11:59:42
居于分词的,类似文档相似度的就好了,简单搞点算了
何达(25073021)  11:59:51
都没基础的,只能找规律简单搞搞
不和企鹅聊天(547317812)  12:00:06
基于语义理解的,自动聚类,索引,同时支持全文检索等等  
何达(25073021)  12:00:31
让你们领导自己做吧,这百万年薪的才能搞定啊
极品健健(76920835)  12:00:35
语义理解。。。。。。。。
[☆]雪罗漫天<phpcms@msn.com>  12:00:58


[☆]雪罗漫天<phpcms@msn.com>  12:01:19


[☆]雪罗漫天<phpcms@msn.com>  12:01:44
这个算语义理解么
极品健健(76920835)  12:02:35
必须不是
[☆]雪罗漫天<phpcms@msn.com>  12:02:52
.....
[☆]雪罗漫天<phpcms@msn.com>  12:03:13
应该是了吧,它都能理解我说的电扇了...
简单(9730722)  12:03:20


极品健健(76920835)  12:03:26


[☆]雪罗漫天<phpcms@msn.com>  12:03:31
哈哈 你还真搜啊
简单(9730722)  12:04:11
我想看看现在科技的进步程度
简单(9730722)  12:04:15


不和企鹅聊天(547317812)  12:04:29
唉。。。。  愁啊。。
不和企鹅聊天(547317812)  12:09:26
我们想做的是,比如:赵红霞,系统能够理解,“反腐倡廉”,“贪欲受贿”,等等这些,系统能自动理解语意,理解文章上下文环境,自动把同一类的文本聚成一个专题
极品健健(76920835)  12:10:36
系统为什么能理解?我们人为什么能知道赵红霞和反腐倡廉有关系
极品健健(76920835)  12:10:46
因为我们人事先接触到新闻
极品健健(76920835)  12:10:58
你脑子里已经有这个联系了
不和企鹅聊天(547317812)  12:12:12
这个写信息,能不能随着系统接触的信息越来越多,系统就能理解这些?
极品健健(76920835)  12:12:47
你系统的关键就是这个
极品健健(76920835)  12:12:51
我不懂这个
刹那永恒(393681695)  12:14:04
不会是给广电做的吧?


不和企鹅聊天(547317812)  12:15:17
我是想,能不能有一种方法,最后让系统既能搜出东西,又能理解搜出来的东西,并且根据语义,上下文环境,自动把信息分类
Lee(125801105)  12:15:36
这涉及到一个学科... 机器学习.
♨HelloWorld<huangduanfeng6.29@qq.com>  12:15:46
这个是属于人工智能范畴了
♨HelloWorld<huangduanfeng6.29@qq.com>  12:15:50
我们之前做过
♨HelloWorld<huangduanfeng6.29@qq.com>  12:16:01
不过我们做的比较低级就是了
不和企鹅聊天(547317812)  12:16:11
最终实现,和人工阅读文本,人工根据内容分类,一样的效果
杭州-湖畔<redsdh@gmail.com>  12:16:17
。。。难
杭州-湖畔<redsdh@gmail.com>  12:16:40
简单点的, 运营手动加标签,
不和企鹅聊天(547317812)  12:17:18
 运营手动加标签?
不和企鹅聊天(547317812)  12:17:27
能解释一下吗?
杭州-湖畔<redsdh@gmail.com>  12:18:39
我该怎么解释。。
杭州-湖畔<redsdh@gmail.com>  12:19:09
比如大众点评,也做分类的
杭州-湖畔<redsdh@gmail.com>  12:19:21
运营实现知道分类的
杭州-湖畔<redsdh@gmail.com>  12:19:29
调查过业务,有精确的分类存在
☜依米艳☞(316849113)  13:45:59
我每次和seri说话,他都说,我不知道你在说什么~
啊剑(494913703)  13:47:33


☜依米艳☞(316849113)  14:03:33
弱弱的问一句@[☆]雪罗漫天 为什么我的百度搜索来的和你的不一样~
壮志雄虎(342315465)  14:24:59
楼上的好天真。。。。。
liuxun(33611720)  14:25:16
我不是做java开发的,现在需要把solr 代码重新打包,怎么办?
☜依米艳☞(316849113)  14:25:52
@liuxun 变异好的?
☜依米艳☞(316849113)  14:25:55
编译
liuxun(33611720)  14:27:38
公司不能上网,好像ant打包要安装一堆东西。
.................(284242157)  15:34:12
请问solr中怎么更新IK词典呢
.................(284242157)  15:34:29
扩展词典
一休摸鱼(429200247)  15:34:49
有说明吧
.................(284242157)  15:35:23
ik倒是有个文档,但是用了下dic.addWords(words);//批量加载新词条不起作用
[砖]梁山伯(19335353)  15:35:49
@................. 没用我给的源码?
.................(284242157)  15:36:21
在哪儿?
[砖]梁山伯(19335353)  15:36:38
https://github.com/lgnlgn/ik4solr4.3
.................(284242157)  15:37:08
哈,谢谢先看看去


转自:http://blog.csdn.net/earth3008/article/details/9214733

相关问答

更多
  • Carrot2旨在实时聚集中小型文档集。 典型的范围是几百个文档。 Lingo算法的合理最大值是大约1k个文档,STC算法应该能够处理最多大约10k个文档。 如果你想超越它,你可能还想检查插入Carrot2的商业Lingo3G算法 。 话虽如此,在聚类搜索结果时,搜索引擎首先需要获取要聚类的所有文档的内容,这可能也需要一些时间。 Carrot2 was designed to cluster small-to-medium collections of documents in real time. The ...
  • 它可以通过两种方式完成。 在一个设置中,Carrot2 Workbench可以从Solr获取搜索结果(就像从任何其他搜索引擎一样)并对它们进行聚类。 这条路线可能是最容易开始的,您只需要提供Solr服务的URL和字段名称,以便为集群提供内容。 或者,您可以在Solr中配置搜索结果群集插件 ,该插件将在Solr服务器内执行群集,并将搜索结果群集作为Solr搜索响应的一部分包含在内。 在这两种情况下,聚类都应用于存储的文档内容(原始文本),因此将文档聚集在Solr中并没有太大的性能优势,除了减少序列化/反序列化 ...
  • 事实证明,source-solr-attributes.xml文件有一个额外的重写属性。 一个在带有示例参数的默认块注释之前,第二个是由我添加的配置所需的参数。 删除其中一行所以只有一行纠正了问题。 显然有两个它忽略了服务器设置并使用默认值。 It turns out that the source-solr-attributes.xml file had an extra overridden-attributes. one was before the default block comment wit ...
  • 您可以将标题和URL字段留空。 如果存在标题内容,则在聚类期间给予更多权重。 URL字段仅用于显示目的。 You can leave the title and URL fields empty. Title content, if present, is given more weight during clustering. The URL field is used only for display purposes.
  • 我已经看过代码,看起来这种行为是由群集拆分例程中的错误引起的。 我已经修复了Carrot2的主线,这使得生成的簇的数量更加可预测。 您可以从Carrot2构建服务器下载带有修复程序的二进制文件。 I've had a look at the code and it looks like this behaviour was caused by a bug in the cluster splitting routine. I've committed a fix to the master line of ...
  • 增量聚类目前仅在Lingo3G算法(Carrot2的商业附加软件)中可用。 在Carrot2中,现在唯一的选择是重新聚集整个放大的文档集。 Incremental clustering is currently only available in the Lingo3G algorithm (commercial add-on to Carrot2). In Carrot2, the only option for now is re-clustering the whole enlarged docume ...
  • 我认为你需要包含来自contrib/clustering/lib/的jar I think you need to include the jars from contrib/clustering/lib/
  • Carrot2仅根据文档的自然文本执行聚类。 对于有意义的聚类,人名可能太短; Carrot2不适用于地理距离和其他数值数据。 1k限制/建议基于Carrot2的设计目标:以足够快的速度对小型文本集合(例如搜索结果)进行聚类,以便可以在线完成该过程。 Carrot2适用于大约1k个文档的集合,但不会超过数千个文档。 Carrot2 performs clustering based only on the natural text of your documents. Person names would ...
  • 要获得更多集群,请尝试增加maxClusters和maxBaseClusters参数的值。 以下是如何在Java代码中传递参数值 。 但是,群集数量较少也可能是由输入数据的特征引起的(文档太少?)。 要验证这一点,请尝试使用Lingo算法对数据进行聚类。 To get more clusters, try increasing the values of the maxClusters and maxBaseClusters parameters. Here's how to pass parameter ...
  • Carrot2不支持这种开箱即用的操作模式。 根据新文档到达的频率,您可以重新调整文档的滑动窗口,并将新创建的集群与旧文档合并以获得完整的结果。 我之前没有尝试过这样的安排,所以如果它失败了,你可能会因为专用的在线聚类算法而变得更好。 Carrot2 does not support such operation mode out of the box. Depending on how frequently new documents arrive, you may be able to recluste ...