首页 \ 问答 \ 如何基于相似性度量对文档进行聚类?(How to cluster docs based on their similarity measures?)

如何基于相似性度量对文档进行聚类?(How to cluster docs based on their similarity measures?)

我在这里阅读了关于如何基于它们的相似性来聚类文档的主题的帖子。 但我仍然无法理解它是如何实现的。 我的测试是我有10个文档的cos相似性度量。 以下是一些:

D1  D2   sim(D1,D2)

d1  d10 0.6823 
d1  d2  0.6377 
d1  d8  0.0307 
d1  d9  0.0294 
d1  d7  0.0284 
d1  d3  0.0234 
d1  d4  0.0199 
d1  d6  0.0110 
d1  d5  0.0030 
d10 d2  0.7232 
d10 d3  0.3898 
d10 d4  0.3054 
d10 d9  0.0256 
d10 d7  0.0227 
d10 d8  0.0226 
d10 d6  0.0110 
d10 d5  0.0060 
d2  d3  0.7850 
...
...

我是否可以仅根据相似性度量对这些文档进行聚类? 如果我指定簇的数量,该怎么做? 如果我没有指定集群的数量,算法能否自动集群那些文档,怎么做呢? 提前致谢。


I read the posts on the topic like how to cluster docs based on their similarity here. But I still can not understand how it realizes it. My test is that I have the cos similarity measures of 10 docs. Below are some:

D1  D2   sim(D1,D2)

d1  d10 0.6823 
d1  d2  0.6377 
d1  d8  0.0307 
d1  d9  0.0294 
d1  d7  0.0284 
d1  d3  0.0234 
d1  d4  0.0199 
d1  d6  0.0110 
d1  d5  0.0030 
d10 d2  0.7232 
d10 d3  0.3898 
d10 d4  0.3054 
d10 d9  0.0256 
d10 d7  0.0227 
d10 d8  0.0226 
d10 d6  0.0110 
d10 d5  0.0060 
d2  d3  0.7850 
...
...

Can I cluster these docs solely based on the similarity measures? If I specify the number of clusters, how to do it? If I do not specify the number of clusters, can the algorithm automatically cluster those docs, how to do it? Thanks in advance.


原文:https://stackoverflow.com/questions/28523130
更新时间:2023-09-09 08:09

最满意答案

您是否按照文档插入了数据? 如果没有,那将是一个很好的起点。

http://docs.joomla.org/Custom_Sample_Data


Did you insert your data per the documentation? If not, that would be a good place to start.

http://docs.joomla.org/Custom_Sample_Data

相关问答

更多
  • 要创建新用户,最佳解决方案是: 登录管理员页面: http://www.yourwebsiteurl/administrator 然后转到用户管理并创建一个新用户 不要尝试使用MySQL请求插入新用户,请使用Web界面。 To create a new user the best solution is to : login to the administrator page : http://www.yourwebsiteurl/administrator then go to user manageme ...
  • 谢谢,我找到了解决方案。 如果有人遇到同样的问题: 我从URL获得了prodcategorie的id $prodcategorieid=JRequest::getInt('id'); 之后,我再次在models / fields / language.php中查询数据库(顺便说一下我更改了名称以免与标准语言字段混淆),选择此prodcategorie的语言并使用该行选择它: return JHTML::_('select.genericlist', $options, $name=$this->name ...
  • 这篇关于使用Twitter Bootstrap构建主题的精彩文章。 http://magazine.joomla.org/issues/issue-aug-2012/item/818-using-the-twitter-bootstrap-framework-to-build-a-responsive-joomla-template-from-scratch There's this great article about building a theme with Twitter Bootstrap. h ...
  • 好吧,我最终找到了我的问题的答案,我将离开这里为任何需要它的人: 即使没有明确的目标/操作定义(因为我们正在使用MVC),任何以POST或GET形式传递的数据都可以通过使用JRequest :: getVar()或JRequest :: get()来访问,如文档: http : //docs.joomla.org/Retrieving_and_Filtering_GET_and_POST_requests_with_JRequest :: getVar Well, I eventually found th ...
  • 您是否按照文档插入了数据? 如果没有,那将是一个很好的起点。 http://docs.joomla.org/Custom_Sample_Data Did you insert your data per the documentation? If not, that would be a good place to start. http://docs.joomla.org/Custom_Sample_Data
  • 我自己解决了它 在我的情况下,我需要将子组插入一个特定的组(在下面的代码中提到$ parent_id) // get max right from all the child under parent id $child_query = "SELECT max(`rgt`) FROM `#__usergroups` WHERE `id` = ".$parent_id; $db->setQuery($child_query); $max_rgt = $db->loadResult(); // ca ...
  • 我以自己的方式创造了它。 希望这对某人有帮助。 我使用component-creator创建了一个带有表单的网格组件 。 这是一个免费工具,在Joomla组件生成中非常有用。 (或者您可以成为高级功能的付费用户) 然后我安装了组件并上传了带有参数的图像。 然后我为图像轮播创建了一个自定义模块。 这些图像的详细信息来自mysql数据库。 我使用jCarouselLite作为图像滑块。 Thanx :) I created it my own way. Hope this helps to somebody. ...
  • 我不会在index.php文件中添加这样的内容。 这是Joomla,而不是一个静态的html网站;) 你有3个选择: 选项1是开发自己的模块并将其安装在Joomla站点上。 此选项需要花费最长的时间,并且需要您在编码时获得方便。 选项2将首先下载,安装和启用名为Sourcerer的插件。 完成后,在Joomla后端创建一个新的“自定义模块”并手动添加您的HTML代码。 之后,在大文本框下方,您会看到下面的“插入代码”按钮。 O模式将弹出,允许您添加自定义代码。 只需使用