许昌春秋网络科技有限公司
 
 
 
 
域名注册 空间租用 网站建设 烽火台 搜索优化 网络推广 400电话
 
无标题文档
 
公司新闻  
咨询中心  
建站课堂  
常见问题  
营销宝典z  
          新闻中心 首页 > 新闻中心 > 常见问题
网站布局之TF-IDF算法
发布日期:2018-8-13 8:28:41   浏览次数:154

网站布局之TF-IDF算法,说白了在我理解来,这个算法就是通过一个的数学计算,来确定每个词在文章中的权重,从而得到一篇文章的关于词的带权重的向量,知道了这个以后就好办了,之后什么文章关键字提取、概述、不同的文章之前的相似性比较都引刃而解了。
求一个词的权重就用到TF-IDF算法,其实TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。
说起来也简单,TF就是这个词在文章中的词频,出现的次数比上文章的总次数或者出现次数最高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了防止分母为零。这个数学的表达式也符合情理,如果关键字(除去“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重自然就低了,举个简单的例子:给你一个关键字计算机,你一点也不知道这货表达的意思,因为(从这个算法角度讲)它在太多的文章中出现,但是如果你的关键字为0day就不一样了,包含它的文档数远远小于包含关键字“计算机”的文档数。由此,如果在同一篇文章里,如果“0day”与“计算机”的TF(词频)相同,IDF就可以保证“0day”的权重较高了。
基本的算法就是这样了,其实很简单,但是这个算法是基于这样一个前提,关键词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在漏洞。
虚位以待 虚位以待 虚位以待 许昌百姓网 许昌门户
许昌人才 许昌搬家 南阳网络公司 许昌论坛 郑州网络公司
许昌百姓网 郑州网络公司 长葛网站建设 东莞网络公司 许昌百度推广
许昌网页设计 许昌网站制作 许昌百度推广 许昌网站建设 许昌网络公司
许昌人才招聘 许昌论坛 许昌信息港 许昌招聘网 许昌人才网
许昌好房网 许昌招聘 许昌家居网 许昌百姓网 防盗螺母
版权所有 © 许昌春秋网络科技有限公司
客服电话:0374-8091995 8090300 地址:许昌市春秋广场东侧棉麻办公楼403室
客服电话:0374-8091110 8097105 地址:新兴路与仓库路交叉城市之心7号楼1单702室
传真:0374-2662321
  • 春秋销售部: 许昌春秋网络销售部
  • 春秋客服部: 许昌春秋网络客服部
  • 春秋商务部: 许昌春秋网络商务部
  • 春秋技术部: 许昌春秋网络技术部
  • 春秋宣传部: 许昌春秋网络宣传部