博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数学中余弦定理在搜索中的分类应用——新闻的分类
阅读量:5051 次
发布时间:2019-06-12

本文共 858 字,大约阅读时间需要 2 分钟。

文章顺序排在《地图和本地搜索的最基本技术》之后

1.特征向量的提取

    i.思想:
          想让计算机来对新闻进行分类,先要将新闻变为一组可计算的数字
 
     ii.实现:
          a.去掉新闻中的助词(的、地、得),以及虚词(之乎者也)
          b.然后将剩下的词的IF-IDF,依据词汇表的顺序,组成一个特征向量;向量中的每一个维度代表这个词对这篇新闻主题的贡献
          c.用两个向量的夹角来衡量两篇新闻的是否“接近”
               
               可以看出cos值在[0,1]间,接近1,则两篇新闻属于同一类
 
2.整体的实现
     i.如果已知了各类新闻类别的特征向量,对于一篇新文章的分类,可以简单的计算就能知道其分类
     
     ii.自动计算新闻类别的特征向量
          a.计算所有新闻两两之间的相似性,把相似性大于一个阀值的新闻合并成一个小类(subclass),这样N篇文章就形成N1个小类,且N1<N;
          b.再把小类中所有的新闻作为一个整体,计算整体的特征向量,进而计算其余弦的相似性,然后合并为大一点的类,如有N2个,有N2<N1.     
          c.当类越来越大时,其中的新闻的相似性就越来越小了,此时就要停止上述迭代的过程了,至此,自动分类完成
          d.算法论文:Radu Florian and Davie Yarowsky, Dynamic nonlocal language modeling via hierarchical topic-based adaptation, ACL 1999
 
3.大规模自动分类时,计算余弦的技巧:
     i.将分母即每个新闻的|a|都缓存起来,每次的跌代量可以节省2/3
     ii.分子的计算只需要考虑一个非零元素个数较小的向量中的非零维度,与其相对应位置上另一个向量此维度的乘积即可
     iii.删除虚词、stop词、连词、副词、介词
 
4.位置加权的作用:
     标题中的词、文章靠头、结尾的词、段落的第一个句子比其他部分的词更加重要,所以需要对这些地方进行额外的加成,来提高算法的准确性

转载于:https://www.cnblogs.com/uttu/p/6289911.html

你可能感兴趣的文章
蓝桥杯-分小组-java
查看>>
Java基础--面向对象编程1(类与对象)
查看>>
Android Toast
查看>>
iOS开发UI篇—Quartz2D使用(绘制基本图形)
查看>>
iOS-内存管理
查看>>
docker固定IP地址重启不变
查看>>
hadoop的wordcount程序
查看>>
冲刺二阶段-个人总结07
查看>>
C语言 基础练习40题
查看>>
[Swift]LeetCode128. 最长连续序列 | Longest Consecutive Sequence
查看>>
[Swift通天遁地]一、超级工具-(9)在地图视图MKMapView中添加支持交互动作的标注图标...
查看>>
js版base64()
查看>>
poj3006---素数筛法
查看>>
c语言结构体排序示例
查看>>
openresty nginx systemtap netdata
查看>>
[Angular] Make a chatbot with DialogFlow
查看>>
javascript坐标:event.x、event.clientX、event.offsetX、event.screenX 用法
查看>>
genymotion不能启动模拟器的处理姿势
查看>>
vs2005下使用sql 2000或其他数据库作为membership的默认提供程序
查看>>
sd卡无法启动及zc706更改主频后可以进入uboot无法启动kernel的坑
查看>>