




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
PageRank算法一.Pagerank定义及终点,自连接点的概念1.早期搜索引擎的弊端Pagerank思想:“被越多优质的网页所指的网页,它是优质的概率就越大”Pagerank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。首先,我们将Web做如下抽象:1、将每个网页抽象成一个节点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A到B。因此,整个Web被抽象为一张有向图。设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v:第一步之后,冲浪者的概率分布为Mv;第二步之后,冲浪者的概率分布为M²v;第i步之后,依次类推,可得冲浪者经过i步之后的位置概率分布向量为Miv。我们可以从初向量v出发,不断左乘矩阵M,直到前后两轮迭代产生的结果向量差异很小时停止,从而得到M的主特征向量。实际上,对于Web本身而言,迭代50-75次已经足够收敛。3.终止点双击添加标题文字单击添加单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容面向主题PageRank动机思路及公式例子迭代过程:面向主题的PageRank的使用三、LinkSpam与反作弊LinkSpam方法LinkSpam链接农场链接农场LinkSpam反作弊LinkSpam反作弊四、权威页与导航页Page28PageRank判断页面重要性PageRank能够对网页的重要性做出客观的评价PageRank能够对网页的重要性做出客观的评价Page32Page33Page34

你相****光吗
实名认证
内容提供者


最近下载