搜索官方的一篇相关性文章分享

2016-04-11seo优化
109

议程
概述
检索词
用户的信息需求
网页的自有信息
网页的附属信息
相关性的计算框架
概述
相关性的表象

检索词与被检索网页的相关联程度
相关性的真实意义

用户信息需求与结果网页所提供的信息的重合度
相关性涉及的因素

检索词
用户信息需求
网页自有信息
网页附属信息
检索结果的显示方式
网页与普通文本的不同:异质性

来源不单一

新闻记者
研究人员
商业人士
个人
用途不单一

新闻
商业及产品信息
个人爱好
娱乐信息
研究及学术信息
产生方式多样化

手工及发布系统
动态与静态
时效性:不同时间产生
动态性:可随时间变化
欺骗与造假

检索词
语义

实体名

人名
地名
公司及机构名
商品及服务名
其他专有名词名
普通名词
其他类别名
其他
信息格式

语种
结构化,非结构化
信息类别

研究信息
商品及服务信息
宗教文化
娱乐信息
新闻
个人信息
检索词格式

数值
布尔运算(AND, OR, NOT)
特殊语法(网站检索,类别检索,filetype,linkto)
Rank Query

检索词 - 相关性处理
实体名的判定用于网站首页加权
检索词分类用于与网站网页分类结合加权

信息类别的分类与统计
行业与地域的分类与统计
检索格式的分析

单语素与多语素
AND检索的研究
网页分类两种体系

按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)
按网页内容主题分类(体育,保健,娱乐,教育..)


用户的信息需求

检索任务的多样性

确定的特定信息的查询
知识获取式的浏览
目的不明确的浏览:在过程中形成目的
检索词的语义多样性
检索范围的不确定性

信息种类
行业,地域,等等
检索成功的标准不一

实体名,有特定网站,- 导航型查询
实体名,无特定网站,有相关网站 - 事务型查询
一般信息,无网站信息,许多网页提及 - 信息型查询
一般信息,无网站信息,很少网页提及 - 信息型查询
个人知识结构与兴趣
个人的信息精确性和多样性要求程度
用户的信息需求- 相关性设计

结果首页尽量显示多个类型的网页
功能,多分类和垂直搜索结果整合设计
个性化排序设计
检索日志的后台分析
用户行为数据挖掘
网页的自有信息(属性)
文本信息:字,词,短语,句子,段落,篇章
文本特征信息

标题
正文
文章长度
知识量
其他特征:黑体,链接,等等
结构信息

导航(一级导航,二级导航。。。)
广告(文字链,banner)
图片
引用(博客,论坛),
版权说明等等
语义信息

文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接
地域信息
行业信息
语种信息
网页的自有信息 - 相关性设计
切词一致性与准确性

正文内容的歧义消解,未登录词识别
查询词切分和正文切分的一致性问题处理
文本特征提取与权重指定

标题的准确性

标题提取规则:URL,标题等
实际标题
标题的真实性

标题长度截取
标题验证去除人工错误
标题作弊判别
无正文的标题处理
正文的准确性

广告文字
网页模板文字
iframe处理
js 内容处理
正文的真实性

语义tag的引入
特征tag的权重和调整
文章长度的调整系数

对超长文章的修正
DOC,PPT,PDF处理


网页的自有信息 - 相关性设计
结构信息提取与处理

首页和频道首页的识别和标记,将使用网站PR
导航区的统计,识别和标记
用于首页识别,链接将不参与PR及外部锚文本的计算
网站附属页的统计,识别和标记
赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算
广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算
内容分析

通过特征统计结合手工方式进行网站分类
文章类型信息:新闻页的特殊标记
地域信息
行业及其他分类信息
中英文比例调整

网页的附属信息(属性)
网页本身的附属信息

URL:长度与级数,动态与静态
产生时间
网页文件大小
可连接程度

连通率
死链情况

内容的稳定性:

更新周期
生命周期
所属域名及网站特性

类别
权威性
网页由环境所产生的附属信息

在网站内的重要性:首页,频道,外部被链接数量
全局权威性:被别人的认可程度
时效性:距今时间
真实性:实际内容信息与文本和附属信息的吻合度
重复性:与其他网页内容的重合度
信息内容和质量:别人对内容的认可程度

用户的评价
深度和广度


网页的附属信息-相关性处理
时间信息参与排序

新闻页的倒排: 强影响
网页的时间因素:弱影响
不影响首页和频道首页
连通率与更新率参与排序

弱连通的减权
死链的减权
更新频度参与减权
网站特性

网站分类与检索词的吻合提高相关性
网站真实性参与相关性计算:

作弊连接网站的黑名单(Link Farm)
TrickRank

网站重要性:

网站DR(Domain Rank)
Block PR
计算站内PR,网站分别计算
计算站外PR,不考虑站内链接
排重和保留

镜像列表: PR和外部锚文本的传递
首页排重规则
内容排重规则
跳转的类型和规则: PR和外部锚文本的传递
外部锚文本的真实性

链接交换网站黑名单
正文验证去躁


相关性的计算框架
主要设计模式


有公式-相关性排序

无公式人工神经网络(MLR)
针对检索词和用户信息需求综合分析确定策略
人工和程序结合提高网页自有信息的提取和处理能力
提高锚文本包含的词质量,防止作弊
PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前
增加网页附属信息参与排序
增加各因素之间的交叉验证
对部分高频词做手工调整(homony)
相关性排序的周边技术
下载
正文分析
切词
手工与程序分类
PR,DR,TR计算
锚文本词处理
遗传算法训练排序因子
The End

相关推荐

百度对网站的抓取频次和频率低怎么解决?
我们在优化自己的网站时候,在百度站长平台看到网站的抓取频率很低,网站迟迟不收录内容,那么要怎么提升抓取频率呢? 百度蜘蛛爬行是索引和排名的基...
2023-02-25 seo优化
316

百度站长平台“你无权访问该页面,点击确定按钮返回首页”
小编在百度站长平台添加网站时候,提示:你无权访问该页面,点击确定按钮返回首页,如下图所示: 小编觉得很奇怪,因为之前添加了十多个网站都没有问题,百度搜了一下,也有遇到过这种问题的朋友。很多朋友说是自己的账号问题,可是我这个账户是十几年的好老...
2020-10-09 seo优化
909

网站优化如何运用事件舆论做网络营销
网站优化如何运用事件舆论来做网络营销,今天跟版网小编来告诉你以下几点做事件关联起来做好文章,从而获得流量 1、要利用网络热门事件推广网站 首先要找到热门事件和重庆网站建设的关联性。我们怎么才能把自己的网站和热点事件进行联系呢?这是很多人想问的。...
2018-06-03 seo优化
156

超详细robots.txt大全和禁止目录收录及指定页面
robots.txt写法大全和robots.txt语法的作用 1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。 robots.txt写法如下: User-agent: * Disallow: 或者 User-agent: * Allow: / 2如果我...
2017-12-19 seo优化
294

百度推出飓风算法,严厉打击恶劣采集
百度搜索于近日推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。 飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度...
2017-07-07 seo优化
321

百度https认证提示"请将您的http站点301重定向到https站点"的解决办法
最近想把一个网站改造成https访问,但是一些都做好了,去百度站长平台认证https,结果怎么提交都是出现请将您的http站点301重定向到https站点,在百度站长社区提问也没有人回答,最后只能自己摸索。后面找到了原因:原来百度的https认证是严格遵守301重定向...
2017-06-24 seo优化
1111