浅谈网页搜索排序中的投票模型-百度搜索研发部

前些天读了一本《选举的困境》,其中有一章,从美国的选举制度说起,介绍美国选举制度的不足,然后针对其不足,提出种种改善,然而每种改善都有其各自的问题,其中的变化很有趣。

先说美国选举制度,美国的总统选举是一种“赢者通吃”的方式,每个州根据其人口多少,有几十或几百的“州票”,州里的人对总统候选人进行选举,在某个州获得票最多的那个候选人,获得这个州所有的“州票”,然后统计所有候选人的“州票”多少,获得最多“州票”的候选人获胜。

这样制度的问题是显然的,比如如果只有两个州,A州5个人,而B州4个人,州票也分别是5和4,如果某候选人X在A州以3:2获胜,另一个候选人Y在B州以4:0获胜,这样显然候选人Y在全国范围内获得了6张票,而候选人X只有在A州的3张票,但是由于“赢者通吃”,X获得了A周的全部5张“州票”,Y只获得了B周的4张“州票”,在全国只有1/3民众支持的X居然获得了选举的胜利。

网站链接打开方式的研究

链接是组成互联网世界最基本的元素,网站链接打开方式有本页面打开(traget=_self)和新窗口打开(treaget=_blank)两种,这两种方式看似不起眼,但却是和用户交互的最基础的一种方式。很多互联网项目在原型的设计阶段没有考虑到页面的打开方式,会造成以后用户使用上的麻烦。

就页面的打开方式而言,本页面打开即在原有页面窗口的基础上显示新的页面,原来的页面丢失,用户可以点击浏览器的后退按钮回到原来页面。新窗口打开的方式,即打开新的浏览器窗口(或标签),显示新页面的内容,原有页面的窗口保留。用户回到原有页面只需关闭新窗口即可。需要注意的是,使用本页面的方式打开的页面中需要有明确的位置标注和返回路径,让用户可以顺利返回原来的页面。

TF-IDF框架与其可以衍生到的SEO知识

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

TF-IDF原理概述

当用户在搜索引擎搜索一个词的时候,它会将词去和索引库内的文档去进行匹配计算,将和词语最相关的一定数量的文档取出,参与后续的排名计算。此处“最相关”的量化指标被成为“权值”,而对于绝大多数搜索引擎,权值的计算中TF*IDF框架都是比较重要的一部分。其中被主要考虑到的因子为:词频TF和逆文档频率IDF。