闲聊谷歌算法
(2012-10-21 16:13:09)
下一个
闲聊谷歌算法
羽飞(09-15-2012)
谷歌算法搜索非常聪明, 不仅仅是表面字词匹配, 还在于关键词上下文匹配,并揣摩用户想干什么,进行意思匹配。搜索引擎的结果看起来很简单,实际上, 背后有一系列复杂流程和计算方法。它数学逻辑方面并没有突破, 只是在人性化和工业伦理化方面下了很大工夫, 是一个商业化的成功典型。
谷歌算法原理最基本的概念就是索引,即谷歌的程序自动扫描上亿网页后建立索引,再把索引库分成小块,放在全球3千台计算机上,并复制到各地数据中心去,让全球的用户去使用。
谷歌算法的流程其实是用户提交搜索请求,谷歌根据其地理位置,将搜索请求发送到相关各地数据中心,比如BURNABY的用户提出的搜索请求, 谷歌就送到温哥华的数据中心, 在大温的数据中心根据目录索引和用户提交的关键词匹配,找到所需网页。谷歌从使用频率和关键词匹配频率出发, 从中挑选相关性最高的索引,再把这些搜索结果根据频率排名,作出最合理的搜索结果。
谷歌非常用功, 每年都对一些新思想进行必要性的评估,对用户心理摸底, 每个用户都可能不知不觉地参与在线的评估,这一点, 笔者不太赞成, 要作在线评估, 应该跟用户吱一声, 不应该把人当白痴。请独立评估员是个好办法,谷歌对不同搜索请求的衡量指标是不同的,比如查某一个科学技术问题,用户最重视的是网页权威性权重问题,在这种情况下, 搜索到一个搞笑博客, 就不太合适。
搜索的质量还与区域位置相关,比如用户在温哥华,搜索西雅图的计算机价格的价值就不大。信息搜索在互联网的使用中会越来越重要。把工程伦理学方面的知识用在搜索算法中会是前途无量的, 如Google+在搜索中也融入了伦理学的因素,把社交媒体信息整合进来, 成为一个万能搜索引擎。
(20分钟写完)