闲聊 谷歌算法
羽飞 (09-15-2012)
谷歌算法 搜索非常聪明 , 不仅仅是表面字 词 匹配 , 还在于 关键词 上下文匹配, 并揣摩用户 想干什 么 , 进 行意思匹配。搜索引擎的 结 果看起来很 简单 , 实际上 , 背后有一系列 复杂 流程和计算方法。它数学逻辑方面并没有突破 , 只是在人性化和工业伦理化方面下了很大工夫 , 是一个商业化的成功典型。
谷歌算法原理最基本的概念就是索引,即谷歌的程序自动 扫 描上 亿 网 页 后建立索引,再把索引 库 分成小块,放在全球 3 千台 计 算机上,并 复 制到各地数据中心去, 让全球的用户去使用 。
谷歌算法的流程其实是用 户 提交搜 索 请 求,谷歌根据其地理位置,将搜索 请 求 发 送到相关各地数据中心,比如 BURNABY 的用户提出的搜 索 请 求 , 谷歌就送到温哥华的数据中心 , 在大温的数据中心根据目 录 索引和用 户 提交的 关键词 匹配,找到所需网 页 。谷歌从使用频率和 关键词 匹配频率出发 , 从中挑 选 相 关 性最高的索引,再把 这 些搜索 结 果根据频率排名,作出最合 理的搜索 结 果。
谷歌非常用功 , 每 年都 对 一些新思想 进 行必要性的 评估,对用户心理摸底 , 每个用户都 可能不知不 觉地 参与在 线 的 评估 ,这一点 , 笔者不太赞成 , 要作在线评估 , 应该跟用户吱一声 , 不应该把人当白痴。 请 独立 评 估 员是个好办法 , 谷歌 对 不同搜索 请 求的衡量指 标是 不同的,比如 查 某一个科学技术 问题 ,用 户 最重 视 的是网 页权 威性 权重问题 ,在这种情况下 , 搜索到一个搞笑博客 , 就不太合适 。
搜索 的质量 还 与区域位置相 关 ,比如用 户 在 温哥华 ,搜索 西雅图的计算机价格 的价 值 就不大。 信息 搜索 在互联网的使用中 会越来越重要。 把工程伦理学方面的知识用在 搜索 算法中会是前途无量的 , 如 Google+ 在搜索中也融入了 伦理学 的因素 ,把社交媒体信息整合 进 来 , 成为一个万能 搜索 引擎 。
(20 分钟写完 )