我们有数学来真正解码谷歌的算法吗？

我们有数学来真正解码谷歌的算法吗？已关闭评论

A+

最近，在距离洛杉矶市中心40英里的圣弗朗西斯大坝灾难遗址附近徒步旅行时，我们和我的考古学家朋友约翰讨论了它的建造者的污点生活和“绅士科学家”的时代
圣弗朗西斯大坝建于1924年至1926年之间，为加利福尼亚州洛杉矶市建造了一座大型水库，由现在的水电局（Department of Water Works and Supply）建造。该部门由总经理兼总工程师威廉·穆霍兰德领导。如果你看过经典电影《唐人街》，威廉·穆霍兰在洛杉矶历史上是如此重要，他们不得不把他分成两个角色。
虽然他在自己的时代是一个传奇人物，但以今天的标准来看，穆霍兰并不是一个土木工程师。他早年是水务局的“水沟招标人”，自学成才。经过一天的艰苦工作，穆霍兰会学习数学、工程、水力学和地质学方面的教科书。这个起源故事是“绅士科学家”角色的基础——吞并一个主题上的所有材料，然后声称一种理解，允许他们监督一项大规模的事业，尽管有任何形式的测试或认证。
如果我出现在美国宇航局，说我有资格把人类送上火星，因为我读了很多关于太空旅行的书籍，小时候曾做过火箭模型，他们会把我扔下这片土地。在马尔霍兰的时代，这意味着晋升为部门主管。
穆霍兰是洛杉矶历史上不可或缺的一部分。尽管他早期的许多努力确实改变了洛杉矶的景观（他负责洛杉矶引水渠的设计和施工，为该县大部分地区供水），但他缺乏现代土木工程，导致了“20世纪美国最严重的土木工程灾难之一，根据凯瑟琳·穆霍兰德在她的祖父威廉·穆霍兰德传记中的描述。
就在1928年3月12日午夜前几分钟，大坝发生了灾难性的溃决，由此引发的洪水造成至少431人死亡，但一些报道称高达1000人。即使人数较少，圣弗朗西斯大坝的倒塌仍然是加州历史上第二大生命损失。只有1906年旧金山地震和火灾造成更多人死亡。
那天和朋友的讨论让我想起了搜索引擎优化业务和它收集的“绅士科学家”
我们的同事们不是在筑坝，而是试图对谷歌等搜索引擎的复杂算法进行逆向工程，利用错误的统计实践来设计以劣质科学为后盾的搜索引擎优化策略。

长期的不良科学史

几十年来，大量的搜索引擎优化专家声称通过一些非常可疑的实践“测试”了关于谷歌算法的不同理论。一开始，这些测试通常包括一个自称SEO的疯狂科学家改变一个网页的一个方面，然后等待下一个Google舞蹈，看看他们的网站是否在搜索引擎的索引中领先。如果成功了，他们会在论坛或网站上发布一篇关于结果的帖子。如果这张海报足够受欢迎，搜索引擎优化社区会复制他们的新“黑客攻击”，直到雅虎、谷歌或其他早期搜索引擎告诉他们停止或找出如何阻止它在他们的算法中发生。
早期的SEO传奇就是从这种活动中诞生的。
最终，像Moz、Ahrefs和SEMrush这样的公司找到了复制Google索引的方法，这些“测试”或“研究”由于可以访问更大的数据集而变得更加合法。谷歌偶尔会用经典而恰当的回答“相关性不等于因果关系”来关闭这些理论；然而，这些错误的声明大多打着“信任但验证”的旗号继续存在
我在这个问题上的长期立场来自于这样一个事实：谷歌的多种算法考虑了数百个数据点来创建一个由数十亿个网页组成的万维网索引。有了如此复杂的东西，大多数搜索引擎优化专业人士是否有资格利用我们有限的统计知识“测试”谷歌，
除了极少数的例外，我相信这篇文章一发表，大多数从事SEO的人都是新手统计学家，他们最多上过典型的课程，而且比大多数人都保留了更多。一些同事对统计学的理解略为深入，但他们仍然不是统计学家或数学家，而是在研究其他科学时获得了数学能力，习惯于使用不太复杂的数据。在大多数情况下，他们使用的统计系统用于分析调查或媒体购买预测。它们不是针对搜索引擎算法中的大型复杂系统及其组织的信息。

我们对统计的基本了解可能还不够

我将是第一个承认我不是数学家或统计学家的人。我在学校里努力学习数学，只够完成我的本科学位，直到研究生毕业，我才对这一切感到舒服。即便如此，大多数人在攻读MBA的时候，在标准的商业统计课上也是如此。
就在我与实际的知识产权律师合作撰写关于谷歌特色片段合法性的文章时，我找到了一位真正的统计员。最重要的是，我需要一个不在搜索引擎优化领域工作的人来避免任何观察者的偏见，也就是说，有人会下意识地将他们的期望投射到研究上。
我找到了统计学家詹·胡德。珍在弗吉尼亚州的布里奇沃特学院学习数学和经济学，在15年的大部分时间里，她一直是一名统计学家。她是沃尔沃的数据分析师。自2019年以来，她一直在她的公司Avant analytics担任分析顾问，主要帮助那些通常没有内部分析师的小企业。
在我们的第一次讨论中，我们谈到了SEO的大部分研究是如何依赖于统计相关性的概念的。统计相关性显示了变量对（比如网页的某些方面以及该页面在谷歌搜索引擎结果页面中的位置）是否相关，以及关联程度有多强。
“绝大多数的统计工作，甚至是预测未来，都是围绕着测量相关性展开的，”詹谨慎地说。“然而，因果关系是难以证明的。”因果关系是导致某事发生的行为，也就是说，事物以其方式运行的真正原因。
“在不知道这些公司是如何创建指标的情况下，我怀疑存在大量的确认偏差，”Jen继续说道。当执行分析的人想要证明一个预先确定的假设时，就会出现确认偏差。他们没有做实际工作来确认假设，而是让数据拟合，直到这个假设被证明。
为了让Jen更好地了解这些公司是如何产生数据的，我分享了过去几年中一些比较流行的搜索引擎优化研究。在这些研究中发表的一些声明多年来已经被谷歌多次驳倒，其他的仍然在Twitter、Reddit和Quora上徘徊，每天都在讨论。
“在这些搜索引擎优化文章中，经常会出现确认偏差错误，”Jen马上说道。“这在任何有人告诉你如何获得优势的话题中都很常见。”
首先，Jen回顾了Rob Ousbey在2019年Mozcon上提交的一份研究报告，当时他在SEO测试平台上为Districted（他目前为Moz工作）工作，当时他被称为Districted ODN，现在是SearchPilot的衍生产品。在当天提出的各种理论中，有一种说法是，搜索引擎结果页面第一页上的结果更多地是由与这些页面的接触而不是链接驱动的。珍立刻变得怀疑起来。
Jen在审阅完报告后写道：“根据现有的信息，很难说Rob关于结果第一页的理论是由参与驱动的，而后续结果是由链接驱动的，这很难说是否准确。”。“这种认为主要是链接（推动第2页的搜索结果）的想法似乎有点奇怪，因为排名中有太多因素。”
最简单的测试方法是：如果你能在第一页，特别是页面的顶端排名，而不是事先有任何约定，那么参与度很可能是由位置决定的，而不是相反
我联系到了redirected的创始人兼首席执行官willcritchlow。他还提供了另一项由Rob Ousbey的前同事Tom Capper进行的研究，该研究对Rob在2019年提交的材料进行了更深入的研究。“Tom从几个不同的角度对此进行了探讨，但简短的回答是否定的，这不仅仅是因为排名靠前的结果获得了更多的互动，因为他们是顶尖的结果。”
“（汤姆的研究提供了）各种不同的证据，”威尔接着说，“一个是链接与相对排名的相关性比第一页低（尤其是对于大容量关键字而言）。”
“其他证据包括当一个查询从一个相对较小的搜索词组变成一个词头词（例如，非常尖头的音量）”时，Will说，他提到了对搜索词“母亲节鲜花”的分析
Jen在回顾了新的信息后写道：“这会变得越来越有趣。”。“这一新的[数据]得到了实际的相关值，但在一个完全不同且大大的小样本上，集中在英国的数据上——两个月内只有4900个查询。”

在我们继续之前，重要的是要了解相关性研究是如何工作的。
有多种方法来衡量两个因素之间的关系或相关性。不管使用哪种英文新闻稿服务方法，从这些计算返回的数字都在-1和1之间。相关系数为-1意味着一个因素上升，另一个因素每次下降。相关系数为1意味着一个因素上升，另一个因素每次上升。相关性为零意味着没有关系-没有可预测的线性模式，上/下、上/上、下/上或其他。
“大多数相关系数（结果）并不接近1或-1，”Jen澄清道。“任何在+/-1的值意味着100%的变化都是由你所比较的因素来解释的。也就是说，您可以始终使用第一个因素来预测第二个因素的作用。”
虽然没有规则可以说相关性是strong，弱，或者介于两者之间，但有一些公认的阈值，Jen这样描述。“请记住，对于容易计数的因素，例如一个网页的链接数和该网页在谷歌上的排名，我们可以得到+/-的值，高相关性为0.7-1.0，中等相关性为0.3-0.7，弱相关性为0-0.3。”
“有人可以挑战这些精确的分组，”詹承认，“尽管我犯了一个错误，那就是对相关性的慷慨。”
我们回到书房。“Tom的幻灯片主要参考了2017年2月他所做的关于谷歌是否还需要链接的演讲。Moz的一项研究也提到了，在这一点上，已经有五年的历史了。”（Jen在这里停下来说，“顺便说一句，我发现有趣的是，每个人似乎都承认算法经历了重大的变化，但他们引用的是两、三年或更多年前的研究。”）
“在这篇文章中，[Tom]着眼于域权限和排名之间的关系，”指的是Moz度量，它是工具入站链接报告的基石。“他给出了一个网页的Google排名与域名权限的相关性，从1到5位为0.001，6到10位为0.011。”
“这意味着域名权威与搜索引擎排名6到10之间的关联度更高，但这两个结果的相关性都很弱，”Jen停顿了一下，确保我能理解。
“简单地说，对于谷歌搜索结果中的第1到第5位，域名权威可以用来解释SERP排名中0.1%的差异。对于第6位到第10位，这解释了SERP排名中1.1%的差异，“这说明了她的观点。
“这被认为是一个证据，表明领域权威对高层职位并不重要。然而，两者的相关性极低，几乎毫无意义，”詹对这一发现兴奋地说。同时，我考虑有多少域名和链接是购买和出售使用这个指标。“在其他地方，他提到0.023和0.07作为域名权威和排名前10位的相关系数，这与他之前的数值都较低没有意义。”
Jen给出了一个完整的解释，“既然这是公司提供的备份细节，更注重技术，那么认为你给我的原始研究中的相关性是相似的，这似乎是一个合理的飞跃。”也就是说，虽然我们没有Rob Ousbey最初陈述的数字，它们之间的相关性很可能也很弱。
“母亲节的研究是非常有趣的，”珍继续说，“结果很有趣，并提出了这样的问题，这可能对其他搜索词有什么影响。然而，这是一个搜索词研究了一个月。这项研究的内容远远不够，无法从中得出普遍意义。”
詹宣称：“对推销有利，对统计研究不利。”。“与此同时，我还没有看到任何证据表明，他们如何证明，最优秀的成绩没有得到更多的互动，因为他们是最高的结果。”
“在其他幻灯片上有许多例子来支持这种说法，但没有广泛的研究。”Jen提到了Rob最初的演讲中由Larry Kim、Brian Dean和Searchmetrics提供的一些其他研究。
“（拉里•金（Larry Kim）关于点击率对排名影响的研究]表明，点击率越低，排名越低。然而，排名靠后可能会导致点击率下降，”Jen说，这说明了这类数据的一个常见悖论。“我完全希望页面排名和点击率之间有很高的相关性，因为更多的人有机会参与进来。”
“跳出率会影响搜索位置吗，反之亦然，”Jen问道，接着又看了另一张幻灯片，该幻灯片引用了Backlinko的Brian Dean的一项研究，该研究声称跳出率指标会影响搜索结果的位置。“我发现有趣的是，如果你真的去看原始数据，故事似乎会有所不同。”
Jen提到了最初的Backlinko研究，Rob演讲中使用的图表来源于此，该研究指出，“请记住，我们并不是说做外贸怎么推广低跳出率会导致更高的排名。谷歌可能会用跳出率作为排名信号（尽管他们之前否认过）。也可能是因为高质量的内容让人们更加投入。因此，较低的跳出率是高质量内容的副产品，这是谷歌衡量的。”
声明的结论是，“由于这是一项相关性研究，单凭我们的数据是不可能确定的”，从而证明了Jen的观点，即发表这些研究是多么不恰当。
Jen强烈地总结道，“使用这个图表是有意误导的。”
“（这些研究）只是着眼于一个因素。有了多个算法，必须有多个因素共同作用。每个人都必须有单独的评分，这些评分被加权到特定算法的总分中，并且很可能在他们使用的聚合算法中再次加权，谷歌的加里·伊利耶斯（Gary Illyes）和约翰·穆勒（John Mueller）不止一次在各种会议上和Twitter上说过的话，以及本出版物的戴夫·戴维斯（Dave Davies）最近讨论过的一些事情。
由于这种公认的复杂性，一些搜索引擎优化研究已经完全放弃了相关方法，转而采用基于机器学习的算法，如随机森林。SEMrush在2017年的一项调查中使用了一种技术来提出谷歌排名靠前的因素，比如页面流量和内容长度。“这是一个很好的方法来预测可能会发生什么，”Jen在回顾了SEMrush的研究及其方法论的解释后写道，“但它仍然没有显示出因果关系。它只是说明哪些因素更能预测排名。”

本文所述研究有限且未经验证

大多数关于搜索引擎的研究不是来自于独立的来源或教育机构，而是来自于销售帮助你搜索引擎优化工具的公司。
一家公司的这种活动在伦理上等同于佳得乐，通过引用佳得乐旗下的研究实验室佳得乐体育科学研究所（Gatorade Sports Science Institute）所做的一项研究，证明了佳得乐是运动员最好的补水方式。
当我向Jen Hood提到她回顾的研究中有多少产生了新的指导性指标或全新的产品时，她很惊讶有人认真对待这些指标或产品。
“任何声称他们有一个模仿谷歌的指标的人都声称他们已经建立了许多因果关系，从而在谷歌上获得了特定的排名，”Jen在提到Moz的域名权威时写道。“这意味着他们的指标与实际结果一致。如果我今天创建了一个全新的网站或一个全新的页面，并且做了他们说的重要因素，我应该会得到一个最高排名。可能排名不高。如果真的与算法匹配，那么结果应该总是会出现的。”
Jen提供了一个假设的例子：
“假设我提供了一项服务，根据我在该服务中包含的指标，我将告诉您您的网页在给定搜索词中的确切排名。我有一个计算这个指标的公式，所以我可以为许多不同的网站。如果我能准确地告诉你，根据我的公式0.1%的时间，你会不会觉得我的公式已经计算出了谷歌算法，如果我把这个比例提高到1.1%，你现在会感到自信吗？”
“所有这些研究（和产品）似乎都在做这些，”Jen解释道。“用足够的统计术语和细节掩饰自己，让它看起来更有意义。”

***

正如Jen在前面提到的，大多数关于Google结果的研究使用的数据数量有限，但声称具有统计意义；然而，鉴于他们所研究的东西的性质，他们对这个概念的理解是有缺陷的。
“兰德说，他估计Jumpshot的数据约占美国移动和桌面互联网浏览设备总数的2-6%，即具有统计意义的样本量。”Jen指的是SparkToro’sRand Fishkin 2019年的一项研究，该研究声称，谷歌搜索结果中不到一半的结果是点击。“如果跳投数据是对所有谷歌搜索的真实随机和代表性抽样，那么兰德关于统计显著性的说法是正确的。”
“据我所知，[Jumpshot]从使用Avast antivirus的用户那里收集了他们的所有数据，”指的是现已关闭的服务的母公司。“这组用户及其数据可能与所有谷歌用户不同。这意味着所提供的样本跳转不是随机的，而且可能不够具有代表性——这是一种典型的抽样误差，通常被称为可用性偏差。”