探索和研究

空白纸张测试(BSoPT)、自然语言处理(NLP)和SEO

  作者:Yeats    

如果你递给某人一张空白的纸,上面只写着标题,他们能理解标题是什么意思吗?他们可以了解这份文件到底是关于什么吗?如果可以的话,那么恭喜你!您刚刚通过了页面标题的空白纸张测试,因为您的标题是描述性的。

多年来,Ian Lurie一直在他的新网站上谈论空白纸张测试(BSoPT)。这个测试是看你写的东西对以前从未接触过你的品牌或内容的人来说是否可以理解。用伊恩的话说,“写在一张空白纸上的这个标题陌生人能理解吗?”空白纸测试是没有上下文时,文章标题的清晰度。

但是,如果我们在机器上执行BSoPT而不是在人身上呢?我们的思维实验仍然适用吗?我想是的。机器无法做到阅读——即使是像谷歌和必应这样复杂的机器。它们只能揣测我们内容的含义,这使得测试与之特别有关联性。

但对于机器来说:如果机器只能看到文档中出现的单词列表以及出现的频率,它能合理地猜出文档是讲什么的吗?

单词频率的空白纸张测试

如果你递给某人一张空白纸,上面唯一写着的就是单词和单词频率,他们能猜到这篇文章是关于什么的吗?

一篇关于磨刀的文章是很好猜测的。这个单词频率表的原文来自一本磨菜刀的操作指南。

如果“步骤(step)”和“如何(how)”这两个词出现在表上呢?人们还会不会觉得这篇文章是关于磨刀的呢?他们能分辨出这篇文章是关于磨菜刀还是磨袖珍小刀的吗?

如果我们不能根据文章使用的单词猜出文章的内容,那么它就没有达到BSoPt的单词频率标准。

我们还能在BERT中使用单词频率吗?

搜索引擎使用的早期自然语言处理(NLP)方法使用单词频率和单词并发的统计分析来确定页面的内容。他们忽视了我们内容中单词的顺序和词性,仅仅是把我们的页面当成储备文字的工具。

我们用来优化这种NLP的工具将我们的内容与竞争对手的单词使用频率进行了比较,并告诉我们单词使用的差距在哪里。假设我们将这些单词添加到内容中,我们的页面会排名更高,至少能让搜索引擎更好地了解我们的内容。

这些工具仍然存在:MarketMuse、SEMRush、seobility、Ryte等以及其它一些具有词汇频率或TD-IDF差距分析能力的工具。我一直在使用一个名为在线文本比较器的免费单词频率检测工具,它运行得很好。既然搜索引擎已经通过BERT等NLP方法取得了进步,那它们还有用吗?我想是有的,但这不像多谢单词就能获得更好的排名那么简单。

BERT比“词袋”方法复杂得多。BERT查看我们内容中的单词顺序、词性以及任何出现的单词实体。它很强大,可以训练去做很多事情,包括回答问题和命名实体识别——肯定比基本单词频率更先进。

然而,BERT仍然需要查看页面上的单词才能发挥作用,单词频率只是对此的基本总结。现在,单词位置和词性更重要。我们不能只是把我们在差距分析中找到的单词随意排布在页面上。

使用词频工具润色内容

为了让我们的内容对机器来说不存在歧义,我们首先需要使它对用户没有歧义。减少我们写作中的歧义就是选择特定于我们所写主题的单词。如果我们的写作使用了很多通用动词、代词和非主题形容词,那么我们的内容不仅乏味,而且很难理解。

考虑以下非特定语言的极端例子:

“找到一把合适的厨师刀的诀窍是在刀的功能、质量和价格之间找到平衡。它应该由足够坚固的金属制成以保持边缘长久耐用。还得有一个舒适的手柄,不会让人在用它时很累。也不需要花很多钱。在家做饭不需要一把350美元的昂贵的日本刀。”

这段文字不是很好。看起来就像机器生成的文字。我无法想象像这样写的一篇完整文章会通过BSoPT的单词频率标准。

以下是去掉一些停顿词(stop words)后单词频率表的样子:

现在假设我们在一些“如何挑选厨师刀”排名靠前的页面上使用了单词频率工具,并发现这些词性被使用得相当频繁:

实体:刀片、钢、金属疲劳、大马士革钢、三德(santoku)、旬(Shun)
动词
:握持、切碎
形容词
:完美的、坚硬的、高碳的

将这些单词整合到我们的文本将使文本明显更好:

“找到完美厨师刀的诀窍是平衡功能、质量和价格。刀片应由足够坚硬的钢制成,以便在重复使用后仍然保持刀刃边缘的锋利。您应该有一个符合人体工程学的刀柄以便舒适地握持,防止长期切割后的金属疲劳。你也不需要花很多钱。在家做饭不需要从Shun买的价值350美元的三德牌高碳大马士革钢刀。”

这种升级后的文本将更容易让机器进行分类,用户也更容易阅读。使用与主题相关的单词也是很好的写作方式。

展望NLP的未来

可以使用Blank Sheet of Paper Test优化BERT或其他NLP算法来改进我们的内容吗?不,我不这么认为。我不认为我们可以在内容中添加一组特殊的单词,从而通过利用BERT来神奇地获得更高的排名。我只是觉得这是确保用户和机器都能清楚理解我们内容的一种方式。

也许10年后,为用户写作和为机器写作会是一样的事,因为这项技术已经取得了很大的进步。但即便如此,我们仍然必须确保我们的内容有意义。空白纸张测试仍将是一个很好的起点。