搜索引擎在文本中搜索停用词的方法
每天都有大量页面进入搜索引擎数据库。为了节省空间,搜索引擎不考虑某些单词、数字、单个代词和某些字母。它们被特别标记,机器人“不会注意到”它们。
使用关键字搜索信息会显着增加停用词列表。出现了一个新术语“噪音”,并被程序员引入使用。
“文本中的停用词”对搜索算法意味着什么?
干扰词(与停用词相同)是指与文本的其余部分隔离时没有任何意义的词(象征、符号)。搜索引擎在对网站进行索引或排名的过程中“看不到”它们。然而,如果没有它们,文本就会失去完整性和可读性。
没有停用词的内容将是不 白俄罗斯电报数据库 完整的;读者和搜索引擎都无法正确感知它。文本中的停用词可以有机地填充关键短语,使用介词和标点符号来组合彼此不一致的单词。
有关此主题的推荐文章:
内部网站优化:分步分析
检查robots.txt:常见错误及其消除
从 http 重定向到 https:提高站点安全性
每个搜索引擎(例如 Yandex 或 Google)都会编译自己的干扰词列表,并不断更新。不可能将它们全部列出。
但您可以注意到,所有停用词分为两大类:一般词和从属词。
一般:连词、代词、助词、介词、副词、介绍词、个位数。此外还有常用虚词、符号、标点符号、独立词性。不久前,这个列表包括了互联网上经常遇到的字符集,例如 www、http、com。
Dependents:关键字查询定义为次要含义的单词。
属于第二类的文本中的停用词取决于输入搜索引擎的短语。要点是,在找到的文档中,普通单词和相关停用词(来自查询短语)的缺失会被不同地考虑。
如果您在搜索引擎中输入“Lev Nikolaevich Tolstoy”,那么用户很可能会对包含以下内容的文档感兴趣:
托尔斯泰、列夫、尼古拉耶维奇;
列夫·托尔斯泰;
尼古拉耶维奇,托尔斯泰;
托尔斯泰。
显示只有以下内容的页面是没有意义的:
列夫,尼古拉耶维奇;
狮子;
尼古拉耶维奇。
此查询中的干扰词是 Lev 和 Nikolaevich。
在索引过程中,搜索机器人会从文本和关键短语中删除上述干扰词(当确定文档是否适合给定请求时)。该程序将特殊字符(所谓的标记)放置在它们的位置。
此过程减少了服务器上的负载,减小了索引的大小,并允许智能地使用数据库空间。查询文本中的停用词也被删除,以减少关键短语每个组成部分的搜索操作数量。这反过来又提高了搜索必要数据的速度和效率,并允许您保持请求的相关性。
文字中用于SEO推广的词语
SEO推广的停用词
一个有趣且重要的一点是停用词如何影响 SEO 文本。创建内容时,以下因素非常重要:
读者对文本的看法是什么?
搜索引擎机器人将如何查看文本。
仅由带有语义负载的单词组成的文本是不可读的。人们很难接受他。
文本中过多的停用词、噪音离题和不必要的短语使其不适合搜索引擎的有效感知。
SEO推广的目标是在信息内容和可读性方面平衡上下文。
这项任务并不容易,因为同一篇文章对不同的用户感兴趣。有些人非常熟悉“困境”这个词,并且可以自由地使用它,但对于另一个人来说,这是一个难以理解的、可怕的术语。有些人很容易察觉文章中的“内容”和“登陆”这两个词,而另一些人如果不写得更简单的话就不会理解:“页面内容”和“单页网站”。
因此,互联网上的所有内容都分为几类:销售类、信息类、娱乐类等。对于每个类别,文本中使用停用词的规则并不相同。作者有责任决定哪些单词或短语是必要的以及哪些应该被视为噪音(“额外的垃圾”)。