SERP API允许您从搜索引擎收集数据,无需遇到CAPTCHA或管理代理服务器。但市场上有很多选择,选择一个可靠的服务可能很困难。本页面将帮助您比较SERP API并选择最适合您需求的一个。
以下是我们的首选:
Oxylabs SERP Scraper API – 可扩展且功能丰富。
Bright Data的SERP API – 快速支持所有主要搜索引擎的API。
Smartproxy的SERP Scraping API – 功能强大,适合寻求价值的用户。
Rayobyte的Scraping Robot – 基本的谷歌SERP爬取的最便宜选择。
Zyte API – 快速的爬虫,具有高级无头爬取功能。
在当今的互联网中,企业使用多种方法从搜索引擎结果页面(简称SERP)中提取数据。
然而,搜索引擎已经采取了各种安全技术,防止恶意机器人抓取其页面。即使有人想在不违反任何法律的情况下提取数据,他们可能仍然会面临这些技术困难。
这引发了一个问题:获取大规模谷歌搜索结果的最佳方法是什么?为了找出答案,让我们先简要地了解一下几种不同的方法。
一些公司选择自己构建谷歌搜索爬虫。这是一个复杂的过程,但它可以帮助他们调整爬虫以适应他们的需求或目标。为了开发一个爬虫,工程师通常使用Python和Beautiful Soup,这是一个允许您从多种标记语言(包括HTML和XML)中提取信息的库。
不过,自定义爬虫需要不断维护,因为谷歌定期更改其SERP结构和整体算法。
另一种方法是使用第三方网页爬虫。通常,这些工具旨在提取不同类型的网络搜索数据,而不仅仅是谷歌SERP。除非使用带有高质量住宅代理的爬虫,否则可能会遇到IP封禁和CAPTCHA。
问题在于,主要提供商开始限制通过其代理网络对谷歌的访问,这将我们带到第三个选择:
SERP API是这个故事的英雄。它们基本上是针对搜索引擎量身定制的远程网络爬虫,并以API的形式打包。您发送带有一些参数(搜索查询、设备、位置)的请求,API会为您返回结果。这里最大的优势是软件提供商负责IP轮换、CAPTCHA、JavaScript渲染,甚至数据解析,确保您的请求100%成功。
谷歌提供了自定义搜索JSON API,允许软件开发人员向应用程序添加搜索框。作为该服务的一部分,您还可以获得谷歌搜索API,根据您喜欢的国家、语言和其他参数来检索SERP数据。
然而,谷歌搜索API的价格较高:虽然它允许您每天免费进行100次搜索查询,但每1000个请求额外收费5美元。更不用说,它每天限制为10,000个请求。
响应时间。 SERP API力求确保100%的数据传递。在最高负载期之外,它们通常能够做到这一点。但在这方面,这些工具可能会有显着差异(几倍或更多)。这取决于它们底层的网络爬取能力、代理基础设施等因素。
位置选项。通常,验证服务是否允许您定位到所需的国家就足够了。但如果您进行本地SEO,确保您可以选择特定的城市甚至坐标。
解析器质量和多样性。与通用的网络爬虫不同,SERP API不仅下载搜索页面,还将数据结构化以供进一步使用。大多数人认为有机搜索结果和付费结果足够了,但您可能会从其他搜索属性中获益。此外,API遵循不同的解析模式,其中一些可能比其他解析模式更好。
集成方法。 SERP API可以以几种方式集成:作为开放连接上的API,使用Webhooks或作为代理服务器。您应该考虑哪种格式最适合您。大规模操作通常更喜欢Webhooks,因为它们允许异步发送多个请求,节省资源。
输出格式。最常见的两种格式是原始HTML或解析后的JSON。也就是说,一些工具支持CSV输出,甚至直接将数据发送到谷歌表格。
价格。所有SERP API都使用相同的定价模式 – 他们对成功的请求收费 – 但价格可能大相径庭。便宜的服务价格较低,换取更少的功能和较差的性能。高级选项在一开始的时候卖得更多,随着您的规模扩大,差距逐渐缩小。
如果您已经决定选择一个谷歌搜索爬取的API,下面是四个强大工具的概述,帮助您选择最好的一个。
一个可扩展且功能丰富的选择。
Oxylabs是主要的代理提供商,拥有最大(并且通常表现最佳)的代理网络。其SERP Scraper API支持Google和其他主要搜索引擎。它收集和结构化所有网页搜索功能和许多其他谷歌属性,如购物。
SERP Scraper API可能是此列表中功能最完整的工具。它允许您以非常精细的级别针对任何位置、桌面和移动设备,通过webhook直接或批量检索数据。它还是唯一支持CSV输出的选项,即使它只涵盖有限的搜索类型(主要是谷歌网页搜索)。
在我们的测试中,SERP Scraper API非常快(平均响应时间为6.04秒),并且所有请求都顺利完成。此外,它的付费结果返回率最高 – 广告率为85%。
该服务没有测试配置的沙盒,但Oxylabs有详细的文档、熟练的客户服务,并且您可以下载一个Postman集合。
在价格方面,Oxylabs有低入门价格和企业选项,因此无论是个人用户还是大型企业,都是一个不错的选择。
成功率:100%
平均响应时间:6.04秒
广告率:85%
位置:195个,包括国家、城市和坐标定位
解析器种类:所有SERP功能、新闻、购物等
集成方法:类似代理,API(开放连接和webhook)
输出格式:原始HTML、解析后的JSON、CSV
价格:从49美元获得17,500个结果(每1,000个请求2.8美元)
支持所有主要搜索引擎的快速API。
Bright Data是最大的代理服务和数据采集提供商。其SERP API允许从大多数谷歌产品(包括搜索、图片、地图等)中获取结构化数据。它也可以爬取其他搜索引擎,如必应、雅虎和DuckDuckGo。
SERP API支持所有您期望的功能:国家和城市、浏览器和设备选择。文档偏向于类似代理的集成,但您也可以以API格式发送查询,并以批量接收数据。Bright Data提供一个交互式沙盒,大大简化了设置过程。
在性能方面,这是最快的搜索API。它以4.62秒完成请求,成功率为98.42%。然而,在广告率方面,Bright Data仅返回32%的付费结果。
Bright Data是一项昂贵的服务。虽然你可以按需付费,每1000个请求的费用为3美元,最便宜的计划从500美元起(每1000个请求2.25美元),但仍然价格较高。因此,可以说该服务适用于中大型公司。如果您从事小规模项目,可能不适合您。
成功率:98.42%
平均响应时间:4.62秒
广告率:32%
位置:195个,包括国家和城市定位
解析器种类:所有SERP功能、新闻、购物、地图、酒店等
集成方法:类似代理,API(webhook)
输出格式:原始HTML、解析后的JSON
价格:起价500美元(每1000个请求2.25美元)。按需付费每1000个请求3美元。
寻求价值的中级选择。
Smartproxy的SERP Scraping API在功能上与前两个选项相似。它允许定位国家和城市、选择浏览器、设备,并从各种谷歌属性获取解析后的数据。与Bright Data和Oxylabs一样,它还支持其他几个搜索引擎,如百度和必应。
唯一将Smartproxy的SERP Scraping API与高级竞争对手区分开来的功能是它不支持异步请求。换句话说,您将在开放连接上收集数据,无法批量搜索查询。除此之外,这项不错的服务几乎没有什么缺点:它在6.09秒内返回数据,并提供一个沙盒和精心设计的用户体验。
就价格而言,Smartproxy的计划有低入门价格。这使得它成为一个不错的选择,如果您绝对不需要通过API进行请求批处理,或者如果您正在寻找一个非常易于使用的工具。
成功率:100%
平均响应时间:6.09秒
位置:195个,包括国家、城市和坐标定位
解析器种类:所有SERP功能、新闻、购物、图片等
集成方法:类似代理,API(开放连接)
输出格式:原始HTML、解析后的JSON
价格:从50美元获得13,000个结果(每1000个请求3.85美元)
基本谷歌SERP爬取的最便宜选择。
Rayobyte的Scraping Robot专注于基本功能。它仅返回桌面结果,支持国家级定位,通过开放连接作为API集成,并仅解析网页搜索的主要内容(有机结果、付费结果、人们也在问、相关查询)。
Rayobyte允许指定设备类型、创建会话、传递cookie,并模拟浏览器操作,如滚动。您每分钟可以进行100次请求;如果您需要更多,请联系支持团队。
价格从每个请求0.0018美元开始。没有月度承诺 – 您只需购买所需的请求数量。更重要的是,您购买的积分永不过期,并且有一个每月5000个结果的免费计划。一个巨大的优势是,与市场上的其他选择不同,Rayobyte不会为JavaScript渲染和高级代理收费。
因此,如果您不介意一些限制,Scraping Robot可以帮助您以低于我们列表中任何其他替代方案的价格完成小型到中型项目。
成功率:100%
平均响应时间:6.53秒
位置:100多个国家
解析器种类:主要网页搜索功能
集成方法:API(开放连接)
输出格式:原始HTML、解析后的JSON
价格:从每个请求0.0018美元开始,没有月度承诺
带有高级无痕爬取功能的快速爬虫。
Zyte提供了一个非常快速的网络爬取API,并带有先进的代理管理功能。它作为API通过开放连接或库/SDK集成。
Zyte API会根据URL自动选择适当的代理类型和位置(您还可以手动选择19个位置)。它允许您传递cookie、填写表单和爬取JavaScript相关的网站。但它不包含内置解析器。
在无头爬取方面,Zyte迈出了一步。其TypeScript API允许企业客户在云开发环境中编写脚本浏览器操作,如悬停在元素上或输入单个符号。
在我们的测试中,Zyte的API返回了99.47%的原始HTML结果,并且比大多数竞争对手更快,平均响应时间为4.72秒。但是,爬虫在返回付费结果时遇到了问题 – 广告率只有31%。
Zyte没有固定费率 – 价格取决于网站的难度和您选择的功能。但有一个仪表板工具用于估算请求费用。因此,如果您不需要JavaScript渲染等功能,它是一种具有成本效益的爬虫。
成功率:99.47%
平均响应时间:4.72秒
广告率:31%
位置:19个
解析器种类:无
集成方法:API(开放连接)和库/SDK
输出格式:原始HTML
价格:定制化
在大规模采集谷歌搜索结果时,另一种方法是使用网络爬虫。让我们简单地介绍两种流行的网络爬虫 – Octoparse和ScrapeBox。
Octoparse是一种以其易于导航的用户界面而闻名的网络爬虫软件。它提供免费计划,限制用户每次导出的记录数为10,000条。由于免费计划不提供任何高级功能,它更适合小规模项目。
Octoparse还为中型公司和企业提供计划。这些计划的费用为75-250美元,并提供无限的数据导出功能、自动IP轮换、计划结果提取等额外功能。
许多人赞赏Octoparse的易用性,并且它不需要任何编码技能。另一方面,只有其高级计划包括优先支持。因此,如果您使用的是标准或免费计划,解决问题可能需要相当长的时间。此外,Octoparse不能保证100%的数据传送成功,可能会导致请求错误。
ScrapeBox是一种面向SEO专家和代理公司的全能网络爬虫,每月价格为97美元。它提供各种服务,帮助您确保所有SEO基础都覆盖到:关键字和元数据爬取器、反向链接检查器、搜索引擎收割机等等。
虽然ScrapeBox主要专注于SEO,但它允许您获取各种网络数据:电子邮件、电话号码或评论等。它还提供其他服务,如自动发布信息到网站联系表单的“联系表单提交器”;或为帐户或博客评论创建虚假名称的“名称和电子邮件生成器”。
ScrapeBox是一种功能强大、混淆的搜索引擎优化工具;然而,它的界面不是最易于使用的。您可能需要一些技术指导来熟悉它。此外,该服务不保证100%的数据传送成功,这意味着您可能会收到无效的请求。
正如您所看到的,网络爬虫往往存在这样的趋势:它们可能无法以100%的成功率返回谷歌。要获得成功的响应,您将不得不处理这些问题,需要一些技术知识或客户支持的帮助。
如果您决定选择网络爬虫来获取谷歌搜索结果,请确保使用高质量的住宅代理;否则,您将遇到各种技术问题。如果谷歌判断您经常检查排名或跟踪特定关键字,它可能会永久封禁您的IP地址或让您面对验证码测试。
然而,如果您使用住宅代理,供应商会确保IP地址定期更换。这样,您可以控制会话,避免验证码并避免IP封禁。为了找到高质量的住宅代理提供商,请确保他们的代理拥有高的正常运行时间,并从合法来源进行采集。我们已经列出了最佳住宅代理的列表,以帮助您。
验证码是网络爬虫的最大难题之一。为了确认访问者是人类,网站要求他们完成各种测试,例如选择所有显示船只的图片。这些图片通常模糊且质量低,几乎不可能让机器人完成测试。处理验证码的最佳方法是在首次访问时避免它:即不要爬取整个网站、轮换代理或尝试模仿自然的人类行为。然而,并非所有的验证码都能避免,因此您应该使用专门的验证码解决服务或处理它们的网络爬虫工具。
本文转载自-