Semalt分享了一种从网站提取信息的简便方法

Web爬网是一种从网站获取内容的流行方法。经过特殊编程的算法出现在网站的主页上,并开始跟踪所有内部链接,组装您指定的div的内部。结果-准备好的CSV文件包含严格按顺序排列的所有必要信息。生成的CSV可以用于将来创建几乎唯一的内容。通常,作为表格,此类数据非常有价值。想象一下,一个建筑店的整个产品清单都显示在一个表格中。而且,对于每种产品,对于每种类型和产品品牌,都填充了所有领域和特征。任何为在线商店工作的撰稿人都会很高兴拥有这样的CSV文件。

有很多工具可用于从网站或Web抓取中提取数据,如果您对任何编程语言都不熟悉,请不要担心,在本文中,我将展示一种最简单的方法-使用Scrapinghub。

首先,访问scrapinghub.com,注册并登录。

关于您的组织的下一步可以跳过。

然后,您进入个人资料。您需要创建一个项目。

在这里,您需要选择一种算法(我们将使用算法“ Portia”)并为项目命名。让我们称其为不寻常。例如“ 111”。

现在,我们进入算法的工作空间,您需要在其中键入要从中提取数据的网站的URL。然后点击“新蜘蛛”。

我们将转到该页面作为示例。地址在标题中更新。单击“对此页面添加注释”。

向右移动鼠标光标,将显示菜单。在这里,我们对“提取的项目”选项卡感兴趣,您需要在其中单击“编辑项目”。

但是,将显示我们字段的空列表。点击“ +字段”。

这里的一切都很简单:您需要创建一个字段列表。对于每个项目,您需要输入一个名称(在本例中为标题和内容),指定此字段是否为必填项(“ Required”)和是否可以更改(“ Vary”)。如果您指定一个项目为“必需”,则该算法将仅跳过无法填充该字段的页面。如果未标记,该过程将永远持续下去。

现在,只需单击我们需要的字段并指出它是什么:

做完了吗然后在网站标题中单击“保存样本”。之后,您可以返回工作空间。现在该算法知道如何获取某些东西,我们需要为其设置一个任务。为此,请单击“发布更改”。

转到任务板,单击“运行蜘蛛”。选择网站,优先级,然后单击“运行”。

好吧,现在正在抓取。通过将光标指向已发送的请求数来显示其速度:

以CSV格式准备字符串的速度-通过指向另一个数字。

要查看已制成物品的列表,只需单击此编号。您将看到类似的内容:

完成后,可以通过单击以下按钮保存结果:

而已!现在,您无需编程即可从网站提取信息。