云采集排错:八爪鱼教程

作者:落知秋 | 创建时间: 2023-04-22
本教程针对本地采集有数据,云采集没有数据的排错教程,如果本地采集没有数据,请先参考本地采集排错教程...
云采集排错:八爪鱼教程

操作方法

本地采集有数据,云采集没有数据主要原因为以下三点: 1.云服务器IP被所采集网站封禁 2.Cookie访问限制 3.网站或网速原因 一、云服务器IP被封锁 以天猫为例: 本地采集时正常,如图 1 天猫本地采集

此时我们可以很直观的看到,本地采集的网页网址是正常的列表信息网址,如红框图 2 天猫列表信息网址

然后我们将任务启动云采集,会发现任务完成后,并没有采集到任何数据,如图 3

此时我们把任务复制出来,删除其他操作步骤,仅留打开网页,然后在打开网页处增加一个提取数据,添加三个固定字段,云采集,如图4 提取三个固定字段

启动云采集后,我们看到云采集截图如下:

再对比下本地采集时采集的结果,如图:

如果一致,则节点正常,如果不一致,如图所示:

如图红线部分,明明采集的是天猫,云节点打开后网址是login.tmall.com,云节点上要求登陆了,因为我们可以判断出云服务器IP被所采集的网站封禁了 小贴士 如果发现打开网页没有问题,我们可以验证下其他步骤,例如下一步是循环下一页,则我们可以提取下循环的Inner HTML(或Outer HTML),把循环的XPATH单独拿出来,做提取数据,然后提取方式选择Inner HTML,如图:

如果下一页正常加载,云采集数据如此,如图红线处:

小贴士 至此,云采集IP被封禁排错原理已经讲完,具体是那个操作出现了问题,可以按上面的步骤多次提取排查,如果提取正常,那么整个流程就会正常执行,如果提取不到数据,就说明该步骤有问题,网页打开和本地采集做流程时不一致 二、Cookie访问限制 Cookie访问限制一样,可以按云采集IP封禁进行排错,如果发现云采集采集下来的网址URL含有“login”等登陆信息,如图10:

具体如何采集页面网址URL,见第一大类(一、云服务器IP被封锁)详细操作,如果发现需要登陆,有以下两种解决方案: A.将登陆做进流程设计 B.Cookie登陆 C.登陆的全部教程地址 三、网站或网速原因 知识补充 如果一点网站未完全打开,则显示如图11红线处:

如上图,我们可以明显看到,网站网页URL明显有红框处在转的图标: 一个完全打开的网站,应该如图所示:

有时候一个网页,即便完全打开了,列表数据也要延迟几秒才能加载出来,如图所示:

如图红框1,网页已经处于完全打开状态,但是红框2的列表数据还没有加载出来,在八爪鱼中,如果一个操作已经完全执行完成(例如:网页完全打开),那么它会立即执行下一个操作步骤,但此时如图红框2,列表数据没有加载出来,所以执行失败,云采集没有数据 解决措施:碰到这种因网速原因或者网站本身原因,导致数据加载过慢时,我们只需要做以下操作,如图14:

以上的设置适用于流程设计步骤高级选项中含有执行前等待的所有操作,设置完成后,只要满足“执行前等待”、“出现元素”中的任一条件就可以向下执行,通过这样的设置,我们可以避免数据加载过慢或者网站完全打开后列表数据还未加载的情况 总结:以上就是我们云采集通用排错教程,仔细阅读并理解其原理能够帮我们更好的采集互联网公开数据

点击展开全文

更多推荐