我们在使用蓝天采集器采集内容的时候会遇到一些加载在别的页面上的信息;但是呢有一些内容呢又需要在内容里面关联获取到这个时候呢我们就需要加上关联页。

何为关联页呢:比如从内容页面获取到ID;但是没有相关的url链接,这个时候呢我们就需要把采集到的ID和相关联的链接进行组合为一个内容链接,这个就是关联页。

我们采集这个新浪体育的评论;

https://sports.sina.com.cn/basketball/nba/2020-09-26/doc-iivhuipp6514843.shtml

我们的内容直接在页面上可以采集到,但是评论确不在页面上,这种情况就需要我们用关联页来进行采集。

内容

操作教程如下:直接F12查看源代码;查找我们需要采集的的内容;如上图所示是我们的内容所在区域,通过这里的开头和结尾标签就可以直接把内容采集到。接下来我们就需要找评论链接了。

评论链接

源代码里面是没有我们的评论链接的直接点击页面查看所有评论;

http://comment5.news.sina.com.cn/comment/skin/default.html?channel=ty&newsid=comos-ivhuipp6514843&group=0

以上的链接就是我们评论的链接,但是我们查看源代码的时候发现页面上没有需要的内容说明它是ajx传输的,直接F12刷新。

评论内容

我们刷新看到内容已经出来了;链接为:

http://comment5.news.sina.com.cn/page/info?format=json&channel=ty&newsid=comos-ivhuipp6514843

到这里的我们的评论就已经找到了接下来就是在采集器里面添加规则了;

comos-ivhuipp6514843 复制这个ID在内容页面搜索即可找到;

id

添加关联页

添加好了记得保存点击测试一下;

关联页测试;

关联页测试成功说明我们的规则是对了的,接下来就是写内容字段了。

相关文章