蓝天采集器文章分页采集示例教程-小浣熊cms模板_漫城cms模板

有些文章内容太长会采用分页模式来显示，以文章“http://shili.skycaiji.com/article/news/pg/id/20.html”为例
首先我们在“采集器设置》获取内容》内容分页”中开启分页
文章一般都是正文有分页，我们将“正文”字段添加为“分页内容字段”

文章页面图片：

图中我们可以看到有4种分页形式：完整分页、上下分页、完整分页JS模式和上下分页JS模式

分页连接的格式为：article/news/pg/id/数字.html?page=数字

通过“测试》分析网页”功能获取到各个分页区域的xpath：

完整分页：//*[@id="page_list"]/li[1]
上下分页：//*[@id="page_list"]/li[3]
完整分页JS模式：//*[@id="page_list"]/li[2]
上下分页JS模式：//*[@id="page_list"]/li[4]

以上xpath值可以在“内容分页》获取分页区域”中设置以获取固定区域的分页链接，否则将获取整个页面的分页链接

分页链接规则：
完整分页和上下分页直接通过a标签获取链接即可：

<a href="[内容1]">

复制代码

JS模式分页通过查看源码发现链接格式为：

<a onclick="javascript:page('网址');">

复制代码

使用规则匹配出分页链接：

<a onclick="javascript:page('[内容1]');">

复制代码

因为JS模式不能自动补全网址，所以要在“拼接成最终分页链接”中填写：

http://shili.skycaiji.com[内容1]

复制代码

为了防止匹配到非分页链接，在“内容分页》分页网址过滤》必须包含”中填写“page=”，精准一些则用“article/news/pg/id/d+.html?page=d+”

我们测试下“完整分页JS模式”的链接抓取

“测试》抓取分页”效果

注意：很多网站由于程序问题会出现2种格式的文章首页链接，比如示例中的文章首页链接为：http://shili.skycaiji.com/article/news/pg/id/20.html和http://shili.skycaiji.com/article/news/pg/id/20.html?page=1（从第二页开始文章首页为该链接），这2个链接内容是一样的会导致文章首页重复抓取
解决方法：在“内容分页》分页网址过滤》不能包含”中填写“page=1$”即排除掉第一页链接

常见问题：

上下页模式每次只能抓取一个分页链接能采集完整吗？可以的，程序会根据下一页自动抓取到最后一页，可以用“测试》抓取字段”看看数据是否抓取完整
如果分页链接顺序打乱了，文章分页内容会乱吗？不会的，程序自动根据分页编号排序，会按照正常分页顺序采集内容
最大分页数是怎么回事？是为了防止出现死循环，当实际分页数不超过最大分页数时使用实际分页数，超过最大分页数时使用最大分页数

上一篇：蓝天采集器文章采集示例教程
下一篇：蓝天采集器分类信息采集，列表数据循环入库···

本文标签：

菜单 vwuo漫画官网

蓝天采集器文章分页采集示例教程

新闻转自各大新闻媒体，新闻内容并不代表本网立场！如有侵权请联系管理员删除！来源：本站原创浏览：1456 发布时间：2020-09-16

pbootcms网站Tags标签伪静态处理教程

2022-06-06

pbootcms火车头采集器免登录发布使用教程

2022-05-22

迅睿CMS火车头采集免登录入库接口和蓝天采集器入库使用教程

2022-05-04

pbootcms类型站点怎么查看图片、网页元素的路径和大小和颜色

2022-03-22

迅睿CMS文章火车头采集器使用教程说明

2022-03-06

火车头使用5118伪原创出现采集内容处理插件运行出错:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】动态加载dll失败

2022-02-03

小浣熊漫画cms仿腾讯QQ漫画5.0模板

极致CMS v1.8.1版本发布

RGCMS企业网站建站管理系统

响应式企业站PbootCMS V3.0.2 build 2020-08-04

菜单 vwuo漫画官网

蓝天采集器文章分页采集示例教程

新闻转自各大新闻媒体，新闻内容并不代表本网立场！如有侵权请联系管理员删除！ 来源：本站原创 浏览：1456 发布时间：2020-09-16

pbootcms网站Tags标签伪静态处理教程

2022-06-06

pbootcms火车头采集器免登录发布使用教程

2022-05-22

迅睿CMS火车头采集免登录入库接口和蓝天采集器入库使用教程

2022-05-04

pbootcms类型站点怎么查看图片、网页元素的路径和大小和颜色

2022-03-22

迅睿CMS文章火车头采集器使用教程说明

2022-03-06

火车头使用5118伪原创出现采集内容处理插件运行出错:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】动态加载dll失败

2022-02-03

小浣熊cms

漫画、小说模板

其他cms

漫城、efucms、kimcms..

App

uniapp 定制一下

搜索

近期热门

小浣熊漫画cms仿腾讯QQ漫画5.0模板

极致CMS v1.8.1版本发布

RGCMS企业网站建站管理系统

响应式企业站PbootCMS V3.0.2 build 2020-08-04

新闻转自各大新闻媒体，新闻内容并不代表本网立场！如有侵权请联系管理员删除！来源：本站原创浏览：1456 发布时间：2020-09-16