蓝天采集器采集小说示例教程-小浣熊cms模板_漫城cms模板

小说采集流程：小说列表页→单本小说章节列表页→小说章节页
小说比文章多了一级网址，可以将单本小说章节列表页视为文章列表页，小说章节页视为文章内容页，多出来的是小说列表页即小说名称列表
那么小说列表页就是起始页，当然你也可以将单本小说章节列表作为起始页（类似于文章采集），本教程重点讲解多本小说采集

以http://shili.skycaiji.com/novel.html为例，将其设置为起始页网址
分析出单本小说章节列表网址规则为：

novel/index/show/id/d+.html

复制代码

注意不能直接将规则填入到“内容页网址获取”中，因为“内容页网址获取”表示的是最后一级页面即小说的章节内容页
此处匹配出的网址是章节列表页，应该添加为“多级网址”再匹配出内容页网址

保存后测试抓取内容页网址

如图所示从起始页中抓取到了2本小说，每本小说抓取到了32条网址（此时抓取到的是全部链接，包含样式和js文件链接，需要过滤出章节网址）
进入http://shili.skycaiji.com/novel/index/show/id/1.html分析出章节网址规则：

novel/chapter/show/id/d+.html

复制代码

这时就可以将规则填入“内容页网址获取》结果网址过滤》必须包含”中，保存后再测试：

成功抓取到所有章节链接

接下来就是抓取章节的标题、正文了，点击上图的分析，即可直接在页面中点击元素获取xpath值
获取到的标题xpath：//*[@id="title"]/h1
正文xpath：//*[@id="content"]
分别添加字段：标题、正文，获取方式选择“xpath匹配”，将获取到的xpath值填入即可

保存后测试抓取数据：

如果章节有分页，可以参考文章分页教程

上一篇：蓝天采集器分类信息采集，列表数据循环入库···
下一篇：蓝天采集器如何关联多页采集规则教程

本文标签：

菜单 vwuo漫画官网

蓝天采集器采集小说示例教程

新闻转自各大新闻媒体，新闻内容并不代表本网立场！如有侵权请联系管理员删除！来源：本站原创浏览：921 发布时间：2020-09-16

pbootcms网站Tags标签伪静态处理教程

2022-06-06

pbootcms火车头采集器免登录发布使用教程

2022-05-22

迅睿CMS火车头采集免登录入库接口和蓝天采集器入库使用教程

2022-05-04

pbootcms类型站点怎么查看图片、网页元素的路径和大小和颜色

2022-03-22

迅睿CMS文章火车头采集器使用教程说明

2022-03-06

火车头使用5118伪原创出现采集内容处理插件运行出错:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】动态加载dll失败

2022-02-03

小浣熊漫画cms仿腾讯QQ漫画5.0模板

极致CMS v1.8.1版本发布

RGCMS企业网站建站管理系统

响应式企业站PbootCMS V3.0.2 build 2020-08-04