上一篇我们讲解了程序是如何来安装的,这一篇我们讲解如何采集漫画到我们的站点里面,此教程只做演示。

添加地区

因为系统默认没有分类地区所以我们需要先登陆网站后台,添加上地区,因为入库时候需要添加这个地区ID的,如上图所示我添加了2个地区 id也就是对应1和2。

采集入库流程:列表页 → 获取阅读页网址 → 阅读页字段分析。

我们打开要采集的站点:aHR0cHM6Ly93d3cuZG9uZ21hbi5sYS9tYW5odWEvamFwYW4vMi5odG1s

这个数字变化的就是我们需要的列表页/manhua/japan/2.html,直接打开采集器,

起始页网址

采集时候要先找到我们所需要的url,在源代码里面,区域一定要设置一下,寻找到唯一的一个标签开头和结尾

<div class="cy_list_mh">    
<ul>    
<li><a href="/manhua/detail/5985/" target="_blank" class="pic"><img src="https://img.网址.la/uploads/manhua/2013/12/23/52b7e8f5895b6.jpg" alt="一拳超人漫画"></a>    
</li>    
<li class="title"><a href="/manhua/detail/5985/" target="_blank">一拳超人</a></li>    
<li class="zuozhe">状态:连载中</li>    
<li class="updata">最新:<a href="/manhua/chapter/5985/325206/" target="_blank"><span>第247话 搭档</span></a></li>    
<li class="biaoqian">标签:冒险,少年,热血,搞笑</li>    
<li class="info">简介:一拳超人漫画一拳超人漫画 ,一拳超人...</li>    
</ul>    
<div class="NewPages">

以上我们就是直接取为开头<div class="cy_list_mh">内容<div class="NewPages">,也就是说我们指定了这个采集器只获取到这个区域的内容,因为这个内容就是我们所需要的。

<li><a href="[参数]" target="_blank" class="pic"><img src="[标签:封面]" alt="[标签:漫画名]">(*)<li class="zuozhe">状态:[标签:状态]</li>(*)<li class="biaoqian">标签:[标签:分类]</li>

规则里面的入库字段信息,可以看这里:小浣熊cms火车头采集器入库api字段信息以及常见去重教程。

我们第一级的列表已经获取到了,接下来我们在获取阅读页(章节列表)。

还是一样的操作 找寻我们所需要的内容设置好区域,获取对应的url。

<ul id="mh-chapter-list-ol-0">    
<li>    
<a href='http s:// www.网址.la/manhua/chapter/5985/325206/' target="_blank" title="一拳超人第247话 搭档">    
<p>第247话 搭档</p>    
</a>    
</li>    
<li>    
<a href='http s:// www.网址.la/manhua/chapter/5985/325183/' target="_blank" title="一拳超人第246话 幻术">    
<p>第246话 幻术</p>    
</a>    
</li>
</ul>

设置区域<ul id="mh-chapter-list-ol-0">内容</ul>

<a href='[参数]'(*)<p>[标签:章节名]</p>

获取章节url

这里需要从列表多获取一些信息因为我们的作者简介都需要从封面页获取。所以我们就添加

<meta property="og:novel:author" content="[标签:作者]">(*)<p id="comic-description">[标签:简介]</p>

列表页网址

好了我们之间测试下:

章节列表页url获取

测试没任何的问题,所需要链接还有字段信息都获取到了,接下来我们就直接获写阅读页提取内容了。

我们入库的时候 只需要下面的几个字段就可以了其他都可以全部为空,值可以根据自己需要来传或者不传都可以。

book_name	[标签:漫画名]
tags	[标签:分类]
author	[标签:作者]
end	[标签:状态]
chapter_name	[标签:章节名]
images	[标签:图集]
summary	[标签:简介]
nick_name	[标签:别名]
api_key	[标签:api密钥]
area_id	[标签:地区id]
start_pay	[标签:起始付费章节]
chapter_order	[标签:章节序号]
banner_url	[标签:封面]

内容页图片

采集器对应设置图集字段

然后我们测试下,入库密码在外面的网站后台-其他管理-系统设置--api秘钥(一定要修改复杂点)

测试采集

非常的完美了。所需要的入库字段信息我们都填写好了,接下来就是直接的入库了。由于内容比较多,具体的入库操作教程看下一篇。

小浣熊cms漫画入库详细教程(1分钟学会)

相关文章