广告位

热点资讯您现在的位置是:主页 > 热点资讯

蓝天采集器反应三个问题

2018-08-24热点资讯 219人已围观

简介 本帖最后由 伍六柒 于 2018-8-24 18:21 编辑 一、 图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对···

本帖最后由 伍六柒 于 2018-8-24 18:21 编辑

一、
图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对方限制了访问频率。
关键有一个BUG:如果设置了图片本地化间隔大于2秒(2秒以上比如3秒),采集任务就只能采集一条就会中断,其它的不会继续采集!

二、
在数据处理中,内容替换里能否加个替换说明? 因为,比如看图
蓝天采集器反应三个问题蓝天采集器反应三个问题
在数据处理的地方,正则使用太多了后,管理很不方便,点开以后要慢慢看正则理解,才知道当时自己做了什么操作? 如果有一个简单的说明(自己填10字以内),然后就非常漂亮了!

三、

目前去重我看到蓝天有两个地方管控,一是采集字段那里去重;二是通过已采集网址区分,已存在则跳过。

我个人的建议是有一个设定,如果发现已采集网址中已经存在的,允许设定是更新操作,还是跳过操作,因为有很多场景下是需要更新同一样源地址!





图片下载失败可能是下载速度的问题,采集设置》图片本地化》下载超时
其他会改进

Tags: 它的  图片  正则 

广告位
发表评论
评论列表
      广告位
      广告位

    相关知识点

    站点信息

    • 文章统计506篇文章
    • 标签管理相关知识点
    • 微信公众号:扫描二维码,关注我们