本帖最后由 伍六柒 于 2018-8-24 18:21 编辑
一、
图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对方限制了访问频率。
关键有一个BUG:如果设置了图片本地化间隔大于2秒(2秒以上比如3秒),采集任务就只能采集一条就会中断,其它的不会继续采集!
二、
在数据处理中,内容替换里能否加个替换说明? 因为,比如看图
在数据处理的地方,正则使用太多了后,管理很不方便,点开以后要慢慢看正则理解,才知道当时自己做了什么操作? 如果有一个简单的说明(自己填10字以内),然后就非常漂亮了!
三、
目前去重我看到蓝天有两个地方管控,一是采集字段那里去重;二是通过已采集网址区分,已存在则跳过。
我个人的建议是有一个设定,如果发现已采集网址中已经存在的,允许设定是更新操作,还是跳过操作,因为有很多场景下是需要更新同一样源地址!
图片下载失败可能是下载速度的问题,采集设置》图片本地化》下载超时
其他会改进
一、
图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对方限制了访问频率。
关键有一个BUG:如果设置了图片本地化间隔大于2秒(2秒以上比如3秒),采集任务就只能采集一条就会中断,其它的不会继续采集!
二、
在数据处理中,内容替换里能否加个替换说明? 因为,比如看图
在数据处理的地方,正则使用太多了后,管理很不方便,点开以后要慢慢看正则理解,才知道当时自己做了什么操作? 如果有一个简单的说明(自己填10字以内),然后就非常漂亮了!
三、
目前去重我看到蓝天有两个地方管控,一是采集字段那里去重;二是通过已采集网址区分,已存在则跳过。
我个人的建议是有一个设定,如果发现已采集网址中已经存在的,允许设定是更新操作,还是跳过操作,因为有很多场景下是需要更新同一样源地址!
图片下载失败可能是下载速度的问题,采集设置》图片本地化》下载超时
其他会改进