1、新增cli命令行采集模式(可稳定自动采集),优化传统自动采集触发问题
2、数据处理增加关键词过滤、条件判断功能(根据是否满足条件决定采集或不采集)
3、新增应用程序开发,独立且打通蓝天采集器的应用
4、开发者可以安装“第三方平台”应用发展自己的业务
5、用户可以通过开发者搭建的“第三方平台”下载规则、插件等
6、使用json时可自动识别jsonp格式数据,字段》json提取增加循环入库功能
7、修复采集https网址报错,官方云平台升级https(2.1版本之前的云平台会打不开)
8、修复若干bug等
牛皮顶起来! 遇到一个奇葩的问题,从json获取内容页地址的时候,估计是网站为了防抓取,将内容页网址中加入了混淆字符串,采集的时候就出错了。所以需要一个功能在匹配出的内容页网址加一个处理方法,替换字符串。目前没办法对获取的网址进行再处理
2、数据处理增加关键词过滤、条件判断功能(根据是否满足条件决定采集或不采集)
3、新增应用程序开发,独立且打通蓝天采集器的应用
4、开发者可以安装“第三方平台”应用发展自己的业务
5、用户可以通过开发者搭建的“第三方平台”下载规则、插件等
6、使用json时可自动识别jsonp格式数据,字段》json提取增加循环入库功能
7、修复采集https网址报错,官方云平台升级https(2.1版本之前的云平台会打不开)
8、修复若干bug等
牛皮顶起来! 遇到一个奇葩的问题,从json获取内容页地址的时候,估计是网站为了防抓取,将内容页网址中加入了混淆字符串,采集的时候就出错了。所以需要一个功能在匹配出的内容页网址加一个处理方法,替换字符串。目前没办法对获取的网址进行再处理