在使用了这个采集器后发现这个软件功能异常强大。列表页和采集页的切换以及全面的内容匹配规则能保证采集到想要的数据。不过在使用过程中我发现了下面几个问题,也有可能是跟我对这个软件还不熟悉,操作不熟练导致的,如果这样的话,麻烦指正。谢谢!
1、采集成功过的内容页面再重新采集的话就不能再采集了,必须要在数据库中清空采集过的内容网址或者在操作界面中清空采集数据才能再次采集。如果对于采集对象是静态网页的话倒无所谓,但是对于动态网页来说的话,显然是很不合理的操作了。

2、基于问题1的考虑,可能是只考虑到支持静态网页的采集,所以一天内采集的所有的结果都导入到一个文件中,但是对于动态网页的采集来说,比如我,更希望是每次采集都把数据保存在单独的文件中。目前输出文件的名字是以操作日期命名的,如果能在操作日期的基础上加上操作的时间,比如“时-分”,就能很好的解决这个问题了。可惜目前这个保存文件的接口我还未找到,不能修改验证,如果有人懂的话,麻烦告知,谢谢!

3、还有一个小小的问题,就是采集到的Json数据中存在中文的Unicode代码,无法转换,目前本人对这个软件代码还不是很熟悉,有知情者能否告知相应的接口,我这边修改下看看。谢谢!



更新:目前已经搞定问题2、3。分享下方法:


修改文件:RfileEvent.class.php
文件名的修改接口:
$filename=date('Y-m-d',NOW_TIME)

将Unicode转成中文的方法:
foreach ($collFields as $k=>$v)
{
$key=preg_replace_callback('/\\u([0-9a-f]{4})/i',create_function('$matches','return mb_convert_encoding(pack("H*", $matches[1]), "UTF-8", "UCS-2BE");'),$v);
$phpExcel->getActiveSheet()->setCellValue(chr(65+$k).$curRow,$this->get_field_val($key));
} 好的,感谢分享,会改善
相关文章