作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。
八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。
不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。
首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。
但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。
八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。
八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。
还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。
除非对技术有很高要求,否则我觉得八爪鱼采集器很好用,比火车采集器好用,虽然效率没那么高,但是比起费劲学习和研究数据包,还是用这个省事。我没事也会在八爪鱼群里解答一些规则编制的问题。
综合写了一下对比和坑,放在知乎专栏里了,有兴趣的可以去看看:
浅谈一下最近使用八爪鱼采集器遇到的坑(还有对比其他采集软件和爬虫) – 知乎专栏