内蒙古网云数据今天给大家推荐一款免费的WordPress自动采集插件:WP-CTspider(长腿蜘蛛),这款插件全自动采集几乎可采集任何网站,设置轻而易举,只需要设置定向采集网址,通过CSS选择器精准识别采集区域,包括(内容,摘要,TAG,缩略图,自定义字段等…)然后自动检测抓取网页内容,文章去重,更新发布,这个过程全自动完成,无需人工干预
WP-CTspider支持WordPress全功能,完美支持WordPress各种功能、标签,摘要,特色图片,自定义栏目等。定时自动采集,只需要设置好每个任务,要多久执行一次任务,便可以定时执行采集任务。支持各种语言伪原创,支持百度翻译引擎(完全免费),共支持29种语言相互翻译,轻松获取原创文章,SEO,支持SEO全功能优化,支持内容过滤,甚至可以在文章任意位置添加上自定义内容,也可以自定义文章样式。附件下载,支持多种格式附件下载,包括自定义采集缩略图,并且可以选择图片添加水印。
下面介绍一下WP-CTspider超详细使用教程!
接下来我们详细说下如何采集一个项目
我们使用新浪科技为示例:
首先基本配置:
.contList>ul>li
(PS:【完全和CSS选择器用法一样
】【可填,可不填
】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li
下面a
(PS:由于上面区域选择器已经定位,我们可以直接填入a标签
即可,如果区域选择器没有定位则设置:.contList li a
或者.contList a
具体根据你采集页面dom结构自己分析)source_url
(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url
并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url')
可调用该字段的值。点击列表测试可以查看当前项目列表配置情况
标题匹配规则:h1
文章内容设置:#article_content
可以看到标题在h1
标签下,也可使用.main-title
来获取标题
正文内容看上去有好多 class和id
如果有id属性尽量采用id,毕竟id是唯一性,定位精准。
我们还可以增加规则来采集TAG标签
长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)
采集结果完美呈现(原文:标题:TAG)正确显示
但是我们发现结果中出现了a链接
和一些多于的css属性
和id属性
还有span标签
我们可以利用长腿蜘蛛-CTspider
强大的内容过滤
模块进行数据清洗工作
a链接
但不删除a标签内容span标签
并且也不删除内容class
属性和id
属性具体设置如下图:
最后在进行采集测试(得到纯净的数据)
Copyright © 2013-2020 www.wangyunidc.com. All Rights Reserved.内蒙古网云数据 版权所有 内蒙古网云网络科技有限公司 蒙ICP备20000569号-1