爬山虎采集器是一款支持99%的网站数据采集的高效网页信息采集软件,软件能生成Excel表格,api数据库文件等内容,帮助你管理网站数据信息,如果您需要对某个指定网页数据进行采集,使用这款软件即可。它就是就爬虫技术的具体体现,搭配非常简便的界面和详细功能,让普通用户也可以在晚上爬去自己想要的资料,比如小编就使用这款软件爬取了一些小说网站上的热门小说,因为每个新章节都有一大段广告,感觉挺麻烦的,就直接爬去了小说的文本内容,并且自动生成文本,方便闲暇的时候观看。同理用户使用这款软件,可以爬取一些知名论坛或者购物门户网站的内容清单,用以分析当前各个领域的发展情况,又或者目前比较热门的商品,用于数据统计!
简单易用,轻松通过鼠标点击自动生成脚本
2、定时运行
可按照计划定时运行,无需人工
3、独创高速内核
自研的浏览器内核,速度飞快,远超对手
4、智能识别
对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别
5、广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
6、多种数据导出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
核心技术
7、自动识别列表数据,通过智能算法,一键提取数据。
8、自动识别分页技术,通过算法智能识别、采集分页数据
9、混合浏览器引擎和HTTP引擎,兼顾了易用性和效率。
原理是通过脚本自动登陆到路由器中,找到其中的网络的连接、断开功能,先断开网络,再重新连接从而实现切换IP。 界面和操作与编辑采集前脚本类似。
2、ADSL 拨号
支持本地ADSL拨号,以及动态IP拨号(淘宝上有很多卖的),以及重拨。
3、高级过滤功能
通过设置一些条件过滤掉指定类型的数据,条件包括(不得包含、必须包含、数字小于、数字大于、日期大小等)
使用流程
1、输入采集网址
打开软件,新建任务,输入需要采集的网站地址。
2、智能分析,全程自动化提取数据
进入到第二步后,爬山虎采集器全自动智能分析网页,并且从中提取出列表数据。
3、导出数据到表格、数据库、网站等
运行任务,将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
简单易学,通过可视化界面,鼠标点击即可抓取数据
快速高效
内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集数据
适用各种网站
能够采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站
打开软件,新建任务,输入需要采集的网站地址。
第二步:智能分析,全程自动化提取数据
进入到第二步后,爬山虎采集器全自动智能分析网页,并且从中提取出列表数据。
第三步:导出数据到表格、数据库、网站等
运行任务,将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
2.增加导出 txt (一条保存为一个文件)
3.多值连接符支持换行符
4.修改数据处理的文本映射(支持查找替换)
5.修复登陆时的DNS问题
6.修复图片下载问题
7.修复 json 一些问题
软件特色
1、向导模式简单易用,轻松通过鼠标点击自动生成脚本
2、定时运行
可按照计划定时运行,无需人工
3、独创高速内核
自研的浏览器内核,速度飞快,远超对手
4、智能识别
对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别
5、广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
6、多种数据导出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
核心技术
7、自动识别列表数据,通过智能算法,一键提取数据。
8、自动识别分页技术,通过算法智能识别、采集分页数据
9、混合浏览器引擎和HTTP引擎,兼顾了易用性和效率。
软件功能
1、路由拨号功能原理是通过脚本自动登陆到路由器中,找到其中的网络的连接、断开功能,先断开网络,再重新连接从而实现切换IP。 界面和操作与编辑采集前脚本类似。
2、ADSL 拨号
支持本地ADSL拨号,以及动态IP拨号(淘宝上有很多卖的),以及重拨。
3、高级过滤功能
通过设置一些条件过滤掉指定类型的数据,条件包括(不得包含、必须包含、数字小于、数字大于、日期大小等)
使用流程
1、输入采集网址
打开软件,新建任务,输入需要采集的网站地址。
2、智能分析,全程自动化提取数据
进入到第二步后,爬山虎采集器全自动智能分析网页,并且从中提取出列表数据。
3、导出数据到表格、数据库、网站等
运行任务,将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
软件亮点
一键提取数据简单易学,通过可视化界面,鼠标点击即可抓取数据
快速高效
内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集数据
适用各种网站
能够采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站
使用方法
第一步:输入采集网址打开软件,新建任务,输入需要采集的网站地址。
第二步:智能分析,全程自动化提取数据
进入到第二步后,爬山虎采集器全自动智能分析网页,并且从中提取出列表数据。
第三步:导出数据到表格、数据库、网站等
运行任务,将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
更新日志
1.增加插件功能2.增加导出 txt (一条保存为一个文件)
3.多值连接符支持换行符
4.修改数据处理的文本映射(支持查找替换)
5.修复登陆时的DNS问题
6.修复图片下载问题
7.修复 json 一些问题
∨ 展开