火车头采集器最新版是一款功能强大、实用性强、并且可以用来批量采集网页的数据采集器。火车头采集器可以直接保存到数据库或发布到网站,火车头采集器可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,现在发展成也可以对数据进行处理,以及seo优化的工具。火车头采集器它能够快速的对网页上数据信息进行规范性的采集,包括文本、图片、文件等信息。软件拥有强大的采集功能,能够采集那些需要登陆才能查看的内容信息,能够解析文件真实地址并且下载,然后通过一系列的分析处理,准确挖掘出所需数据,并可以选择发布到网站后台、导入数据库或者保存在本地Excel,Word等格式的文件中。火车头采集器支持采集数据直接入库和模仿手工发布等许多功能特点,可以完成您在浏览器内能看到的各类信息的提取。火车采集器凭借支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点,历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。是不是心动了呢,那还犹豫什么,赶快跟我一起下载吧。
任务分配至多个客户端,同时运行采集,效率倍增。
2、多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
3、可选验证方式
可选择是否使用加密狗,随时保障数据安全。
4、全自动运行
无需人工值守操作,任务完成后自动关机。
5、替换功能
同义,近义词替换、参数替换,伪原创必备技能。
6、任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
7、采集监控系统
实时监控采集,确保数据的准确性。
8、支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
9、无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持扩展
支持接口和插件扩展,满足各种采发需求。
2、开始火车采集器安装向导,下一步。
3、接受安装协议,我同意。
4、你可以自定义设置安装目录。
5、接下来就可以开始使用软件了。
1、采集网址规则,点击添加
2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成
3、采集内容规则
双击【标题】,弹出标题编辑框
4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串
5、添加【html标签排除】【内容添加前后缀】,点击确定就可。
6、发布内容设置。启用方式二来保存采集结果。
文件名格式可以根据自己喜好,任意选择。
文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。
7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。
火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。
支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。
火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确
2、内容采集
火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。
通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取。可选性强,用户可以按照使用需求进行选择。
内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。
3、数据处理
对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。主要包括:
1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;
3)数据转换:支持汉译英、简转繁、转换为拼音等;
4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;
5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址。
4、数据发布
火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发。
根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序就会按照用户的 SQL 语句导入数据;保存为本地文件时支持本地 SQL 或文本文件(word、excel、html,txt)格式。
5、多任务多线程运行
火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。
6、HTTP 二级代理服务器
火车采集器可以通过二级代理服务器的功能实现 IP 的更换,避免因 IP 被限制访问而导致的采集无法运行,用户需先获取一些代理 IP,然后将代理 IP 导入采集器中完成设置即可。
7、计划任务管理器
火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义 corn 表达式执行。
8、任务运行日志管理
火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析。
可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据。
9、插件扩展
火车采集器支持 PHP 和 C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能。用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源。
火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试。
火车采集器能够为您实现数据的采集发布、互联网数据挖掘、批量下载海量数据、舆情监控等多种功能,是助您充分利用网页数据的最佳工具,详细内容请参考产品功能。
2、什么是火车采集器的服务年限?
服务年限是指在相应的年限时间里可以免费升级到火车采集器发布的最新版本并享有VIP技术支持服务,购买火车采集器时可以依据个人需求选择服务年限为1年、2年、3年、5年,服务年限到期后用户可通过续费延长年限。
3、绑定机器码,可以随时更换吗?
免费版无需绑定机器码获得授权,基础版和旗舰版机器码版需绑定一台机器码,可免费更换一次;
旗舰版自动授权版绑定一台机器码,支持随时自动更换;
企业尊享版绑定三台机器码,可免费更换三次。另附赠两个加密狗,不限更换机器。
企业豪华版绑定六台机器码,不限更换次数。附赠四个加密狗,不限更换机器。
4、支持哪些系统?
火车采集器可在win10/Win7/Win8/Win2012/Win2010/Win2008/Win2003/Vista/Xp系统下运行。
5、是不是手把手教学,能免费写规则吗?
免费版用户如有软件功能确认的疑问可联系客服为您解答,基础使用方面请用户自主学习,我们有文档教程,视频教程,FAQ系统,论坛等多种学习渠道;商业用户提供在线工单,可以在会员中心提交问题。
我们为旗舰版机器码版用户免费定制一个采集规则和一个发布配置模块;
为旗舰版自动授权版用户免费定制两个采集规则和一个发布配置模块;
为企业尊享版用户免费定制四个采集规则和一个发布配置模块;
为企业豪华版用户免费定制八个采集规则和两个发布配置模块。
1、新增:User-Agent支持从文本读取并随机切换。教程:http://faq、locoy、com/q-1348、html。
2、新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。
3、优化:文件下载完毕插件接口优化。
4、优化:探测文件下载时正式下载文件,提升下载速度。
5、修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。
6、修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。
7、修复:拷贝任务时,任务备注未拷贝问题修复。
8、修复:标签引用支持调用“列表页”标签。
9、修复:json提取时如果json对象的“键”是整型导致提取有误。
10、优化:网址解析替换html问题。
11、修复:get、post分页问题处理。
12、修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”
13、新增:数据库发布模块支持replace into语句。
v9.5版本
1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。
2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】 。
3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。
4、新增支持将下载地址保存为html文件的功能。
5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。
6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复在未选择图片水印时,无法进行图片剪裁的问题。
9、优化开始界面加载方式,解决初始化界面卡顿的问题。
10、修复在配置多行连接符包含“|”导致的无法探测图片下载的问题。
11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。
12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。
13、修复任务批量编辑时,Json采集表达式未能复制的问题。
软件特色
1、分布式高速采集任务分配至多个客户端,同时运行采集,效率倍增。
2、多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
3、可选验证方式
可选择是否使用加密狗,随时保障数据安全。
4、全自动运行
无需人工值守操作,任务完成后自动关机。
5、替换功能
同义,近义词替换、参数替换,伪原创必备技能。
6、任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
7、采集监控系统
实时监控采集,确保数据的准确性。
8、支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
9、无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持扩展
支持接口和插件扩展,满足各种采发需求。
火车头采集器安装教程
1、在本站下载解压得到火车采集器官方版安装包。2、开始火车采集器安装向导,下一步。
3、接受安装协议,我同意。
4、你可以自定义设置安装目录。
5、接下来就可以开始使用软件了。
火车头采集器使用教程
火车头采集器是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序,软件包中包含有详尽的“火车采集器白皮书”以及使用教程,为了方便介绍,小编这里以采集文章标题为例说明其基本用法:1、采集网址规则,点击添加
2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成
3、采集内容规则
双击【标题】,弹出标题编辑框
4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串
5、添加【html标签排除】【内容添加前后缀】,点击确定就可。
6、发布内容设置。启用方式二来保存采集结果。
文件名格式可以根据自己喜好,任意选择。
文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。
7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。
软件亮点
1、网址采集火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。
支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。
火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确
2、内容采集
火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。
通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取。可选性强,用户可以按照使用需求进行选择。
内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。
3、数据处理
对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。主要包括:
1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;
3)数据转换:支持汉译英、简转繁、转换为拼音等;
4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;
5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址。
4、数据发布
火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发。
根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序就会按照用户的 SQL 语句导入数据;保存为本地文件时支持本地 SQL 或文本文件(word、excel、html,txt)格式。
5、多任务多线程运行
火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。
6、HTTP 二级代理服务器
火车采集器可以通过二级代理服务器的功能实现 IP 的更换,避免因 IP 被限制访问而导致的采集无法运行,用户需先获取一些代理 IP,然后将代理 IP 导入采集器中完成设置即可。
7、计划任务管理器
火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义 corn 表达式执行。
8、任务运行日志管理
火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析。
可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据。
9、插件扩展
火车采集器支持 PHP 和 C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能。用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源。
火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试。
常见问题
1、火车采集器有什么功能?火车采集器能够为您实现数据的采集发布、互联网数据挖掘、批量下载海量数据、舆情监控等多种功能,是助您充分利用网页数据的最佳工具,详细内容请参考产品功能。
2、什么是火车采集器的服务年限?
服务年限是指在相应的年限时间里可以免费升级到火车采集器发布的最新版本并享有VIP技术支持服务,购买火车采集器时可以依据个人需求选择服务年限为1年、2年、3年、5年,服务年限到期后用户可通过续费延长年限。
3、绑定机器码,可以随时更换吗?
免费版无需绑定机器码获得授权,基础版和旗舰版机器码版需绑定一台机器码,可免费更换一次;
旗舰版自动授权版绑定一台机器码,支持随时自动更换;
企业尊享版绑定三台机器码,可免费更换三次。另附赠两个加密狗,不限更换机器。
企业豪华版绑定六台机器码,不限更换次数。附赠四个加密狗,不限更换机器。
4、支持哪些系统?
火车采集器可在win10/Win7/Win8/Win2012/Win2010/Win2008/Win2003/Vista/Xp系统下运行。
5、是不是手把手教学,能免费写规则吗?
免费版用户如有软件功能确认的疑问可联系客服为您解答,基础使用方面请用户自主学习,我们有文档教程,视频教程,FAQ系统,论坛等多种学习渠道;商业用户提供在线工单,可以在会员中心提交问题。
我们为旗舰版机器码版用户免费定制一个采集规则和一个发布配置模块;
为旗舰版自动授权版用户免费定制两个采集规则和一个发布配置模块;
为企业尊享版用户免费定制四个采集规则和一个发布配置模块;
为企业豪华版用户免费定制八个采集规则和两个发布配置模块。
更新日志
v10.2版本1、新增:User-Agent支持从文本读取并随机切换。教程:http://faq、locoy、com/q-1348、html。
2、新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。
3、优化:文件下载完毕插件接口优化。
4、优化:探测文件下载时正式下载文件,提升下载速度。
5、修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。
6、修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。
7、修复:拷贝任务时,任务备注未拷贝问题修复。
8、修复:标签引用支持调用“列表页”标签。
9、修复:json提取时如果json对象的“键”是整型导致提取有误。
10、优化:网址解析替换html问题。
11、修复:get、post分页问题处理。
12、修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”
13、新增:数据库发布模块支持replace into语句。
v9.5版本
1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。
2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】 。
3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。
4、新增支持将下载地址保存为html文件的功能。
5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。
6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复在未选择图片水印时,无法进行图片剪裁的问题。
9、优化开始界面加载方式,解决初始化界面卡顿的问题。
10、修复在配置多行连接符包含“|”导致的无法探测图片下载的问题。
11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。
12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。
13、修复任务批量编辑时,Json采集表达式未能复制的问题。
∨ 展开