您的位置:  首页 > 技术杂谈 > 正文

无代码可视化开源爬虫软件EasySpider,希望能帮到大家

2023-05-22 19:00 https://my.oschina.net/u/6143267/blog/8819797 天际青年 次阅读 条评论

软件介绍

EasySpider是一款完全免费和开源的可视化爬虫软件,此软件可以让大家使用图形化界面,无代码可视化的设计和执行爬虫任务。只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。同时软件还可以直接在命令行中通过传参的方式执行,从而可以很方便的嵌入到其他系统中。
V0.3.0版本新增的功能,包括下载图片,元素截图, 执行任意JS指令和系统命令, 通过JS代码进行条件判断,OCR识别等等功能,想要的功能应有尽有,而且这些功能 完全免费!!!
以下是示例界面:

 

相关链接

 

代码仓库
Github仓库地址,欢迎大家Star:

https://github.com/NaiboWang/EasySpider

 

下载 EasySpider
进入Releases Page:https://github.com/NaiboWang/EasySpider/releases 下载最新版本。
 
视频教程
1. EasySpider介绍 - 中国地震台网采集案例:https://www.bilibili.com/video/BV1Fk4y1L7xX/
2. 如何无代码可视化的爬取需要登录才能爬的网站 - 知乎网站案例:https://www.bilibili.com/video/BV1HV4y1r7v8
3.【重要】自定义条件判断之使用循环项内的JS命令返回值:https://www.bilibili.com/video/BV1mu411x7Nn/
4. 流程图执行逻辑解析 - 58同城房源描述采集案例:https://www.bilibili.com/video/BV1YL411z7uW
5. MacOS系统设计和执行eBay网站爬虫任务教程:https://www.bilibili.com/video/BV1WL411h71r
6. 如何执行自己写的JS代码和系统代码 (自定义操作):https://www.bilibili.com/video/BV1qs4y1z7Hc/
7. 如何自定义循环和判断条件 - 第一弹:https://www.bilibili.com/video/BV1Ys4y1z777/
8. 如何对元素和网页截图及命令行执行指南:https://www.bilibili.com/video/BV1dV4y1z764/
9. OCR识别元素内容功能:https://www.bilibili.com/video/BV1xz4y1b72D/
10. 如何爬需要输入验证码的网站:https://www.bilibili.com/video/BV18c411K7FH
11. 如何切换IP池和使用隧道IP - 打开详情页采集案例:https://www.bilibili.com/video/BV1KT411t79n
 
文档
教程文档:https://github.com/NaiboWang/EasySpider/wiki,有英文可以暂时翻译一下,或看作者的硕士毕业论文:https://github.com/NaiboWang/EasySpider/blob/master/Docs/面向WEB应用的智能化服务封装系统设计与实现.pdf(主要看第三章和第五章)。

 

为什么要用EasySpider
相比其他可视化爬虫软件,EasySpider有以下优势:
1. 代码开源,因此可以进行二次开发。
2. 完全免费,不同于八爪鱼等软件的“免费”,EasySpider是一个无需登录,无限多开,无限机器部署的软件,不需要向作者本人支付一分钱。(当然,EasySpider受到专利保护,因此如果要商用,还请联系浙江大学天道专利事务所)。相比之下,其他软件的免费有诸多限制,具体可以看他们的价格详情页。
3. 安全,所有信息完全保存在用户本地,包括任务和采集的数据,不用担心数据泄露问题。
4. 跨平台:同时支持Windows,Linux和MacOS。
5. 速度快,通常一个爬虫任务只需要2-5分钟即可设计完成,采集速度也快,通常取决于具体机器环境。
6. 更加灵活,保存的浏览器配置信息更多,最重要的是可扩展,自由的安装各种插件,比如验证码识别插件。
7. 可以直接以命令行的方式执行,无限部署在任何想要部署的机器中。
8. 可以在任务流程中 执行自定义的指令,包括JavaScript指令以及系统级别指令, 这个是目前所有的可视化爬虫软件都做不到或者不愿意做的事情。
9. V0.3.0版本新增的功能,包括元素截图,执行任意JS指令和系统命令,OCR识别等等功能,想要的功能应有尽有,而且这些功能 完全免费!!!
 
从需求导向来说,爬虫算是一项基本的需求,我们经常需要去爬一些网上的信息,比如对于科研工作者,爬取维基百科语料库进行训练是做NLP的同学经常做的事情;做社交网络分析的同学经常需要爬取Twitter和微博的信息;做推荐系统的同学会去爬购物网站的信息等等。市面上爬虫需求很多,这里就不在赘述了。有了EasySpider,不管大家之前会不会写爬虫,现在都可以不需要费心费力的写代码了。

 

相关荣誉和出版物
1、 作者本人通过此软件完成了浙江大学硕士论文并取得了硕士学位。
2、 获得了中国国家发明专利授权,作者是第一发明人。
3、 被CCF A顶级会议WWW 2023接收:https://dl.acm.org/doi/abs/10.1145/3543873.3587345
4、 被微博81.6万粉丝互联网大V“爱可可-爱生活”转发和宣传: https://s.weibo.com/weibo?q=easyspider

 

技术交流

 

展开阅读全文
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接