admin 管理员组

文章数量: 1184232

更多内容请见: 爬虫和逆向教程-专栏介绍和目录

前言:Crawlergo 是一款基于 Chromium 的现代化 Web 爬虫工具,由知名安全团队 KnownSec 404 Team 开发。它通过浏览器自动化技术实现动态网页的抓取,能够完美处理各种现代 Web 技术(如 Vue、React、Angular 等前端框架构建的网站)。

文章目录

    • 一、crawlergo概述
      • 1.1 crawlergo介绍
      • 1.2 crawlergo的特性
      • 1.3 安装
      • 1.4 运行截图
    • 二、基本操作
      • 2.1 采集AWVS靶场
      • 2.2 使用代理
      • 2.3 系统调用
    • 三、完整参数说明
    • 四、使用举例
    • 五、问题记录
      • 5.1 问题1:'Fetch.enable' wasn't found
      • 5.2 问题2:chrome运行提示缺少 xxx.so 等依赖
      • 5.3 问题3:浏览器路径问题

一、crawlergo概述

1.1 crawlergo介绍

crawlergo是一个使用chrome headless模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。

github:https://github/Qianlitp/crawlergo

1.2 crawlergo的特性

crawlergo 目前支持以下特性:

  • 原生浏览器环境,协程池调度任务
  • 表单智能填充、自动化提交
  • 完整DOM事件收集,自动化触发
  • 智能URL去重,去掉大部分的重复请求
  • 全面分析收集,包括javascript文件内容、页面注释、robots.txt文件和常见路径Fuzz
  • 支持Host绑定,自动添加Referer
  • 支持请求代理,支持爬虫结果主动推送

1.3 安装

1、下载二进制文件
从 Gi

本文标签: 爬虫 一文 浏览器 强大 程序