SEO检查 + 爬虫工具包

项目简介

这是一个专业的SEO检查和网站爬虫工具包,包含两个主要工具:

  1. Python SEO爬虫和诊断工具 (seo_auditor.py)
  2. 网页版SEO检查工具 (seo-checker.html)

功能特性

Python SEO爬虫和诊断工具

核心功能:

  • 智能网站爬虫,支持深度控制和并发爬取
  • 全面的SEO诊断,包括技术问题、内容质量、性能分析
  • 自动检测broken links、重复内容、缺失元数据等问题
  • 生成专业的HTML格式诊断报告
  • 数据可视化图表(问题分布、性能分析、得分雷达图)
  • JSON格式原始数据输出

诊断项目:

  • ✅ 页面标题和元描述检查
  • ✅ H标签结构分析
  • ✅ 图片ALT文本检查
  • ✅ 页面性能和响应时间
  • ✅ Broken links检测
  • ✅ 内部/外部链接分析
  • ✅ 页面大小优化检查
  • ✅ SEO综合得分计算

网页版SEO检查工具

核心功能:

  • 直观的Web界面,支持多种SEO检查模式
  • 实时进度显示和结果可视化
  • 网站爬虫功能,可配置爬取深度和并发数
  • 专业的整改报告生成器
  • 数据仪表板和趋势分析
  • 响应式设计,支持移动端使用

安装和使用

Python工具使用

环境要求:

  • Python 3.7+
  • 所需依赖包:requests, beautifulsoup4, matplotlib, pillow

安装依赖:

1
pip install requests beautifulsoup4 matplotlib pillow

基本使用:

1
python seo_auditor.py

自定义使用:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
from seo_auditor import SEOCrawler

# 创建爬虫实例
crawler = SEOCrawler(
    base_url="https://example.com",
    max_depth=3,          # 最大爬取深度
    max_pages=100,        # 最大爬取页面数
    delay=1,              # 爬取延迟(秒)
    max_workers=5         # 最大并发数
)

# 开始爬取和分析
report_data = crawler.start_crawling()

# 查看结果
print(f"SEO得分: {report_data['seo_score']['score']}/100")
print(f"发现问题: {report_data['issues_found']}个")
print(f"报告文件: {report_data['report_file']}")

网页工具使用

直接使用:

  1. 打开 seo-checker.html 文件
  2. 在Web界面中输入目标网站URL
  3. 选择检查项目和参数
  4. 点击开始检查按钮
  5. 查看实时进度和生成的报告

输出文件说明

Python工具输出

  1. HTML报告文件 (seo_audit_report_*.html)

    • 完整的SEO诊断报告
    • 包含问题分析、优化建议、数据图表
    • 响应式设计,可在浏览器中直接查看
  2. JSON数据文件 (seo_audit_data_*.json)

    • 原始分析数据,便于进一步处理
    • 包含所有页面的详细信息和统计数据
  3. 图表文件 (seo_charts/)

    • seo_issues_distribution.png: SEO问题分布饼图
    • page_performance.png: 页面性能分析图
    • seo_radar_chart.png: SEO得分雷达图
  4. 日志文件 (seo_audit.log)

    • 详细的爬取和分析日志
    • 便于问题排查和过程跟踪

示例报告

检查结果摘要

SEO诊断结果摘要
============================================================
网站: https://example.com
爬取页面数: 45
SEO得分: 78/100
发现问题: 5个
Broken Links: 2个
外部链接: 15个
平均响应时间: 2.3秒
分析耗时: 45.2秒
============================================================

问题优先级分类

高优先级问题:

  • 页面标题重复或缺失
  • 页面加载速度过慢
  • Broken links存在
  • 缺少H1标签

中优先级问题:

  • 元描述缺失或过长
  • 图片缺少ALT文本
  • 内部链接过少
  • 页面结构不合理

低优先级问题:

  • 页面大小略大
  • 元关键词缺失
  • 外部链接过多

优化建议示例

高优先级优化

  1. 性能优化

    • 压缩和优化所有图片文件
    • 启用Gzip压缩
    • 合并和压缩CSS/JS文件
    • 实施浏览器缓存策略
  2. 标题和元数据优化

    • 为每个页面创建唯一的标题(50-70字符)
    • 编写吸引人的元描述(150-160字符)
    • 确保关键词在标题中的合理位置

中优先级优化

  1. 内容结构优化

    • 建立清晰的H标签层级
    • 优化内容布局和可读性
    • 增加内容的深度和丰富度
  2. 链接优化

    • 修复所有broken links
    • 增加相关页面间的内部链接
    • 使用描述性的锚文本

注意事项

爬取礼仪

  • 合理设置爬取延迟,避免对目标服务器造成压力
  • 遵守robots.txt文件的限制
  • 不要过度爬取同一网站
  • 尊重网站的带宽和资源限制

性能优化

  • 对于大型网站,建议适当降低并发数
  • 合理设置爬取深度,避免无限递归
  • 定期清理临时文件和日志

数据安全

  • 敏感网站信息请妥善保管
  • 避免在公共网络环境下处理敏感数据
  • 定期备份重要的分析结果

技术支持

如果在使用过程中遇到问题,或需要定制化功能,请参考以下资源:

  1. 官方文档:详细的使用说明和API文档
  2. GitHub Issues:提交bug报告和功能请求
  3. 技术社区:相关技术论坛和讨论群组

更新日志

v1.0.0 (2025-10-18)

  • 初始版本发布
  • 完整的SEO爬虫和诊断功能
  • 网页版检查工具
  • 专业报告生成器
  • 数据可视化图表

许可证

本项目采用MIT许可证,详情请参考LICENSE文件。

贡献指南

欢迎对本项目进行贡献!请遵循以下步骤:

  1. Fork本仓库
  2. 创建特性分支
  3. 提交代码更改
  4. 推送分支
  5. 创建Pull Request

免责声明

本工具仅供学习和研究使用,请在使用前获得目标网站的授权。使用者应遵守相关法律法规,不得用于非法用途。开发者不对使用本工具造成的任何损失承担责任。