boxmoe_header_banner_img

Hello! 欢迎来到浅月的博客

加载中

文章导读

FishCat博客爬取


avatar
浅月 2026年4月18日 61

FishCat博客爬取

一个高效、易用的博客文章爬取工具,支持WordPress和Typecho平台,可将文章导出为CSV、HTML或TXT格式。

✨ 功能特点

  • 支持爬取WordPress和Typecho平台的博客文章
  • 自动检测博客平台类型
  • 提取文章详细信息:标题、发布时间、分类、内容、标签、特色图片等
  • 支持多种导出格式:CSV、HTML、TXT
  • 友好的用户交互界面
  • 礼貌爬取,避免对目标网站造成过大压力
  • 详细的日志记录

🚀 快速开始

环境要求

  • Python 3.6+ 环境
  • 安装依赖包

安装依赖

pip install requests beautifulsoup4

使用方法

  1. 克隆或下载本项目到本地
  2. 安装必要的依赖包
  3. 运行主程序
python wp_crawler.py
  1. 按照提示选择要爬取的博客平台
  2. 输入博客站点地址
  3. 等待爬取完成后,选择导出格式并输入文件名前缀

📁 项目结构

├── wp_crawler.py    # 主程序文件
├── wp_crawler.log   # 日志文件(自动生成)
├── .gitignore       # Git忽略文件配置
└── venv/            # Python虚拟环境(可选)

📊 数据导出格式说明

CSV格式

包含文章的所有详细信息,便于数据分析和处理。

HTML格式

生成一个美观的HTML页面,包含所有文章内容,可直接在浏览器中查看。

TXT格式

以纯文本形式保存文章内容,便于阅读和编辑。

⚠️ 注意事项

  1. 请尊重网站的版权和robots.txt规则
  2. 爬取大量文章可能会对目标网站造成压力,建议合理设置爬取频率
  3. 本工具仅供学习和研究使用,请遵守相关法律法规
  4. 尊重和保障他人劳动成果与著作权

🤝 贡献

欢迎提交Issue和Pull Request来改进这个项目。

📄 许可证

MIT License


FishCat v1.0 by tniay 反馈QQ:3581738884

感谢您的支持
微信赞赏

微信扫一扫



评论(0)

查看评论列表

暂无评论


发表评论

表情 颜文字

插入代码
本站总访问量次. 您是第个小伙伴