FishCat博客爬取
一个高效、易用的博客文章爬取工具,支持WordPress和Typecho平台,可将文章导出为CSV、HTML或TXT格式。
✨ 功能特点
- 支持爬取WordPress和Typecho平台的博客文章
- 自动检测博客平台类型
- 提取文章详细信息:标题、发布时间、分类、内容、标签、特色图片等
- 支持多种导出格式:CSV、HTML、TXT
- 友好的用户交互界面
- 礼貌爬取,避免对目标网站造成过大压力
- 详细的日志记录
🚀 快速开始
环境要求
- Python 3.6+ 环境
- 安装依赖包
安装依赖
pip install requests beautifulsoup4
使用方法
- 克隆或下载本项目到本地
- 安装必要的依赖包
- 运行主程序
python wp_crawler.py
- 按照提示选择要爬取的博客平台
- 输入博客站点地址
- 等待爬取完成后,选择导出格式并输入文件名前缀
📁 项目结构
├── wp_crawler.py # 主程序文件
├── wp_crawler.log # 日志文件(自动生成)
├── .gitignore # Git忽略文件配置
└── venv/ # Python虚拟环境(可选)
📊 数据导出格式说明
CSV格式
包含文章的所有详细信息,便于数据分析和处理。
HTML格式
生成一个美观的HTML页面,包含所有文章内容,可直接在浏览器中查看。
TXT格式
以纯文本形式保存文章内容,便于阅读和编辑。
⚠️ 注意事项
- 请尊重网站的版权和robots.txt规则
- 爬取大量文章可能会对目标网站造成压力,建议合理设置爬取频率
- 本工具仅供学习和研究使用,请遵守相关法律法规
- 尊重和保障他人劳动成果与著作权
🤝 贡献
欢迎提交Issue和Pull Request来改进这个项目。
📄 许可证
FishCat v1.0 by tniay 反馈QQ:3581738884
评论(0)
暂无评论