小红书商品信息采集器
一个基于Python的图形化小红书商品信息采集工具,支持批量采集商品信息并导出为Excel或CSV格式。


功能特点
核心功能
- ✅ 商品信息采集:自动采集小红书商品详细信息
- ✅ 图片显示:实时显示商品主图,支持点击查看大图
- ✅ 批量处理:支持批量URL导入和采集
- ✅ 数据导出:支持Excel格式导出,包含图片
- ✅ 进度显示:实时显示采集进度
- ✅ 错误处理:完善的错误提示和重试机制
- ✅ 销量监控:实时监控商品销量变化
- ✅ 历史对比:支持销量历史记录和对比分析
采集信息
- 商品标题
- 商品主图
- 原价和到手价
- 已售数量
- 店铺名称
- 店铺粉丝数
- 店铺总销量
- 商品URL
- 采集时间
监控功能
- 销量实时监控
- 历史数据记录
- 增长趋势分析
- 多商品同时监控
- 数据可视化展示
安装说明
框架选择
本项目提供两种框架版本:
- tkinter版本:轻量级,使用
xhs_scraper.py - PyQt5版本:现代化界面,使用
xhs_scraper_pyqt.py(推荐)
方法一:直接运行(推荐)
-
安装Python 3.7或更高版本
-
打开命令提示符,进入项目目录:
cd 项目路径 -
安装依赖:
pip install -r requirements.txt -
运行程序:
tkinter版本:
python xhs_scraper.pyPyQt5版本(推荐):
python xhs_scraper_pyqt.py
方法二:生成exe文件(推荐)
快速打包(PyQt5版本)
- 打开命令提示符,进入项目目录
- 运行以下命令:
pip install pyinstaller pyinstaller --onefile --windowed --name "小红书采集器" xhs_scraper_pyqt.py - 生成的exe文件在
dist\小红书采集器.exe
详细打包步骤
-
安装打包工具:
pip install pyinstaller -
PyQt5版本打包(推荐):
pyinstaller --onefile --windowed --name "小红书采集器" xhs_scraper_pyqt.py -
传统版本打包:
pyinstaller --onefile --windowed --name "小红书采集器_传统版" xhs_scraper.py
打包参数说明
--onefile:打包成单个exe文件,便于分发--windowed:隐藏命令行窗口,只显示图形界面--name:设置生成的exe文件名xhs_scraper_pyqt.py:PyQt5版本主程序文件
分发方法
打包完成后:
- 单个文件:复制
dist\小红书采集器.exe即可 - 完整分发:将整个
dist文件夹打包发送 - 无需安装:接收方无需安装Python或任何依赖
验证打包
- 进入
dist文件夹 - 双击
小红书采集器.exe - 程序应该能正常启动和运行
注意事项
- 打包后的exe文件大小约为30-50MB(包含所有依赖)
- 首次启动可能稍慢,后续启动正常
- 确保Windows系统版本兼容(Windows 7及以上)
使用说明
基本采集流程
-
添加URL:
- 单个添加:在输入框中粘贴小红书商品URL,点击"添加URL"按钮
- 批量导入:点击"批量导入"按钮,选择包含URL的txt文件(每行一个URL)
-
开始采集:点击"开始采集"按钮,程序会自动提取商品信息
-
查看主图:在结果列表中双击商品主图缩略图可查看商品主图大图
-
导出数据:采集完成后,点击"导出表格"按钮,选择保存格式和位置
-
清空列表:点击"清空列表"按钮可清空所有URL和采集结果
销量监控功能
添加监控商品
- 采集商品:先正常采集商品信息
- 加入监控:在采集结果表格中点击"加入监控"按钮
- 查看监控:切换到"销量监控"标签页查看已添加的商品
监控管理
- 更新监控:点击"更新监控数据"重新采集所有监控商品
- 移除商品:点击监控列表中的"移除"按钮删除商品
- 清空监控:点击"清空监控"移除所有监控商品
- 查看历史:切换到"历史记录"标签页查看商品销量历史
历史记录查看
- 选择商品:在历史记录页面的下拉菜单中选择要查看的商品
- 查看数据:表格显示该商品的所有历史记录
- 趋势分析:显示销量增长趋势和统计数据
监控数据说明
- 当前销量:商品最新的已售数量
- 上次销量:上一次记录的销量
- 增长数量:相比上次的销量增长
- 首次销量:开始监控时的初始销量
- 总增长:从开始监控到现在的总增长量
- 记录时间:数据更新的时间戳
URL格式示例
支持的小红书商品URL格式:
https://www.xiaohongshu.com/goods-detail/商品ID
注意事项
- 请确保网络连接正常
- 采集频率不要过快,建议间隔1-2秒
- 如遇到反爬机制,请稍后再试
- 采集的数据仅供个人使用,请遵守相关法律法规
- ✅ 新版已改为使用官方JSON API,采集成功率大幅提升
- 🎯 支持从商品URL自动提取商品ID,无需手动处理
技术栈
- Python 3.7+
- tkinter / PyQt5(图形界面,双框架支持)
- requests(网络请求)
- JSON API(官方数据接口)
- pandas(数据处理)
故障排除
常见问题
-
无法采集数据
- 检查网络连接
- 确认URL格式正确
- 尝试更新User-Agent
- 新版已改为JSON API,成功率大幅提升
-
中文乱码
- 确保使用UTF-8编码
- 检查系统区域设置
-
依赖安装失败
- 使用国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 使用国内镜像源:
-
Python环境未配置
- 使用run.bat或启动器.vbs自动运行
- 或手动配置Python环境变量
验证新功能
程序已更新为使用官方JSON API,可以通过以下方式验证:
- 运行程序
- 添加测试URL:
https://www.xiaohongshu.com/goods-detail/686f0d392e08950001d788dc - 点击"开始采集",应该能成功获取商品信息
更新日志
v2.8.0
- 📊 历史记录优化:历史记录改为每次监控更新时记录一次(有变动才记录),不再按天记录
- ⏰ 精确时间显示:历史记录显示完整的时间戳(年月日时分秒),而非仅显示日期
- 🎯 变动增量统计:每次销量变动都会单独记录,便于精确分析销量变化节奏
- 🔍 无变动不记录:当销量无变化时不记录历史,减少冗余数据,提升查询效率
- 📈 趋势标签优化:更新趋势标签显示为"近N次变动总增长",更符合新的记录逻辑
v2.7.0
- 📊 销量监控数据导出:新增监控数据导出功能,支持一键导出所有监控商品信息到Excel
- 🖼️ 图片导出支持:导出Excel文件包含商品主图,可直接查看商品缩略图
- 📈 完整数据字段:导出包含商品标题、初始销量、当前销量、增长数量、增长率等完整信息
- ⏰ 时间记录:包含监控开始时间和最后更新时间,便于数据分析
- 📁 一键操作:简单点击"导出数据"按钮即可生成专业Excel报表
v2.6.0
- 🔗 URL智能清理:自动去除小红书商品URL中的无用参数,只保留核心商品详情页URL
- 🎯 URL去重功能:自动检测并过滤重复URL,避免重复采集,支持批量导入时的智能去重
- 🖼️ 图片显示优化:统一所有表格的图片显示样式,确保图片正确对齐,提升视觉一致性
- 💾 数据持久化修复:修复软件重启后销量监控和历史记录不显示的问题,确保数据自动加载
- 🎨 用户体验提升:优化界面响应速度,修复已知bug,提升整体使用体验
v2.5.0
- 📈 销量监控功能:新增商品销量实时监控和历史记录
- 📊 历史对比:支持查看商品销量变化趋势和增长统计
- 🔍 监控管理:独立的管理界面,可添加/删除监控商品
- 📱 数据可视化:图表展示销量变化,支持按日/周/月查看
- ⏰ 自动更新:定时刷新监控数据,支持设置更新频率
v2.4.0
- 📦 exe打包支持:新增完整的exe打包方案,无需Python环境即可运行
- 🎯 一键分发:打包后的exe文件可直接发给任何人使用
- 📝 详细打包文档:提供完整的打包教程和注意事项
- ⚡ 优化打包配置:支持PyQt5版本一键打包
v2.3.1
- 🛠️ 导出修复:修复导出表格与显示结果不一致的问题,确保字段顺序和数据完全匹配
- 🖼️ 图片优化:增强图片下载稳定性,添加重试机制和错误处理
- 📊 字段对齐:统一表格显示和导出数据的字段格式,避免数据错乱
v2.3.0
- 🖼️ 图片显示优化:主图从URL文本改为直接显示缩略图,视觉效果更佳
- 🎯 交互增强:双击缩略图即可查看大图,操作更直观
- 🚀 性能提升:异步图片加载,避免界面卡顿
v2.2.0
- 🎨 PyQt5框架支持:新增现代化PyQt5界面版本,界面更美观
- 📊 表格增强:支持列宽自适应、排序、更好的数据展示
- 🔄 实时进度:精确的进度条显示,采集进度一目了然
- 🎯 用户体验优化:更友好的错误提示和操作反馈
v2.1.0
- 💰 新增优惠券到手价显示:自动识别优惠券价格,显示原价和到手价
- 🖼️ 主图优化:主图信息前置显示,双击可查看大图
- 📁 批量导入:支持从txt文件批量导入URL,每行一个URL
- 📊 数据字段完善:新增原价、到手价字段,信息更完整
v2.0.0
- 🚀 重大更新:改为使用官方JSON API获取数据,采集成功率大幅提升
- 🔧 优化数据提取逻辑,更准确稳定
- 📸 新增商品主图链接显示
- 🎯 支持更多URL格式识别
v1.0.0
- 初始版本发布
- 支持基本采集功能
- 图形化界面完成