摘要
-
一句话总结 MediaCrawler 是一个基于 Python 和 Playwright 框架的多平台自媒体数据采集工具,支持免 JS 逆向抓取小红书、抖音、B站等七大主流平台的公开信息。
-
关键要点
- 多平台支持:支持抓取小红书、抖音、快手、B站、微博、百度贴吧和知乎的帖子、视频及评论数据。
- 核心技术:基于 Playwright 浏览器自动化框架保存登录态,通过浏览器上下文环境直接获取签名参数,无需进行复杂的 JS 逆向工程。
- 通用功能:针对所有支持的平台,均提供关键词搜索、指定帖子ID爬取、二级评论抓取、指定创作者主页爬取、登录态缓存、IP代理池以及生成评论词云图功能。
- 项目热度:该开源项目在 GitHub 上极受欢迎,拥有超过 44,000 个 Stars 和 9,600 个 Forks。
- 环境依赖:项目依赖 Node.js(版本 >= 16.0.0),并官方推荐使用
uv工具进行 Python 包的安装与依赖管理。 - Pro版本演进:项目推出了 MediaCrawlerPro 订阅版本,新增了断点续爬、多账号支持、去除 Playwright 依赖、完整 Linux 支持以及自媒体内容拆解 Agent 等企业级高级特性。
- 风险与缺口
- 合规与法律风险:项目明确声明仅供学习和参考,严禁用于商业用途、非法用途或对其他平台进行大规模爬虫,并附带了爬虫违法违规案件的警示链接。
- 风险标记:该项目在基本信息中被归类为“风险边界与合规”,且明确带有
risk_flag: 1的风险标记。 - 免责声明:开发者不对因使用本仓库内容而引起的任何法律责任承担责任。
功能与定位
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
典型使用场景
- 用于识别项目的合规边界与使用风险。
- 为内部收录提供风险说明,避免误用。
核心功能
- 记录项目定位与公开信息。
- 标注潜在合规、授权或滥用风险。
- 不提供可操作细节。
特色与差异点
- 仓库长期活跃,最近更新时间为 2026-02-22T12:27:21Z。
- 项目创建于 2023-06-09T12:14:34Z,具备持续迭代与社区沉淀。
- 以
Python为主语言,聚焦该技术栈的工程实践。
使用方式概览
- 阅读仓库 README 与官方文档,确认适配场景与依赖条件。
- 按项目推荐方式完成安装与初始化,再从示例或最小流程开始验证。
- 在生产使用前补齐权限控制、日志监控和版本固定策略。
限制与注意事项
- 该项目可能涉及抓取策略、提示词泄露或访问边界等高风险议题。
- 本仓库仅记录项目定位与风险提示,不复述任何可执行步骤、命令、脚本、配置或分发渠道细节。
- 若无法在合规边界内使用,建议不采用。
链接
- 仓库:https://github.com/NanmiCoder/MediaCrawler
- 官网:https://nanmicoder.github.io/MediaCrawler/
- README:https://raw.githubusercontent.com/NanmiCoder/MediaCrawler/main/README.md
- Releases:https://github.com/NanmiCoder/MediaCrawler/releases