wsl-docs

❯

❯

风险边界与合规

❯

MediaCrawler：Python 自媒体公开信息采集工具，面向七个站点的帖子与评论抓取

MediaCrawler：Python 自媒体公开信息采集工具，面向七个站点的帖子与评论抓取

发布日期：2026-02-225分钟阅读

摘要

一句话总结 MediaCrawler 是一个基于 Python 和 Playwright 框架的多平台自媒体数据采集工具，支持免 JS 逆向抓取小红书、抖音、B站等七大主流平台的公开信息。
关键要点

多平台支持：支持抓取小红书、抖音、快手、B站、微博、百度贴吧和知乎的帖子、视频及评论数据。
核心技术：基于 Playwright 浏览器自动化框架保存登录态，通过浏览器上下文环境直接获取签名参数，无需进行复杂的 JS 逆向工程。
通用功能：针对所有支持的平台，均提供关键词搜索、指定帖子ID爬取、二级评论抓取、指定创作者主页爬取、登录态缓存、IP代理池以及生成评论词云图功能。
项目热度：该开源项目在 GitHub 上极受欢迎，拥有超过 44,000 个 Stars 和 9,600 个 Forks。
环境依赖：项目依赖 Node.js（版本 >= 16.0.0），并官方推荐使用 uv 工具进行 Python 包的安装与依赖管理。
Pro版本演进：项目推出了 MediaCrawlerPro 订阅版本，新增了断点续爬、多账号支持、去除 Playwright 依赖、完整 Linux 支持以及自媒体内容拆解 Agent 等企业级高级特性。

风险与缺口

合规与法律风险：项目明确声明仅供学习和参考，严禁用于商业用途、非法用途或对其他平台进行大规模爬虫，并附带了爬虫违法违规案件的警示链接。
风险标记：该项目在基本信息中被归类为“风险边界与合规”，且明确带有 risk_flag: 1 的风险标记。
免责声明：开发者不对因使用本仓库内容而引起的任何法律责任承担责任。

功能与定位

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频｜评论爬虫、微博帖子｜评论爬虫、百度贴吧帖子｜百度贴吧评论回复爬虫 | 知乎问答文章｜评论爬虫

典型使用场景

用于识别项目的合规边界与使用风险。
为内部收录提供风险说明，避免误用。

核心功能

记录项目定位与公开信息。
标注潜在合规、授权或滥用风险。
不提供可操作细节。

特色与差异点

仓库长期活跃，最近更新时间为 2026-02-22T12:27:21Z。
项目创建于 2023-06-09T12:14:34Z，具备持续迭代与社区沉淀。
以 Python 为主语言，聚焦该技术栈的工程实践。

使用方式概览

阅读仓库 README 与官方文档，确认适配场景与依赖条件。
按项目推荐方式完成安装与初始化，再从示例或最小流程开始验证。
在生产使用前补齐权限控制、日志监控和版本固定策略。

限制与注意事项

该项目可能涉及抓取策略、提示词泄露或访问边界等高风险议题。
本仓库仅记录项目定位与风险提示，不复述任何可执行步骤、命令、脚本、配置或分发渠道细节。
若无法在合规边界内使用，建议不采用。

链接

仓库：https://github.com/NanmiCoder/MediaCrawler
官网：https://nanmicoder.github.io/MediaCrawler/
README：https://raw.githubusercontent.com/NanmiCoder/MediaCrawler/main/README.md
Releases：https://github.com/NanmiCoder/MediaCrawler/releases

关联主题

web-crawling
browser-automation
data-pipeline
compliance
risk
github

关系图谱

摘要
功能与定位
典型使用场景
核心功能
特色与差异点
使用方式概览
限制与注意事项
链接
关联主题

Created with Quartz v4.5.2 © 2026

GitHub