摘要
一句话总结
Easy Dataset 是一个专为大语言模型(LLM)微调、RAG 和性能评估设计的强大开源工具,能够将多种格式的非结构化文档转化为高质量的结构化数据集。
核心要点
- 智能文档处理:支持 PDF、Markdown、DOCX、EPUB 等多种格式的解析,提供多种智能文本分割算法,并能自动构建领域标签树。
- 多类型数据生成:支持生成单轮问答、多轮对话、图文问答(Image QA)数据集,以及无需上传文档的直接数据蒸馏。
- 完善的评估系统:自 1.7.0 版本起,提供自动化模型评估(Judge Model)、人类双盲测试(Arena)以及 AI 数据质量自动评分与过滤功能。
- 广泛的模型兼容性:兼容所有符合 OpenAI 格式的 LLM API,支持 Ollama(本地模型)、智谱、阿里百炼等,并支持 Gemini、Claude 等视觉模型。
- 丰富的导出与集成:支持导出为 Alpaca、ShareGPT 等格式(JSON/JSONL),支持一键生成 LLaMA Factory 配置文件,并可直接上传至 Hugging Face Hub。
- 高级管理与监控:支持项目级自定义提示词模板、后台批量任务管理、Token 消耗统计,并提供最多可同时对比 3 个模型的测试场。
- 跨平台与多语言支持:提供 Windows、macOS 和 Linux 桌面客户端,支持 NPM 与 Docker 部署;界面支持中文、英文和土耳其语。
- 项目热度与学术背景:基于 AGPL 3.0 协议开源,GitHub 获星超 1.3 万,并附有相关的 arXiv 学术论文(2507.04009)。
功能与定位
A powerful tool for creating datasets for LLM fine-tuning 、RAG and Eval
典型使用场景
- 作为学习与选型参考入口,快速定位资料与最佳实践。
- 用于团队知识库沉淀与技术调研。
核心功能
- 汇总课程、示例、清单或社区经验。
- 强调可检索性与持续更新。
- 适合学习路径规划与资源导航。
特色与差异点
- 仓库长期活跃,最近更新时间为 2026-02-22T12:33:46Z。
- 项目创建于 2025-03-04T16:14:14Z,具备持续迭代与社区沉淀。
- 以
JavaScript为主语言,聚焦该技术栈的工程实践。
使用方式概览
- 阅读仓库 README 与官方文档,确认适配场景与依赖条件。
- 按项目推荐方式完成安装与初始化,再从示例或最小流程开始验证。
- 在生产使用前补齐权限控制、日志监控和版本固定策略。
限制与注意事项
- 使用前应先核对许可证、项目维护状态与安全边界。
链接
- 仓库:https://github.com/ConardLi/easy-dataset
- 官网:https://docs.easy-dataset.com
- README:https://raw.githubusercontent.com/ConardLi/easy-dataset/main/README.md
- Releases:https://github.com/ConardLi/easy-dataset/releases