easy-dataset：专为大语言模型（LLM）微调、RAG 和性能评估设计的强大开源工具，能够将多种格式的非结构化文档转化为高质量的结构化数据集

摘要

Easy Dataset 是一个专为大语言模型（LLM）微调、RAG 和性能评估设计的强大开源工具，能够将多种格式的非结构化文档转化为高质量的结构化数据集。

智能文档处理：支持 PDF、Markdown、DOCX、EPUB 等多种格式的解析，提供多种智能文本分割算法，并能自动构建领域标签树。
多类型数据生成：支持生成单轮问答、多轮对话、图文问答（Image QA）数据集，以及无需上传文档的直接数据蒸馏。
完善的评估系统：自 1.7.0 版本起，提供自动化模型评估（Judge Model）、人类双盲测试（Arena）以及 AI 数据质量自动评分与过滤功能。
广泛的模型兼容性：兼容所有符合 OpenAI 格式的 LLM API，支持 Ollama（本地模型）、智谱、阿里百炼等，并支持 Gemini、Claude 等视觉模型。
丰富的导出与集成：支持导出为 Alpaca、ShareGPT 等格式（JSON/JSONL），支持一键生成 LLaMA Factory 配置文件，并可直接上传至 Hugging Face Hub。
高级管理与监控：支持项目级自定义提示词模板、后台批量任务管理、Token 消耗统计，并提供最多可同时对比 3 个模型的测试场。
跨平台与多语言支持：提供 Windows、macOS 和 Linux 桌面客户端，支持 NPM 与 Docker 部署；界面支持中文、英文和土耳其语。
项目热度与学术背景：基于 AGPL 3.0 协议开源，GitHub 获星超 1.3 万，并附有相关的 arXiv 学术论文（2507.04009）。

A powerful tool for creating datasets for LLM fine-tuning 、RAG and Eval