文档状态: 已确认
版本号: v1.0.0
作者: 正经人王同学
最后更新: 2024-03-20
本文档旨在详细描述捕获月球多模态合成数据平台的产品需求,为开发团队提供明确的功能规范和实现指导。
本文档涵盖平台的核心功能、用户界面、技术要求等各个方面,作为产品开发的主要依据。
- SFT: Supervised Fine-Tuning,监督微调
- 合成数据: 通过AI模型生成的训练数据
- Alpaca格式: Stanford Alpaca项目定义的训练数据格式
- OpenAI格式: OpenAI API使用的对话数据格式
一个专注于大模型训练数据生成的在线工具平台,帮助用户快速生成高质量的模型训练数据。
- AI研究人员
- 模型训练工程师
- 数据科学家
- 对大模型训练感兴趣的开发者
- 降低数据获取成本
- 提高数据生成效率
- 确保数据质量一致性
- 支持多种数据格式转换
-
文件上传功能
- 支持PDF、DOCX、TXT格式
- 文件内容预览
- 上传进度显示
-
URL内容提取
- 支持微信公众号等文章链接
- 自动提取文章内容
- 错误提示和重试机制
-
AI响应生成
- 可配置生成数量(1-10条)
- 多角度数据生成
- 实时预览和编辑
-
数据管理
- 本地存储
- 批量导出
- 数据预览和编辑
-
批量URL处理
- 多URL并行处理
- 进度显示
- 失败重试机制
-
结果管理
- 处理状态显示
- 错误信息展示
- 批量导出功能
-
双向转换
- Alpaca转OpenAI格式
- OpenAI转Alpaca格式
-
批量处理
- 支持单文件/多文件上传
- 预览和编辑功能
- 导出转换结果
- API Base URL设置
- API Key管理
- 模型选择
- 预设模型列表
- 自定义模型支持
- 生成数量设置(1-10条)
- 系统提示词配置
- 历史对话设置
- 页面加载时间 < 2s
- 单条数据处理时间 < 5s
- 支持同时处理最多100个URL
- 本地存储容量限制:5MB
- API Key加密存储
- 数据本地存储加密
- 用户数据隐私保护
- 支持主流浏览器:Chrome、Firefox、Safari
- 响应式设计,支持移动端访问
- 最低支持Chrome 80版本
+------------------+
| Header |
+------------------+
| Navigation |
+------------------+
| |
| Main Content |
| |
+------------------+
| Footer |
+------------------+
- 主色调: #3B82F6 (蓝色)
- 背景色: #FFFFFF (白色)
- 文字颜色: #1F2937 (深灰)
- 强调色: #10B981 (绿色)
- 警告色: #EF4444 (红色)
- 移动端: < 640px
- 平板: 640px - 1024px
- 桌面: > 1024px
- 前端框架: React 18
- UI框架: TailwindCSS
- 文件处理: PDF.js, Mammoth.js
- 存储: LocalStorage API
- 支持Vercel部署
- 静态网站托管
- CDN加速支持
- Phase 1: 核心功能开发 (2周)
- Phase 2: 批量处理功能 (1周)
- Phase 3: 格式转换工具 (1周)
- Phase 4: 优化和测试 (1周)
- 支持更多文件格式
- 添加数据验证功能
- 批量导入功能
- 数据标签系统
- 导出更多格式
- API限流问题
- 浏览器兼容性问题
- 本地存储容量限制
- 数据质量控制
- 用户使用门槛
- 竞品模仿
{
"instruction": "用户指令",
"input": "用户输入(可选)",
"output": "AI回答",
"system": "系统提示词(可选)",
"history": [
["历史问题1", "历史回答1"],
["历史问题2", "历史回答2"]
]
}
- 在线演示:https://sft-data-builder.vercel.app
- 项目仓库:https://github.com/zjrwtx/SFT-data-builder
- 联系方式:[email protected]
文档结束