Skip to content

Latest commit

 

History

History
208 lines (165 loc) · 4.45 KB

PRD.md

File metadata and controls

208 lines (165 loc) · 4.45 KB

捕获月球多模态合成数据平台 PRD

文档状态: 已确认
版本号: v1.0.0
作者: 正经人王同学
最后更新: 2024-03-20

1. 文档说明

1.1 目的

本文档旨在详细描述捕获月球多模态合成数据平台的产品需求,为开发团队提供明确的功能规范和实现指导。

1.2 范围

本文档涵盖平台的核心功能、用户界面、技术要求等各个方面,作为产品开发的主要依据。

1.3 术语表

  • SFT: Supervised Fine-Tuning,监督微调
  • 合成数据: 通过AI模型生成的训练数据
  • Alpaca格式: Stanford Alpaca项目定义的训练数据格式
  • OpenAI格式: OpenAI API使用的对话数据格式

2. 产品概述

2.1 产品定位

一个专注于大模型训练数据生成的在线工具平台,帮助用户快速生成高质量的模型训练数据。

2.2 目标用户

  • AI研究人员
  • 模型训练工程师
  • 数据科学家
  • 对大模型训练感兴趣的开发者

2.3 产品价值

  1. 降低数据获取成本
  2. 提高数据生成效率
  3. 确保数据质量一致性
  4. 支持多种数据格式转换

3. 功能需求

3.1 核心功能模块

3.1.1 单条处理模式

  • 文件上传功能

    • 支持PDF、DOCX、TXT格式
    • 文件内容预览
    • 上传进度显示
  • URL内容提取

    • 支持微信公众号等文章链接
    • 自动提取文章内容
    • 错误提示和重试机制
  • AI响应生成

    • 可配置生成数量(1-10条)
    • 多角度数据生成
    • 实时预览和编辑
  • 数据管理

    • 本地存储
    • 批量导出
    • 数据预览和编辑

3.1.2 批量处理模式

  • 批量URL处理

    • 多URL并行处理
    • 进度显示
    • 失败重试机制
  • 结果管理

    • 处理状态显示
    • 错误信息展示
    • 批量导出功能

3.1.3 格式转换工具

  • 双向转换

    • Alpaca转OpenAI格式
    • OpenAI转Alpaca格式
  • 批量处理

    • 支持单文件/多文件上传
    • 预览和编辑功能
    • 导出转换结果

3.2 配置管理

3.2.1 API配置

  • API Base URL设置
  • API Key管理
  • 模型选择
    • 预设模型列表
    • 自定义模型支持

3.2.2 生成参数配置

  • 生成数量设置(1-10条)
  • 系统提示词配置
  • 历史对话设置

4. 非功能需求

4.1 性能需求

  • 页面加载时间 < 2s
  • 单条数据处理时间 < 5s
  • 支持同时处理最多100个URL
  • 本地存储容量限制:5MB

4.2 安全需求

  • API Key加密存储
  • 数据本地存储加密
  • 用户数据隐私保护

4.3 兼容性需求

  • 支持主流浏览器:Chrome、Firefox、Safari
  • 响应式设计,支持移动端访问
  • 最低支持Chrome 80版本

5. 界面需求

5.1 总体布局

+------------------+
|      Header      |
+------------------+
|   Navigation     |
+------------------+
|                  |
|    Main Content  |
|                  |
+------------------+
|     Footer       |
+------------------+

5.2 配色方案

  • 主色调: #3B82F6 (蓝色)
  • 背景色: #FFFFFF (白色)
  • 文字颜色: #1F2937 (深灰)
  • 强调色: #10B981 (绿色)
  • 警告色: #EF4444 (红色)

5.3 响应式断点

  • 移动端: < 640px
  • 平板: 640px - 1024px
  • 桌面: > 1024px

6. 技术要求

6.1 开发技术栈

  • 前端框架: React 18
  • UI框架: TailwindCSS
  • 文件处理: PDF.js, Mammoth.js
  • 存储: LocalStorage API

6.2 部署要求

  • 支持Vercel部署
  • 静态网站托管
  • CDN加速支持

7. 项目规划

7.1 开发阶段

  1. Phase 1: 核心功能开发 (2周)
  2. Phase 2: 批量处理功能 (1周)
  3. Phase 3: 格式转换工具 (1周)
  4. Phase 4: 优化和测试 (1周)

7.2 后续规划

  • 支持更多文件格式
  • 添加数据验证功能
  • 批量导入功能
  • 数据标签系统
  • 导出更多格式

8. 风险评估

8.1 技术风险

  • API限流问题
  • 浏览器兼容性问题
  • 本地存储容量限制

8.2 产品风险

  • 数据质量控制
  • 用户使用门槛
  • 竞品模仿

9. 附录

9.1 数据格式示例

{
  "instruction": "用户指令",
  "input": "用户输入(可选)",
  "output": "AI回答",
  "system": "系统提示词(可选)",
  "history": [
    ["历史问题1", "历史回答1"],
    ["历史问题2", "历史回答2"]
  ]
}

9.2 相关资源


文档结束