Skip to content
Steven-Zhl edited this page Feb 6, 2024 · 9 revisions

🎉欢迎访问我们的Chatbot项目主页!

目录

关于本项目

  • 本项目是云南大学-2020级智能科学与技术的实训项目,目标为构建一个聊天机器人,拥有完整的前后端,并且能够进行语音输入输出。
  • 截至2024年1月18日,借助开源项目和相关论文的研究成功,结合我们的工作,已完成上述目标。
  • 因为最后选择的TTS训练语料来自某游戏角色,取得了很好的效果,并且我们大家都很喜欢她,所以最后用她的头像+校徽作为项目组Logo。
393b340f04571b79c7639f9ff44d88b2

关于模型

  • Backbone: Transformer[1]
  • ASR: Whisper[2]
  • NLG: ChatGLM3-6B[3]
  • TTS: Bert-VITS2[7] (FastSpeech2[8]因语音合成效果太过生硬且不支持多语言,后被放弃,但我们仍然保留了对FastSpeech2的支持)

关于Finetune

  • Finetuning: LoRA[4]
  • GLM Self-Cognition Finetuning​: Q-LoRA[5]
  • Whisper Finetuning: AdaLoRA[6]

关于Wozzilla项目组

  • Wozzilla项目组是一个来自YNU(横滨国立大学云南大学)信息学院的一个兴趣小组,由五名成员组成,为了一个共同的项目目标聚在一起,共同完成了本项目。
  • 无论是组织名Wozzilla还是模型名Waltz,均包含了'W','Z','L'三个字母——这是五个成员的姓氏首字母。

References

Documentation

Papers

  1. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).​

  2. Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." International Conference on Machine Learning. PMLR, 2023.

  3. Du, Zhengxiao, et al. "Glm: General language model pretraining with autoregressive blank infilling." arXiv preprint arXiv:2103.10360 (2021).

  4. Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021).​

  5. Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." arXiv preprint arXiv:2305.14314 (2023).​

  6. Zhang, Qingru, et al. "Adaptive budget allocation for parameter-efficient fine-tuning." arXiv preprint arXiv:2303.10512 (2023).​

  7. Kong, Jungil, et al. "VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design." arXiv preprint arXiv:2307.16430​

  8. Ren, Yi, et al. "Fastspeech 2: Fast and high-quality end-to-end text to speech." arXiv preprint arXiv:2006.04558​

  9. Aghajanyan, Armen, Luke Zettlemoyer, and Sonal Gupta. "Intrinsic dimensionality explains the effectiveness of language model fine-tuning." arXiv preprint arXiv:2012.13255 (2020).​

Clone this wiki locally