Skip to content

little612pea/2024SRTP

Repository files navigation

2024 SRTP

基于视觉大模型的体育智能分析

入门学习资料:

  1. 目前为止我发现的最为系统和快速的机器学习各大领域概览和介绍《动手学深度学习》

  2. Approaching Almost Any Machine Learning Problem,也很值得通读 AAAMLP 中译版

  3. HobbitQia的笔记本-可以从巨头的笔记开始看 Deep Learning for Computer Vision

  4. 可视化与可视分析入门浙江大学可视分析小组主页

两门圣经课程,都有网课:

  1. 国立台湾大学: 李宏毅机器学习 - CS自学指南 (csdiy.wiki)

  2. Stanford CS231n: CNN for Visual Recognition - CS自学指南 (csdiy.wiki)

相关仓库:

  1. SAM-Track SAMTrack.ipynb - Colab (google.com)

  2. ViP-LLaVA -demo可在线运行 Video LLaVA -可直接运行

  3. Models - Hugging Face周榜-可以经常去玩玩,有很多好玩的模型

  4. ragFlow,一种思路,大模型外挂知识库

训练资源平台:

  1. 智谱AI开放平台 (bigmodel.cn)通义千问API(DashScope),现在的百万tokens调用都不到1块钱,随便用,可以考虑开一个智谱会员,有微调服务,反正就是越来越便宜
  2. AutoDL帮助文档 GPU云服务器_ 弹性计算-阿里云

2024.3-2024.6 继续学习计算机视觉相关知识和pytorch深度学习框架的使用,广泛阅读相关论文,深入了解SAM-track, Vip-LLaVA等主流视频语义分割大模型和InstructBLIP等视觉-文本多模态模型架构。

2024.7-2024.10 针对SAM-track模型进行改进,使之能够应用于体育视频的可视化分析和增强,融合乒乓球比赛数据自身内在时序性,特定空间性和技战术特点,设计恰当的知识推理模型。

2024.11-2024.1 简化SAM-track视频特征提取架构,提升视频语义分割处理性能,结合多模态模型实现视频解说、文本标注、智能问答等功能。

2024.2-2024.4 开发端对端的体育视频增强和可视化软件或模型,并进行测试。

2024.3-2024.5 总结成果,撰写论文投稿,申请专利或软件著作权等

目前邓达臻老师做的主要是人机交互领域(HCI,human ),CHI(ACM Conference on Human Factors in Computing Systems)

**“可视化”和“多模态大模型”**如何在体育的场景下结合 邓老师的个人主页

弄清visual concept programming,visual analytics等概念

初步分工(后两个可以合作进行):

  1. 一个人负责可视化前端的实现方式,搞清楚下面图片这些漂亮的图表是怎么做出来的,进行可视分析的入门(和竺院毕业的大四学长沟通交流,了解毕设内容,可以进行启发)
  2. 一个人深入学习机器学习和深度模型的训练基础内容,怎么对模型进行魔改,怎么做学术裁缝,把几个模型拼起来,统一进行调度
  3. 一个人负责模型的训练,微调等实际部署、云服务器操作,研究如何进行实际的训练,找相应好的仓库,供我们认真学习(抄作业),选阿里云还是AutoDL,去研究清楚

image-20240628210836446

项目背景、目的、意义

每年全世界都会举办大量体育赛事,产生巨量的视频流数据。据统计,2023年卡塔尔世界杯全球互动量达59.5亿人次,有近15亿人观看决赛。从时长不短的体育比赛视频中通过人力分析大量的比赛信息十分困难,也不经济。因此计算机视觉算法逐渐被应用于体育视频的数据提取。基于计算机视觉的体育数据提取,不仅能够提高体育频道和观赛软件在直播中进行实时数据分析和可视化的能力,还能为技术分析人员进一步的可视分析提供数据支撑,为运动员和爱好者提供有针对性的训练和比赛指导。

这些原因促使我们开发更智能的体育视频可视化增强模型。体育视频的可视化分析依赖模型对体育视频的理解,对视频观感进行全方位的增强,应用场景可分为分析场景(for analysis,专业分析)和观赛场景(for entertainment,大众娱乐场景),具体形式多样。观赛场景主要包括人物动作高亮,高光时刻剪辑等;分析场景主要包括可视化分析、动作理解和标注生成。而在多模态学习方向,我们则主要侧重视频智能问答技术和根据视频内容生成文本描述。

这样的多模态大模型具有巨大的应用价值、社会价值和商业潜力。

第一,在专业分析领域,可视化增强后的体育视频可以为运动员研究对手、精进战术、高效备战提供针对性指导,为专业运动员和教练提供强大的训练和分析工具。同时,在大众娱乐领域,这样的模型可以辅助生成精彩的高光时刻剪辑或高亮精彩动作,增强体育赛事的观赏性,吸引更多非专业观众参与体育活动。此外,这种技术也可用于体育教育,为业余爱好者提供有针对性的训练和比赛指导,更好地服务于我国全民的健身政策。

第二,提取的数据能够提高体育频道和观赛软件在直播中进行实时数据分析和可视化的能力,例如提升直播平台的体育博主解说内容的产出速度和质量,为体育赛事的全球传播和推广带来新的可能性,具有一定的商业应用前景。

第三,这样的模型对于其他体育运动视频的分析也同样适用,具有广泛的应用价值。

项目研究方案(计划目标和拟解决问题、思路方法和进度安排)

项目计划基于计算机视觉技术开发体育视频应用场景下的多模态学习和可视化模型。其中需要解决的问题主要有两点。其一,模型如何从比赛直播视频中获取体育赛事领域的专业知识;其二,如何研发同时支持视频可视化增强以及解说性质文本生成的多模态视觉模型,从而支持对体育赛事视频的深度理解和全方位呈现。

最大的技术难点在于微调前的大模型只能提供相对通用的输出,而针对特定领域(如体育)的详细视频理解需要专业领域知识的引入。这需要大型模型能够融合领域专业知识,以提供更具体和精准的视频理解,进而服务于可视化应用。此外,对高帧率视频进行逐帧预测通常是一个计算密集型任务,这使得实现实时性能的视频特征提取和语义分割较为困难。

我们针对这一问题的初步思路是

1)预训练+微调,融合领域知识:从课题组现有的乒乓球等运动的数据集模式和采集工具切入,将体育领域的专业知识到模型中,以便模型能够更好地理解体育视频内容。结合视频信息与其他数据模态(如文本描述、实时数据等),以增强对特定领域的理解。

2)融合视觉知识,增强推理能力和可解释性:通过设计模型结构或附加模块,提取可解释化表征,使模型输出能够更清晰地解释其推理过程,以便于后续的可视化应用

3)针对实时性能问题,轻量化模型架构:参考AR-seg等模型的实现方式,区分对待动作关键帧和普通帧,用线性注意力机制代替CNN操作,以提升模型推理速度。

其次,分析时间或空间轴上更加细粒度的体育动作(如乒乓球中的抛球、挥拍、羽毛球的放网展搓等原子化动作)对模型的性能提出了更高的要求。对此,我们的初步思路是参考SAM-track模型,对重点区域进行跟踪分割,生成标注信息。同时,采用交叉注意力机制、联合训练等多模态融合方法,将像素级的遮罩信息作为额外的视觉特征与知识推理模型中的其他特征进行融合。(“SAM-track”是浙江大学杨易教授团队在Meta AI的视觉大模型segment anything基础上开发的视频语义分割模型,采用包括点击、划线和文本在内的多模态交互方法,使用户能够选择视频中的多个对象进行跟踪,得到指定对象的像素级精确遮罩。)

针对项目的关键难点,我们安排项目的时间线如上所述。

项目研究条件(已取得成绩和已具备条件、尚缺少的条件及解决方法)、创新之处

a) 研究条件:

​ i. 项目负责人参与浙江大学SDG可视化分析暑校,有体育数据可视化和可视分析项目研究经验,对项目方向有清晰的把握。项目成员修习了cs231n,李宏毅机器学习等相关课程,具有一定的专业基础。

​ ii. 目前课题组对体育比赛视频的数据有大量半自动化的检测和采集工具,发表了一系列论文,有较为成熟的数据管理平台。在具体体育运动类型方面,课题组对乒乓球的球检测、球员的检测等都开发了相关模型,研究方法较为成熟。

​ iii. 视频语义分割模型网络结构较为重量级,支撑实时的分析推理任务仍有挑战,多模态大模型训练过程中如何融合体育领域的专业知识相对困难,需进一步学习调研。

b) 创新之处:

​ i. 像素级别的细粒度视频语义分割为模型更深层次理解体育视频信息提供了可能,提升模型推理速度,突破视频分割和可视化增强的实时处理性能。

​ ii. 通过融合体育领域专业知识并设计提取可解释性表征,增强模型的专业性、可解释性和泛化能力,应用于各类体育运动视频理解场景。

​ iii. 预训练大模型具备强大的零样本学习能力,即在没有进行特定任务微调的情况下,也能应用于新任务并取得优异表现。预训练-微调机制使这些模型不仅在特定任务上表现出色,还能够在不同任务之间共享知识,提高整体效率性能。

4、 项目预期成果(包括论文成果、获奖成果、推广成果、专利成果、开发软件等,以及经济、社会效益)(500)

a) 项目预期研发一款通过对体育视频数据时序和空间特征进行细粒度提取,融合体育领域专业知识训练的端到端知识推理模型,支持对体育赛事视频的深度理解和全方位呈现,为专业运动员和业余爱好者提供体育视频的可视化分析。

b) 项目计划将研究成果以论文的形式展现,侧重阐释如何基于计算机视觉技术和多模态模型进行体育视频的智能分析,以及基于采集的视频数据如何进行智能内容问答和视频-文本生成。计划投稿至高质量会议和期刊。

c) 项目计划根据研发的计算机视觉模型开发一款体育视频智能分析软件,将实现的功能集成封装,为后续市场应用和研究提供数据支持。计划申请专利和软件著作权。

d) 研发的技术可以推广到各类运动中,为运动员提供训练备战的数据支撑和技术指导。

当然,以下是关于领域词汇增强和领域知识注入的详细阐述,包括知识蒸馏、额外信息输入和注意力机制调整的过程:

领域词汇增强

词汇收集:首先,从领域文献、专业词典、术语数据库等资源中收集领域特定的词汇和术语。

词汇处理:对收集到的词汇进行清洗和标准化处理,确保词汇的一致性和可用性。

词汇表扩展:将处理后的领域词汇添加到预训练模型的词汇表中。如果词汇表中已有相似词汇,需要进行去重和合并。

重新编码:更新模型对词汇的编码,确保新添加的词汇能够被模型正确识别和处理。

领域知识注入

知识蒸馏

专家模型训练:首先,使用领域数据训练一个小型的领域专家模型,这个模型能够捕捉到领域知识。

知识迁移:通过蒸馏技术,将领域专家模型的知识迁移到大模型中。这通常涉及到将小模型的输出(如软标签)作为大模型的训练目标。

温度调节:在蒸馏过程中,可以设置一个温度参数来调节软标签的分布,帮助大模型学习到领域知识。

额外信息输入

知识结构化:将领域知识整理成结构化的形式,如知识图谱、本体论、数据库等。

嵌入融合:将结构化的知识转换为嵌入向量,并将这些向量与文本数据的嵌入向量进行融合。融合可以是简单的拼接,也可以是更复杂的交互机制。

模型适配:修改模型结构,使其能够接受额外的知识嵌入作为输入,例如在Transformer模型的输入层增加一个知识嵌入的维度。

注意力机制调整

注意力权重:通过修改注意力机制中的权重计算方式,使模型在处理输入时更加关注领域关键信息。

注意力增强:可以设计特定的注意力模块,如键值对注意力或图注意力,来增强模型对领域特定关系的捕捉能力。

上下文敏感:使注意力机制能够根据不同的上下文环境调整权重分配,更好地处理领域内的细微差别。

实施步骤

模型准备:选择一个基础的大模型,并准备好领域数据。

知识整合:根据上述方法,将领域词汇和知识整合到模型中。

微调训练:使用领域数据对模型进行微调,让模型学习到领域知识。

评估与优化:在领域特定的任务上评估模型性能,根据评估结果进行迭代优化。

通过这些方法,可以有效地将领域知识融合到大模型中,提高模型在特定领域的表现。需要注意的是,这一过程可能需要多次尝试和调整,以达到最佳效果。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published