竞赛总结:智能驾驶汽车虚拟仿真视频数据理解
竞赛总结:智能驾驶汽车虚拟仿真视频数据理解
- 赛题名称:2023全球智能汽车AI挑战赛——赛道二:智能驾驶汽车虚拟仿真视频数据理解赛道
- 赛题任务:对视频中的信息进行综合理解,以指定的json文件格式,按照数据说明中的关键词(key)填充描述型的文本信息
- 赛题类型:计算机视觉、目标检测
比赛链接:2023全球智能汽车AI挑战赛——赛道二:智能驾驶汽车虚拟仿真视频数据理解赛道
Datawhale教学视频:二次元的Datawhale的个人空间-二次元的Datawhale个人主页)
赛事背景
当前,全球新一轮科技革命和产业变革蓬勃发展,汽车与人工智能技术加速融合,电动化、网联化、智能化成为汽车产业的发展潮流和趋势,AI技术将更广泛地和汽车产业的各个领域,应用于汽车的智能维护、智能制造、智能驾驶等诸多方面。作为人工智能技术和汽车产业先进技术的倡导者,吉利汽车集团、阿里云、NVIDIA 英伟达一直致力于推动未来出行方式的发展,共同发起了本届2023全球智能汽车AI挑战赛。本届比赛将汇聚来自全球各地的杰出AI领域人才,推动自动驾驶、AI大模型、加速计算、云计算技术三者深度结合,为未来智能出行提供更加安全、高效、舒适的解决方案。
赛事任务
输入:元宇宙仿真平台生成的前视摄像头虚拟视频数据(8-10秒左右);
输出:对视频中的信息进行综合理解,以指定的json文件格式,按照数据说明中的关键词(key)填充描述型的文本信息(value,中文/英文均可以);
数据说明
文本描述结构树
上传json格式示例
1 | 建议用英文提交: |
为了减少程序编译过程中的问题,提交答案的json文件中的 key & value 请使用英文,key请不要进行更改,value使用以下列表中的元素。
1 | "scenario" : ["suburbs","city street","expressway","tunnel","parking-lot","gas or charging stations","unknown"] |
评测指标
初赛阶段:排行榜总分=视频理解准确度分数
复赛阶段:复赛总成绩=复赛排行榜视频理解准确度分数(100%)+代码复现时效分数(10%)
具体成绩计算方法和晋级标准请参考【赛制介绍】
视频理解准确度分数评测规则如下:
参赛者可采用不同的人工智能的模型和算法,推理出对应视频的描述语言,参赛者可以在给定的备选答案中选出一个正确的答案,如果其描述语言不在给定的备选答案中,也可以给出一个最佳的答案。
系统会针对参赛者提交的json文件,通过描述型的文本信息与真值进行对比,综合得出分数;其中,“距离最近的交通参与者的行为”的题目为2分,其它题目为1分;每个视频的满分为10分。每一个视频结果中的key值,需要参考数据说明的json格式示例,请勿进行修改。
对于真值部分,组织者会建立对应的中英文近义词作为真值列表,只要在该列表中就获得分数,例如真值“雨天” = [“雨天”, “雨”, “小雨”… , “rainy”, “rain”, “raining”…],参赛选手可以选择对应的近义词来进行作答,但每一项的真值列表不公开,仅体现在后台程序中。
解题思路
基本思路
- 使用文本与图像进行匹配
datawhale学习组织将Baseline部署在线上平台百度AI Studio上,可一键fork运行代码:
baseline代码解读
1 | # 导入必要的库和模块 |
进阶思路
- 使用图像进行视觉问答
- 时序视频进行视频问答
- 使用多模态大模型(CLIP)进行问答
多模态大模型CLIP简介
CLIP(Contrastive Language-Image Pre-training)是一种多模态大模型,由OpenAI开发。它是一种能够同时理解文本和图像的模型,通过对文本和图像进行对比性学习,使其在多模态任务上表现出色。以下是CLIP的一些关键特点和工作原理的简介:
- 多模态表示学习: CLIP的设计目标是使模型能够理解文本和图像之间的语义关系,而不是仅限于特定任务。这使得CLIP在各种任务上都能表现良好,而无需针对每个任务进行专门的微调。
- 对比性学习: CLIP使用对比损失进行训练。这意味着模型学会将相关的文本和图像样本靠近,而不相关的样本分开。这种对比性学习的方法使得CLIP在理解语义关系时更为强大。
- 零样本学习: CLIP在零样本学习方面表现出色。这意味着模型可以在没有特定任务样本的情况下执行任务,因为它已经学会了通用的文本-图像表示。
- 大规模预训练: CLIP是在大规模文本和图像数据上进行预训练的。这使得模型能够捕捉更广泛的语义信息,从而在多种任务上通用。
- 应用广泛: 由于其多模态的性质,CLIP可以用于多种任务,包括图像分类、物体检测、文本检索等。
总体而言,CLIP代表了一种强大的多模态学习方法,使得模型能够理解文本和图像之间的语义关系,并在各种任务上表现出色。
大佬代码解读
大佬代码地址(大家可以关注膜拜一下大佬):self drive | Kaggle
推理天气,时间和道路结构
1 | # 导入必要的库 |
推理最近交通参与者
1 | # 导入必要的库 |
推理自车行为
1 | import glob |
推理场景
1 | from torch.utils.data import DataLoader, Dataset |
1 | import glob |
推理其余杂项
1 | def data_processing(results): |