新闻中心
-
04-01让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT当前,VideoPoseTransformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些VPT的计算量变得越来越大,这些巨大的计...
-
04-01上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升CLIP长文本能力被解锁,图像检索任务表现显著提升!一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关...
-
03-19DECO: 纯卷积Query-Based检测器超越DETR!标题:DECO:Query-BasedEnd-to-EndObjectDetectionwithConvNets论文:https://arxiv.org/pdf...
-
03-19优于所有方法!HIMap:端到端矢量化HD地图构建矢量化高清(HD)地图构建需要预测地图元素的类别和点坐标(例如道路边界、车道分隔带、人行横道等)。现有技术的方法主要基于点级表示学习,用于回归精确的点坐标。然而...
-
03-11用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理...
-
03-11让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。不过,这个极限究竟有多大?清华大学和哈工大的一项联合研究给出的答案是:90%。他们提出了大模型1b...

