前言 最近在看Video Moment Retrieval和Highlight Detection的相关研究,其中效果比较好的工作如Moment-DETR,QD-DETR,CG-DETR都使用了DETR作为基本结构?所以有了这篇笔记。 DETR (Detection Transformer) 概述 DETR 将目标检测任务视为集合预测问题,主要目标是设计一个端到端的模型,不依赖人工设计的先验信息(如non-maximum suppression和anchor generation)。该网络可以分为四个主要部分: CNN特征提取: 使用卷积神经网络(CNN...
对比学习研究的四个阶段 对比学习是一类强大的自监督学习方法,逐步在计算机视觉领域得到了广泛的应用。本文根据对比学习方法的演化,将其分为四个阶段,并对每个阶段的代表性方法进行介绍。 第一阶段:初期对比学习方法 1. InstDisc (Instance Discrimination) Instance Discrimination 提出了个体判别作为代理任务,并首次引入了 memory bank 和 NCE(Noise Contrastive Estimation)损失来训练模型。该方法使用动量更新策略来逐步提升特征的稳定性和一致性。 2. Unsu...
对比学习与无监督学习概述 对比学习(Contrastive Learning)是一种旨在无需图片内容(标签信息)前提下,将相似图像的特征拉近,同时将不同图像的特征尽量拉远的技术。代理任务(Pretext Task)作为一种没有明确语义的任务,目的是生成自监督信号,充当虚拟的标签信息。比如说在计算机视觉任务中,通过人为规则定义哪些图像是相似的,哪些是不相似的。 Instance Discrimination 方法 在对比学习的框架下,Instance Discrimination 是一种物体判别任务。对于同一张图片,query 和 key 是来自该图片的不同视角。通过裁剪...
原文链接 亚里士多德的哲学强调,部分的整合能超越其总和。 1. 概要 人工智能需要摆脱过度还原主义(excessive reducationism),转向一个整体的系统。本文提出一个新的模型概念——Agent Foundation Model。一个具身智能体(embodied agent)被概念化为一个互动系统,它通过感知能力与人类进行交流,并与环境互动,执行符合人类意图的动作。 作者相信,AI 社区将稳步积累必要的知识,从而使 AI 模型从用于被动、结构化任务转型为能够在复杂环境中进行动态交互的角色。这种方...