杂谈110B:本科毕业论文致谢
致谢 时节不居,大学四年已然接近尾声。往事种种,恍如昨日,皆成今我:从第一次踏进北海苑的宿舍大门,到走出听海苑前往深圳;从大一和陌生同学参加线上ICPC省赛,到大三和朋友一起前往济南;从2021年写下第一篇博客,到如今投稿第一篇顶会;在报道当天上午开服入坑的某款开放世界游戏,如今也来到了4.6版本。四年时光,如白驹过隙,如梦一场,在我人生中留下浓墨重彩的一笔。求学四载,幸得家人、良师和益友相伴而行,此刻,只想将千言万语最终汇聚成一句句感谢:
春晖寸草,难以回报。感谢我的父母,感谢您们的支持与引导,在我每次重要抉择时给予我建议,尊重的我选择。家永远是我最坚强的后盾,也是我一路走来的底气与勇气。
涓涓恩师,铭记于心。感谢老师和前辈,您们教授我知识与经验,为我指引前进的方向。感谢高峰老师在本科期间对我的指导,引领我踏进科研的大门,给予了我很大的帮助,是我人生路上的榜样。感谢信息学部的认可与栽培,感谢每一位老师,让我从一个小白逐步构建起对整个学科的认知。感谢学长学姐在我学习与保研中对我的帮助,激励着我向前。特别感谢我的研究生导师刘梦源老师,老 ...
CVPR2023(Award Candidate)Ego-Body Pose Estimation via Ego-Head Pose Estimation 阅读笔记
[toc]
论文研究背景、动机与主要贡献在以自我为中心的视频中,人体的大部分关节通常不可见,这为问题带来了重大挑战。尽管从以自我为中心的视角看不到身体关节,但环境变化的视觉信息为推断头部如何移动提供了强烈的信号。这项工作,使用头部姿势作为中间表示来连接以自我为中心的视频和全身动作。
EgoEgo首先集成了SLAM和学习方法来估计准确的头部运动。随后,利用估计的头部姿势作为输入,Ego利用条件扩散生成多个似是而非的全身运动。
最大的好处在于:方法的分解消除了从成对的以自我为中心的视频和人体姿势中学习的需求,从而能够结合大规模单模态数据集(例如,只有以自我为中心的视频或 3D 人体姿势的数据集)进行学习。
我们的工作做出了四个主要贡献:
我们提出了一个分解范式,EgoEgo,将从以自我为中心的视频中的运动估计问题分解为两个阶段:自我头部姿势估计,以及基于头部姿势的自我身体姿势估计。
我们为自我头部姿势估计开发了一种混合方法,结合了单目SLAM的结果和学习。
我们提出了一个条件扩散模型,根据头部姿势生成全身姿势。
我们为不同的方法提供了一个大规模的合成数据集,并展示了我们的方法在很大的范围 ...
CVPR2023:ARCTIC A Dataset for Dexterous Bimanual Hand-Object Manipulation 阅读笔记
[toc]
论文研究背景、动机与主要贡献研究背景及动机人类本能地理解,无生命的物体不会自己移动,但状态的变化通常是由人类操纵引起的(例如,打开一本书)。对于机器来说,情况还不是这样。在某种程度上,这是因为没有数据集具有真实的3D注释,用于研究手部和关节物体的物理一致和同步运动。
论文介绍了一个名为ARCTIC的数据集,旨在研究灵巧的双手物体操作。
1. 人-物交互数据集的需求: 随着计算机视觉和机器学习技术的发展,对于能够理解和模拟人与物体之间复杂交互的数据集的需求日益增加。尤其是双手与物体之间的交互,这种交互在日常生活中非常常见,但在现有的数据集中很少被深入研究。
2. 3D手和物体重建的挑战: 从单目视频中重建3D手和物体的运动是一个具有挑战性的任务。现有的方法和数据集往往只关注手或物体的单独重建,而忽略了它们之间的交互。
主要贡献1. ARCTIC数据集的推出:
数据内容:ARCTIC数据集包含了手操作关节物体的视频,这些视频不仅捕捉了双手与物体之间的复杂交互,还提供了精确的3D手和物体网格以及详细的接触信息。这些信息对于理解和模拟双手与物体之间的交互至关重要。
2. 提出 ...
杂谈SP YOU CAN (NOT) ADVANCED——保研经验贴
杂谈SP: YOU CAN (NOT) ADVANCED——保研经验贴[toc]
经验篇前言声明:阅读下面的文字应考虑到我个人的基本情况和经历,并且仅针对OUC计算机学院保研的同学,仅从功利的角度介绍,并不适用与所有人!能对您有所启发就好。
由于网上有大量关于保研基本流程的介绍。阅读本文前,已默认读者对保研有了基本的了解。因此,本文出现的概念,如:bar、弱com、CCF A、oq等需要读者提前了解。
建议收藏,在不同阶段都可以拿出来看看,应该都能对您有启发。
感谢yyl和mxy两位同学,他们协助完成了这篇文章~
有任何问题,欢迎联系(见文末)
准备怎么卷总的来说
绩点>科研论文>竞赛(算法类)>科研类项目==英语(六级480+就够了)>=其他竞赛
当然这只是一个整体概念,ICPC金牌肯定要比SCI四区强很多。这个排序的意思是,纯粹从「性价比」的角度来说,应该多花时间在认可度高的方面。可以这样理解:将从零基础到ICPC金所花费的时间,花到科研上,或许都能发CCFA了。CCFA在保研中的认可度还是要远高于ICPC金的。
关于海大的特殊学术专长加分,建议不要 ...
ACL2023:Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation
论文研究背景、动机与主要贡献研究背景及动机这篇论文的研究背景聚焦视觉语言预训练(Vision Language Pretraining,VLP)。VLP通过结合处理视觉和语言信息来学习跨模态的表示。最近,基于大规模预训练的视觉语言模型在不少任务中都取得了很好的效果,如图像标注、视觉问答和视觉推理等。传统的VLP方法通常依赖对比学习,这种方法通过最大化正样本,并最小化负样本之间的相似性来学习跨模态表示。然而这种方法难以效地处理“假负样本(False Negatives)”。如图1所示,图像和文本之间存在多对多对应关系,如I4和I5被标记为负样本,但它们其实也符合或部分符合“A big bird in the tree”的描述。这些假阴性样本的存在显然会对模型效果产生负面影响。
图1 文本和图像存在多对多的关系
论文的主要动机就是解决这个问题。作者从互信息(Mutual Information,MI)优化的角度,通过调节跨模态的相似性来优化对比学习。通过研究过去的InfoNCE loss是怎样最大化MI的,作者发现,优化InfoNCE相当于最大化正样本和锚点(当前的正样本文本)之间的MI ...
CVPR 2023:Query-Dependent Video Representation for Moment Retrieval and Highlight Detection
Baseline (Moment-DETR)视频时刻检索(Video Moment Retrieval)任务在形式上是指,给定一个未剪辑的视频和一个自然的句子查询,该任务旨在识别一个特定视频段的开始和结束时间戳,该视频段包含语义上与给定句子查询相对应的感兴趣的活动。Highlight Detection任务是指对每个video clips去判别是否为Highlight。
论文的baseline是Moment-DETR(QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries)。在过去,尽管Moment Retrieval和Highlight Detection这两项任务有许多共同的特征(例如都需要学习用户文本查询和视频片段之间的相似性),但它们通常被单独研究,主要是由于缺乏在单一数据集中支持这两项任务的注释。而这篇论文首次使模型能够同时完成Moment Retrieval(MR) 和Highlight Detection(HD),并提出了QVHighlights 数据集。
作 ...
CVPR 2023-Towards Generalisable Video Moment Retrieval:Visual-Dynamic Injection to Image-Text Pre-Training
Motivation视频片段检索(Video Moment Retrieval,VMR)已经在人机交互、智能监控等多种实际应用中进行了广泛研究。但是原始视频通常是没有剧本和结构的,而且不同的人描述同一视频片段时所选择的词汇可能会有所不同。因此,VMR在需要理解视频中任意复杂的视觉和运动模式,以及近乎无限的词汇与它们之间的关系,这是非常困难的。
首先,VMR的细粒度检索,相比于传统的图像/视频级别的检索,准确的片段级别的时间标签更难收集。过去(大规模图像-文本预训练模型出现之前),VMR解决方案大量依赖于单模态预训练来理解视觉和文本(如图所示)。然而,如果没有足够的训练数据,从视频和文本中推导出通用的对齐关系以适应新的场景和词汇是非常困难的。
目前的方法主要依赖于大规模的图像-文本预训练模型(如图所示)。然而,这些模型主要关注静态图像和文本之间的关联,而忽视了视频的动态性质。这导致了一个问题:即使在大规模的图像-文本预训练模型的帮助下,VMR模型仍然难以理解和定位视频中的动态变化。
虽然一些方法试图通过在VMR模型中引入额外的序列分析(如LSTM)来捕捉视频变化信息(如图所示),但这 ...
万字解读~~~扩散模型和跨模态生成(内含数学推导)
Diffusion model and cross-modal generation
最近在 AI 作画这个领域,基于Diffusion的各种模型 发展十分迅猛,比如DALLE2、Stable Diffusion、midjourney等等。可以通过一段prompt生成精美的图片,效果非常惊人,有很广阔的商业前景。
除了图像,Diffusion也有用在音频生成领域,可以通过文本来生成对应的音频
还有现在比较热门的视频生成,这是来自meta的make a video。这里输入的是机器人在时代广场跳舞,它就会生成一个几秒钟的视频,同样也使用到了Diffusion model
本文中,我会先详细介绍Diffusion model的原理,并进行数学推导,包括扩散模型的整体概念、前向扩散、逆向扩散和损失函数。
然后再选取两个代表性的跨模态生成模型,文本生成图像的DALLE2,和文本生成视频的Make-A-Video,做进一步的介绍。最后是对Diffusion model的总结和评价
Diffusion modelConcept先讲讲生成式模型的概率。
所谓生成式模型,就是给定训练数据,我们要生成 ...
万字解读~~~大规模预训练模型在视觉理解中的应用——以CLIP为例
The application of large-scale pre-trained models in visual understanding—the case of CLIP本篇博客将以CLIP为例,介绍大规模预训练模型在视觉理解上的应用
我会先介绍问题的背景,也就是什么是大规模预训练模型。然后以Open AI的CLIP模型为例,介绍其在视频检索,图像生成,目标检测,三个方向上的应用。最后进行总结
Background of Pre-trained mode
视觉理解的历史其实是非常悠久的。有人提出 它是经历了 四个技术变迁,四个范式的转变。早期是基于这种小规模的专家系统后来呢是基于浅层的机器学习,像svm,决策树。这往往需要人工取提取特征,然后经过机器学习的方法 把这些特征组合起来。
但是后来随着深度学习的出现, 这种特征的人工选取 已经不再重要了,深度学习能够摆脱复杂的特征工程,机器可以自动的完成。
近几年,随着数据集的增大和算力的提升,出现了预训练的方法。通过海量的数据,先预先学习一个模型参数,然后再以用于不同的任务。
具体来说,传统的机器学习和深度学习方法呢,是假设有大量 ...
python算法复习笔记5(DP,数学)
题目来源:https://www.acwing.com/activity/content/2869/
最长公共上升子序列题意对于两个数列 A和 B。所有的公共上升子序列中最长的就是最长公共上升子序列。
注:子序列不一定连续
A B < 3000
思路最长上升子序列
dp[i]:以i结尾的上升子序列的最大长度。
”上一步“:以x结尾的,x<i。
状态转移:对每个状态,枚举之前的状态即可
最长公共子序列方法1
dp[i][j]只考虑A的前i个数,以B[j]结尾的最长公共子序列
dp[i][j]=
if A[i]==B[j] : max( dp[i-1][0...j-1]+1)。可预先计算mx,优化时间复杂度。(不重不漏)
else : dp[i-1][j] (不重不漏)
方法2(更直观)
dp[i][j]只考虑A的前i个数,B的前 j 个数的答案
dp[i][j]=
if A[i]==B[j] : dp[i-1][j-1]+1
max(dp[i][j-1], dp[i-1][j]) (有重不漏,因为是最大值,不影响)
12345678910111213 ...