我在课改后的坎伯维尔插画专业,玩编程!
过去可能一提坎伯维尔的illustration,有人眉头一皱,想也不想直接贴上一个“传统”、“print”的标签。
但大概在2021年,坎伯维尔任职的几位老教授光荣退休,从皇艺、圣马丁等吸纳了一大批思想非常前卫的新老师进来。再加上伦艺把CCI,就是搞计算艺术的那个学部安置到了坎伯维尔校区,顺带手配套了好多高级设施。坎伯维尔的视觉传达,就进行了一场翻天覆地的课程改革。
搁现在再过去看illustration毕设展,你可能都认不出来这4年前原本是个教插画的专业。
坎伯维尔illustrationBA毕业展,生成艺术学生作品(用程序生成插画)
坎伯维尔,从躺平到跳起来开卷
前几年发生了这么件事,就有一年学校订的毕设展场地有些拘谨,导致很多同学没法获得满足的展览位置乃至和老师都吵起来了。于是坎伯维尔痛定思痛,打那后干脆把毕业展给取消了,改成提前一学期开“中期展”。其实这个中期展的规制就相当于过去的毕业展了,作品完成水准是一致的。
然后最后一学期也就是研究生学习中的第三个单元,我们每个同学都需要选择毕业作品所要承载的passway。比如你可以作为一位驻地艺术家 ,参与调研项目。或者成为一位独立出版人 通过学校联系出版社出版自己的个人绘本。而我选择了与博士衔接的学术课程方向 ,产出内容则是一篇research proposal。你也可以加入你对未来研究的艺术方向的前期尝试 (可以是材料实验,艺术表演或原型制作,媒介完全不受限)。
作为第一届小白鼠,学校在我们这届身上尝试过后觉得效果还不错,课程安排更合理了。因为相当于大家在课程2/3的时候,就已经把毕设完成了。到最后一学期每个人都可以为自己未来的工作做一个合理地衔接。
驻地研究:格林威治公园内,拉丁裔社区居民正在打“皮纳塔”,一种节日游戏
问题是,毕设提前了好几月。为了能让大家赶上进度,坎伯维尔的老师们一改往年“好说好话”的形象,提高了教学要求,包括前期对学生进度的疯狂push。
正因为和老师的交流变得更频繁和紧密,学生反而得到了更多的创作拓展空间。
比如去年在伦敦插画的研究生毕业展,我看到有学生他做的完全是一个克苏鲁的二次元跑团,跟英伦理想中的插画风格全然迥异,特别不“坎伯维尔”。 因为我们老师之前也强调过,说大家画插画不要那么“日本”。
也是在这个毕业展,你会发现视传的学生做什么的都有: 艺术装置、策展、游戏交互、游戏实况体验、绘本、陶瓷、定格动画、生成艺术、雕塑等等,还包括我研究的方向——人工智能艺术。
坎伯维尔纯艺术BA毕业展,看到的作品(游戏美术,游戏实况体验)
这种如雨后春笋般涌现的艺术现象,可以说是坎伯维尔课改后这批年轻教师带来的新风气。
我们的课程设置是这样的,有三个学期,每个学期下都有不同的passway。这些passway有些是按照主题关键词 来划分,比如历史、教育、自我探究、自然等等。选择passway后你的创作方向就要和这个主题去贴合,但你的创作形式,学校是没有任何限制的。全靠大家和导师在tutorial的过程中探讨出来。
这种tutorial需要你和导师拥有良好的互动关系,因为在国外念书,导师更倾向于给你提出有用的建议。但学生应拥有独立的思考,你可以通过说服导师来实现自己的想法。
我在选择相关passway后,进行的前期调研相关展示 关键词为everyday object, 我构思了一个虚拟的site进行表达
大家十几个同学一起编辑制作的final,以一个网站的形式呈现。主要内容是关于这一passway关键词的调研内容
比如我在坎伯维尔接触的头两位导师,他们的研究方向其实更偏向工艺,但我个人想做一个processing编程 。于是我们聊着聊着天,导师就开始被我带着往编程的方向跑。他们直言说,这结果的确跟他们预期的想法不太一样。但同时也非常支持我完成作品。
后来到第三个学期,我选择了Gareth当直属导师。Gareth是位比较严肃的男老师,他主要研究艺术与科技 ,在学生中人气不高。毕竟在坎伯维尔的艺术氛围中还是以喜爱画画的同学居多,有个老师天天拉着你做编程,也怪让人头疼的。
但Gareth跟我,简直就是一拍即合 。以至于在毕设时,我都觉得自己的选题过于离谱,但他仍然非常积极地鼓励我做下去,最后还给我打了个高分。
坎伯维尔校内小广场上晒太阳的纯艺术学生
从本科起,我就是个“有点儿想法的人”
我读书那会儿,我们鲁美工艺美术系它分几大工作室,玻璃、陶瓷、综合漆、立体漆、金属等等。它的专业规制还是比较传统的。像我选的玻璃 ,毕设老师说我们来做玻璃铸造,你就得跟着做玻璃铸造。
但我特别喜欢给传统工艺增添点来自“科技”的震撼 。在绝大多数朋友专注于手捏玻璃模具时,我自个捣鼓起如何用建模软件和3D打印技术来打造模具。
后来到坎伯维尔后,题材的不受限让我能够将更多天马行空的想法化作现实。
个性化的贴画在伦敦街头随处可见
比如我毕业汇报时的研究灵感,就来自于我对日新月异的人工智能技术产生的焦虑情绪。这种焦虑情绪的源头是什么呢?人类到底是在为了我们的幸福而发展技术,还是技术在控制我们人类去发展它自己?这类学说在坎伯维尔被称为“极致化” 。
于是我想到,既然创作者害怕AI将自己的作品copy到网络中。那我就主动介入将自己之前做的一些装置、绘画和工艺美术作品输入AI中 ,生成了静态装置和1000多条小视频,然后再用blender 将其合成一条长视频。
在毕业展示那天,我把装置变成了一件服装穿在身上,然后在现场进行了一个舞蹈。我最终的理想是希望AI可以实时记录画面,然后实时生成与我跳舞内容相关的视频,类似MV。不过由于当时只有一个月的时间来完成,所以没有把最终大模型翻出来。那次展览我也主要是以study proposal+实践 的形式来展现的。
当时展览的现场插图
我挺建议视传的同学可以多接触一些新的技术。因为按照如今的发展趋势,就拿ChatGPT的母公司OpenAI来举例,几乎每个月他们就要颠覆一次世界。所以不管是什么行业吧,它都有这样一个需求:技术的发展正在促使人们去多元化自己的能力。与此同时,人们也在努力着不被技术控制和异化。
不被异化的前提,我认为是你需要对这些未知的内容拥有足够了解。在了解各种各样的内容后,你又要特别专精其中之一,让你的技术和别人产生壁垒。通俗来说就是别人不会做的东西,你会。
伦艺切尔西纯艺术MA毕业展,即兴音乐表演
未来人工智能的发展一定是日趋完善的,但AI能实现不停生产的目的,却终究不能为艺术消费市场提供需求。所以它创作出来的很多作品,需要艺术家进行监督、筛选、修改和表达。就比如我们可以拿AI做设计,但它没办法变成我们手机中的一个APP和一款产品进入到终端消费上,这个过程是需要大量交互设计师、平面设计师来对其人工进行落地。
所以该会的技能,大家得学。
那另一方面,这也不代表同学们都必须要摒弃传统。因为AI发展产生的另一个影响,或许是真实的东西会越来越稀缺。能设计出那些真实拿在手里感觉的东西或许成为一种香饽饽。实体和虚拟,二者皆有发展空间。
这就引渡到一个亘古难题:就业
很多同学如今对视传有个刻板印象,就是就业难。但其实,这世上没那么多不好找工作的专业。
因为工作这件事本质上是用人单位对你个人技能的一个考核。我们很多同学,不论是在国内读研,还是国外留学,都会陷入一个“想得多但做得少”的误区。单单提高了自己的思维境界,却不主动学习提高自己的动手能力。阳春白雪,下里巴人,两头都得抓。
坎伯维尔雕塑毕业展BA,学生在维护雕塑上的绿植
我在伦艺发现一个很有趣的现象。在这所学校,真的存在一些天赋异禀的同学,他们平时都非常“左手画风”(坎伯维尔式戏称,指一些比较潦草随意的画风),但最后结果都蛮不错。因为他们很擅长找到一个好的切入点。
我同学就做过一些比较有趣的主题,比如以宠物死亡为切入点,想象宠物主人是如何想象宠物死亡后在天国的形象。
那更多人呢,其实都处于一个比较寻常的状态,这时候你想进步就需要不断push自己。比如你说老师我是个视传的学生,编程太难学不了?
但其实这些东西,原本就是大家在本科阶段应该掌握的。因为读研后学校更多是帮你进行思辨能力上的提升。所谓技术能力,包括processing、touchdesigner、arduino这些软件,你可以在汉艺跟老师一起学。或者说通过开源,直接把网站上现成的编程拿来用到作品集中。如果说你一定要想要达到一个什么样的目标,以目标为牵引,用尽一切可行的手段,它是绝对可以实现的。
LCC的图书馆,大多数学生都很努力
另外,我们说为什么要出国留学呢?
不是说因为国内不好。 像我们鲁美,这两年变化就很大。前段时间我还看见有位工艺美术的学生,他从台湾买了台废旧的老虎机,然后把里面的小硬币都涂上大漆,做了这么个游戏装置,和工艺美术几乎没啥关系。我看完就觉得,哦呦,鲁美真的也变了很多,学生的想法更前卫了,国内美院也在日新月异。
我到英国之后呢,英国是温带海洋性气候,冬天不冷夏天不热,往土里撒把种子草随便长,这种环境很有意思,能给人很多思考的空间。
在英国躺过的各种大草坪
而且那边人的精神状态都很“先进”,一个纽约一个伦敦,是你最能看到世界“人类个性多样性”的地方。所以它非常适合做采风和驻地项目。
当你深刻了解到一个地方的文化。你就会开始思考很多事情:比如为什么英国的文化是这样的?这些文化又是如何反馈到社区居民?
英国这里有个社会现象叫“士绅化”。它有点类似咱们国内的棚户区改造,但不同的是,咱们一般是由政府从上而下地执行,他们是由当地人一起推动来完成的事情。伦敦的九榆树地区就是一个很典型的案例。
这种思考会越来越多,它诱使我去了解这片土地的历史、水系,再去翻阅资料成为我的设计点。
英国的老先生正在书写衬线体书法The Saatchi Gallery,萨奇美术馆附近,伦敦,切尔西地区
那当有一天我回到北京后,我看到自己熟悉的大街小巷,突然觉得有些陌生。我开始像通过观察伦敦的手法来观察北京。以前你就觉得自己身边没什么稀奇的,不懂这小破村子小破街有啥可研究的,但当我转了圈回来,才发现其实家乡掩藏着这么多的秘密等待我作为灵感来挖掘 。
不管从商业角度来看还是从纯艺术角度来看,不管你未来是想就业还是想成为一个艺术家,你都会度过一段不同的人生。我觉得国内的教育是有比国外更先进的地方,但出国留学那是一种另外的人生经历和学习体验。两者皆有才能博采众长,那是一种全新的体验。
如果你有更多关于艺术留学,或考研、保研、申博、背景提升、作品集创作相关问题,欢迎私信康石石。
NeRF最新综述!超全!
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
标题:Neural Radiance Field-based Visual Rendering: A Comprehensive Review
作者:Mingyuan Yao, Yukang Huo, Yang Ran, Qingbin Tian, Ruifeng Wang, Haihua Wang
机构:中国农业大学
原文链接:https://arxiv.org/abs/2404.00714
近年来,神经辐射场(NeRF)在计算机视觉和图形领域取得了显著进展,为解决包括3D场景理解、新视角合成、人体重建、机器人学等关键任务提供了强大的技术支持,学术界对这一研究成果的关注日益增长。作为一种革命性的神经隐式场表示,NeRF在学术界引发了持续的研究热潮。因此,本综述的目的是对过去两年内有关NeRF的研究文献进行深入分析,为初涉研究者提供全面的学术视角。本文首先详细阐述了NeRF的核心架构,然后讨论了各种改进NeRF的策略,并在不同的应用场景中对NeRF进行了案例研究,展示了其在不同领域的实际效用。在数据集和评估指标方面,本文详细介绍了NeRF模型训练所需的关键资源。最后,本文对NeRF未来发展趋势和潜在挑战进行了展望性讨论,旨在为该领域的研究人员提供研究启示,并促进相关技术的进一步发展。
随着NeRF的出现,基于NeRF和其他神经体积表示的神经体积表示已成为一种令人信服的技术,用于学习如何从图像中表示3D场景,以从未观察到的视点渲染逼真的场景图像,并且相关文章呈指数增长。
NeRF现在广泛应用于新视角合成,三维重建,神经渲染,深度估计,姿态估计等场景。考虑到基于NERF方法的快速进展,跟踪新的研究发展变得越来越具有挑战性。因此,对该研究领域最新进展进行全面审查至关重要,这将对该领域的研究人员产生积极影响。
本文详细介绍了NERF的最新进展。主要贡献如下:
(1)首先对现有的与NeRF相关的文献进行了全面回顾,其中包括对早期工作的总结以及对最近研究趋势的分析。
(2)对最初的NeRF模型的各个元素进行了详细描述,包括其网络结构,损失函数和渲染方法。
(3)详细收集和分析了多个数据集,总结了当前常用的NeRF评估指标。
(4)对NeRF的变体进行了分类,并详细介绍了它们在提高渲染质量,加速计算以及在室内,室外,人体,交互场景等方面的应用中的创新。还比较了不同模型在速度,准确性和其他关键性能指标(如渲染质量,内存使用和泛化能力)方面的表现。
(5)确定了当前研究中的主要障碍,如对计算资源的需求,模型的可扩展性以及处理复杂场景的能力。进一步探讨了这些挑战的可能解决方案,并提出了未来研究的潜在方向。
(6)总结了NeRF的主要贡献和影响,以及对该领域未来发展的展望。
A. 合成数据集
NeRF合成数据集(Blender数据集):在最初的NeRF论文中提出,该数据集由使用Blender软件精心制作的复杂3D场景组成,包括各种物品,如椅子、鼓、植物等。此外,还提供了分辨率高达800x800像素的高分辨率图像,并为每个场景配备了适当的图像集合,用于训练、验证和测试。此外,该数据集还包括深度和法线图,以及全面的相机变换数据,为训练NeRF模型提供了重要的几何和照明细节。
本地光场融合(LLFF)数据集:这是用于创新视图合成研究的工具,合并了人工和实际图像,旨在促进虚拟探索中复杂场景的描绘。该数据集包括使用SUNCG和UnrealCV创建的人工图像,以及从便携式手机拍摄的24张真实场景照片。LLFF数据集非常适合广泛的新视图合成活动,并且非常适合深度学习模型的训练和评估,特别是在管理在现实场景中合成新视图方面。此外,LLFF还提供了一种有效的视图合成算法,通过将多平面图像(MPI)场景描绘与本地光场合并,从而扩展了传统的光场采样理论。
Mip-NeRF合成360°数据集(NeRF-360-V2数据集):该数据集是从Mip-NeRF扩展的合成数据集,旨在解决具有无限可能性的场景中的3D重建挑战。该数据集通过使用非线性场景参数化、实时精馏和创新的取向失真正则化技术来解决无限场景的困难。Mip-NeRF 360具有创建逼真人工视角和复杂深度图的能力,适用于非常复杂、无限真实生活场景。在数据集中,有9个场景,均匀分布在室内和室外环境之间,每个场景都具有一个复杂的主要对象或空间,以及一个复杂的背景。
NVS-RGBD数据集:包括由消费级深度传感器记录的真实世界场景的粗略深度图。该数据集的目标是建立一个新的NeRF评估标准,以评估使用有限视图集创建新视角的有效性。NVS-RGBD数据集包括8个场景,从Azure Kinect、ZED 2和iPhone 13 Pro等消费级传感器收集了粗略深度图。这些深度图中的伪影可能与传感器噪声中的伪影不同。
DONeRF数据集:该数据集涵盖了各种三维场景,包括推土机、林地、教育空间、圣米格尔、亭子和美发店等。一系列开发者使用Blender创建了这些情景,为研究神经辐射场和资源提供了实用基础,特别是对于即时渲染和交互使用。
B. 实际数据集
坦克与寺庙数据集:该数据集包括从实验室外部收集的标准序列,提供室内和室外环境的高清视频素材。视频序列有助于创建利用视频输入来提高重建准确性的创新管道。工业激光扫描仪用于收集数据集的真实数据,涵盖了室内和室外环境的场景。此外,该数据集提供了训练和测试数据集,将测试数据分为中级和高级类别,以适应不同复杂度的重建活动。
DTU数据集:该数据集采用了多视图立体格式,与其前身相比,场景增加了十倍,多样性显著提高。更准确地说,它包括80个场景,具有广泛的多样性。每个场景由49或64个准确的相机放置和结构化光线参考扫描组成,生成1200×1600像素的RGB图像。
Euroc数据集:该数据集涵盖室内和室外数据,包括各种传感器信息,如相机和IMU读数。该数据集在各种研究领域广泛应用,包括机器人视觉、确定摄像机角度、校准摄像机以及位置和导航。该方法的主要特点是能够以高精度提供传感器数据和真实室内环境,通过灰度图像和紧密集成的IMU测量来评估我们方法的重建和定位精度。
Replica数据集:该数据集代表了Facebook创建的室内场景的优质3D重建。该收藏包括18个精细逼真的室内设置,每个都经过精心制作和描绘,以保持视觉真实感。每个数据集场景都包含了一个紧凑的三维网格、详细的高动态范围(HDR)纹理、玻璃和镜面表面的数据,以及语义分类和实例分割。
BlendedMVS数据集:这个庞大的数据集专为多视图立体匹配(MVS)网络定制,提供大量的训练实例,以便于基于学习MVS的算法。BlendedMVS收藏包含超过17,000张详细的图像,涵盖了城市区域、结构、雕塑和微型物品等各种景观。这个数据集的广泛性和多样性使其成为MVS研究的重要资产。
亚马逊伯克利物体数据集(ABO数据集):该数据集是一个广泛的3D对象理解收藏,旨在连接现实和虚拟3D领域。数据集包括大约147,702个产品列表,每个产品与目录中的398,212个不同图像相关联,每个产品具有多达18个独特的元数据特征,包括类别、颜色、材料、重量和大小等。ABO数据集包括8,222个物品的360度图像和7,953个产品的艺术家制作的3D网格表示。该数据集非常适合3D重建、材料估计和跨领域的多视图对象检索,因为这些3D模型具有复杂的几何设计并且根据物理属性包含材料。
3D中的常见对象数据集(CO3Dv2数据集):该数据集包括150万个多视图图像帧,跨越50个MS-COCO类别,提供丰富的图像资源、精确的相机位置和3D点云注释。CO3Dv2的广泛性和多样性使其非常适合评估创新的视图合成和3D重建技术,推动3D计算机视觉研究的进步。
3D-FRONT数据集:这是由阿里巴巴淘宝技术部、西蒙弗雷泽大学和中国科学院计算技术研究所共同创建的一个大型人工室内场景数据集。该数据集提供了精心设计的房间设计以及大量样式兼容且质量高的3D模型。3D-FRONT设施拥有18,797个房间,每个房间都配备了独特的3D元素,以及7,302件具有优质纹理的家具。数据集的特点涵盖了从布局语义到每个对象的复杂纹理的广泛范围,旨在辅助诸如3D场景理解、SLAM以及3D场景的重建和分割等领域的研究。此外,数据集还包括Trescope,一种简化的渲染工具,用于促进2D图像及其注释的基本渲染。
SceneNet RGB-D数据集:该数据集是一个包含500万个合成室内场景的真实图像的集合,具有相应的地面实况数据。数据集中的场景是随机生成的,包含255个不同的类别,通常被重新组合成13个类别,类似于NYUv2数据集。这些合成场景提供了丰富的视角和照明变化,使数据集非常适合室内场景理解任务,如语义分割、实例分割、目标检测以及光流、深度估计、相机姿态估计和3D重建等几何计算机视觉任务。
C. 人脸数据集
CelebV-HQ数据集:一个广泛、优质且多样的视频集合,精心标记了面部特征,包含35,666个剪辑,分辨率最低为512x512,涵盖15,653个不同的身份。每个视频剪辑都手动标记了83种不同的面部特征,包括外观、动作和情感,可用于面部识别、表情研究和视频理解等研究领域。
CelebAMask-HQ数据集:所述数据集是一个广泛的高清面部图像集合,包括30,000张从CelebA数据集中选择的图像。每张图片配有一个512*512像素的分割掩码。研究人员通过手动标记这些掩码,获取了详细的面部区域数据,包括皮肤、眼睛、鼻子、嘴巴等19种面部特征。
VoxCeleb数据集:这个数据集是牛津大学的研究人员开发的一个大规模说话者识别数据集。它包含大约100,000个来自YouTube视频的1,251个名人的语音剪辑。VoxCeleb数据集旨在支持说话者识别和验证的研究,提供了一个真实、多样化和大规模的数据资源。数据集中的语音剪辑涵盖不同年龄、性别、口音和职业,以及各种不同的录制环境和背景噪音。VoxCeleb分为两个子集:VoxCeleb1和VoxCeleb2。数据集的音频采样率为16kHz,16bit,单声道,PCM-WAV格式。
在野外标记的面孔(LFW)数据集:所述数据集是公开可访问的,并在面部识别研究中广泛使用。它由马萨诸塞大学阿默斯特分校的计算机视觉实验室编制,收集了来自互联网的13000多张人脸图像。这些图像涵盖了1,680个不同的个体,每个人至少有两张图像。LFW数据集的目的是提高在自然条件下的人脸识别的准确性,因此它包含了在各种不同环境中拍摄的人脸图像,如不同的光照、表情、姿势和遮挡情况。
MPIIGaze数据集:该数据集由15名用户在几个月的日常笔记本电脑使用中收集,包含213,659张全脸图像及其对应的真实凝视位置。经验丰富的采样技术确保了凝视和头部位置的一致性,以及眼睛外观和照明的真实变化。为了便于跨数据集评估,手动注释了37,667张图像的眼角、嘴角和瞳孔中心。该数据集以其个人外观、环境和摄影设备的多样性以及数据收集的延长期而脱颖而出,为研究凝视估计技术的广泛适用性提供了重要资产。
GazeCapture数据集:该数据集是一个大型的用于眼动技术的数据集,包含了来自1450多名志愿者的约250万帧图像。通过移动设备收集,该数据集旨在帮助眼动研究,并训练相关的卷积神经网络(CNN),如iTracker。GazeCapture数据集的特点包括可伸缩性、可信度和可变性,确保了数据的多样性和质量。
Flickr-Faces-HQ(FFHQ)数据集:这个面部图像集合质量上乘,包括70,000张PNG格式的图像,每个图像的分辨率为1024*1024。FFHQ涵盖了各种年龄组、种族和文化遗产,以及各种配饰,如眼镜、太阳镜、帽子等,提供了广泛的多样性。
D. 人类数据集
Thuman数据集:该数据集代表了一个广泛的公共收集,用于3D人体重建,包含约7,000个数据点。每个数据项包括一个带材料的表面网格模型、RGBD图像和相应的SMPL模型。包含各种姿势和服装的人体模型,使用DoubleFusion技术捕获和重建。数据集的发布为3D人体建模、虚拟现实、增强现实等领域的研究提供了宝贵资源。
HuMMan数据集:HuMMan数据集是一个大规模的多模态4D人体数据集,包含1,000个人类主体、400,000个序列和6000万帧数据。该数据集的特点包括多模态数据和注释(如彩色图像、点云、关键点、SMPL参数和纹理网格模型)、一个包括流行移动设备的传感器套件,以及一个旨在覆盖基本运动的传感器套件。500个动作集合,支持各种任务,如动作识别、姿势估计、参数化人体修复和纹理网格重建。HuMMan数据集旨在支持多样化的感知和建模研究,包括挑战,如细粒度动作识别、动态人体网格序列重建、基于点云的参数化人体估计和跨设备领域差距。
H36M数据集:Human3.6M数据集是一个广泛使用的3D人体姿势估计研究数据集。该数据集包括大约360万张图像,显示了11位艺术家(6男5女)在7种不同情境中参与15项标准活动,如行走、进食和交谈等。同时,数据是使用4台高分辨率摄像机和快速动作捕捉系统录制的,提供了关于3D关节位置和角度的准确信息。每个演员的BMI范围从17到29,确保了体型的多样性。
Multi-Garment数据集:用于重建3D服装的数据集包括356张图像,每张图像显示了不同体型、姿势和服装风格的个体。源自真实扫描,它提供了基于真实服装的2078个重建模型,涵盖10个类别和563个服装实例。数据集中的每件服装都有丰富的注释,包括3D特征线(如领口、袖口轮廓、下摆等)、3D身体姿势和相应的多视角真实图像。
MARS数据集:该数据集是一个综合的基于视频的人员重新识别(ReID)编译,包含1,261个独特的行人,由近乎同时运行的六台摄像机捕获,每个行人至少由两台摄像机捕获。MARS数据集的特点包括步行姿势、服装颜色和光照的变化,以及不太理想的图像清晰度,使其识别更具挑战性。此外,数据集包含3248个干扰者,以模拟现实场景的复杂性。
E. 其他数据集
InterHand2.6M数据集:该数据集是一个大规模的手势识别数据集,包含由21个不同的人在受控环境中捕获的超过260万个手势实例。数据集提供了21种手势类别的注释,包括常见手势,如拳头、手掌展开、竖起大拇指等。每个手势都有多种变化,如不同的手势姿势、背景和光照条件。InterHand2.6M数据集旨在支持手势识别算法的开发和评估,特别是在复杂场景和多样化手势表达方面。
TartanAir数据集:这个数据集由卡内基梅隆大学开发,旨在挑战和推动视觉SLAM技术的极限。该数据集在高度真实的模拟环境中生成,包含多样化的光照、天气条件和移动物体,以模拟真实世界的复杂性。TartanAir提供了丰富的多模态传感器数据,包括RGB立体图像、深度图像、分割标签、光流和相机姿态信息。这些数据帮助研究人员开发和测试SLAM算法,特别是在处理具有挑战性的场景时。
SUN3D数据集:该数据集包含广泛的RGB-D视频,显示了各种场所和结构的场景。数据集包括415个序列,跨254个不同的位置和41个独特的结构记录,每个帧详细说明了场景中物体的语义划分和相机的位置。
自 NeRF 技术问世以来,它已经推动了计算机视觉、虚拟现实(VR)、增强现实(AR)等各个领域的技术进步。此外,NeRF 在机器人技术、城市规划、自动驾驶导航等领域展示了显著的潜力和应用价值。
神经辐射场作为一种新兴的三维场景表示方法,在计算机视觉和图形领域引起了广泛关注。然而,尽管其在渲染质量和细节方面取得了显著成就,但NeRF仍然面临一系列指向未来方向的挑战。
A. 关于计算效率的讨论
随着深度学习方法的发展,预计未来的研究将集中于提高NeRF和类似技术的计算效率。这样的研究可以探索创新的采样方法,增强网络配置,整合现有的几何理解,并创建更高效的渲染算法。未来,提高计算效率的追求将集中于提高渲染速度和减少NeRF资源使用量。
研究人员可能会探索改进的采样和集成技术,以减少每个图像渲染的计算需求。例如,NerfAcc整合了各种采样技术,使用统一的透射率估计器,实现更快的采样速度和更低的渲染质量。相反,预计进一步的研究将集中于改进网络配置,如MIMO-NeRF[98],通过应用多输入多输出(MIMO)、多层感知器(MLPs),旨在减少渲染过程中MLP操作的频率,从而提高整体渲染速度。此外,整合深度学习的最新发展,包括Transformer架构和无监督学习方法,可能为NeRF的效率提升铺平道路。
B. 关于较少视图渲染的讨论
目前,结合较少视图和单视图的领域正在迅速扩展,成为计算机视觉和图形研究的焦点。诸如NeRF之类的方法的出现使科学家能够从一组受限制的观点创建出优秀的3D图像。即使NeRF具有令人印象深刻的多视图合成能力,由于训练数据不足,其效力仍受到限制,可能导致过拟合和几何重建错误。
当数据缺乏时,当代研究正在探索各种正则化技术来提高合成质量。例如,通过实施几何先验(GeoNeRF)、使用生成对抗网络(GAN) (PixelNeRF)或增强渲染方法(ViP-NeRF)等研究,改进模型的泛化能力。尽管这些方法在减少训练时间和提高渲染质量方面取得了进展,但它们仍然面临着稀疏视图、管理遮挡和恢复几何细节等障碍。随后的研究可能集中于创建更有效的训练方法,增强网络结构以捕获更好的场景细节,并研究无监督和自监督学习技术,以减少对大量标记数据的依赖。此外,将物理模拟与场景理解相结合的混合方法可能会在领域中引入新的进展,增强诸如虚拟现实、增强现实和自动驾驶车辆等领域。
C. 关于渲染质量的讨论
关于渲染质量,当代研究集中于两个主要类别,即高分辨率渲染和模型的泛化潜力。在通过模型优化创建高分辨率、高质量图像(例如超过4K的图像)时,处理大量数据和计算任务并保持复杂细节仍然是一个重要障碍。UHDNeRF和RefSR-NeRF改进其网络结构以提高模型的检测精度。然而,UHDNeRF通过合并显式和隐式场景描述来提高模型的渲染,从而提高了4K UHD分辨率的细节效率,而RefSR-NeRF通过将高分辨率参考图像合并到超分辨率视图的创建中来放大NeRF的高频细节。就其泛化能力而言,NeRF在处理不熟悉的场景和数据方面的熟练程度受到限制,需要通过改进的网络设计和训练方法来加以增强。NeRFSR通过过采样和联合优化技术增强了模型对新视图的效率,而NeRF通过将可适应的神经辐射场结合到动态场景中增强了模型的泛化能力。
D. 关于成像障碍的讨论
关于成像障碍的增强,研究人员的主要关注点是解决具有反射和透明特性的对象处理的挑战。鉴于NeRF在与具有反射或透明特性的物体交互时经常导致模糊或扭曲的图像。作为对这一挑战的回应,MS-NeRF和Ref-NeRF通过解决多视图一致性问题来解决这一问题。MS-NeRF通过将场景描述为具有多个平行区域的特征场来处理反射和透明元素,而Ref-NeRF通过将NeRF处理反射表面的能力结合到基于视图的结构化和参数化反射表示中,从而产生更准确的渲染结果。为了解决复杂照明场景中更广泛的渲染问题,包括动态范围照明、阴影和整体照明影响,可能需要进一步的研究和方法来提高NeRF的效率。随后的研究应探讨将精确的物理照明模型与NeRF相结合的技术,并创建新的数据集和评估标准,以评估和确认这些方法在复杂照明场景中的有效性。
E. 关于应用场景的讨论
关于实际应用,最近的研究主要集中在交互式渲染、制作肖像和面孔以及场景的真实重建,如下所述:
1)交互式渲染技术:目前的交互式渲染方法研究集中于提高渲染效率、丰富用户编辑过程,并拓展多模态交互特性的范围。然而,在这些领域仍然存在一些障碍和限制。仍然需要提高用户编辑界面的直观性和适应性,以使普通用户能够在没有复杂培训的情况下执行熟练的编辑任务。在多模态交互方面,提高对文本、图像和音频等各种输入的集成是至关重要的,以实现更直观、更自然的编辑过程。此外,当前的方法在广泛适用性方面仍然存在困难,可能会降低模型的灵活性和对不熟悉场景和对象编辑的质量。未来的研究可以探索这些途径来解决这些问题。最初,通过像NerfAcc这样的优化算法和采用更有效的硬件加速方法,包括GPU和TPU,可以实现渲染的实时性和效率的提高。此外,改进用户界面设计以提高直观性和易用性,可以减轻用户编辑的难度,从而提高编辑的精度和满意度,就像ICE-NeRF和NaviNeRF所实现的那样。增强模型的多模态融合特性是可行的,使其能够更有效地理解和响应各种输入。最终,为了增强模型的泛化能力,并在各种应用中保持出色的渲染和编辑,可能需要在不同领域建立数据集、实施元学习方法,并创新模型的正则化技术。通过这些努力,未来的交互式渲染技术将能够更好地满足用户需求,并为各种应用领域提供更强大、更灵活的工具。
2)肖像重建:面部合成技术在未来具有巨大潜力,特别是为了提高现实感和用户交互体验。诸如FaceCLIPNeRF之类的技术的出现突显了基于文本描述准确处理3D面部表情和特征的能力。这种方法不仅从静止图片中检索数据,而且还保留了来自不同角度的一致性,为制作定制的媒体内容铺平了道路。相反,NeRFInvertor方法展示了从单一图像创建真实身份的高级动画,为游戏、电影和虚拟现实的使用提供了巨大潜力。此外,GazeNeRF的创建展示了利用3D感知方法改变面部属性,如眼睛位置,以提高虚拟角色的交互性和真实性的能力。最后,RODIN框架通过3D扩散网络提出了生成和修改数字化头像的创新机会,增强了定制和高精度3D角色的制作效率。这些技术的进步预示着面部合成技术的未来发展,重点是实时处理、多样性和为用户定制,但同时也引入了关于隐私保护和道德考虑的新挑战。
3)人体渲染:目前,人体渲染领域正在经历双重增长,涵盖了技术进步和应用范围的扩展。从技术角度来看,新的研究发现,如TransHuman和GM-NeRF展示了在有限数据的情况下,通过使用多视角视频教育有条件的NeRF来展示优越的新视图合成框架。这些方法不仅提高了渲染的即时性和广泛适用性,而且还为虚拟现实(VR)和增强现实(AR)等应用提供了强大的技术支持。此外,像PersonNeRF这样的方法允许通过使用一组个人照片创建个性化的3D模型,从而从不同的角度、姿势和外观定制可视化效果,为社交媒体、数字娱乐和电子商务提供了一种新颖的个性化方法。
其次,关于应用范围的扩展,人体渲染技术的进步正在引发各个领域的变革。例如,SAILOR框架不仅提供了优越的渲染效果,还赋予用户编辑和创作自由,为内容创作者提供了更大的创作空间和制作更多样化和详细的视觉内容的能力。此外,随着数据压缩和传输技术的进步,预计未来的人体渲染将在网络带宽有限的环境中促进有效的数据传输,从而确保在移动设备上流畅运行更高级的VR和AR体验。这一进展表明了人体渲染技术在提供引人入胜的体验和定制内容方面的日益重要,引入了新的应用领域,如娱乐、教育和医疗保健。
尽管NeRF领域面临着诸多障碍,但它具有巨大的增长前景。随着技术的不断进步,NeRF在塑造3D场景建模和渲染未来方面的重要性将不断增强。
在Mildenhall等人提出NeRF框架之后。这种模型在其开创性研究中显著提高了处理速度、输出完整性和训练数据需求等各个方面,从而超越了其原始形式的许多限制。NeRF方法的成功归因于其从有限的视角重建连续的3D景观并从不同的视角产生优质图像的能力。这项技术的出现为计算机视觉领域带来了新的方面。这一创新为观点合成、3D重建和计算机视觉中的神经渲染方面的创新方法铺平了道路,NeRF技术在风格迁移、图像编辑、头像开发和3D城市环境建模等各个领域展示了巨大的潜力。随着NeRF建模在学术界和工业界的关注度不断增加,大量的研究人员投入了大量的研究资源,促成了各种预印本和学术作品的发布。本文系统地审视了NeRF技术在技术和实际应用中的最新进展,提供了对其未来路径和挑战的全面审视和观点。本文的重点是激励该领域的学者,旨在促进NeRF相关技术的持续进步和创新。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉 、大模型 、 工业3D视觉 、SLAM 、自动驾驶 、三维重建 、无人机 等方向,细分群包括:
2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM: 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机: 四旋翼建模、无人机飞控等
除了这些,还有求职 、硬件选型 、视觉产品落地 、最新论文 、3D视觉最新产品 、3D视觉行业新闻 等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。
3D视觉工坊知识星球
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等 。
发布光追整整一年后,英伟达又带来了什么?
在计算机图形学的麦加 SIGGRAPH 大会上,英伟达继续高捧着它的圣杯。
2018 年 SIGGRAPH,英伟达 CEO 黄仁勋发布了能够在实时渲染中完成光线追踪的 RTX 平台。一年后,比行业预测提前五年发布的 RTX 已经收获了超过 40 款行业顶尖软件开发商的入驻。
行业内大规模地应用证明了英伟达技术的成熟,今年,带着过去一年的实践,黄仁勋再次带着研究团队来到 SIGGRAPH,他没有像去年那样的高调演讲,但在这个计算机图形学领域全球最重要的大会上,商业的内容本就是次要的,技术升级给 CG 带来了哪些可能,才是像圣城朝拜般来到这里的 CG 从业者们最关心的问题。
「实时光追」的第一年
RTX 仍旧是英伟达讨论最多的话题。在整个 SIGGRAPH 的近 50 场光线追踪有关的技术会议中,英伟达参与了 34 场,在所有出席 SIGGRAPH 的企业中排名第一。
在发布了整整一年后,英伟达也到了「交作业」的时候,它宣布已有超过 40 款各行各业主流的软件在使用 RTX 平台,包括皮克斯、雷诺、新百伦、伍兹贝格和西门子医疗系统等等,还有游戏行业领先的引擎 Unity 和 Unreal Engine 也已经支持基于 RTX 的光线追踪,此外,Adobe、Autodesk、Blackmagic Design 和达索系统等视觉计算巨头也开始采用 RTX 技术。
光追应用 | Nvidia
此外,还有七款新搭载 RTX 功能的软件在 SIGGRAPH 上发布:
Adobe Substance Painter:RTX 光线追踪能够加速烘焙性能,其速度比 CPU 快 192 倍。Autodesk Flame:RTX Tensor Core 显著加速了 Autodesk Flame v2020.1 的全新机器学习功能集。内置的机器学习分析算法可帮助艺术家隔离、提取并修改视频素材中的常见对象,从而显著加快视觉特效及合成工作流程。Blender Cycles:基于 CUDA®的 NVIDIA OptiX™ 7 大大提高了开源渲染器的性能。Dimension 5 D5 Fusion:通过 UE4 实施 DXR,RTX 光线追踪使建筑师和设计师能够快速模拟地面实况光线和阴影。Daz 3D Daz Studio:NVIDIA Iray®让创作者们能够使用交互式 RTX 加速光线追踪来合成场景,以快速构建艺术构图并进行全保真渲染。Foundry MODO:在重新设计的 MODO 路径追踪渲染器中通过 OptiX 实现 RTX 性能,和 CPU 渲染相比有很大的性能提升。Luxion KeyShot:通过 KeyShot 9 中的 OptiX 支持,RTX 加速了光线追踪和 AI 去噪,可实现 3D 数据的逼真可视化,用于产品设计审查、市场营销、动画、插图等领域。而硬件方面,主流 OEM 厂商也开始跟进,有联想、戴尔等等品牌旗下的 27 款笔记本电脑都支持了英伟达 RTX 功能,设计师和创作者们可以在这些「移动工作站」上完成光线追踪的实时渲染。
研究团队秀肌肉
在现场展台,英伟达还展示了一些研究团队(Nvidia Research)最新的成果,包括两款非商业化的 AR 眼镜,还有。
Prescription AR | Nvidia
首先是拿下了本届 SIGGRAPH 最佳新兴技术展示奖(Best of Show Emerging Technology award)的 Prescription AR 眼镜。这是一款加入了视力矫正功能的 AR 眼镜,英伟达称「它比现代 AR 设备更轻薄,视野也更宽阔。虚拟对象分布于整体之中,而非团簇于中心。当您佩戴矫正光学器件时,它会直接将 prescription 内嵌其中。」通过对近视人群镜片的适配,Prescription AR 眼镜能够解决目前大多近视人群在使用 AR、VR 设备时佩戴不适的问题。
Foveated AR | Nvidia
另一款名为 Foveated AR 的头显设备,可以实时追踪用户的视线,在眼神聚焦的小区域提供清晰的图像,而用户没有看到的地方则使用低清晰度的图像,以减少额外的算力和功耗。
此前极客公园曾报道在登月五十周年时,英伟达用最新的 RTX 光线追踪和算法技术把五年前的登月 demo 翻修一新,创建了一个交互式可视化场景,结合光线在现实世界中的传播方式,让登月这一历史场景变得十分逼真。
登月 demo | Nvidia
在 SIGGRAPH 的现场,英伟达还搭建了一个登月 demo 的展台,通过英伟达研究团队最新设计的姿态估计技术,参展观众无需穿戴特定设备,通过展台里仅仅一台网络摄像头,英伟达就可以捕捉到体验者的动作,与 3D 渲染环境里,站在阿波罗十一号旁边的宇航员匹配,用户在摄像头前所做的动作,显示器里实时渲染中的登月宇航员会一帧不落地复制。英伟达称,这项 demo 综合了 RTX 光追技术、Omniverse 协作平台和 AI 应用等最新的研究成果。
登月展台演示 | Nvidia
AI 高更
除了以上这些展台的应用,英伟达开放公测的一款「绘图」网页应用也在 SIGGRAPH 期间一炮走红,成为了 AI 圈里的刷屏应用。
GauGAN AI 绘图应用 | Nvidia
取名自画家高更和「对抗生成网络」GAN 的 GauGAN 是一款 AI 绘画网页应用,用户只需要用最简单的电脑画图工具画出几笔涂鸦,GauGAN 就可以将它转化为各种风格的绘画大作,部分转化后的图片甚至有相机实拍的效果。
一个月前,在 NVIDIA AI Playground 上,英伟达公开发布了 GauGAN 测试版,截至目前,测试用户已经用这款 AI 绘画应用创作了超过 50 万张图像。
英伟达表示,这类 AI 应用可以提高艺术创作者的效率,同时机器生成随机的效果也会反馈给创作者多元的灵感。
Colie Wertz 的 GauGAN 绘作 | Colie Wertz 个人推特
曾经参与过《星球大战》和《复仇者联盟》等电影创作的原画美术师和建模师 Colie Wertz 就是 GauGAN 测试以来最忠实的用户之一。利用 GauGan,他简单几笔勾勒出了一个云雾缭绕的外星世界,同时将自己设计的超现实宇宙飞船放置其中,效果与电影设定集中的艺术大作如出一辙。
Colie Wertz 最终完成作品 | Colie Wertz 个人推特
这也是来到 SIGGRAPH 的人们最关心的内容。
CG 的进步是完全技术驱动的,可最终能让人们看到技术进步带来成果的,还是那些灵感涌现的创作者们,在 SIGGRAPH 上,英伟达这样的底层技术和硬件开发商,还有 Adobe 和 Unity 这样的软件大厂一起,把越来越轻便的设备带给创作者们,把助力创作的应用带给创作者们。而那些拥抱新技术的创作者们,他们来到这里,在自己不熟悉的技术世界里,期待碰撞而出的灵感火花。
本文作者:宋德胜
责任编辑 卧虫
头图来源 英伟达