首页 > 科技 > 8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

新智元报道

编辑:LRS

【新智元导读】GitHub上榜项目靠谱,拿来就能用!

看完一篇AI论文,要是发现代码没公开,心就得凉半截,瞬间对实验结果都要开始怀疑。

最近有网友收集了八月份发表的10642篇AI论文,发现其中90.9%的论文都没有公开代码。

在公开的一千份代码中,根据其在GitHub上收获Stars数量做了一个排行榜,排名前二的论文都是语言-图像模型相关的研究。

文末还有在推特上排行前十的AI研究列表,部分只有论文,没有代码。

1. 用一个词描述一张图

Text-to-image模型通过自然语言来指导创作图像,提供了前所未有的自由度。

但目前还不清楚如何利用这种自由来生成指定的、具有独特概念的图像,或者修改图像的外观,或将它们组成新的角色和新的场景。

可以用一个简单的问题来描述:我们如何利用language-guided模型把「自己的」猫变成一幅画,或者在「自己最喜欢的」玩具的基础上想象出一个新产品?

来自特拉维夫大学和英伟达的研究人员提出了一个简单的方法,只需使用3-5张用户提供的图片,比如一个物体或一种风格,无需微调text-to-image模型,即可在通过新的word在embedding空间中学习表示用户输入。

论文链接:https://arxiv.org/abs/2208.01618

项目链接:https://textual-inversion.github.io/

代码链接:https://github.com/rinongal/textual_inversion

这些word可以作为自然语言句子中的一部分,以更直观的方式来指导个性化的创作。

比如输入一些用户图片,即可生成一个特殊的word来表示该风格或物体。

甚至还可以在自然语言句子中组合多个新words

值得注意的是,研究人员发现有证据表明,单个词的embedding足以捕捉到独特且多样的概念。

在将该方法与大量的基线模型进行比较后,可以证明它能更忠实地描绘一系列应用和任务中的概念。

2. 从语言-图像到视频

经过对比学习训练的「图像文本模型」在从整个「互联网规模」的数据中学习visual-textual联合表征方面取得了巨大成功,并在各种图像任务中表现出超强的zero-shot泛化能力。

但我们该如何将这种新的language-image预训练方法有效地扩展到视频领域?目前仍然是一个开放的问题。

来自微软研究院、中国科学院、石溪大学和罗切斯特大学的研究人员提出了一个简单而有效的方法,可以将预训练的language-image方法直接用于视频识别,而不必从头开始预训练一个新的模型。

论文链接:https://arxiv.org/abs/2208.02816

代码链接:https://github.com/microsoft/videox

具体来说,为了捕捉视频帧在时间维度上的长距离依赖性,文中提出了一个跨帧注意力(cross-frame attention)机制,显式地交换不同帧之间的信息。

这样设计得到的模块是轻量级的,可以可以无缝地插入到预训练的语言-图像模型中。

此外,研究人员还提出了 一个针对视频的prompt模式,能够利用视频的内容信息来生成有辨识度的文本提示。

经过大量的实验后,可以证明该方法是有效的,并且能够被推广到 不同的视频识别场景。

在完全监督(fully-supervised)的情况下,该方法在Kinectics-400上达到了87.1%的top-1准确率,并且FLOPs仅为Swin-L和ViViT-H的十二分之一。

在zero-shot实验中,在两个常用的协议下,该方法以+7.6%和+14.9%的最高准确率超过了目前的sota方法。

在few-shot实验中,当标签数据极其有限时,该方法比以前的最佳方法高出+32.1%和+23.1%

3. 无需噪声的扩散模型

目前业界出现的扩散(Diffusion)模型变体层出不穷,但「随机噪声」是不变的核心。

标准的扩散模型包括图像变换(image transform),添加高斯噪声,和一个反转图像退化的恢复算子。

来自马里兰大学和纽约大学的研究人员观察到,扩散模型的生成行为并不依赖于图像退化的选择,事实上,通过改变这种选择,可以构建整个生成模型系列。

论文链接:https://arxiv.org/abs/2208.09392

代码链接:https://github.com/arpitbansal297/cold-diffusion-models

即使在使用完全确定的退化(如模糊、遮蔽等)时,作为扩散模型基础的训练和测试时间更新规则也可以很容易地被泛化以创建生成模型。

这些完全确定的模型的成功使人们对社区对扩散模型的理解产生了疑问,这种理解依赖于梯度朗文动力学(gradient Langevin dynamics)或变分推理中的噪声,并为反转任意过程的泛化扩散模型铺平了道路。

在这篇论文中,作者不再将扩散模型局限于「依赖高斯噪声而建立」,而是提出了围绕模糊(blurring)、下采样(downsampling)等任意图像变换方式建立的广义扩散模型。

由于不再有原先的「高温」状态,这种全新广义扩散模型也就被称作为 Cold Diffusion。

4. 让大模型走进消费级GPU

大型语言模型目前已成为主流NLP研究的基础,但使用大模型需要大量的GPU内存进行推理。

论文链接:https://arxiv.org/abs/2208.07339

代码链接:https://github.com/timdettmers/bitsandbytes

来自华盛顿大学、Meta AI研究院、Hugging Face的研究人员为Transformer中的前馈和注意力投影层开发了一个Int8矩阵乘法的程序,使得推理所需的内存减少了一半,同时还能保持全精度的性能。

使用该方法,可以很方便地加载一个175B参数的16/32位checkpoint,转换为Int8后,也不会出现性能下降的情况。

想要做到这一点,需要通过理解和绕过Transformer语言模型中高度系统化的突发特征的特性来进行实现,这些特征主导着注意力和Transformer的预测性能。

为了应对这些特征,研究人员开发了一个由两部分组成的量化(quantization)程序:LLM.int8()。首先使用矢量量化,对矩阵乘法中的每个内积都使用单独的归一化常数,以量化大多数特征。

对于出现的异常值,文中还提出一个新的混合精度分解方案,该方案将异常值特征维度隔离到16位的矩阵乘法中,与此同时仍有超过99.9%的值是以8位乘法的。

根据经验表明,使用LLM.int8()可以在参数高达175B的LLM中进行推理而不会有任何性能下降。

该项目也使得这种大模型的使用场景更广泛,例如,有可能在装有消费级GPU的单一服务器上使用OPT-175B/BLOOM

5. 联邦学习本地蒸馏

来自慕尼黑工业大学的研究人员提出了一个全新的联邦学习(federated learning)框架FedD3,减少了整体的通信量,大大扩展了联邦学习的应用场景,即使是在网络受限的环境中也能使用。

论文链接:https://arxiv.org/abs/2208.11311

代码链接:https://github.com/Guang000/Awesome-Dataset-Distillation

相比传统的学习方法,FedD3通过本地数据集的蒸馏实现了(1)显著减少通信量;(2)限制了transfer到one-shot的通信量,而非迭代的多路(multi-way)通信;

和其他联邦学习方法中共享模型更新不同的是,FedD3让连接的客户端独立蒸馏本地数据集,然后将这些分散的、蒸馏后的数据集(以一些无法识别的图像的形式存储,正常来说比一个模型小)在整个网络上汇总一次,以形成最终的模型。

实验结果表明,FedD3在所需的通信量方面明显优于其他的联邦学习框架,同时它还能够在准确性和通信成本之间的进行平衡,具体取决于使用场景和目标数据集。

例如,要是想用10个客户端在Non-IID CIFAR-10上训练AlexNet模型,与其他one-shot联邦学习方法相比,在通讯量不变的情况下,FedD3可以将准确率提高71%以上;如果准确率相同,则可以节省98%的通信量。

6. 隐式表征数据集

神经辐射场(NeRFs)在隐三维表征(implicit 3D representation)方面取得了诸多进展,可以用一种可微分的方式进行准确且逼真的三维重建。

这种新的表征方法可以在一个紧凑的格式中有效地传达数百个高分辨率图像的信息,并允许对新的视图进行逼真的合成。

来自浦项科技大学、英伟达和加州理工大学的研究人员利用NeRF的变种Plenoxels,创建了第一个用于感知任务的大规模隐式表征数据集PeRFception

论文链接:https://arxiv.org/abs/2208.11537

代码链接:https://github.com/POSTECH-CVLab/PeRFception

数据集由两部分组成,包括以物体为中心和以场景为中心的扫描,可以用于分类和分割。

在原始数据集的基础上实现了显著的内存压缩率(96.4%),同时以统一的形式包含了二维和三维信息。

研究人员直接将这种隐式格式作为输入构建了分类和分割模型,还提出了一种新的增强技术,可以避免对图像背景的过拟合。

7. 最小的视频实例分割框架

研究人员提出了MinVIS,一个最小的视频实例分割(VIS)框架,在既没有基于视频的架构也没有训练程序的情况下,实现了最先进的VIS性能。

论文链接:https://arxiv.org/abs/2208.02245

代码链接:https://github.com/nvlabs/minvis

通过只训练一个基于查询的图像实例分割模型,MinVIS在比较难的Occluded VIS数据集上的表现比以前的最佳结果要好10%以上。

由于MinVIS将训练视频中的帧视为独立的图像,因此可以在不做任何修改的情况下对训练视频中的标注帧进行大幅度的子采样。

在YouTube-VIS 2019/2021上,MinVIS只用了1%的标注帧,就超过了完全监督的最先进的方法,或者与之相当。

主要观察结果是,经过训练的查询在帧内物体实例之间具有判别能力,在时间上是一致的,可以用来追踪实例,而不需要任何人工设计的启发式方法。

因此,MinVIS的推理pipeline为:先将训练好的基于查询的图像实例分割独立应用于视频帧,然后通过对相应的查询进行双边匹配来追踪被分割的实例。

这种推理是以在线方式进行的,不需要一次性处理整个视频。所以MinVIS具有降低标签成本和内存需求的实际优势,同时不会牺牲VIS的性能。

8. 用来唱歌的Vocoder

Vocoder是一种条件音频生成模型,将声学特征(如旋律谱图)转换成波形。

从可微分数字信号处理(DDSP)中得到启发,研究人员提出了一种新的Vocoder,名为SawSing,可以用于歌唱的声音。

论文链接:https://arxiv.org/abs/2208.04756

代码链接:https://github.com/yatingmusic/ddsp-singing-vocoders

SawSing通过用线性时变有限脉冲响应滤波器过滤锯齿源信号来合成歌声的谐波部分,该滤波器的系数是通过神经网络从输入的旋律谱图中估计出来的。

由于这种方法加强了相位的连续性,SawSing可以产生歌唱的声音,而不会出现许多现有vocoder的相位不连续的突变。

此外,源滤波器的假设提供了一个感应性的偏向,使SawSing可以在少量的数据上进行训练。

实验表明,在资源有限的情况下,SawSing收敛得更快,并优于最先进的生成式对抗网络和基于扩散的vocoder,只有3个训练记录和3小时的训练时间。

9. 无需模型的强化学习

深度强化学习是在不需要领域知识的不可控环境中学习策略的一种有效的方法。

不幸的是,由于样本的低效率,深度强化学习的应用主要集中在模拟环境中。

在这项工作中,研究人员证明了机器学习算法和库的最新进展与精心调整的机器人控制器相结合,在现实世界中只需20分钟就能学会四足动物的运动。

论文链接:https://arxiv.org/abs/2208.07860

代码链接:https://github.com/ikostrikov/walk_in_the_park

研究人员在几个室内和室外的地形上评估了该方法,这些地形对于经典的基于模型的控制器来说是具有挑战性的,观察到机器人能够在所有这些地形上持续学习行走步态,文中也在一个模拟环境中评估了该设计决策。

10. 物联网攻击检测

现代车辆,包括自动驾驶车辆和联网车辆,通过与其他车辆、智能设备和基础设施的连接和通信,逐渐包含了越来越多的功能。

但车联网(IoV)日益增长的连接性也增加了对网络攻击的脆弱性。

为了保护物联网系统免受网络威胁,有研究使用机器学习(ML)方法开发了能够识别恶意网络攻击的入侵检测系统(IDS)。

为了准确地检测物联网网络中的各种类型的攻击,研究人员提出了一个全新的集成IDS框架,取名为为领导者类和信心决策集成(Leader Class and Confidence Decision Ensemble, LCCDE)。

论文链接:https://arxiv.org/abs/2208.03399

代码链接:https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning

通过在三种最先进的ML算法(XGBoost、LightGBM和CatBoost)中为每一类或每一种攻击类型确定表现最好的ML模型。

然后利用具有预测置信度值的类领袖模型,对各种类型的网络攻击的检测做出准确的决定。

在两个公共物联网安全数据集(Car-Hacking和CICIDS2017数据集)上的实验证明了所提出的LCCDE对车辆内部和外部网络的入侵检测的有效性。

推特排名前十的研究

参考资料:

https://www.reddit.com/r/MachineLearning/comments/x4vppv/d_most_popular_ai_research_aug_2022_ranked_based/

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_85587.html
上一篇国美回应旗下多平台裁员降薪:不排除经营困难而将实施减员
下一篇中国市场,赫力昂有三个关键词|专访赫力昂顾海英

为您推荐

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

【华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌】财联社11月7日电,华为智选车战略总监王连军透露,AITO问界已经连续三个月销量破万,在刚刚过去的10月份,销量达到了12018台,在新势力车企中做到当月市场第一。王连军表示,过去的汽车行业积累了精益制造与供应链体系能力,但未来是软件定义汽车,智能化是
高通骁龙8Gen2曝光信息汇总:CPU提升显著,GPU隔靴搔痒

高通骁龙8Gen2曝光信息汇总:CPU提升显著,GPU隔靴搔痒

相信每一位身处这个数字化科技时代的朋友们都深有感触,那就是近年来包括智能手机在内的消费类电子领域的更新换代速度实在是太快了,若非极少数的极客用户,相信没有谁的换机速度能够跟得上厂商们更新的脚步。你问我为何这样说?这不,眼下就有个活生生的例子摆在我们眼前。可以看到,在刚刚过去的七八月份,包括小米、iQO
谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

作者 | 冬梅自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的诞生,人工智能研究的进展发生了革命性的变化。近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。我们提
AirPods Pro 2,这次真的值得换了?

AirPods Pro 2,这次真的值得换了?

本周,苹果发布了秋季特别活动的邀请函,将发布会定档北京时间 9 月 8 日凌晨 1 点。除了 iPhone 14,大家心心念念的另一款重磅产品,也有望在本次发布会亮相。那就是 AirPods Pro 2。距离第一代 AirPods Pro 发布,已经过去了三年,想必有不少小伙伴已经在为耳机的续航而发愁。AirPods 3 提升不错,但又不支持主动降噪。那
除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

【联合出品团队】硅兔赛跑成员王子、顾程来,夏维彬对本文亦有贡献,腾讯科技成员李海丹、郝博阳、关皓。 【免责声明】本篇内容并非投资意见,为便于理解,该系列汇总了相关领域的典型企业案例作为参考,但所含相关公司资料不构成任何投资产品之要约或者建议,只作为一般参考资料用途。【版权声明】本文版权为硅兔赛跑和腾
曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

竞技游戏中的人机模式,一直以来都是玩家用来熟悉游戏、精进技术的最佳手段之一。相对于真人,AI的行为会稍显呆板,只会按照指令来行动。即使强如《英雄联盟》中的末日人机,也仅仅是在数值和技能类型上做出了调整,整体依然不足以与真人相提并论。而最近有款竞技游戏却打破了这个认知,那就是国产多人动作游戏《永劫无间》
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

机器之心报道编辑:袁铭怿网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为
出门问问发布大模型“序列猴子”及四款AIGC产品

出门问问发布大模型“序列猴子”及四款AIGC产品

三言科技消息 出门问问宣布内测探索大模型「序列猴子」,并提出CoPilot将会无处不在,同时在大模型能力的基础上还同步开启了面向创作者的CoPilot产品矩阵,面向C端的升级版语音助手魔法小问,以及面向B端的企业专属大模型的内测探索。其中面向创作者的CoPilot产品矩阵包含了四款AIGC产品,分别为AI写作平台“奇妙文”、AI
达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

杨净 发自 凹非寺量子位 | 公众号 QbitAI刚刚,达摩院十大科技趋势榜单发布。本次包含了AI、芯片、云计算等基础技术领域,既有引发全球投资浪潮的生成式AI,也有在规模化应用前夜的存算一体、Chiplet设计封装技术……(先来一睹为快)但跟以往不同的是,仅从榜单上可以看到,产业、融合等成为此次的关键词。而在跟达摩院进
“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

·“很多年前可能需要我们在农田里务农,工业时代变成流水线女工,到现在变成‘PPT女工’。未来可能就变成为AI工作的工人,是‘喂它东西的饲养员’。变化的只是工作形式,我们始终都会有工作。当然在这个过程中还有一部分人会因为没有继续学习,或者没有继续使用新工具而被淘汰。”曹宇在上海一家媒体担任英文报道编辑,平
知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

腾讯科技讯 4月13日,知乎在北京召开“2023知乎发现大会”,首次公开旗下与面壁智能共建的大模型产品“知海图AI”,双方合作将以联合研发与战略投资的方式展开。据了解,目前“知海图AI”已经应用到“热榜摘要”功能当中,通过对知乎社区现有的内容进行聚合、整理,然后提炼成摘要展现给用户,目前该功能已开放内测。官方表
孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

近期,“AI孙燕姿”因翻唱《下雨天》等歌曲走红网络。5月22日晚,孙燕姿发文回应称,人类无法超越AI技术已指日可待,凡事皆有可能,凡事皆无所谓,“我认为思想纯净、做自己,已然足够”。孙燕姿表示,无论是ChatGPT还是Al或者其他名字,现在这个“东西”能够通过处理海量的信息,同时以最连贯的方式拼接组合手头的任务,来
返回顶部