行业动态

米乐M6官网·半年打造出国产 AI 生成利器字节前视觉技术负

发布时间:2024-11-17 05:28:22 来源:米乐m6米乐平台 作者:M6米乐最新下载地址

  在此之前,毕业于中科大的王长虎有着13年的微软研究院工作经历。2017年加入字节跳动,在职期间组建了字节AI Lab视觉技术团队,担任集团视觉技术负责人,参与抖音和TikTok等产品从0到1的发展、搭建字节跳动视觉算法平台和业务中台、主导字节跳动视觉大模型从0到1的建设。

  23年之前,他虽然也考虑过创业,但时机尚不成熟,生成式AI技术的进步还不足以对社会产生颠覆性影响,直到Stable Diffusion、ChatGPT的出现,王长虎就意识到新的AI时代到来了—— 因为C端的用户数说明了一切,ChatGPT两个月就达到一亿月活,超过了TikTok的记录。「这次创业是受时代和内心的双重感召,此刻就是最佳的时机。」

  在2023年上半年国内市场疯狂卷大语言模型的背景下,王长虎坚信无论是过去、现在、未来,视频都是最重要的内容,AI视频生成如果能够做好,一定会从根本上改变人们创作和消费视频的范式,是个真正的大机会。因此,王长虎绕开了NLP大模型这个最火的创业领域,做自己熟悉、感兴趣的视觉大模型。

  4月,王长虎找到现在的合伙人、之前在光源资本TMT/AI方向负责人谢旭璋,并拿到超过五千万的天使轮融资,随即宣布成立了新公司「爱诗科技」(AIsphere)。6月,数名核心人员就位,明确了做视频生成的方向,7月便开始训练大模型。

  接下来半年的时间里,爱诗科技处于从0到1的攻坚期,并没有什么大动作,很少出现在公众的视野中。

  直到2024年初,在海外一款名为PixVerse的AI视频生成产品短时间内获得海外用户的高度评价,并有许多优秀海外创作者自发使用PixVerse创作出了高质量、高热度的“”。

  AI影视探索者闲人一坤用PixVerse制作《山海奇镜》,自1月初发布后在全网达到近百万的播放量。

  AI科技评论获悉:PixVerse是AIsphere(爱诗科技)旗下的海外AI视频生成产品,现已在国外社区上线,国内产品也即将上线。

  在他看来,尽管生成式AI时代已经到来,但新时育的机会不仅是眼前所能见到和可预期的,技术端和用户端的共同探索将会带来更大的机会和颠覆性改变。

  Runway推出了动态笔刷新功能Motion Brush,用户只需在图片上轻轻一划,即可将其转化为动态视频;

  Stability AI发布了Stable Video Diffusion视频模型,创作者可根据需要调整迭代步数、重绘幅度等各种参数,以协助创作者精确掌控画面生成过程;

  其中,最出圈的非Pika莫属。Pika 1.0官方宣传视频中,诸多用户用「惊艳」来形容其效果,更有“AI生成视频的ChatGPT时刻即将达来”的说法。

  事实也是如此,AI视频生成最大的劣势,是画面的丰富度不够——在生成的视频中,更多只能呈现嘴部或局部动作,很难整体动起来,这也是各家产品尝试解决的问题。

  从结果上看,爱诗科技生成的视频不仅扎克伯格的形象更加精准,动作也相对协调,并且可以人物走起来,画面的延伸程度较高。

  王长虎表示,爱诗科技希望未来能够做到在15秒时长内的视频中呈现更多的信息量,而非只是让画面主体轻微晃动3秒、5秒,让视频承载更多有意义的信息,并符合用户的期待才是核心的。

  这也意味着,面对用户五花八门的prompt,只有保持较高的鲁棒性、稳定输出精准画面,才算是成功。基于这样的优先级,自然而然会影响爱诗背后数据采集、模型训练、特定功能路线的选择。

  爱诗科技从7月开始训练模型,经过三四个月的打磨,产品效果已经不输同为「模型+应用」模式的视频生成产品Runway和Pika。

  回顾过去,从PGC发展为UGC的过程中,诞生了抖音、快手等现象级的产品。而今走在从UGC跨越到AIGC的路上,势必也会带来大量的机会。

  王长虎认为,UGC到AIGC,变的是U和AI,最主要的视觉难题不尽相同,但系统性地解决视觉问题所需要的核心技术能力却一脉相承。

  以抖音为代表的短视频产品举例,其成功离不开一系列视觉技术能力:对于短视频特效精准稳定的高效生成、对海量视觉数据的精确清洗和标注、对视频的低延迟抽帧和安全检查、对关键内容近乎完美的准确识别等。

  这一系列技术支撑了短视频成为UGC时代的核心媒介,并且成为解决AIGC时代视觉生成上准确性、一致性、丰富度等难题的重要基石。

  而这些,正是爱诗科技的优势之一——拥有上一时代全球顶尖视觉技术能力的操盘经验,沉淀下了硬核的技术能力,工程化能力也足够强。「这也是我们对于AI视频生成这件事的信心来源。」王长虎说到。

  在抖音、TikTok这种数据量极大、用户量极高的产品上,所遇到的每一个问题都是「世界级」难题。过去和视频相关的数据、算法、工程等方方面面问题,爱诗的团队都遇到过,并且成功攻克,而这些经验能力可以在一定程度上直接复用。

  现在来看,要想做一个好的AI视频生成产品,需要下面有一个基座的、动态的大模型,数据是其中重要的方面之一,但数据采集并不会构成真正的壁垒,如何做好数据的清洗、筛选等数据处理能力更加重要。

  并且,在资源有限的前提下,并不是所有数据都可以用。在强数据处理能力的加持下,爱诗科技会通过AI能力自动找到最优质的那一部分内容,这部分可能只有竞品模型1/ 10的体量。如此一来,就有机会用更少的成本、更少的资源,更快地做出更好的模型。

  同时,爱诗科技的核心团队曾经用AI解决了抖音和TikTok这些国民级产品的内容安全问题,因此也能很大程度增强视频生成的安全性。不管是用户恶意引导生成的违规数据,还是大模型初期被灌进的脏乱差数据,爱诗科技有能力在海量数据里面把这些内容识别出来,降低对模型质量的干扰程度。

  除此之外,爱诗也关注视频生成的可控性问题,探索如何把运动的世界更好地建模,实现对运动中的和物体更精准的控制等。

  另一方面,初创科技企业算力有限,把有限的资源用到极致,提高效能以减少训练和推理的时间,就尤为关键——这正是是爱诗团队从过去的经验中打磨出的经验和优势。

  王长虎告诉AI科技评论,在字节,面对像春节发红包这样一个时间点,流量可能是平常的数十倍甚至上百倍,需要在不添加额外资源的情况下确保服务器的稳定、不能影响用户的体验,这就需要极强的推理效率和工程架构能力。

  在字节期间,王长虎带领的团队支撑了抖音TikTok等数十个产品和场景的视频AI能力。模型训练和推理需要巨大的GPU资源,更重要的是如何用好这些算力,这其中包括模型增效、模型压缩等技术都是至关重要的。哪怕1%效率的提升,可能意味着节省数百块GPU。因此,所有技术都需要做到极致。

  映射在现在做视频生成模型的事情上,这种能力能帮助爱诗团队用更少的资源做出更多的事。比如原来一个视频生成可能要一分钟,具备这一能力后就可以用更少的时间完成,这意味着它占用GPU的时间更短,如此一来,同样的算力可以生成更多的视频。

  「视频生成并不是像文生图那样堆资源和算力就行,在特定的时间内,不仅关乎你的资源有多少,也考验资源受限下如何更好地建模、更好地解决问题。」王长虎认为。

  不同于LLM已经相对明确的发展路径,AI视频生成还停留在技术突破的阶段。面对诸多的技术挑战、更高的用户期待,王长虎表示这也是令爱诗团队兴奋的一个点,解决未来一个阶段的问题,视觉大模型会有更大、更快的爬坡阶段。

  王长虎:我们开始做这件事情的时候,整个市场还是很冷的,很多人会觉得视频生成太遥远。但由于我们这个团队一直在做视频,所以我们对视频生成有一个自己的认知——未来AI生成视频会有一个快速的发展和爆发期。

  过去这半年的发展其实是符合我们预期的,这几个月,越来越多的目光关注到我们,越来越多的同行参与进来,这印证了我们之前的判断。

  王长虎:首先,过去几年我们是伴随抖音TikTok这些国民级短视频成长起来的,我们对视频有深刻认知,视频在过去、现在和未来,都是最重要的一类内容,会带来巨大的机会。可能过去几年,并没有产生很多图片类的国民级产品,但是视频类产品更多,也是耳熟能详的。视频承载的内容更丰富,会带来更多的产品想象力,所以我认为做视频是更大的机会。

  其次,NLP大模型,有chatGPT在前,文生图大模型,有midjourney在前,所以NLP大模型、文生图,国内更多是跟随。而视频领域,我们看UGC时代,最有影响力的视频产品就是抖音和TikTok,是中国人做出来的,是领先全球的。因此,视频生成领域,国内当然有机会比国外做的更好,抖音/TT背后的视频AI技术,很多都是我带着我的团队做出来的,因此我们有天然的优势。并且,与NLP大模型和文生图大模型不同,视频生成还在发展初期,我们有做成全球最好的视频生成模型的机会。

  王长虎:从根本上来讲,建设视频大模型,数据、算法和工程能力缺一不可,都有很多问题是需要解决。而我们在建设抖音和TikTok的视频AI能力的时候,各种各样的问题都遇到过和解决过,踩过无数的坑,解决过无数的世界难题,我们这个团队具备这些能力。

  而很多问题,我们的同行过去不一定遇到过,要解决问题可能还有不同的解决方案,有很多试错成本,探索也会有时间成本,而在当前这个阶段,时间是最重要的。

  处理过抖音和TikTok这些全球范围内最大的短视频平台的多种问题后,我们具备了多种能力,像多模态之间的对齐、更有效的视频表征、多模态的表征,如何对视频的时空进行建模、如何在有限资源情况下把算法做到极致等。这些就是过去我们一直在做的事情。

  做视觉大模型,本身就不是一个单点,一个算法,一个paper就能搞定的,它是一个系统工程。我们团队的核心的成员,处理过全球最大短视频产品的每天数以亿计的视频数据,用视频AI解决过抖音TikTok背后无数难题,解决过这些国民级产品背后成百上千个服务、数万个GPU的工程问题。而这些能力很多都是做AI视频生成大模型的基础。

  王长虎:创业和在大公司做事是不一样的,最大的不同,是创业公司初期资源特别有限,没有那么多试错机会。而在字节,我们有机会从0到1把事情做成,踩过很多坑,积累了很多经验和能力,这些经验和能力对于初创公司至关重要。

  我们认为现在做的事情其实是一件更大的事情。我个人经历过好多时代,从零几年那个时候的搜索时代,到之后的深度学习的时代,后来进到字节之后的UGC时代。UGC时代用户生产内容的效率比PGC的效率更高,涉及的范围也更广,也带来了更大的商业化机会,抖音、快手等短视频平台应运而生。

  现在的不同之处在于,我们做的是AI,它生产内容的效率会更高。可以预见,AI生成视频很快就会进入快车道,当生成视频的质量足够好、效率足够高,那肯定会再开启一个新的时代,那这个时代就有巨大的机会。现在很多性的产品过去都是人们所想象不到的,放在AI视频这个赛道上也是同样的。

  对我们来说,这个时代会更加考验我们的创造力,不管是模型层面的,还是产品、应用层面的。AI时代的这些人,也要像AI一样更快的进化,团队中的每一个成员都在快速地成长。

  王长虎:做AI视频生成,就像在做一个AI摄像机,但它不需要摄像头这种硬件,不需要再去动画工作室里面去创作,而是用AI直接生成视频内容。 越来越多的人去做这样一个AI摄像机,我觉得这是好事,可以快速能推动这个技术的成熟。其实更重要的是,一旦AI摄像机做成熟之后,背后带来的新的、更大的机会。

  回过头去看移动互联网时。


米乐M6官网
亮照