产品中心

米乐M6官网·2024Q1人工智能“里程碑”盘点:Sora和Ki

发布时间:2024-04-07 15:30:49 来源:米乐m6米乐平台 作者:M6米乐最新下载地址

  2024年一季度即将结束。在以ChatGPT为起点的AI风潮席卷世界一年后,全球生成式AI应用加速发展,多模态模型及应用成为新一轮AI竞赛的“主战场”。目前,国内AIGC赛道应用层品类持续多元化,海外助手类应用逐渐成为主流。

  盘点一季度资本市场最“出圈”的AI应用,文生视频赛道上,Sora在2月春节假期后引起市场关注;3月国产AI对线万字的长文本技术后,访问量与市场关注度激增;3月下旬,初创企业Suno发布同名模型V3版本发布,一条龙“包办”歌词、歌声、配乐,指向多模态应用流行新趋势。

  文字聊天助手在ChatGPT问世之后成为各方人工智能巨头进军的方向,而多模态AI应用在2023年也已开始批量涌现,2024年仍然在A股“出圈”的Sora、Kimi做对了什么?

  继文生视频“独角兽”Pika大火之后,龙年春节期间,OpenAI发布的文生视频大模型Sora迅速风靡。Sora初步具备了理解物理世界的能力,率先将文生视频长度突破了1分钟长度,较其他模型表现更出色,还支持图生视频、视频生视频、视频扩展、多角度镜头等。春节后,Sora行情引领A股人工智能概念走强。

  其最关键的突破可以概括为以下几点,据中泰证券概括,一是生成效果上的可用性极高(60s时长、分辨率1080p);二是从技术路线上解决了模态之间的对齐问题;三是从产业发展看,Sora通用性极强,有望统一视频生成生态。

  而另一边,Pika等竞争者也在持续迭代,3月,Pika添加了 AI 视频自动生成音效功能,用户可以直接在应用程序中完成并创建新的声音文件,在此之前,Pika还推出了口型同步功能,在成为“一条龙”式AI 视频平台的路上前进。

  Kimi智能助手这一AI对话工具由月之暗面(Moonshot AI)在2023年10月推出,之后历经三次版本迭代。三月中旬,月之暗面宣布在大模型长上下文窗术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文。

  随后,“解锁”长文本能力的Kimi概念在市场爆火,多家上市公司发布公告称接入Kimi或正在与其沟通。百度、阿里也双双宣布加码,角逐长文本大模型赛道。

  目前海内外商业化AI应用仍然以聊天助手类为主。在海外,a16z最新的全球 AI 产品 Top100 榜单2024年有22家新公司上榜,LLM助手占主导地位,ChatGPT网站稳居榜首。在国内,根据AI产品榜计,目前国内智能聊天助手占主流,国内访问量前十中有六款产品为AI ChatBots,其中目前Kimi增速最高,2月环比为107.6%,在国内AI产品访问量排行榜中的排名升至第3位,仅次于百度文心一言的1006万和阿里通义千问的365万。

  Kimi在竞争激烈的同类产品中被二级市场关注,民生证券认为,优势在于其长文本处理能力,领先于同期其他模型产品。月之暗面创始人曾表示:“无损的长上下文是通用人工智能的关键基础”。而这一趋势在海外同类产品中也已出现。机器之心数据显示,OpenAI尚未上线Turbo上下文窗口将高达256K token(约20万词),Anthropic刚刚发布的Claude 3支持200K tokens上下文。

  近期,AI初创公司Suno更新了文生音乐模型Suno V3,可通过几秒时间创作2分钟的“广播级”音质完整歌曲,并新增了更丰富的音乐风格和流派选项,如古典音乐、爵士、Hiphop等。相比V1版本20-40 秒的时长,V3版本在完整度、提示词依从以及交互界面等各方面都有改进。Suno V3支持AI生成音乐歌词,但其能力侧重于音频生产,在文本生成方面,其与Open AI有合作。在模型运行时,Suno调用ChatGPT生成歌词和标题。

  无论是Sora的强扩展性长视频,还是Kimi的超长无损上下文、Suno在文生音频中调用ChatGPT实现“一条龙”创作,都填补了市场中AI产品的某些技术性空白。而其更多的共通点在于面向C端用户的开放体验和显著的商业化预期。

  Sora尚未正式发布,但其母公司OpenAI是最早一批开启人工智能商业化的企业。在Sora的测试阶段,其最先被开放给视觉艺术家、设计师、电影制作人等群体,首批拿到Sora授权的导演、艺术家们已在本周公开自己创作的最新短片。Kimi与Suno均有面向C端用户的免费访问形式,也获得良好口碑。华泰证券观点表示,Kimi的战略是基于闭源的C端模型,加速模型迭代,让B端公司接入其API合作赋能。

  在文生视频赛道,最新消息显示,OpenAI试图借助Sora进军好莱坞。据报道,OpenAI计划下周在美国洛杉矶与好莱坞诸多工作室、媒体高管、艺人经纪开会,以构建娱乐产业的合作伙伴关系、并鼓励众多制片公司将OpenAI的新款AI视频生成器融入它们的工作中。OpenAI CEO Altman已经在今年奥斯卡电影节周末出席洛杉矶的多场活动。

  在智能聊天助手赛道,Kimi母公司联合创始人预计,2024年会推出多模态模型及产品,预计在24年上半年开启商业化模式。而这一发展路径,在海外已被OpenAI验证过。

  Sora与LLM推理更需要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。纵观机构对Sora概念所给出的投资建议,机会集中于:①光通信领域和算力基础设施领域,需要更高的算力和带宽②AI文生视频技术有望对影视、广告营销、游戏与视觉内容创作等传媒领域进行重塑。

  和Kimi相关的投资主线则包括语料素材库价值的凸显(包括文字、图像、视频)、Kimi赋能应用的逻辑、与其他国产优质大模型合作的逻辑。Kimi近期连续宕机则显示从训练走向推理对于算力的需求将会巨大,而且这种需求仅仅刚开始。华福证券复盘称,回顾本年Kimi行情,最先领涨的是可接入Kimi的应用场景,包括阅读、短剧剧本生成等场景相关的标的,而后行情传导到模型语料,即拥有视频语料、文字语料的各个标的,子版块轮动路径和OpenAI行情较为相似。

  与Suno相关的投资机会,开源证券解读称,AI音乐生成模型训练或拉动对音乐版权、音频语料数据的需求。

  除了以上“爆款”AI,近期还有阶跃星辰大模型(万亿参数)、英伟达的一系列AI应用新部署等面世,AGI范式的构建仍在不断重塑中。在此过程中,机构的投资建议更多地指向训练数据集、算力和应用赋能。

  国产AI算力链在芯片、交换机、存储、AI服务器等方向的机遇早已明确,而2024年新生的机遇也在酝酿。一季度,国盛证券表示,国内外对液冷的需求有望形成共振,液冷从“可选”到“必选”的过程将大幅提升市场空间,成为算力重要细分赛道;兴业证券有色金属研究团队认为,英伟达新发布的GB200 NVLink铜互联方案以及高速连接器需求放量有望打开高端铜合金市场需求。

  2024年人工智能产业对于训练数据集的需求持续多模态化,开源证券表示,长文本训练或拉动知识、文学类语料需求,多模态训练或拉动图片、视频类语料需求。AI领域版权纠纷不断,海外近期多起由于未经出版社同意使用版权方内容训练大模型判罚落地,验证数据要素价值。三月末,国内《生成式人工智能服务安全基本要求》落地,方正证券表示,优质的视频和文本版权商价值凸显。

  AI对应用的赋能在ToB领域也已有许多尝试,近期的机构观点更多指向多模态、长文本的应用加速。华泰证券表示,综合当下全球AI应用发展情况,海外ToC应用进展与国内大模型能力升级或将成为2024年AI应用的关注重点。海外,AI应用2023年针对ToB场景全面铺开,大模型逐步嵌入企业IT基础架构。伴随模型能力提升,ToC应用有望迎来新拐点,多模态应用与智能终端(AI手机、AIPC)有望提速;国内,大模型能力优化仍是产业重点,长文本能力成为当前多家公司的模型能力重点。伴随基础模型能力提升,国内AI应用产品化、商业化节奏有望全面加快。

  从技术角度上,中泰证券认为,继文本、代码、图片、视频之后,下一个有可能实现突破的AI模态大概率是3D。目前海外在AI+3D技术上主要分为工业场景探索与非工业场景探索。非工业场景应用探索主要主要面向游戏、元宇宙中的3D资产设计;工业场景应用则主要以衍生式设计软件。但AI+3D建模技术当前也面临较多挑战,如3D数据与资产缺乏、AI训练难度高、AI实时渲染技术有限、商业化落地难度大等问题。

  而从A场角度,能够掀起行情的“黑马”往往出现在ToC端受众群体较多且有商业应用催化的方向。天风证券计算机团队在Kimi掀起市场热潮期间曾经发布相关问卷调查,结果显示,Kimi 培育用户习惯逐步形成且黏性很高,并非营销导流的一次性热潮,同时在某些特定场景下也形成了用户的核心需求(如金融)。从绕不开的通用场景如办公出发,垂直场景看好金融,建议关注办公软件、多模态赛道、金融和法律应用、B 端应用等。


米乐M6官网
亮照