来源:财经网  作者:易婷    2024-05-06 14:52

AIGC的浪潮,在视频行业开卷。

春节期间,OpenAI的文生视频大模型Sora问世,轰动整个科技圈。自那以后,业界从业者宣称要追赶Sora的声音水涨船高,不少厂商也相继推出文生视频的模型。

4月28日,万兴科技的万兴“天幕”音视频多媒体大模型宣布正式公测。该模型将支持60秒视频一键生成,并具备视频生视频、文生音乐、文生音效等近百项原子能力。

就在前一日4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学发布视频大模型——Vidu,一键生成长达16秒、分辨率高达1080P的高清视频内容。

 **支持60秒一键生成,**不盲目追求用户增长

从“4秒到60秒”这是Sora发布以来,业内AI视频创作者最直观的感受。然而2个多月来,据公开消息,还没有人拿到Sora的内测账号。

万兴“天幕”大模型是2024年1月底发布的,是国内首个专注于数字创意领域的音视频多媒体大模型,其依托15亿用户行为数据和百亿本土化音视频数据,采用先进的音视频生成式AI技术,为全球创作者提供全链路的创作支持。

据介绍,旗下产品如Wondershare Filmora、Wondershare Virbo中实现规模化商用,其中文生视频能力实现不同风格、丰富场景及主题的连贯性,一键生成时长率先支持60秒+,这意味着可以用一键方式将一个简短的故事转化为视频。生成的视频质量包括故事情节、角色形象、画面连贯性等方面,基本上能够按照你的故事情节完成视频制作。

万兴科技董事长吴太兵表示,相较文本和图像,音视频领域所需的技术场景多且复杂,用简单的大模型能力解决不了音视频创作成品问题,而是需要从数据上游、到原子能力及视频组装加工、到各细分市场终端应用软件推出,纵向一体化解决各场景下的音视频创作需求。

4月28日开展公测后,视频博主李先生在尝试使用文生视频功能生成一段60秒的视频片段后表示,视频是现在主流的表达方式,文生视频是从业者更为迫切想要追求的,万兴“天幕”仅通过简单的文字叙述,就能够生成充满想象力的视频画面,将一步提高创作效率、降低成本、增强创意表达力,将为创作者带来福利,也将对视频创作、电影制作、广告业等市场带来全新推动力。

财经网科技在现场体验了该能力,输入了Sora官方视频中一条视频的提示词:一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人四处走动。

输入后大约5分钟,视频生成。视频生成效果相比Sora的,仍有一段距离,比如穿着黑色皮夹克、红色长裙和黑色靴子。视频画面中并没有出现黑色靴子和该女子的全身照。

但此前据reddit社区上的网友反映,Sora生成1分钟视频的时间需要超过1个小时的渲染时间,这使得Sora在实际应用中面临了巨大的挑战。

在业内普遍的共识是,文生视频大模型,对于算力的要求更高,根据华西证券计算机研究团队的推算,Sora架构的训练与传统大语言模型(LLM) Transformer架构的训练算力需求存在近百倍差距。

文生视频模型成本高这一点在吴太兵那也得到了验证,他告诉财经网科技,在文本大模型领域,可能这是大家的共识(追求用户规模化增长),因为它的成本相对可控,而且用户越多越有利于大模型快速升级。

“但是对于视频大模型来讲,可能相对而言要慎重一点,因为它的训练成本、推理成本是巨大的。如果我们是漫无目的随便对外开放,可能会导致大模型本身的成本、ROI,成为非常大的问题,成本会Cover不住,所以我们可能对用户还是会有很强的选择。”

而且他认为,现在整个行业处于非常初级的阶段,所谓的出圈,更多是叫宣传出圈。因为他们传递的东西,更多还是他们最终实验室做出来的视频,而不是真正的产品。

据吴太兵介绍,万兴科技在大模型上的投入较大。“首先是研发的投入,数据采买的投入、算力的投入,加在一起是上亿级别的。”根据2023年年报,万兴科技在AIGC技术研发和产品升级上进行了大手笔投入,全年研发投入达到4.03亿元,以支撑万兴“天幕”大模型研发、WES5.0开发、Wondershare Filmora V13桌面端及移动端开发、万兴播爆2.0等。

 商业化进程存在不确定性

实际上,在文生视频大模型领域,并非Sora一枝独秀,Runway、Pika、Stable Video Diffusion等众多AI创业公司也在此赛道上竞相角逐。

在万兴“天幕”宣布公测的前一天,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

据生数科技介绍,Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。“U-ViT架构早在2022年9月就由团队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。”

在目标用户这一问题上,吴太兵表示To C与ToB对他们来讲没有绝对的界限,“就像一台打印机,你可以在家用,也可以在办公室用,但它大同小异。从关注用户量的角度来讲,会关注To C的需求为主,但是从来不会拒绝B端的需求,而且在中国市场,我们会特别关注B端的这块需求,通过C端与B端的需求,最终推动我们大模型的升级,然后用大模型再赋能更多的应用场景。”

他还补充道,会重点推向B端用户,“因为B端用户对付费的意愿和能力会相对更强,而且他更能感受到大模型带来的实实在在的成本降低,以及对创意的赋能和提升,所以他们会更愿意付费。”

随着视频模型越来越多地出现,在商业世界,商业化前景是大家关心的。万兴科技副总朱伟早前在一个论坛上表示,虽然大家都在做视频模型,但距离商业化还有距离。

无独有偶,福建华策品牌定位咨询创始人詹军豪在接受媒体采访时表示,随着技术的不断进步和应用场景的拓展,文生视频有望在更多领域得到应用,为投资者带来更多的市场机会。然而,目前文生视频技术仍处于发展初期,商业化进程还存在一定的不确定性。

据Gartner研究预测,到2030年,90%的数字内容都将是AI生成。此外,目前全世界有3.05亿视频创作者,43亿视频覆盖群体,每天200亿次以上的视频播放量。面向亿级用户规模,谁会是下一个Sora?

综合自万兴科技、生数科技、证券日报等。