行业动态

米乐M6官网·图像生成AI的产品化风口在何方？听听业内人士怎么说

发布时间：2024-11-17 05:22:32 来源：米乐m6米乐平台作者：M6米乐最新下载地址

　　2023年以来，以Stable Diffusion为主的开源图像生成AI以来，AI从图像和视频两个方向也开始有了质的突破。AI的上限仅仅是为了创造一些图像和视频吗？人们何时才能将技术突破转化为生产力？AI能否像20年前的互联网一样，给人类社会带来巨大变革？

　　我们采访了坚持图像生成AI创业者和人机交互专家——季啸白。季啸白目前在全球头部互联网社交媒体公司工作，同时也是长期的图像生成AI方向创业者。从全球名校硕士毕业后，季啸白一直投身于图像生成AI产品化的研究和创业，作品也多次获奖。当前AI技术的局限、短期内产品落地的思路、中长期图像生成AI的发展思路和方向……季啸白一一进行分享。

　　“我认为，AI的发展仍然在很早期。在当下，人们仿佛对AI有些不切实际的幻想，总认为AI已经进化出人类的思维，有感情有思考能代替人类写论文，甚至和人类谈恋爱。这些有些一厢情愿了。”季啸白在开场就说道。

　　“目前，你让AI写生物医药论文、画一幅抽象主义绘画，AI本质上只是学习过去人们写过的论文、画过的绘画，然后按照人类当下的需求重新有机的杂糅并输出。AI是没有创造性的，特别是图像领域。为什么图像生成AI领域经常出现版权纠纷，其实正是因为AI只是学习了过去的画作，在输出过程中，并不能受控制地不输出一些内容，导致恰好和版权作品相近，因此导致版权问题。”季啸白也指出，图像生成AI经常出现的版权纠纷，其实是因为人类对AI的输出结果不能很好地控制，因此亟须更有效的人机交互方式。

　　在季啸白看来，不同于ChatGPT，人类无法直接给AI提供图像，但人类对AI生成的图片结果敏感。“如何帮图像生成式AI做好人机交互体验，帮助人们合理准确表达诉求的同时，降低上手难度和门槛，从而获得预期结果，是图像生成AI无法回避的话题。这也是我在创业和工作中重点研究的方向。”

　　季啸白同时也提到，当前图像生成AI的人机交互方式，从渠道上来说分为用文字生成图像，用“文字+图像”生成图像，用“文字+图像+风格倾向”生成图像，用“文字+图像+标注重点部位”生成图像；从轮次上来说也分为单次和多次。相对复杂的交互方式导致设计合理和简化的人机交互体验能帮助C端产品获得成功，但对B端产品需要深入浅出地提供更丰富的多轮生成调优能力。“B端消费者不喜欢随机，不要套用C端产品的思路来解决B端需求。我也见过B端产品，上来就让用户提供文字描述来生成图片/视频。B端用户是要生成图片拿来干活的，不是天马行空的任由AI发挥。B端无法接受太高的自由度。这一点在人机交互的设计上一定要考虑到。”季啸白补充道。

　　季啸白认为，图像生成AI的重点正在从to C市场向着to B市场转移（注：to C是指面向普通消费者市场，to B是指面向商业市场）。美国硅谷早期的一些图像生成AI都是面向普通消费者的，他们鼓励用户去他们的平台用文字描述需求，然后点选他们喜欢的图片来下载，整个流程就走完了。这本质上是服务普通消费者的流程，商业化潜力在于用户按次付费，或通过订阅制包月使用。然而早期的商业化探索并不顺利。大部分消费者抱着尝鲜的目的而来，用户增长很快，但留存和付费转化很低，本质上是因为通用型图像生成AI的天花板太低，既没有给用户尝到甜头，也没有直接服务用户的痛点。相比而言，垂类图像生成AI，以及to B图像生成AI的天花板更高，因为他们有的能帮用户赚钱，有的能帮用户找到快乐，有的切实满足了部分商户的特点。

　　季啸白认为，要关注C端市场低客单价的普遍需求，千万不能陷入追求高客单价或高频；对B端市场，要关注特定垂类市场的高频需求。他具体阐述道：“AI的本质是替代人类的重复劳动和昂贵劳动力，因此偶尔看到部分AI创业者追求高客单价，其实是个误区。AI无法创造奢侈品。同时，图像生成式AI很难触及高频需求，我们的日常生活中，出门吃饭买菜，回家刷短视频睡觉，很少需要创造图像，因此传统商业意义的高客单价和高频都是不可取的。”

　　季啸白建议，一定要着眼普遍的多个需求才有商业化的价值和空间，比如做AI图像集成工具，连带AI美妆，AI一键换背景，AI一键改光线，AI生成证件照/艺术照，虽然对单个用户而言不算高频需求，但对于整个社会而言，累计使用次数相当可观。

　　对于toB市场，季啸白建议“钻进去”，和特定垂直行业的从业人员聊，了解他们的具体需求，并判断需求频次和客单价后服务好这些行业。“电商行业其实是最早开始接触图片生成AI技术的行业，因为行业本身信息敏感度高，也有大量图片处理需求。我们工作中也经常有电商行业的从业者来聊，因为他们的需求太大了，无论是图像生成、图像批量后期处理，还是一键换衣等需求，本质上就是用AI的低成本去换重拍图片的成本。”季啸白分享道，“他们的需求非常杂，相当定制化，每一类需求量其实不大，所以图片生成AI其实反而服务不好这个行业。之前有个老板来找我们，希望把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。其实从技术角度，我们都要对帽子、围巾、手套等物品做定制化的训练和开发，有一定人工成本。对于电商而言，不如就找模特快速拍一下就行了。所以虽然这一个项目没有成功，但能管中窥豹钻进一个行业，具体了解他们的需求、内容和频次的重要性。”

　　季啸白分享了他的想法：“我认为视频生成正处于破晓时分。其实视频本质就是图像的连贯展示，且从图像生成技术出现开始，人们已经在为AI生成视频努力。视频的商业前景比图片大得多，这也是抖音/TikTok等产品成功的原因。经过互联网20年的发展，人们对消费视频已经习以为常，并且使用习惯也从阅读静态媒体向消费动态内容转变。视频生成应该是下一个方向，大约在2025年达到可商用的成熟度。”

　　季啸白也坦言，当前视频生成技术尚不成熟，但成熟度一旦建立，OpenAI可能会建立自己的视频平台，和抖音/TikTok直接竞争视频消费者，同时给影视行业带来变革。影视行业不一定喜欢从0开始生成视频，但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成无法拍摄的视觉效果等感兴趣，并且影视行业的付费意愿高。和影视行业紧密合作，也许会是这个10年下半场的核心机会空间之一。

　　对于图像生成AI的长期发展方向，季啸白坦言，超过5年的预期，自己也很难看准。但长期来说，图像生成AI一定是和人类大脑协作，而不是取代人类的摄影和图像创作。

　　“摄影其实也是拍摄者的情绪和思考的表达，而不仅仅是对客观事物的捕捉和取景。”季啸白说道，“我自己也很喜欢画画和摄影，AI技术不断演进下，人类主动创作的主观表达是永远无法替代的。但同时也不能忘了，我们生活中有太多的重复劳动能被替代。创业固然很难，但创业的难其实来源于发现问题和机会点的眼睛。AI技术永远在演进，我很期待图像生成AI未来的表现，也期待图像生成AI在更多更垂直的领域和赛道的应用。”

米乐M6官网

上一篇：机器视觉赋能智慧物流的发展下一篇：AI图像识别在领域中的深度应用