原标题:AIGC专题:AIGC内容生成深度产业报告(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题:AIGC内容生成深度产业报告》。

(报告出品方:量子位智库

报告共计:34

海量/完整电子版/报告下载方式:公众号《人工智能学派》

关键结论

区别于Generative Al和Svnthetic media,AIGC中的跨模态生成和策略/线索生成应当得到重视这两者也是AIGC长期的重要价值增长点。

按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨模态生成需要重点关注。Game Al和虚拟人生成是目前变现较为明确的两大综合赛道,预计对原行业产生整体性影响。

以下技术要素值得关注:长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注:闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。

除降本增效、提供参考外,AIGC的以下两点价值更值得关注:对不同模态元素进行二次拆解组合改变内容生产逻辑及形式;和其他AI系统或数据库进行联动,有实现高度个性化/高频优化。

我国AIGC行业仍处于刚刚起步阶段,距离大规模验证和体系化发展仍有距离,“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。

技术定义

AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic media,合成式媒体,主要指基于AI生成的文字、图像、音频等。

Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。 相较于量子位智库认为的AIGC,这一概念的范围较狭窄。

Gartner《2021年预测:人工智能对人类和社会的影响》给出积极预测:

至2023年将有20%的内容被生成式AI所创建。

至2025年,Gartner预计生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1%。

根据Gartner披露的“人工智能技术成熟度曲线”,生成式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用

一方面,这一概念忽略了跨模态生成(如基于文本生成图像或基于文本生成视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生成”和“内容”都应该采取更为广泛的概念。例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面,不仅包括常见的图像、文本、音频等外显性内容,同样也包括策略、剧情、训练数据等内在逻辑内容。

从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新的角色,从“观察、预测”拓展到“直接生成、决策”

从商业模式来看,我们认为,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGC\UGC之后的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。

技术及落地场景介绍——基于模态

我们认为,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。

技术视角下,我们认为以下场景将成为未来发展的重点:文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。

商业视角下我们认为,未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。

在这一部分,我们会基于不同的模态介绍对应的技术和商业场景,并给出各场景下的代表机构及发展现状。下图中的绿色部分,是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。

文本生成

以结构性新闻撰写、内容续写、诗词创作等细分功能为代表,基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。

量子位智库在此看好个性化文本生成以及实时文字生成交互。

细分技术介绍:

大型预训练模型成为当下主流做法与关键技术节点。

一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力。证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。

目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用FWritesonic、Conversion.ai、Snazzy Al、 Copysmith、 Copy.ai、 Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于Al dungeon等文本具有重要意义的延展应用领域。

量子位硬科技深度产业报告 — AI生成内容 AIGC

另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优 化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式,增加文本对于上下文 的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。

Transformer架构:

引入了注意力机制的Transformer架构能够基于每两个单词间的关系进行建模,有效理解单词在上下文中的意思,支持并行训练,使语言模型的训练效果达到了新高度。

在Transformer架构中,分为从左向右的自回归系列(GPT-3,和生成任务逻辑相同,特别适用于生成性任务),双向Transfomer+Mask的自编码系列(BERT系列,更适用于自然语言理解)Encoder-Decoder架构(T5,分别使用双/单向Attention,适用于条件文本生成)

报告共计:34页

海量/完整电子版/报告下载方式:公众号《人工智能学派》返回搜狐,查看更多

责任编辑:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注