原标题:AIGC专题:AIGC内容生成深度产业报告(附下载)
今天分享的是AIGC系列深度研究报告:《AIGC专题:AIGC内容生成深度产业报告》。
(报告出品方:量子位智库)
报告共计:34页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
关键结论
区别于Generative Al和Svnthetic media,AIGC中的跨模态生成和策略/线索生成应当得到重视这两者也是AIGC长期的重要价值增长点。
按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨模态生成需要重点关注。Game Al和虚拟人生成是目前变现较为明确的两大综合赛道,预计对原行业产生整体性影响。
以下技术要素值得关注:长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注:闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。
除降本增效、提供参考外,AIGC的以下两点价值更值得关注:对不同模态元素进行二次拆解组合改变内容生产逻辑及形式;和其他AI系统或数据库进行联动,有实现高度个性化/高频优化。
我国AIGC行业仍处于刚刚起步阶段,距离大规模验证和体系化发展仍有距离,“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。
技术定义
AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic media,合成式媒体,主要指基于AI生成的文字、图像、音频等。
Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。 相较于量子位智库认为的AIGC,这一概念的范围较狭窄。
Gartner《2021年预测:人工智能对人类和社会的影响》给出积极预测:
至2023年将有20%的内容被生成式AI所创建。
至2025年,Gartner预计生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1%。
根据Gartner披露的“人工智能技术成熟度曲线”,生成式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用
一方面,这一概念忽略了跨模态生成(如基于文本生成图像或基于文本生成视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生成”和“内容”都应该采取更为广泛的概念。例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面,不仅包括常见的图像、文本、音频等外显性内容,同样也包括策略、剧情、训练数据等内在逻辑内容。
从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新的角色,从“观察、预测”拓展到“直接生成、决策”
从商业模式来看,我们认为,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGC\UGC之后的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。
技术及落地场景介绍——基于模态
我们认为,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。
技术视角下,我们认为以下场景将成为未来发展的重点:文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。
商业视角下我们认为,未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。
在这一部分,我们会基于不同的模态介绍对应的技术和商业场景,并给出各场景下的代表机构及发展现状。下图中的绿色部分,是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。
文本生成
以结构性新闻撰写、内容续写、诗词创作等细分功能为代表,基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。
量子位智库在此看好个性化文本生成以及实时文字生成交互。
细分技术介绍:
大型预训练模型成为当下主流做法与关键技术节点。
一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力。证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。
目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用FWritesonic、Conversion.ai、Snazzy Al、 Copysmith、 Copy.ai、 Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于Al dungeon等文本具有重要意义的延展应用领域。
量子位硬科技深度产业报告 — AI生成内容 AIGC
另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优 化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式,增加文本对于上下文 的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。
Transformer架构:
引入了注意力机制的Transformer架构能够基于每两个单词间的关系进行建模,有效理解单词在上下文中的意思,支持并行训练,使语言模型的训练效果达到了新高度。
在Transformer架构中,分为从左向右的自回归系列(GPT-3,和生成任务逻辑相同,特别适用于生成性任务),双向Transfomer+Mask的自编码系列(BERT系列,更适用于自然语言理解)Encoder-Decoder架构(T5,分别使用双/单向Attention,适用于条件文本生成)
报告共计:34页
海量/完整电子版/报告下载方式:公众号《人工智能学派》返回搜狐,查看更多
责任编辑: