发布时间:2024-05-06 04:53:16 人气:141 次 来源:bob天博
近年来,随着移动网络为代表的数字化的经济的加快速度进行发展,国内数字内容的消费需求持续迅速增加,从质量、数量角度均进入升级通道。以往分别由专家、用户所主导的PGC、UGC数字内容生产模式,已逐渐无法完全满足数字内容的多样性、效率需求,基于人工智能技术的AIGC,能够深刻、广泛赋能数字内容生产的各类场景和内容创作者。被ChatGPT引爆后,在需求、技术、基础设施、政策等多重因素合力助推下,AIGC领域将迎来爆发式增长,AIGC有望成为Web3时代的重要基生产力工具。
6月28日,爱分析正式对外发布《2023爱分析·AIGC厂商全景报告》。爱分析考虑企业需求、关注度等因素,选取其中2个特定市场进行重点分析,通过对各特定市场的需求分析和代表厂商的能力解读,为企业厂商选型提供参考。
注:本文为报告精简版,扫描下图二维码或左下角“阅读原文”,可下载完整版《2023爱分析· AIGC厂商全景报告》。
通用大模型市场当前虽入局者众多,但终局将高度集中,未来将由5-6家厂商主导;应用层厂商及甲方企业应着眼终局,从大算力、巨量数据集、端到端AI工程化能力及应用生态伙伴等维度考虑,慎重选择合作伙伴。
中大型企业虽倾向于大模型的私有化部署,但由于中美博弈下GPU算力资源紧张且短期无法有效解决、C端应用受多重制约,使得国内行业大模型与通用大模型发展并驾齐驱。未来,行业大模型市场整体百花齐放,但垂直领域仍将头部集中。
AIGC应用层面,能源、金融、传媒、营销、数字办公等行业走在前列,甲方AIGC落地面临路径选择、法律和法规及内容安全等多重挑战,目前落地价值主要以价值增强和效率提升为主。
To B市场,底层平台收费将是整个AIGC生态中最主要、最稳定收费模式,产业发展中后期,按产出内容付费、订阅式付费等结果性付费模式占比将持续增加。
To C市场的成功的关键是寻找到有足够用户粘性和智能化痛点的场景,ChatGPT、Midjourney拉高了用户对于通用AI产品的预期,使得C端产品的订阅收费,短期内难度更高。未来,C端可能出现免费模式,也可能在某些场景中,形成超级入口级软件或硬件。
行业大模型市场,甲方企业需要端到端的AI服务能力,甚至希望能够直接应用具有大模型能力的SaaS服务,实现自大模型到上层应用软件的一体化集成,以降低大模型应用门槛。这要求行业大模型厂商不仅具备AI核心技术,还需要有AI工程化能力、深刻行业Know-how。
AIGC+数字办公的应用场景中,甲方企业希望数字办公产品能够“好用、有用、安全”,不仅要足够智能,还需要覆盖数字办公的核心场景、与企业其他业务及管理系统打通,并且确保数据和信息安全。因此,不仅要求数字办公厂商对数字办公领域有深刻洞察,还需要有对底层大模型的集成与产品化能力,保证产品的兼容性与安全性,确保数字办公产品的价值落地。
近年来,随着移动互联网为代表的数字经济的快速发展,国内数字内容的消费需求持续快速增长,从质量、数量角度均进入升级通道。以往分别由专家、用户所主导的PGC、UGC数字内容生产模式,已逐渐无法完全满足数字内容的多样性、效率需求,基于人工智能技术的AIGC,能够深刻、广泛赋能数字内容生产的各类场景和内容创作者。
技术方面,深度学习模型不断迭代,Transformer迅速取代RNN系列变种,跻身主流模型架构基础,Diffusion、CLIP等新一代各模态基础生成算法的诞生和应用,使得人工智能内容生成百花齐放,产出效果趋于逼真,为基于AI的内容生成即AIGC提供了可能。
从基础设施角度,AIGC需要GPU算力、网络及存储等硬件基础设施的全方位支撑,国内过去在互联网及移动互联网时代所积累的云计算、数据中心、算力中心等领先全球的数字化基础设施,为AIGC的落地运行提供了坚实基础。
政策层面,党中央、国务院历来高度重视人工智能产业的发展,几乎每年都会有相应政策出台。2023年4月,中央政治局首次提及通用人工智能,为我国人工智能产业尤其是通用人工智能的发展奠定了总基调。在中央会议精神的指引下和产业发展需要的驱动下,地方政府政策积极跟进,促进人工智能产业政策的进一步落地。5月最后两天,北上深三地接连出台相关支持政策,大力支持国产大模型为代表的人工智能产业的发展。例如,深圳市在所发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》中提出了包括“千行百业+AI”在内的十八项举措,要力争创建全球人工智能先锋城市。
总之,被ChatGPT引爆后,在需求、技术、基础设施、政策等多重因素合力助推下,AIGC领域将迎来爆发式增长,AIGC有望成为Web3时代的重要基生产力工具。
其一,基础层。基础层主要包括AI芯片、基础生成算法、数据集等,这些构成了大模型产生的基础。例如,大模型由于模型参数巨大、需要的预训练数据规模庞大,因此,对算力有极高要求,以英伟达的A100芯片为例,ChatGPT能够“大力出奇迹”,也正是数千张甚至上万张A100芯片所组成的算力基础设施提供强大算力保证的结果。
其二,模型层。模型层是AIGC的核心,整体由通用大模型、行业大模型两部分构成,是应用层的能力基础。通用大模型,核心是通过大规模无标注数据的训练,形成可“举一反三”的强大泛化能力和迁移学习能力。而行业大模型,则是面向垂直领域,基于自建模型或利用通用大模型,引入行业语料进行模型的进一步训练,以提升对行业/领域应用场景的支撑能力。
其三,应用层。大模型能力具备后,核心是让模型与千行百业的具体业务场景相结合,产生具体应用价值。通过大模型的能力赋能及提示词的交互赋能,甚至是整合了大模型能力的前端应用(如SaaS),可以让大模型在各行业、企业价值链各环节落地生根。
爱分析综合考虑企业关注度、行业落地进展等因素,选取其中的行业大模型、数字办公这两个特定市场进行重点分析。
本报告主要面向组织的产研部门、业务部门及管理部门,通过对行业大模型、数字办公市场的需求定义和代表厂商的能力解读,为企业行业大模型、数字办公产品的落地与应用提供厂商选型参考。
通用大模型市场当前参与者类型虽多,但市场终局将高度集中,科技厂商及甲方企业需着眼终局,慎重选择通用大模型合作伙伴。
当前,通用大模型的参与者类型众多。从目前的情况来看,有智源研究院等科研院所,有BAT、华为、科大讯飞等互联网大厂,有商汤科技等老牌AI厂商,也有智谱AI、光年之外等专注AI领域的创业企业,甚至知乎等拥有一定语料优势的互联网企业。
从竞争格局来看,通用大模型市场,最终可能会由5-6家大模型厂商来主导。由于存在大算力、巨量数据集等高进入壁垒以及模型客观存在的“反馈-迭代”飞轮效应和持续的大资金投入要求,是典型无差别竞争要素主导驱动,加之大模型落地需要模型方、前端应用开发服务商、工具开发服务商甚至是数据服务商等完整的价值生态来整体协作以确保价值落地,单一厂商难以打穿整个价值链,生态化将成为必然趋势,这势必会反向加固进入和竞争壁垒,进一步巩固既有市场格局。因此,通用大模型市场未来将趋于集中。
国内的商业生态趋向于自建而非开放,因此,对国内的科技厂商、甲方企业而言,应以终为始,慎重选择当前的通用大模型合作伙伴。一方面,从以云计算、移动互联网等为代表的国内信息产业演进历程来看,国内的商业逻辑趋向于构建商业闭环而非美国为代表的开放商业生态,因此,商业生态间的兼容性相对较差,打通适配成本高昂。另一方面,通用大模型从模型构建到预训练再到对外应用,从影响要素层面离不开大算力、巨量数据集、端到端AI工程化能力以及应用生态伙伴的协同发力,站在当前视角,为最大化减少投资失误,科技厂商及甲方企业需综合考虑以上因素,慎重选择具有优秀“长跑能力”的通用大模型合作伙伴。
行业大模型与通用大模型并行发展,未来整体百花齐放,但垂直领域仍将头部集中。
受算力和C端商业化进程制约,国内市场上行业大模型与通用大模型并驾齐驱,并行发展。从业界实践来看,与国外不同的是,国内出现了通用大模型与行业大模型并行发展的局面。一方面,很多中大型企业都期望通用大模型能够实现私有化部署,这对GPU为代表的算力产生了很高要求。在中美博弈大背景下,A100、H100为代表的芯片被美国列入禁止出口商品名单,加之国内信创进展和适配需要时间,算力制约问题在可预见的周期内无法得到有效解决,甲方企业需要寻找对算力要求相对低、同时兼顾对垂直领域有良好模型效果的解决方案;另一方面,C端由于受到B端商业化开发进程的影响,同时受到《生成式人工智能服务管理办法(征求意见稿)》的制约,使得C端市场在短期内很难找到突破口和变现场景,而受政策监管相对偏少的B端市场成为国内大模型厂商寻找中短期增长路径和方向的重要选择。
行业大模型市场整体将“百花齐放”,但各行业/垂直领域市场格局仍将头部集中。由于天然的更靠近客户,行业大模型不仅需要有一定的AI技术能力,更重要的是对于各垂直行业和领域有充分的行业Know-how的理解和行业预料积累,因此,行业大模型市场更多依赖行业经验和进入市场的时间等个性化竞争要素驱动,未来市场会整体将呈现“百花齐放”的基本格局,不同行业间较难出现横向集中,而对于各具体行业,模型效果驱动下,市场仍会头部集中。
应用层面,能源、金融、传媒、营销、数字办公等领域应用靠前,甲方AIGC落地面临路径选择、法律法规及内容安全等多重制约,目前落地主要以价值增强和效率提升为主,商业模式层面仍在探索,B端对底层能力或对最终结果付费将是主流,C端有待突破。
从AIGC的落地进展来看,各行业落地进展不尽相同,能源、金融、传媒、营销领域、数字办公应用进度靠前。甲方在落地AIGC时,势必会经历从观望到探索、试点再到陆续上线的过程,并且不同行业由于存在场景丰富度、数字化程度、容错率等特征差异和预算充裕度差异,使得各行业AIGC的落地进程将千差万别。结合目前调研情况来看,国内AIGC的落地主要以能源领域(代码生成、文档生成、图片生成等)、银行证券(智能投研、智能风控等)、传媒领域(内容智能生成、搜索推荐等)、营销领域(文生图、文案生成等)、数字办公(智能会议纪要、智能群聊摘要、文档内容生成等)为代表,制造、医药、汽车等其他领域将逐步展开。
从AIGC的落地挑战来看,甲方企业AIGC落地面临路径选择、法律法规及内容安全等多重挑战。企业初始试点场景选择及后续AIGC应用场景的拓展路径,将对企业落地AIGC的整个可行性形成较大影响,需慎重选择与评估;另外,行业相关法律法规也将对AIGC的应用形成制约。如金融行业,AIGC智能投顾是否能够属于独立民事主体、能否具有从业资格等尚无定论,将给这一领域的应用带来挑战。同时,AIGC产生的内容版权归属与内容安全问题都将在具体落地层面,对甲方在落地AIGC形成一定的挑战和制约。
从AIGC对科技厂商和甲方的价值来看,目前主要是帮助企业实现原有产品和业务的“价值增强”或“效率提升”,尚未出现商业模式层面的实质性突破。很多科技厂商和甲方企业,其产品和服务原本已经依赖于原有的AI技术来实现部分智能化功能,AIGC的出现,为企业提供了价值和效率优化的新路径和新选择,但截止目前主要是原有价值和模式的延续,尚未发现有模式层面的重大转变。
从商业模式角度来看,AIGC的商业模式尚未完全明朗和成熟,B端市场中短期内底层平台收费占主导,未来,按产出内容付费、用户订阅模式占比将持续上升,C端短期变现难度大,免费模式、超级入口模式将成为可能。
首先,从全球AIGC厂商的商业模式来看,目前,最常见的有底层平台收费、产出内容付费,也有类似ChatGPT的用户订阅模式,未来甚至可能衍生出类似移动互联网时代的免费模式,针对不同主体,商业模式不尽相同。
对于B端客户,底层平台收费将是整个AIGC生态中最主要、最持久的收费模式,未来,会进一步朝对结果付费的模式演进。一方面,B端企业应用AIGC的核心目的要么是对内进行提效降本、要么是对外优化和迭代自身产品与服务,因此,底层平台收费、产出内容付费以及通过SaaS软件或插件化产品进行订阅收费的模式均有可能。而大模型作为底层赋能平台,无论是直接对外提供调用接口,还是通过与中间件、SaaS厂商进行合作分成,甚至是大模型厂商实现从底层模型层到应用层的一体化打通,作为生态的核心,大模型厂商在合作中均掌握较强的话语权,因此,底层平台收费势必将是整个AIGC生态中最主要也最稳定的收费模式。另一方面,随着AIGC应用的持续探索、普及和产品的持续创新,应用层厂商话语权将得到增强,产业发展中后期,当大模型变成一种基础设施,终端客户将更看重AIGC的应用适配度和应用效果,以产出内容、融合了大模型能力的SaaS软件或插件为代表的、对结果付费的模式将逐步占优。
对C端客户,短期很难实现产品及模式突破,中长期可能会出现免费模式,或通过超级入口方式变现。C端用户目前多是尝鲜和试玩为主,但其AIGC的核心应用目的是提效、增强个人创新力,因此,关键是寻找到有足够用户粘性和智能化痛点的场景,并探索出健康可持续的商业模式。 考虑到个人用户对于付费的价格弹性更高、预期更高、付费行为改变需要周期,同时考虑到B端产品的研发落地需要一定周期,因此C端的产品、商业模式落地需要较长时间蓄势和探索。 此外,ChatGPT、Midjourney拉高了用户对于通用AI产品的预期,使得C端产品的订阅收费,短期内难度更高。 未来,AIGC可能会出现免费模式,同时以广告等传统互联网模式进行变现,也可能会在诸如智能家居等场景中寻求与某些智能硬件的融合,形成超级入口级产品,进而完成变现。
爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出AIGC市场中在行业大模型、数字办公方面已经具备一定解决方案和落地能力的入选厂商。其他市场,爱分析将在后续的生成式AI的系列报告中视情况予以覆盖。
爱分析对本次AIGC项目重点研究的行业大模型市场、数字办公市场分析如下。
行业大模型,指面向金融、传媒等垂直行业或客服、营销等组织职能领域,基于自建或利用通用模型的强大泛化能力,通过行业/领域知识及数据引入来进行模型的再训练,进而形成针对垂直行业/领域的特定任务具有更高模型可控性、准确率及响应效率的深度学习算法模型,有助于帮助组织提升特定行业/领域的数字内容生产及用户交互效能。
GPT-3、Florence、DALL·E 2等通用大模型虽然拥有巨量参数,并拥有出色的泛化能力,但在面对不同行业、领域的具体应用场景时,由于缺乏具体行业的行业语料集,并且未面向特定行业的应用场景进行提示词的开发和优化,去适配前端具体业务场景需要,因此,通用大模型对特定行业应用场景的性能指标和专业性往往并不理想。因此,只有专门针对特定行业/领域自主开发的大模型或经过行业语料再训练的行业大模型,才能更好地支撑企业的具体上层应用。在这一过程中,甲方企业的具体需求如下:
在模型训练方面,企业要端到端的AI模型服务,确保行业大模型经过充分的再训练,能够在具体业务场景下有更高的模型精度和可控性,以更好地为前端业务赋能。一方面,AI六十余年的发展历程已经证明,从模型到高质量的生产与实践,AI工程化能力非常重要。AI的价值落地,需要经历从需求的原点出发,到问题抽象、数据准备、算法设计、模型训练、模型部署及迭代优化的AI全链路流程。另一方面,和自建模型一样,即便是只需基于通用大模型来进行行业语料集再训练的行业大模型,也需要考虑部署等问题,才能让大模型真正发挥价值。而很多企业缺少相应的团队、足够的资源能力,来结合特定场景的业务需要去自主完成大模型的充分“行业化”并完成能力接入,无法确保大模型最终贴合自身应用场景并产生业务价值。企业需要经过充分再训练的行业大模型——MaaS(Model as a Service)服务,以便可以更便捷、更高效地调用和整合行业大模型的能力,赋能自身业务。
在语料集方面,企业需要能够直接用于模型再训练的丰富、合格的语料集,以便进行大模型的二次训练,提升模型训练质量与效率。一方面,不同行业/领域的应用场景、知识于经验千差万别,企业可以与技术专家一道,围绕自身核心业务场景进行系统梳理,对进行模型二次训练所需的行业/领域的核心知识、数据类型、颗粒度等进行逐一定义和搜集整理,甚至需要对现有的数据库数据进行数据治理和挖掘,以便向大模型输入高质量的行业/领域样本数据和特有知识。另一方面,除自身语料集外,甲方还需要额外的、具有行业/领域特性的公开语料集作为补充,以进一步提升模型能力。
企业希望可以直接应用具有大模型能力的SaaS服务,实现自大模型到上层应用软件的一体化集成,极大降低大模型应用门槛。很多企业尤其是中小型企业同样不具备基于行业大模型开发自身前端业务应用的能力,或其业务体量使得企业没有自主开发前端应用的必要。因此,同时将底层的模型能力接入并整合到最前端的SaaS应用当中,实现底层模型能力与业务应用的一体化打通,以满足终端用户需求,对于很多企业尤其是中小企业显得尤为重要。
厂商需要并掌握AI领域的关键算法、技术,为模型的再训练提供坚实技术保障。行业大模型厂商需掌握Transformer、Diffusion、CLIP等关键基础生成算法及NLP、语音合成等AI关键技术,以便进行模型的自建、预训练及再训练。
厂商需要具备出色的AI工程化能力及行业服务经验,能够AI落地全链路服务,灵活适配用户需求。厂商需要丰富的行业经验,能够进行场景抽象和数据准备,在此基础上进行算法设计、模型训练、模型评估与调优、模型部署的全链路能力,并且需要在模型部署上线后,根据行业应用场景的实践,不断进行模型优化,确保模型结果可控,从而让AI大模型的“生成能力”不断接近应用要求,产生真正的业务价值。
厂商需要有深刻的行业理解能力,实现从底层模型能力到前端业务应用的一体化打通,从提供MaaS服务向提供SaaS服务升级。厂商需要形成系统、细颗粒度的应用Know-How,在此基础上将AI关键技术能力、模型能力、前端应用进行打通,以便将自身的技术能力和行业Know-How产品化,向企业提供SaaS服务及相关配套服务,或者运用模型微调(Fine-tuning)及思维链提示(chain-of-thought (CoT) prompting)等技术,将模型能力与中间件进行打通,以便客户侧直接调用。更进一步,厂商需要结合自身调研成果、实践经验,在对客户当前的业务流程、作业模式的优缺点形成系统认知的前提下,基于AI新技术能力,对原有的业务流程及作业模式提出系统性改进方案,以使新技术与客户的组织体系、业务流程和作业方式能够进行有效匹配,进而对客户的业务应用效率、组织协作效果形成实质性改进。比如,营销场景下的海报生成,不仅需要厂商系统掌握海报生成及后续应用的全流程,还需要明确整体风格、图片细节、图片清晰度等需求痛点,进而对原有海报作业流程提出优化,如增加AI作图后的再编辑环节。
北京灵伴即时智能科技有限公司(以下简称“灵伴智能”),成立于2014年,核心技术覆盖语音识别、语音合成、自然语言理解等,聚焦数字内容生产平台和虚拟数字人智能驱动,广泛赋能企业服务、文化、医疗、教育、政府等领域。
灵伴智能专注于人工智能基础技术研发以及智能技术的产业化落地,旗下有“呱呱有声2.0”长音频内容智能生产开放平台和“睿思”智能对话服务开放平台两大产品线。其中,呱呱有声长音频内容智能生产开放平台,是灵伴智能基于其领先的语音合成、自然语言处理等AI技术,结合自身行业经验所研发的、国内首个专注于长音频制作领域的数字内容生产开放平台,重构并首次实现了从“文本”到“作品”的全流程一体化生产方式,极大释放了有声内容的生产效能,广泛赋能众多音频内容平台、小说阅读平台及有声制作工作室。
综合而言,灵伴智能在语音语义的AI核心技术能力、业务建模能力、生态及服务能力等三方面具备显著优势,具体如下:
灵伴智能在人工智能领域有近十年的技术沉淀与锤炼,在语音语义智能领域的研发与应用经验丰富,技术能力业界领先。
首先,灵伴智能由创立于2014年的灵伴研究院发展而来,拥有业内顶尖的全栈语音语言博士管理团队,公司核心研发团队有近十名博士、博士后,均来自北京大学。
其次,灵伴智能的研发团队技术实力突出,核心算法均为自主研发。公司拥有全域超级自然语音技术,语音合成能力国际领先,已发表100余篇学术论文和专著,在国际语音合成权威赛事 Blizzard Challenge中多次获得头部奖项,在OLR Challenge语音识别大赛,以及SIGHAN中文信息国际测评等国内外技术大赛上均取得了优异成绩。此外,公司还参与了12项863、973等国家级科研项目,截止目前,已拥有35项AI技术发明专利。
最后,灵伴智能的产品化能力出众,公司过往的产品版本,均是当时国内行业首创性智能语音及智能对话产品。例如,长音频领域首个智能化数字内容生产开放平台、保险行业首个智能语音机器人、行业首个融合声纹安全和情绪识别的智能语音机器人云平台、行业首个女性专属及男性专属客服TTS音色等等。
灵伴智能将AI核心技术与行业Know-how深度融合,拥有出色的业务建模能力,致力于为长音频数字内容生成领域提供从模型到上层应用的一体化AI智能解决方案。
灵伴智能以业内领先的自然语言理解(NLU)、语音识别(ASR)、语音合成(TTS)等AI核心技术能力打底,经持续的算法调优与训练,针对智能对话、长音频数字内容生成领域打造了语音语义预训练模型,为智能对话、长音频数字内容生成的垂直领域应用提供了性能卓越的基础设施。
在此基础上,灵伴智能凭借自有导演团队、编剧团队以及配音演员团队的深度实践和广泛行业调研所形成的对长音频数字内容领域的系统认知与深刻理解,倾力打造了呱呱有声数字内容生产开放平台,旨在利用AI技术颠覆传统长音频数字内容的制作流程,为行业提供了全新的“AI+”生产模式,极大突破了长音频数字内容领域传统剧组面临的多重效率瓶颈,为长音频数字内容生产领域提供从模型到前端SaaS应用的一体化智能服务。
灵伴智能秉承生态化经营理念,向生态合作伙伴持续赋能,共同推动行业高质量发展。
以长音频数字内容领域为例,灵伴智能作为新生态构建者及智能化赋能者,与合作伙伴一道,共筑长音频数字内容生态。除提供AI及产品赋能外,灵伴智能凭借自身对行业的深刻理解与第一手实践经验,为合作伙伴提供业务培训、人才培养、数据分析、行业社区、版权合作等全方位赋能。截止目前,呱呱有声已服务国内数百个主流长音频内容工作室、数千名分布在全国各地的配音演员,平台年产高质量超多播有声剧十余万小时,产出内容遍布各主流长音频内容平台。
拓尔思信息技术股份有限公司(以下简称“拓尔思”),是领先的人工智能、大数据和数据安全产品及服务提供商,坚持“数智+赛道”的发展战略,以优秀的科技能力打造丰富的行业解决方案,为企业、政府实现数字化升级赋能。
在AIGC领域,拓尔思聚焦大模型的场景化应用和商业落地,基于公司三十年的NLP技术积累和海量全域高质量数据进行预训练,以内容可信、数据安全、成本可控、高可用性为导向,自主研发“拓天大模型”,以媒体、金融、政务三大优势行业为大模型商业落地的先行突破,为媒体行业的内容生产与搜索推荐、金融行业的智能风控与投研、政府的政策分析与公文辅助写作等垂直领域提供深度赋能,满足行业用户的专业化智能创新需求。
综合而言,拓尔思在通用大模型调优、高质量行业知识数据积累、场景应用落地等三方面具备较为突出的优势,具体如下:
在通用大模型调优方面,拓尔思核心关注中文特性增强、生成内容合规可控,通过研发“拓天大模型”,实现大模型可控化,以更好地支撑上层应用。
拓尔思自2000年开始就自主研发NLP技术,长期聚焦自然语言处理(NLP)、知识图谱等语义智能核心技术,将通用大模型与传统NLP技术相结合,利用行业Know-How,针对特定领域的场景任务构建高质量的专业指令(Prompt),并通过扩充中文词表、6B通用中文语料训练、在不干扰原模型的情况下适配新增中文词向量等方法,实现通用大模型的中文特性增强,打造出专业可靠的“拓天大模型”。
此外,针对大模型天然存在的价值观偏见、容易被诱导等问题,通过中文党媒新闻宣传知识注入、社会主义价值观数据构建、价值观对齐以及话题限定、对话安全、攻击防御等安全围栏方法,基于 RLHF、DPO 等技术训练面向特定行业或机构的“价值观”和“偏好”,例如国家安全价值观、国家传媒价值观等,实现中文特性增强的、安全可控的文本生成。
在高质量行业知识数据积累方面,拓尔思拥有千亿级“全、准、新”的无监督训练数据和微调优化知识数据,可针对优势行业训练出高质量的行业大模型。
拓尔思从2010年自建数据中心以来,已采集超过10年的互联网公开数据,拥有规模及质量均位列业界前茅的另类数据资产,数据规模超1500亿条,数据总量达100TB以上,数据类型涵盖文字、图片、音视频等多模态。同时,重点数据回溯可达10年以上,重点数据源实现分钟级更新,日均采集增长过亿条。
拓尔思所有数据均采用“专家规范化标引+机器自动标引”相结合的方式,不仅配备了专家级的知识标引团队,对行业知识进行梳理,还依托完整的数据和知识工程治理体系,基于拓尔思自研的数据底座对采集的内容资讯进行低噪、去重、内容标签化、属性知识化、安全合规核查等“精加工”,保证数据全部具备智能化知识属性,形成垂直领域数据资产。
“拓天大模型”基于上述高质量数据资产进行行业增强训练,可满足媒体、金融、政务等不同行业的场景应用,提升行业大模型的合规性、专业性、准确性,满足行业用户的专业化智能创新需求。
在场景应用落地方面,拓尔思在行业Know-how及客户服务经验、闭环服务能力的优势基础上,主要解决自主可控、知识及时更新、可信生成技术加强以及私有化部署等核心需求。
首先,拓尔思长年深耕媒体、金融、政务等行业的信息化建设,已积累30+领域知识库和31000+知识标引规则,积累了媒体、舆情、金融风控、产业投研、政务应用等丰富的应用场景和客户服务经验、服务能力。
其次,针对大模型存在的无法访问外界知识、知识更新不及时、灾难性遗忘等问题,“拓天大模型”采用增量微调与外部知识库检索结合的方法,可以在冻结大模型绝大多数参数的基础上定期更新知识,同时让大模型具备实时访问外部知识的能力,实现知识库与大模型的有效融合。针对大模型普遍存在的幻觉生成问题,采用基于稠密向量的知识库搜索引擎技术,对生成结果进行事实检查,对于事实不符合的内容,则采用错误修订技术,对虚假生成结果进行修订,确保生成的文本有据可依,有效提升了文本生成质量。
再次,拓尔思具备智能数据标注、模型设计、训练、优化、评估、部署等一站式AI工程化落地服务能力,通过剪枝、量化、稀疏、蒸馏等部署优化方案,可有效降低大模型对算力资源的要求,实现模型的高性价比部署。拓尔思基于“拓天大模型”所推出的垂类大模型参数在百亿级,当前市场主流推理卡单卡即可满足运行要求,可实现模型轻量化部署,达成业务需要的吞吐量或者延时指标。
最后,在大模型时代,“生态力”是“AIGC+”在各行各业成功商业落地的重要保障。拓尔思将持续建立和强化NLP商业生态,与行业知识专家、平台型企业、行业头部企业展开领域知识、算力、业务创新等方面的合作,发挥自身数据资源、行业经验及技术优势,精耕务实,确保“拓天大模型”稳健发展,创新成果持续落地。
数字办公,指依托大数据、云计算、人工智能等新兴数字技术,通过将组织的业务处理、组织管理进行进一步在线化、协同化与智能化,进而大幅提升组织内部甚至跨组织的信息处理与交互、信息传递与共享、组织协作等方面工作效能的一种现代化办公方式,有助于帮助组织提升协作与价值创造效率、降低组织沟通协作成本。
从办公模式角度,组织经历了物理办公、信息化办公到数字化办公的逐步演进,并且还将持续进化。而组织办公模式的演进,不仅是技术发展红利在组织办公场景价值落地的具体体现,更是企业运用新技术手段、新协作理念对自身商业模式、组织架构、管理流程等组织要素进行系统升级改造,以适应新市场环境的必然要求。因此,只有顺应新兴技术发展方向、新协作模式的要求,才能提高工作及协同效率,提高组织竞争力。在这一过程中,甲方企业的具体需求如下:
组织需要数字办公产品足够智能化,以促进自身办公效率的明显提升。相较于物理办公,信息化办公已极大地打破了原有的时空限制,组织内外部信息的处理与传递效率也得到了大幅提升,但仍旧未能完全解决简单、重复性、低价值度工作对组织资源的大幅占用问题,组织成员的办公效率天花板明显。人工智能尤其是通用人工智能时代的逐步到来,为诸如会议纪要、资料查找与内容检索等耗时较多的事项提供了更加智能化的解决方案,组织通过面向不同场景的智能化产品,可以极大释放组织成员的办公效率潜能,提升整体办公效率。例如,智能化会议纪要生成、代办事项自动梳理等,可以极大节省会议内容的同步时间。
组织需要数字办公产品覆盖文、事、会等组织办公所涉及的高频场景,以确保数字办公的价值落到实处。组织的办公场景虽然纷繁复杂,但高频场景主要集中在信息处理、文档处理、沟通交流等场景。以文字、文档的处理为例,组织不仅需要数字办公产品能够覆盖文档的创建、编辑、存储、共享和协作的全流程,更需要能够覆盖诸如工作总结、产品说明书、营销文案等常见文档类型,以及在文档中进行内容提炼、插入图表与图画等常见功能,以便覆盖用户当前阶段在文档应用中的核心功能需要,让数字办公中的文档处理价值落地生根。
组织需要数字办公产品和企业内部其他系统、数据兼容和打通,以实现智能化指令与结果的跨系统协作与智能化价值的最终落地。组织的信息流转、流程通常是一个完整的闭环生态,从信息的传递、业务及管理动作的执行、数据同步与分析等,存在众多环节。数字办公只是企业众多环节中的其中一环,核心是进行信息的传递与流程的标准化等,因此,组织需要数字办公产品和内部的诸如OA系统、CRM系统、财务系统、人力资源管理系统、数据分析系统等业务及管理系统进行打通,以实现数据、业务及管理动作的闭环。
组织需要数字办公产品在数据安全、网络安全方面有充分保护,确保安全可控,以实现智能化价值的安全释放。组织的办公是日常性的,并且在办公过程中经常会涉及组织内部发大量信息沟通、资料传递、知识沉淀等,如果不予保护,极其容易出现组织关键信息的泄露甚至丢失,给组织带来较为严重的短期乃至长期损失。因此,组织想要提升办公及协作效能,势必希望数字办公能够在安全、有序的前提和环境下进行。
厂商需要深耕数字办公领域,对主要场景及对应子任务有细颗粒度的认知,尤其是对数字办公+AIGC的价值场景与落地方式,有系统深刻认知,能够对前端不同场景所对应的prompt进行定义及精准抓取。一方面,与其他行业类似,作为垂直领域的上层应用,厂商需要对办公领域有深厚的行业Know-how,以便对典型数字办公场景进行场景拆分,明确各子场景下甲方的具体需求及痛点,为自身数字办公产品的产品化提供指导;另一方面,以大模型为代表的AIGC,其产业化落地在国内甚至全球都尚处于探索阶段,厂商需要凭借自身对数字办公领域、通用人工智能技术两方面相对深刻的理解,在探索AIGC在数字办公领域的应用场景与潜能的同时,还需要在用户交互层面,尽可能地简化、精准地去定义不同场景的prompt,以便更加符合大多数人在特定场景下的交互习惯,降低AIGC在数字办公领域的落地门槛,同时更好地调用大模型能力生成更好的内容,以便形成“简单-好用”的良性循环,加速AIGC在数字办公领域的用户粘性和应用落地。
厂商需要有强大的大模型底层能力或有对不同大模型的兼容、整合能力。数字办公作为上层应用,其智能化能力的涌现,来自于底层的大模型。作为上层应用,其大模型能力可以是来自于厂商自建的大模型,也可以基于前端场景及能力需要,以API调用的方式,调用不同厂商、不同模态的大模型能力,以赋能前端应用并进行产品化。
厂商的数字办公产品需要具有强大的兼容性、安全性。一方面,厂商的数字办公产品必须具有和甲方的各类作业系统、数据系统等进行融合打通的能力,确保将数字办公场景下所产生的信息、文档、沟通结果等及时、完整、准确地同步至组织内部各系统,以实现信息传递、组织任务的处理的高效与闭环;另一方面,厂商的必须高度重视数字办公产品使用时的安全问题,在大模型能力、数据与网络安全方面有相应的安全资质及防护手段,确保甲方在使用数字办公产品时的组织架构信息、组织通讯录、沟通内容、文档、各类组件接口等的安全。
钉钉(中国)信息技术有限公司(以下简称“钉钉”),旗下的“DingTalk”软件,是阿里巴巴集团打造的企业级智能移动办公平台,致力于成为数字化的经济时代的企业组织协同办公和应用开发平台,帮助企业实现业务数字化、组织数字化,引领未来新一代工作方式。
在AIGC领域,钉钉推出了钉钉斜杠“/”这一AI入口,瞄准办公中的群聊、会议、文档、应用开发等核心高频场景。通过融合阿里云通义大模型能力,钉钉斜杠“/”帮助用户以自然语言和快捷指令的极简交互方式,在各办公场景中实现让 AI 写文档、画画、整理纪要、智能问答、开发应用等能力,在极大降低了使用门槛的同时,助力办公效率持续提升。
综合而言,钉钉在数字办公领域行业Know-how、大模型核心技术及落地能力、兼容性与安全能力等三方面具备显著优势,具体如下:
钉钉拥有多年服务千行百业积累的对客户需求的深刻理解,深谙各行业客户数字化办公场景的需求及痛点,拥有完整的应用生态来丰富、支撑办公+AIGC应用落地。
一方面,钉钉作为国内在线办公领域头部平台,服务了政务、制造业、互联网、金融等众多行业的2300万+企业组织,用户数已破6亿,对各行业企业的数字化办公核心场景及对应的核心要素、任务、流程等有深刻理解。
另一方面,钉钉具备为客户提供完整数字化端到端解决方案的数字生态能力,未来一年还将陆续接入各类智能应用生态伙伴,持续丰富钉钉智能化服务生态,有助于钉钉综合运用自身及合作伙伴的行业Know-How、数据积累,进行需求场景洞察、智能化应用打造、流程及数据打通,确保价值落地和用户体验。
钉钉依托阿里多年在AI领域的持续积累,深度融合阿里云通义大模型能力,是国内少有的具备原生大模型技术能力并率先落地AI+办公新模式的厂商。
首先,阿里云在大模型的算力层、模型层有着深厚积累,通义大模型的各项能力在国内属第一梯队,为钉钉智能化升级提供了坚实的底层技术保障。
其次,钉钉基于智能化战略,通过融合通义大模型能力,结合用户习惯,首批在钉钉软件中落地文档、群聊、应用开发和会议四大智能化应用场景,切实符合办公场景高频需求并具备较好的易用性,可以有效助力用户办公效能提升。
1)斜杠“/”一下,可一键唤起钉钉AI能力,交互便捷,易用性强。钉钉认识到大模型是对人机交互方式的又一次颠覆,以斜杠“/”作为前台界面中的AI能力唤起指令,将钉钉各项强大的后台能力整体打包,打造了极简的用户交互界面。
2) 在文档创作场景,斜杠“/”扮演文档智能助手角色,可实现辅助创作、内容风格语气调整、对选中内容生成摘要与待办、文生图、文生表等常用操作。官方推荐的指令包括头脑风暴、生成创意、推广文案、大纲、邮件、合同、新闻稿、职位表述等,基本覆盖了用户在文档应用中的主流功能需要。
3) 在群聊场景,斜杠“/”可实现一键生成群消息摘要、智能问答机器人训练与交互等功能。以智能问答机器人为例,基于不同群聊主题,用户通过投喂文档训练,可在群聊中自定义创建具有不同“特长”的智能机器人,加至群聊后即可进行智能交互问答,可以让用户结合员工培训、客户支持、社群运营等具体需求场景,基于自有知识库定制并持续训练“小模型”,大幅度的提高特定场景的交互效率和效果。
4) 在应用开发场景,斜杠“/”进一步打破了原来低代码式的应用开发模式,省去低代码时代的“拖拉拽”流程,让用户通过手绘表单后拍照或直接用一句话描述,即可生成目标轻应用,并支持继续通过自然语言交互完成修改,近乎做到“交互即所得”。
5) 在会议场景,斜杠“/”可扮演会议速记员角色,帮助用户精准高效地完成音视频内容的转写、检索、摘要和整理,甚至按章节划分、总结各方观点,生成会议重点和待办事项,使得两三小时的会议,3分钟即可看完,极大节省会议内容的“同步”时间。
最后,钉钉还在同步测试钉钉个人版、搜索、邮箱、智能客服等一系列产品,夯实钉钉的PaaS底座能力,让更多企业可借助钉钉,训练自己的专属大模型,形成专属的、深刻理解自身业务知识的智能客服、智能导购、AI设计师等应用,全面赋能组织智能化升级。
钉钉持续高标准保障企业的应用兼容性、数字化安全,确保组织协同的高效、安全。
在兼容性方面,AI 生成的应用可打通钉钉、组织内部各系统,促使智能化办公价值的最终落地。用户所创建的各类应用可实现动态卡片式交互,和自身存量应用、数据及服务无缝对接。例如,销售人员可在群聊中实时提交当天客户跟进记录,有关信息也可通过接口同步到企业内部的CRM系统,实现数据打通与回流,确保场景、数据、功能闭环。
在AIGC的安全性方面,钉钉建立了严格的内容过滤机制,保障用户数据及内容安全。
爱分析厂商全景报告面向数字化市场的甲方用户,由爱分析定期撰写并公开发布,为甲方采购旅程中的数字化规划、厂商选型等环节,提供决策依据和支撑。
报告提供所覆盖领域的数字化市场全景地图、特定市场分析与入选标准,以及入选厂商列表、代表厂商评估等研究成果。
甲方用户都能够依据入选厂商列表,拟定潜在供应商名单,并通过爱分析第三方评估,了解厂商在特定市场的产品服务优势,选择正真适合的厂商进行选型。
注:点击左下角“阅读原文”,下载完整版《2023爱分析·AIGC厂商全景报告》。