亚博国际官网登录

常见问题

2022年6月22日

合成数据是人工智能的未来吗?

与Alexander Linden的问答

合成数据通常被视为低质量的替代品,在真实数据难以获取、价格昂贵或受到监管限制时才使用。然而,这种反应忽略了合成数据的真正潜力。Gartner估计,到2030年,人工智能模型中的合成数据将完全盖过真实数据。

Gartner的分析师将在即将到来的会议上讨论用例和合成数据的前景高德纳数据分析峰会,于8月至11月在各地区举行。

我们赶上了亚历山大·林登他是Gartner的副总裁分析师,了解合成数据的前景,以及为什么它对人工智能的未来至关重要。希望参加即将到来的会议和/或与亚历山大交谈的媒体成员可以联系劳伦斯Goasduff

问:合成数据的前景是什么,什么时候使用它?

答:合成数据是一类人工生成的数据。这与从现实世界直接观察到的真实数据形成了鲜明的对比。虽然真实数据几乎总是洞察数据的最佳来源,但由于隐私法规的限制,真实数据往往昂贵、不平衡、不可用或不可用。合成数据可以是真实数据的有效补充或替代,提供对更好的注释数据的访问,以构建准确的、可扩展的AI模型。当与真实数据结合时,合成数据创建一个增强的数据集,通常可以减轻真实数据的弱点。

组织可以使用合成数据来测试没有实际数据存在或数据有偏差的新系统。他们还可以利用合成数据来补充目前被忽视的小型现有数据集。或者,当真实数据不能使用、不能共享或不能移动时,他们会选择合成数据。从这个意义上说,合成数据是人工智能的另一个推动者。

问:为什么合成数据对人工智能的未来来说是必不可少的?

答:还有许多其他形式的合成数据,例如数据增强或伪化/匿名化,这些都是“数据合成”的进一步类型。这些方法是任何现代数据科学团队都必须具备的。但是,通过合成数据,专业人士将信息注入他们的人工智能模型,并获得比直接观察更有价值的人工生成数据。

合成数据可以用于黑客马拉松、产品演示和内部原型,以复制一组具有正确统计属性的数据。例如,银行和金融服务机构通过建立多智能体模拟来使用合成数据来探索市场行为(如养老金投资和贷款),以做出更好的贷款决策或打击金融欺诈。零售商将合成数据用于自动结账系统、无收银员商店或客户人口统计分析。

此外,合成数据可以提高机器学习模型的准确性。真实世界的数据是偶然的,不包含现实世界中可能发生的所有条件或事件的排列。合成数据可以通过在边缘生成数据或针对尚未观测到的条件生成数据来对抗这种情况。

其广泛的适用性将使其成为人工智能的关键加速器。合成数据使人工智能成为可能,而由于偏见或无法识别罕见或前所未有的场景,缺乏数据使人工智能无法使用。

问:合成数据的风险是什么?

答:尽管合成数据技术在成本效益和隐私保护方面得分很高,但它们确实存在重大风险和局限性。合成数据的质量通常取决于创建它的模型和开发的数据集的质量。

使用合成数据需要额外的验证步骤,例如将模型结果与人工注释的真实数据进行比较,以确保结果的保真度。此外,合成数据可能具有误导性,并可能导致较差的结果,而且在涉及隐私时,合成数据可能不是100%的故障安全。

由于这些技术挑战,用户的怀疑也可能是合成数据要克服的另一个艰难挑战,因为用户可能会认为它是“劣质”或“假”数据。

最后,随着合成数据得到更广泛的采用,商业领袖可能会对数据生成技术的开放性提出质疑,尤其是在透明度和可解释性方面。

高德纳数据分析峰会

Gartner分析师将在2022年8月22日至24日举行的Gartner数据与分析峰会上提供关于合成数据未来的额外分析奥兰多,佛罗里达。9月14日至16日东京9月19日至20日孟买11月7日至8日悉尼.在Twitter上关注会议的新闻和更新# GartnerDA

Gartner的客户可以在报告中找到更多信息新兴技术:何时以及如何使用合成数据.在免费的Gartner电子书中了解如何解锁数据驱动成功所需的关键D&A技能和能力D&A技能和能力的基本指南。

如果您是媒体人士,希望就这个话题与亚历山大·林登进行进一步交流,请联系劳伦斯·戈亚斯达夫Laurence.Goasduff@Gartner.com.媒体成员可以在他们的文章中引用该材料,并适当地注明出处。

关于Gartner

Gartner, Inc.(纽约证券交易所代码:IT)为高管及其团队提供可操作的、客观的见解。我们的专家指导和工具使组织能够在关键任务优先事项上做出更快、更明智的决策和更强的表现。欲了解更多,请访问gartner.com

联系人


Baidu