特色:

Rowan Curran,分析师

显示说明:

目前发展有效人工智能的最大限制之一是获取相关和无风险的数据。这就是合成数据能帮上忙的地方。分析师Rowan Curran加入播客,讨论合成数据如何帮助加快人工智能工作。

这一集从人工智能合成数据的定义开始。Curran指出,为人工智能生成的合成数据与用于负载测试或性能测试数据的合成数据不同。“我们谈论的是模拟真实世界数据的数据集,”他说。“没有足够的正确类型或质量的数据来推断和预测我们想要预测的事情。”他还强调,合成数据不是“假的”,而是为特定用途而“合成”的数据。

与简单地加密或匿名化实际数据相比,使用合成数据来测试人工智能模型具有一些关键优势。由于合成数据实际上并不代表一个真实的人的身份或特征,因此不存在意外或通过攻击泄露个人信息的风险。例如,推理攻击虽然不常见,但可以用来推断AI模型背后的真实数据的某些事情。在模型背后使用合成数据可以消除这种风险,这在使用患者数据的医疗保健领域尤其有价值。Curran还提到,合成数据可以帮助减轻在业务合作伙伴之间共享个人数据(例如患者或客户数据)的治理问题。

然后,讨论转向人工智能的合成数据是如何创建的。在某些情况下,这是对现有数据集的外推,以创建一个更大的数据集,该数据集密切反映原始数据,但不是实际的个人数据。也有基于特定参数或输入生成合成数据的平台,这在计算机视觉应用中很有用,用户可能想要为在线游戏或虚拟世界生成3D对象。

在整个插曲中,Curran提供了合成数据的实际用例的具体示例,甚至在某些情况下,它可能不是最佳解决方案。一定要继续关注他对人工智能中合成数据未来潜力的总结。