合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
随着步入2024年,人工智能必然还是备受关注。本文围绕合成数据主题,讨论其对人工智能的影响,以及对其来年的一些技术预测。
2024年,由于现实世界图像的限制,对合成图像和训练数据的需求将不断增长。随着盈利机会的增加和现实世界图像可用性的减少,人们开始考虑现有图像的寿命,并获取更多图像。
合成图像和场景视频是解决这一问题的关键,提供了创建无权图像的能力,并避免了GDPR/CCPA隐私问题。预计2024年,人们对合成图像和训练数据的兴趣将急剧增加。
一个关键的挑战是合成数据的接受度,但随着用户看到真实的结果,已经朝着正确的方向转变。合成数据已经有了巨大的进步,甚至在过去18个月里,其真实性也有了巨大的提高。让组织和政府相信其有效性仍然有些困难,需要解释它到底能做什么和做得好。这仍然很困难,因为一些企业可能使用了旧版本的合成数据,并且不知道其新功能是什么。
机会无处不在,因为合成数据取代了对大量真实数据的需求,同时又保持了隐私。挑战在于说服利益相关者接受新方法,而不是固守现状。
合成数据的使用有望取得广泛突破,这不仅受到需求增长的推动,还受到《欧盟人工智能法案》等政府立法的推动。
政府法规可能会迫使人们转向其他数据来源。此外,合成图像质量的不断提高也是一个重要因素,多年来合成数据变得越来越真实。以目前的发展趋势,到2024年,一些合成数据可能与现实世界的图像无法区分。
在人工智能的新世界中,合成数据的采用将如何影响数据隐私和安全问题?可能会出现哪些解决方案?
合成数据的采用解决了与现实世界数据的权利和隐私相关的问题。收集现实世界数据时确实会遇到挑战,特别是在公共场所拍摄时,需要发布模型并获得批准。
立法程序,如欧盟人工智能法案或拜登总统的行政命令,使现实世界的数据收集进一步复杂化。合成数据提供了一种解决方案,其本质上符合隐私,能够快速且经济地生成数据。此外,其在测试模型中起着至关重要的作用,特别是对于像ID验证这样的任务,其中合成数据允许对虚假信息进行测试。
行业,特别是那些依赖ChatGPT模型等基础模型的行业,将从合成数据中受益匪浅。随着法律斗争影响现实世界数据的可用性,合成数据成为调整特定市场模型的强大工具。
智慧城市计划等领域在获取多样化和特定数据方面面临挑战,这使得合成数据变得非常宝贵。人们对智能空间的需求很大,而且对危险用例的兴趣也日益浓厚,例如识别漂浮在水中的人。
汽车行业将受益匪浅,尤其是在安全测试方面。这就是人工智能可以为以前无法在受控环境中测试的场景提供巨大帮助的地方。
在特定用例中,例如用于身份验证的2D人脸,真实数据和合成数据已经无法区分。预计到2025年,将实现一般照片级写实,某些用例将在2024年实现不可区分。
由于需要更加逼真的环境,预测人类行为的动画可能需要到2025年才能完成。虽然单个项目已经无法区分,但实现整体场景的复杂性(其中有多种合成可视化在发挥作用)可能还需要两到三年的时间。
合成数据和生成数据预计将开发不同的用例。虽然生成数据可能无法单独用于训练人工智能网络,但其仍然可以在特定场景中发挥作用。在某些情况下,合成数据和生成数据可能会交织和交叉,例如使用合成数据来训练生成数据,或将生成数据合并为合成数据的一部分。然而,对于特定的用例,它们可能保持独立,并具有独特的优势。
TOP