AI疯抢你的自拍和聊天记录,硅谷大厂砸数十亿美元!

热点 2024-04-08 22:40 阅读:

你有没有想过,你多年前的聊天记录和社交媒体上的照片,竟然变成了硅谷大厂们争相疯抢的宝贝?现在,他们豪掷数十亿美元,买下所有能购买版权的互联网数据,就为了训练AI模型。比如,每张照片价值5美分到1美元,每个视频价值超过1美元,价格取决于买家和素材种类。

图像托管网站Photobucket的陈年旧数据,曾经无人问津,但如今却成为硅谷大厂们的心头好。CEO Ted Leonard高兴地透露,已经有多家科技公司找上门来,愿意重金购买公司的130亿份照片和视频,目的就是为了训练AI。为了得到这些数据,各大公司都舍得割肉,甚至还想要更多!

不仅如此,AI的训练数据也暴露了一些问题。最近Meta图像生成器大翻车事件,让AI的训练数据「刻板印象」暴露无遗。AI生图工具画不出「亚洲男性和白人妻子」或「亚洲女性和白人丈夫」,这种偏见问题让人深感担忧。

除了硅谷大厂,其他公司也在积极寻找数据资源。数据经纪人和图片、视频供应商们也赚得盆满钵满。AI数据定制行业也兴起,这些公司获得了与现实世界内容的授权,建立了短期合同工网络,从头开始定制视觉效果和语音样本。

AI模型的「燃料」可能会引发严重问题,比如吐出用户隐私。AI会反刍训练数据,甚至吐出用户的私人照片或私密想法。这些隐患目前还没有有效解决方法,用户愿意为保护个人数据支付额外费用。

人工智能研究者们已经研究合成数据多年,但构建一个能自我训练的人工智能系统并非易事。模型如果只依赖于自我生成的数据,可能会陷入自我加强的循环中。数据对AI模型的重要性愈发凸显,训练大语言模型所用的数据越多,性能就越好。

硅谷大厂们正在疯狂抢购你的自拍和聊天记录,AI训练数据成为了他们的新宠。这场地下竞赛引发了人们对隐私和数据安全的深刻思考,让我们意识到数据的重要性和价值。