知名AI产品被控“抄袭”华人团队靠AI“鉴假”抢占400亿美元市场

来源:m6米乐娱乐    发布时间:2024-07-10 20:19:24

详情


  不同于ChatGPT和Claude,AI聊天搜索引擎Perplexity并未训练自身基础模型,而是使用开放或商业可用的模型来获取相关信息,并转化为答案。

  诞生于2022年的Perplexity在如今的AI搜索领域也是炙手可热的明星产品,不过,在刚刚过去的6月份,《福布斯》指责Perplexity其新闻文章, Perplexity还被别的媒体指责非法抓取网站信息。

  Perplexity并非AI界的无名小卒,其背后支持资本涉及英伟达和贝索斯等有名的公司和个人,这场抄袭指控的风波在某些特定的程度上给整个AI行业敲响了警钟,关于信息抓取的合法化等问题,其安全边界到底在哪里?

  在Perplexity面临抄袭指控的同时,有关Deepfake(深伪技术)成本暴增的信息引发广泛关注。

  比抄袭指控更严重的是,Deepfake未来三年带来的损失或将增加到400亿美元,而这其中,就涉及由于AI技术的快速的提升,所带来的视频、音频和文档信息造假等问题。

  一方面是AI技术正在渗透进各行各业,从B端企业到C端用户,AI技术的普及正在以前所未有的速度在各领域延伸,另一方面,则是来自对AI技术上的支持下,AI工具的安全性,合法合规性的保证,以及在抄袭,造假等危及行业发展的情况出现时,反AI工具赛道正在迎来一场规模化发展的市场需求。

  AI产品工具的安全合规性该如何保证,抄袭,造假风波压力之下,反AI工具市场会成为一个新方向吗?

  早在今年4月,Perplexity有关人员就表达了对自身产品合规性的观点,彼时,Perplexity正在以30亿美元的估值寻求一轮新的融资,公司方面表示,它尊重出版商不抓取内容的要求,并且在合理使用版权法的范围内运营。

  一方面是指控不道德的抓取为“抄袭”,另一方则表示在“合理”范围内运行。作为AI搜索工具,无论Chatgpt还是Perplexity都一定要采用大批量的网络信息抓取以训练其数据并丰富其内容;但另一方面,面对媒体信息采集的“独家”性,以及出版商等对内容的保护需求,Perplexity之类的AI工具如何平衡“抄袭”和“合理合规”之间的关系?

  对于信息产出网站来说,网站有权利使用机器人排除协议来明确标明其不希望被网络爬虫抓取或访问的内容。

  从版权法的角度来说,其建立法律框架,在特定要求之下,未经许可或付费使用的内容,不允许被随便抓取。

  简单来说,Perplexity在抓取一些网站过程中,如遇到明确标明“以其他方式禁止 robots.txt”的文件,从遵从协议的角度,Perplexity会规避这些信息。

  但另一个问题就在于,若用户手动向AI搜索工具提供URL,Perplexity 则会相应的帮助用户去进行信息抓取,在此过程中,Perplexity充当的并不是一个爬虫工具,而是帮助用户在检索他们的要求。

  更明确一点来说,AI工具抓取了部分网站不允许抓取的内容,那么争议点在于,这个内容的抓取,是AI工具所主导的,还是用户所主导的。

  在这种模糊的界限下,媒体方面针对不道德抓取信息指控Perplexity抄袭的问题,也就有了更多可解释的空间。

  作为一个AI搜索引擎的头部应用,Perplexity面临的指控在某些特定的程度上代表了现在,乃至未来AI应用在数据训练和为用户更好的提供服务过程中,势必会面临的合法合规困境。

  有研究多个方面数据显示,网络上排名前1000的网站中,约有26%的网站已经屏蔽 OpenAI的机器人,另有数据证实,超600家新闻出版商已屏蔽OpenAI。

  比如,云服务提供商Cloudflare推出了一款新的免费工具,以防止机器人抓取其平台上托管的网站数据来训练人工智能模型。

  包括谷歌、OpenAI和苹果在内的一些人工智能供应商,允许网站所有者经过仔细修改其网站的robots.txt(告诉机器人能访问网站上哪些页面的文本文件)来阻止他们用于数据抓取和模型训练的机器人。

  Cloudflare方面表示:“当不良行为者试图大规模抓取网站时,他们通常会使用我们也可以识别指纹的工具和框架。”“依据这一些信号,我们的模型能够适当地将来自规避人工智能机器人的流量标记为机器人。”

  Cloudflare还表示,已经为主机建立了一个表格来报告可疑的AI机器人和爬虫,并表示跟着时间的推移,它将继续手动将AI机器人列入黑名单。

  抄袭的指控,本质上来说是一场对信息的争夺,以及对信息带来商业化价值的利益之战,在此过程中,反AI工具的存在某一些程度上来说是两个对立群体之间的刚需。

  在这场反AI战役中,媒体向Perplexity提出抄袭指控,是AI产品之间的资源争夺。

  但在另一方向,AI造假带来的问题则关系到C端用户,其辐射面积更广,有几率存在的隐患更多,从反AI产品研究开发方向来看,其市场规模和需求似乎更大。

  Deepfake是目前增长最快的对抗性人工智能形式,多个方面数据显示,与深度造假相关的损失预计将从2023年的123亿美元增加到2027年的400亿美元。

  另有多个方面数据显示,预计到2024年,全球范围内产生的深度造假事件或将达到14到15万起。

  而更恐怖的问题就在于,Deepfake视频的主要受害者一部分是行业高管群体,另一部分则是女孩,包括部分女性名人。

  女孩受害者面临的问题则在于个人形象和名誉的受损,独立研究员Genevieve Oh收集的多个方面数据显示,2023 年上传到互联网的露骨深度伪造视频比任何其他年份都要多,Deepfake视频中绝大多数会以未经同意的女性为主角生成色,甚至部分女性公众人物也在受害者之列。

  事实上,Deepfake不局限于视频和音频文档等,其技术已发展到可以创建虚假ID,躲过密码货币网站的检验,从而进行诈骗等活动。

  相比之下,Perplexity的抄袭风波还仅仅存在于规则层面的擦边,而Deepfake带来的造假产业链,则是实打实的威胁着人们的资金和信息安全。

  早在去年,彭博社就报道称:“暗网上已经存在一个完整的产业链,以20美元到数千美元的价格出售诈骗软件。”

  专注于数字货币的新闻网站Coindesk曾发布报道称,2022年密码货币用户因“诈骗、诈骗和黑客攻击”损失了近40亿美元,2023年,这一数字约为约20亿美元。

  一方面能够准确的看出,Deepfake带来的欺诈问题的重灾区仍涉及金融相关的领域,另一方面,从2022年到2023年数字货币受诈骗影响带来的损失数据波动也可以推测,随着部分反AI技术和产品的出现,这一些产品对于规避深度造假带来的止损效果明显。

  Ivanti 发布的《2024 年网络安全状况报告》调查多个方面数据显示,74%的受访企业已经看到人工智能威胁的证据,89%的受访者认为人工智能驱动的威胁才刚刚开始。

  当Sora,Pika等还在竞争谁生成的视频更逼真的时候,对于AI生成视频做鉴别的赛道已经打开市场。

  此前,该团队已于今年早一点的时候发布了AI生成文本的检测工具Raidar,这款工具在检测文本是否为AI生成的过程中,不需要访问LLM大模型。

  当然,从商业经济价值来说,对AI生成视频进行仔细的检测,是市场包括普通用户更需要的产品。

  DIVID的诞生恰恰契合了我们前面关注的Deepfake的商业经济价值市场,据了解,DIVID的研究人员表示,他们的技术有潜力作为插件集成到Zoom中,以实时检测深度伪造电话。

  对应此前Deepfake针对的行业高管伪造视频的情况,DIVID的产品在利用技术保护用户,特别是B端市场用户安全方面是一个很具有参考意义的实践。

  AI技术的进步过快,一方面推动了社会多个行业的发展,但与此同时,利用AI去擦边,或者实施违背法律规定的行为,一直都是存在且在发展中的市场,尽管这一个市场并未完全暴露在阳光下,但其背后带来的商业经济价值越大,对社会的危害也就越高。“用AI打败AI”或许会成为AI技术发展中一个始终存在的命题。当然,从商业化和道德伦理的角度,正面的反AI产品必然是这个社会所需要的,“用AI规范AI”的时代已经到来。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  16岁亚马尔欧洲杯破门后豪言要夺冠,晒洗澡照致敬梅西,球迷:天才的传承!小罗背起梅西,梅西给亚马尔洗澡

  买了这么多铅笔还是这个好用!可以矫正孩子的握笔姿势,让孩子写一手好字!

  9岁哥哥照顾几个月的弟弟,有模有样 眼里充满了爱,弟弟一哭哥哥跑得比爸妈还快!

  这么懂事的孙子,爷爷一定会永远记得这温情一刻!!#温情##萌娃##花开天下最四川# 四川卫视

  Arc System Works宣布制作《双截龙》3D横版新作 2025年推出