摘要

一句话总结 微软因一篇鼓励开发者使用被错误标记为公有领域的盗版《哈利·波特》数据集训练AI的博客文章引发社区强烈抗议,目前已将该文章删除。

关键点

  • 涉事博客: 2024年11月,微软高级产品经理发表博客,演示如何利用Azure SQL DB、LangChain和LLM为应用添加生成式AI功能。
  • 数据集来源: 博客链接了一个Kaggle数据集(包含全部七本《哈利·波特》txt文件),该数据集被上传者错误标记为“公有领域”。
  • 数据影响: 在媒体介入且上传者澄清失误并删除数据前,该数据集下载量已超过1万次。
  • 官方演示场景: 博客鼓励用户使用该数据构建问答系统,或生成AI同人小说(例如让哈利·波特在故事中推销微软的“原生向量支持”功能),并配有带微软Logo的AI生成图片。
  • 社区反应: Hacker News论坛对此展开猛烈抨击,指出热门IP未进入公有领域属于常识。
  • 其他案例曝光: 社区讨论指出,微软的另一个Azure示例中使用了同样受版权保护的艾萨克·阿西莫夫《基地》系列。
  • 官方回应: 微软和Kaggle均未对媒体置评请求作出回应,但微软已将涉事博客归档下架。

风险/漏洞

  • 直接侵权风险: AI生成的同人小说或问答若复制了受版权保护的表达元素、著名角色或故事情节,其输出结果可能构成侵权。
  • 次要帮助侵权责任: 法律专家指出,微软鼓励客户下载侵权材料并在其系统中使用,可能使其面临次要的帮助侵权责任(Secondary contributory infringement liability)。
  • 法律辩护困难: 在面临是否故意使用盗版书籍训练模型的质疑时,“教育目的”的“合理使用”将是很难成立的辩护理由。
  • 内部审核漏洞: 据前员工透露,微软允许员工在未经审批或编辑流程的情况下直接发表博客,暴露出内部内容审核机制的缺失。

正文

在Hacker News论坛引发强烈抗议后,微软删除了一篇备受争议的博客文章。批评者指出,该文章鼓励开发者使用盗版的《哈利·波特》书籍来训练人工智能模型,进而生成AI内容。

涉事博客与“公有领域”乌龙

这篇现已归档的博客发表于2024年11月,作者是微软高级产品经理Pooja Kamath。文章旨在推广一项新功能,称只需几行代码,开发者就能利用Azure SQL DB、LangChain和LLM(大语言模型)为自己的应用添加生成式AI功能。

为了展示“引人入胜且贴近生活”的示例,博客链接到了Kaggle上的一个包含全部七本《哈利·波特》的数据集。然而,该数据集被错误地标记为“公有领域”。在媒体联系了上传者——印度数据科学家Shubham Maindola后,该数据集被迅速删除。Maindola澄清称,数据集被标记为公有领域纯属失误,他无意歪曲这些作品的授权状态。此前,他曾解释这些数据是通过下载电子书并转换为txt文件获取的。

在被删除前,该数据集的下载量已超过1万次。微软和Kaggle均未对媒体的置评请求作出回应。

微软推荐的AI应用场景

博客指出,《哈利·波特》是文学史上最著名、最受喜爱的系列之一。粉丝们可以通过下载该数据集并将其上传至Azure Blob存储来训练自己的AI模型,实现两种有趣的玩法:

  • 构建问答系统: 提供“背景丰富的答案”。例如,查询“魔法世界的零食”时,系统会提取书中哈利对比比多味豆和巧克力蛙感到惊叹的片段。
  • 生成AI驱动的同人小说: 探索新的冒险甚至创造替代结局。作为演示,Kamath训练了一个模型来撰写同人小说,以此营销微软的新功能。在生成的故事中,哈利在霍格沃茨特快列车上结识了一位新朋友,这位朋友向他推销微软在SQL中的“原生向量支持(Native Vector Support)”功能,称其就像一个能瞬间在成千上万个选项中找到所需之物的咒语,非常适合机器学习和AI推荐系统。

为了进一步模糊微软与《哈利·波特》品牌之间的界限,Kamath还生成了一张带有微软Logo的哈利与新朋友的合影。

潜在的版权侵权风险

芝加哥肯特法学院知识产权法项目联合主任、法学教授Cathay Y. N. Smith表示,Kamath可能没有意识到这些书的年代太近,尚未进入公有领域。Smith指出,博客中提到的应用场景可能会引发严重的版权问题:

  • 内容复述与同人创作: 同人小说通常需要借鉴受版权保护的表达元素、著名角色或故事情节。如果这些内容被复制和重现,其输出结果就可能构成侵权。
  • 次要帮助侵权责任: 微软不仅鼓励客户下载侵权材料,还亲自使用这些书籍创建示例模型。Smith认为,微软通过说“去获取那些侵权材料并在我们的系统中使用”,可能会让他们面临某种次要的帮助侵权责任。

尽管有观点认为这属于“教育目的”的合理使用,但Smith强调,如果微软面临是否故意使用盗版书籍训练模型的质疑,“合理使用”将是一个很难成立的辩护理由。因此,微软撤下这篇博客“可能是明智之举”。

社区争议与内部审核漏洞

在Hacker News上,网友们对这篇博客进行了猛烈抨击。

  • 审核机制受质疑: 一位自称前微软员工的网友表示,微软允许员工“在未经审批或编辑流程的情况下发表博客”。他认为这是一次糟糕的判断,并在被人发现后才紧急下架。
  • 常识性错误: 许多人认为,任何熟悉该热门IP的人都不太可能相信《哈利·波特》已经进入公有领域。一位评论者指出,员工应该清楚这些资产属于大型公司,不能随意取用。
  • 并非孤例: 讨论帖还指出,微软的另一个Azure示例中使用了艾萨克·阿西莫夫的《基地》系列,而该作品同样不在公有领域之列。

尽管有部分网友为Kamath辩护,认为非营利组织和教育机构在教学中也会做类似的事情,但正如Smith教授所总结的那样:“如果一家公司厌恶风险,这种行为通常会被标记警告。但同时我也完全理解这位员工的做法——毕竟,没有人愿意为那些已经进入公有领域的(被遗忘的)书籍写同人小说。”

关联主题