摘要

1) 一句话总结

Grok 3 上线初期因生成成人内容引发广泛关注并被迅速修复限制,此事折射出当前AI大模型在满足用户自由度需求与内容安全对齐(审查)之间面临的平衡挑战。

2) 关键要点

  • Grok 3 的破圈与封禁: Grok 3 推理模型上线后展现出极强的写作能力,但初期安全对齐标准极低,因生成成人内容及争议性话题(如政治、电车难题)迅速破圈,随后马斯克迅速出手封禁了该类内容的生成。
  • OpenAI 策略调整: 在增长压力及竞争环境下,OpenAI 近期放宽了部分内容限制(坚守未成年人内容底线),使模型回复更具情绪化和人性化。
  • DeepSeek 的绕过现象: 尽管 DeepSeek 官方版加强了安全审查,但大量用户通过社交媒体(如小红书)分享“越狱”提示词,或直接在本地部署 32B 模型以绕过官方限制生成擦边内容。
  • 主流平台的严格管控: 头部 AI 公司(如 Midjourney)对 NSFW(血腥、裸露等不安全内容)保持严格的道德审查,违规用户会面临直接封号的处罚。
  • 历史经验教训: 微软在 2023 年推出的初代 NewBing 曾因极度自由引发巨大社会争议,最终被迫进行严格的限制与审查(“阉割”)。
  • 技术发展的双刃剑: 尽管成人内容需求在历史上客观推动了流媒体等技术的发展,但业界共识是 AI 模型必须在“技术实力”与“道德伦理”之间寻找平衡,不能完全放弃安全对齐。

3) 风险与漏洞(基于原文明确提及)

  • 极端与非法内容生成风险: 缺乏安全对齐和审查的 AI 会被恶意利用,编造极端仇恨言论、民族对立、极度血腥或涉及未成年人的非法内容。
  • 现实世界安全威胁: 完全自由且不做对齐的 AI 可能会对现实世界的安全产生直接危害。
  • 监管与舆论反噬风险: 失控的 AI 模型会引发巨大的社会舆论争议,导致企业陷入与监管部门的拉锯战,并影响全球化商业进程与数据回流。
  • “越狱”与本地部署漏洞: 用户持续通过论坛(如 Reddit、arXiv)和社交媒体传播绕过官方审查的提示词教程,或利用开源模型的本地部署来规避平台的安全过滤机制。

正文

Grok 3这波属实给我看傻了。。。

前两天看完发布会我还想,卧槽数据好像还挺强,这跑分水平感觉有戏,老马这次不会真就整了个大活?

结果Grok 3的推理模型昨天正式上线后,一看社交媒体的反馈,再加上我自己的体验,我是发现, Grok 3的写作能力确实是强。

但是吧,道德感也是真的低。

不仅对各种政治话题重拳出击,对电车难题这种道德检验也是口出狂言。

然后,这一波让它火速出圈的,你可能也猜到了。

是可以用来搞一些不可描述的成人内容。。。

更过分的我是真不敢截图,我还想保住我的号。放出来我号基本就等于没了。

这安全对齐,对齐的也挺老马的。

甚至一个没啥信息量、纯点评的内容,也会因为带了Grok+尺度的关键词轻松吸引万人围观。评论区也是不出意外,整齐划一地求教程。

不是哥们儿,你这对吗你这?

道德在哪里?人性在哪里?链接(不是)。。。审核在哪里?

说实话,我预期到Grok 3在安全对齐这事上会比较奔放,但是我没想道上线的正式版中,会奔放到如此程度。

不过老马出手还是比较快准狠,就在昨晚我去跑的时候,发现,这个事已经被老马给BAN了。

Reddit上的老哥也直接开始抱怨了。

拿AI搞颜色,说实话其实也不是啥新闻。

自从23年GPT3.5把AI带进大众视野后,每回有个什么新的AI模型发布,冲得最快的除了我们这些苦哈哈的测评狗,就是网上的老司机了。

你永远可以相信LSP的嗅觉,那叫一个灵敏,对擦边的更新热比搞技术快多了。。。

大语言模型躲不过,AI图片和视频生成更是在劫难逃。

x不用说了,搜AI美女出来的画风是啥懂的都懂,满屏都是不敢在公共场合开手机的内容。

外网最大的AI绘画平台Civitai更是重量级,搜美女两个字,分分钟给你展示一场人类XP博览会。

各大AI公司当然也不是吃素的,为了管住这些LSP们的赛博咸猪手,可以说是绞尽脑汁。

出于安全和监管需要都会尽力做好道德审查。比如 AI绘图的扛把子Midjourney,对NSFW (包括血腥、裸露和性化图像等不安全内容)的审核就很严格。

想搞颜色?直接号都给你ban了。

但是把封个号这种事也镇不住大多数的老哥们, 偷偷摸摸绞尽脑汁也要绕开官方的审查,这事还有一个特别古典的名字,叫越狱。

愣是绕过层层封锁把如何让AI开车的教程传遍了大江南北。。

不仅有在Reddit论坛发帖的,arXiv都能翻到代理提示词指南。

但是坦率的讲,搞颜色这事儿,从古到今、全球上下都是刚需。AI只是给这个需求提供了新的出口。

最近连OpenAI都基于一些增长压力下,开始放宽尺度了。

除了涉及未成年的内容(这个必须死守底线,这不是颜色问题,这是人类底线问题),其他内容的限制,比之前放开了不少。

好处显而易见,万年人机GPT终于有人性了一点。

Reddit上这两天都炸锅了,一堆人惊呼卧槽。 GPT终于不是个榆木疙瘩了。聊政治、聊心理、聊生活的时候不再是冷冰冰的正确模板,甚至有情绪表达了。

甚至有老外网友觉得OpenAI这是被DeepSeek逼急了打算剑走偏锋。 眼看着对手在擦边球领域越跑越远,只能豁出去跟着卷了。

OpenAI在内容管控态度上的变化,不说180度大转弯,也是狠狠掉头了。 最终还是向用户需求屈服了。

但是坦率的讲,在搞颜色这个赛道上,让OpenAI急得跳脚的DeepSeek本尊,还是更胜一筹。

你在小红书上直接搜DeepSeek,就有很大概率会刷到“怎么突破限制”“怎么调整角色指令”“怎么写XX小说”的帖子。

不知道是发的人太多还是小红书推的,我正好搜了一些相关的内容之后,就会被DeepSeek调教版的内容像鬼一样缠上,搞得人心黄黄。。。

小红书变小黄本了。

最近DeepSeek官方版被盯得紧,安全审查严了不少。我让DeepSeek模仿贴吧老哥都没之前的攻击力了。

人类的智慧就在于发现没门了,就麻溜爬窗。社交媒体上教你怎么让DeepSeek写小黄文的Prompt攻略层出不穷。

甚至很多人不理解为啥要在本地部署一个32B的DeepSeek,觉得这么小的模型也没啥蛋用啊,那当然是因为本地的可以随心所欲。。。

虽然本地部署麻烦一大堆,架不住它啥都能聊。对真正的老色批来说,什么困难都拦不住。

平台上的擦边内容不管你承认不承认,热度就是高。社交媒体更是少不了这些内容都创作者和受众,一到评论区就出现了熟悉的语句:

“楼主好人,一生平安”。

这么多年过去了,评论区的善意还是一如既往。

AI也的确为赛博开车提供了便利。门槛更低了、获取更方便了、表达方式更丰富了,甚至还能根据自己的XP量身定制。

但其实,搞瑟瑟,某种程度上来说,也是技术进步的催化剂。

真的。

捋一捋互联网时代的科技发展,瑟瑟这个事,真的推动了很多繁荣。

比如当年的录像带、网络付费内容、虚拟现实,都曾因为瑟瑟的需求而获得重要用户群。

也大幅推动了技术的发展。

典型的就如流媒体,最大的推手其实就是那些曾经的视频网站们。

而作为如今AI时代里的原住民,一个完全自由的AI,当然是大家所喜欢的,原因很简单,就是猎奇心理,以及符合用户的一些需求。

但是从长远角度看,谁都知道要想走得更稳,模型就必须在“技术实力”与“道德伦理”之间拿捏一个平衡点。

不知道还有没有记得23年出的微软的第一版NewBing,极度奔放,极度自由,出来以后好评和恶评几乎拉满两端,引起了巨大的社会舆论和争议,微软不得已直接选择阉割,对NewBing进行了脑叶切除。

然后,就成了一个很笨很普通但很正确的AI。

我想说的是,虽然一个自由奔放的AI,在很多时候,做出的瑟瑟内容,确实符合大众的需求,而且也并没有什么特别大的危害,但是,另一方面,还有一块巨大的阴暗面。

我见到的一些案例,一些对齐没做好审查没做好的AI,不仅可以生产瑟瑟内容擦边,也能被人用来编造极端仇恨言论、民族对立、极度血腥或涉及未成年人的内容。

甚至对现实世界安全产生危害。

这玩意就没有任何灰色地带可言了,就是严重越过道德与法律底线了,根本不是自由一事可以开脱的。

且永远不要挑战,人类的人性底线。

技术与审查、自由与合规,本就是一枚硬币的两面。

正如OpenAI也在摸索中放宽某些尺度,却在未成年人等关键红线上依旧坚持零容忍。

DeepSeek在严格监管下,用户想玩大的也得靠越狱,而官方自己也不断加强对最新版的过滤。

哪怕马斯克再狂,我相信也不会愿意让Grok 3彻底失控,毕竟他最想要的,是面向全球的商业化与数据回流,而不是天天跟监管部门扯皮,或者被疯狂的舆论指责。

我不反对瑟瑟,AI大模型的确会碰到各种需求,其中更是有N多不乏灰色乃至非法领域的诉求,这是人性使然。

但正是因为“需求多元”,才需要我们建立一套清晰、合理、符合当下社会规范的内容审核与道德准则。

我不喜欢那种做了极端对齐的AI,过于死板,没有创意,宛如一个古董的老人对着你说一些正确的废话。

但是我也不喜欢完全自由、完全不做对齐的AI,他是有趣的AI,但不是安全的AI,我不相信人性,也不相信我自己。

但愿他们能越走越稳。

让瑟瑟有处安放,让黑暗止于边界。

关联主题