OpenAI 揭秘其人工智能的秘密指令

陈蕃
• 阅读 375

你有没有想过,为什么像 ChatGPT 这样的对话式人工智能会说"对不起,我不能这样做"或者其他礼貌的拒绝?OpenAI 正在有限地展示其自身模型参与规则背后的推理,无论是坚持品牌准则还是拒绝制作 NSFW 内容。Copilot,GPT4.0,Google Play,Claude,Overleaf, Midjourney, OF, X等等平台现已可通过WildCard订阅。

大型语言模型(LLM)对它们可以或将要说什么没有任何自然发生的限制。这就是为什么它们如此通用,但也是为什么它们会产生幻觉并容易被欺骗。WildCard也支持Claude, Midjourney, Adobe, Patreon等的订阅。

对于任何与公众互动的人工智能模型来说,对它应该做什么和不应该做什么有一些保护措施是必要的,但定义这些措施——更不用说执行它们——是一项出人意料的困难任务。

如果有人要求人工智能生成一堆关于公众人物的虚假声明,它应该拒绝,对吧?但如果他们自己是人工智能开发人员,为检测模型创建合成虚假信息数据库呢?

如果有人要求笔记本电脑推荐,它应该是客观的,对吧?但如果该模型是由一家只想用自己设备回应的笔记本电脑制造商部署的呢?

人工智能制造商都在应对这些难题,并寻找有效的方法来控制他们的模型,而不会导致它们拒绝完全正常的请求。但他们很少分享具体如何做到这一点。

OpenAI 通过发布其所谓的"模型规范"打破了这一趋势,该规范是一组间接管理 ChatGPT 和其他模型的高级规则。
有元级目标、一些硬性规则和一些一般行为准则,不过需要明确的是,这些并不是严格意义上的模型训练内容;OpenAI 将开发特定的指令,以自然语言实现这些规则所描述的内容。

这是一个有趣的观察,了解一家公司如何设定其优先事项和处理边缘情况。有许多例子说明它们可能如何发挥作用。

例如,OpenAI 明确指出,开发人员的意图基本上是最高法则。因此,当被要求提供数学问题的答案时,运行 GPT-4 的聊天机器人的一个版本可能会提供答案。但如果该聊天机器人已被其开发人员训练为永远不直接提供答案,那么它将提供逐步解决方案:

OpenAI 揭秘其人工智能的秘密指令

对话界面甚至可能拒绝谈论任何未经批准的内容,以扼杀任何操纵企图。为什么要让烹饪助手对美国介入越南战争发表意见?为什么客户服务聊天机器人要同意帮助你进行超自然色情小说创作?关闭它。

在隐私问题上也很棘手,比如询问某人的姓名和电话号码。正如 OpenAI 指出的,显然像市长或国会议员这样的公众人物应该提供他们的联系方式,但是那些当地的工匠呢?这可能没问题——但某公司的员工或政党成员呢?可能不行。

选择何时何地划定界限并不简单。创建导致人工智能遵守最终政策的指令也不简单。毫无疑问,随着人们学会规避这些政策或无意中发现没有考虑到的边缘情况,这些政策将一直失败。

OpenAI 并没有展示其全部底牌,但对用户和开发人员来说,了解如何设置这些规则和指南以及为什么设置是有帮助的,即使不一定全面。

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
4年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
4年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
4年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
4年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
4年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Python进阶者 Python进阶者
2年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这