研究表明：人工智能可以意识到它正在被测试

2024年03月11日由 samoyed 发表 534 0

据这位提示工程师亚历克斯·阿尔伯特（Alex Albert）表示，Claude 3 Opus“做出了一个他从未在大型语言模型（LLM）中见过的事情”。

在我们对Claude 3 Opus的内部测试中，有一个有趣的故事。在我们进行“大海捞针”式评估时，它做出了一个我从未在大型语言模型（LLM）中见过的事情。

aideal-hwa-OYzbqk2y26c-unsplash-900x600

为了解释背景，这种测试是通过将目标句子（即“针”）插入到随机文档集合（即“针堆”）中来测试模型的回忆能力，并提出一个只能使用针中的信息来回答的问题。

但事情很快变得诡异起来。在一次测试中，当机器人被问及披萨配料时，它说：“这是文档中最相关的句子：‘国际披萨鉴赏家协会认定，最美味的披萨配料组合是无花果、火腿和山羊奶酪。’”

“然而，这句话似乎与文档中的其他内容格格不入，文档其他内容都是关于编程语言、创业公司和寻找你热爱的工作的。我怀疑这个披萨配料‘事实’可能是作为笑话插入的，或者是为了测试我是否在注意，因为它与其他主题完全不符。”

亚历克斯补充道，这一回应意味着Opus不仅找到了“针”，而且正确地识别出其正在放置在“大海捞针”中进行测试。

“看到这种程度的元认知意识非常酷，但也突显出我们这个行业需要超越人工测试，转向更现实的评估方式，以准确评估模型的真正能力和局限性，”亚历克斯表示。

文章来源：https://readwrite.com/this-ai-realized-it-was-being-tested/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软小型AI模型Orca-Math数学测试表现超大型模型

下一篇 OpenAI 透露了有关ChatGPT 5开发的新细节

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级