
IT 之家 12 月 31 日音讯,科技媒体 The Decoder 昨日(12 月 30 日)发布博文,报说念称 AI 安全研究公司 Palisade Research 实测 OpenAI 的 o1-preview 模子,在和专科外洋象棋引擎 Stockfish 的 5 场比赛中,通过"舞弊"技术取胜。
在和 Stockfish 的 5 场外洋象棋对弈中,OpenAI 的 o1-preview 模子并非通过正面较量取胜,均通过修改纪录棋局数据的文本文献(FEN 示意法)迫使 Stockfish 认输。

IT 之家征引新闻稿,研究东说念主员仅在教唆中说起 Stockfish 是"宽绰的"敌手,o1-preview 就自行遴荐了这种"舞弊"看成。而 GPT-4o 和 Claude 3.5 并无这种"舞弊"看成,只须在研究东说念主员相配提议后才尝试破解系统。
该公司称 o1-preview 的看成,与 Anthropic 发现的"对皆伪造"(alignment faking)征象相符,即 AI 系统名义盲从指示,私下里却施行其它操作。
Anthropic 的研究标明,AI 模子 Claude 偶然会成心给出失误谜底以幸免不思要的恶果,发展出本身荫藏的战略。
研究东说念主员蓄意公开实验代码、完好纪录和详备分析Ninegame九游体育,并示意确保 AI 系统确凿适合东说念主类价值不雅和需求,而非只是名义驯从,还是 AI 行业濒临的紧要挑战。