50篇问题论文曝光, AI造假篡改作者、伪造发表, 专坑疲惫审稿人
发布日期:2025-12-29 20:01    点击次数:135

文 |洛神谷语

ICLR2026的学术圈这两天可不好过,就在OpenReview"开盒事件"刚过去两周,GPTZero又扔出个消息,检测出50篇投稿论文存在AI幻觉问题。

里面全是瞎编的作者、伪造的数据,甚至还有假装已经发表的假记录。

这事儿闹得不少学者都在吐槽,现在发论文跟开盲盒似的,指不定哪篇就是AI"胡编乱造"出来的。

AI幻觉论文

要说这些问题论文有多离谱,随便拎一个案例都能让你惊掉下巴。

有篇叫TamperTok的论文,引用了篇NeurIPS2023的文献,结果四位作者全给改了,愣是没一个审稿人发现。

后来有人扒出来,原作者里根本没这几个人,纯纯是AI根据常见姓氏"拼"出来的。

更鸡贼的是MixtureVitae这篇,玩起了"真假参半"的套路。

前三位作者是真的,后面几位要么名字瞎编,要么把"Zhang"写成"Zang"这种形近字,审稿人扫一眼还以为是笔误,谁能想到是AI故意埋的雷?

还有篇Safe-LLM更绝,页眉直接标着"PublishedatICLR2025",可它明明是参与2026年评审啊,这不就等于考试时把"已通过"三个字印在卷子上,硬说自己去年就及格了?

最气人的是IMPQ,引用的arXivID是真的,但点进去内容完全对不上,就赌审稿人只看链接不看内容,你猜怎么着?还真让它赌对了。

这些AI幻觉能得逞,不光是技术"高明",更是摸透了审稿人的心理。

大语言模型本来就是靠概率拼句子,生成的内容看着合理就行,根本不管真假。

现在审稿人一天要审十几篇论文,眼睛都快看瞎了,哪有精力逐字核对作者和文献?AI就是吃准了这种"高强度工作下的倦怠",才敢这么肆无忌惮地造假。

要说问题全在AI身上,也不太公平。

ICLR2026投稿量快两万篇了,硬生生堆出七万多条评审意见,可合格的审稿人就那么多。

以前一个人审3篇顶天了,现在恨不得塞给你8篇,谁还有心思逐字逐句抠细节?大多都是快速扫一遍摘要、看几眼图表,差不多就给意见了,这种情况下,AI造假能被漏掉也不奇怪。

更魔幻的是"AI生成内容"和"AI评审"的恶性循环,现在不光作者用AI写论文,连审稿人都开始用AI写意见了。

有内部消息说,至少两成的评审意见带着明显的AI味儿,什么"该研究具有一定创新性,但仍需补充实验验证",全是套话。

AI写的论文让AI审,能审出个啥?无非是"你编得挺好,我夸得也挺溜",最后大家一起糊弄。

本来今年8月ICLR还出过新规,要求作者公开用了哪些LLM,还得保证内容准确,违规就拒稿。

结果呢?全靠作者自觉,根本没技术手段查。

有人调侃,这就像让学生自己报告有没有抄作业,谁会承认啊?事后追责更是难上加难,等发现问题时,论文都快审完了,总不能全撤了重来吧?所以这新规基本成了"一纸空文"。

其实要解决这事儿,也不是没招。

技术上可以升级检测工具,比如GPTZero能不能直接对接文献数据库,引用文献时自动核对作者和内容?

制度上也得改改,投稿量实在太多,能不能先让领域主席筛一轮,把明显不靠谱的先刷掉?审稿人也别硬撑,一个人最多审5篇,给点实际激励,别光靠"学术奉献精神"绑架人家。

说到底,ICLR2026这事儿不是偶然。

AI确实让写论文变简单了,但也让造假变容易了。

要是再这么下去,以后学术界怕是要变成"AI编、AI审、AI发"的闭环,那咱们研究半天,到底是在比谁的AI更会编,还是比谁的研究真有价值?

现在该把"原创价值"捡起来了,毕竟学术的核心是探索未知,不是比谁的AI玩得溜,你说对吧?