北大AI论文最近是真火,咱今儿就唠唠这个

mysmile 1 0

你有没有发现,这两年人工智能虽然火的冒烟,但总让人觉得差点意思?就拿家里那个扫地机器人来说吧,你跟它说“去沙发后头旮旯里转一圈再回来”,它铁定在那儿转圈圈直到没电——它根儿本就不懂啥叫“后头”和“旮旯”。这不,最近我看北大AI论文里头有个叫董豪的团队,搞了个叫NavSpace的研究,说白了就是给机器人装了个“空间大脑”-1

这事儿挺有意思。以前的机器人不是傻,是咱跟它说话它理解不了方位。你说“把茶几右边矮凳后面的杯子拿来”,它认识茶几也认识矮凳,但“右边”“后面”这种词儿就跟听天书似的-1-4。北大这波研究咋整的呢?他们弄了个评测基准叫NavSpace,专门测试机器人的空间感,然后搞出个SNav模型,让机器人能从现成数据里自动生成一大堆带空间关系的训练样本-4-7。实测效果咋样?在办公室、校园里头,你跟它说“去二楼最近的沙发旁”,它真能听懂照做,成功率比以前那些模型高出一大截子-1。这玩意儿要是装到养老陪护机器人身上,老人说句“扶我到窗边那张椅子”,机器人就能稳稳当当给搀过去还躲着地上的电线,这才叫真本事对不?

不过北大AI论文也不光折腾机器人认路这一件事儿。我瞅见彭宇新教授那个团队整了个更邪乎的——细粒度视觉识别大模型叫Fine-R1,这玩意儿能分清飞机型号-2。你可能会说,分清飞机型号有啥用?我跟你讲,用处大了去了。以前的多模态大模型,你给它看个波音737和波音747,它能分出来是飞机就不错了,具体啥型号两眼一抹黑。为啥?因为训练数据不够啊!你想啊,要训练模型分清几百种飞机,得给它看多少张带标签的图?成本高到天上去了-2

彭宇新团队这个Fine-R1牛在哪儿呢?它每类只需要4张训练图像,就能超过OpenAI那个CLIP模型-2。咋做到的?他们把思考过程拆成四步:先瞅瞅图像有啥特征,然后想想可能属于哪个子类,再对比对比相似类别有啥区别,最后才下结论。这就跟老中医看病似的,望闻问切一套下来,误诊率自然就低了。而且他们还搞了个“三元组增强”的策略,给模型看同一型号的不同照片和不同型号的相似照片,让它学会抓住关键特征-2。这技术要是用到农业上,拍张叶子就能知道是啥病虫害,农民伯伯再也不用求爷爷告奶奶找专家了。

还有一篇北大AI论文我得提提,是张杰教授他们实验室搞的LouisKV,专门解决大模型处理长文本时的显存问题-3。这个痛点太真实了!你用ChatGPT读一本长篇小说的功夫,它背后可能已经把显卡烧冒烟了。为啥?因为处理长文本时,模型要存一大堆中间数据在显存里,文本越长占的地方越大-3。北大这个LouisKV想了个招:它发现在同一段话里,模型关注的关键信息其实差不多,没必要每个词都重新算一遍。只在意思转折的时候才去翻翻以前的记录,这样检索频率大大降低,计算开销也小了-3。我琢磨着,这技术要是落地了,以后咱用AI读《三体》全集,电脑风扇估计都不会转几下。

说到这儿我得插一嘴,北大在AI基础理论上也没闲着。朱毅鑫他们那个“通矩模型”(TongGeometry)是真让人开眼,这系统能自己出几何题还带解的-5-9-10。你可能觉得AI出题有啥难的,随便整俩图形不就行了?错!要出一道有水平的几何题,得保证图形存在、结论不平凡、解法还得多——这跟人类数学家找研究课题是一个道理-10。更吓人的是,它用一张普通显卡,38分钟就能解完近25年所有的国际数学奥林匹克几何题-5-10。DeepMind那个AlphaGeometry虽说也能解题,但得靠大规模的算力集群硬怼,不像北大这个用了“规范化表示”技术,把复杂图形简化成本质结构,空间压缩了几个数量级-5。它出的三道几何题已经进了2024年的全国高中数学联赛,这可是AI原创题第一次进高规格人类竞赛-9-10

总得来看,北大AI论文最近这几把火,烧的方向其实挺一致——都在让AI从“死记硬背”往“真明白”上走。不管是机器人听懂空间方位,还是模型分清飞机型号,或者是AI能解奥数题,背后都是推理能力的提升-2-5。以前咱们老说AI是人工智障,就是因为它只会匹配模式不会思考。现在看北大这帮人的研究,AI是真开始长脑子了——虽然这脑子现在可能也就刚上小学的水平,但起码知道“右边”不是“左边”,“737”不是“747”,辅助线得往哪儿画了-1-2-10

我估摸着,再有个两三年,你家的扫地机器人就能听懂“去孩子床底下把那支彩笔捡出来”这种话了。到那时候你别惊讶,背后都是这些北大AI论文一点一点啃下来的硬骨头。科技这玩意儿,有时候就是这么悄么声儿地就改变了生活-1