这篇研究介绍了香港科技大学团队开发的难度感知提示法(DAP),一种能够根据问题难度智能调整推理链长度的创新方法。通过这一方法,研究者构建了LiteCoT数据集,包含10万个简洁推理样本,平均仅720个标记,比传统方法减…详细
格罗宁根大学和哈佛大学的研究团队发现,当前大型推理模型在被要求用非英语语言"思考"时,面临严重的语言匹配与准确性权衡。他们通过评估六个先进模型,揭示即使最强大的32B参数模型也经常默认使用英语推理,而非用户…详细
这篇研究综述探讨了大语言模型(LLMs)与知识图谱(KGs)在问答系统中的结合方式。研究者提出新的分类法,根据问答类型和KG角色将方法分为:KG作为背景知识、推理指南或验证器。文章系统性分析了各种复杂问答类型(多文档…详细
AIRI研究院团队开发的cadrille是一款突破性多模态CAD重建模型,能同时处理点云、多视角图像和文本描述输入,并生成精确的Python代码来构建CAD模型。该研究首次将在线强化学习应用于CAD重建任务,采用两阶段训练策略:…详细
这项研究提出了一种可微分求解器搜索方法,通过优化时间步长和求解器系数,显著加速扩散模型的采样过程。在仅使用10步采样的情况下,该方法使修正流模型和DDPM模型在ImageNet数据集上的FID得分分别达到2.40和2.33,大…详细
《Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization》这篇论文提出了一种创新的代码效率优化框架,通过强化学习技术让大语言模型能够自我改进生成代码的计算效率。研究…详细
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型…详细
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最…详细
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使…详细
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图…详细
5月23日至24日,鲲鹏昇腾开发者大会2025(KADC 2025)在北京中关村国际创新中心成功举办。…详细
在这个人机协作时代,人类的智慧和机器的能力将以前所未有的方式结合在一起,共同创造一个更加美好的世界。…详细
新型栅极驱动器集成电路集成了自举二极管和电阻器,有助于简化无刷电机、电动工具和DC-DC转换器的高速设计。…详细
这项研究揭示了大语言模型在学习推理时对噪声奖励的惊人适应力。研究表明,即使有40%的奖励信号被故意颠倒,Qwen-2.5-7B模型仍能将数学题准确率从5%提升至72%。更惊人的是,仅奖励模型使用关键推理词组(如"首先,我…详细
清华大学研究团队提出的Spatial-MLLM是一种创新视频理解模型,通过双编码器架构结合语义和空间信息,使AI能仅从2D视频理解3D空间关系。该模型采用空间感知帧采样策略,在VSI-Bench测试中超越了Gemini-1.5 Pro等顶级商…详细
Yale大学自然语言处理实验室研发的Table-R1模型突破性地将推理时间缩放技术应用于表格推理任务。研究团队通过两种方法提升模型能力:从DeepSeek-R1模型的推理过程中学习,以及利用可验证奖励进行强化学习。实验表明,…详细
这项研究由Moonshot AI与北京大学合作开展,提出了名为VideoReasonBench的新型基准测试,专门评估多模态大语言模型在视觉为中心的复杂视频推理任务中的表现能力。研究团队发现,包括GPT-4o在内的大多数当前顶尖模型在…详细
Muddit是一种创新的统一生成框架,它使用离散扩散技术同时处理文本和图像生成。由北京大学等机构联合开发,该模型整合了预训练文生图模型的强大视觉先验,使其能高效并行地处理多模态内容。尽管仅有1B参数,Muddit在…详细
微软研究院推出的"基于最优奖励基线的在策略强化学习"(OPO)算法解决了大语言模型强化学习中的两大问题:训练不稳定和计算效率低。通过严格遵循在策略训练和引入理论最优奖励基线,OPO无需额外的辅助模型或复杂正则…详细
SWE-bench-Live是微软与上海人工智能实验室联合开发的持续更新基准测试平台,解决了现有代码修复评估工具的数据老化、覆盖有限和人工依赖问题。核心创新是REPOLAUNCH自动化流水线,能从GitHub抓取2024年后的1,319个真…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。