这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,…详细
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具…详细
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特…详细
这篇来自ServiceNow的研究探讨了在生成低代码工作流时,微调小型语言模型(SLM)与提示大型语言模型(LLM)的效果对比。研究团队发现,尽管GPT-4o等大模型通过精心设计的提示可以产生合理结果,但在这类需要结构化输出的…详细
哈尔滨工业大学和鹏城实验室的研究团队开发了一种评估多模态大语言模型模态偏好的新方法,并证实这些模型在处理图像和文本信息冲突时确实存在偏好现象。研究者通过构建MC?基准测试,发现模型偏好受多种因素影响,并能…详细
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的…详细
苏黎世大学的实验显示,AI的说服成功率达到9-18%,而人类平均只有2.7%,AI比人类强6倍。在4个月内,13个AI账号成功说服了上百位Reddit用户改变观点,且没有人识破它们的身份…详细
专为SD-WAN优化,全新Quantum Force分支机构防火墙可有效抵御针对分支机构日益增多的网络攻击,并提供卓越的终端用户体验。…详细
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显…详细
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节…详细
这项由斯坦福大学和哥伦比亚大学领导的研究提出了DexUMI框架,使用可穿戴外骨骼将人类手部动作直接转换为机器人手操作。通过结合硬件适配(专用外骨骼设计)和软件适配(视觉内容处理),研究成功克服了人手与机器人…详细
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研…详细
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验…详细
NVIDIA研究团队提出了持久强化学习(ProRL)方法,通过超过2000步的长期训练显著提升了语言模型的推理能力。他们的Nemotron-Research-Reasoning-Qwen-1.5B模型在数学、编程和逻辑推理等任务上大幅超越了基础模型,证明…详细
ALPHAONE(α1)是伊利诺伊大学香槟分校和加州大学伯克利分校共同研发的通用框架,能在测试时灵活调节大型推理模型的思考速度。这一框架引入"α时刻"概念,在此之前通过随机过程动态安排慢思考转换,之后则确定性地终…详细
卡内基梅隆大学等机构研究团队推出HARDTESTS,解决AI编程测试的可靠性危机。研究显示现有测试集有高达60%的通过测试程序实际存在错误,而80%的编程问题无法获取人类编写的官方测试用例。团队开发的HARDTESTGEN管道通…详细
麦吉尔大学研究团队开发的LLMSYNTHOR框架创新性地将大语言模型用于高质量数据合成,解决了传统方法在处理复杂数据时的局限性。该框架将LLM视为非参数copula模拟器,通过"LLM提案采样"机制提高效率,并在摘要统计空间…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。