在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,…详细
北京时间5月21日,百度发布2025年第一季度财报,这场会议不仅仅是一次常规的财务数据披露,更像是百度在AI时代战略布局的全景展示,李彦宏在开场发言中,将2025年第一季度形容为一个“稳健的开局”。…详细
5月29日至30日,以“数字慧农,智慧兴村”为主题的中国联通2025年助力乡村振兴推进会在重庆召开。在留守儿童占比超40%的农村地区,中国联通带来了一款育儿黑科技产品——G7宝宝看护器(以下简称G7)。它不仅仅是一个…详细
首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进…详细
SridBench是首个评估人工智能模型科研插图绘制能力的基准测试,由中国科学技术大学等机构研究团队创建。该测试包含1,120个来自自然科学和计算机科学13个学科的高质量样本,并设计了六维评估标准。实验结果显示,即使…详细
ChartLens是马里兰大学与Adobe研究院合作开发的创新技术,专门解决多模态大型语言模型在图表理解中的"幻觉"问题。这项研究提出了"后验细粒度视觉归因"方法,能够将AI对图表的分析结果与图表中的具体视觉元素(如特定…详细
这篇论文介绍了一个名为"CrEval"的创新框架,用于跨领域评估文本创造力。研究团队构建了"CreataSet"数据集,包含超过10万条人类水平和100多万条合成创意文本,涵盖87个领域。基于此训练的CrEval评估器在与人类判断的…详细
这项研究由清华大学和新加坡国立大学团队完成,系统探讨了大推理模型在事实查询任务中的幻觉问题。研究发现,仅通过单一训练阶段(仅SFT或仅RL)开发的推理模型更容易产生幻觉,而完整SFT+RL流程训练的模型幻觉较少。…详细
这项由香港理工大学和复旦大学联合领导的研究提出了"自适应无分类器引导"(A-CFG)技术,用于改进AI文本生成。传统CFG使用静态无条件输入,而A-CFG能识别模型在生成过程中最不确定的部分,动态地重新掩码这些低置信度标…详细
这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL,一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务:连贯性验证、错误感知、错误类…详细
伊利诺伊大学香槟分校研究团队开发了SafeScientist,一个安全优先的AI科学家框架,能主动拒绝不道德或高风险任务,并在整个研究过程中确保安全。该框架整合了四层防御机制:提示监控、智能体协作监督、工具使用控制和…详细
近日,在北京举办的以“连接无界·智护未来”为主题的Qorvo媒体日上,Qorvo结合产业背景与数据,深入分享了Qorvo 在Wi-Fi 8、UWB、Matter、SSD电源管理等多个前沿应用领域的技术路径与市场潜力。…详细
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在…详细
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明…详细
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提…详细
这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测…详细
这项研究探究大语言模型从真实文本中推断因果关系的能力,创建了首个真实世界基准数据集ReCAST。研究发现,即使最先进模型在此任务上表现也不佳,最高F1分数仅为0.477。模型尤其难以处理隐含因果关系、区分关键因素与…详细
P1.AI创始人保罗·埃雷门科正用合成数据训练AI设计物理系统,从住宅冷却到星际飞船,突破工程AGI的终极瓶颈——数据稀缺。他的AI工程师Archie已能像人类一样处理多物理场任务,目标是让机器设计人类无法想象的复杂系…详细
Atos 正在重组,法国政府已确认以4.1亿欧元收购其 Eviden 子公司先进计算业务(不含 Vision AI 部分),该业务涵盖 HPC、量子计算及 AI 部门,预计2025年营收约8亿欧元,此举将为 Atos 提供急需流动资金。…详细
文章讨论了 GPU 服务器如何利用并行处理支持 AI 运算,比较了其与传统 CPU 服务器在扩展性、功耗与散热等方面的区别,并指出数据中心须相应升级供电与冷却设施。…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。