阿里Qwen团队发布了突破性多模态AI模型Qwen2.5-Omni,能同时理解文字、图片、音频和视频输入,并实时生成文字和语音回应。该模型采用创新的TMRoPE时间对齐技术和Thinker-Talker架构,实现了真正的流式多模态交互,在…详细
浙江大学联合快手团队开发的ReCamMaster系统能够根据单个视频重新生成不同摄像机角度的视频,保持动作完美同步。该技术采用创新的帧维度条件注入机制,利用虚幻引擎5构建的13.6万视频训练集,在摄像机精度、时间同步…详细
ByteDance和清华大学联合开发的DAPO系统通过四项核心技术突破,让AI在数学推理测试中达到50分佳绩,超越业界最佳水平且训练时间减半。该系统完全开源,包含算法、代码和数据集,为AI推理能力研究提供了重要里程碑。研…详细
俄罗斯研究团队开发出首个针对俄语医疗记录的ICD自动编码系统RuCCoD,通过BERT、大语言模型和检索增强技术实现医疗诊断的智能编码。研究发现AI编码在训练诊断预测模型时比医生手工编码效果更好,准确率提升28%,为医…详细
复旦大学联合上海人工智能实验室发布的UnifiedReward是全球首个统一多模态奖励模型,能够同时评价图片和视频的生成与理解任务。该模型通过跨任务协同学习,在各项评测中都显著超越了专门的单任务模型,在图片理解任务…详细
俄罗斯人工智能研究院等机构的研究团队首次成功破解了大语言模型内部推理机制的奥秘。他们使用稀疏自编码器技术将AI模型复杂的内部状态分解成可理解的功能组件,并开发了ReasonScore评分系统来识别负责推理的特定组件…详细
阿里巴巴研究团队开发出START系统,首次让AI能像人类一样在推理过程中主动使用编程工具。通过创新的"提示注入"和自学习技术,START在数学竞赛和编程测试中表现显著提升,在AIME24达到66.7%准确率,比基础模型提升16.…详细
新加坡国立大学等机构首次构建包含128万张图像的东南亚文化视觉数据集SEA-VL,解决AI系统文化认知偏见问题。研究采用人工众包、自动筛选、AI生成三种方法收集数据,发现自动筛选效率最高且质量可靠,而AI生成图像质量…详细
NVIDIA研究团队开发的STORM系统实现了AI长视频理解的重大突破。该系统采用Mamba时间编码技术,能够像人类一样理解视频的时间脉络和内容关联,而非孤立分析每帧画面。通过创新的三种压缩策略,STORM在大幅提升处理效率…详细
这项由希伯来大学、IBM研究院和耶鲁大学联合完成的综合性研究,首次系统梳理了大语言模型智能代理评估领域的完整现状,涵盖基础能力评估、应用场景测试、通用能力考量和开发框架四大维度,为这个快速发展的领域绘制了…详细
清华大学研究团队提出测试时扩展技术,让AI视频生成如同延长考试时间的学生,通过生成多个候选视频并智能选择最优结果,显著提升视频质量。该方法无需重训模型,在六个主流模型上均实现稳定改进,部分维度提升超35%,…详细
东南大学团队提出LMM-R1框架,通过两阶段强化学习训练策略,让30亿参数的小型多模态AI模型在推理任务上实现显著性能提升。该方法先用纯文本数据强化基础推理能力,再迁移到多模态任务,避免了直接多模态训练导致的性…详细
随着AI系统复杂性不断增加,AI对齐技术成为确保系统安全可靠的关键。研究人员正通过人类反馈强化学习、合成数据训练、红队测试等技术手段,以及AI治理、伦理委员会等管理方法来引导AI行为。然而,价值观的多样性和AI…详细
谷歌DeepMind发布Gemini 2.5 Deep Think,这是一款新的创意问题解决AI模型。该模型能够同时考虑多个想法并选择最佳答案来解决复杂问题。Deep Think通过延长"思考时间",探索不同假设以找到创意解决方案。新模型在编程…详细
谷歌正式推出其最强大的Gemini 2.5深度思考AI模型,但仅向每月250美元的AI Ultra订阅用户开放。该模型基于Gemini 2.5 Pro,通过增加"思考时间"和并行分析来处理复杂查询。深度思考模型在多个基准测试中表现优异,在人…详细
据Wired报道,Anthropic已撤销OpenAI对其Claude系列AI模型的访问权限。消息人士称,OpenAI将Claude连接到内部工具,用于在编程、写作和安全等方面与自家模型进行性能对比。Anthropic发言人表示,OpenAI技术人员在GPT…详细
据报道,苹果CEO蒂姆·库克召开了一小时的全员会议,告诉员工公司必须在AI领域获胜。这次会议是在财报电话会议之后举行的,库克在财报会上表示苹果将"大幅"增加AI投资。尽管苹果在过去一年推出了Apple Intelligence系…详细
综述:“银狐”病毒严重威胁企事业单位信息安全,锐捷网络与安全深度融合,推出网安融合解决方案。其安全产品(含Z系列防火墙、EG-E系列网关等)凭借本地多源情报库、天幕实验室创新推出的20000条IPS规则库,构建全闭…详细
微软发布Phi-4-Mini多模态语言模型,仅3.8亿参数却能媲美两倍规模模型性能。该模型采用创新"混合LoRA"技术,支持文本、图像、语音多模态输入,在数学推理、编程、语音识别等任务中表现出色,在OpenASR榜单排名第一。…详细
IBM研究院推出革命性AI诊断工具CLEAR,能够自动分析AI系统错误并生成详细报告。该工具采用"AI评判AI"的创新方法,将复杂的错误分析过程自动化,帮助开发者快速发现问题模式。用户研究显示75%的开发者认为该工具比传统…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。