科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-08-04 13:32:16
阿里Qwen团队重磅发布:一个AI助手同时懂看听说,还能实时"思考+说话"

阿里Qwen团队发布了突破性多模态AI模型Qwen2.5-Omni,能同时理解文字、图片、音频和视频输入,并实时生成文字和语音回应。该模型采用创新的TMRoPE时间对齐技术和Thinker-Talker架构,实现了真正的流式多模态交互,在…详细

多模态人工智能语音生成技术实时交互系统

2025-08-04 13:31:04
让一个视频"换个拍摄角度"——浙江大学团队打造的神奇视频重拍工具ReCamMaster

浙江大学联合快手团队开发的ReCamMaster系统能够根据单个视频重新生成不同摄像机角度的视频,保持动作完美同步。该技术采用创新的帧维度条件注入机制,利用虚幻引擎5构建的13.6万视频训练集,在摄像机精度、时间同步…详细

视频生成摄像机控制帧维度条件注入

2025-08-04 11:16:47
ByteDance和清华大学联合推出DAPO:让AI推理能力飞跃的全新强化学习系统

ByteDance和清华大学联合开发的DAPO系统通过四项核心技术突破,让AI在数学推理测试中达到50分佳绩,超越业界最佳水平且训练时间减半。该系统完全开源,包含算法、代码和数据集,为AI推理能力研究提供了重要里程碑。研…详细

强化学习AI推理能力开源系统

2025-08-04 11:16:26
俄罗斯医疗AI突破:让电子病历自动生成疾病代码,准确率超越医生

俄罗斯研究团队开发出首个针对俄语医疗记录的ICD自动编码系统RuCCoD,通过BERT、大语言模型和检索增强技术实现医疗诊断的智能编码。研究发现AI编码在训练诊断预测模型时比医生手工编码效果更好,准确率提升28%,为医…详细

人工智能医疗信息化自然语言处理

2025-08-04 11:16:11
从科幻到现实:复旦大学发布全球首个多模态统一奖励模型,让AI像人类评委一样判断图像和视频质量

复旦大学联合上海人工智能实验室发布的UnifiedReward是全球首个统一多模态奖励模型,能够同时评价图片和视频的生成与理解任务。该模型通过跨任务协同学习,在各项评测中都显著超越了专门的单任务模型,在图片理解任务…详细

多模态学习奖励模型跨任务协同

2025-08-04 11:15:46
AI也有自己的"内心OS"?科学家首次破解大模型推理思考的神秘机制

俄罗斯人工智能研究院等机构的研究团队首次成功破解了大语言模型内部推理机制的奥秘。他们使用稀疏自编码器技术将AI模型复杂的内部状态分解成可理解的功能组件,并开发了ReasonScore评分系统来识别负责推理的特定组件…详细

人工智能稀疏自编码器推理机制

2025-08-04 11:15:05
阿里巴巴推出START:让AI也能像人一样用工具解题的突破性进展

阿里巴巴研究团队开发出START系统,首次让AI能像人类一样在推理过程中主动使用编程工具。通过创新的"提示注入"和自学习技术,START在数学竞赛和编程测试中表现显著提升,在AIME24达到66.7%准确率,比基础模型提升16.…详细

人工智能工具集成推理自主学习算法

2025-08-04 11:14:23
东南亚文化"被遗忘"?新加坡等高校首次大规模收集1.28M张东南亚文化图像,揭示AI视觉模型的文化盲区

新加坡国立大学等机构首次构建包含128万张图像的东南亚文化视觉数据集SEA-VL,解决AI系统文化认知偏见问题。研究采用人工众包、自动筛选、AI生成三种方法收集数据,发现自动筛选效率最高且质量可靠,而AI生成图像质量…详细

东南亚文化数据集视觉语言模型AI文化偏见

2025-08-04 10:54:40
NVIDIA发布STORM系统:让AI看懂长视频的神奇技术突破

NVIDIA研究团队开发的STORM系统实现了AI长视频理解的重大突破。该系统采用Mamba时间编码技术,能够像人类一样理解视频的时间脉络和内容关联,而非孤立分析每帧画面。通过创新的三种压缩策略,STORM在大幅提升处理效率…详细

人工智能视频理解时序建模

2025-08-04 10:54:26
大语言模型智能代理评估大全:全球顶尖研究机构首次绘制AI代理能力地图

这项由希伯来大学、IBM研究院和耶鲁大学联合完成的综合性研究,首次系统梳理了大语言模型智能代理评估领域的完整现状,涵盖基础能力评估、应用场景测试、通用能力考量和开发框架四大维度,为这个快速发展的领域绘制了…详细

人工智能智能代理评估大语言模型

2025-08-04 10:54:10
视频生成的"考试时间"延长术:清华大学团队让AI在生成时"多想想"就能拍出更好的视频

清华大学研究团队提出测试时扩展技术,让AI视频生成如同延长考试时间的学生,通过生成多个候选视频并智能选择最优结果,显著提升视频质量。该方法无需重训模型,在六个主流模型上均实现稳定改进,部分维度提升超35%,…详细

视频生成测试时扩展帧树搜索

2025-08-04 10:53:56
3B小模型也能拥有强大推理能力:东南大学团队用两阶段强化学习让小体量AI模型变身思维高手

东南大学团队提出LMM-R1框架,通过两阶段强化学习训练策略,让30亿参数的小型多模态AI模型在推理任务上实现显著性能提升。该方法先用纯文本数据强化基础推理能力,再迁移到多模态任务,避免了直接多模态训练导致的性…详细

多模态大语言模型强化学习小参数模型优化

2025-08-04 10:38:42
AI对齐与控制技术的现状与挑战探析

随着AI系统复杂性不断增加,AI对齐技术成为确保系统安全可靠的关键。研究人员正通过人类反馈强化学习、合成数据训练、红队测试等技术手段,以及AI治理、伦理委员会等管理方法来引导AI行为。然而,价值观的多样性和AI…详细

人工智能对齐技术AI治理

2025-08-04 10:37:27
谷歌推出强大创造性问题解决AI模型Gemini 2.5 Deep Think

谷歌DeepMind发布Gemini 2.5 Deep Think,这是一款新的创意问题解决AI模型。该模型能够同时考虑多个想法并选择最佳答案来解决复杂问题。Deep Think通过延长"思考时间",探索不同假设以找到创意解决方案。新模型在编程…详细

人工智能强化学习创造性解决方案

2025-08-04 10:35:29
Google发布Gemini 2.5 Deep Think仅供AI Ultra订阅用户使用

谷歌正式推出其最强大的Gemini 2.5深度思考AI模型,但仅向每月250美元的AI Ultra订阅用户开放。该模型基于Gemini 2.5 Pro,通过增加"思考时间"和并行分析来处理复杂查询。深度思考模型在多个基准测试中表现优异,在人…详细

人工智能自然语言处理新型算法

2025-08-04 10:34:16
Anthropic切断OpenAI访问Claude模型的权限

据Wired报道,Anthropic已撤销OpenAI对其Claude系列AI模型的访问权限。消息人士称,OpenAI将Claude连接到内部工具,用于在编程、写作和安全等方面与自家模型进行性能对比。Anthropic发言人表示,OpenAI技术人员在GPT…详细

人工智能大语言模型商业竞争

2025-08-04 10:34:00
库克强调苹果"必须"在AI领域获胜

据报道,苹果CEO蒂姆·库克召开了一小时的全员会议,告诉员工公司必须在AI领域获胜。这次会议是在财报电话会议之后举行的,库克在财报会上表示苹果将"大幅"增加AI投资。尽管苹果在过去一年推出了Apple Intelligence系…详细

人工智能语音助手战略转型

2025-08-04 10:28:37
“银狐”肆虐?锐捷防火墙多维斩杀,让攻击“毒不过墙

综述:“银狐”病毒严重威胁企事业单位信息安全,锐捷网络与安全深度融合,推出网安融合解决方案。其安全产品(含Z系列防火墙、EG-E系列网关等)凭借本地多源情报库、天幕实验室创新推出的20000条IPS规则库,构建全闭…详细

2025-08-04 10:00:34
微软发布Phi-4-Mini:3.8B参数的"小钢炮",多模态表现堪比大模型两倍体量

微软发布Phi-4-Mini多模态语言模型,仅3.8亿参数却能媲美两倍规模模型性能。该模型采用创新"混合LoRA"技术,支持文本、图像、语音多模态输入,在数学推理、编程、语音识别等任务中表现出色,在OpenASR榜单排名第一。…详细

人工智能多模态学习小型语言模型

2025-08-04 10:00:12
IBM研究院突破性新工具:让AI自己找出"哪里做错了",告别人工排错时代

IBM研究院推出革命性AI诊断工具CLEAR,能够自动分析AI系统错误并生成详细报告。该工具采用"AI评判AI"的创新方法,将复杂的错误分析过程自动化,帮助开发者快速发现问题模式。用户研究显示75%的开发者认为该工具比传统…详细

人工智能LLM评估分析AI错误诊断

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章