科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-05-31 10:05:02
ImgEdit:北京大学与兔小贝AI联合推出的统一图像编辑数据集与基准测试

ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割…详细

图像编辑人工智能视觉多轮交互式编辑

2025-05-31 08:25:18
语言神经元视角:对齐方式如何增强大语言模型的多语言能力?

这项研究探索了语言神经元视角下多语言对齐如何增强大语言模型(LLMs)的多语言能力。研究团队提出了一种更精细的神经元识别算法,将激活神经元分为语言特定、语言相关和语言无关三类,克服了现有方法的局限性。基于这…详细

多语言对齐语言神经元大语言模型

2025-05-31 08:24:41
框里框外:突破边界的可控性图像到视频生成技术 - 弗吉尼亚大学与Adobe研究院联合推出

这项由弗吉尼亚大学与Adobe研究院合作的研究突破了传统图像到视频生成的空间限制,提出了"Frame In-N-Out"技术,使物体可以自然地离开画面或新物体能够进入画面。研究团队创建了专门的数据集和评估方法,并设计了一种…详细

人工智能视频生成扩散模型

2025-05-31 08:23:42
视角转换:浙江大学研究团队开发ViewSpatial-Bench,全面评估视觉语言模型的多视角空间定位能力

浙江大学研究团队开发了首个评估视觉语言模型多视角空间定位能力的综合基准ViewSpatial-Bench,并揭示了现有模型在视角转换理解上的严重缺陷。通过自动化3D标注流水线构建的大规模数据集,他们训练出的多视角空间模型…详细

视觉语言模型空间认知多视角理解

2025-05-31 08:23:21
DetailFlow:让AI图像生成既细致又高效 - 字节跳动(ByteDance)团队的革命性突破

ByteDance团队提出的DetailFlow是一种创新的图像生成方法,通过"下一细节预测"策略实现从粗到细的自回归生成。它将图像编码为仅需128个令牌的1D序列,比传统方法少5倍,却实现了更高质量(2.96 gFID)和更快速度(提…详细

人工智能自回归图像生成计算机视觉

2025-05-31 08:22:12
HoliTom:西湖大学团队提出全息式令牌合并技术,让视频大语言模型推理速度提升14倍

这项来自西湖大学的研究提出HoliTom,一种创新的令牌合并技术,能将视频大语言模型的计算成本降低到原始的6.9%,同时保持99.1%的性能。该方法通过全局冗余感知的时间合并、智能空间合并和内部LLM合并三重策略,全面减…详细

人工智能视频大语言模型令牌合并技术

2025-05-30 17:26:08
双重并行:让AI视频生成突破时长限制,新加坡国立大学团队实现分钟级长视频创作

这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使…详细

视频生成技术分布式计算扩散模型

2025-05-30 17:25:53
SoloSpeech:通过级联生成式管道提升目标语音提取的清晰度和质量

SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型…详细

人工智能语音处理生成式模型

2025-05-30 17:25:27
Sci-Fi:对称约束让视频过渡更自然 - 北京大学等机构研究突破

这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始…详细

计算机视觉视频生成对称约束

2025-05-30 17:24:58
超越马尔可夫:贝叶斯自适应强化学习让大语言模型反思性探索更高效

这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反…详细

人工智能强化学习大语言模型推理

2025-05-30 17:16:55
打造“全球一朵云”,广汽迈入出海3.0时代

从贸易出海转向海外运营,广汽向全球化迈出重要一步。…详细

阿里云汽车大模型

2025-05-30 17:05:28
央视点赞的“网红”村长张桂芳:新能源点亮新乡村

“卫生室翻新了,设备也增加了不少,屋顶的光伏每年还能给村集体带来稳定收益,有了这钱村里的老年食堂有着落喽!”河南鹤壁三家村,“95后”村长张桂芳望着焕然一新的村卫生室,眼里闪着光。…详细

2025-05-30 16:41:14
现在的AI已经有可能超越人类,INTUITOR系统让AI获得自我评估能力

现在的AI已经有可能超越人类,INTUITOR系统让AI获得自我评估能力…详细

2025-05-30 16:38:16
南山医院“光速”升级:F5G-A如何夯实智慧医院“数字底座”?

每位患者的病理切片数据上传要等2分钟?AI辅助诊断结果又因网络传输慢而耽误了?在深圳市南山区人民医院(以下简称:南山医院),这些困扰行业的痛点已经成为过去。…详细

2025-05-30 16:37:45
技术共创,生态共赢,产业共生,施耐德电气创赢计划第六季正式启动

近日,在施耐德电气创新峰会现场,由工业和信息化部国际经济技术合作中心与施耐德电气共同主办的创赢计划第六季正式启动。…详细

2025-05-30 16:37:04
YashanDB金融特性数据库根原创实验室成果发布,1:1替代Oracle能力获数十家金融权威专家验证

近日,YashanDB金融特性数据库根原创实验室发布的两大课题项目圆满收官,围绕“验证YashanDB YAC与Oracle RAC功能近似性”及“验证YashanDB与Oracle语法兼容性”两大课题,项目吸引了40多位银行资深技术专家深度参与…详细

2025-05-30 16:36:32
英特尔代工:打造AI时代系统级代工新范式

生活在21世纪,人们每天都要与各种电子设备打交道。从手机、电脑到新能源汽车,再到手表、戒指等可穿戴设备,这些产品正在变得越来越智能化,越来越“懂得”用户的需求。…详细

2025-05-30 16:21:57
VisTA:一种会学习选择视觉工具的人工智能,仿佛给视觉AI配了个聪明助手

VisTA是一种新型强化学习框架,使视觉AI能够自主探索、选择和组合多种视觉工具。与传统方法不同,VisTA无需人工监督,通过反复尝试学习哪些工具最有效。研究团队在ChartQA、Geometry3K等测试中证明,VisTA显著优于训…详细

人工智能强化学习视觉推理

2025-05-30 16:20:25
DFIR-Metric:首个全面评估数字取证和事件响应能力的大语言模型基准测试集

这项研究引入了DFIR-Metric,首个专门评估大语言模型在数字取证与事件响应领域能力的基准测试集。由阿布扎比技术创新研究院领导的国际团队开发的测试包含三个部分:700道理论多选题、150个CTF风格的实际挑战,以及50…详细

人工智能数字取证大语言模型评估

2025-05-30 16:19:58
别想太多:Meta研究表明大语言模型推理能力通过更短的"思考链"反而更出色

Meta研究团队发现大语言模型在复杂推理任务中,更短的"思考链"反而能带来更高的准确率。研究人员通过三个顶级语言模型的实验证明,选择最短思考链可以比随机选择提高18.8%准确率,比最长思考链提高34.5%准确率,同时…详细

人工智能大语言模型推理效率

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章