ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割…详细
这项研究探索了语言神经元视角下多语言对齐如何增强大语言模型(LLMs)的多语言能力。研究团队提出了一种更精细的神经元识别算法,将激活神经元分为语言特定、语言相关和语言无关三类,克服了现有方法的局限性。基于这…详细
这项由弗吉尼亚大学与Adobe研究院合作的研究突破了传统图像到视频生成的空间限制,提出了"Frame In-N-Out"技术,使物体可以自然地离开画面或新物体能够进入画面。研究团队创建了专门的数据集和评估方法,并设计了一种…详细
浙江大学研究团队开发了首个评估视觉语言模型多视角空间定位能力的综合基准ViewSpatial-Bench,并揭示了现有模型在视角转换理解上的严重缺陷。通过自动化3D标注流水线构建的大规模数据集,他们训练出的多视角空间模型…详细
ByteDance团队提出的DetailFlow是一种创新的图像生成方法,通过"下一细节预测"策略实现从粗到细的自回归生成。它将图像编码为仅需128个令牌的1D序列,比传统方法少5倍,却实现了更高质量(2.96 gFID)和更快速度(提…详细
这项来自西湖大学的研究提出HoliTom,一种创新的令牌合并技术,能将视频大语言模型的计算成本降低到原始的6.9%,同时保持99.1%的性能。该方法通过全局冗余感知的时间合并、智能空间合并和内部LLM合并三重策略,全面减…详细
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使…详细
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型…详细
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始…详细
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反…详细
“卫生室翻新了,设备也增加了不少,屋顶的光伏每年还能给村集体带来稳定收益,有了这钱村里的老年食堂有着落喽!”河南鹤壁三家村,“95后”村长张桂芳望着焕然一新的村卫生室,眼里闪着光。…详细
每位患者的病理切片数据上传要等2分钟?AI辅助诊断结果又因网络传输慢而耽误了?在深圳市南山区人民医院(以下简称:南山医院),这些困扰行业的痛点已经成为过去。…详细
近日,在施耐德电气创新峰会现场,由工业和信息化部国际经济技术合作中心与施耐德电气共同主办的创赢计划第六季正式启动。…详细
近日,YashanDB金融特性数据库根原创实验室发布的两大课题项目圆满收官,围绕“验证YashanDB YAC与Oracle RAC功能近似性”及“验证YashanDB与Oracle语法兼容性”两大课题,项目吸引了40多位银行资深技术专家深度参与…详细
生活在21世纪,人们每天都要与各种电子设备打交道。从手机、电脑到新能源汽车,再到手表、戒指等可穿戴设备,这些产品正在变得越来越智能化,越来越“懂得”用户的需求。…详细
VisTA是一种新型强化学习框架,使视觉AI能够自主探索、选择和组合多种视觉工具。与传统方法不同,VisTA无需人工监督,通过反复尝试学习哪些工具最有效。研究团队在ChartQA、Geometry3K等测试中证明,VisTA显著优于训…详细
这项研究引入了DFIR-Metric,首个专门评估大语言模型在数字取证与事件响应领域能力的基准测试集。由阿布扎比技术创新研究院领导的国际团队开发的测试包含三个部分:700道理论多选题、150个CTF风格的实际挑战,以及50…详细
Meta研究团队发现大语言模型在复杂推理任务中,更短的"思考链"反而能带来更高的准确率。研究人员通过三个顶级语言模型的实验证明,选择最短思考链可以比随机选择提高18.8%准确率,比最长思考链提高34.5%准确率,同时…详细
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。