科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-10 09:30:18
微软2025营销峰会:多项AI产品发布

2025年6月5日,北京——微软广告年度盛会 “MSA Accelerate 微软营销峰会2025” 于北京成功举办。…详细

2025-06-10 09:29:40
BOE(京东方)“照亮成长路”公益项目新十年启幕 科技无界照亮美好未来

2025年6月9日,BOE(京东方)2025年度“照亮成长路”公益活动在四川省甘孜藏族自治州理塘县村戈乡小学正式启动。…详细

2025-06-10 09:28:47
《谍中谍8:最终清算》中出现的“智体”照进现实,哥伦比亚大学研究团队打造出真正的“自进化智体"

当AI学会自我进化:一台能不断重写自身代码的"达尔文哥德尔机器"正在实验室诞生,它像有创造力的厨师,不仅按食谱做菜,还能发明新菜谱并改进烹饪技术——这项突破让AI首次实现真正的自主进化,编程成功率从20%跃升至…详细

2025-06-10 09:28:11
HASHIRU:一个能自主调配资源的多智能体系统,让AI团队合作更聪明、更省钱

HASHIRU是一个创新的多智能体系统,由加州大学戴维斯研究团队开发,采用"CEO-员工"层级结构,动态管理AI智能体团队。系统优先使用小型本地语言模型,仅在必要时调用更强大的外部API,通过经济模型控制资源分配,并能…详细

人工智能多智能体系统资源优化

2025-06-10 09:25:27
FEAT:北航团队推出全维高效注意力Transformer,让医疗视频生成更智能、更高效

北航团队开发的FEAT是一种全新的医疗视频生成方法,通过三大创新解决了现有技术的关键问题:引入全维度依赖关系建模同时处理空间、时间和通道信息;采用线性复杂度的注意力机制大幅提高计算效率;设计残差值引导模块…详细

医疗视频生成高效Transformer扩散模型

2025-06-10 09:25:10
规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

这项研究首次通过规模法则全面比较了CLIP和MaMMUT两种视觉-语言模型,发现虽然小规模计算下CLIP表现更优,但随着计算资源增加,MaMMUT展现更强的扩展能力。研究在多种下游任务和不同开放数据集上验证了结果一致性,并…详细

人工智能基础模型比较视觉语言模型

2025-06-10 09:24:50
MARBLE:CLIP空间中的材质重组与混合——牛津大学、MIT和Stability AI联合打造的智能图像材质编辑技术

MARBLE是一项由牛津大学、MIT和Stability AI联合开发的创新技术,通过操控CLIP空间中的材质表征,实现了图像中物体材质的精确编辑。它不仅支持基于示例的材质转移,还能实现材质混合和参数化控制,如调整物体的金属感…详细

人工智能图像编辑扩散模型材质控制

2025-06-10 09:24:31
DOVE:加州大学团队推出"图像信息量自适应表示法",让AI更智能地理解图片

加州大学研究团队开发的DOVE系统彻底革新了AI图像处理方式,不再用固定长度表示所有图像,而是根据图像复杂度智能调整表示长度。就像人类描述简单白墙只需几句话,而描述繁忙街景需要更多细节一样,DOVE为简单图像分…详细

计算机视觉动态表示学习视觉语言模型

2025-06-10 08:15:13
视频编辑新突破:西湖大学团队推出无需训练的FlowDirector精准文本引导视频编辑技术

这项研究介绍了FlowDirector,一种无需训练的视频编辑新框架,由西湖大学AGI实验室开发。不同于传统方法,该技术避开了易导致时间不一致和结构失真的反转过程,而是直接在数据空间中进行编辑。通过常微分方程引导视频…详细

人工智能视频编辑扩散模型

2025-06-10 08:13:42
SViMo:突破次元壁!清华与南方科技大学联手打造手物交互的视频-动作同步生成系统

SViMo是清华大学与南方科技大学等机构联合开发的创新系统,通过同步扩散模型实现手物交互视频与3D动作的协同生成。不同于传统方法分别处理视觉效果或物理动作,SViMo整合视觉先验和动态约束于统一框架中,采用三模态…详细

人机交互扩散模型手物交互生成

2025-06-10 08:13:16
水印竟然会降低语言模型的对齐性!新泽西理工学院最新研究揭示隐患并提供解决方案

这项新泽西理工学院与麻省理工学院合作的研究揭示了语言模型水印技术会降低模型对齐性的隐患。研究者发现水印导致两种行为异常:模型要么变得过于顺从而忽视安全限制(防护减弱),要么变得过度谨慎而拒绝合理请求(…详细

人工智能安全水印技术模型对齐

2025-06-10 08:12:24
深度解析:荷兰研究团队揭示自监督语音模型如何捕捉荷兰语特征

这项研究探索了自监督语音模型对荷兰语特征的理解能力,由阿姆斯特丹、蒂尔堡和奈梅亨拉德堡大学研究团队完成。研究者开发了荷兰语专用的Wav2Vec2模型,并将其与英语和多语言模型进行对比。结果表明,荷兰语特定预训…详细

自监督学习语音识别语言特定预训练

2025-06-10 08:12:06
一步到位:南洋理工大学与字节跳动联合研发的SeedVR2如何实现超高效视频修复

SeedVR2是南洋理工大学与字节跳动团队共同研发的一步视频修复模型,通过扩散对抗式后训练实现高效视频增强。该模型突破了传统扩散模型需要多步采样的限制,引入自适应窗口注意力机制和特征匹配损失,成功在单步内实现…详细

人工智能视频修复扩散模型

2025-06-09 18:18:49
通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路

通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路…详细

2025-06-09 16:59:05
记忆坚实的世界:斯坦福和上海交大研究团队为视频世界模型打造长期空间记忆

斯坦福大学和上海交大等机构的研究团队提出了一种为视频世界模型增加长期记忆能力的创新方法。受人类记忆机制启发,他们设计了三种互补的记忆系统:短期工作记忆、基于点云的长期空间记忆和稀疏情节记忆。这种组合允…详细

人工智能视频生成空间记忆

2025-06-09 16:58:44
自由飞翔的3D高斯:浙大研究团队打造高效动态场景重建新方法

浙江大学和吉利汽车研究院联合团队提出的FreeTimeGS是一种创新的动态3D场景重建方法。不同于传统方法,它允许高斯基元在任意时空位置自由出现,并赋予每个基元运动功能,使其能够随时间移动到相邻区域。研究通过4D正…详细

计算机视觉3D场景重建高斯基元表示

2025-06-09 16:57:21
对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速…详细

人工智能深度学习长上下文处理

2025-06-09 16:57:05
解锁清晰视界:孙中山大学研究团队开创"鲁棒高斯飞溅"技术,让3D场景重建告别干扰物

孙中山大学研究团队开发的RobustSplat技术通过两大创新解决3D高斯飞溅重建中的瞬态物体干扰问题:延迟高斯增长策略优先优化静态结构,避免早期对动态物体过度拟合;尺度级联掩码引导方法先利用低分辨率特征实现可靠初…详细

3D场景重建高斯飞溅技术计算机视觉

2025-06-09 16:56:41
BEVCALIB:使用几何引导的鸟瞰图表示实现激光雷达与相机校准的突破性方法

BEVCALIB是一种利用鸟瞰图表示实现激光雷达与相机校准的创新方法,由南加州大学和加州大学河滨分校的研究团队开发。该方法将不同传感器数据转换到共享的BEV空间,并通过几何引导的特征选择实现高精度校准。在KITTI和…详细

自动驾驶传感器校准鸟瞰图表示

2025-06-09 16:56:21
PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

博尔扎诺自由大学研究团队开发的PATS技术通过保留完整运动片段代替随机抽取视频帧,显著提升了AI评估体育技能的能力。该方法在EgoExo4D基准测试中表现出色,攀岩评估准确率提高26.22%,音乐提高2.39%,篮球提高1.13%…详细

人工智能视频分析体育技能评估

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章