科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-10 08:12:24
深度解析:荷兰研究团队揭示自监督语音模型如何捕捉荷兰语特征

这项研究探索了自监督语音模型对荷兰语特征的理解能力,由阿姆斯特丹、蒂尔堡和奈梅亨拉德堡大学研究团队完成。研究者开发了荷兰语专用的Wav2Vec2模型,并将其与英语和多语言模型进行对比。结果表明,荷兰语特定预训…详细

自监督学习语音识别语言特定预训练

2025-06-10 08:12:06
一步到位:南洋理工大学与字节跳动联合研发的SeedVR2如何实现超高效视频修复

SeedVR2是南洋理工大学与字节跳动团队共同研发的一步视频修复模型,通过扩散对抗式后训练实现高效视频增强。该模型突破了传统扩散模型需要多步采样的限制,引入自适应窗口注意力机制和特征匹配损失,成功在单步内实现…详细

人工智能视频修复扩散模型

2025-06-09 18:18:49
通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路

通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路…详细

2025-06-09 16:59:05
记忆坚实的世界:斯坦福和上海交大研究团队为视频世界模型打造长期空间记忆

斯坦福大学和上海交大等机构的研究团队提出了一种为视频世界模型增加长期记忆能力的创新方法。受人类记忆机制启发,他们设计了三种互补的记忆系统:短期工作记忆、基于点云的长期空间记忆和稀疏情节记忆。这种组合允…详细

人工智能视频生成空间记忆

2025-06-09 16:58:44
自由飞翔的3D高斯:浙大研究团队打造高效动态场景重建新方法

浙江大学和吉利汽车研究院联合团队提出的FreeTimeGS是一种创新的动态3D场景重建方法。不同于传统方法,它允许高斯基元在任意时空位置自由出现,并赋予每个基元运动功能,使其能够随时间移动到相邻区域。研究通过4D正…详细

计算机视觉3D场景重建高斯基元表示

2025-06-09 16:57:21
对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速…详细

人工智能深度学习长上下文处理

2025-06-09 16:57:05
解锁清晰视界:孙中山大学研究团队开创"鲁棒高斯飞溅"技术,让3D场景重建告别干扰物

孙中山大学研究团队开发的RobustSplat技术通过两大创新解决3D高斯飞溅重建中的瞬态物体干扰问题:延迟高斯增长策略优先优化静态结构,避免早期对动态物体过度拟合;尺度级联掩码引导方法先利用低分辨率特征实现可靠初…详细

3D场景重建高斯飞溅技术计算机视觉

2025-06-09 16:56:41
BEVCALIB:使用几何引导的鸟瞰图表示实现激光雷达与相机校准的突破性方法

BEVCALIB是一种利用鸟瞰图表示实现激光雷达与相机校准的创新方法,由南加州大学和加州大学河滨分校的研究团队开发。该方法将不同传感器数据转换到共享的BEV空间,并通过几何引导的特征选择实现高精度校准。在KITTI和…详细

自动驾驶传感器校准鸟瞰图表示

2025-06-09 16:56:21
PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

博尔扎诺自由大学研究团队开发的PATS技术通过保留完整运动片段代替随机抽取视频帧,显著提升了AI评估体育技能的能力。该方法在EgoExo4D基准测试中表现出色,攀岩评估准确率提高26.22%,音乐提高2.39%,篮球提高1.13%…详细

人工智能视频分析体育技能评估

2025-06-09 16:34:01
谷歌CEO皮查伊两小时访谈:AI是人类所见过最深远的技术,意义将超越火与电,因为它可以自我迭代

谷歌CEO皮查伊在AI竞赛低谷期坚持"信号降噪"原则,顶住压力加倍投入,最终带领谷歌凭借Gemini系列重夺领先。他坚信AI将超越火与电的革命性影响,通过递归自我改进极大降低创意实现门槛,这场"创造力民主化"浪潮或将解…详细

2025-06-09 16:32:40
没有空间智能,AI一定是不完整的,李飞飞最新访谈:语言在自然世界中并不存在,世界模型将让人类在多元宇宙中生活

李飞飞的World Labs以"空间智能"重新定义AI,专注3D物理世界理解,4个月估值飙至10亿美元,获科技巨头集体押注。她揭示语言无法编码物理世界,而DNA双螺旋等突破性发现都源于三维空间的深度认知。…详细

2025-06-09 15:33:02
ComfyUI-Copilot:阿里巴巴推出的智能助手让AI艺术创作更简单

阿里巴巴与哈工大(深圳)联合推出的ComfyUI-Copilot是一款基于大语言模型的插件,旨在提升AI艺术创作平台ComfyUI的易用性。它采用多代理框架提供三大核心功能:智能节点和模型推荐、一键式工作流构建和专业问答服务,…详细

人工智能图像生成多代理系统

2025-06-09 15:32:46
物理感知视频生成新突破:上海交大团队开发VideoREPA,通过关系对齐赋予AI视频物理常识

上海交大研究团队开发的VideoREPA是一种突破性的视频生成框架,通过令牌关系蒸馏技术将视频理解模型中的物理知识转移到文本到视频(T2V)扩散模型中。与传统方法不同,VideoREPA关注空间和时间关系的对齐,使生成的视…详细

人工智能视频生成物理模拟

2025-06-09 15:32:32
深度图表示重新思考:如何让3D高斯分布渲染更清晰的物体边界

浙江大学和莫纳什大学研究团队开发了PM-Loss,一种用于改进前馈式3D高斯分布渲染的新型正则化损失函数。研究针对深度图在物体边界处的不连续性问题,通过预训练Transformer模型预测的点图提供几何先验知识,实现了更…详细

3D重建深度学习计算机视觉

2025-06-09 15:32:17
语言模型加持:阿里巴巴发布Qwen3系列文本嵌入和重排模型,在多语言和代码检索任务中超越行业巨头

阿里巴巴和同济实验室联合推出的Qwen3 Embedding系列模型在文本嵌入和重排技术上取得突破性进展。这套模型基于Qwen3大语言模型构建,采用多阶段训练策略,结合大规模合成数据和高质量监督数据,实现了在MTEB多语言、…详细

大语言模型文本嵌入检索增强生成

2025-06-09 15:31:22
视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

清华大学研究团队在多模态大语言模型(MLLMs)中发现了一个惊人现象:只有不到5%的注意力头负责视觉理解,称为"视觉头"。基于此,他们开发了SparseMM优化策略,针对视觉头和非视觉头分配不同的计算资源,实现了模型推理…详细

人工智能多模态大语言模型深度学习

2025-06-09 15:31:08
StreamBP:让大语言模型训练长序列变得更轻松——香港中文大学(深圳)团队突破性研究

香港中文大学(深圳)和上海交通大学的研究团队开发了StreamBP,这是一种用于大语言模型长序列训练的内存高效反向传播方法。通过沿序列维度线性分解链式法则,StreamBP显著减少了存储激活值所需的内存,使最大序列长…详细

大语言模型反向传播技术内存优化算法

2025-06-09 15:30:54
数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

香港中文大学多媒体实验室开发的MINT-CoT是一种创新方法,能让AI在数学视觉推理中实现精确的"视觉交织"。这项技术通过引入特殊的"交织令牌",使模型能够在推理过程中自动选择关注任意形状的相关图像区域,而非仅限于…详细

人工智能数学视觉推理多模态学习

2025-06-09 15:04:43
光伏铺满村庄屋檐 阳光新能源打开乡村振兴新思路

在河南鹤壁的三家村,一幅全新的墙绘悄然登场:雪白的墙面上,光伏板如同琴键般整齐铺陈,四扇窗格则盛满了春夏秋冬的光影。…详细

2025-06-09 14:35:11
EOC-Bench: 多模态大语言模型能否识别、回忆和预测第一人称视角下的物体?

这项研究介绍了EOC-Bench,一个创新基准测试,专门评估多模态大语言模型在第一人称视角场景中对物体的认知能力。研究团队从三个时间维度(过去、现在和未来)构建了3,277个问答对,涵盖11个细粒度评估维度,创新性地…详细

多模态大语言模型第一人称视觉物体认知基准测试

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章