科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-06-09 15:32:32
深度图表示重新思考:如何让3D高斯分布渲染更清晰的物体边界

浙江大学和莫纳什大学研究团队开发了PM-Loss,一种用于改进前馈式3D高斯分布渲染的新型正则化损失函数。研究针对深度图在物体边界处的不连续性问题,通过预训练Transformer模型预测的点图提供几何先验知识,实现了更…详细

3D重建深度学习计算机视觉

2025-06-09 15:32:17
语言模型加持:阿里巴巴发布Qwen3系列文本嵌入和重排模型,在多语言和代码检索任务中超越行业巨头

阿里巴巴和同济实验室联合推出的Qwen3 Embedding系列模型在文本嵌入和重排技术上取得突破性进展。这套模型基于Qwen3大语言模型构建,采用多阶段训练策略,结合大规模合成数据和高质量监督数据,实现了在MTEB多语言、…详细

大语言模型文本嵌入检索增强生成

2025-06-09 15:31:22
视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

清华大学研究团队在多模态大语言模型(MLLMs)中发现了一个惊人现象:只有不到5%的注意力头负责视觉理解,称为"视觉头"。基于此,他们开发了SparseMM优化策略,针对视觉头和非视觉头分配不同的计算资源,实现了模型推理…详细

人工智能多模态大语言模型深度学习

2025-06-09 15:31:08
StreamBP:让大语言模型训练长序列变得更轻松——香港中文大学(深圳)团队突破性研究

香港中文大学(深圳)和上海交通大学的研究团队开发了StreamBP,这是一种用于大语言模型长序列训练的内存高效反向传播方法。通过沿序列维度线性分解链式法则,StreamBP显著减少了存储激活值所需的内存,使最大序列长…详细

大语言模型反向传播技术内存优化算法

2025-06-09 15:30:54
数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

香港中文大学多媒体实验室开发的MINT-CoT是一种创新方法,能让AI在数学视觉推理中实现精确的"视觉交织"。这项技术通过引入特殊的"交织令牌",使模型能够在推理过程中自动选择关注任意形状的相关图像区域,而非仅限于…详细

人工智能数学视觉推理多模态学习

2025-06-09 15:04:43
光伏铺满村庄屋檐 阳光新能源打开乡村振兴新思路

在河南鹤壁的三家村,一幅全新的墙绘悄然登场:雪白的墙面上,光伏板如同琴键般整齐铺陈,四扇窗格则盛满了春夏秋冬的光影。…详细

2025-06-09 14:35:11
EOC-Bench: 多模态大语言模型能否识别、回忆和预测第一人称视角下的物体?

这项研究介绍了EOC-Bench,一个创新基准测试,专门评估多模态大语言模型在第一人称视角场景中对物体的认知能力。研究团队从三个时间维度(过去、现在和未来)构建了3,277个问答对,涵盖11个细粒度评估维度,创新性地…详细

多模态大语言模型第一人称视觉物体认知基准测试

2025-06-09 14:34:53
语言-图像对齐不需要联合训练文本编码器?伯克利大学研究发现固定LLM模型即可

这篇论文由加州大学伯克利分校和香港大学的研究团队提出了LIFT方法,挑战了传统视觉语言模型需要同时训练文本和图像编码器的假设。研究发现,使用预训练的大型语言模型作为固定文本编码器,只训练图像编码器就能在多…详细

视觉语言模型大型语言模型组合理解能力

2025-06-09 14:34:16
FlexPainter:香港科技大学团队打造的灵活多视角一致性纹理生成系统

FlexPainter是香港科技大学团队开发的创新纹理生成系统,通过多模态输入控制实现灵活创作,并解决了多视角一致性问题。系统构建了共享条件嵌入空间,能同时理解文字和图像输入;提出基于图像的CFG方法实现结构与风格…详细

人工智能纹理生成3D建模

2025-06-09 13:31:34
Infosecurity 2025:中小企业在网络攻击面前感到孤立无援

研究显示,英国中小企业虽占企业总数99.9%,但因资源与专业不足,难以有效应对网络攻击。CyCOS项目旨在通过构建支持社区,帮助中小企业提升网络防御能力。…详细

网络安全网络安全防护安全支持社区

2025-06-09 13:30:42
Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。…详细

人工智能语音识别新型算法

2025-06-09 13:28:45
开源软件应用面临现实检验

专家指出,虽然开源软件极大推动了创新和开发,但其复杂性、合规、安全等问题要求企业投入更多精力,务必加强测试与管理,确保系统稳定运行。…详细

开源软件生成式 AI商业支持

2025-06-09 13:27:13
Merlin Ventures 为种子阶段网络安全基金成功筹集逾7500万美元

Merlin Ventures 成功募集超7500万美元种子阶段网络安全基金,通过美国 CISO 网络和战略投资推动初创企业成长,并重点发展以色列科技生态系统。…详细

网络安全生成式 AI战略联合投资

2025-06-09 13:23:05
CISO 影响力上升,但安全预算依然紧张

大型企业的CISO薪酬和职责不断提升,涵盖业务风险、产品安全及数字战略,但预算紧缩使得安全投入必须直接与业务增长挂钩,进而带来角色定位及满意度的不确定性。…详细

网络安全风险评估业务驱动安全

2025-06-09 11:17:59
词汇偏向技术:通过词汇偏向为自回归图像生成模型打造抗重生成攻击的水印方案

这项研究提出了一种名为"词汇偏向水印"(LBW)的新方法,专为自回归图像生成模型设计,能够抵抗传统水印技术容易被删除的重生成攻击。研究团队将代币库分为绿色和红色列表,通过软硬两种偏向策略鼓励模型在生成过程中选…详细

自回归模型图像水印技术重生成攻击防御

2025-06-09 11:17:41
视频数学问答:突破性基准测试,通过视频理解检验模型数学推理能力

这项研究推出了VideoMathQA,一个创新基准测试,专门评估人工智能模型在视频中的数学推理能力。不同于静态图像或文本基准,它要求模型在时间轴上整合视觉、音频和文本信息,模拟真实教学场景中的"多模态大海捞针"挑战…详细

人工智能多模态理解数学推理

2025-06-09 11:17:23
解锁物体组合的新时代:南方科技大学团队开创几何可编辑与外观保持双重平衡的对象组合技术

南方科技大学林剑满团队开创性提出DGAD模型,解决通用物体组合中几何编辑与外观保持的双重挑战。该方法首先利用语义嵌入隐式捕捉物体几何特性,再通过密集交叉注意力机制精确对齐外观特征,成功实现物体在任意场景中…详细

计算机视觉扩散模型图像合成

2025-06-09 11:15:54
矫正点流:斯坦福大学和英伟达联合打造的通用点云姿态估计新方法

斯坦福大学和英伟达研究院联合开发的"矫正点流"为点云姿态估计提供了全新解决方案,将成对配准和多部件组装统一为条件生成问题。该方法学习连续点流场,将点从随机噪声引导至目标位置,并通过自监督重叠预测增强几何…详细

计算机视觉点云处理三维重建

2025-06-09 11:15:40
Micro-Act:用自主推理解决问答中的知识冲突

这篇研究介绍了Micro-Act,一种创新框架,旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度,并将知识源分解成一系列细粒度比较,有效克服了传统方法在处理复杂冲突时的局…详细

人工智能知识冲突解决问答系统

2025-06-09 11:15:23
评估真相大揭秘:DeepSeek推理模型在基准测试中的浮动陷阱

这项研究揭示了评估大语言模型推理能力时的一个重要问题:微小的评估条件变化可能导致基准测试结果大幅波动。研究者发现,DeepSeek-R1-Distill系列等模型的评估结果极易受到种子初始化方法、数据集版本等因素影响,波…详细

人工智能评估模型性能波动基准测试可靠性

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章