科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网商业办公商业办公 相关文章
2025-10-14 22:45:03
CommonForms:如何教会AI像人一样自动识别表单中的填写区域

这项研究首次创建了CommonForms大规模表单数据集,从800万PDF文档中筛选出5.9万份高质量表单,涵盖20多种语言和14个领域。基于此训练的FFDNet模型在表单字段识别上超越Adobe Acrobat,能识别文本框、复选框和签名区域…详细

文档分析目标检测开源模型

2025-10-14 22:44:48
Meta公司发布"软令牌"新技术:让AI思考过程更像人类大脑的连续推理

Meta公司联合多所大学发布"软令牌"新技术,首次实现AI连续推理训练。该方法让AI摆脱传统的逐步推理模式,能同时探索多种思维路径,如人脑般灵活思考。在数学推理任务中,新技术保持了原有准确率,在多样性指标上显著…详细

人工智能强化学习连续推理

2025-10-14 22:44:27
机器人学会"看图说话":华盛顿大学让机器人像人类一样理解任务

华盛顿大学研究团队开发的PEEK系统通过视觉语言模型为机器人提供路径和重点区域指导,实现了机器人操作任务的零样本泛化。该系统将复杂的环境理解交给专门的视觉模型处理,让机器人专注于动作执行,在真实环境测试中…详细

机器人技术计算机视觉零样本学习

2025-10-14 13:48:41
点燃个体创新之火 NVIDIA DGX Spark 向全球 AI 开发者正式交付

DGX Spark 萌生AI原生应用的“生命之种”…详细

2025-10-14 12:12:11
查尔斯大学突破性发现:同声传译AI系统的评价标准终于有了答案

查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。Y…详细

同声传译延迟评估优化模型

2025-10-14 12:11:56
印度理工学院发布史上最大规模印度文化AI测试:15种语言64000题,揭示AI的文化盲区

印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是…详细

人工智能多模态学习文化理解评估

2025-10-14 12:09:52
沙特Misraj团队打造阿拉伯文档"火眼金睛":让机器读懂天书般的阿拉伯文字

沙特Misraj团队开发出专门识别阿拉伯文档的AI模型Baseer,解决了阿拉伯文从右到左书写、字母变形、变音符号复杂等技术难题。该模型在50万对图像-文本数据上训练,词错误率仅0.25,显著超越谷歌、微软等产品。研究团队…详细

人工智能光学字符识别多模态模型

2025-10-14 12:09:38
机器人不再需要"内感觉"?上海交通大学团队发现视觉就够了

上海交通大学研究团队发现,机器人仅依靠视觉就能完成复杂操作任务,无需传统的"内感觉"信息。这种"无状态"控制方法在环境变化时表现更好:高度变化测试中成功率从0%提升至85%,水平变化测试中从6%提升至64%。研究还…详细

机器人控制视觉导航空间泛化

2025-10-14 12:09:22
德国方言也有被AI歧视?约翰内斯·古腾堡大学美因茨分校重大发现

德国约翰内斯·古腾堡大学美因茨分校研究团队发现,主流AI大语言模型对德国方言使用者存在系统性偏见,将其与教育程度低、思想保守等负面特征关联。研究测试了十个模型和七种德国方言,发现所有AI系统都表现出显著歧…详细

人工智能德国方言偏见语言公平性研究

2025-10-14 12:09:09
早稻田大学团队重磅发布:AI看懂旅游视频后竟能制定完美旅行攻略

早稻田大学研究团队开发了VIR-Bench基准,通过200个日本旅游视频测试AI理解地理空间和时间序列的能力。研究发现即使最先进的AI模型在复杂地理推理和时间顺序理解上仍有局限,但开发的AI旅行规划助手在结合多源信息时…详细

视频理解地理推理智能旅行规划

2025-10-14 12:08:53
腾讯提出RLPT:让AI像学生一样自主探索,不再依赖人工标注的突破性训练方法

腾讯研究团队提出RLPT新方法,让大语言模型通过预测文章下一段内容进行自主学习,无需人工标注。该技术在多个基准测试中显著提升AI性能,特别是数学推理能力提升5-8分,为解决AI训练中的数据瓶颈和标注依赖问题提供了…详细

人工智能强化学习自监督学习

2025-10-14 12:08:22
Meta研究团队发现大模型"长思考"可能是个误区:高质量推理的真正秘密

Meta研究团队通过分析十个大型推理模型发现,AI推理质量的关键不在思考时长,而在推理效率。他们创新提出"失败步骤比例"指标,发现减少错误探索比延长思考时间更能提升准确率。研究颠覆了"长思考更好"的观念,为AI推…详细

人工智能推理优化AI评估指标

2025-10-14 10:20:13
微软与阿联酋:将AI从战略推向真正的实际影响

在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10…详细

人工智能企业数字化转型AI生态系统建设

2025-10-14 10:19:13
苹果全新语言模型实现超快速长文本生成

苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、…详细

文本生成流匹配模型模型优化

2025-10-14 10:18:18
英伟达推出GB10工作站:1千万亿次算力、128GB显存、售价超3000美元

英伟达最小的Grace-Blackwell工作站DGX Spark本周正式上市,搭载GB10系统级芯片,可提供高达1千万亿次稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络。起售价约3000美元,预装Ubuntu Linux系统。该产品主要面…详细

人工智能工作站高性能芯片

2025-10-14 10:16:50
滞留电力:重塑数据中心能源战略的隐性挑战

数据中心需要大量电力,但确保可用能源得到充分利用同样重要。搁置电力指数据中心可获得但未使用的能源,代表总分配功率与实际消耗间的差距。造成搁置电力的原因包括IT设备闲置、基础设施规模不足、冷却能力有限和备…详细

数据中心电力监控能源优化

2025-10-14 10:15:51
Bun 1.3版本整合JavaScript工具链引发开发者争议

Bun JavaScript运行时工具包1.3版本正式发布,新增全栈开发服务器、SQL API、Redis支持等多项功能。该版本通过集成JavaScript Core垃圾收集器,实现空闲CPU时间减少100倍,内存使用降低40%。尽管月下载量超500万次,…详细

人工智能JavaScript运行时工具链整合

2025-10-14 10:05:12
VolSplat:浙江大学团队重新定义3D场景重建,像搭积木一样精准还原虚拟世界

浙江大学等高校研究团队开发的VolSplat系统,通过"体素对齐"替代传统"像素对齐"方法,实现了快速高质量的3D场景重建。该技术仅需6张普通照片即可生成精确3D模型,在RealEstate10K等标准数据集上显著超越现有方法,为…详细

3D重建技术体素对齐算法快速场景建模

2025-10-14 10:04:51
武汉大学团队重大突破:让AI学会"看菜下碟",再也不用一刀切的训练方法了

武汉大学团队与字节跳动公司合作,提出MAPO混合优势策略优化方法,解决AI训练中的"一刀切"问题。该方法能根据问题难度动态调整评分策略,避免传统方法中的优势反转和优势镜像问题。通过轨迹确定性判断和权重动态调整…详细

人工智能强化学习优化算法

2025-10-14 10:04:36
苹果公司发明的AI生成魔法:让机器学会更省力地创造图像

苹果公司研究团队提出CAR-Flow技术,通过条件感知重参数化解决AI图像生成中的"双重负担"问题。该技术引入专门的源分布和目标分布映射组件,让不同部分专注不同任务,在ImageNet-256数据集上将FID指标从2.07提升至1.6…详细

人工智能流匹配条件生成

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

最新文章