← 返回列表

多模态

8.9 / 10
📊 全渠道综合评级 更新于 2026-03-21
多模态技术正通过解耦式统一表征实现语义与生成的深度对齐。核心在于将感知能力下沉赋能传统产业,并提升交互式终端的精细化程度。研究重点转向社交交互基准建立与鲁棒的视觉等效奖励建模,以支撑更广泛的物理世界应用。

🔍 信源证据墙

论文 论文 - 多模态
信源分: 8.9
技术突破在于实现了理解与生成的解耦式统一(Decoupled Semantic Rep),大幅提升了令牌效率与语义一致性。产业化重点正转向社交交互基准建立与鲁棒的视觉等效奖励建模。

Cheers 🔗

🏆 8.0

通过解耦补丁细节与语义表征,成功统一了多模态模型中的理解与生成任务,在提升保真度的同时降低了训练成本。

Computer Vision Unified Multimodal Model Vision Tokenizer Diffusion Decoding Gated Detail Residuals
🔍 核心指标审计
  • Publish Time: 2026-03-13 00:00:00
  • Github Stars: 35
  • Votes: 26

提出两阶段训练框架,大幅降低了多模态模型视觉生成组件对图文对数据的依赖并提升了训练效率。

Computer Vision Unified Multimodal Models Masked Modeling Image-Only Pre-training
🔍 核心指标审计
  • Publish Time: 2026-03-17 00:00:00
  • Github Stars: 17
  • Votes: 27

利用测试时训练机制,实现了从无限视频流中实时提取和动态更新结构化3D空间信号的智能系统。

Computer Vision Spatial Intelligence Test-Time Training (TTT) Spatiotemporal Convolution Streaming Video
🔍 核心指标审计
  • Publish Time: 2026-03-12 00:00:00
  • Github Stars: 71
  • Votes: 63

LoST 🔗

🏆 6.0

引入语义显著性排序的3D形状分词技术,极大地提高了自回归3D生成的令牌效率与语义一致性。

Computer Vision 3D Generation Autoregressive Models Semantic Tokenization DINO
🔍 核心指标审计
  • Publish Time: 2026-03-18 00:00:00
  • Github Stars: 10
  • Votes: 14

将3D生成模型的先验知识重用于零件分割任务,以极少标注数据实现了SOTA级别的交互式分割效果。

Computer Vision 3D Generative Models Part Segmentation Interactive Segmentation
🔍 核心指标审计
  • Publish Time: 2026-03-17 00:00:00
  • Github Stars: 41
  • Votes: 16

直接在统一的3D表征空间进行扩散,从根本上解决了传统方法难以维持跨视图一致性的难题。

Computer Vision 3D Scene Generation Diffusion 3D Unified Representation Autoencoder CVC Consistency
🔍 核心指标审计
  • Publish Time: 2026-03-17 00:00:00
  • Github Stars: 27
  • Votes: 1

将VLM幻觉诊断从静态错误识别提升为动态认知轨迹检测,通过几何-信息二元性揭示了错误的因果归因。

AI Research Vision-Language Models Hallucination Diagnostics Information Theory Geometric Anomaly Detection
🔍 核心指标审计
  • Publish Time: 2026-03-16 00:00:00
  • Github Stars: 25
  • Votes: 25

提出一种基于视觉等效性的建模框架,通过在渲染后的视觉空间提供细粒度反馈,攻克了视觉转代码任务中强化学习的奖励黑客问题。

AI Research Reward Modeling Reinforcement Learning Vision-to-code Multimodal generative rewards
🔍 核心指标审计
  • Publish Time: 2026-03-13 00:00:00
  • Github Stars: 19
  • Votes: 18

填补了全模态大模型在社交交互能力评估上的空白,揭示了感知准确度与交互生成能力之间的脱节。

AI Research Omni-modal LLMs Social Interactivity Audio-Visual Benchmark
🔍 核心指标审计
  • Publish Time: 2026-03-17 00:00:00
  • Github Stars: 15
  • Votes: 13

提出一种轻量级骨架适配器,为原生3D生成提供了精确的结构控制和局部编辑能力。

Computer Vision Native 3D Generation Skeletal Control Adapter 3D Mesh
🔍 核心指标审计
  • Publish Time: 2026-03-14 00:00:00
  • Github Stars: 10
  • Votes: 6

通过引入无排序深度感知渲染和神经增强,实现了在移动端设备上的高质量、超轻量、实时高斯泼溅渲染。

Computer Vision 3D Gaussian Splatting Mobile Rendering Neural Vector Quantization Distillation
🔍 核心指标审计
  • Publish Time: 2026-03-12 00:00:00
  • Github Stars: 32
  • Votes: 6

发布了首个关注工具驱动智能体流程质量的基准测试,揭示了过程监督在模型测试阶段扩展性方面的关键价值。

AI Research Tool-Using Agents Process Quality Step-level Verification Benchmark
🔍 核心指标审计
  • Publish Time: 2026-03-15 00:00:00
  • Github Stars: 10
  • Votes: 15
公众号 公众号 - 多模态
信源分: 8.8
多模态模型本周在全双工交互与国产化训练上取得重大突破。MiniCPM-o 4.5 与 Her 9B 打破了自然交互的同步瓶颈,同时智谱与华为合作的 SOTA 模型验证了国产智算链条在复杂多模态任务上的独立闭环能力。

中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了

🏆 8.0

发布Qwen-Image-2.0多模态模型,大幅提升长文本理解与中文生图的一致性。

AI Model Qwen-Image-2.0
🔍 核心指标审计
  • Publish Time: 2026-02-10 19:58:43
  • Source: 公众号

开源首个实现全双工多模态能力的大模型,打破端到端自然交互的同步障碍。

AI Model MiniCPM-o 4.5 全双工全模态
🔍 核心指标审计
  • Publish Time: 2026-02-04 20:52:53
  • Source: 公众号

面壁智能开源Her 9B版本,展示小模型在模拟真实人类交互感上的飞跃。

AI Model Her 9B 全双工
🔍 核心指标审计
  • Publish Time: 2026-02-04 19:18:07
  • Source: 公众号

智谱与华为昇腾合力完成国产计算平台的SOTA模型训练闭环,展示了国产智算链条的全面独立竞争力。

AI Model 昇腾AI芯片 智谱生图
🔍 核心指标审计
  • Publish Time: 2026-01-14 14:32:00
  • Source: 公众号
👥 人事变动 - 多模态
信源分: 8.7
视觉模型与语言模型深度融合,推动端到端理解物理世界的能力。学术界泰斗与工程专家的流动显示出多模态交互正成为下一代AI模型的标配。

待定 🔗

🏆 9.0

引领多模态技术方向的高产专家,新动向具备极大行业价值。

多模态AI 多模态模型
🔍 核心指标审计
  • Team Background: xAI多模态项目负责人
  • Market Trend: 多模态交互正成为AI下一个增长爆发点

待定 🔗

🏆 8.5

寻求独立融资的创业者,具备较强的技术沉淀与市场估值潜能。

计算机视觉 深度学习、CV
🔍 核心指标审计
  • Team Background: 前MiroMind研发负责人
  • Market Trend: 视觉模型在生成式AI中的基石作用

未知 🔗

🏆 9.0

顶级研究员集体离职潮中的核心变量,极具爆发可能。

计算机视觉 AI视觉算法、深度学习
🔍 核心指标审计
  • Team Background: xAI早期创始成员/资深科学家
  • Market Trend: 视觉+逻辑的大模型研发趋势
36kr 36kr - 多模态
信源分: 8.6
多模态结合强化学习(RL)实现重大突破。通过GRPO框架,3D生成模型首次展现出基于复杂文本描述的逻辑推理能力,极大提升了模型对物理世界知识的理解深度。

将强化学习(RL)引入文本到3D生成,实现了3D生成向逻辑推理能力的根本跃迁。

AI Platform GRPO 强化学习 3D自回归生成
🔍 核心指标审计
  • Publish Date: 2026-02-27
  • Source: 36kr_ai_news

Nano Banana 2 世界知识

🏆 7.0

图像生成模型竞争焦点转向对现实世界知识的理解,而非单纯的路线定型。

AI Platform Nano Banana 2 Agent 图像生成器
🔍 核心指标审计
  • Publish Date: 2026-02-27
  • Source: 36kr_ai_news
企名片 企名片 - 多模态
信源分: 8.6
核心技术实现不同感知领域的能力下沉,赋能传统产业;产业化重点在于通过交互式终端实现消费爆款;关键在于跨模态对齐的精细化程度。

专注大模型时代多模态基础能力下沉,赋能传统产业实现跨模态全自动智能进化。

AI Infrastructure 多模态大模型基座 AI Agent
🔍 核心指标审计
  • Funding Stage: A轮
  • Funding Amount: 未披露
  • Investors: 长江产业集团, 力合科创 等

由北大华为及清华普林斯顿校友联合创立,致力打造AI时代千万级爆款感知的交互式智能终端。

AI Application AI Agent内容管理 具身智能软件中台
🔍 核心指标审计
  • Funding Stage: 种子+轮
  • Funding Amount: 未披露
  • Investors: 慕华科创, 北大苏南研究院 等
Pitchbook Pitchbook - 多模态
信源分: 8.0
核心突破在于研发具有跨视听认知能力的视觉大语言模型。产业化集中在赋能高价值内容创作和AI生成的精准内容控制。分化焦点在于大规模长视频生成的语义连贯性。

爱诗科技 🔗

🇨🇳 华人 🏆 8.0
👤 Wang Changhu (王长虎, Founder & CEO, former visual technology head at ByteDance) and Xie Xuzhang (谢旭璋, Co-founder, former TMT/AI head at Guangyuan Capital)

开发多模态大模型,助力AIGC生产链中的内容创作者和企业场景。

AI Application General visual multi-modal large models AIGC image/3D/video analysis
🔍 核心指标审计
  • Funding Stage: Later Stage VC
  • Funding Amount: 300.0M
  • Investors: 未知
Theinformation Theinformation - 多模态
信源分: 7.0
消费级多模态应用开始打通物理介质与数字内容。视觉识别与流媒体内容的无缝衔接,为用户创造了跨越物理书籍与数字音频的新体验。

利用机器视觉技术打通纸质书与音频流,实现了多模态内容跨介质的无缝衔接。

AI & Compute Computer Vision
🔍 核心指标审计
  • Publish Date: 2026-02-06
  • Source: theverge.com