多模态
多模态技术正通过解耦式统一表征实现语义与生成的深度对齐。核心在于将感知能力下沉赋能传统产业,并提升交互式终端的精细化程度。研究重点转向社交交互基准建立与鲁棒的视觉等效奖励建模,以支撑更广泛的物理世界应用。
🔍 信源证据墙
技术突破在于实现了理解与生成的解耦式统一(Decoupled Semantic Rep),大幅提升了令牌效率与语义一致性。产业化重点正转向社交交互基准建立与鲁棒的视觉等效奖励建模。
Cheers
通过解耦补丁细节与语义表征,成功统一了多模态模型中的理解与生成任务,在提升保真度的同时降低了训练成本。
- Publish Time: 2026-03-13 00:00:00
- Github Stars: 35
- Votes: 26
提出两阶段训练框架,大幅降低了多模态模型视觉生成组件对图文对数据的依赖并提升了训练效率。
- Publish Time: 2026-03-17 00:00:00
- Github Stars: 17
- Votes: 27
Spatial-TTT
利用测试时训练机制,实现了从无限视频流中实时提取和动态更新结构化3D空间信号的智能系统。
- Publish Time: 2026-03-12 00:00:00
- Github Stars: 71
- Votes: 63
LoST
引入语义显著性排序的3D形状分词技术,极大地提高了自回归3D生成的令牌效率与语义一致性。
- Publish Time: 2026-03-18 00:00:00
- Github Stars: 10
- Votes: 14
SegviGen
将3D生成模型的先验知识重用于零件分割任务,以极少标注数据实现了SOTA级别的交互式分割效果。
- Publish Time: 2026-03-17 00:00:00
- Github Stars: 41
- Votes: 16
OneWorld
直接在统一的3D表征空间进行扩散,从根本上解决了传统方法难以维持跨视图一致性的难题。
- Publish Time: 2026-03-17 00:00:00
- Github Stars: 27
- Votes: 1
Anatomy of a Lie
将VLM幻觉诊断从静态错误识别提升为动态认知轨迹检测,通过几何-信息二元性揭示了错误的因果归因。
- Publish Time: 2026-03-16 00:00:00
- Github Stars: 25
- Votes: 25
Visual-ERM
提出一种基于视觉等效性的建模框架,通过在渲染后的视觉空间提供细粒度反馈,攻克了视觉转代码任务中强化学习的奖励黑客问题。
- Publish Time: 2026-03-13 00:00:00
- Github Stars: 19
- Votes: 18
SocialOmni
填补了全模态大模型在社交交互能力评估上的空白,揭示了感知准确度与交互生成能力之间的脱节。
- Publish Time: 2026-03-17 00:00:00
- Github Stars: 15
- Votes: 13
SK-Adapter
提出一种轻量级骨架适配器,为原生3D生成提供了精确的结构控制和局部编辑能力。
- Publish Time: 2026-03-14 00:00:00
- Github Stars: 10
- Votes: 6
Mobile-GS
通过引入无排序深度感知渲染和神经增强,实现了在移动端设备上的高质量、超轻量、实时高斯泼溅渲染。
- Publish Time: 2026-03-12 00:00:00
- Github Stars: 32
- Votes: 6
AgentProcessBench
发布了首个关注工具驱动智能体流程质量的基准测试,揭示了过程监督在模型测试阶段扩展性方面的关键价值。
- Publish Time: 2026-03-15 00:00:00
- Github Stars: 10
- Votes: 15
多模态模型本周在全双工交互与国产化训练上取得重大突破。MiniCPM-o 4.5 与 Her 9B 打破了自然交互的同步瓶颈,同时智谱与华为合作的 SOTA 模型验证了国产智算链条在复杂多模态任务上的独立闭环能力。
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了
发布Qwen-Image-2.0多模态模型,大幅提升长文本理解与中文生图的一致性。
- Publish Time: 2026-02-10 19:58:43
- Source: 公众号
开源首个实现全双工多模态能力的大模型,打破端到端自然交互的同步障碍。
- Publish Time: 2026-02-04 20:52:53
- Source: 公众号
面壁智能开源Her 9B版本,展示小模型在模拟真实人类交互感上的飞跃。
- Publish Time: 2026-02-04 19:18:07
- Source: 公众号
智谱与华为昇腾合力完成国产计算平台的SOTA模型训练闭环,展示了国产智算链条的全面独立竞争力。
- Publish Time: 2026-01-14 14:32:00
- Source: 公众号
视觉模型与语言模型深度融合,推动端到端理解物理世界的能力。学术界泰斗与工程专家的流动显示出多模态交互正成为下一代AI模型的标配。
待定
引领多模态技术方向的高产专家,新动向具备极大行业价值。
- Team Background: xAI多模态项目负责人
- Market Trend: 多模态交互正成为AI下一个增长爆发点
待定
寻求独立融资的创业者,具备较强的技术沉淀与市场估值潜能。
- Team Background: 前MiroMind研发负责人
- Market Trend: 视觉模型在生成式AI中的基石作用
未知
顶级研究员集体离职潮中的核心变量,极具爆发可能。
- Team Background: xAI早期创始成员/资深科学家
- Market Trend: 视觉+逻辑的大模型研发趋势
多模态结合强化学习(RL)实现重大突破。通过GRPO框架,3D生成模型首次展现出基于复杂文本描述的逻辑推理能力,极大提升了模型对物理世界知识的理解深度。
3D 推理生成
将强化学习(RL)引入文本到3D生成,实现了3D生成向逻辑推理能力的根本跃迁。
- Publish Date: 2026-02-27
- Source: 36kr_ai_news
Nano Banana 2 世界知识
图像生成模型竞争焦点转向对现实世界知识的理解,而非单纯的路线定型。
- Publish Date: 2026-02-27
- Source: 36kr_ai_news
核心技术实现不同感知领域的能力下沉,赋能传统产业;产业化重点在于通过交互式终端实现消费爆款;关键在于跨模态对齐的精细化程度。
模态跃迁
专注大模型时代多模态基础能力下沉,赋能传统产业实现跨模态全自动智能进化。
- Funding Stage: A轮
- Funding Amount: 未披露
- Investors: 长江产业集团, 力合科创 等
Fullive.AI
由北大华为及清华普林斯顿校友联合创立,致力打造AI时代千万级爆款感知的交互式智能终端。
- Funding Stage: 种子+轮
- Funding Amount: 未披露
- Investors: 慕华科创, 北大苏南研究院 等
核心突破在于研发具有跨视听认知能力的视觉大语言模型。产业化集中在赋能高价值内容创作和AI生成的精准内容控制。分化焦点在于大规模长视频生成的语义连贯性。
爱诗科技
开发多模态大模型,助力AIGC生产链中的内容创作者和企业场景。
- Funding Stage: Later Stage VC
- Funding Amount: 300.0M
- Investors: 未知
消费级多模态应用开始打通物理介质与数字内容。视觉识别与流媒体内容的无缝衔接,为用户创造了跨越物理书籍与数字音频的新体验。
利用机器视觉技术打通纸质书与音频流,实现了多模态内容跨介质的无缝衔接。
- Publish Date: 2026-02-06
- Source: theverge.com