TRELLIS - 技术发现报告

TRELLIS - 技术发现报告

注意:本报告涵盖两个版本 —— 原版 TRELLIS(CVPR 2025 Spotlight)和升级版 TRELLIS.2(4B 参数)。两者均为微软研究院开源项目。

基本信息

项目 TRELLIS(原版) TRELLIS.2(升级版)
GitHub 仓库 microsoft/TRELLIS microsoft/TRELLIS.2
GitHub Stars 12,126(截至 2026-04-04) 5,077(截至 2026-04-04)
Forks 1,138 585
Contributors 6 2
Open Issues 250 114
License MIT MIT
主要编程语言 Python Python
首次发布日期 2024-12-02 2025-11-26
最近更新日期 2026-04-03(活跃) 2026-04-04(活跃)
创建者/维护团队 微软研究院(Microsoft Research) 微软研究院(Microsoft Research)
论文 Structured 3D Latents for Scalable and Versatile 3D Generation (CVPR 2025 Spotlight) Native and Compact Structured Latents for 3D Generation (Tech Report, 2025)
模型参数 最大 2B 4B
训练数据集 TRELLIS-500K(500K 多样化 3D 资产) Objaverse-XL(Sketchfab 子集)

一句话定位

TRELLIS 是微软研究院开发的大规模 3D 资产生成模型,接受文本或图像提示,生成高质量的 3D 资产(支持 Radiance Fields、3D Gaussians、Mesh 等多种输出格式),使用统一的 Structured LATent (SLAT) 表示实现高保真、多样化的 3D 内容创建。

核心特性

  1. 高质量 3D 生成 - 从文本或图像提示生成具有精细几何和生动纹理的高质量 3D 资产。TRELLIS.2 支持 512³ 到 1536³ 分辨率的 PBR 纹理输出(Base Color、Roughness、Metallic、Opacity),显著超越同类方法。

  2. 统一 SLAT 表示(Structured LATent) - 核心创新是一种统一的 3D 潜在表示方法,将稀疏 3D 网格与密集多视角视觉特征融合,可解码为 Radiance Fields、3D Gaussians 和 Meshes 等多种输出格式,满足不同的下游需求。

  3. 灵活编辑能力 - 支持生成 3D 资产的变体(Asset Variants)和局部编辑(Local Manipulation),例如移除手臂、添加武器、替换腿部等操作,这在之前的 3D 生成模型中尚未实现。

  4. 任意拓扑处理(TRELLIS.2 新特性) - O-Voxel 表示突破了等值面场的限制,可稳健处理开放表面(如衣物、树叶)、非流形几何和内部封闭结构等复杂拓扑。

  5. 高效生成速度 - TRELLIS.2 在 NVIDIA H100 GPU 上:512³ 分辨率约 3 秒,1024³ 约 17 秒,1536³ 约 60 秒,相比竞品速度领先。

  6. 全开源生态 - 代码、模型权重、训练代码、数据集(TRELLIS-500K)全部开源,采用 MIT 许可证,支持本地部署和商业使用。

社区生态

  • GitHub Stars: TRELLIS 12,126 / TRELLIS.2 5,077(截至 2026-04-04)
  • Contributors: TRELLIS 6 / TRELLIS.2 2
  • 最近更新日期: 2026-04-04(两个仓库均活跃维护)
  • 社区讨论热度: 高。Reddit r/StableDiffusion 和 r/LocalLLaMA 社区讨论活跃,存在大量对比评测(vs Hunyuan3D、Tripo 等),YouTube 上有多个教程和对比视频。社区还构建了 Windows 兼容版本(Window_Trellis)和 Docker UI(TostUI)。
  • Hugging Face: 模型权重发布在 Hugging Face,提供在线 Demo。
  • npm/pypi 下载量: 不适用(非库/包形式发布)。

技术栈定位

  • 所属领域: AI 3D 生成(Text-to-3D、Image-to-3D)
  • 解决的核心问题: 从文本/图像提示自动生成高质量、多格式、可编辑的 3D 资产,降低 3D 建模门槛。
  • 替代/竞品技术:
  • Hunyuan3D 2.x(腾讯) - 开源 3D 生成模型,纹理质量高,生成速度较慢(2-6 分钟)
  • Tripo AI - 商业 3D 生成平台,2026 年被评为最佳 3D 生成工具,速度快,UI 完善
  • Meshy - 商业 3D 生成服务
  • Rodin - 商业 3D 生成模型
  • PartCrafter - 开源 3D 生成模型
  • Seed3D(字节跳动) - 新兴 3D 生成模型
  • 依赖的上游技术:
  • PyTorch(深度学习框架)
  • CUDA(GPU 计算)
  • Rectified Flow Transformers(核心生成架构)
  • Flash Attention / xFormers(注意力机制加速)
  • Hugging Face(模型托管)
  • DALL-E 3 / GPT-4(示例中用于生成提示图像和文本)
  • 下游使用者/集成方:
  • 游戏开发(3D 资产快速原型)
  • AR/VR 内容创建
  • 3D 打印
  • 影视特效
  • 电商产品展示
  • Azure AI Foundry Labs(微软官方云服务集成)

关键链接汇总

官方资源

教程资源

社区资源

衍生项目

硬件与系统要求

TRELLIS(原版)

  • 系统: Linux(Windows 需参考社区方案,非官方支持)
  • GPU: NVIDIA GPU,至少 16GB 显存(验证于 A100 和 A6000)
  • CUDA: 11.8 或 12.2
  • Python: 3.8+

TRELLIS.2(升级版)

  • 系统: Linux
  • GPU: NVIDIA GPU,至少 24GB 显存(验证于 A100 和 H100)
  • CUDA: 推荐 12.4
  • Python: 3.8+

预训练模型一览

TRELLIS 模型

模型 描述 参数量
TRELLIS-image-large 图像到 3D 生成(推荐) 1.2B
TRELLIS-text-base 文本到 3D 生成(基础版) 342M
TRELLIS-text-large 文本到 3D 生成(大版) 1.1B
TRELLIS-text-xlarge 文本到 3D 生成(超大版) 2.0B

TRELLIS.2 模型

模型 描述 参数量 分辨率
TRELLIS.2-4B 图像到 3D 生成 4B 512³ - 1536³

信息来源