利用 character.ai 与 LTX-2 打造角色视频聊天体验

发表于:昨天 12:41 8
利用 character.ai 与 LTX-2 打造角色视频聊天体验

基于语言深度学习技术的一项广受欢迎的网络应用,是模仿虚构角色的说话方式和知识。我们推崇这项技术有多种原因,但首要的是其娱乐和教育价值。与这些“角色”对话充满了乐趣和学习机会。

开始参与这些对话的最佳平台是 character.ai。通过 character.ai,你可以轻松地与任何喜爱的角色、历史人物等进行即时聊天。网站不仅提供了庞大的角色库供选择,还简化了创建自定义角色 AI 的过程。此外,其对话功能速度快得惊人,让你能实时与这些具备语音能力的角色交谈。

但如果我们想更进一步呢?我们已经从这些模型获得了自定义音频响应,下一步就是添加视频!借助 LTX-2 的力量,这现在已成为可能。在本教程中,我们将展示如何使用 LTX-2 与 AI 驱动角色创建交互式对话视频。

这个流程从在 character.ai 生成文本/音频开始,然后展示如何使用 Qwen3-TTS 从源媒体或文本描述创建角色语音,最后使用 LTX-2 为角色静态图像添加动画,使其与生成的语音同步说话。跟随我们完成整个流程的详细演示,并简要介绍所用技术。

关键要点

  • character.ai 可以与 LTX-2 和 Qwen3-TTS 等开源工具结合,制作角色视频,通过组合扩展所有工具的潜力
  • LTX-2 是一个强大的视频生成模型,可与 Kling 和 Sora 等闭源模型媲美
  • Qwen3-TTS 极其多功能,能在短时间内克隆语音,从文本生成逼真的语音


流程概览


上图展示了创建视频的流程。首先,我们将使用 character AI 生成输入,并从互联网获取其余资源。然后将这些加载到 Qwen3-TTS,接着是 LTX-2,以生成最终输出。跟随我们深入了解每个组件。

character.ai


首先,我们需要在 character.ai 与选择的角色聊天。这些由 LLM 驱动的角色是互联网上一些最好的基于 GPT 的对话代理!选择一个与你产生共鸣,并且其语音可以从互联网某处获取的角色。娱乐媒体中的流行角色是最佳选择,因为我们可以从 YouTube 等平台获取他们的语音。

一旦选定了角色,向模型输入你的请求。这将得到符合角色语气和“知识”的响应。然后我们可以将其作为流程下一部分 Qwen3-TTS CustomVoice 的输入。

Qwen3-TTS CustomVoice


Qwen3-TTS 是一个多语言、低延迟的文本转语音系统,支持十种主要语言和多种方言语音配置文件,专为全球实时应用设计,具有强大的上下文理解能力,即使从嘈杂的输入文本也能动态控制语调、速度、韵律和情感表达。

基于 Qwen3-TTS-Tokenizer-12Hz 和通用端到端离散多码本架构构建,它保留了丰富的副语言和声学细节,同时避免了传统语言模型 + 扩散变换器流程的瓶颈和级联错误,提供高效、高保真的语音生成。其双轨混合流设计允许单个模型处理流式和非流式合成,在单个字符后发出音频,实现端到端延迟低至 97 毫秒,而自然语言驱动的语音控制确保逼真、意图对齐的语音输出。

我们使用 Qwen3-TTS 克隆主题的语音。这就是 YouTube 和其他资源发挥作用的地方。准备好主题的清晰音频录音,用于下一步。

LTX-2


我们使用 LTX-2 作为此流程的驱动。它负责为我们的角色静态图像添加动画,并将视觉效果与音频流匹配。最近的文本转视频扩散系统如 Wan2.2 和 Hunyuan 1.5 很棒,但在这方面有所欠缺。我们的意思是它们能产生视觉上引人注目的序列,但通常缺乏同步音频,省略了声音提供的语义、情感和氛围维度(来源)。

为解决这一差距,Lightricks 创建了一个新的旗舰基础模型:LTX-2。这是一个开源基础模型,在单一统一框架内生成高质量、时间对齐的视听内容,围绕非对称双流变换器架构构建。它由一个 140 亿参数的视频流和一个 50 亿参数的音频流组成,通过双向音频-视频交叉注意力层互连,这些层包含时间位置嵌入和跨模态 AdaLN,用于共享时间步条件。

这种设计实现了高效的联合训练和推理,同时有意将更大的模型容量分配给视频生成而非音频。系统采用多语言文本编码器以提高跨语言提示理解,并引入模态感知的无分类器引导(modality-CFG)机制,以增强视听对齐和可控性(来源)。

除了语音合成,LTX-2 生成丰富、连贯的音频轨道,反映屏幕上的角色、环境背景、风格意图和情感基调,包括自然背景氛围和拟音效果。经验上,LTX-2 在开源模型中实现了最先进的视听质量和提示遵循,提供与专有系统相当的性能,同时需要显著更少的计算和推理时间,所有模型权重和代码完全向公众发布(来源)。

演示

既然我们已经概述了流程,就可以开始演示了。首先,按照此环境设置教程中的说明操作,适用于 GPU Droplets。它概述了为此演示设置环境所需的一切。

首先,我们创建具有足够能力运行演示的 GPU Droplet,理想情况下是 NVIDIA H200。然后,我们通过 SSH 连接到终端和 VS Code/Cursor 的 Simple Browser 功能,从本地机器访问 GPU Droplet。一旦机器启动,继续下一部分。

为 LTX-2 设置 ComfyUI

将以下代码片段复制粘贴到终端窗口中。确保首先在你选择的目录中!
  1. git clone https://github.com/Comfy-Org/ComfyUI
  2. cd ComfyUI
  3. python3 -m venv venv_comfy
  4. source venv_comfy/bin/activate
  5. pip install -r requirements.txt
  6. cd models/diffusion_models/
  7. wget https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-19b-dev.safetensors
  8. cd ../loras/
  9. wget https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-19b-distilled-lora-384.safetensors
  10. cd ../vae
  11. wget https://huggingface.co/Kijai/LTXV2_comfy/resolve/main/VAE/LTX2_video_vae_bf16.safetensors
  12. wget https://huggingface.co/Kijai/LTXV2_comfy/resolve/main/VAE/LTX2_audio_vae_bf16.safetensors
  13. cd ../text_encoders/
  14. wget https://huggingface.co/Kijai/LTXV2_comfy/resolve/main/text_encoders/ltx-2-19b-embeddings_connector_dev_bf16.safetensors
  15. wget https://huggingface.co/DreamFast/gemma-3-12b-it-heretic/resolve/main/comfyui/gemma_3_12B_it_heretic.safetensors
  16. cd ../checkpoints
  17. wget https://huggingface.co/Kijai/MelBandRoFormer_comfy/resolve/main/MelBandRoformer_fp32.safetensors
  18. cd ../..
  19. python main.py
复制代码

这个过程需要几分钟,但完成后,你将获得输出 ComfyUI URL。复制它,并放入通过 SSH 连接到机器的 VS Code/Cursor 的 Simple Browser 中。然后,点击 Simple Browser 右上角的箭头,在本地机器的默认浏览器中打开 ComfyUI。

最后,获取 JSON 文件模板,并将其上传到 ComfyUI 以开始使用模板。它应该看起来像这样:


这个示例使用了一个流行的动漫角色,但你可以用任何喜欢的角色替换。取你之前为克隆获取的音频样本、character AI 生成的问题响应、你想用作视频基础样本的角色图像,并用这些值填充模板。然后,点击运行以生成视频。

如果你使用我们提供的样本,它应该看起来像这样(注意:虽然我们确实生成了声音,但无法在此平台分享视频):


现在你可以根据需要修改这个工作流程!该流程极其多功能,能够处理各种语音,并为动漫、卡通、艺术品和现实生活等不同媒介中的各种主题添加动画。这有多种用途,如为采访创建可视化、为场景中的角色动画化语音等等!

结语

通过结合 character.ai 富有表现力的实时对话、Qwen3-TTS 语音合成和 LTX-2 的统一视听生成,这个流程展示了角色对话如何快速从屏幕上的文本演变为完全动画化的说话角色。曾经需要复杂、定制动画和音频工作流程的任务,现在可以由单个开发者使用开源工具和 GPU 进行原型设计,为故事讲述、教育、娱乐和互动媒体解锁新的可能性。

随着 LTX-2 等视听基础模型的不断成熟,与角色聊天和观看他们在屏幕上活灵活现之间的界限只会越来越模糊。



原文链接:Make Video Chats with characters on character.ai and LTX-2
收藏
送赞
分享

发表回复