Google宣布在其Gemini 3.1系列中推出一款全新的文字转语音模型Gemini‑TTS,被官方描述为“至今最富表现力的文本转语音解决方案”。新模型能够生成听感自然、高保真的语音,同时允许开发者通过提示词(prompt)控制语音的情感、节奏和风格,例如在旁白或对话中精确调节语气、停顿与情绪变化。
UhF+},gU
^-pHhh|g 在多语言支持方面,Gemini‑TTS覆盖约70种语言,包括中文(普通话)、英语、西班牙语、德语、日语等主流语言,模型可自动检测输入文本的语种,无须手动标注语言类型即可生成对应语音。这一能力使得开发者和企业可以在有声读物、播客、语音助手、客服机器人、教育应用等场景中,用一套统一的API为全球用户提供多语种语音内容。
=jW=Z$3q $+Vp> Google还强调,Gemini‑TTS与Gemini 3.1系列的其他音频模型(如Gemini 3.1 Flash Live)协同,进一步强化了“实时语音体验”的能力。在实时对话、语音翻译及多模态交互中,系统可以在保持低延迟的同时,通过文本提示和音频标记精细控制语音输出,让AI代理在电话、会议、导航等场景下更接近自然的人类语音交互。
|H@1g=q