🚀 GlobalConnect — 全球呼叫中心行业资讯
← 返回新闻列表

多模态AI客服:当视觉、语音和文本在同一个会话中融合

技术趋势 · 2026-05-29

呼叫中心正从纯语音/文本交互向多模态体验演进。多模态AI客服能同时理解用户的语音、表情、屏幕截图和文本输入,从而提供更精准的解决方案。

根据 Frost & Sullivan 2024 年第二季度的数据,部署多模态AI的企业客户满意度(CSAT)平均提高了 22%,尤其是在技术支持场景中。例如,当用户通过手机摄像头展示产品故障时,AI 能即时识别损坏部件并生成维修指南或替换链接。

亚马逊 AWS Connect 在 2024 年 9 月发布的更新中,内置了多模态分析能力:在通话中,AI 可以分析用户的语气(语音情绪)和实时共享的屏幕内容(如订单截图),从而判断是否需要升级到人工客服。GlobalConnect 的解决方案则更进一步,将多模态引擎与 CRM 系统深度集成,当用户上传一张模糊的发票照片时,AI 会自动增强图像、提取关键信息并直接创建工单,整个过程无需人工干预。

挑战在于数据整合:不同模态的数据(音频、视频、文本)需要在毫秒级内同步并完成语义对齐。目前仅有约 20% 的头部呼叫中心完成了多模态系统的全面部署,但 2025 年预计这一比例将翻倍。