过去的十年,是以神经网络、深度学习为代表的新一代AI算法在计算机视觉、自然语言及语音等领域取得了革命性进展的十年;过去的十年,同样也是全球范围内移动互联网、多媒体互联网与各行各业深度融合,数字科技不断为社会发展带来惊喜的黄金十年。
在这十年里,音视频通信从网络社交深入日常办公、生产及生活场景;点播、直播产业在全球范围内崛起;对话机器人成为大众服务行业标配。数字产业的创新发展,为各行各业开拓了新的业务场景,也为现代企业带来了新的发展机遇。
新机遇、新场景对多媒体通讯、数字营销及网络安全等传统数字技术提出了新的技术要求,带来了新的挑战,而AI技术的融合应用在其中扮演着尤为关键的角色。
新机遇、新场景下,随之而来的技术挑战
●互联网内容井喷式增长,数据种类多样化,如何构建具有快速识别能力的内容风控系统?如何高效降低内容风控系统的资源消耗?
●场景多样化,设备性能参差不齐,实时音视频通信技术如何在嘈杂的真实环境中稳定运行?如何提高泛场景计算能力以及保证端侧落地的低开销与稳定性?
●智能客服产业快速发展,如何更好地应用自然语言对话技术解决复杂场景下的访客需求?如何实现快速冷启动及提升性能降低成本?
首次公开,网易智企的AI技术驾驭之道
针对以上问题,网易智企携手机器之心联合发布《数字经济时代,AI加持下的技术与业务创新》人工智能技术应用实践白皮书。
报告以网易智企为研究对象,在透视现代数字科技企业如何在对技术架构的持续创新的基础上,通过高效、灵活的技术解决方案全面拥抱AI技术,实现内容风控、音视频及智能客服等技术的高效迭代,解锁新型实时通讯、点播直播与智能营销业态,尝试为现代企业在AI时代进行业务创新,开展企业数字化转型提供有效参考。
驾驭AI加持下的内容风控技术
近年来,随着互联网及各种新兴业务的飞速发展,内容形式更加多元化,内容创作门槛的大幅降低,使图像、视频、语音、文本、直播、聊天等创作形式井喷式增长。
与此同时,内容风控问题日益凸显,内容安全成为互联网安全场景的重中之重。庞大且多维度的新场景对内容风控技术提出了新的挑战。
网易易盾从快速识别、敏捷响应、低资源消耗、场景泛化四个层面所搭建的新一代数字内容风控系统。
· 快速识别
模拟应试策略思路,通过智能调整计算方案为“先易后难”的方式构建技术解决方案,系统性应对内容风控场景下,需在海量数据中筛选万分之几、十万分之几的有害信息,进行快速识别的挑战。
· 低资源消耗
从数据生成、模型打标、人工打标三个角度出发,通过无监督学习、置信学习、噪声训练和主动学习等方法构建解决方案,实现全面的低资源消耗优化。
· 敏捷响应
通过设计基于深度特征检索的目标样例模糊匹配、基于动态特征拓展的新类别增量迭代和领域迁移学习的场景适配等方法,应对内容风控领域中样例漏识别、知识新增和不同领域算法适配等需求。
· 场景泛化
从数据增强、特征表示、训练策略三个方面提高算法模型在未知数据分布上的泛化能力;从类别检索的角度,结合特征检索敏捷响应的特点,优化实例检索没有明确类别泛化的局限,探索开放域识别场景下的识别范围泛化。
驾驭AI加持下的音视频技术
疫情持续的大环境下,视频通话、视频会议、在线教育等功能成为了人们工作生活中的刚性需求。丰富、广泛的市场需求,带动了音视频技术的超高速发展。
与此同时,更加多元化和复杂化的应用场景也对音视频技术提出了更高的要求。
网易云信对音视频的底层算法技术及端侧应用作出多维度优化,重点研究 RTC 产品相关的音频处理技术,例如回声消除、降噪、自动增益控制等通话中长期应用的算法。同时关注空间音效、基于统计机器学习和深度学习的AI降噪、场景检测、啸叫检测等最新技术方向。
· AI加持下的音频技术
通过将 AI 与 DSP 算法结合、提高AI算法在复杂场景的泛化能力、降低端侧落地开销、提高稳定性及研发实时音视频环境中的AI算法,解决音频AI算法在真实场景中的落地困难问题。
· AI加持下的视频技术
通过构建轻量级网络、深度优化视频处理模型与推理设备,持续改进计算机视觉网络设计和训练方法,实现视频处理算法在兼顾计算实时性及低功耗的前提下,对视频进行像素级处理。
图:网易云信所设计的RFDECB自适应神经网络。RFDECB在训练阶段用面向边缘的卷积块(ECB)代替残差特征蒸馏模块(RFDB)中的 SRB 浅残差块。在推理阶段将面向边缘的卷积块(ECB)转换为普通的3x3卷积层,该方法可以更高效地提取图像的纹理信息和边缘信息,在降低开销的同时提升网络性能;同时对增强空间注意力(ESA)模块进行裁剪,减少参数量以及增加池化层步长,进一步减少了算法开销。
驾驭AI加持下的客服机器人/自然语言对话技术
在自然语言对话技术的支持下,智能客服机器人提供从文字咨询、智能外呼、业务办理等多维度的客户服务,从客户获取到订单管理实现了无人化、智能化,并越来越多地在金融、零售、房地产、物流等行业应用。
在实际应用中,自然语言对话技术要求系统具备从零学习的能力,快速领悟行业知识,并且针对业务场景进行多轮、有效的对话。
网易云商采用新一代AI算法,从访客需求、低成本与高可用、快速冷启动等技术方面提出技术创新,推动智能客服机器人的持续进化。
· 高效解决访客需求
通过开发基于大模型、多模型集成与知识蒸馏的语义匹配算法、设计基于 FAISS 语义搜索引擎的智能推荐方案,同时结合知识图谱,构建智能客服机器人。
· 低成本及高可用
构建白名单管理平台,使用正则表达式和完全匹配的方式拦截不良案例;通过CPU 离线计算、通过分布式计算分配线路等方法实现去GPU化,降低处理器成本。
· 快速冷启动
采用语义检索、算法聚类推荐等技术打造基于行业的知识包;使用 Paraphrase 生成模型、“回译”等方法获得相似问法候选项与问法集,构建冷启动助手,使系统具备学习行业知识和极强的变通能力。
图:云商团队采用了称为“回译”的方法增加相似问法。该方法借助于翻译模型,将标准问法翻译成英、日、法、德等多国语言,再将翻译结果译回中文,以此获得近似问法。给该方法在设计排序模型时,需要同时考虑语义相似度和句法结构多样性两个维度:对语义相似度,通过获得相似问法和标准问法的语义表征向量来计算相似度;对句法结构多样性,通过编辑距离来获得。方法随后综合两者得分,获得最终排序结果。
持续创新的AI系统架构
AI系统是一个相对比较宽泛和完备的概念,涵盖了一个AI任务落地应用的各个环节。将其概念拆解,则包括数据、模型、算法、解决方案、部署与加速等五个部分。五个方面任一存在短板,都可能成为制约AI系统总体性能的瓶颈。把握系统性研发的难点在于,需要同时立足于这五个环节。而在此之上,还需进一步结合业务场景的某个具体问题和特点,进行具有针对性的设计、创新和落地实施。
报告的第三章对数据、模型、解决方案、算法及部署这五个方面逐一展开,以网易智企AI技术团队所采用的架构为线索,总结当前AI系统架构的创新发展与实践方法论。
为企业插上AI技术的翅膀
互联网普及率的上升正在推动音视频市场急速增长,渗透率持续上升;5G技术的突破促使高质量的音视频对话、内容输出、多媒体实时交互成为可能。在此趋势下,借助音视频技术所构建的新业态与暴增的多媒体内容进而引发了用户、政府及行业对内容安全的关注。
不断萌发的需求带来了企业业务模式创新的空间。本章节通过研究网易易盾、网易云信和网易云商的落地案例,详细解读其技术团队如何在充分深入理解业务场景的特点、难点和问题的基础上,系统性地进行探索和优化,完成 AI技术的落地。
报告的第四章通过研究网易易盾、网易云信和网易云商与汽车之家、网易云音乐及松果出行的三个真实技术合作案例,聚焦企业如何通过采用高效、专业的AI解决方案抓住市场机遇,实现业务创新与发展突破,探索人工智能如何帮助企业在内容风控、音视频通信及营销客服场景实现突破与创新。
图:云信为网易云音乐独创提供了实时合唱的融合方案,其一是串行合唱方案,优势是受弱网和物理环境的干扰影响小,可保证观众端的体验,但是无法真实还原主唱副唱之间的实时合唱体验; 其二是实时合唱方案,在网络和设备情况良好的情况下可完美保障主唱副唱之间的实时合唱体验,为了能全覆盖用户场景,不损失优质用户的体验,云信合唱方案支持根据用户不同环境下进行串行和实时合唱方案切换,以达到全环境覆盖。
变革中的AI技术
伴随AI算法的发展与突破,越来越多的企业开始熟悉各类AI能力,并逐步解锁了更多的难点场景。与此同时,人们对信息安全、隐私保护的重视程度也在逐步加深,可信AI成为了学界、产业界乃至政府部门的重点关注领域。
此外,在人工智能发展过程中,长期存在的数据问题也在近期愈发得到重视。吴恩达教授于2021年发表的论调中指出,太多人工智能研究工作聚焦于模型,而忽略了数据,但稍作优化的数据往往能对模型或算法的性能带来更明显的提升。另一方面,优质的数据同样能够为企业在AI模型训练、应用开发等工作中带来极大增益。由此,Data Centric AI也成为了学界与产业界的关注重点。
报告的第五章将从可信AI与Data Centric AI 两方面探讨当前人工智能技术的变革趋势,洞察业界在该方面的最新工作。
展望AI技术前沿
过去的十年,是以神经网络、深度学习为代表的新一代AI算法在计算机视觉、自然语言及语音等领域取得了革命性进展的十年。在这十年里,数字产业的创新发展,为各行各业开拓了新的业务场景,也为现代企业带来了新的发展机遇。人工智能技术的发展脚步将持续迈进,技术的突破与创新将继续层见迭出。
报告的最后一个章节将从多模态、无监督与超大规模和工程自动化三方面汇总学界、业界对AI技术前沿的观察。