Image

阿里云发布视频云直播3.0产品

2020-09-22

9月18日召开的“云栖大会”上,阿里云视频云发布了视频云“直播3.0”产品,助理各个行业实现第二增长曲线。

基于云计算的发展成熟,视频云的概念也在不断探索音视频技术的边界和融合更多更典型的空间场景,目前比较成熟可见的产品,主要包含视频直播、视频点播、音视频通信RTC、智能媒体生产与处理等等。

image.png

视频云技术的核心与极致——超低延时、超高清、低成本

从线下搬到线上的云活动,这背后的本质就是直播技术,今年其已成为多行业标配。对直播而言,有三个重要元素:成本、质量、延时。一场直播,成本考虑的是如何高效、便捷地触达直播的受众,并能支撑百万千万的并发。质量,考虑的是音视频的画面清晰度、流畅度、卡顿度。而对于延迟层面,低延时是实时互动的关键,是视频直播的核心技术。在行业端,成本、质量、延时之间一定是相互平衡的关系,而直播中的“延时”是最直接的体验,一般将延时分为几类:普通延时、优化延时、低延时、超低延时,达到5秒的延时才可成为低延时。传统直播的延时来源于链路的五个环节:采集编码、上行推流、CDN分发、下行拉流、解码渲染,视频云技术正是需要对直播全链路进行优化,行业中,阿里云便是通过如此的技术优化,推出超低延时技术(RTS),延时可以做到1秒以内,同时在直播连麦的部分,主播和嘉宾利用WebRTC通道,延时可达300毫秒,体验极其顺滑,这对用户端、企业端、行业端都是极大的技术普惠。

在直播之外,视频内容也正全面爆炸,视频制作愈发平民化,数据显示,2020年中国人日均观看在线视频的时常高达250分钟,近三年全球每月的视频流量增长了三倍,这些视频分布在短视频、点播、直播等领域。而视频云技术的重点任务,就是让互联网上这些海量视频都提升为高质量视频,并追求这个过程中的极致成本,要达到这个目标,需要解决三个问题:第一,如何应对低质量的视频源;第二,互联网视频是将视频的制作成本转移到云端,所以制作成本极高,需要普惠降低成本;第三,电视广播一般带宽很高,动辄百兆级别,但很多用户还是在弱网低带宽情况下接入网络。对此,可利用视频云技术,通过窄带高清编码来解决上述问题,以达到高清晰、低成本、低宽带,并能最终普惠影院级的视频服务。简单而言,“窄带高清”就是将用户上传的视频,通过视频云的处理、转码之后,变得更清晰,同时对带宽的占用更低。对此,阿里云研发团队对所谓“视频质量的提升”进行了重新定义,基于用户主观质量并对其建模,通过千频千面的大数据分析对不同的视频达到最优效果。据了解,其最新推出的窄带高清版本,最大亮点是将成本相比原来有数量级的下降,从而实现技术的极大普惠和大规模的商业化。

image.png

视频云驱动行业生长第二增长曲线

对于视频云的发展,其更核心的价值在于技术的极大普惠,赋能于更多典型的场景和更多行业的创新。目前,伴随视频云技术的探索,已经攻克了疫情期间一些重要场景的互动形态问题,突破了一些商业发展的瓶颈问题,也在创造一些行业交互发展的新空间,很多行业和场景都演进到新的发展阶段,尤其在电商直播、在线教育、社交娱乐、媒体资讯等方面,我们能看到,视频云技术在驱动行业增长的第二曲线,带来了新的空间、新的体验、新的可能性。

数字视频新基建助力在线教育“战疫”

疫情期间,全民教育从线下转为线上,得益于持续打造的数字视频新基建,视频云的网络与媒体处理产品在全面助力学校“停课不停学“工程。针对在线教育领域,视频云拥有一站式教育解决方案,同时还将服务能力拓展到更广阔的教育场景。

以学信网为例,在疫情期间恰逢整个中国的研究生复试,数据显示,2020年硕士研究生招生报考人数达到了341万,远程视频面试作为其新的交互形式,可以通过多机位视频互动、多项技术核验认证,来保障面试过程科学有效、公平公正。据学信网技术负责人程卫星介绍,学信网基于阿里云承接起了今年远程面试的重要任务,短期内,在学信网硬件条件有限的情况下,视频云团队将云服务集成到学信网的业务系统中,充分结合其业务特点和业务流程,助力学信网极大提高系统的承载力和稳定性。在面试期间最高峰同时有3199考场、9758路视频并发,整个系统运行平稳顺利。此次研究生复试,学信网通过视频面试系统的使用,与往年相比,复试的调剂效率显著提高,整个工作周期明显缩短。

image.png

AI编辑部开启智慧新闻表达时代

目前,传统媒体已经进入到深度融合阶段,如何利用视频AI的能力赋能是重要问题。人民日报媒体技术股份有限公司杨海霞介绍,传统媒体的核心链条包含视频拍摄、生产制作、媒资管理和分发传播,面对大量的视频内容生产制作和审核分发,提高效率是核心问题,而视频AI恰起到关键作用。

针对媒体内容的生产制作环节,体现在智能转码、智能合成、智能配音三个场景能力。首先,是针对大量外部视频素材的转码需求,人民日报利用视频云的窄带高清技术,直接与自身业务系统集成,来完成转码智能动作,并在过程中对不佳画质做技术处理,提升整个视频的质量。第二,是生产精品视频的大量原材料的AI智能合成,包括对内容的智能提取、转场效果、背景音乐等按照一定模板进行智能合成,并批量化生产输出视频,如现在很多赛事的精彩集锦和数据新闻。第三,是AI智能配音,即AI通过声纹采集和文字转语音,可系统智能地完成内容的自动配音和合成,由此极大提升媒体内容的生产效率。

同时,在媒资管理和分发传播环节,人民日报与阿里云视频云团队合作,通过人脸库和物理库,实现人物识别、物体识别、语音识别、OCR识别,从而生成智能标签,利用于高效的媒体检索,并更好的在分发端进行智能推荐和相关推荐。此外,当前的党媒正在将UGC模式更好的应用其中,这就涉及要对UGC生产提供智能的支持,同时又要通过智能审核保障内容的安全性,在一些大的省级融媒云平台上,已经广泛应用到了这些智能技术。综合从全业务场景和链条来看,视频AI能力已大大提升了传统媒体生产、分发的效率和质量。

直播翻译系统助推电商出海

毋庸置疑,电商直播是今年的超热话题,它结合了视频直播和网红直播的优势,处在蓬勃发展之中。阿里巴巴旗下面向全球市场打造的跨境电商平台“速卖通”(AE),被称为“国际版淘宝”,面向海外买家,其平台商家也非常希望能更好地利用直播沟通把商品卖到海外。但是,AE的商家中,87%为中国人,受限于外语能力无法参与直播,同时,AE的用户来自于上百个国家,即使主播有外语能力,也无法覆盖到每一个用户语种。基于此,阿里巴巴达摩院与阿里云共同打造了世界上第一个电商直播翻译系统,该系统依托于视频云强大的视频直播、媒体处理服务能力,结合了导播台的ET字幕产品方案和视频翻译技术方案,最终打造的AE直播翻译系统,整体链路延时小于1秒,让电商直播沟通体验全新升级。

该系统在今年5月上线后,大批“无外语能力”的淘系商家涌入AE直播,自如的运用中文进行直播卖货,通过直播翻译系统译成英语、俄语、西班牙语等等,世界各地的观众都能实时看到带有当地语言字幕的直播视频,还可与主播沟通互动,最终,带来的销售转化高于普通AE商家的20倍。未来在此系统基础上,会继续深度研发多语向互译,让商业没有语言障碍,让技术普惠能量升级,让天下没有难做的生意。

虚拟交互技术打造娱乐新价值

视频云对视频时代的加速推动,体现在新内容和新交互两个层面,而交互方式的探索在娱乐行业具有更大空间。疫情期,在线娱乐行业迎来爆棚式发展,也让行业借此更加审视在交互体验上的突破价值。优酷作为视频内容的重要阵地,结合视频云技术,开展了对互动视频体验的全新升级,集中体现在三个关键词:一是直播化,即基于DIBR重建技术,让用户在自由的视角进行任意的观看,实现自由视点互动直播化。二是游戏化,通过人脸识别、动捕系统等体感互动技术,赋能视频的游戏化体验,其中的技术已应用在优酷即将播出的动漫IP上,可实现用户和IP的互动,进而增加用户粘性。三是特效化,在综艺、体育领域与AR特效的融合,创造全新的交互体验,尤其当AR特效应用于体育赛事场景中,可以让观众实时了解当前赛事情况,在优酷2020年CBA直播中,其利用阿里视频云技术,打造比赛中的“子弹时间”特效,通过自动化、准实时的CBA云特效合成,让观众以自如的视角观看当前谁在投篮,显示命中率是多少,当前阵型如何等等,达到现场实时直播输出的效果。

所有以上的特效互动技术,都得益于目前CV和CG技术,两者结合助力于互动特效视频的自动化、批量化生产,相较于传统方案可以提速百倍。基于此,我们对未来的期待一定是虚拟世界、增强世界和物理世界三元合一的状态。

image.png

2020年视频行业的爆发,加速了视频云的应用和对多场景互动形态的探索,视频云技术也致力于不断创新内容和交互方式的改变,“未来,随着人工智能、5G、AR、VR技术的加速创新、视频与云计算的高效融合、以及视频云技术本身的不断演进,一定会有越来越多的行业和场景,基于视频进入新内容、新交互的时代,创造新的业务价值,引领行业的第二增长曲线。”阿里云林昊的这句话,充分展现视频云技术在未来的发展。张铭阳

责任编辑:郭旭晖 龚丽华
阅读
转发
点赞
评论
加载中...

相关新闻