音视频技术开发周刊 | 217-摩杜云开发者社区

每周一期，纵览音视频技术领域的干货。

音视频技术开发周刊 | 217_人工智能

即构科技：解决行业痛点，以MSDN为基础构建全球实时音视频通信云

近日，LiveVideoStack很荣幸地采访到了即构科技RTC后台技术总监——肖潇。在访谈中我们了解到即构科技在构建全球实时音视频通信云的过程中，针对海内外出现的不同情况，依托其自研的MSDN基础网络，采取层级式的内容分发架构，去适配海外各个地方的差异；并且会把每个国家/地区的当地行政区域划分、当地运营商等情况进行详细地研究；另外，端侧灵活的云控能力也是不可或缺的。

华为云网络覆盖全球2500+站点，打造高品质、低成本接入体验

9月23日，华为云举办了线上华为全联接大会，今年的全联接大会以“深耕数字化”为主题，探讨了各行各业如何通过打造云技术、构筑云生态，积极实现数字化转型。LiveVideoStack近期也采访了华为云媒体服务资深产品专家卢志航，和他一起讨论了华为云RTC技术、5G与RTC的技术结合，华为云最新发布的SparkRTC实时音视频服务，以及RTC未来应用场景等话题。

对话RTP作者Ron Frederick: 我非常期待QUIC的发展

RTP和RTCP是处理所有多媒体传输的重要协议，于1996年1 月在RFC 1889中定义。最近，LiveVideoStack邮件采访了RTP的作者之一Ron Frederick。在访谈中，他向我们讲述了RTP是如何创造出来的，并分享了他对当下流行的WebRTC和QUIC的看法。Ron还回忆了1992~2000年他在施乐PARC工作时的美好时光。

音视频技术开发周刊 | 217_机器学习_02

ICCV-2021 Oral | AdaFocus：利用空间冗余性实现高效视频识别

现有高效视频识别算法往往关注于降低视频的时间冗余性（即将计算集中于视频的部分关键帧），如图1 (b)。本文则发现，降低视频的空间冗余性（即寻找和重点处理视频帧中最关键的图像区域），如图1 (c)，同样是一种效果显著、值得探索的方法；且后者与前者有效互补（即完全可以同时建模时空冗余性，例如关注于关键帧中的关键区域），如图1 (d)。在方法上，本文提出了一个通用于大多数网络的AdaFocus框架，在同等精度的条件下，相较AR-Net (ECCV-2020)将计算开销降低了2.1-3.2倍，将TSM的GPU实测推理速度加快了1.4倍。

揭开“视频超分”黑科技的神秘面纱

在看电影时，有一幕大家应该都非常熟悉，警察从证据图片中选取一块区域放大，再放大，直到一个很小的目标变得清晰可见，从而发现重要的线索。现实中是不是真的有这样的技术，可以把模糊的小图变得清晰？答案是，一定程度上可以，这项黑科技就是超分辨率技术，从低分辨率图像恢复高分辨率图像，提高图像的质量，从而获得更加清晰的图片。超分辨率技术具有广泛的实际应用，如医学图像重建、人脸图像重建、远程传感、全景视频、无人机监控、超高清电视等。同样道理，实时视频也可以进行超分辨率处理，将模糊的小分辨率视频变成高清超高清视频，本篇干货分享就来揭开这项黑科技的神秘面纱。

白话解读 WebRTC 音频 NetEQ 及优化实践

NetEQ 是 WebRTC 音视频核心技术之一，对于提高 VoIP 质量有明显的效果，本文将从更为宏观的视角，用通俗白话介绍 WebRTC 中音频 NetEQ 的相关概念背景和框架原理，以及相关的优化实践。

中央广播电视总台北京冬奥会转播技术资源概述

2022年，北京冬奥会将利用最新的媒体技术进行赛事转播。对于奥运会持权转播商来说，转播技术资源的规划和配置是筹备工作的重点，也是赛时转播系统运行的基础。本文介绍了北京冬奥会主转播机构奥林匹克转播服务公司的国际公共信号制作标准、新技术新服务，以及总台转播资源规划及技术预定概况。

音视频技术开发周刊 | 217_网络_03

在Windows Server上大规模部署HTTP/3

Windows Server 2022 已于上月发布。从那时起，通过与Microsoft 365团队的合作，我们已经开始在全球的Exchange Online服务前门服务器上部署最新的Windows Server，主要目标是在https://outlook.office.com中添加对HTTP/3的支持。到目前为止，我们只将部署规模扩大到前端服务器容量的20%，但我们得到的数据看起来很棒!

https://techcommunity.microsoft.com/t5/networking-blog/deploying-http-3-on-windows-server-at-scale/ba-p/2839394

音视频技术开发周刊 | 217_编程语言_04

针对非块架构的帧间预测可伸缩运动模型

本次演讲主题为针对非块架构的帧间预测可伸缩运动模型（Switchable Motion Models For Non-Block-Based Inter Prediction in Learning-Based Video Coding），在进行帧间预测时，同时使用Affine运动模型和平动运动模型，得到两个候选图像，通过两者之间的差异图像进行分割，为每一个区域判断使用那种运动模型，综合利用Affine运动模型和平动运动模型两者的优点，带来主观和客观的性能增益。

基于 CNN 的 VVenC 编码加速

这篇文章主要介绍了基于学习的编码算法与 VVenC 相结合之后的实验性能，结果表明将这些基于 CNN 的算法迁移到 VVenC 上对于实验性能提升也是十分有效的。

音视频技术开发周刊 | 217_编程语言_05

StyleGAN3问世，等变性perfect！皮肤、毛发不再粘屏幕，还能360度旋转 | 终于开源了

StyleGAN生成式对抗网络是一种最先进的高分辨率图像合成方法，从最初的GAN到StyleGAN2变体，其图像合成能力一直在突破人类的想象，而这次升级版StyleGAN3的对生成细节的把控更是令人惊叹！

音视频技术开发周刊 | 217_大数据_06

智能座舱架构与功能开发流程详解

智能汽车座舱发展主要经历了四个阶段：包括电子座舱阶段、智能助理阶段、人机共驾阶段、第三生活空间。当前随着智能汽车在AI算法、智能驾驶上的不断发展进入了L3级自动驾驶的“人机共驾阶段”。在智能座舱的表现形式为该阶段包含对语音控制和手势控制技术突破，车内软硬件一体化聚合，实现车辆感知精细化，车辆可在上车-行驶-下车的整个用车周期中，为驾乘人主动提供场景化的服务，实现机器自主/半自主决策。AI座舱核心价值将表现为基于场景的主动化交互和服务，很多也被称之为SOA的智能车服务。

音视频技术开发周刊 | 217_机器学习_07

MPAI正式启动端到端的AI编码标准

近期，MPAI创始人、MPEG前主席Leonardo Chiariglione在他的博客上宣布MPAI正式启动端到端的AI编码标准。Leonardo表示，在各方编解码器竞争激烈的态势下，MPAI将保持更加清醒的态度，积极致力于基于AI的视频编解码方法。

09 / LiveVideoStack主编观察：有趣的灵魂是一面镜子

过去一段时间，与几位技术人的直播聊天让我收获不少。把自己当做产品。不仅仅是工作输出如此，人与人之间的关系，leader对团队的管理，都可以用产品来类比。此时，自己就是交付给别人或团队的产品，要考虑用户需求（换位思考）、场景、接口（沟通能力）、体验优化。

韦东奕陈杲同获达摩院青橙奖，90后数学新星光彩夺目，却说「没有黄金一代」

一个是被田刚院士赞许——“完全有可能成为国际著名数学家”的北大扫地僧。一个是26岁攻破世界级难题、成果登上世界数学四大刊之一《数学新进展》的中科大特任教授。此番又双双在国内颇具分量的公益性学术评选中亮相，难怪外界会有这样的看法：新数学黄金一代风头正劲。但身处聚光灯中心的人们，却表达出了没有黄金一代，只有一代更比一代强的意思。

2021年中国基础云服务行业数据报告

中国整体云计算市场规模再创新高，市场规模达到2256.1亿元，未来有望迎来新一波增长机遇。在服务形态上：当前中国云计算市场，仍以云资源（IaaS）需求为主，但云能力（PaaS）已逐渐成为驱动中国云计算市场持续扩张的重要增量因素。在部署模式上：公有云仍然占据主导地位，非公有云通过多种形态，将云能力向公有云领域延伸。

元宇宙的七个挑战

新事物会带来机会而挑战也是伴随而来。然而现实却是人们还没准备好克服元宇宙将带来的挑战。当中包括了知识产权的纠纷，数据保护和隐私问题，法律问题，货币和支付系统问题，科技上的限制和民众接受度仍然低等等挑战。除了上述之外，高资本投入以及元宇宙是否成为垄断性极强的产业也是一个挑战。