人工智能如何利用GPU和服务器打破体育广告垄断
体育场馆的广告最初是静态的,针对的是参加特定城市特定活动的人群。后来,LED 屏幕出现,交替显示广告。下一个发展是将绿屏插入广告牌上的点,持续时间为几分之一秒,让人工智能定义空间并插入独特的文字。
如今,你可以用任何东西替换任何东西。挑战在于确保替换过程谨慎而真实。这个市场的主要参与者使用特殊相机。从照片中,我们可以得出结论,有专门的传感器可以辨别定位和对齐信息。也就是说,流行的解决方案仍然有硬连线的拐杖。
所有这些都需要巨大的计算能力,因为输入和原始广播都是由专门的在线软件处理的。也就是说,计算服务器连接到摄像头和传感器。这种设备价格昂贵,市场封闭,技术也封闭。这就是人工智能和云 GPU 服务器可以拯救的地方。
它是如何工作的?
体育赛事场馆的视频信号不仅可以在场馆本身使用计算能力进行处理,还可以在云端进行处理。这样可以灵活分配负载,并可以选择何时投放广告:在广播之前或广播期间,同时考虑到不同的市场。此外,使用云服务可以让你在无法放置服务器的地方投放广告(原则上更方便)。
对象分割基于 U-Net 的神经网络架构。神经网络负责定位对象并检测和比较关键点。然而,这项任务并不简单,因此必须重新设计和训练所有解决方案和神经网络才能使用。这在武术转播中尤其困难,因为从图片的角度来看,一切都是不可预测的:光源、阴影、摄像机角度、网格重叠的赞助商徽标以及拳手和裁判的身体。
神经网络并非无处不在。有时,为了解决问题,只需发挥聪明才智并使用简单的算法就足够了。例如,跟踪算法结合了神经网络方法以及线性和非线性方程组。
GPU 的很大一部分用于分割。对画面中人物和物体的检测以及按计划和类型进行分离的效果越好,在广告叠加后画面看起来就越自然、越有吸引力。
另一项任务与光照和阴影有关,在增强现实中渲染场景时必须考虑到这一点。阴影的真实性是评估图片“可信度”的关键要素。
传统上,体育神经网络使用人工标记和合成模型在真实转播上进行训练。而 Blender 则派上了用场,该公司通过构建拳击台、拳击手和裁判的 3D 模型,从正确的角度渲染真实镜头,并获取训练所需的分割蒙版或物体和摄像机的位置。真实数据的标记既耗时又昂贵,但对于特定场地或比赛类型来说质量很高。真实性较差的合成数据可为训练提供更多数据。
最大的困难在于场地可能各不相同。有的场地是带绳索的拳击台,有的场地是带网状墙的竞技场,每种情况都给划分带来困难。
通过将场地 3D 模型中的点云与画面中的实际位置进行比较,可以确定摄像机跟踪和广告位置。这样,即使是运动混乱的手动摄像机,也可以确定位置。从 2D 重建 3D 画面(确定所需角度)后,在 3D 引擎中直接渲染广告,并将其与视频广播画面相结合。
开始工作之前,我们必须构建一个 3D 场景,实际上我们在框架中有一个场地的虚拟副本,我们通过渲染蒙版将真实的人和物体放入其中。这听起来很复杂,但只要有合适的能力和优化的神经网络,就可以立即无缝地完成这些翻筋斗。