打造 10 万人在线也不挂站的互动系统,17 Media 直

17 Media 是台湾着名直播平台,不仅 App 获得千万下载,更成为上万直播主品牌经营与粉丝培养、互动的一大管道。目前 17 Media 的 全球注册会员约为 4,000  万人,主要集中于台湾、香港、日本地区;面对庞大会员带来的网路流量,17 Media 却少有网路断线、直播延迟或是当机的状况发生。TO 访问了 17 Media 的背后技术团队,找出 17 Media 弹性应对危机,以及抵御高流量负载的成功策略。

「在用户反应系统变慢之前,我们早就监控到了」

17 Media 流量高峰主要在晚间 12 点到半夜 2 点,尤其在特定活动或节日,甚至有将近 800 至 1000 位直播主用 App 播送讯息。17 Media 资深 SRE 工程部经理林毅民说明,直播产业与电商业商品销售秒杀的消费者习惯不同,网路流量往往会以一个斜率增加,通常少有突然暴增的流量进入。而这个特性则给予 17 Media 一个产业优势,让他们可以提早做数据分析,整理出流量高峰时段,并做事前机制预防。

17 Media 后端工程部总监陈义雄说明,17 Media 建构了一个自动化系统,透过 CPU 做流量峰值监控,并在所有可能有突发状况的地方设置流量警戒线。当 App 用户开始增加,系统会依照即时流量弹性开设伺服器进行系统支援,并在流量超越警界线时预警技术团队,做紧急处理。此举不仅让 17 Media 的 IT 成本大幅降低,同时也做到资源最大利用,有效将用户体验放在第一线思考。此外,17 Media 技术团队也实时监控流量峰值,处理各地区系统意外发生,确保 App 用户体验品质。「当用户反应系统变慢之前,团队早就监控到了」林毅民重点强调到。

然而,总会有突然停机的大型突发危机出现。林毅民说明当有类似状况发生,17 Media 的 SRE 与后端工程部会组成小型的短期应变小组,从不同角度拆解问题,找出解决方法。透过小组行动,团队变得更灵活,沟通的管道也可改为线上会议指派任务处理,不只提升效率,也让技术团队有办法分拆多组,同步解决大量问题。

17 Media 如何创造 10 万人在线也不垮的互动系统?

17 Media 去年年初与八大电视台首次合作推出互动游戏节目「17 好聪明」,节目中观众可以用手机答题、留言、按喜欢,且能在电视上看到互动结果。这在技术上有一定的困难,陈义雄提到,系统除了得讲求低延迟、高速率,也因为是互动节目,系统最高得负荷 10 万人在线互动还不垮站,而且因为是第一次处理,所以挑战难度偏高。

陈义雄说到,节目开播 2 个月前,后端与 SRE 技术团队 组成 7 人的压力测试小组,进行系统的流量负载力测试。团队小组发现,系统虽然得容纳 10 万人互动,但电视台并不会随时都保持在 10 万的流量顶峰上,也会以斜率逐步增加。依照观众特性,团队不断试错,在系统测试上依照 3,000 至 5,000 人的数字往上增加,当流量超过负荷,就停下来侦错、除错,解决后继续测试,直到每个互动环节都能够承受预估数字为止。「我们一开始在差不多 2、3 万人时,系统就垮了」陈义雄强调。

林毅民解释,互动节目中有一个投票的环节,因此系统承受的流量将以「週期」的方式循环,而当时 17 Media 技术团队的系统模型也模拟了类似的情形。

17 Media 是亚洲大型直播集团,谈到未来目标以及最大挑战,两人毫无疑问的讲到,如何将从直播主到用户的讯号延迟缩短将是未来直播业的一大关键,其中不只涵盖大量技术问题,同时也得考验团队扩张与资安管理。此外,面对 2020 年 5G 商转,17 Media 的直播技术又会如何进化演变?直播业的技术变化值得我们一再观察。

您可能感兴趣的文章