本文是关于2023年Flink Forward Asia闭门会议的总结。其中详细阐述了阿里云实时计算技术在不同行业的应用情况,以及企业如何利用这项技术来满足业务需求。文章主要分为四个部分:首先是业务需求如何驱动技术架构的演进;其次是实时计算技术在多个行业的实际应用案例;接着是分析实时计算在各行业的发展趋势;最后是对全文的总结。文章还提供了一个链接,供读者进一步了解阿里云实时计算技术。 图片 随着企业对数据分析需求的日益增长,传统的单机数据库系统,例如MySQL、Oracle或DB2,已难以满足对历史数据的深入分析需求,尤其是当数据量和时间跨度扩展至数年时。为了应对这一挑战,分布式数据库技术应运而生,如Teradata和Greenplum,它们能够提供更高效的数据分析能力,解决了数据量庞大和处理速度的双重问题。自2006年Hadoop成为开源社区的重点项目后,企业开始大规模采用这一技术进行离线数据分析,这标志着数据处理能力的一个显著提升。随着互联网技术的快速发展,数据仓库所处理的数据类型也日益多样化,包括互联网行为日志和终端设备产生的时序数据等,这些数据往往需要通过MapReduce、Spark或Python等工具进行预处理和分析,而传统的SQL和存储过程已不再适用。Hadoop等新技术的出现,帮助企业顺利过渡到这一新阶段。随着业务需求对数据时效性的要求不断提高,企业不再满足于T+1的数据更新模式,而是需要根据实时或近实时的业务动态来作出决策,这推动了流计算技术的发展,Flink等实时计算平台逐渐成为企业实时数据处理的新标准。 图片 金融领域在实时计算技术的应用方面呈现出多样化的发展态势。实时信息推送、股票市场的即时波动等,都是金融行业实时计算技术的应用实例。此外,金融机构还提供面向企业的服务和针对私募基金的定制服务。在大客户营销领域,监管报告的针对性监管报送尤为重要,需要实时向监管机构提供企业与金融机构的风险信息,这背后依赖于强大的实时计算技术支撑。

以下将展示两个金融行业应用大数据实时计算技术的具体场景。例如,在证券交易领域,实时计算技术能够实时捕捉和分析交易行为,为投资者提供决策支持。 图片 在当今股市交易中,实时监控的重要性日益凸显,因为股价的快速波动要求投资者的交易行为必须得到即时的监管。例如,注册制实施前,如果某股票价格为100元,投资者可以设置110元的买入价,可能在很短时间内股价就上涨到110元,从而获得10%的收益。但注册制实施后,对挂单价格进行了限制,规定不得超过当前卖出价的2%,即最高挂单价格为102元。这要求交易监控系统必须能够快速反应,及时进行监控和告警,必要时阻断交易,以防止数据合规性问题的发生。例如,订单数据,包括股票买入量、当前报价和股票代码等,会以实时数据流的形式进入系统,并通过消息队列进行处理。同时,还需要结合股票的基本信息,如财报数据、昨日的涨停价和开盘价等,这些信息存储在Hologres中,以维表的形式存在,用于与实时数据进行关联。关联后的数据通过Flink进行加工和分析,一旦检测到订单价格超出当前价格的2%,系统将立即采取阻断措施并发出告警。此外,为了实现更为精细的风险控制,系统还采用了复杂事件处理(CEP)技术来实现风控规则。同时,系统还可能需要引入离线数据来补充用户信息,这些离线数据每天按照T+1模式更新,通过分析历史数据与实时数据的结合,可以对交易行为做出更为精确的判断。 图片 银行和金融机构经常推出各种促销活动,这些活动可能涉及股票和基金等投资产品。用户通过应用程序或网页参与这些活动时,系统会实时生成一条消息流。系统的任务是判断用户应获得多少优惠券,并使用积分奖励来激励用户完成购买,从而实现销售的闭环。为了高效处理这一流程,整个链路采用Flink和Hologres技术进行支持。

在汽车行业,尤其是新能源汽车领域,数据的重要性日益凸显。随着产业的快速发展,数据量激增,云平台上的数据存储成本已经超越了计算成本。这一现象表明,尽管在云服务中存储通常比计算更为经济,但汽车行业因其数据增长速度之快而形成了独特的成本结构。 图片 汽车产业涵盖了从研发、制造、供应链管理、销售到售后服务的全链条,每个环节都充满了实时性的需求和应用。在研发阶段,实时监控研发进程和参数至关重要,能够及时预警潜在问题。供应链管理中,实时预警机制对于确保零部件供应的稳定性至关重要,任何环节的不稳定都可能对企业的业务目标和销售业绩产生重大影响。销售环节中,对消费者的商品推荐和行为分析对于提高销售效率和客户满意度至关重要。在服务阶段,提供高质量的汽车服务不仅能增强客户忠诚度,还能促进二次销售。特别地,新能源汽车的车联网技术,随着车载摄像头、传感器和雷达的广泛应用,数据采集量急剧增加,为汽车行业带来了新的机遇和挑战。 图片 随着技术进步和业务需求的不断增长,客户的数据采集频率已从过去的每日一次,提升至每秒一次,年增长率惊人。例如,某客户目前每天需要处理高达42亿条数据,而汽车行业客户更是要求每500毫秒进行一次数据采集。以30万辆汽车为例,每秒产生的数据量就高达30万条,且每条数据可能包含3000至4000个字段,这对数据处理和分析提出了更高要求。在车联网领域,TBOX或TSB等车载平台采集的二进制数据,需要通过Flink等技术进行转换,以便进一步的结构化分析。此外,Hologres提供的实时在线分析服务和低成本存储解决方案,为汽车行业在处理海量数据时提供了有效的成本控制策略。新能源汽车行业利用这些实时数据,可以开展多种应用场景,如车辆状态监控、驾驶行为分析、能源管理等,为行业发展提供了数据支持。 图片 在当前场景下,我们能够收集到包括车辆所在车道、驾驶员是否双手握住方向盘、车辆速度及其转向信息在内的多种车辆数据。通过对这些数据的分析,系统可以识别出驾驶员是否有潜在的不安全驾驶行为。例如,如果驾驶员在五分钟内持续不握方向盘,或者在高速公路上以超过150公里/小时的速度行驶超过五分钟,系统将判定为危险驾驶行为,并可能触发预警机制以通知用户。此外,通过分析用户的驾驶习惯,系统还能为用户绘制画像,并在用户购买新车时推荐更符合其驾驶风格的车型。目前,超过70%的车联网平台都部署在阿里云上,无论是传统汽车制造商还是新能源汽车的领军企业。基于这些企业的实践,阿里云开发了一套针对车联网行业的推荐架构,许多顶级汽车制造商都依据此架构构建其车联网平台。 图片 实时数仓与实时计算在数据处理和存储方面有着本质的差异。传统数仓处理数据时,会经过多个层级的分层处理,如DWD、DWS和ADS等。而实时计算则由于缺少统一的存储结构,使得数据层次化处理变得相对复杂。例如,原始数据可能存储于Kafka,而经过处理的数据可能存放于RDS,这导致数据难以集中管理。阿里云通过整合Flink和Hologres技术,实现了数据在消息队列中的存储和Flink的实时处理,之后将数据以宽表格式统一存储于Hologres,从而实现数据流的即时分析与处理。这种技术整合允许业务部门将数据以宽表格式存储于Hologres,并通过Flink加工形成指标数据,避免了对其他数据库的依赖,简化了数据架构并提高了处理效率。所有前端应用、报表和数据产品均可通过Hologres实现数据的统一访问和输出。在物流行业,预计今年将有超过半数的企业采用实时计算技术,以提高数据处理的实时性和准确性。 图片 物流行业与零售业在数据流转上具有相似之处,都是以人、货物和地点为核心要素。随着对位置信息需求的不断增长,物流行业特别重视实时数据的处理和分析。用户下单后,他们期待能够随时跟踪包裹的实时位置,这促使物流企业加强了对位置数据的实时计算和处理能力。数据的生成始于用户通过移动应用程序下单或电话预约快递员上门服务,形成订单信息。这些信息在物流公司内部经过处理后,转化为具体的运输订单。运输订单一旦生成,就会在配送和签收等环节中发挥作用。整个过程中,对数据链路的时效性要求越来越高,用户对数据更新的期望也越来越高,他们希望每一秒都能获得最新的快递动态。例如,在大件物流领域,与小件快递相比,大件物流更侧重于快速运输服务。 图片

快运服务的一个特点是车辆类型的多样性,包括大、中、小型车辆,此外还有许多特定的标签,比如载重能力。例如,如果一个客户需要运输两吨重的物品,但是分配了一个能承载十吨重的车辆,这显然会有些浪费。背后的匹配逻辑相当复杂,因为有时两吨重的货物实际上可能因体积较大而需要更大的车辆。那么,该如何有效地进行车辆与货物间的匹配呢?这就需要通过数据对车辆和货物进行精确的标记,随后实时计算技术便可以根据用户货物的变化和位置变化进行合适的匹配与推荐。

接下来看第二个场景:

图片

疫情期间所带来的挑战可能让人感受更为明显,比如一个企业负责从杭州到北京的大件物流运输。在这种情况下,可能会遇到运至某城市时发现该城市正处于疫情管控,无法通过。这样原本确定的物流单可能被迫取消,导致货主双方都面临一系列问题。为了解决这类问题,借助实时计算技术,司机可以实时上报自己的位置和其他相关信息,这通常需要硬件的支持;同时,货主端也能实时监控货物的状态变化。通过这种方式,能够有效提高整个物流过程的效率和响应时效。

以下就是围绕刚才讲的两个场景,物流行业场景的整个技术架构图。

图片

图片

总体来看,涉及的数据包括订单数据、货源数据、司机数据以及用户会员数据等。这些数据如何进行有效匹配呢?在这样的数据架构背后,不仅包括了实时的流消息,还涉及到离线的用户标签数据、车辆的静态维度表数据等多种数据类型。利用 Flink 技术,可以综合处理这些不同来源的流数据和静态维表数据进行必要的加工处理。加工后的数据可以应用于多种业务场景,例如智能匹配车辆与货物、实时监控路线以及提供最优路线推荐等,有效地优化物流配送的效率和服务质量。

针对这个场景,我们提出了一个参考架构。前端的埋点数据、用户端数据以及 APP 上报的数据将会统一推送到消息队列 Data Hub 中。数据一旦推送到 Data Hub,就会通过 Flink 进行实时的接入和加工处理。处理完成的数据随后会统一存储到 Hologres 中。前端应用可能直接从 Hologres 中执行 OLAP 分析,或者在这基础上进行实时决策支持。Hologres 可以提供实时的运力匹配关系、供需动态以及实时轨迹分析等关键业务信息,这些功能在需要快速响应市场变化和用户需求的业务场景应用中特别重要。在架构的右侧,主要针对的是离线场景,同样会将实时处理的数据写入离线的对象存储中,以便用于离线数据的进一步补充和处理。

2.4 零售行业

零售行业是最早开始采用实时计算的行业之一。阿里巴巴在最初开展双11大促活动时,就已经能够通过大屏实时展示当前的销售动态数据。企业的决策者们需要了解当前的销售情况,并依据这些实时数据进行相关的决策。接下来,我会举两个具体的例子来说明。

图片

第一个例子是,在特别是像双十一、双十二这样的大型促销中,许多零售企业会准备大量促销活动。假设企业需要准备 1,000 万优惠券,它们需要对这 1,000 万的优惠券的动向进行实时监控。接着,根据优惠券的发放情况,需要进行动态的调整。如果在最开始的五分钟内 1,000 万优惠券就被抢光了,企业需要立刻决策是否再追加 1,000 万以增加用户转化率?这些都是在营销的全过程中,包括营销前、营销中、营销后,业务流程中需要考虑的因素。

在技术实现方面,离线场景涉及到大量的历史数据,包括用户的行为、他们偏好的服装类型、年龄和性别等信息,这些都会被储存在历史数据平台上。当出现购买信息或潜在的点击行为时,基于 Flink 引擎可以帮助实时作出判断。它能预测用户是否可能在接下来的两分钟内下单,并且识别出哪种优惠券对用户来说更有吸引力。整个过程需要 Flink 利用技术手段来进行评估和决策。下图是实施营销的一个决策方案架构:

图片

下面是第二个场景:

图片

很多企业依赖实时数据分析来强化其商业决策,这需要能够迅速向企业决策者和各个业务部门提供关键信息。例如,精确追踪某个用户在特定页面的停留时间及其带来了多少转化率。基于一款提供相关查询和分析的平台,简而言之,用户需要进行查询,尽管这背后可能涉及海量的数据,可能是几亿甚至几十亿条记录。那么如何解决这一挑战呢?解决方案是通过 Hologres。我们可以看到,底层的数据被存储在 Hologres 中,并且可能存在各种检索条件。基于这些检索条件系统需要快速地给业务提供决策支持和响应能力。比如,可能需要查询特定品类、用户当前行为、某个商品占位信息或广告投放的效率等。基于多样的检索条件,Hologres 提供的 OLAP 查询能力可以满足这些需求,从而实现客户对于数据的快速查询。

下面是在线做电商的一个客户,基本上几十 TB 级的数据。自助分析的响应速度控制在 3 秒以内,基本上 99% 的查询都是在 3 秒以内响应,业务方认为这样的速度能够非常快捷地帮助他们提高决策效率。

图片

零售行业也提出了一个参考架构。

图片

在零售行业中,数据仓库通常包含了如商品、会员、销售、售后和运营等多个标准化领域,这些分域和层次结构一般来说都非常规范和通用。基于这样的架构,可以借助阿里云的 MaxCompute 来执行离线数据仓库的分层处理。对于实时计算需求,则可以通过结合 Flink 和 Hologres 来实现实时数据仓库的操作,以及构建统一的架构。至于调度管理层,可以使用 DataWorks 来提供统一的工作流程调度和数据加工服务。这是一个在零售行业常见的推荐架构。上述四个方面是对实时计算依赖性较高且使用效果良好的行业中的典型应用场景。

03

从数据看实时计算在各行业的趋势

图片

根据阿里云发布的公有云数据报告,中国大约有 50% 的大数据用户选择使用阿里云服务,拥有数万名大数据客户。从这些客户数据中做出的简单分析显示,在四年前的 2020 年,实时计算的普及率还相对较低,基本都在 10% 以内。大部分企业当时仍然主要依赖于 T+1 的小时级离线分析。然而,预计下一年,金融行业实时计算的使用比例将超过 25%,物流行业的比例可能会超过 50%。因此,实时计算成为未来发展的一个关键考虑点。整个行业实时计算的用例预计都会超过 30%,这表明实时计算的普及率正处于一个迅速上升的阶段。

04

总结

作为阿里云计算平台的成员之一,除了今天讨论的实时计算技术之外,还基于服务数万+客户的经验,沉淀出了面向未来的一套云上数据仓库参考架构。这一架构的设计旨在为客户提供一套高效、可靠、可扩展的数据处理与分析平台,以支撑大数据、人工智能和数据仓库等多种复杂应用场景。

在未来的交流和分享中,我们将基于这一推荐的参考架构,深入探讨如何有效地利用大数据技术、人工智能能力以及数据仓库功能,来帮助客户解锁数据价值,推动业务成长和创新。通过这些互动,我们希望与客户共同探索和实践最佳的云计算解决方案,以满足客户不断变化的业务需求。

图片

图片

活动推荐


阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:

新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon

了解活动详情:https://free.aliyun.com/?pipCode=sc

图片


▼ 关注「Apache Flink」,获取更多技术干货 ▼

图片

    图片 点击「阅读原文」跳转 阿里云实时计算 Flink