近日,火山引擎数智平台VeDI直播活动「超话数据」在线举办,来自火山引擎的产品及解决方案专家分享了以ByteHouse为代表的云数仓产品在字节跳动的演进过程、关键技术以及最佳实践,并通过五个步骤拆解,带领开发者快速上手云数仓。
现如今,企业正加速走向数字化、智能化,对数据的应用也提出了全新要求,特别是在数据实时分析、实时部署方面的诉求更加强烈,而云数据仓库为用户实现云原生、智能运维、弹性资源等业务需求带来了很好支撑,成为今天企业数字化基础设施中的关键“底座”。
ByteHouse则是这样一款云原生数据仓库。ByteHouse起初是基于开源ClickHouse引擎进行技术架构重构和优化,在字节跳动内部大规模应用,其中部署规模超过1万8000台,单集群超过2400 台,现已通过火山引擎对外输出。
(资料图片)
火山引擎ByteHouse
据ByteHouse产品专家介绍,面对企业级数据处理需求,相比起原生的ClickHouse,火山引擎ByteHouse基于独家自研的高可用引擎及查询优化器,可以为企业提供快速、稳定、安全的查询服务和数据写入性能。在云原生架构下,火山引擎ByteHouse提供了极致扩展的统一数据分析平台,具有出色的弹性伸缩和可扩展性,确保资源可以灵活地水平扩展;同时,ByteHouse支持多级资源隔离,为用户资源提供更安心的安全保障。
除了高可用的基础能力,火山引擎ByteHouse还从业务角度出发提供了完整的运维监控和排障能力,帮助企业实现业务云上托管,降低运维成本。
不仅仅具备强大的技术能力和易用的产品特性,火山引擎ByteHouse在广告、气象、行为分析等领域已经积累丰富的落地经验。在此次活动中,火山引擎解决方案专家通过广告、气象、行为分析3个领域案例,详细拆解云原生数据仓库如何能在业务场景中丝滑落地。
首先,在广告受众预估领域,为了帮助广告主确定目标人群,判断投放价值,广告平台需要为广告主提供受众筛选能力,即根据不同筛选条件、标签或人群包,确定每次营销活动覆盖的人员类型、人员规模。其难度在于,广告平台用户体量大、人群包数量大,导致单个查询中涉及多个人群包计算,使得查询复杂度高;另外,广告平台对数据时效性要求高,数据查询效率要达到秒级响应。
面对此类需求,ByteHouse支持BitMap数据格式,降低人群包数据内存占用,配合uid的数据分片方式,提升数据查询并发能力,实现高效的人群包交、并、补计算,满足QPS峰值查询需求,最终达到查询秒级响应的效果。
火山引擎ByteHouse在广告受众预估领域落地
其次,在气象领域,ByteHouse帮助AI大模型与数字孪生公司大地量子实现对气象数据的精准预测。根据风向、湿度、温度、风力等历史气象数据,结合风场、云层等模型能力预测未来能源情况,是大地量子的主要应用场景。大地量子通过将现场采集及大模型生成的气象数据导入到ByteHouse中,由ByteHouse支撑GEO查询和空间计算能力,满足其对预测系统以及交互式查询需求。目前,大地量子的平均查询响应时长不仅在50毫秒以内,预测精准度也得到有效提升。
最后,在行为分析领域,极客邦科技则通过ByteHouse实现以用户为中心的精细化营销。作为致力于为数字人才提供全方位、高质量新闻资讯、课程内容、大会、指导等服务项目的企业,极客邦科技会根据用户画像、在端内的操作行为等数据为用户精准推送课程、活动,洞察用户全链路行为,以便提供更好服务。但随着用户数量变大且持续增长,数据查询需求愈加复杂,同时也面临快速响应的问题,在技术层面遇到很多挑战。
增长分析平台DataFinder与云原生数据仓库ByteHouse的组合使用则帮助极客邦科技更好洞悉客户全链路营销旅途。ByteHouse的高可用引擎和查询优化器可以将用户表、事件表等数据高效去重、分析和计算,再通过DataFinder SDK实现事件分析、留存分析、转化分析等能力,实现用户精准洞察和营销能力升级。
不仅仅在广告、气象等领域落地,ByteHouse 还将持续通过创新的技术和功能,帮助更多行业构建高效、稳定和可扩展的实时数据分析平台,提供强大的数据处理和分析能力,助力企业更好实现数字化升级。(作者:周明)