共谱数据的冰与火之歌:Techo TVP 开发者峰会圆满落幕!

21世纪,是数字经济的时代。数据已成为企业和社会最宝贵的资产。在这片前景广阔的领域里,数据发展的历史长河埋藏了怎样的机遇?在未来,数据技术将往哪些方向演进?数据开发者又该如何在新时代中,找到自己的职业发展的最佳锚点?

2021年4月24日,由腾讯云 TVP 主办的首届 Techo TVP 开发者峰会「数据的冰与火之歌从在线数据库技术,到海量数据分析技术」在深圳深铁皇冠假日酒店成功举办。峰会囊括数据库、大数据两大专题,汇聚十二位深耕数据技术领域的顶尖大咖,带来了全天候、全方位、沉浸式的技术分享与交流,为超过500位现场参会的开发者献上了一场“最有料、有趣、且有用”的开发者大会。

上午·数据库专题

上午,围绕数据库专题,腾讯云数据库总经理 林晓斌带来了开场致辞,云和恩墨CEO、腾讯云TVP 盖国强、腾讯云数据库专家工程师 李海翔、微众银行数据库平台室室经理、腾讯云TVP 胡盼盼、腾讯云数据库技术总监 张青林进行了技术分享。

“分布式数据库已经成为行业必需品,在近几年也发展出一些新方向。“在峰会伊始,腾讯云数据库总经理 林晓斌对参会的广大开发者表达了诚挚的欢迎,同时分享了他对于数据库领域新动向的洞察:”在云原生大潮下,云原生数据库为开发者们带来了极大便利。此外,数据库的融合型能力HTAP也是一大趋势和挑战。“对此,他表示腾讯云TDSQL在全国第七次人口普查的大考中交出了令人满意的答卷,本次峰会的分享将会为开发者们勾勒数据技术发展的全景画卷。

腾讯云数据库总经理 林晓斌

万象更新-数据库技术的发展与未来

云和恩墨CEO、腾讯云TVP 盖国强是国内第一个Oracle ACE及ACE总监,曾出版多本数据库技术专著,在《万象更新-数据库技术的发展与未来》主题分享中,他分别从工业界与学术界的视角梳理了数据库技术发展的历史脉络,提出目前我们正走向”商业和开源、SQL和NewSQL交融“的新数据库时代,在新时代,云成为了数据库最重要的一个阵地,下一步的格局将是云的体验云下化,最终云上和云下趋于一致。

云和恩墨CEO、腾讯云TVP 盖国强

而面向未来,企业需要怎样的数据库?盖国强指出,数据库的更迭,不是重走一次长征路,不是功能和体验的降级,而应该是循环上升的数据库变更升级历程,应该是更好的开发运维体验、故障自愈、自动化和智能化,同时兼顾投资保护、人才培育。

在分享的最后,盖国强对国产数据库浪潮之下,正处于迷茫状态当中的数据开发者们提出了清晰的方向指引及真诚的建议:从DBA到数据库设计、内核研发,对开发者来说,职业道路是宽广而明亮的。面对国产化的行业变革,数据库从业人员只有躬身入局,尽早转型,做到“一主一备双引擎,商用开源两相宜”,才能够抓住机遇,领先一步。

分布式数据库的演进

腾讯近十年的分布式数据库技术发展与腾讯TDSQL研发团队所做的理论、创新方面的基础工作息息相关,作为该团队的核心力量,腾讯云数据库专家工程师 李海翔带来了《分布式数据库的演进》主题分享,全面地回顾了分布式数据库技术的发展历程,并层层剖析分布式数据库架构,分布式一致性、计算与存储技术,以及基于HTAP的TDSQL强一致性技术实践。

“分布式数据库系统的演进是由内在的、本质性的需求在推动,高可靠、高可用、高性能、易用性等基础因素在推动着分布式技术不断地向前发展。”李海翔从学术界、工业界的角度对比分析了分布式系统经典架构、主流技术的差异。他认为,分布式数据库系统里技术层面最核心的一定是事务,而事务处理会产生数据异常。此外,分布式数据库系统还面临着缺乏一致性所带来的挑战。同时,新的硬件在计算、存储上也面临挑战。基于这些需求,腾讯的TDSQL系统包含了分析、事务处理、强一致等特性。随后,他详细地展示了腾讯的TDSQL开源系统3TS如何解决数据异常问题,TDSQL研究的基础技术,也是基于学术界的认识和业界的现有产品对于强一致的支持程度得出的结果。

腾讯云数据库专家工程师 李海翔

分布式数据库在微众银行核心系统的实践

技术的发展与进步,最终还要回归到实际的落地与应用,在分布式数据库技术领域,TDSQL在微众银行核心系统的大规模实践便是一个经典的案例。微众银行数据库平台室室经理,腾讯云TVP 胡盼盼带来了《分布式数据库在微众银行核心系统的实践》的行业实战分享。

微众银行数据库平台室室经理、腾讯云TVP 胡盼盼

准确把握了金融行业数据库”国产化、去中心化、开源化“的三大趋势,微众银行在成立之初就确定要做单元化的分布式架构。在单元化架构之上,微众银行拥有2地7中心的机房IDC架构;目前所有的核心系统基本使用TDSQL承载。这样的数据库架构部署在高可靠、高可用等方面优点凸显。如今微众银行的TDSQL规模承载了数百个银行的核心系统,目前已达到单日峰值6亿+金融交易量,10万+最高TPS峰值。

未来,微众银行数据库的演进方向会朝硬件国产化、云原生与容器化、智能化预警(AIops)发展。

腾讯云TDSQL-C架构探索和实践

TDSQL是峰会中被多次提及的热门话题,TDSQL-C作为腾讯自主研发的存储和计算分离的数据库产品,实现了哪些突破性的创新?腾讯云数据库技术总监 张青林带来了《腾讯云TDSQL-C架构探索和实践》的详尽解析。

针对传统CDB所面临的存储容量、拓展性、可用性、可靠性这四大方面的挑战,腾讯云TDSQL-C应运而生。它具有海量存储、智能扩容、线性扩充性能,兼容MySQL和PG等优异特性。这些设计源于解决用户实际问题的需要,同时实现了几大突破:突破Serverless场景、IO Bound性能优化、无感知备份。目前,TDSQL-C仍在不断革新,张青林分享了后续的两大重点发展方向:实现云时代的极简数据库运维,以及云时代的Low Database业务开发。

腾讯云数据库技术总监 张青林

下午·大数据与数据分析专题

下午,围绕大数据与数据分析专题,腾讯云大数据产品总经理聂晶进行了开场致辞,随后,易观CTO、腾讯云TVP 郭炜,腾讯云弹性MapReduce技术负责人 陈龙,腾讯大数据专家工程师 杜立,偶数科技CEO、腾讯云TVP 常雷,腾讯大数据专家工程师 于华丽带来了技术分享。在峰会的最后,由支流科技CEO、腾讯云TVP 温铭担任主持人,五位大咖嘉宾圆桌论道,就《从行业到职业,看数据的现在与未来》这一话题展开了精彩的交流。

在开场致辞中,腾讯云大数据产品总经理聂晶分享了他对数据分析领域的趋势洞见:数据分析领域正在快速演进迭代,批流一体数仓的实时化、数据湖等新技术、新架构持续涌现;大批优秀的工程师、开源组织和商业化公司持续入场,未来充满无限可能。在聂晶看来,云已经成为企业IT发展的必经路径,云厂商也在为数据分析领域提供更多动能。最后,他对Techo TVP开发者峰会提出了寄语与期待:”Techo TVP 提供了一个很好的技术交流平台,让我们推进技术的普惠化与平民化,将数据分析技术有效地落地到企业发展的方方面面。”

腾讯云大数据产品总经理 聂晶

ClickHouse最新技术的实践与应用

易观CTO、腾讯云TVP郭炜带来了《ClickHouse 最新技术的实践与应用》的主题演讲,为大家分享了大数据分析引擎的黑马 ClickHouse 的“前世今生”、实践应用、最新feature以及未来畅想。

易观CTO、腾讯云TVP 郭炜

ClickHouse 是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库。在全球范围内,ClickHouse 单表查询比其他引擎要快数倍以上,在过去的4年以来未曾有对手。ClickHouse 为什么会这么快?郭炜指出,这得益于其极致的向量化计算引擎、极致的列式存储引擎,以及极致的系统研发思维和社区精神。

对于广大开发者所关注的应用实战话题,郭炜结合腾讯音乐、新浪、喜马拉雅、B站等丰富的案例,对ClickHouse的典型特性优势、具体使用场景进行了详尽而生动的讲解。

在未来,ClickHouse会在具体深入场景和结合解决客户使用数据的最后一公里上深耕,同时,中国社区也在思考 ClickHouse 的商业化道路。

云原生环境下大数据基础技术演进

近年来,云原生变得炙手可热,在《云原生环境下大数据基础技术演进》的主题分享中,腾讯云弹性MapReduce技术负责人陈龙对云原生的概念给出了清晰的定义,“云原生是在源码转化为产品的过程中,充分利用云计算软件交付模型,来构建和运行应用程序。” 它能实现整个软件生产的工业化,进而实现降本增效。

那么,如何实现大数据云原生?陈龙认为主要从以下四点出发:工业化交付、储存与计算成本量化、负载自适应、以及面向数据。在落地的技术上,陈龙做了进一步的说明:结合云基础设施和Hadoop生态技术栈,腾讯云的数据湖解决方案将Hadoop集群的拓扑进行了改进,分为Master、Router、Core和Task。为保障云上大数据处理的性能,腾讯云大数据提供从基础设施硬件层到组件内核以及架构的完善的产品能力支持,即便选择用传统模式构建大数据应用,云主机也提供了多种硬件选择。

最后,陈龙也预测了下一代大数据基础处理引擎的形态。

腾讯云弹性MapReduce技术负责人 陈龙

对于广大数据开发者所高度关注的,“在新时代应如何规划自身的职业发展”的问题,作为在数据领域深耕多年的前行者,各位圆桌嘉宾对后来人真诚地提出了以下建议。

郭炜则运用了一个形象的比喻来进行说明:如今数据和业务、和场景的结合越来越紧密,未来的组件将百花齐放,和场景深度结合。因此,做数据的小伙伴要变成“龙”式的数据工程师,必须结合数据分析师、数据工程师、产品经理乃至运营,既要有专业知识,也要不断学习,拓展自己的知识边界,再加上主营的某种技术,才能成为真正的面向未来的数据工程师。

实时流式计算实践与优化

随着互联网场景的不断深入,在大数据领域除了海量数据查询外,对数据的实时性也提出了更多更高的要求,越来越多企业将 Flink SQL 作为实时计算的工具。那么在使用 Flink SQL 会遇到什么痛点和挑战?如何进行优化和扩展?腾讯云实时计算服务又有哪些最新的实践?腾讯大数据专家工程师 杜立带来了他的分享《实时流式计算实践与优化》。

腾讯大数据专家工程师 杜立

腾讯云实时计算服务的研发方向分为四部分:一是提供一站式的开发平台,降低用户的接入和学习成本。二是保证用户实时部署前的数据正确性,开发后可直接进行线上测试。三是一站式部署,实时的计算任务可直接部署至腾讯云的TKE容器。四是提供一系列的运维工具,帮助用户快速解决线上问题。

针对Flink SQL当前的痛点,杜立重点分享了腾讯在Flink SQL上所做的扩展与优化:首先是扩展语法方面,在Windowing Table-valued Function和Stream-Dimension Table Join上进行扩展,对Window内数据集进行交、并、差等操作的新语法。其次是新增窗口类型,增强了增量窗口和Tumble窗口类型,减少下游的数据接收压力。第三是优化了回撤流性能,针对SQL两层Group by场景、Sink场景、Outer Join场景,分别做了不同方案的优化。经过优化后向下游接收的数据量能实现30倍的减少,100万的数据有接近20%的提升。

新一代云原生数据仓库的应用

云原生数据仓库,是大数据领域最前沿的趋势之一。随着云计算的普及,传统的数据仓库架构在资源弹性,成本等方面已经很难适应云原生的要求。云原生数据仓库架构又有哪些优势?如何充分结合云原生数据仓库的特点来实现云上大数据应用?在《新一代云原生数据仓库的应用》分享中,偶数科技CEO、腾讯云TVP 常雷对云数仓的定义、架构、应用场景做了全面的介绍。

偶数科技CEO、腾讯云TVP 常雷

每隔15-20年,数据平台会经历一轮较大的技术变革,新一代的云原生数据仓库在2015年后诞生,如今我们处于智能数据云平台阶段。提及云原生的概念,常雷认为,云原生系统的本质是“云环境中可以达到弹性可扩展、容错性好、松散耦合、易于管理”。而云原生数据库是在公有云、私有云和混合云等新型动态环境中,基于存储与计算分离架构的,存储和计算可以独立弹性扩展、松散耦合的数据库系统。同时,云原生数据库还需具有高性能、高可扩展、一致性保证、符合标准、容错、易于管理和多云支持等特性。他还以Snowflake和OushuDB的云原生数据仓库架构为例,对以上特点进行了透彻的解析。

此外,常雷提出在新一代云原生架构下,数据湖正逐渐简化,出现了“湖仓一体”的概念,一套系统就能实现数据加工、数据资产管理、数据治理、数据科学、机器学习、建模等功能,新一代数据云平台的架构解决了传统的多个集群、多个系统之间做ETL等复杂的问题。

云原生数据湖:新一代数据架构

“云原生数据湖架构是由传统大数据架构上云的缺陷存算耦合且规模固定而催生的。”,在《云原生数据湖:新一代数据架构》主题分享中,腾讯大数据专家工程师 于华丽指出,面对传统架构成本高、灵活性低、性能差、可靠性不高的痛点,应对的核心是公有云共享经济的两大机遇弹性计算和对象存储。云原生数据湖架构就是充分结合云上弹性计算、对象存储优势和大数据前沿数据湖技术,构建高性价比、高性能的大数据平台。

但目前云原生数据湖的构建成本高、难度大,要解决数据湖架构弹性计算、对象存储、性能补偿中的诸多问题,从0打造云原生数据湖,需要专业的公有云背景和数据湖技术能力,而腾讯云推出两款开箱即用的数据湖产品,能够帮助客户快速构建和分析数据湖。

腾讯大数据专家工程师 于华丽

腾讯云原生数据湖产品具有以下多种优势:

成本低:极致弹性计算、对象存储5-10倍,成本低;

性能高:对象存储解决小文件问题、缓存加速、稀疏索引、shuffle性能、commit性能高;

免运维:Serverless形态降低了运维负担;

统一和开放:统一数据湖存储、统一元数据减少一致性维护工作;联邦分析、数据湖解决方案满足数仓建模、数据分析甚至机器学习。

从行业到职业,看数据的现在与未来

在精彩的演讲分享后,支流科技CEO、腾讯云TVP 温铭担任主持人,提出有关Apache基金会大数据项目的“冷与热”、大数据技术的未来演进趋势、如何平衡云厂商和开源社区、开源商业公司之间的关系、国内“Snowflake”的诞生条件等颇具前沿性的话题,与常雷、郭炜、陈龙、李海翔四位分享嘉宾齐聚一堂,展开了主题为《从行业到职业,看数据的现在与未来》的深度圆桌对话。

支流科技CEO、腾讯云TVP 温铭

圆桌论坛

对于广大数据开发者所高度关注的,“在新时代应如何规划自身的职业发展”的问题,作为在数据领域深耕多年的前行者,各位圆桌嘉宾对后来人真诚地提出了以下建议。

李海翔指出,热爱是最好的驱动力,“专注”是最重要的品质,坚持在喜爱的行业或方向中深耕,时间久了自然而然会有所获,有所成。我们说“因为相信,所以看见”。而同时到了今天,更重要的是“因为看见,所以相信”,我们通过十数年的坚持,在分布式数据库技术创新上有所发展,今天我们已经看到了它的价值和未来,所以我们可以相信,它将有更大的创新和未来,这是驱使我们将一直坚持和投入的基础。

陈龙认为,在大数据领域,数据开发者可以根据三个方向来规划自身的职业发展:第一是内核方向,如分布式存储、分布式计算等偏底层技术方向。第二是数据架构师,既了解云产品,也了解公司业务,根据业务去规划或使用云产品来解决问题。第三是数据科学家,真正利用机器学习、算法,以底层支撑的能力去挖掘数据之间的关系,进而实现通过数据给企业带来价值。

郭炜则运用了一个形象的比喻来进行说明:如今数据和业务、和场景的结合越来越紧密,未来的组件将百花齐放,和场景深度结合。因此,做数据的小伙伴要变成“龙”式的数据工程师,必须结合数据分析师、数据工程师、产品经理乃至运营,既要有专业知识,也要不断学习,拓展自己的知识边界,再加上主营的某种技术,才能成为真正的面向未来的数据工程师。

而在常雷看来,中国现在比较缺的是底层的内核开发人才,而内核是需要沉淀的,在这一领域持续深耕、熟悉技术原理、有经验的开发者未来将得到很好的回报。

最后,温铭总结道,开发者既要“仰望星空”,也要“脚踏实地”,一方面可以多参加像 Techo TVP 开发者峰会这样的活动,了解业界在使用什么技术,比起埋头做业务,技术上的交流和探讨会带来更多有价值的东西。另一方面,做基础的技术研究会非常有价值,我们可以在上面精细深耕,创造一些不仅能给自己公司、业务带来价值的事,也能给其他公司、给整个数据领域带来进步的产品。

结语

本次 Techo TVP 开发者峰会还为开发者们准备了丰厚的礼品和精致可口的茶歇,在认真聆听大咖的技术干货之余,大家也热情高涨地参与了拍照打卡、游戏互动。同时,峰会也在线上多渠道进行了同步直播,在直播间、技术社群中,开发者们也进行着热烈的交流和讨论,峰会收获了来自参会嘉宾、开发者们的广泛好评。

参会嘉宾与开发者合影

正如腾讯云数据库专家工程师李海翔所言,腾讯有丰富的数据库产品,其中部分基于开源项目开发,同时腾讯也在回馈社区、拥抱开源。不仅是产品,腾讯还在推动基础研究的技术开源与思想的开源,希望在未来形成良性互动的,更好的互生模式。

作为腾讯云 TVP专门为开发者举办的大型技术交流盛会,未来,Techo TVP 开发者峰会将继续携手领域大咖,通过最用心的分享、最前沿的洞察、最实际的观点,为开发者们献上一场场“最有料、有趣、且有用”的开发者峰会。腾讯云 TVP 将始终秉承着“用科技影响世界”的使命,推动技术普惠化、平民化,践行科技向善的初心和本心。

TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云授予云计算领域技术专家的一个奖项。TVP 计划致力打造与行业技术专家的交流平台,构建云计算技术生态,实现“用科技影响世界”的美好愿景。