HBaseConAsia2019圆满落幕,一文带你看遍HBase以及大数据行业最新动态(原创)

HBaseCon是Apache软件基金会官方授权,Apache HBase社区支持举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。为了满足中国用户和开发者的热情,HBaseCon从2017年开始每年在中国举行。今年的HBaseCon,由小米主办,作为HBase社区国内的主要贡献者,阿里巴巴联合小米等国内主流互联网企业一起协办了此次会议。2019年7月20日,HBaseConAsia2019在北京金隅喜来登酒店举行,并圆满落幕。


1.png

此次会议中,不仅有来自Cloudera、Intel、阿里、小米、华为等研发大厂给大家分享了在HBase内核方面的改进和优化,还有像Pinterest、滴滴、快手等一线互联网公司带来了HBase及大数据技术生态的最新洞察和行业实践。除此之外,金融,电信等行业的嘉宾们也给大家讲述了在传统行业中,HBase怎样助力业务腾飞。HBaseConAsia2019为广大HBase开发者以及使用者带来了一场优质的技术盛宴,此次大会一共吸引了超过500名参会者,共有超过2万余人从网上观看了大会直播,足以见证HBase社区在中国的火爆程度。


2.png
Apache HBase是基于Apache Hadoop构建的一个高可靠性、高性能、可伸缩的分布式存储系统,它提供了大数据背景下的高性能的随机读写能力,伴随着互联网时代数据的爆炸性增长,HBase作为基础存储系统得到了快速发展与应用,Facebook、阿里、小米、雅虎等大量知名商业公司先后加入到了HBase生态建设队伍,成为Apache最活跃的社区之一。从这次大会上,我们又看到了许多HBase以及整个大数据行业的一些最新动态,下面由我来带大家一起看下本次大会上,HBase生态又有哪些新的变化。上云为HBase带来极致弹性和成本下降

阿里云资深技术专家沈春辉给大家分享了在云上运行HBase的优势和技术趋势。阿里2010年就开始使用HBase,经过9年的发展,现在在阿里内部使用HBase的业务已经超过1000+,拥有了上万台的HBase集群规模。而近3年来,经过阿里深度定制的HBase版本,已经在阿里云上售卖,目前已经服务了1000+企业用户。而HBase上云,给用户带来最显著的优势就是极致的弹性和成本下降。


3.png

云上资源能够快速创建,以及近似无限的资源池能够帮助业务快速应对大型促销活动,突发流量以及异常流量。同时,云上计算与存储分离的架构,能够灵活配比各种业务所需要的存储类型和大小,降低存储成本。


4.png
最后,由于云上ECS实例不像物理机,无需担心宕机和过保,云盘本身也有多副本保证,永远不会坏盘。因此,将HBase运行在云上,拥有了比之前物理机房更好的稳定性。用户可以借助云的力量,实现HBase的全球部署和异地容灾。正是由于云计算这些无以比拟的优势,HBase上云趋势将势不可挡。基于HBase的大数据平台组件日渐丰富

HBase做为Hadoop生态的数据库,最大的优势就是可以和Hadoop生态体系下各种组件方便的结合。业务在使用HBase做存储时,通常也需要搭配计算组件,以及一些数据中间件。各大厂商围绕着HBase,组建了一系列大数据平台,满足不同业务的需求。比如在会上,阿里云技术专家李伟就给大家带来了阿里云HBase X-Pack 平台的架构。这是一套围绕HBase,集成Spark、Solr等技术的云上大数据平台,可以提供低成本的一站式存储、检索和计算能力。其中使用HBase存储在线数据,可以通过BDS系统把数据增强导出到Spark中做归档和离线分析,然后支持将计算结果通过BulkLoad技术高效回流到HBase,使得客户的在离线数据轻松打通,真正发挥企业的数据价值。

5.png
来自滴滴的工程师唐天航为我们带来了 HBase 在滴滴的业务中的应用场景和经验。滴滴也围绕着HBase构建了一套大数据系统,这套系统包含了搭建在HBase之上的GeoMesa时空数据库和JanusGraph图数据库,用户覆盖了滴滴全部的业务线,目前服务的项目大概有200多个,数据级是 PB 级。
6.png

各种HBase之上的索引方案齐放光彩

原生的HBase只有Rowkey索引,在面对一些复杂的查询时,需要用到一些二级索引的方案。另外,有些用户可能对关系型数据库的SQL语法比较熟悉,因此希望用SQL能够访问HBase。在面对这些需求时,一个选择就是Phoenix。Phoenix为HBase提供了SQL访问层和二级索引的能力。来自阿里云的技术专家张赟分享了阿里云HBase在Phoenix上做的一些改。一个最重要的变化是云HBase的Phoenix从以前的重客户端演变成了轻客户端,以便给用户提供更好的稳定性和可维护性。同时用户客户端的逻辑更轻,CPU的消耗也变少。


7.png

除了Phoenix,会上还有许多其他公司提出了自己的索引和SQL方案。比如华为认为Phoenix过重,在OLTP场景时性能不够好,同时在scale out时有瓶颈。因此他们自研了一套轻量级的SQL方案-Lemon SQL,相比Phoenix,他们的实现更加轻量级、性能更高、吞吐扩展也更强。


8.png
另外,还有光大银行的Lei Wang,讲述了自己设计了一个 HBase 的二级索引系统。这个系统的主要作用是提高查询的效率。他们的设计目标是希望降低侵入性同时保证架构的简洁。由于需要排序等全局性的功能,所以客户端除了提供一个自定义的Condition查询条件外还需要提供额外的全局协调者的功能。
9.png

介于目前用户对索引和SQL的呼声越来越高,在第二天的开发者和HBase社区Committer&PMC会议上,大家也一致决定,会在后续的HBase版本中原生加入SQL和二级索引支持,大家敬请期待吧。

丰富多彩的HBase使用场景

会上,来自各行各业的开发者们分享了他们使用HBase的场景。来自快手的工程师徐明为我们分享了 HBase 在快手的应用和实践。他们使用HBase+HDFS的方式来存储快手上的海量小视频。他们把视频文件直接存储在HDFS上,同时把索引数据存储在HBase里。另外,他们还对HBase的稳定性可用性做了大量优化,可以看到快手在HBase研发投入了非常大的力量。

10.png
来自中国移动苏州研发中心 HBase 负责人陈叶超介绍了 HBase 在中国移动的实践。中国移动目前大概有6000个物理节点,100多个集群,几十PB数据,单集群最大600多个节点,单表最大1.6PB,最大3000万并发访问。北京移动的流量账单,比如查看手机流量,数据就是存储在HBase里的。其他一些应用场景还包括监控和日志,包括小图片、用户标签、爬虫和市场营销等。
11.png
会上还有很多其他公司的技术专家们分享了他们的HBase使用经验和场景,由于篇幅的关系,我没法将会上每一个演讲都分享出来,有兴趣的同学可以去大会官网查看,上面有所有演讲的回放和PPT。

总结

这次HBaseCon的火爆程度,也说明了国内业界公司和开发者们对HBase热情和期望。HBaseCon大会不仅给HBase的使用者们带来了最新鲜的一手咨询,互通有无,吸收其他公司的先进经验,也是HBase使用者和开发者之间沟通的桥梁,能让开发者们看到业界动态,用户的需求,共同把HBase打造成一个更加易用,更高性能,更稳定的大数据存储。

最后

目前,云HBase增强版已经在阿里云官网上线。云HBase增强版使用了阿里内部HBase分支,历经阿里巴巴近十年的大规模锤炼,在读写性能、延迟、存储成本、故障恢复、安全、易用性等方面对比社区版有质的突破。欢迎大家点击此处了解详情。

12.png
阿里云HBase服务拥有一支技术精湛的专家团队,各怀绝技,自有所长。目前云HBase团队有4位HBase PMC成员和6位Committer。如果您的公司有HBase上云的需求,请扫码联系下方钉钉二维码获得免费的专家咨询服务。
13.png
作者:正研
阅读原文
本文为云栖社区原创内容,未经允许不得转载。

相关推荐
新闻聚焦
猜你喜欢
热门推荐
返回列表