CDEC2020 搜索 导航菜单

对他来说,这个世界上有比金钱更重要的东西

[摘要]五年前,刘睿民离开了世界五百强企业高管的岗位创立了柏睿数据。

0

 

风起于青萍之末。

回头看,从2018年1月特朗普政府宣布“对进口大型洗衣机和光伏产品分别采取为期4年和3年的全球保障措施,并分别征收最高税率达30%和50%的关税”起,这场持续到现在的中美贸易纷争就已经悄悄拉开了序幕。

此后,

对从中国进口的高端制造商品大规模征收25%的关税...

限制中国企业对美投资并购...

禁止美国公司向中兴通讯销售零部件、商品、软件和技术...

...

眼看着这场纷争从摩擦变成争端直到可以用战争来形容。

而有一个人,曾经在这场纷争到来之前,就做好了应战的准备。

 

1


柏睿数据董事长兼CTO

五年前,刘睿民离开了世界五百强企业高管的岗位创立了柏睿数据。

在此之前,他曾将几个国外的老牌数据库像Teradata、Greenplum等带进了中国市场,甚至帮它们拿下了早期的几个大单,bonus拿到手软,是外人眼中事业有成的海归精英。

“做的越久就越不开心”,他坦言。

因为他发现,这些他曾引以为傲的客户在数据库的建设中投入了大笔的支出,却没有得到该有的同等回报,尤其这些客户里面有很多都是我国各行各业的支柱企业。

“国外的公司仗着我们没有自主的数据库,要价高服务差”,直到今天谈起这件事他还是愤愤不平,“你不自主你就肯定要被人要挟”。

这种不平越积越多,越积越深。

直到他渐渐生出了自己做一个数据库的念头,“什么叫自主可控技术?要自己做的才可控,不是自己做的就不可控,就这么简单”。

这可不是头脑发热,他依仗的是在数据库领域摸爬滚打二十来年的经验和深刻的理解,他曾师从在数据库开创性方面获得图灵奖的Jim Gray,曾加入Tandem做Nonstop SQL商业数据库的开发,也曾在数据库领域做过实施、研发和销售等不同类型的工作。

▲数据库语言国际标准制定,也就是刘睿民主笔制定《SQL9075 2018流数据库》、《AI-in-Database 库内人工智能》两项国际标准的全会

机遇有时候就是这么奇妙。

刘睿民刚冒出这个念头不久,还在为研发团队的筹建一筹莫展的时候,就听到了惠普实验室解散了很多队伍的消息。

当打听到他曾经工作过的HP Neoview数据仓库研发团队也赫然在列时,他心中窃喜,开始给曾共同奋斗过多年的小伙伴们一个一个打电话“联络感情”。

在发现很多伙伴都不想轻易放弃数据库研发的时候,他就觉得这事儿成了。

而后,这个包括他在内的12人核心研发团队就正式成立了。

 

2

——“要做一个什么样的数据库?”

“基于MPP架构的海量内存数据库”——

——“为什么要做这个?”

“爆发式的海量数据让我意识到这以后一定会成为刚需”——

是的,我们现在的时代是一个信息爆炸的时代,信息爆炸的同时也就意味着这是一个流量爆炸、数据量爆炸的时代。

如果说十年前企业需要处理的数据量是一杯水的话,今天就是一条奔腾的河,那要如何应对这种爆发式的增长做到快速的处理数据呢?

说到这,我们不得不先来讲一下核心知识点:

目前市场上的商用数据库主流系统架构有两个流派——对称多处理器架构(SMP)和海量并行处理架构(MPP)。

SMP架构的特点在于共享系统的CPU、内存和I/O资源。这种技术诞生于内存昂贵时期,在数据量小于10T的情况下,可以应对自如。

但这种架构也有着十分明显的局限性,即多个CPU都是通过内存总线来访问统一内存资源的,在数据量增加到一定量级时,内存访问冲突将会加剧,最终造成CPU性能的浪费,甚至会遇到明显的性能瓶颈。

MPP架构的特点在于是节点协同工作。每个节点都拥有独立的内存,是一种完全无共享的架构方式,因而有很强的扩展能力。

MPP架构也有一个问题,就是在节点之间进行数据拷贝时可能会形成网络风暴。举个栗子,当对300张表做JOIN联合查询,其中有30张表都大于1TB并且需要拷贝1/10的数据时,就将会有500多个G的数据在网络上运转,导致网络卡顿。

因此,刘睿民的团队选择以技术路线,并结合InfiniBand结构以摆脱基于传统PCI架构的I/O性能瓶颈。

过去数据分析时需要在内存及磁盘间,做多次的电信号和逻辑、场理寻址的转换,消耗大量用户状态和系统状态切换时延。

而跨节点内存间直接地址转换+InfiniBand后,允许直接对应用程序内存做读取和写入,不管数据存在哪一台服务器,直接都是系统态,只需要在电信号层面完成传输就可以,极大的提升了数据的运转速度。

同时,这种架构也实现了服务器与存储系统之间网络占用的降低。

就这样,刘睿民带领他的12人研发团队,一行代码一行代码的,逐步打造出一个不同于以往,也不同于国外厂商的,完全自主可控的数据库。

 

3

眼见着这个数据库就要落地,柏睿数据也应运而生。

过硬的技术实力带来的是丰硕的回报。

仅仅在产品落地的第四个月,柏睿就拿下了第一个单子。

说到这儿,刘睿民笑了起来,“说起来也是巧,当时其实已经定了另一家的产品了,基本上就要下订单了,结果我们的产品进去一测试,快了将近六七倍的处理速度,直接定了我们的产品”。

刘睿民表示,这与他们分三步来实现数据处理的实时性有关。

首先是提升了Hadoop文件系统的效率,在HDFS上做了大量优化,能把读取文件的速度,从网络访问提升到相当于读取本地盘的速度。

其次做了内存数据网格,先用HASH把数据分层,在几秒钟之内形成数万个模板,每个模板对应数据处理的不同粒度,相当于尺寸不同的筛子,对数据做预处理。

最后,对清洗后的结构化和半结构化数据进行精确查询。举个栗子,我们的数据可以在很短时间内,实现数据库节点的横向扩展,实现100张表的联合查询和精确的查询记录。

我问他:“我们现在已经有很过硬的技术了,那下一步想做什么?”

刘睿民想了想告诉我,“首先还是花大力气做自主可控,尤其是中美贸易战的爆发更是让我感触很深,这是我们未来规划中非常重要的一块,本来这也是我们企业建立的初衷。除了在自主可控方面之外还会着重的关注信息安全,尤其是对数据库来说信息安全非常重要,中兴、华为等企业数据泄露事件的发生,给我敲了一个警钟。最后,也想把我们这种技术推到国外去,也让发达国家看一下我们做出的数据库。”

那一刻,我仿佛看到他的眼睛里有光。

 

4

我让刘睿民用一个词形容一下他们自己。

他想了想,告诉我,是“持之以恒”。

是的,从最初的开始,他们这个团队就在没有任何东西可以参考的情况下,一个字一个字敲出了一行行的代码。

1998年,李彦宏曾在书里描写雅虎的杨致远:他追求的东西并不是金钱上的满足。我觉得这也是刘睿民和柏睿数据的剪影。

只是为了当年的愤愤不平,他们毅然决然从零开始,赶赴一条前路未知的旅途。

而今回首,蓦然发现,曾为梦想付出的所有都已结成了果实。

这是对所有为梦想而奋斗的人最好的回报。

也是他们自己的骄傲。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。
微信公众号 微信公众号