{"meta":{"id":"https:\/\/api.iclient.ifeng.com\/ipadtestdoc?aid=ucms_7y6Uinfy8VQ","type":"doc","o":"1","documentId":"ucms_7y6Uinfy8VQ"},"body":{"newStatus":"1","documentId":"ucms_7y6Uinfy8VQ","staticId":"ucms_7y6Uinfy8VQ","title":"未来的可能!克而瑞如何建设数据中台?","shareTitle":"未来的可能!克而瑞如何建设数据中台?","thumbnail":"http:\/\/d.ifengimg.com\/w150_h106_q100\/img1.ugc.ifeng.com\/newugc\/20200714\/17\/wemedia\/53ca98346e8e6feb32b3abc4ac311b1ac834c376_size121_w1279_h853.jpeg","source":"CRICBIGDATA","author":"","editorcode":"weMedia","editTime":"2020-07-14 17:56:45","updateTime":"2020\/07\/14 17:56:45","wapurl":"http:\/\/\/\/feng.ifeng.com\/c\/7y6Uinfy8VQ","introduction":"","wwwurl":"http:\/\/\/\/feng.ifeng.com\/c\/7y6Uinfy8VQ","commentsUrl":"ucms_7y6Uinfy8VQ","commentCount":0,"text":"
<\/p>
克而瑞CTO:陈红飞<\/p>
克而瑞如何建设数据中台<\/p>
上一篇内容,我们一起跟随克而瑞CTO陈红飞先生了解到了克而瑞数据中台建设的初衷及其架构,并且通过《克而瑞数据中台战略解读》、《一切业务数据化,一切数据业务化》、《克而瑞数据中台的架构图》三个视频详细的走进了克而瑞数据中台,让本来难以读懂的克而瑞数据中台可以被理解。那么今天,我们将继续跟随我们的P总,去了解克而瑞数据中台的核心数据资产的画像、以及克而瑞具体如何进行数据中台建设。(本篇,我们将继续释放三个片段来为大家解读:《克而瑞核心数据资产的画像》、《克而瑞数据中台建设的三架马车》、《克而瑞如何进行数据建设》)<\/p>
<\/p>
克而瑞核心数据资产的画像<\/p>
不动产领域的专业数据库<\/p>
这个是我们的一个核心的数据资产的画像。第一个,我们目前有1000台左右的服务器,当然有物理机器,也有虚拟机。然后我们有200多个专业的数据库,不动产领域里面我们基本上全部覆盖掉了。然后我们基于的专业库、基于我们的业务场景,我们有1200个业务数据仓库,然后我们的业务中台里面覆盖了35个业务中台,因为克而瑞不动产的业务场景非常丰富,虽然从住宅到非住宅每个领域我们都有涉及到,我们会每个领域都会开发一个业务中台,而且35个业务中台可能它们的应用场景、使用场景、产品内容、数据内容都会不一样,这个对于我们来说是一个核心的价值。因为我们可以通过这个产出可以丰富我们的数据中台,我们目前百分之百覆盖了我们的业务机构。<\/p>
<\/p>
然后我们管理了871TB的数据,然后我们数据中台里面我们的数据跟传统2C的企业可能会不太一样,因为我们更多的是行业的静态数据,以及行业这些静态数据产生的一些动态的数据,比如说动态运营数据、动态交易数据等等,但是我们没有日志数据,因为我们克而瑞目前来说,我们暂时没有2C的产品,就是我们没有产生很多用户访问的一些行为数据等等。<\/p>
然后我们在这个结构化数据应用里面,我们产生了53个算法模型,目前这53个算法模型都嫁接在我们的业务产品里面。然后13个应用研究方向。然后在非结构化里面,我们每天会在全网聚合了300万+的一个非结构化的信息,然后我们每天会在300万+里面抽取50万左右的数据用来做我们的NLP或者说自然语义的分析。<\/p>
视频:《克而瑞核心数据资产的画像》<\/p>
<\/p>
克而瑞数据中台建设的三架马车<\/p>
从有用的数据到更为有用的数据<\/p>
<\/p>
然后下一页我解释一下,是克而瑞数据中台建设的三架马车,因为对我们来说,我们三架马车第一个叫融合新数据。对于新数据的理解,我个人理解可能有两个含义,第一个含义,新数据=数据+新技术,它也是一个新数据。第二个新数据=非结构化数据,所以非结构化数据在我的理解里面也是我们的一个新数据,我们需要融合新数据。新数据指什么呢?比如说海量的文本类的数据,比如说资讯、政策、媒体信息等等,这个我们都认为是非结构化的数据,也是新数据。<\/p>
第二个,我们需要增强我们的数据治理引擎,对于数据治理引擎,因为在做大数据过程当中,我们发现如果数据治理引擎它不能高效去提升它的效率,不能利用AI或者机器学习的能力,去转化为我们的非结构化的数据或者说结构化的数据的话,对于我们的大数据来说或者我们的数据资产来说,其实是一个很大的问题。我们在数据治理引擎这块投入了非常多的精力,我后面会重点把这一块做一个提升。<\/p>
第三个,我们会增强大数据AI的智能引擎,我们会高效提取文本类的数据,比如说非结构化的数据,以及深度挖掘数据资产,比如说结构化的数据。同时我们会利用数据融合引擎,我们会把非结构化数据跟结构化数据进行一个融合,我们会产生新的业务场景。<\/p>
视频:《克而瑞数据中台建设的三架马车》<\/p>
<\/p>
克而瑞如何进行数据建设<\/p>
“三架马车”全剖析<\/p>
<\/p>
为什么要融合新数据?这是IDC的一个报告,最近几年,从报告里面发现80%新增的数据资产里面都来自于非结构化数据,比如说自媒体的一些文章,比如社交媒体的一些表达,比如说用户的一些语音,比如说用户在一些生活信息类网站或者一些出行网站上的评论,或者一些情感的表达,包括一些文本文件等等,这些我们都统称为非结构化数据。非结构化数据无效的噪音虽然很大,但是这其中也蕴藏着非常多有效而且及时的数据,所以这种信息是应该要被我们去重点关注的。<\/p>
这些信息目前来说,我们认为在不动产领域里面、金融领域里面、投资领域里面以及公共管理领域里面,我们都认为有需求跟痛点的,所以我们会利用这部分数据让它发挥商业洞察的能力。<\/p>
<\/p>
下面讲一下数据治理引擎的升级,因为我讲这个的时候,我要说一个概念,就是说数据如何变成资产,大家会觉得数据为什么就是资产呢?因为所有人都会说我企业有很多数据,那我这些是资产吗,我怎么衡量它,我怎么量化它。从我们企业的理解里看,数据如何变成资产的话,在我这边总结来看,我这边叫两个引擎+三个能力。我解释一下两个引擎,第一个引擎叫数据治理引擎,第二个引擎叫增强的一个大数据AI智能引擎。在大数据AI智能引擎里面我们可能会有一个小的引擎,我们叫数据融合引擎,但是我把它都归结成两个引擎。加三个能力,第一个能力叫数据能力,第二个能力叫算力能力,第三个能力叫产品价值的能力。<\/p>
这两个引擎加上三个能力,如果在我们整个数据变成资产过程中,它发挥了重要的一个应用价值以后,我们才能叫数据等于资产,否则的话我觉得数据可能会等于负债,为什么呢?因为你的所有的数据都是需要有运维成本的,你需要做存储,你需要做服务器的投入,你需要做人员的投入等等,我认为这个是我们的一个核心,就是从数据如何变成资产。<\/p>
从数据能力来看,第一个可以看到我们有应用场景,前面讲了我们覆盖了不动产领域里面四个核心的应用场景,以及我们企业基于不动产行业的理解,我们做了一个智能化的产品矩阵,以及未来会跟第三方共享的一个生态的产品矩阵。这是我们的应用场景,我们从应用场景出发,满足我们应用场景需要数据。数据过程当中,我们有结构化的数据以及非结构化的数据。在结构化数据里面,我们会让数据之间会有血缘关系,因为数据它不是独立存在的。比如说我们在用租赁数据的时候,或者我们在做租售的时候,我们发现它其实需要关联一下企业的情况。同时我们要关心一下,比如说他会用到地铁的数据,比如说地铁人流的情况,以及周边配套的情况等等,所以说数据之间是要产生血缘关系的。所以基础数据这边,我们这边也是需要重点关注的。然后还有非结构化数据,这是我们两个基础数据的一个引擎,这是第一块。<\/p>
第二块,数据治理引擎我们里面其实要产生四个核心的能力,第一个能力叫数据的提取,因为很多数据并不是干干净净就在那边的。数据的来源,第一个我们经常碰到的数据来源或者有价值的数据来源,大家可能会碰到,它可能在图片里面,这是第一个。第二个,它可能会在您的PDF里面、PPT里面,还有可能它在网页里面等等。我们需要用一个数据提取的技术,我们需要把这些数据提取出来,让它从非结构化走向结构化,这是第一点。第二点我们需要做数据清洗,数据清洗里面我写了一个算力+人力,怎么来理解算力+人力?我这边把算力翻译成技术专家,第二步,我把人力翻译成业务专家,因为我认为在数据治理的整个环节中,我认为业务专家非常非常重要,如果没有业务专家的话,我认为数据治理这件事情会走的非常艰难。因为业务专家他才知道什么样的数据通过什么样的治理方式,才能变成业务可以应用的一个数据,所以这个中间的转换,我们需要业务专家来给到我们一些指导。<\/p>
比如说我们需要业务专家做什么呢?第一个,我们需要业务专家帮我们把数据进行翻译,比如说他需要告诉我们这个数据我们希望它变成什么样,这是第一点。第二点,比如说我在PPT里面写了,比如说他需要给我们一个准则,同时我们可以利用AI的一个技术,比如说他可以告诉我们一个正确的数据模型,我们基于这个正确的数据模型进行迁移学习,然后我们可以把原有的数据里面跟这个类型的模型可以机器学习,极大的提高我们数据治理的能力。<\/p>
第三个叫数据标准化,因为数据通过治理以后,我们需要数据标准化。业务专家在里面发挥什么价值呢?业务专家他需要把我们所有的数据进行结构化的标准化。举个例子,比如说我们有新房领域的数据,在新房交易领域的数据里面,它应该用多少个字段表达,比如说它用两百个字段表达还是用三百个字段表达,这个需要业务专家给到我们标准的结构化的一个内容,这是第一个。第二个,对于字段标准化,比如说每一个字段需要一个什么样的饱和度,比如说这个字段它需要达到多少的饱和度,这个数据才是有价值的,它才能达到业务应用的一个标准,这个也需要业务专家去表达,包括内容的标准化等等。对于技术专家来说,他拿到这些业务专家给出来的一些模型或者一些标准以后,我们利用机器学习或者利用一些技术手段,我们就可以通过它来极大的提升我们数据治理的效率。<\/p>
最后一个叫数据预警,为什么呢?因为我们不希望我们的数据最终到客户那边去以后,我们再发现说我们数据有很多问题。我们基于这种能力,我们能不能开发一套系统,让我们的数据基于算力+人力的前提下,当数据有问题,或者说数据没有过质量这一关以后,我们就能提前发现这个问题呢,所以说我们做了一个数据预警平台。这是我们整个数据治理引擎的一个数据能力。<\/p>
<\/p>
下一步我讲算力能力,这里面讲的是AI的一个智能引擎,第一个讲自然语义处理的一个NLP,我们分为三层,第一层是技术层,技术层里面我们用到非常多前沿的一些技术。第二个叫语料库,在语料库里面我前面也介绍过了,我们有整个不动产领域里面,目前来说我们积累的时间最长,也是最有价值的一个语料库,这是我们的业务专家跟我们的技术专家一起合力做出来的一个语料库。第三个叫组件库,我们基于技术、基于语料,我们希望把我们的这个非结构化的数据进行组件化,让它产品化,所以这是我们在NLP这边的一个能力表达。<\/p>
我们做完NLP以后,我们把NLP里面的这些结果输出到我们的知识图谱,所以说我们这边有知识图谱,知识图谱的应用场景,我们当然希望我们这个自然语义对于语义、对于内容的理解,或者让它能自动去做决策,但是目前我们还没有做到那一步,我们还是说把结果展示出来,然后利用行业知识图谱的一些能力或者一些数据库的积累,我们通过产品化的方式给到我们的一些经营者去做人工决策。当然我们接下来可能会尝试着去做一些半自动决策,这是一个发展的过程。<\/p>
下一步,我们讲到产品的一个价值力,在产品的价值力里面我们会发现什么问题呢?我们在产品价值力里面,第一个,目前我们产品价值力,在应用产品输出里面,目前我们在里面做了比如说智能投资决策系统,智能产品配比测算,动态财务测算,还有决策咨询数据查询系统,大数据报告生成系统等等。我们把我们的数据能力、算力能力,最终要赋能到我们的产品力上去,我们产品力才是我们数据资产的一个核心的价值体现。所以我后面会详细讲一讲我标红的这些产品在里面的一个体现。<\/p>
视频:《克而瑞如何进行数据中台建设》<\/p>
明天,我们会继续为大家解读克而瑞大数据算力与AI智能的应用产品的几个方向,精彩能容,持续更新。<\/p>
<\/p>","img":[{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/8900E9E1408A5A75D71446FD813AD0CAB8BAFA85_size771_w1080_h720.png","size":{"width":"640","height":"426"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/F2652376E4EA9AB89A4DF9258746AFC3995FA83A_size506_w1080_h720.png","size":{"width":"640","height":"426"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/67D2C27D923A205E3A7AA951E1DD27D4C4019A10_size179_w1080_h405.png","size":{"width":"640","height":"240"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/66910AB04A36DAC0BDCB40E4925531B0AA60633D_size855_w1080_h720.png","size":{"width":"640","height":"426"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/7864442354BD208A0E3E78DFC5D4A4C6AC298E93_size246_w1080_h405.png","size":{"width":"640","height":"240"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/9D137486AE8A5046141FBD1254564BEC5FC84A45_size559_w1080_h720.png","size":{"width":"640","height":"426"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/8A98751846D42CF21A15380BE9E6544CF563A689_size292_w1080_h405.png","size":{"width":"640","height":"240"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/28BB3F3440D0762D0BEEAAF81ED9E7CF4D2363E2_size198_w1080_h405.png","size":{"width":"640","height":"240"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/x0.ifengimg.com\/res\/2020\/0C3A6E6FAD2206B839D7263D9B7341827836CAD7_size292_w1080_h405.png","size":{"width":"640","height":"240"}},{"url":"http:\/\/d.ifengimg.com\/mw640_q100\/img1.ugc.ifeng.com\/newugc\/20200714\/17\/wemedia\/f83d1b873530710125c4d617d43f209ac9193d82_size245_w1280_h853.jpg","size":{"width":"640","height":"426"}}],"summary":"克而瑞CTO:陈红飞克而瑞如何建设数据中台上一篇内容,我们一起跟随克而瑞CTO陈红飞先生了解到了克而瑞数据中台建设的初衷及其架构,并且通过《克而瑞数据中台战略解","sharesummary":"克而瑞CTO:陈红飞克而瑞如何建设数据中台上一篇内容,我们一起跟随克而瑞CTO陈红飞先生了解到了克而瑞数据中台建设的初衷及其架构,并且通过《克而瑞数据中台战略解","commentType":"0","wemediaEAccountId":"528254","showclient":"0","shareurl":"https:\/\/ishare.ifeng.com\/c\/s\/v002Ezo8IdnEfWOyuWr5MUOS7NX--9Utv2jq-_LQmt4gTdI8s__","praise":"13","like_num":"13"}}