北京天易数聚科技有限公司

北京天易数聚科技有限公司(简称天易数聚)是一家国家高新技企业、中关村高新技术企业,总部位于北京市海淀区,公司现有员工300多人,技术人员占比90%以上。

公司坚持以产品为核心、技术为突破,前期专注于企业内部数据价值挖掘,逐步积累公共数据资源、行业数据资源,积极布局5G时代万物互联形态下数据增值服务,未来将以数据运营服务为主要增长点。公司拥有多项自主可控产品,如数据治理平台SDG、机器学习平台Air、智能知识图谱系统SKG、自助式可视化系统LOOKUP、指标综合分析系统SRS等。取得了大数据可视化平台、大数据敏捷开发框架、数据采集监控系统20多项软件着作权证书。已成功实施大量信息化工程,同时在IT咨询、开发、实施、运维方面拥有成熟的团队及项目经验积累。

2018年,天易数聚在电力、医疗、公安等领域稳步拓展,成功入围国家电网信通产业集团、南瑞集团服务框架,通过了ISO9001、ISO20000、ISO27001等体系认证。

2019年,公司通过了AAA企业资信等级认证、CMMI3级评估,成功申请多项电力大数据领域软着及发明专利。

未来,天易数聚坚持“诚实、守信、优质、高效”的经营理念,以“成就客户数据价值”为使命,力争成为客户长期、稳定、可信赖的合作伙伴,助力客户应对数据挑战,实现创新发展。

天易数聚产品

天易数聚产品

天易数聚产品体系主要由五个部分组成,产品结构如下图所示:

产品结构图

(1)服务体系:

标准服务体系,针对不同行业数据特点,自上而下制定数据标准,形成以标准驱动的服务体系,最终实现数据质量的有效提升。

安全服务体系,产品提供统一的安全服务体系,权限管理灵活可配置,支持多角色、用户分组功能,适应复杂的组织机构管理。

(2)产品体系:

从数据服务全程出发,数据从采集、存储及管理层面,我们提供数据治理平台SDG,主要实现多源异构的大数据采集和清洗转换,形成数据资产目录、数据血缘关系,最终实现大数据汇集管理的资产化。

从数据应用层面出发,我们提供机器学习平台AIR,为数据的建模分析利用提供基础算力。

从对外服务能力出发,我们提供自助式可视化系统LOOKUP、指标综合分析系统SRS、智能知识图谱系统SKG,为深度挖掘大数据关联关系,提供高效、可靠数据分析服务,有力支撑各行各类业务开展和系统建设工作。

1)数据治理平台SDG

(1)治理活动全覆盖

涵盖数据源连接、多元异构数据采集、元数据采集、主数据管理、数据剖析、数据稽核等多种类型数据治理活动,支持数据血缘分析、数据资源目录和数据服务API,实现数据治理活动全覆盖。平台拥有完善的异常数据分析监控及处理机制,无论是数据质量问题还是元数据异动,均能实现动态监测,确保数据完整性。平台采用HTTPS协议及SSL数据加密算法,支持国密算法,保证数据流转过程中数据安全。

(2)流程处理及共享

基于Flowable工作流机制,实现数据治理活动的高度可定制化,满足不同业务类型的数据治理要求。同时在数据一体化服务平台框架内,可直接对接机器学习平台和自助式可视化系统,完成后续数据分析和应用。也可以输出为文件、DB、消息队列及数据服务API等多种方式,对接第三方系统,实现数据共享利用。

(3)血缘分析及管理

血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯。当部分数据异常告警时,可通过血缘图向下追踪分析数据异常的原因,通过影响图向上分析哪些数据实体中的数据会受到影响。平台支持基于元数据的血缘自动分析,也支持基于数据库日志的数据血缘分析,满足各类数据管理要求。

数据血缘管理

(4)数据资源目录

资源目录体系是整个信息资源共享和开发利用的基础设施。信息资源目录体系的主要作用是实现对信息资源的发现和定位。平台基于元数据和标签体系,实现对资源目录的综合管理,并结合数据目录的发布、访问和下载应用等不同类型的服务形式,形成服务目录综合分析。

数据资源目录

2)机器学习平台AIR

(1)内置丰富模型

平台提供了多种常见的机器学习算法,例如广义线性建模(线性回归,逻辑回归等),朴素贝叶斯,主成分分析,k均值聚类和word2vec。 同时还提供分布式随机森林,梯度提升和深度学习等高级算法。另外,通过堆栈集成方法,可实现使用堆栈过程找到预测算法集合的最佳组合。

内置丰富算法(右侧)及算法使用教程

(2)向导式模型设计

系统提供基于WEB的Flow设计界面,方面客户在浏览器终端快速开展建模工作。内置向导式建模助手,涵盖数据导入、数据帧处理、模型选择、网格搜索以及模型构建、预测结果、导出和部署模型全部过程。同时支持自动机器学习,让系统自动评估所有算法性能和结果,实现零编程建模。

建模助手

(3)多种建模方式和接口

系统提供多种建模和交付方式,除了基于WEB的Flow可视化建模,支持开放式实验环境AIR CMD,提供包括R、Python、Scala、Java、JSON和Coffee Script/JavaScript的接口;提供交互式建模AIR Notebook,使用类Jupyter笔记本的交付方式,方便专家型用户进行交互式建模。

3)自助式可视化系统LOOKUP

(1)多数据源支持

针对可视化分析场景,既可以从数据治理平台获取清洗完成的数据集,也可独立部署获取数据集,支持常规关系型数据库、Excel、CSV、文本、图像、影音文件。对于结构化数据支持在线编辑、拆分、合并、降维等处理,形成工作表,并可按照可视化数据及时性要求,实现全量数据同步和增量数据同步。

丰富的数据源接入

(2)拖拽式建模工具

基于数据接入后生成的工作表,进行拖拽式建模工作,通过定义数据集的维度和量度,并指定关联关系,系统可自动匹配数据格式,自动予以图形化呈现,提高建模的直观程度。内置丰富数据模型,为可视化分析提供参考依据。

(3)所见即所得设计器

提供所见即所得的实时数据可视化功能,通过自定义可视化设计器,提供上百种可视化图形组件,全面支持ECharts、D3等图形化框架,支持地图组件。能够结合业务系统实际情况,提供3D效果组件,实现探索式可视化呈现。

所见即所得设计工具

4)指标综合分析系统SRS

(1)指标管理

在用户完成业务指标梳理后,通过指标分析系统,可将不同的业务系统中的数据统一管理在指标库中,通过多样化的指标设计方式满足指标口径来源的多样化需求。在现有指标设计完成后,可在此基础上设计并合成新的指标,无需重新梳理业务系统。指标管理包括指标定义、指标建模、指标固化等主要功能。

指标多维度分析

(2)指标应用

通过指标展示、指标数据服务实现指标的落地应用。指标展示,可利用自主可视化系统LOOKUP,借助图表、图形和地图等可视化元素,将指标信息和数据进行可视化展示,可以直观、便捷、高效的了解业务相关情况;指标数据服务,将在指标库中管理的指标生成数据服务功能,通过数据接口向外提供指标数据服务,提升数据共享能力。

指标可视化

(3)数据填报和审批

数据填报,可通过指标填报模板录入指标相关业务数据。支持插入提交、删除提交、更新提交等方式,对录入的数据进行校验。数据审批,实现对填报数据的审批工作。根据工作流,由下级单位将数据填报后,经过系统校验(校验失败的数据不能上报),将数据上报至商机单位审批,上级单位可对不满足要求的数据进行退回处理,对满足要求的数据进行审批通过,在上级单位审批前,下级单位可对提交的数据进行撤回

5)智能知识图谱系统SKG

(1)自然语言分析

基于NLP技术,实现信息提取、分词、知识抽取,完成知识获取步骤,为最终的知识融合和利用提供基础。以应急预案为例,通过自然语言分析技术,解决预案记忆难、寻找难的痛点,解决预案相关专业知识从专业人员头脑中变为让机器掌握和智能学习的难点,实现预案文本变成预案知识,最终形成以知识图谱为核心,支撑多知识利用场景,应急知识图谱构建和持续学习更新。

(2)知识融合

知识融合,即合并两个知识图谱(本体),基本的问题都是怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。综合利用数据治理平台的数据处理能力,从数据预处理、分块、记录链接、结果评估到结果输出,其中涉及到各类相似度计算、实体相似度计算、采用算法平台提供的聚合、聚类、向量计算等算法实现。

(3)知识利用

识别挖掘提取概念和实体属性及关系等知识,形成超大规模低噪音高价值的知识图谱,可以推理发现和预测等决策支持。提供诸如语义搜索、智能问答、语义理解、媒体理解、推理引擎、决策引擎等知识利用场景。

基于知识图谱构建的公安情报研判系统

天易数聚解决方案

天易数聚解决方案

基于高效、可靠的大数据及机器学习、区块链技术,面向政府、企业的大数据产品,集大数据采集、治理、管控、分析、知识学习及可视化为一体,快速实现多数据源整合,安全实现数据资产管控,轻松实现海量数据治理,基于机器学习进行知识探索,启发式实现数据分析可视化,帮助用户创造数据价值,实现数据变现。天易数聚产品体系围绕数据全方位服务,打造数据一体化服务平台DATANOVA,主要包括5个部分:数据治理平台SDG、机器学习平台AIR、自助式可视化系统LOOKUP、指标综合分析系统SRS、智能知识图谱系统SKG。已在能源电力、医疗健康、公共安全等领域进行了实践和业务创新。

产品体系图

(1)数据治理平台。基于多源异构的大数据采集工具,借助流程化的大数据清洗工具,构建数据资产目录,形成数据血缘关系,实现大数据汇集管理的资产化。建立科学、安全的数据开放和共享机制,助力客户实现数据资产化,为充分发挥数据价值夯实基础。

(2)机器学习平台。基于向导式模型设计,内置丰富机器学习算法,轻松构建机器学习任务。分布式可伸缩架构,支持GPU、CPU异构加速,同时提供开放式实验环境,支持使用Python、R等语言构建模型。

(3)自助式可视化系统。基于高效、可靠的大数据技术,集大数据分析和可视化为一体,为用户提供面向业务问题的大数据分析服务和可视化解决方案,帮助各级政府、重点行业创造数据价值,实现数据变现。

(4)指标综合分析系统。面向企业及政府提供数据统筹采集填报分析系统,支持自定义指标体系,灵活适应多种指标采集场景,实现指标计算、多维分析。支持多租户使用,适配各类常用数据库。

(5)智能知识图谱系统。深度挖掘大数据关联关系,通过数据融合、自然语言分析、智能检索、多维展示和交互分析,建设行业专属的知识图谱,结合机器学习技术和业务专家经验打造行业知识大脑,有力支撑情报研判分析、人事动态追踪等行业应用。

1)多种数据源快速整合

内置灵活、高效的数据采集工具,快速实现多种数据源整合:为丰富采集方式,支持更加复杂的采集需求和环境,产品提供开放、可扩展的采集框架。根据系统类型选择适合于需要的采集插件,在下载到采集对象所在环境后,按照不同采集插件要求,配置相应属性,支持采集插件的状态管理和监控。

提供可视化ETL工具,简化数据处理流程,实现零编码。实时ETL处理海量流式数据,对数据的加载、清洗、分解、结构化、归并、引用等实时处理、实时输出,为在线业务提供实时应用支持。

ETL工具

2)海量高性能混合存储

天易数聚产品根据数据实时特征,采用历史数据与实时数据各自存储的架构,历史数据存储全量数据,实时数据在全量数据的基础上实现增量存储,检索查询、关联分析等都可在秒级完成。该存储架构性能在发展最快的开源社区的性能比对中,明显优于相类似的存储架构。

在大量、快速的数据面前,只有强大的存储和离线计算能力是不够的,对数据的实时处理能力和对处理结果的分析挖掘尤为重要。天易数聚采用基于时间窗口的数据存储,提高数据处理及查询效率,相对于其它大数据存储查询方式,效率提高300倍以上。

3)海量大数据轻松处理

产品和计算引擎都采用分布式架构,可做到线性且实时横向扩展,使得数据量和计算性能不再是系统瓶颈,能够最大限度地汇总和利用数据。并且在整个架构中,对于可能的单点都进行了双活冗余的设计,达到了真正的高可用;防止单台宕机影响整个平台,做到真正的安全生产。PB级数据秒级处理效率。图数据库支持对大数据表(超过10亿条记录)的检查,单机环境下在半小时内完成对大图(3000万个节点、10亿条边)的加载,单机环境下在1秒之内完成大图(3000万个节点、10亿条边)k-NN两步域查询。

4)探索式实现数据分析

预置多种多维数据模型和机器学习算法,如广义线性建模(线性回归,逻辑回归等),朴素贝叶斯,主成分分析,k均值聚类和word2vec。 同时还提供分布式随机森林,梯度提升和深度学习等高级算法。另外,通过堆栈集成方法,可实现使用堆栈过程找到预测算法集合的最佳组合。全面支持Echarts、D3等图形化框架,快速适应复杂业务环境。支持多种可视化呈现方式,满足不同业务场景需要。提供灵活的拖拽式在线可视化设计工具,所见即所得。

5)简单易用的二次开发

提供丰富API接口及工具集,便于进行二次平台开发。通过自定义数据查询语言,兼容多种数据存储方式,实现快速高效数据查询。在线提供Flow可视化建模工具,同时支持开放式实验环境,提供包括R、Python、Scala、Java、JSON和Coffee Script/JavaScript的接口;提供交互式建模AIR Notebook,使用类Jupyter笔记本的交付方式,方便专家型用户进行交互式建模。

简单的二次开发

天易数聚案例

天易数聚案例

1)数据运营管理-数据中台

实现提升数据管控效率:基于公司现有数据资源管理工具,通过配置通用型数据标准管控功能,可根据业务规则,直接构建业务专题标准及数据质量管控场景,提升专题场景构建效率,有效支撑公司开展全业务数据标准管控工作。

数据运营管理平台-常态监测

实现数据质量全方位管理:提升电网企业数据质量,进一步改善业务数据质量完整性、一致性、准确性,满足跨业务、跨系统间数据的高效贯通和有效共享,提升数据管理分析和决策效率;强化横向业务协同,从技术层面和业务层面对横向协同业务的数据开展质量监测、定位问题、跟踪整改、落实考核,实现技术与业务的“统筹管控”。

数据运营管理平台-数据资源监测

实现数据异常的快速认责:通过对业务规则的梳理,并将数据标准固化至数据标准管控流程中,通过对业务数据的实时对比监控,可快速定位问题发生的责任单位、责任部门等等信息,实现数据异常的快速定位,减少二次数据分析时间。

数据运营管理平台-数据共享监测

2)健康辅助决策系统-辅助决策

国中康健集团为实现服务社会、服务企业、服务员工的宗旨,构建连续、全面的医养康健服务体系,提供个性化、多层次服务,推动集团战略性持续发展,在开始信息化建设之初,全面考虑后续业务支撑需求,提出数据标准化建设思路和数据整合采集要求,遵循“数字国康”发展战略目标,同时结合健康数据综合管理平台要求,扩展数据标准模型,基于一期智能监测系统项目成果建立医院辅助决策支持系统,实现对医院各项指标的分析与展示,辅助临床和运营决策。

健康辅助决策领导看板

综合运用信息化技术对电力医院现有数据进行有效的整合,实现医院多个业务系统的融合和贯通,通过可视化手段全面反映医院医疗水平和管理水平,为医院领导、临床科室、职能部门提供各类数据及报表,辅助临床业务决策和促进管理提升。

3)反恐大数据研判系统-智能研判

借助大数据技术,利用公安业务和社会数据,建设反恐大数据研判系统,全方位、多层次、多角度展示分析区域内反恐维稳信息,辅助情报研判、联合指挥、领导决策等工作。将各种分析元素(静态数据、动态数据、分析模型、外部辅助数据、中间结果集)、分析手段(查询、交集比对、并集、补集、过滤、分组等)、展示手段(思维导图、关系展示、轨迹展示、时序展示、基站展示、多种排版方式等)穿插在研判过程当中,让用户按照自己的分析思路在平台上不断探索,直到确定最终目标

反恐关注人员轨迹分析