
2024年,数字化的经济进入新阶段,AI正走向前所未有的繁荣,数据作为关键生产要素的价值日益凸显,“AI+企业数据”的应用席卷全球,正在重塑企业未来的发展模式,成为企业未来发展的核心竞争力。
6月25日,数巅科技2024智领未来线上峰会暨新品发布会隆重召开,数巅科技发布了端到端的企业大模型解决方案以及生成式智能分析AskBI。数巅科技技术工程副总裁江进对企业大模型解决方案的核心模块X-Engine做了深度分享,以下是他的演讲实录。
业界涌现出诸多大语言模型,大语言模型与企业数据结合产生的应用已屡见不鲜,但如何高效、精准地将企业数据与大语言模型相融合,依然颇具挑战性:
企业知识难以融入:实时经营管理数据、内部私有数据等难以用于大模型能力训练。
数据资产不统一:存在质量参差、收集目的不同、非标准化、非结构化、互相隔离等问题。数据存储在不同的数据库和计算引擎中,读取的方式各不相同,缺乏统一的大模型读取接口。
数据口径不统一:存在大量同名不同义、同义不同名、口径不清晰、命名难理解、逻辑不准确、数据难追溯的问题。
为此,数巅科技自主研发了面向大模型的下一代数据虚拟化引擎X-Engine,其关键能力包括:
全面虚拟化引擎:解耦数据资产与物理实现,在此基础上构建流批一体、全时指标以及数据权限自动化管理能力。
资产定义即服务:可统一资产语义、自动去重、跟踪血缘、避免二义性,依据业务语义实现资产自动生成及扩充,随用随算。
高性能多模实时存储:完全自主研发的业界领先的存储系统,可提升读写的复杂度和速度,性能达业界同种类型的产品的5-10倍。
使用简单:流数据和批数据都能够正常的使用虚拟表的概念进行访问,降低开发复杂度,逻辑统一。
灵活配置:支持使用SQL统一处理流和批的计算工艺流程,支持灵活的过滤、聚合、关联操作。
处理实时数据的团队和处理离线数据的团队往往隶属于不同的团队,对于同样一个业务逻辑,一个实时指标和一个离线指标通常是需要在两个不同团队间实现的。如果这样一个时间段需要修改逻辑,就需要在不同的地方做修改,这就造成了逻辑不统一的情况出现,带来了计算口径不一致的问题。
通过流批一体的虚拟表,把流表和批表统一在同一个虚拟表的逻辑下面,就能轻松实现逻辑的统一,并降低开发难度。
X-Engine指标建模按照维度列、度量列、时间列的方式来划分和定义,更容易被大模型理解,同时也占用更少的存储空间。同时对于指标增加了比例,指标组等标签,更好地为大模型服务。
物化是对逻辑建模进行加速的过程,智能物化技术是虚拟化引擎必要的技术。如果没有物化使用支持,对于虚拟表的访问将直接打到原始数据层上面,与现有系统相比,毫无疑问会导致性能的回退。
我们会按照每个用户访问的pattern和自然血缘来决定哪些字段要被物化。对于虚拟表的访问,尽可能会转化成对物化视图的访问。通过虚拟表和智能物化技术,我们大家可以在不降低现有系统性能的情况下,减少现有系统中大量重复的计算和存储。
数据虚拟化引擎X-Engine解决了大数据和AI领域的基础软件核心难题,其核心“多模态实时存储虚拟化引擎”完全由数巅科技自主研发,从底层存储到上层应用的核心代码也全部自研,部分领域达到了国际领先水平,解决了大数据计算存储领域的卡脖子问题,能保证国内用户使用的安全、自主可控。
上一篇:【48812】方大九钢巧改车辆发动机进气过滤体系显成效
下一篇:安徽凤凰(832000)2024年共计派发现金红利73344万元 致力于汽车滤清器的研发、生产