X-Engine：面向大模型的下一代数据引擎

发布时间：2024-07-13 03:22:25 | 作者: 华体会综合体育登录

商品详情

　　2024年，数字化的经济进入新阶段，AI正走向前所未有的繁荣，数据作为关键生产要素的价值日益凸显，“AI+企业数据”的应用席卷全球，正在重塑企业未来的发展模式，成为企业未来发展的核心竞争力。

　　6月25日，数巅科技2024智领未来线上峰会暨新品发布会隆重召开，数巅科技发布了端到端的企业大模型解决方案以及生成式智能分析AskBI。数巅科技技术工程副总裁江进对企业大模型解决方案的核心模块X-Engine做了深度分享，以下是他的演讲实录。

　　业界涌现出诸多大语言模型，大语言模型与企业数据结合产生的应用已屡见不鲜，但如何高效、精准地将企业数据与大语言模型相融合，依然颇具挑战性：

　　企业知识难以融入：实时经营管理数据、内部私有数据等难以用于大模型能力训练。

　　数据资产不统一：存在质量参差、收集目的不同、非标准化、非结构化、互相隔离等问题。数据存储在不同的数据库和计算引擎中，读取的方式各不相同，缺乏统一的大模型读取接口。

　　数据口径不统一：存在大量同名不同义、同义不同名、口径不清晰、命名难理解、逻辑不准确、数据难追溯的问题。

　　为此，数巅科技自主研发了面向大模型的下一代数据虚拟化引擎X-Engine，其关键能力包括：

　　全面虚拟化引擎：解耦数据资产与物理实现，在此基础上构建流批一体、全时指标以及数据权限自动化管理能力。

　　资产定义即服务：可统一资产语义、自动去重、跟踪血缘、避免二义性，依据业务语义实现资产自动生成及扩充，随用随算。

　　高性能多模实时存储：完全自主研发的业界领先的存储系统，可提升读写的复杂度和速度，性能达业界同种类型的产品的5-10倍。

　　使用简单：流数据和批数据都能够正常的使用虚拟表的概念进行访问，降低开发复杂度，逻辑统一。

　　灵活配置：支持使用SQL统一处理流和批的计算工艺流程，支持灵活的过滤、聚合、关联操作。

　　处理实时数据的团队和处理离线数据的团队往往隶属于不同的团队，对于同样一个业务逻辑，一个实时指标和一个离线指标通常是需要在两个不同团队间实现的。如果这样一个时间段需要修改逻辑，就需要在不同的地方做修改，这就造成了逻辑不统一的情况出现，带来了计算口径不一致的问题。

　　通过流批一体的虚拟表，把流表和批表统一在同一个虚拟表的逻辑下面，就能轻松实现逻辑的统一，并降低开发难度。

　　X-Engine指标建模按照维度列、度量列、时间列的方式来划分和定义，更容易被大模型理解，同时也占用更少的存储空间。同时对于指标增加了比例，指标组等标签，更好地为大模型服务。

　　物化是对逻辑建模进行加速的过程，智能物化技术是虚拟化引擎必要的技术。如果没有物化使用支持，对于虚拟表的访问将直接打到原始数据层上面，与现有系统相比，毫无疑问会导致性能的回退。

　　我们会按照每个用户访问的pattern和自然血缘来决定哪些字段要被物化。对于虚拟表的访问，尽可能会转化成对物化视图的访问。通过虚拟表和智能物化技术，我们大家可以在不降低现有系统性能的情况下，减少现有系统中大量重复的计算和存储。

　　数据虚拟化引擎X-Engine解决了大数据和AI领域的基础软件核心难题，其核心“多模态实时存储虚拟化引擎”完全由数巅科技自主研发，从底层存储到上层应用的核心代码也全部自研，部分领域达到了国际领先水平，解决了大数据计算存储领域的卡脖子问题，能保证国内用户使用的安全、自主可控。

上一篇:【48812】方大九钢巧改车辆发动机进气过滤体系显成效

下一篇:安徽凤凰（832000）2024年共计派发现金红利73344万元致力于汽车滤清器的研发、生产

UK738发动机系列