数据库信息速递 AI推动数据库发展的10种方法（译）-摩杜云开发者社区

每日感悟

一个好人会让人失望，他会做错事让人失望，哪怕一件，一个坏人会让人惊喜，他偶然会做一件好事，让你暖心。那你愿意让人惊喜，还是失望，哼
谁问你类似的问题，注意汤里少放盐。

数据库信息速递 AI推动数据库发展的10种方法（译）_人工智能

（注：对于原文章的说法并不完全赞同）

随着AI技术的推进，很多人工智能充满了

尽管生成式人工智能充满闪光和魅力，但这个新时代最大的变革可能深埋在软件堆栈中。人工智能算法在人们的视线之外，正在一次一个数据库地改变世界。他们正在颠覆那些在无尽的常规表格中跟踪世界数据的系统，用复杂、自适应且看似直观的新型人工智能功能取代它们。

1 人工智能类的数据库产品

人工智能在开发中，开发人员愿意将信息存储为数字向量，在过去数据库将这些值存储为行，每个数据位于单独的列中，而现在的新型的向量数据库产品支持单纯的向量，这些向量数据库并不需要将数据分解为行或列，他们将这些都存储在一起，一些用于存储的向量的长度为数百或上千个数字，通常这些向量嵌入配对，嵌入是一种将复杂数据转换为单个数据列表的方式，当然设计嵌入仍然是一门技术，于当前的底层的领域的知识有关，当嵌入设计的良好的情况下，数据库可以更好的运行和解读复杂的查询，比如Pinecone、Vespa、Milvus、Margo 和 Weaviate 等公司正在构建专门用于存储向量的新数据库。PostgreSQL 也将向量添加到他们当前的工具中。

2 查询模式

将向量添加到数据库带来的不仅仅对于开发者是方便的，新的查询功能不仅仅可以搜索精确匹配还可以找到“最接近”的值，这对于实现推荐引擎或异常检测等系统是非常有帮助的，在向量空间中嵌入数据简化了涉及匹配与关联到纯粹几何距离的难搞的问题，一些意想不到的工具还提供相似性匹配，可以通过大块非结构化文本提供相似的结果。

3 更强的自荐功能

基于矢量的查询系统比以前的查询系统更有意思，旧的查询会寻找匹配项而新的人工智能驱动的数据库会让你有感觉是在解读用户的想法。他们使用相似性搜索来查找“接近”的数据项，并且这些数据项通常与用户想要的内容非常匹配。这一切背后的数学可能就像计算 n 维空间中的距离一样简单，但不知何故，这足以带来意想不到的结果。这些算法长期以来作为完整的应用程序单独运行，但它们正在慢慢地被合并到数据库中，在那里它们可以支持更好、更复杂的查询， Oracle很早就提供了各种模糊匹配和相似性搜索的功能，但是它成为在线零售等行业定制的工具的模式出现。

4 索引范例

之前数据库可以建立简单的索引，支持特定列进行更快的搜索DBA擅长使用索引来处理JOIN和where 条件建立正确的索引，这些查询就可以运行得更快。现在向量数据库旨在创建有效涵盖向量中所有值的索引，我们需要弄清楚查找彼此“邻近”向量的所有可能性。在人工智能接受数据训练时，它会有效地查询其中的所有信息，目前我们可以用简单的语言向人工智能发送查询，人工智能将以复杂且自适应的方式进行搜索，来实现新的查询方式。

5 数据分类

人工智能不光是向数据库添加新结构，同时它也会在数据本身内部添加新的结构，有些数据以一堆杂乱的位形式到达，其中可能存在没有注释的图像或很久以前某人写的大块文本这就让人工智能算法开始需要清理杂乱的数据，和过滤一些无效的数据，并对混乱的数据集进行整理。他们自动将这些数据分门别类，可以对一段文本的数据进行分类，对照片中一张脸的的态度进行分析，可以从图像中提取细节，算法还可以学习检测模式将这一切的数据进行有细节的分类，他们对数据进行分类，提取重要的细节，并创建一个规则的、清晰描述的信息表分类的类型。

6 更好的性能

更棒的数据库可以处理数据存储的细节，之前程序员需要花时间去研究数据库使用的各种参数和模式，以使它们有效地运行。DBA的角色是为了处理这些任务而工作的，许多高级元任务现在正在自动化，通常是通过使用机器学习算法来理解查询模式和数据结构，他们能够观察服务器上的流量并制定计划来适应需求，他们可以实时适应并学习预测用户的需求，ORACLE提供了最好的例子之一，之前公司向管理数据库的数据库管理员支付高额薪水。现在，ORACLE称为自治的数据库策略为减少了DBA的需求，因为它们配备了复杂的人工智能算法，可以动态调整性能。

7 更干净的数据

数据库不仅需要保持应用正常运行，还需要让数据尽可能在正常的范围。人工智能通过搜索异常、标记异常，建议改善发现的问题来简化这一工作量。数据库可能会找到客户姓名拼写错误的地方，然后通过搜索其余数据找到正确的拼写或者数据库还可以学习输入的数据格式并截取数据以生成单个统一的资料信息收集表，其中所有名称、日期和其他详细信息都尽可能一致地呈现。Microsoft 的 SQL Server 是与数据质量服务紧密集成的数据库的一个范例，他可以清理存在缺失字段或修复重复日期等问题。

8 欺诈识别

数据库中存储的数据让其更安全是机器学习的中需要的功能，例如有些工作就是在使用机器学习算法来查找数据源中的异常，因为这些异常情况可能是欺诈的迹象。例如在银行中存在欠款记录，或者在贷款机构存在逾期，或最近在贷款进行多辆汽车的购买，这些都会将数据库存储了这些信息后，转变为欺诈检测系统。

9 更严格的安全

数据库中对于数据访问应该有自主的安全保障，如一些组织正在内部应用这些算法，让人工智能不仅仅试图优化数据库的使用模式同时他们还在寻找可能对数据库访问中闯入的异常情况。如远程用户请求整个表的完整副本并不是每天都会发生的，或者对于核心表的数据导出的工作在没有任何的审批流程下进行数据的导出，优秀的人工智能能够闻到腥味。

10 合并数据库和生成人工智能

之前人工智能与数据库是分开的，当需要训练模型时，将从数据库中提取数据，重新格式化，然后通过人工智能进行数据处理。新系统直接根据现有数据训练模型，这可以为最大规模的工作节省时间和精力，而在这些工作中，仅仅如果数据需要再次处理，移动数据，就可能需要几天或几周的时间。于此还可以使训练 AI 模型就像发出一条命令一样简单，从而简化了 DevOps 的工作，甚至有人讨论完全替换数据库不再有SQL，人们将人类的语言发送给数据库，然后人工智能获得结果，来回答任何查询。谷歌提供 Bard，微软正在推动 ChatGPT都是在做这项工作，两者都是取代搜索引擎的有力竞争者。它们也肯能取代传统数据库，

目前如果进行相关工作的领域范围缩小的情况下、训练集足够深入，人工智能已经可以完成这项工作，对于用户来说，不会在关心数据库的维内托，因为人工智能和数据库是一体的，使用生成式人工智能存储和搜索数据将是下一步的工作。

数据库信息速递 AI推动数据库发展的10种方法（译）_数据库_02