Text mining and natural language processing in construction 论文阅读-摩杜云开发者社区

摘要

文本挖掘 ™ 和自然语言处理 (NLP) 引起了建筑领域的兴趣，因为它们提供了管理和分析基于文本的信息的增强功能。这凸显了需要从施工管理的角度进行系统审查，以确定现状、差距和未来方向。通过将 205 份出版物的目标与施工管理实践中概述的具体领域、领域、任务和流程相结合来进行审查。这篇评论揭示了 TM/NLP 方法支持的建筑行业的多个方面，并强调了需要考虑自动化可能性和尽量减少手动任务的基本空白。最终，在发现了障碍之后，审查结果表明了潜在的研究机会：（1）加强被忽视的构建方面，（2）耦合不同的数据格式，以及（3）利用预先训练的语言模型和强化学习。这些发现将提供重要的见解，促进 TM/NLP 研究及其在学术界和工业界的应用取得进一步进展。

关键词

文本挖掘自然语言处理机器学习计算语言学语言模型构建项目管理

1.介绍

由于建设项目涉及各个利益相关者之间的长期多阶段交付，因此通常会产生大量信息。文本信息是施工管理各个阶段中存在的主要数据类型，其中超过 80% 是非结构化的[1]。文本数据以不同的结构、格式和大小存储，例如电子邮件、图纸和合同，跨越建设项目的不同阶段以实现特定目标。从文档中检索特定的文本信息对于项目方成功开展项目至关重要。在复杂的业务环境中，施工管理中缺乏适当和集成的信息交换和分析可能会导致整个项目生命周期中的沟通和绩效不佳[2]。此外，许多施工活动和过程仍然由操作员手动或半自动执行，这仍然是低效且劳动密集型的。建筑文本信息量的快速增长增加了对大数据分析工具的需求。由于施工文本数据量的不断增加，施工中文本分析等先进技术的出现引发了对施工管理数字化和自动化的讨论

文本分析起源于 20 世纪 40 年代末，随着机器翻译和信息检索的引入。到 1961 年，计算语言学已经发展到涵盖各个方面，包括形态、语法和语义 [3]。自1993年以来，TM和NLP因其显着的进步和在健康和法律等各个领域的广泛应用而受到广泛关注[4-7]。这些应用范围从分析临床记录、处方和法律案例到开发 Siri 和 Alexa 等智能个人助理。鉴于这些进步，近年来，建筑研究领域对通过 TM 和 NLP 技术分析建筑文档也越来越感兴趣。文本挖掘从非结构化和结构化文本中提取信息，无需考虑语义，而 NLP 是机器学习和语言学的子领域，可以通过计算技术处理、理解和模拟人类语言能力 [3]。 NLP可以进行各种基于文本的分析，以基于分析的层次来理解人类的语言知识，包括语义、句法、词法和词汇分析[3]。此外，NLP 可以执行：(1) 一系列文本处理任务，包括标记化、词干提取和词性标记 (POS)； (2)信息检索(IR)、信息提取(IE)和语音识别； (3) 使用基于规则和机器学习 (ML) 方法的高级文本分析 [1,8]。

文本分析和自然语言处理的进步推动了建筑相关研究的进步，使各种建筑领域近年来实现了一定程度的自动化[9]。以前的基于文本的研究利用 TM/NLP 方法解决了建筑领域的众多挑战和问题。然而，由于 TM 和 NLP 在构建中的应用具有新颖性，并且构建涵盖了跨领域和领域的广泛任务和流程，因此深入了解 TM 和 NLP 的积极应用程度至关重要领域、任务和流程，并确定 TM 和 NLP 探索较少的方面。因此，本综述的结构如下，以解决这些差距：第 1 节概述了有关 TM/NLP 在建筑领域的使用的现有文献。此外，本节介绍了本次审查的目的的理由。第 2 节介绍了审查的目标和方法。接下来，在第三节中，根据建设领域和领域的过程和任务对研究进行了分析。第 4 节和第 5 节分别讨论了调查结果并总结了审查。

1.1.相关评论

鉴于人们对在建筑领域利用 NLP 和 TM 的兴趣日益浓厚 [7]，一些学者将注意力转向对建筑领域或特定领域内的各种 NLP 和 TM 工具和技术的详细探索。 Baek 等人研究了基于文本的研究，回顾了文本分析在建筑中的方法、数据源、挑战和未来应用[7]。 Wu等人通过回顾建筑项目文本和文档中NLP实施的各个阶段，深入研究了NLP在智能建筑中的主流应用[1]。这包括 NLP 实施、信息和关系提取方法、信息/文档检索技术的探索以及下游 NLP 应用中的关键步骤。 Ding 等人对 NLP 在构建中的应用进行了科学计量分析，主要侧重于数据源、工具、技术和各种应用[9]。钟等人通过将 NLP 在建筑领域的使用与计算机科学领域 NLP 的最新进展进行比较 [10]。正如之前的评论所指出的，解决将 NLP 集成到未来建筑研究中的挑战和进步需要集体努力，重点关注不同数据源的无缝集成、预训练语言模型的有效利用以及 NLP 的自动化实现并加强施工流程。其他研究人员专注于特定的建筑领域。 Hassan 等人回顾了 NLP 在建筑法律问题和合同中的应用，包括历史法律案例分析、建筑法规中的违规检测以及监管规范和合同审查 [11]。同样，Locatelli 等人探索了 NLP 在建筑信息模型 (BIM) 背景下的潜力和应用 [12]。迪尼斯等人还对 BIM 语义丰富应用程序和系统的最新发展进行了回顾 [13]。

1.2.本次审查的贡献

之前的评论主要关注通过计算机科学的视角在建筑领域实施 TM 和 NLP。这一重点围绕对建筑出版物中最先进的 NLP 和 TM 技术和算法的进步进行彻底检查和评估。尽管提供了旨在推进语言模型和文本分析的自动化和智能化的建议，并确定了 NLP 和 TM 可以减少手动调查需求的构建领域，但这些评论在几个方面都存在缺陷。首先，这些评论缺乏一致性，没有从施工管理理念的角度全面探讨这一主题。其次，之前的评论没有从建筑和项目管理的角度对TM和NLP在建筑领域、任务和流程中的应用进行全面的审查，类似于之前在计算机科学背景下的评论。这一研究空白使得关键方面尚未得到探索，而 TM 和 NLP 可能会给施工管理带来巨大的好处。因此，本次审查旨在解决知识差距，因为目前还没有从施工管理的角度进行系统审查来比较评估TM和NLP是否已实施的各个领域、任务和过程。本次审查的核心价值是确定施工管理中应用 TM/NLP 的施工管理领域、领域、任务和流程。因此，它的目的是在未来的研究调查中揭示发现需要解决的差距，以最大限度地减少手动操作并提高各个建筑领域的自动化程度。本综述预计将为 TM/NLP 在施工管理概念中的应用和能力提供大量最新的参考，并通过强调当前 TM/NLP 研究中最不受关注的概念来提出未来的研究方向。

2. 审查方法

在本次审查中，整合了构建和 NLP/TM 相关术语，以确定最相关的出版物。图 1 概述了出版物选择过程，其展开如下：最初，使用 Google Scholar 和 ProQuest 收集建筑领域内利用 NLP/TM 技术的相关文章。随后，采用文本处理和构建特定关键字的组合来审查这些出版物。为了促进这一点，采用了一些施工管理实践，包括“项目管理知识体系指南”（PMBOK指南）[14]、建筑工业学院手册[15]、总体设施管理[16]、施工合同[17] ]、施工安全原则[18]、施工规范和检查手册[19]以及BIM和施工管理[20]。这些做法有两个主要目的：首先，确定一系列与构建相关的术语，以加强对潜在主题领域和领域的覆盖；其次，将收集的论文的目标与这些实践中概述的领域、任务、领域和过程相结合，以确定建筑相关研究的贡献和差距。论文集中使用的与施工相关的术语包括：安全管理；风险管理;资产管理;成本管理;成本超支;日程管理；计划延误；设施管理;信息管理；文件管理;质量管理;可持续性；环境的;绿色建筑；沟通;利益相关者管理；公众参与；采购管理;供应管理;模块化、预制化或预制；一体化管理；资源管理;人力资源;项目管理;知识管理;物资管理;合同管理;索赔和争议管理；项目控制；招标或招标；更换管理层;操作与维护；建造;设计；清仓；施工前；施工后；范围管理；项目计划;设计；和生产力。相反，TM/NLP相关术语包括：自然语言处理；文本挖掘；文本分析；句法分析；语义分析；信息检索；信息提取；文本分类；自然语言理解；自然语言生成；情绪分析；和主题建模。随后，考虑到术语变化，对结构和TM/NLP相关术语的逻辑组合进行了全面检查。另一方面，某些关键词可以在跨学科研究中进行不同的解释（即商业领域的成本估算和计算机科学中的构建），最终指导专门关注构建相关主题的论文的选择。提取所有相关论文后，通过人工筛选排除不相关论文。在后续阶段，每篇论文的目标都经过人工审核，与施工实践中提供的流程、任务、领域和领域。从2002年1月到2023年8月的二十年时间里，从上述数据源中选出了205篇论文进行本次综述。分析揭示了 TM/NLP 应用与建筑领域交叉的 12 个主要领域/领域。出版物对每个特定领域/领域的任务和流程的影响将在第 3 节中讨论。

2.1 文献收藏总体趋势

图2描绘了论文收集的轨迹，可以分为起始期、起飞期和探索期。第一篇论文出现于 2002 年，直到 2013 年，总体发表趋势保持相对稳定，在创始阶段的 11 年时间里，仅发表了 10 篇论文。然而，TM/NLP 在建筑领域的应用从 2013 年开始兴起，恰逢 Word2Vec 词嵌入方法的引入和神经网络在 NLP 中应用的启动。一年后，引入了另一种词嵌入技术，全局向量（GloVe）。在起飞期，从 2013 年开始，TM/NLP 应用的研究呈现出不断增长的步伐，并一直持续到 2018 年。自 2018 年开始探索阶段以来，随着变压器双向编码器表示（BERT）和语言模型嵌入（ELMo）的引入，词嵌入技术得到了进一步发展，导致出版物数量大幅增加。尽管大型语言模型 (LLM) 背景下取得了关键进展，例如 2022 年底的聊天生成预训练转换器 (ChatGPT)，但截至撰写本文时，调查 LLM 如何影响建筑领域基于文本的研究还为时过早审查。从图2中可以看出TM/NLP在建筑领域的应用如何与技术的发展相一致，特别是在词嵌入方法的背景下。此外，2019 年 RoBERTa 和 ALBERT 等模型的推出突显了基于 BERT 的语言模型如何使 NLP 应用程序在构建相关研究中成为有效的编码工具。尽管在针对健康和法律等特定领域应用的基于 BERT 的模型微调方面取得了进展 [6,21]，但建筑行业仍然缺乏针对特定建筑语料库的微调 BERT 模型。另一方面，尽管截至目前，2022年和2023年的出版物数量略有减少，并且GPT等LLM取得了进步，但可以想象，未来的发展将包括编码和解码方面的进步，而不是仅仅关注编码。尽管如此，自 2018 年以来，研究人员对在建筑研究中应用 TM/NLP 表现出了越来越大的兴趣。

图 3 概述了各个领域的分布模式建设领域的各个领域、任务和领域。最大的部分致力于建筑安全和管理，占 205 份出版物中约 20%（42 篇论文）。该领域受到的研究关注度最高。已发表论文中的第二个重点是自动合规性检查，占出版物总数的 18%（37 篇论文）。此外，还特别强调合同管理，占出版物的 14%（30 篇论文）。此外，在 BIM 领域，利用 TM 和 NLP 技术的研究占总体出版物的 12%。此外，知识、文档和信息管理总共占出版物总数的 11%。总的来说，安全管理、自动合规检查、合同管理以及知识、文档和信息管理这五个主要领域脱颖而出，成为主要关注领域，占已发表论文的 75% 以上。

3. TM和NLP在建筑中的应用

本节深入研究所选出版物的影响和增值见解，特别是在与每个主题类别相关的领域、领域、任务和流程的背景下，同时评估 TM/NLP 技术的利用率。此外，对每篇论文的目标和对施工管理实践的贡献进行了比较分析，以确定 TM 和 NLP 尚未应用的领域、任务和流程。

3.1.成本管理

成本管理涉及几个重要流程，包括成本管理规划、成本估算、预算确定和成本控制[14]。学者们开发了模型来促进和自动化成本相关流程，例如 Akanbi 和 Zhang 开发的支持语义 NLP 的模型，该模型将施工规范中的设计信息与材料相匹配，以增强 BIM 环境中的成本估算 [22]。他们开发的信息提取和匹配（IEM）算法将规范信息提取时间减少到类似传统方式的 5.56%。贾法里等人提出了一个模型，使用蒙特卡洛模拟、基于规则和基于机器学习的分类方法来预测完成规范和合同的报告要求的间接费用和时间[23]。XGBoost 在经过测试的分类方法中实现了最高的召回率，使其成为在接受协议之前的招标和合同阶段的合适选择。 Tang 等人还提出了一种利用命名实体识别 (NER) 的 IE 模型，用于基于 RSMeans 成本项目自动计算数量 [24]。这三项研究实施了 NLP 任务来改进成本估算步骤。 Williams 和Gong 的模型适用于成本管理的预算确定步骤，并且对于成本严重超支的项目表现良好[25]。简而言之，如表 1 和图 4 所示，虽然 TM 和 NLP 已广泛用于基于 BIM 的成本估算、预算和成本超支估算，但它们在改进成本控制流程、会计实践、成本报告、财务报表分析以及间接费用、直接和间接计算尚未得到广泛采用。

3.2.日程管理

进度管理包括规划、定义活动、排序活动、估计活动资源、估计活动持续时间和制定进度表[14]。 Hong等人比较了各种调度活动的聚类方法来对构建活动进行聚类，从而提高了调度质量[26]。这项工作还有助于改进活动定义过程。此外，还建议采用包含长短期记忆 (LSTM) 的模型来自动化活动依赖性，使其适合自动化活动序列。 Amer 和 Golparvar-Fard 提供了一个模型来自动化活动的逻辑依赖性，以便根据历史项目进度表对动态施工工作模板进行建模，以用于新项目进度安排和设计优化 [27]。 Amer 等人提出了一种模型，用于检查调度质量并自动执行无序活动的逻辑依赖关系 [28]。在一项单独的调查中，Amer 等人开发了一种模型，能够根据输入主活动提示生成前瞻性规划活动 [29]。该模型结合了基于距离的匹配和变压器架构[29]。普列托等人采用生成式预训练变压器（GPT-2）模型根据定义的工作范围生成施工进度表[30]。参与者随后评估创建的时间表的结果，考虑依赖关系的质量和逻辑连接。简而言之，与调度相关的研究主要应用 TM/NLP 技术来调度活动和依赖关系。然而，当考虑到整套调度管理任务和流程时，如表 1 和图 4 所示，很明显 TM/NLP 在规划、估计活动持续时间和资源方面仍然没有充分利用，基于BIM调度、进度超限和延迟分析。

3.3.质量管理

质量管理包括三个程序：计划、质量保证和质量控制[14]。如表 1 和图 4 所示，研究人员几乎在所有流程中都使用了 TM/NLP 技术。例如，Jeon 等人采用 Word2Vec、GloVe、卷积神经网络 (CNN) 和递归神经网络 (RNN) 来自动从规范中提取质量要求并将其转换为创建检查表 [31]。他们的模型同时自动化三个质量管理流程，包括质量管理规划、质量保证和质量控制。钟等人提出的模型适用于质量保证。他们使用混合双向 LSTM (Bi-LSTM)、条件随机场 (CRF)、LSTM 和多层感知器 (MLP) 来自动从法规中提取程序约束 [32]。 Zhu等人利用CNN、基于贝叶斯和SVM对建筑质量投诉进行自动分类并识别语义特征[33]。他们的模型非常适合质量控制步骤，可以对缺陷进行分类以进一步改进。 Lin 等人开发了一个现场问题框架，利用检查记录的主题建模来探索随着时间的推移出现的问题和担忧 [34]。张等人提出了一种通过在监督报告上采用 BERT、Word2Vec、深度学习和 ML 算法来提取和分类质量问题的模型，以支持质量控制和合规性检查任务 [35]。他们的方法使质量控制步骤在更新和理解改进行动的问题方面变得高效。一般来说，TM/NLP 技术可以实现质量管理流程的自动化。然而，遵守质量标准仍需进一步关注。

3.4.高级工作包装 (AWP)

AWP 关注的是一种系统化的方法来增强通过在项目生命周期中集成施工活动来实现可控性、可预测性和生产力。建筑工业协会（CII）将具有各种约束的工作包分为几组：施工工作区（CWA）、施工工作包（CWP）、工程工作包（EWP）、采购工作包（PWP）和安装工作包（ IWP）[15]。发现了三项研究，旨在增强和自动化 AWP 以进行约束管理和模块化构建。 Wu 等人自动化约束信息提取以自动化 AWP [36]。在另一种方法中，开发了一种结合 Bi-LSTM-CRF 和基于规则的技术的混合模型，通过自动化约束信息提取来增强 AWP [37]。先前的研究主要集中于自动提取和识别 CWP、IWP 和 EWP 之间的关系以进行约束管理。然而，与采购和 CWA 一揽子计划相关的限制因素并未得到彻底解决。此外，通过约束建模需要更多地关注确定约束优先级和解决约束的过程。虽然之前的研究强调约束管理，但Li等人提出了一种自动生成模块化施工项目进度最优工作包的模型[38]。在另一项研究中，通过采用图卷积网络（GCN）和 Bi-LSTM [39]，提出了一种基于动态知识图的方法，用于在模块化构造中生成工作包。 Li 等人开发的自动包生成提高了生产力和性能、进度跟踪和团队参与度。在应用 TM/NLP 作为自动化 AWP 任务的工具方面仍然存在差距，特别是在成本、时间、质量、安全、风险分析和前端规划方面，如表 1 和图 4 所示。

3.5.设施运营和维护

传感器和用户输入是设施管理者收集用于评估设施管理的两种主要数据类型。计算机化维护管理系统 (CMMS) 包含有价值的用户输入信息，例如工作订单日志和维护请求。 CMMS 以及其他基于信息和通信技术 (ICT) 的工具，例如计算机辅助设施管理 (CAFM)、集成工作场所管理系统 (IWMS) 和企业资产管理 (EAM) [16]，提供对用户活动的洞察，财务管理和运营任务要求。设施管理方面的出版物主要关注使用 NLP 依靠 CMMS 来管理运营任务。研究人员已经实施了文本分析，可以自动将适当的人员分配给工作订单，以提高维护和运营的生产力。莫等人提出了一种使用机器学习方法的模型，用于使用维护记录自动分配维护任务的人员[40]。这种方法适用于长期的人力建设互动，并且可以应用于施工前阶段，为变更单请求分配合适的人员。 Bouabdallaoui 等人实施了预训练的词嵌入以及 CNN 和 LSTM 的组合来对服务请求进行分类并将其分配给合格的技术人员 [41]。

研究人员还开发了支持预防性维护方法的模型，通过从 CMMS 中提取信息，重点根据建筑物特征、类型和故障发生位置对维护请求进行分析和分类。Gunay 等人利用 TM 来提取设施设备的故障发生和模式 [42]。 Bortolini 和 Forcada 利用关于维护请求的文本挖掘和统计技术来评估建筑系统，这些系统可以帮助在提交维护请求之前采用预防策略 [43]。 Marocco 和 Garofolo 提出了一种模型，用于从工单中提取维护信息，以识别包含故障组件的房间位置 [44]。多拉齐奥等人使用不同的词典实现情感分析，根据服务请求的严重性自动检测服务请求[45]。他们还评估了文本预处理方法如何影响机器学习技术在自动分类工单和优先维护请求方面的性能[46]。还对维护操作进行了评估和基准测试，以加强决策过程。 Nojedehi 等人通过使用基于规则的分类器分析记录的工单，对维护性能进行可视化和基准测试，这在组合级别很有帮助 [47]。 Dutta 等人还对调查和工单进行了情感分析和主题建模方法，以根据居住者的反馈和投诉评估维护操作的绩效 [48]。 Chen 和 Tsai 通过集成 NLP 和 BIM 开发了一个聊天机器人，以改善用户和设施管理平台之间的信息传递 [49]。 Bazzan 等人开发了一种用于对投诉进行分类的信息管理模型，从而增强了数据收集和分析 [50]。研究确定了应用 IE 和文本挖掘方法来探索检查报告中实体之间的关系，旨在增强维护决策[51]。总体而言，维护管理服务是研究的主要焦点，如表2和图5所示。然而，TM和NLP尚未应用于一般管理、安全、休闲和景观美化服务。

3.6.利益相关者管理

识别、参与、管理和监控内部和外部利益相关者是成功项目利益相关者管理的基本过程[14]。 Xu等人开发了一种动态利益相关者相关主题建模方法，采用基于潜在狄利克雷分配（LDA）的主题随时间模型和评分系统来评估公众关注点与项目利益相关者在三个阶段（包括规划、建设、和移交[52]。 Zhou等人提出了一种利用LDA进行在线舆情挖掘的框架[53]。这两项研究都为公众参与提供了管理建议。使用情绪分析和 LDA，开发了框架来收集和分析利益相关者和公众对项目的态度。例如，Wan 等人使用 LDA 和基于词典的情感分析对中国南水北调工程进行时空分析 [54]。此外，利用 LDA 开发了一个框架来评估政府对高速公路建设项目对自然环境影响的态度[55]。任等人评估情绪变化，以确定阻碍模块化建设进展的障碍[56]。与以前的研究不同，主题建模和情感分析的实施是为了探索施工中项目经理角色的能力和需求[57]。根据表2和图5，虽然相关研究主要集中在识别和管理公众舆论和参与方面，但利益相关者参与的规划受到的关注最少。

3.7.风险管理

风险管理流程包括规划、风险识别、定性和定量风险分析、风险应对计划和风险控制[14]。这些出版物的重点是检索、识别和分析风险。人们提出了模型来改进风险检索系统并识别相似的风险，以便根据历史风险案例进行预测。例如，引入了风险检索模型来改善基于案例的推理（CBR）局限性[58]，并引入了另一种方法来测量历史风险登记数据的风险相似性[59]。 Erfani 和 Cui 构建了一个模型来自动生成风险模板 [60]。 Zhou等人还采用深度学习和基于知识的BERT方法来开发能够生成风险响应的模型[61]。 Matthews 等人通过执行主题建模开发了一种用于交通项目返工风险分析的本体 [62]。 Jallan 和 Ashuri 根据年度证券交易委员会 10-K 报告对上市建筑公司进行风险识别和分析的文本分析 [63]。 NLP还被用于风险识别和英国新工程合同 (NEC) 项目的量化[64]。虽然大部分风险研究主要集中在风险识别、定量风险分析和风险应对方法上，但在定性风险分析、风险应对和风险控制流程方面发展不足，如表3和图6所示。

3.8.合同管理

研究人员参考了标准合同形式，例如国际咨询工程师联合会 (FIDIC)，进行基于文本的合同研究。此外，一般条件、规格和变更单是合同研究中应用的主要施工文件。学者们采用不同的基于规则的分析作为识别容易风险、模糊和承包商友好的条款的主要方法。与条款相关的出版物利用专家意见来验证和评估他们的模型。所提出的模型适合在合同协议之前和招标阶段使用。此外，现有词典似乎受到更广泛的合同相关术语的影响，应为语义合同分析开发这些术语。 Candas¸ 和 Tokdemir 实施了基于规则的机器学习分类器来识别模糊的合同条款 [65]。还通过采用变更指令来考虑变更管理[66]。例如，Ko 等人还提出了一种使用 CRF 的 NLP 驱动模型来识别和提取变更原因和更改的工作项目 [66]。他们的模型不仅适合分类和归档，而且还可以在发生更改时检索类似的更改。我们特别努力实现规范审查的自动化，这是风险管理的一项重要任务。相关研究高度依赖两种嵌入方法的应用，包括 Doc2Vec 和 Word2Vec，以及 NER 来开发自动规范审查系统 [67]。例如，Moon 等人使用 Word2Vec 作为开发基于 BiLSTM 的 NER 模型的输入，以实现施工规范审查的自动化 [68]。研究人员的另一个重点是对合同中规定的合同义务的分析，这随后有助于选择标准表格[69]。

已经建立了模型来提取和分类合同要求[8,70]。 Hassan 和 Le 提出了使用各种机器学习、深度神经网络和基于规则的方法来提取和分类合同要求的模型 [8]。此外，Candas¸ 和 Tokdemir 的模型可以根据公司部门自动对合同要求进行分类，从而提高合同审查效率 [70]。除了工程采购施工 (EPC) 合同条款中的自动化风险识别方法之外 [71]，还开展了针对 EPC 项目在招标阶段风险的研究[72]。例如，设计了一个模型来根据投标前信息请求（RFI）文件预测投标风险[72,73]。 Son 和 Lee 提出了一个模型来估计招标过程中 EPC 进度延误风险 [73]。他们使用向量空间模型（VSM）为向量化单词和回归分配特征权重。还为 EPC 项目开发了框架，以识别和分析规范中的单方面变更和设计风险 [74]。契约语义通过分类法的发展得到了改进，从而导致了进一步契约文本分析的本体论的发展[75]。

此外，Al Qady 和 Kandil 利用浅层解析的概念关系识别来提取语义知识，以改进合同管理、文档管理和 IR [76]。范等人

创建了一个基于 BERT 的模型，能够处理和对合同风险进行语义预测 [77]。 Fu 等人提出了一个模型，旨在增强对合同复杂性和各种合同变量之间联系的理解[78]。 LDA 还被用来寻找建筑缺陷诉讼的模式[79]。总体而言，学者们主要应用TM/NLP方法来加强合同风险管理，识别各种合同和施工文件中的风险。然而，在施工阶段管理施工合同时，在考虑施工合同程序时，索赔和争议受到的关注最少[17]。此外，将文本分析应用于其他类型的合同文件，例如特殊条件、图纸、综合项目交付合同、进度表以及用于项目控制和延误分析的延误合同条款，还有改进的空间，如表 3 和图 3 所示。 . 6.表 2 设施运营和维护以及利益相关者管理研究摘要。领域影响数据来源目标参考文献。设施运营和维护预防性维护、人员分配、绩效衡量、BIM、质量和安全管理服务请求、工单、租户调查、检查和维修报告、投诉、BIM 模型人员分配、维护请求管理和分类、提出改进模型桥梁恶化预测、用户满意度测量、聊天机器人开发、运维数据分析 [40-51] 利益相关者管理识别、评估和管理（公众和政府）意见微博、Twitter、微博帖子、环境影响评估提出识别和分析公众意见的框架关注并提供管理建议，分析社交媒体并探索建筑行业的公众态度和障碍 [52-57] 图 5. 已识别和未识别的利益相关者相关以及设施运营和维护流程和任务之间的关系。A.Shamshiri 等人

3.9.安全管理

文本分类和信息提取方法已广泛应用于建筑工地事故和伤害报告。自动提取、识别和预测安全风险因素是安全相关研究的核心主题之一。研究人员引入了从事故报告中提取知识的 IE 方法，以提高安全领域知识 [80]。此外，还提出了检索系统来检索事故案例并支持健康和安全计划的制定[81]。 Tian等人创建了一种智能问答系统，该系统采用BERT和双向门控循环单元来自动推荐安全隐患管理措施[82]。开发模型是为了确定施工作业之前和施工期间施工安全风险的频率和严重程度[83]。人们已经开发了各种深度学习和基于机器学习的模型，可以根据各种属性（包括伤害类型、身体部位和来源）从事件报告中提取前兆和结果[84]。值得注意的是，深度学习已被证明可以有效地提取伤害前兆并从伤害报告中进行安全预测[85]。使用 LDA，模型识别了事故前兆和安全风险因素 [86]。此外，还提出了可以使用小数据集运行的方法，以从事故报告中提取风险[87,88]。研究人员还致力于在 BIM 环境的设计阶段支持和改善安全问题，以实现更好的决策和事故预防方法。

文本分类方法的实施目的是（1）事故原因分类，（2）改进工作危险分析，（3）事故叙述，以及（4）未遂事故和危险行为。特别是，机器学习和深度学习方法已被用来对事故原因和伤害类型进行分类[89]。 Sayad 等人提出了一种使用文本挖掘技术对工作区崩溃进行分类的模型 [90]。研究人员已使用深度学习对安全报告中的未遂事件信息进行分类，这对于预防性安全方法非常有用。方等人开发了一种基于 BERT 的模型来对未遂事件进行分类 [91]。陈等人还根据水电站项目的未遂事件数据实施了分类器[92]。分类算法也被用来分析事故叙述[93-95]，与其他分类器相比，线性支持向量机（SVM）模型实现了最高的准确度[93]。相比之下，Zhong 等人提出的 CNN 模型优于其他分类器 [94]。他们还利用 LDA 进行网络分析来可视化叙述。虽然几种浅层和深度学习方法已被用于对未遂事件进行分类，但 SVM 和 CNN 实现了最高的准确度[95]。此外，还采用基于本体的方法对危险活动进行分类，以改进工作危险分析[96]。对建筑工地火灾事故进行了分析，并查明了原因[97]。还对轨道交通建设项目的风险因素及其相互关系进行了分析，以提高安全风险管理水平[98]。此外，学者们利用并集成计算机视觉和自然语言处理来进行图像处理的危险识别、分类和检索系统，以支持安全管理[99]。总体而言，考虑到施工中的安全程序[18]，如表3、图6所示，培训和管理水平中的监控、逐步改进以及安全相关问题的重要性最低

3.10.建筑信息模型（BIM）

学者们广泛利用 NLP 来开发智能查询应答系统 (QAS) 和搜索引擎，以从 BIM 中提取和检索信息。例如，已经设计了用于检索 BIM 模型信息的 QAS [100] 和 BIM 模型对象的搜索引擎 [101]。另一方面，Shin和Issa提出了一种针对BIM的智能自动语音识别系统[102]。他们的模型能够通过说话来改变物体及其属性材料。Wang等人开发了一种基于自动语音的语音QAS识别（ASR）和预训练的优化 BERT，用于检索 BIM 信息并将查询分类为预定义类别 [103]。所提出的模型也可以应用于安全管理。 Wong 等人提出了一种使用 ASR 和自然语言理解 (NLU) 的语音交互实时位置共享系统来应对火灾紧急情况 [104]。此外，还使用 BERT 和 NLU 创建了其他聊天机器人来获取管理层决策所需的信息 [105,106]。查询系统和检索模型经过定制，以促进 BIM 设计。 Liu等人介绍了一种在线BIM产品模型库的检索方法[107]。 Yin 等人开发了一种新颖的方法，利用图神经网络进行语义解析，实现查询和本体之间的自动对齐以检索 BIM 模型 [108]。此外，还开发了一种语义解析技术，能够将复杂的查询转换为可执行的结构化查询，以检索 BIM 模型[109]。高等人提出了一种在线 BIM 文档的自动语义标注模型 [110]。张等人还使用术语频率和逆文档频率（TF-IDF）和解析方法从 BIM 用户日志中检索模式来衡量生产力 [111]。 Wang 等人使用 CBR 和 BERT 来捕获和检索 BIM 中的知识 [112]。

学者们还提出了 BIM 对象的分类模型和案例研究 [113]。特别是，人们已经努力实施 TF-IDF 和 TM 方法，以提高作为 BIM 软件工具数据交换格式的国际基础类（IFC）与城市地理标记语言（CityGML）之间的互操作性和集成[114]。研究还利用基于 IFC 的 NLP 来实现 BIM 模型上的设施位置匹配 [115]，并自动识别和验证变更请求 [116]。继之前的进展之后，Yin 等人开发了一个模型来增强 BIM 本体，并使用本体学习方法将 BIM 模型的不同属性与 IFC 对齐 [117]。社交网络分析已被用来确定基本角色和技能，以通过在施工中实施 BIM 来加强能源效率培训 [118]。同样，IR 和关联规则挖掘 (ARM) 已通过术语文档矩阵的奇异值分解来分析 BIM 角色和技能 [119]。综上所述，除了之前的贡献外，BIM 环境中的设施管理、成本、质量、安全和合规性检查也得到了改进。考虑BIM环境及其应用[20]。如表 4 和图 7 所示，TM/NLP 在开发 BIM 各个方面的使用并没有取得进步，特别是在改善利益相关者的沟通和早期参与方面，这是最少的。

3.11.知识/文档/信息管理

第一个TM/NLP在施工中的实现属于施工文档的分类。如表 4 和图 7 所示，各种 TM/NLP 技术已用于改进施工中的施工信息管理系统 (CIMS)、文档管理系统 (DMS) 和 QAS。通常，知识管理流程包括定位和访问、捕获、表示、共享和创建新知识[15,120]。文本分析已被应用于改进 DMS 系统，提出不同的分类方法来对随机施工文档进行分类并自动进行文档分类。 Al Qady 和 Kandil 在多项研究中开发了基于文本语义和相似性的施工文档分类方法 [121]。还提出了一个框架来根据语义相似性对交通数据术语进行分类[122]。通过文本分析，Xue等人建立了一个项目数据共享框架，以提升智能建筑背景下利益相关者之间的沟通[123]。文本分析还用于可视化施工文档的信息。

信息检索作为知识提取和管理的基本要素，通过开发检索和问答系统，已广泛用于检索建筑、工程和施工（AEC）信息和文档。例如，Torkanfar 和 Azar 提出了一种使用不同相似性测量的方法，该方法能够根据工作分解结构 (WBS) 查找相似的项目 [124]。 Ko 等人采用 BERT 来评估项目范围说明书的相似性，该方法为早期预施工阶段推荐类似的先前执行的项目 [125]。 Choudhary 等人提出了使用知识发现和 TM 方法以及文本工程通用架构 (GATE) 的 QAS从项目后审查中提取知识的软件[126]。查询系统也被设计用于从网络检索信息。Demian 和 Fruchter 利用文本分析来检索产品模型中的对象，方法是使用潜在语义索引来测量不同项目功能的相关性，以支持设计重用 [127]。还创建了搜索查询来从网页中检索建筑产品制造信息以及英语或法语的在线建筑相关信息[128]。 Lin 等人创建了一个考虑中英语义匹配的参考集合，以改进 AEC 中的跨语言 IR (CLIR)。此外，Lin 等人通过 CLIR 应用程序评估了生成的机器翻译的质量 [129]。总体而言，定位、数据共享和信息可访问过程受到的关注最少。

3.12.自动合规性检查 (ACC)

建筑设计和实施应遵守不同领域的规范和规定，例如安全、设计、环境、并随后受到控制[19,130]。随着计算技术的进步，ACC引起了研究人员的关注。研究人员专注于使用文本分析自动提取监管概念和信息转换以促进 ACC。两项研究主要侧重于提高建筑规范 POS 标记的性能，以改进 ACC 中的规则转换和 IE。 Xu 和Zhang 使用基于规则的转换方法研究了 POS 的性能[131]。后来，他们实施了深度学习来改进词性标注[132]。研究人员还采用文本分类方法来支持 ACC。他们实现并比较了不同的 ML 分类器、术语权重方案和本体，以改进 ACC 中的语义和分类。此外，还提出了一种用于建筑规范可计算性分析的聚类模型[133]。

自动化信息提取和转换是文本分析应用的另一种方法[134-136]。在此背景下，各种方法，包括基于规则的 NLP、基于本体的 IE 和双向 LSTM-CRF 已经被实现。张等人开发了一种分类法来解决建筑要求中的模糊性[137]。Zhou和El-Gohary开发的IE模型在提取能效要求方面取得了令人满意的精度[135]。张 El-Gohary 还利用基于规则的 NLP 和深度学习方法来提取监管信息并将其转换为逻辑条款元素和层次结构，以实现 ACC 的完全自动化[138]。王等引入了 BiLSTM-CNN 和 CNN 驱动模型，旨在从建筑安全法规中自动提取和表示安全要求，并具有检测违规行为的能力 [139,140]。薛和张开发了一种使用基于模式匹配的规则的规则集扩展方法，可应用于各种规范和监管要求[141]。此外，提出了一种基于语义规则的 IE 方法来支持构造程序文档中的 ACC [136]。为了使 ACC 更加智能和完全自动化，我们进行了多次尝试。两项研究开发了聊天机器人和自动生成智能代码的系统。钟等人的系统可以回答有关建筑法规的问题和疑问[142]。张El-Gohary 模型能够生成智能建筑规范要求[143]。还开发了模型来通过文本分析促进空间推理。这涉及提取包含空间配置的公用事业规范和法规，同时考虑约束关系。随后，这些提取的细节被转换为机器可读的空间规则，以自动化合规性检查过程[144]。 Xu和Cai使用LSTM和CRF为公用事业基础设施开发和丰富了本体，这有助于扩展公用事业基础设施领域的语义和互操作性[145]。在 BIM 环境中实施 ACC 也很突出。这些研究的重点是通过提取 ACC 的设计和安全信息法规来开发计算机可解释的规则 [134,146]。此外，在 IFC 模式框架内制定了方法，以增强 BIM 设置中的规则提取和解释 [147]。如表4和图7所示，所审查的研究在设计阶段主要支持ACC系统和规则。尽管两项研究提出了预测合规违规的模型，但必须强调施工阶段任务中合规违规检查的重要性。

4。讨论

本节讨论了在建设中改进 TM 和 NLP 无缝实施的挑战、差距和后续建议。

4.1.未来方向的算法变化

有监督和无监督算法已经在施工管理领域的各种 NLP 任务中得到应用。然而，强化学习（RL）在建筑领域的潜力尚未开发。最近，强化学习在 NLP 领域取得了显着进步，达到了人类水平。强化学习的这些发展使得将强化学习纳入广泛的 NLP 任务中成为可能，包括信息检索、QAS 和搜索引擎；文本生成；机器翻译；情绪分析；长文档的文本摘要；和物联网[148]。此外，强化学习基于文本信息做出顺序决策的能力可以在风险管理、调度、成本估算、投标、资源分配和均衡以及约束管理中实现。此外，信息检索和QAS广泛应用于BIM和知识、文档和信息管理研究。虽然强化学习通常需要大量数据，这可能使其实施变得复杂，但它可能会在建筑领域发展红外和文本生成应用程序。

应对当前完全自动化和开发构建挑战的另一种方法是在 NLP 背景下使用 NLG。NLG 具有多种应用，例如文本和摘要生成、ASR、机器翻译、聊天机器人和 QAS，并且在使用 ASR 和文本到语音 (TTS) 合成方面发挥着重要作用。例如，ChatGPT（法学硕士中众所周知的模型）可用于生成与建筑规范、材料、安全和教育相关的基于文本的信息。值得注意的是，ChatGPT 是在截至 2021 年 9 月的大规模数据集上进行训练的。然而，如此大量的网络数据可能会导致偏差、生成结果的限制以及夸大的性能 [149]。尽管如此，学者们已经开始利用 BIM 信息检索技术并根据 GPT 提示生成施工进度表。强烈建议聘用 GPT-4、Claude 2 和 LLaMA 系列等法学硕士，探索其在建筑领域的潜在应用。另一方面，利用深度学习的进步在执行 NLP 任务方面取得了重大进展。与手工和其他 ML 算法相比，基于 LSTM 的模型可以应用于更高级别的文本分类、NLG、查询回答系统、情感分析和机器翻译。而且，预训练模型的突破甚至使得NLP应用在几个方面得到了更加发展，比如在短时间内达到高性能和准确性。例如，与传统技术相比，最近利用 BERT、ELMo、GPT 和 XLNet 等预训练语言模型开发了 NLP 任务。利用预训练语言模型的另一个优点是它们能够解决小数据集带来的限制。因此，建议在不同级别上采用一系列预训练的语言模型来解决与构建相关的基于文本的研究中遇到的挑战。此外，考虑到丰富的建筑文本数据以及其他领域的进步将基于 BERT 的模型引入到特定领域，建议预训练适合建筑语料库的基于 BERT 的模型，以增强各个建筑领域内的文本分析和域。

4.2.数据收集挑战

文本分析研究及其主题严重依赖文本信息数据集，这是基于文本的研究的基石。然而，使用不同类型的数据集的基于文本的研究仍然没有得到充分发展，因为信息的可访问性水平有限，并且由于机密性和敏感性而变化。因此，与构建相关的文本分析的障碍之一是缺乏任何类型和任何部分的真实世界数据集。对于构建 TM/NLP 相关出版物的每个领域/领域，研究人员使用特定的数据类型，并且已发表研究的主题遵循该领域数据集的可用性。克服数据限制的解决方案之一是将文本信息与其他类型相结合。例如，Williams 和 Kong、Son 和 Lee 在他们的研究中结合了文本和数字数据，这些数据可以在其他领域使用和应用，例如进度、成本和由于文本和数字信息之间的显着联系而进行的风险相关研究[25,72]。另一方面，文本信息和图像可以专门用于安全研究，也可以推广到其他施工领域，例如监控和风险管理。此外，设施运营和维护研究中使用的大多数数据集都依赖于用户的输入，包括 CMMS 中存在的工单和服务请求。因此，基于传感器的数据集以及不同设施管理平台上的文本信息可能是应用 TM 和 NLP 的下一步。

基于语音的信息是另一种类型的数据，可用于建筑领域的文本分析，并可用于检索和查询应答系统，以改进通信、BIM、知识以及文档和信息管理系统。因此，未来的研究可以利用语音和音频进行研究，并通过社交媒体和通信平台收集语音和音频。另一个部分解决方案是开发适用于小数据集的模型。研究还主要依靠社交媒体进行舆论分析。不过，建议收集实物调查并比较新闻等不同的在线数据源，以获得全面的结果。还可以利用一个在线来源的各种功能（例如 Twitter 图片和表情符号）来应对在线数据收集挑战并增强情绪分析。此外，未来的研究可以受益于“Westlaw”和“LexisNexis”等法律在线数据库来支持建设中的争议解决和诉讼。

4.3.建设领域、领域、任务、流程的当前差距及未来建议

为了充分受益于建筑中的文本分析，有必要根据 TM 和 NLP 的利用来确定每个建筑领域/区域内的阶段、流程和任务。这将有助于开发更加智能、更少依赖人类干预的整体系统。以下建议和讨论将阐明当前建设领域以及 TM 和 NLP 尚未使用或未得到足够重视的领域中的流程和任务。

与施工调度相关的研究重点是活动及其顺序。建议改进所有进度管理流程，特别是自动化进度控制、进度超限、进度报告、进度开发以及进度识别、分类和分配资源。另一项建议涉及使用合同和延误条款和条件进行调度中的延误分析。除了前面提到的建议之外，还建议在调度中实施文本分析，使其与成本和资源管理等其他流程保持一致，以增强调度中的自动化。此外，建议将文本分析应用于定量和定性调度分析。例如，通过识别计划活动的类型或使用文本分析生成具有成本效益的活动，同时考虑其持续时间，可以自动化成本估算和预测。这种方法还可以扩展到施工管理的其他方面，例如资源管理，通过根据进度表生成和分配资源，或者根据进度表和成本中存在的其他属性自动对资源进行分类。成本相关的研究还集中在成本估算和成本超支任务上。然而，未来的研究建议利用 TM/NLP 来自动化成本控制、成本报告、会计以及直接、间接和管理成本的识别和分类。未来对质量相关问题的研究可以使用现场检查和质量控制数据来实施 TM/NLP，以解决设施运营和维护、合规性检查和收尾阶段问题。

在设施运营和维护中使用 TM 和 NLP 将为解决乘员舒适度管理的巨大挑战创造一个有前途的解决方案。由于公民在社交媒体上产生大量数据源，因此很容易了解公众对设施运营的看法。在建筑环境中融入更多的人类意见是支持以人为本的运营范式转变的理想方向。此外，设施管理系统和服务的其他方面，例如 CAFM、IWMS、EAM 和一般管理，也可以得到增强。合同相关的研究主要集中在合同风险管理以及招标阶段合同标准格式和条款的分析。鼓励未来的研究分析其他形式的合同和实践，例如综合项目交付（IPD）合同，并改进项目生命周期中的合同管理，特别是在施工阶段，并加强合同管理流程，例如合同起草、报告更新、搜索和检索系统、评论和文档。另一方面，由于建设项目中的纠纷非常严重，建议采用TM/NLP来解决当事人之间的诉讼和法律纠纷等纠纷。研究人员还可以利用 TM/NLP 来解决不同法规之间的冲突，并识别合规违规行为，为未来的 ACC 提供支持。预测施工作业中的行动和安全相关因素的后果可能是未来安全相关研究的另一个关注点。进一步的建议可以涉及同时利用语音识别、语音转文本和图像处理方法，通过文本分析和计算机视觉来增强安全管理。

还可以通过预测情绪并对未来的情绪和话题进行时空分析来进行利益相关者管理和舆情分析。还建议收集在线和现场数据，以填补数据收集的空白并取得更全面的结果。研究特别通过检索系统、查询应答系统的开发和互操作性的改进来增强 BIM 的能力。然而，只有少数研究能够改善 BIM 的功能和维度，包括设施、安全、成本、质量和自动合规性检查。因此，建议利用文本分析来改进 BIM 在调度、成本、安全、质量、合同、参与和沟通等方面的不同维度和方面。

尽管 TM/NLP 已在各个领域和领域得到应用，但仍有一些领域尚未得到应用。资源管理、范围管理、约束管理、通信管理、集成管理、采购管理、调试和启动、材料管理和项目控制是文本分析尚未以系统和渐进的方式应用的建设领域。总体来看，TM/NLP的应用显着改善了施工任务和流程。

4.4.本次审查的局限性

进行这种审查存在局限性：首先，现有的构建领域和领域由相互关联且复杂的任务和流程组成。本次审查仅关注一般确定的任务和流程。显然，不同施工领域还有其他任务和流程没有提及，更详细的解释不在本次审查的范围之内。其次，由于术语和TM/NLP方法的使用不同，在收集过程中可能会遗漏一些文章。第三，随着TM/NLP的快速进展，有些论文可能在本综述准备之后发表，因此可能会导致与本综述当前的结果不一致。

5。结论

本文对 TM/NLP 在建筑领域、领域、任务和流程中的应用进行了全面回顾，并揭示了实施文本分析将增强建筑自动化的研究领域。首先，共选出 205 篇在建筑领域使用 TM 和 NLP 的论文。这然后，按照施工管理实践中的概述，根据其对施工管理每个特定领域和领域的应用和影响，对收集到的论文进行分类。在下一阶段，每篇论文都根据其对流程、任务、领域和领域的影响和贡献进行了分类，如构建实践中概述的那样。根据我们的综述结果，我们讨论了过去二十年来各个建筑领域和领域中使用的 TM 和 NLP 相关论文的趋势和含义。在第三节中，全面介绍并详细讨论了应用TM和NLP出版物及其对每个构建领域和领域的影响和应用。简而言之，本次综述对当前 TM/NLP 的潜力和差距提供了全面的参考和理解，并提出了未来的方向，包括约束管理、范围管理、集成管理、资源管理、沟通管理、材料管理、采购管理、调试和启动，和项目控制。最后，本次综述的贡献有两个：（1）通过比较出版物的焦点及其对建筑领域和领域现有流程和任务的贡献，确定 TM/NLP 在建筑领域应用的现状；（2）通过找出当前研究中的差距，为未来的建筑研究提出建议，使其更加自动化、智能化，减少对人类的依赖和容易出错。此外，本次审查的局限性包括未涵盖所有任务和流程，由于不同部门之间的术语和发布时间相互关联，审查程序中缺少出版物。