【Tableau server日常维护 17】处理Tableau server 灾难性恢复-摩杜云开发者社区

前言

记录一下本人：在给某公司做Tableau server升级的时候，出现了各种错误。
总结导致原因:
1.事前没有做好充足的准备(比如询问服务器硬件，目前使用情况，有无备份等)
2.在升级的失败的时候没有做好有效的沟通，凭借着自己的经验一意孤行(将升级换成服务器迁移的方式，然后通过备份还原一样的可以实现，自己当时是这么想的，当时最终在自己做的时候，将备份一起给打包卸载了。😔)
3.故而后面将之归其为“灾难性”。

下面是一篇国外有关于tableau 灾难性恢复的一篇白皮书书。个人觉得适合一切拥有自己数据的企业，以供大家阅读并重视预防模拟.

如今，自助式分析技术正大行其道，让组织中的更多人员都能做出数据驱动型决策。员工和高管们都在借助分析技术来探索相关的数据，实时解答问题。Tableau Server 在提供事关成败的自助式分析方面居于领先地位。它支持快速的自助式数据探索，通过可靠的管控来提高内容和数据的可信度，而且在任何企业中都易于部署、管理和扩展。

由于分析常常事关成败，因此 Tableau Server 必须能够可靠地运行来为企业提供支持；即使是在发生可能影响到该平台可用性的意外事件期间，也必须做到这一点。我们将探究企业如何为灾难做好准备和规划，以便在 Tableau Server 停机时有备无患。

请注意： 本白皮书假设您运行的是 Tableau Server 2018.2 或更新的版本（带有 Tableau 服务管理器）。

了解灾难恢复

所谓灾难恢复 (DR)，就是为灾难做好准备，并在灾难发生后恢复正常运行。任何会造成业务连续性中断的事件

（例如硬件故障、软件故障、自然灾害、人为错误或基础设施故障）都可以视作灾难。

在为灾难恢复做规划时，有两个主要因素需要考虑：

您的企业对恢复过程中停机时间的容忍度
您的企业对数据丢失的容忍度

这两个方面的容忍度分别用以下两个术语加以定义：

恢复时间目标 (RTO) - 这项指标衡量的是要在多长时间后完全恢复；也就是说，业务流程中断后最多在多长时间内必须还原。
恢复点目标 (RPO) - 这项指标以时间的长短来衡量对数据丢失的容忍程度，即可以接受多长时间的数据丢失。

在制定灾难恢复计划时，务必要决定 RTO 和 RPO 阈值。为此，您需要了解可以做出哪些取舍。如果考虑到让系统快速恢复联机所需用到的基础设施和人手，那么实现非常短的 RTO 就需要付出较高的成本。如果选择在基础设施以及员工响应方面少投入一些，您就需要能够容忍长得多的 RTO（即停机时间更长）。如果 Tableau Server 是一款攸关成败的应用程序，那么任何停机都可能会影响到业务。在 DR 解决方案中做出更多投入，有助于最大限度减少给业务带来的影响。

了解备份

一份 Tableau Server 备份中包含：

\1. Tableau 数据 - 这包括在存储库和数据提取文件中存储的用户和工作簿元数据。有了备份，您就可以将这些数据从生产 Server 移到 DR Server。

\2. 配置数据和拓扑数据 - 配置数据包含大部分的 Server 配置信息，例如 SMTP 设置、证书、身份验证设置等。拓扑数据包括在您部署的实例中是如何配置流程的。配置数据和拓扑数据的备份用于设置 DR Server。

Tableau 数据

Tableau 数据的备份是通过 tsm maintenance backup 命令生成的。该命令会将数据保存在一个带 .tsback 扩展名的文件中，以此方式来创建备份。备份文件生成后会保存在 Tableau Server 的初始节点中。

备份文件的大小取决于 Tableau Server 中的数据量。在生成备份前，一定要确保该节点上有充足的磁盘空间来保存备份文件。生成备份所用的时间在很大程度上取决于数据量，以及计算机上可供使用的 CPU 和内存资源。

如果您有大量数据，备份可能需要较长时间。下面提供了有助于您加快备份速度的两点建议：

在运行备份命令的初始节点上配置一个文件存储实例。
运行 tsm maintenance backup 命令时使用 --skip-compression 选项。此选项可以将备份用时缩短到仅为原来的二分之一，但会生成更大的备份文件，因为此选项不使用压缩功能。如需了解更多详情，请参阅 tsm maintenance backup 命令的帮助。

通过下面这些数据，可以大致了解使用和不使用 --skip-compression 选项时的备份大小和备份用时。
【Tableau server日常维护 17】处理Tableau server 灾难性恢复

备份文件生成后，应将该文件移至另一数据中心或保存到云端。如果备份存储在 Tableau Server 计算机上，也就不会幸免于任何影响到 Tableau 的灾难。备份文件包含很多敏感数据。我们建议您将每一个备份文件都存储在设有访问限制的位置，以确保它们的安全。如果需要，您可以将备份文件加密，这样可以提供一重额外的保护。

配置数据和拓扑数据

配置数据和拓扑数据的备份是使用 tsm settings export 命令创建的。这类数据会导出到一个 JSON 文件中。这些设置用于配置您的 DR Server。在使用 tsm settings export 命令导出设置时，有些配置不会纳入到导出范

围内，因此需要记录并手动还原这些设置。如需了解如何备份需要采取手动步骤的资源，请参阅在线帮助系统。

与 .tsbak 文件一样，我们建议您将该 JSON 文件也保存到一个独立的数据中心或保存到云端，这样即使发生灾难，您也可以获取到该文件。每当您修改配置或拓扑数据，或者应用新的配置或拓扑更改后，您都应重新导出配置和拓扑数据。

如需详细了解 Tableau Server 的备份和还原流程，可参阅我们的在线帮助文档。

灾难恢复规划

在为灾难恢复做规划时，需要考虑到您的企业所能容忍的 RPO 和 RTO。理想情况下，在发生灾难时，您需要尽可能降低

RPO 和 RTO 指标的值。

恢复点目标

RPO 取决于您执行备份的频率。可以选择每周、每天或每隔几个小时备份一次。备份频率越高，RPO 的值就越低。RPO 值的下限是备份 Tableau Server 安装实例所用的时长。如果完成备份用了 8 个小时，那么最低 RPO 就是 8 小时。

可以通过运行 tsm 清理命令 tsm maintenance cleanup --http-requests-table 来减少生成备份所用的时间和降低备份大小。

运行此命令将清理存储库中的旧数据，确保只将所需的数据纳入备份范围。具体请参阅 tsm maintenance cleanup 命令的帮助。

Tableau Server 中往往会有一些陈旧的内容，包括不再使用的工作簿和数据源。管理员应定期审核内容的使用情况，清理不再使用或按照内部政策无需再维护的内容。此举有助于降低需要备份的数据量，进而缩短完成备份所需的时间。这里就如何识别和清理 Tableau Server 中的陈旧数据提供了一些建议。

大多数情况下，能做到每天至少备份一次，就足够了。不过，如果 Tableau 攸关业务成败，我们建议更频繁地进行备份。

恢复时间目标

下面按照企业对 RTO 的容忍度，就如何为灾难恢复做规划和准备提供了一些建议。

【Tableau server日常维护 17】处理Tableau server 灾难性恢复

低 RTO（RTO 只有几分钟）

如果您的企业认为 Tableau Server 是攸关任务成败的系统，不能出现停机，而且您也难以容忍 Tableau Server 无法正常运行，那么我们建议您采用专门的硬件为 Tableau Server 配置一个独立的 DR 环境。此 Tableau Server 实例应与生产环境中的 Tableau Server 群集运行相同的版本并采用相同的配置。DR Server 应使用来自生产环境的备份定期更新，而且只要生产环境中的配置或拓扑发生变化，DR Server 就应随之更新。下图显示了具体该如何设置专用的 DR Server。
【Tableau server日常维护 17】处理Tableau server 灾难性恢复

生产群集与 DR Tableau Server 应分别运行在两个不同的数据中心。还需要配置一个外部负载均衡器，用于控制将用户流量重定向到何处。在正常运行时间，应将用户流量定向到生产群集。

这两个群集都应该指向实时数据源。如果 DR 群集正在运行且未收到任何用户流量，请关闭订阅和通知，以确保用户不会收到重复通知。

在制定的灾难恢复计划中，应安排在每日夜间或尽可能频繁地为生产群集生成 Tableau 数据定期备份。灾难发生后，应立即在 DR 群集上还原此备份。如果对生产群集的配置或拓扑做出了任何更改，也应将这些更改应用到 DR 群集，以确保其与生产环境采用相同的设置。

面对灾难，您的 DR 计划需包含以下步骤：

将外部负载均衡器指向 DR Tableau Server 群集。
针对 Server 群集中的每个站点，在相应的设置页面中打开订阅。
针对 Server 群集中的每个站点，在相应的设置页面中打开通知。

在这种情况下，停机将持续数分钟时间，还原到 DR 群集的最近一次备份将成为所能恢复的最新数据。

要想为 Tableau Server 构建可靠的灾难恢复解决方案，建议建立一个专用的 DR 群集并每日用最新备份更新一次该群集。

中等 RTO（RTO 为几小时）

如果您的企业允许设立中等 RTO，这意味着它可以容忍 Tableau Server 几个小时无法使用。这种情况下，我们建议为

Tableau Server 提前配置好硬件，以备不时之需。

在 DR 群集的设置过程中，需要完成以下步骤：

安装生产群集中所运行的同版 Tableau Server。
在 DR 群集中导入最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据备份。
关掉 DR Server 中的所有节点。

DR Tableau Server 现在将处于冷备状态。面对灾难，您的灾难恢复计划需包含以下步骤：

打开冷备 Server。
在 DR 群集中还原最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据备份。
将流量重定向到 DR Tableau Server。

在这种情况下，停机持续时间将取决于 Tableau Server 安装实例的大小，以及还原最近一次备份所用的时长。还原所得到的数据就是截至最近一次备份的最新数据。

高 RTO（RTO 为好几个小时或好几天）

如果您的企业允许设立高 RTO，这意味着它可以容忍 Tableau Server 好几个小时乃至好几天无法使用，那么您就适合采取这一节所讲的方法。面对灾难，您的恢复计划需包含以下步骤：

购置运行 Tableau Server 所需的硬件。
安装生产环境中所运行的同版 Tableau Server。
在 DR 群集中还原最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据。
将流量重定向到新的 Tableau Server。

在这种情况下，停机持续时长将取决于购置硬件、安装 Tableau Server 并还原最近一次备份所用的时长，以及 Tableau 生产配置的复杂程度。还原所得到的数据就是截至最近一次备份的最新数据。

其他注意事项

对于很多企业，灾难恢复政策对运行主服务器的数据中心与作为恢复目标的数据中心之间的距离也有要求（例如在美国，DR 站点必须距离主服务器至少 250 英里）。在这类情况下，进行灾难恢复时可以将 Tableau 视作任何其他攸关业务成败的应用程序加以管理。

对于部署到公有云的企业，您需要在生产环境所在地以外的地区为 DR 群集配置计算机。在同一个地区内的不同可用性区域

(AZ) 配置 DR 群集并不能实现真正的灾难恢复，因为如果一个地区发生灾难，那么该地区的所有 AZ 都会受到影响。

对于将 Tableau Server 部署到公有云的企业，购置计算机并不是影响恢复的障碍。在发生灾难时，这些企业可以按需启动一台新的云端计算机，安装 Tableau Server，然后快速还原最新的备份和配置 - 而且整个过程都可以自动完成。

总结

Tableau 内置的备份和恢复技术可用来满足您的 DR 需求。本白皮书着重介绍了如何优化灾难恢复计划，以实现企业的

RPO 和 RTO 目标。完备的灾难恢复计划可以让您和您的企业做到有备无患，从容应对灾难。除了制定完备的计划之外，还必须定期测试您的计划，以便在灾难发生期间能够快速、精准地采取行动，从而将灾难对业务的影响降到最低。

其他资源

在线帮助：分布式和高可用性
Tableau Server 安装白皮书：
Tableau Server 的高可用性和灾难恢复
示例脚本：运行 Tableau Server 备份
示例脚本：运行 Tableau Server 还原