如何优雅地处理API返回的各种HTTP错误码

要优雅地处理应用程序接口（API）返回的各种网络请求错误码，核心在于建立一个统一的、分层的、以用户为中心的错误处理“响应系统”，将冰冷的、技术性的错误码，转化为对用户友好的、可行动的界面反馈，并确保系统的健壮性。一个成熟的错误处理体系，其构建必须系统性地涵盖五大关键实践：建立统一的、分层的错误处理“捕获”机制、根据错误码的“类别”（如4xx与5xx）进行“分类”处理、为用户提供“清晰、友好、可行动”的界面反馈、实施“自动重试”与“服务熔断”等“容错”策略、以及建立详尽的、可供分析的“前端异常日志”。

其中，根据错误码的类别进行分类处理，是实现“优雅”的根本前提。这意味着，我们的代码，必须能够，智能地，识别出错误的“责任方”：对于4xx系列的“客户端”错误（例如，“404 未找到”），我们应引导用户，修正其操作或预期；而对于5xx系列的“服务器”错误（例如，“500 内部服务器错误”），我们则应向用户致歉，并启动后台的重试或告警机制，因为，这是服务提供方的问题。

一、为何要“优雅地”处理：从“程序崩溃”到“用户安抚”

在客户端与服务器的交互中，错误，并非“例外”，而是“常态”。网络可能会抖动，服务器可能会繁忙，用户的输入可能会不合法。一个专业的、健壮的前端应用程序，其与一个脆弱的、业余的应用之间，最大的区别，往往就体MAT现在，它如何处理这些“意料之中”的“意料之外”。

1. 不处理错误的“灾难”

一个没有，或只有极其简陋的错误处理机制的应用程序，当它所依赖的接口，返回一个错误时，通常，会发生以下两种灾难之一：

“静默的失败”：用户，点击了一个按钮后，界面，毫无反应。没有加载提示，没有成功反馈，也没有错误提示。用户，会陷入一种“我的操作，到底，是成功了还是失败了？”的困惑之中，并很可能，因此，而反复地，尝试，或直接放弃。

“丑陋的崩溃”：程序，因为未能处理那个“非预期”的错误返回，而直接抛出了一个“未捕获的异常”，导致整个应用，或其部分功能，直接崩溃。更糟糕的是，有时，它甚至会，将一个充满了技术术语的、令人恐惧的错误信息（例如，TypeError: Cannot read properties of null），直接地，弹窗给最终用户看。

根据多项用户体验研究，糟糕的、不友好的错误处理，是导致用户流失、卸载应用、并产生负面口碑的、最主要的原因之一。

2. “优雅”处理的目标

因此，我们追求“优雅地”处理错误，其本质，是在追求一种“有弹性的、有同理心的”用户体验。它的目标是：

建立“弹性系统”：让我们的应用程序，具备一定的“容错”能力，不会因为其所依赖的、某个后端服务的“打喷嚏”，而自己也跟着“重感冒”。

维护“用户信任”：在出现问题时，能够诚实地、清晰地、友好地，与用户沟通，并尽可能地，为他们，提供下一步的“行动指引”。

正如微软创始人比尔·盖茨所言：“你最不满意的客户，是你最大的学习来源。” 每一个接口的错误返回，都是一次我们与用户进行沟通、并展现我们产品专业性和同理心的“宝贵机会”。

二、基础建设：统一的“错误捕获”与“分类”

要实现优雅、一致的错误处理，第一步，是在我们的代码架构中，建立一个统一的、集中的“错误处理”中心。

1. 建立统一的“接口请求”层

应极力避免，将fetch或axios这样的网络请求代码，散落在应用的各个角落。最佳实践是，将所有与后端的接口交互，都封装在一个统一的、专门的“接口请求层”或“服务层”之中。

这个统一的层，如同城市唯一的“海关”，所有进出的“货物”（即接口请求和响应），都必须经过它的检查。

这使得我们，可以在这个“唯一”的地方，实施一个统一的、全局的错误处理逻辑，而无需，在每一个业务组件中，都去重复地，编写大量try...catch代码。

2. 错误的“分诊台”：4xx 与 5xx 的分类处理

在这个统一的错误处理中心，我们首先要做的，是一个“分诊”工作。即，根据返回的**HTTP状态码**，来判断错误的“责任方”。

4xx系列错误（如400, 401, 403, 404）：被称为“客户端错误”。这意味着，错误的“根源”，在于我们客户端，所发起的“请求”本身，存在问题。服务器，正确地，理解了我们的请求，但因为它“不合法”、“无权限”或“找不到”，而“拒绝”了它。

5xx系列错误（如500, 502, 503, 504）：被称为“服务器错误”。这意味着，我们客户端的“请求”，本身，是完全合法的。但“服务器”那一端，因为其自身的内部程序错误、过载或网关问题，而“无法”，成功地，处理这个请求。

这个“责任方”的区分，是后续，采取何种“优雅”处理策略的、最根本的依据。

三、`4xx`客户端错误：引导用户“自救”

对于4xx系列的错误，因为问题，出在“客户端”这一侧，所以，我们的处理策略，核心，应是“修正请求，并引导用户”。

400 Bad Request（错误请求）

含义：表示服务器，因为“语法错误”，而无法理解客户端的请求。这通常，是一个纯粹的、开发者层面的程序缺陷。

优雅处理：对最终用户，应显示一个通用的、友好的“操作失败，请稍后重试”的提示。但同时，必须，将这个错误的、详尽的上下文信息（包括请求的地址、参数和响应体），上报到前端的“异常监控”平台，以便于开发者，能够立即发现并修复这个“程序缺陷”。

401 Unauthorized（未授权）

含义：表示用户，尚未“登录”，或其“登录凭证”（如令牌），已经“过期”。

优雅处理：不应，只是简单地，弹出一个“请先登录”的提示。更优雅的做法是，自动地，将用户，重定向到“登录页面”，并且，在地址中，附带上用户“当前”想要访问的页面地址。这样，在用户，成功地，重新登录之后，程序，就可以，自动地，将其“带回”到他/她之前，想要访问的那个页面，从而，提供一个无缝的、连贯的体验。

403 Forbidden（禁止访问）

含义：用户，已经登录，但其“角色”或“权限”，不足以，执行当前的操作。

优雅处理：应在界面上，清晰地，向用户，展示一个“权限不足”的提示，并友好地，告知其原因。例如，“抱歉，‘删除项目’的操作，仅对‘项目管理员’开放。如果您认为这是一个错误，请联系您的上级或系统管理员。”

404 Not Found（未找到）

含义：客户端，请求了一个，在服务器上，不存在的资源地址。

优雅处理：不应，让用户，看到一个空白的、或充满了技术术语的浏览器默认错误页。而应，为应用，专门设计一个友好的、品牌化的404页面，其中，包含清晰的“未找到”提示、一个返回“首页”的按钮、甚至一些有趣的、能够缓解用户挫败感的插图。

四、`5xx`服务端错误：安抚用户并“重试”

对于5xx系列的错误，因为问题，出在“服务器”那一侧，用户，对此，是完全无能为力的。因此，我们的处理策略，核心，应是“安抚用户，并由程序，在后台，进行智能的容错处理”。

500 Internal Server Error（服务器内部错误）：这是一个“非预期”的、通用的服务器内部程序错误。

502 Bad Gateway / 503 Service Unavailable / 504 Gateway Timeout：这些，通常，表示服务器，正处于“过载”、“维护”或“网络问题”的临时性不可用状态。

统一的处理策略：

向用户“诚恳致歉” 此时，必须，向用户，展示一个充满同理心的、安抚性的错误提示。例如：“抱歉，我们的服务器暂时遇到了一些问题，我们的工程师，已经收到了通知，并正在紧急处理。请您稍后，再试一次。” 这将用户的“愤怒”，转化为“谅解”。

实施“指数退避”的自动重试机制 对于一些非写入类的、幂等的“读取”请求，客户端，可以在后台，进行“自动重试”，以提升体验。但这种“重试”，绝不能是“立即的、连续的”，这会加剧服务器的雪崩。最佳实践是，采用“指数退避”策略：即，在第一次失败后，等待1秒再重试；如果再次失败，就将等待时间“翻倍”，等待2秒再重试；如果还失败，就再翻倍，等待4秒…… 通过这种方式，来智能地，降低对故障服务器的访问压力。

实施“服务熔断” 对于那些对应用核心功能，至关重要的接口，如果，它，在短时间内，连续地，出现大量的5xx错误，那么，客户端的“熔断器”，就应被“触发”。在接下来的一个时间窗口内（例如，1分钟），所有对该接口的新的请求，都不再被真实地发送出去，而是直接，在客户端，就返回一个“服务暂时不可用”的错误。这是一种**主动的、防止“故障扩散”**的、高级的容错模式。

详尽的、无遗漏的“日志上报” 任何一个5xx错误，对于研发团队而言，都是一个“P0”级的、最高优先级的“火警信号”。必须，确保，所有发生在客户端的5xx错误，其详尽的上下文信息（包括请求地址、参数、用户身份、浏览器信息等），都能够，被自动地、无遗漏地，上报到前端异常监控平台。这些日志，是后端工程师，诊断和修复问题的、唯一的“现场证据”。

五、流程与规范的“保障”

建立前端异常监控与告警体系：使用专业的前端异常监控服务，并为其，配置实时告警规则。例如，“当500错误的发生频率，在5分钟内，超过100次时，立即，通过电话和短信，告警给后端负责人。”

清晰的“业务错误码”约定：除了标准的网络请求状态码，前后端团队之间，还应共同，定义一套详尽的、标准化的“业务错误码”。这使得，前端，能够，对“余额不足”、“库存不足”等不同的业务失败场景，展示出更具针对性的、更友好的提示。

在代码审查中关注错误处理：团队的代码审查检查清单中，必须包含：“是否，对所有的接口调用，都进行了完备的、分类的错误处理？”、“面向用户的错误提示，是否是清晰、友好、且不暴露技术细节的？”

常见问答 (FAQ)

Q1: 为什么有时候接口会返回200，但业务上却是失败的？

A1: 因为，网络请求状态码200，只代表“技术层面”的通信成功。而“业务层面”的成功或失败（例如，余额不足），则需要，通过响应体内部的、一个自定义的“业务状态码”（例如，success: false, code: 2001）来表示。两者，需要结合起来，进行判断。

Q2: 什么是“指数退避”重试策略？

A2: “指数退避”，是一种网络通信中，用于“失败重试”的经典算法。其核心思想是，在每一次重试失败后，都将下一次重试的“等待间隔”，进行“指数级”的增加（例如，1秒、2秒、4秒、8秒…），从而，在出现持续性问题时，能够智能地、快速地，降低对服务器的请求压力。

Q3: “服务熔断”是什么意思？

A3: “服务熔断”，是一种保护性的设计模式。当一个客户端，在调用某个远程服务时，如果失败率，在短时间内，超过了一个设定的阈值，那么，“熔断器”就会“跳闸”。在接下来的一个时间窗口内，所有对该服务的调用，都将被直接“阻断”，并在客户端，立即返回一个错误，而不再，去请求那个可能已经“过载”的远程服务。

Q4: 我应该把我捕获到的所有应用程序接口错误，都展示给用户看吗？

A4: 绝对不能。对用户，应只展示，经过“翻译”的、友好的、可被理解的错误信息。而那些包含了“技术细节”（如堆栈轨迹、服务器地址）的、原始的错误对象，则应该，被详尽地，**记录到“后台日志”**中，以供开发者进行问题排查。

文章包含AI辅助创作，作者：mayue，如若转载，请注明出处：https://docs.pingcode.com/baike/5215142