http 报文数据怎么解析

HTTP报文数据的解析依赖于报文的结构与组成，它分为请求报文和响应报文两种类型。请求报文用于从客户端向服务器发送请求指令、请求头信息、以及请求体数据；响应报文则用于从服务器向客户端回传状态码、响应头信息、以及响应体数据。在解析过程中，需要关注的关键点包括但不限于：HTTP方法、URL、HTTP版本、状态码、消息头、以及消息体等。

对于一条HTTP请求报文，首先会遇到请求行，其包含了请求方法、请求资源的URL以及所用的HTTP版本。例如，“GET /index.html HTTP/1.1”表示客户端希望获取位于服务器"/index.html"路径下的资源，通过HTTP版本1.1的协议。随后是请求头部（Headers），它们是键值对形式存在、用以传达客户端的附加信息。最后是请求体（Request Body），它是可选的，通常用于POST和PUT这类需要上传数据的请求方法。

对于一条HTTP响应报文，首先会出现状态行，它包含HTTP版本、状态码以及状态描述，例如“HTTP/1.1 200 OK”表示使用HTTP版本1.1的协议，服务器处理成功，回应状态码是200。其后是响应头部（Headers），传达的是服务器的附加信息，比如内容类型、内容长度等。最终，我们会遇到响应体（Response Body），它携带的是服务器返回的实际数据。

一、请求报文解析

请求报文主要由请求行、请求头部和请求体组成。

请求行

请求行是请求报文的第一行，包含了方法、URI和HTTP版本。方法指明了请求的类型，如GET、POST等。URI指的是Uniform Resource Identifier，用于定位资源。HTTP版本表明了客户端使用的HTTP协议版本。

请求头部

请求头部由一系列的键值对构成，每对键值对描述了HTTP请求的一个特定方面。常见的请求头部信息包括Host（服务器名称和端口号）、User-Agent（发出请求的应用类型）、Accept（可接受的响应内容类型）、Content-Type（请求体的媒体类型）等。请求头部与请求体之间用一个空行隔开。

二、响应报文解析

响应报文由状态行、响应头部以及响应体组成。

状态行

状态行是响应报文的起始行，包含了协议版本、状态码和状态文本。状态码是一个3位数字，根据它的第一个数字，可以将状态码分为五类：1xx（信息性状态码）、2xx（成功）、3xx（重定向）、4xx（客户端错误）、5xx（服务器错误）。状态文本提供了状态码的简短描述，如“Not Found”或“Internal Server Error”。

响应头部

响应头部以键值对的形式出现，提供了额外的响应信息。常见的响应头信息包括Content-Type（响应体的媒体类型）、Content-Length（响应体的长度）、Set-Cookie（服务器发送的Cookie信息）等。

三、消息体解析

HTTP报文的消息体位于报文的最后。在请求报文中，消息体通常附带了要提交给服务器的数据，而在响应报文中，消息体则是包含了服务器返回的数据。解析消息体需要根据Content-Type头部来判断数据格式，常见的格式有text/html、application/json、multipart/form-data等。

在解析HTTP报文时，还需要注意字符集编码问题，如UTF-8或ISO-8859-1，确保数据能正确显示。还可以遇到Transfer-Encoding头部，它表明报文体是如何分段和压缩的。当Transfer-Encoding值为chunked时，消息体会被分割成一系列的块，每个块以其大小起始（以十六进制格式），并以CRLF（回车换行）结束。