流式协议-编程知识

流式协议

news/2025/2/21 18:09:09/文章来源:https://www.cnblogs.com/ydqblogs/p/18725720

搞清楚TCP流式协议的概念

假设应用层通过TCP发送数据"HelloWorld"，发送方可能分两次发送，比如"Hello"和"World"，但是接收方可能一次就收到"HelloWorld!"，或者有可能分多次收到，比如先收到"Hell"，再收到"oWorld"。这说明TCP传输的数据是没有消息边界的，应用层需要自己处理这些数据的拆分和组合，这就是流式协议。故在应用层协议设计的时候需要考虑如何界定消息的结束，比如用特定的分隔符，或者固定长度，或者在消息头声明长度。例如HTTP协议中使用content-length或者分块传输编码。

为什么TCP要设计成流式协议呢？

可以更灵活地处理数据，不需要维护消息边界，从而更高效地利用网络资源。比如，TCP可能会将多个小的数据包合并成一个大的数据包发送，或者将一个大的数据包拆分成多个小的数据包传输，这取决于网络状况和拥塞控制算法。这样的话，发送方和接收方的数据块可能不一致，所以应用层需要自己处理这些情况。

如何处理TCP这种流式协议呢？

如果我们使用socket编程的时候，recv可能返回任意长度的数据，所以一般我们需要循环读取，并将每次读取的数据追加到缓冲区中，然后检查是否有完整的消息，处理完后再将剩余的数据保存在缓冲区中，供与下次读取的数据组合，解析成完整的数据消息。
另外，常见的粘包问题也是由于TCP的流式特性导致的。粘包是指多个应用层的数据包被合并成一个TCP段发送，或者一个应用层的数据包被拆分成多个TCP段。这时候，接收方可能一次读取到多个包的数据，或者需要多次读取才能得到一个完整的包。解决粘包问题的方法通常是在应用层添加消息边界，比如前面提到的长度前缀、分隔符或者使用自描述格式如JSON、XML等，但需要确保能够正确解析。
举个例子，比如客户端发送两个消息："Hello"和"World"，服务端可能先收到"HelloWorld"，如果我们没有处理机制，此时我们是无法区分收到的这两个消息的，所以我们需要约定一种消息界定方法，比如，我们固定每次发送消息前，先发送4字节大小的长度信息，再发送实际内容，这样接收方先读取4字节的长度长度信息，解析出长度N，再去取接下来的N字节长度的消息内容，这样我们就可以处理流式协议了。
具体现实应用的例子就是HTTP协议，它使用Content-Length来制定正文的长度，甚至使用Transfer-Encoding: chunked来分块传输，每块前面有长度信息，这样接收方可以正确解析。