集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

ZJulius · 2024-05-08T08:13:03Z

事情发生在nacos1.3.2集群平滑升级到2.0.3集群的场景下（三个节点）
1、平滑升级后，关闭双写，运行一天突然其中一个节点无征兆宕机（请问这种情况下能通过日志链路查到宕机原因么）？
2、通过日志14:25:18秒重启节点，伴随着十分钟左右的循环报错后突然又恢复正常，有可能通过日志看出导致的原因么？

nacos.log

KomachiSion · 2024-05-10T05:34:27Z

如果是进程crash的话可能可以，但是如果是系统层面的宕机，可能需要从系统日志里去分析了。
这个报错通常是网络问题，请求尝试发送的时候，链接已经断开了。

ZJulius · 2024-05-10T11:08:40Z

1、已经查明是内存溢出导致节点直接宕机
2、在重新复现模拟过程中，该问题能直接复现，在循环报错的过程中，telnet 所有端口，服务器之间通信是没问题的，有没有其他人或者你们自己test的时候遇到想同的情况么？为什么重启之后，会存在将近十分钟左右的网络异常啊？如果是短时间的抖动还能理解。

KomachiSion · 2024-05-15T02:19:35Z

1、已经查明是内存溢出导致节点直接宕机 2、在重新复现模拟过程中，该问题能直接复现，在循环报错的过程中，telnet 所有端口，服务器之间通信是没问题的，有没有其他人或者你们自己test的时候遇到想同的情况么？为什么重启之后，会存在将近十分钟左右的网络异常啊？如果是短时间的抖动还能理解。

我自己部署的环境，故障演练从没有出现过这个问题，有这个报错都是出现了底层网络故障或节点LOAD很高的情况。
因为这个报错完全是由Grpc爆出的，nacos没有对grpc做改动，因此只有网络问题导致连接断开，或者两端中其中一端存在资源问题（CPU、内存）不足导致。

KomachiSion added the status/need feedback label May 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

ZJulius commented May 8, 2024

KomachiSion commented May 10, 2024

ZJulius commented May 10, 2024

KomachiSion commented May 15, 2024

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

Comments

ZJulius commented May 8, 2024

KomachiSion commented May 10, 2024

ZJulius commented May 10, 2024

KomachiSion commented May 15, 2024