Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

集群一个节点毫无征兆的宕机,重启之后报错Stream closed before write could take place #12067

Open
ZJulius opened this issue May 8, 2024 · 3 comments

Comments

@ZJulius
Copy link

ZJulius commented May 8, 2024

事情发生在nacos1.3.2集群平滑升级到2.0.3集群的场景下(三个节点)
1、平滑升级后,关闭双写,运行一天突然其中一个节点无征兆宕机(请问这种情况下能通过日志链路查到宕机原因么)?
2、通过日志14:25:18秒重启节点,伴随着十分钟左右的循环报错后突然又恢复正常,有可能通过日志看出导致的原因么 ?

nacos.log

@KomachiSion
Copy link
Collaborator

  1. 如果是进程crash的话可能可以, 但是如果是系统层面的宕机,可能需要从系统日志里去分析了。
  2. 这个报错通常是网络问题,请求尝试发送的时候,链接已经断开了。

@ZJulius
Copy link
Author

ZJulius commented May 10, 2024

1、已经查明是内存溢出导致节点直接宕机
2、在重新复现模拟过程中,该问题能直接复现,在循环报错的过程中,telnet 所有端口,服务器之间通信是没问题的,有没有其他人或者你们自己test的时候遇到想同的情况么?为什么重启之后,会存在将近十分钟左右的网络异常啊?如果是短时间的抖动还能理解。

@KomachiSion
Copy link
Collaborator

1、已经查明是内存溢出导致节点直接宕机 2、在重新复现模拟过程中,该问题能直接复现,在循环报错的过程中,telnet 所有端口,服务器之间通信是没问题的,有没有其他人或者你们自己test的时候遇到想同的情况么?为什么重启之后,会存在将近十分钟左右的网络异常啊?如果是短时间的抖动还能理解。

我自己部署的环境,故障演练从没有出现过这个问题,有这个报错都是出现了底层网络故障或节点LOAD很高的情况。
因为这个报错完全是由Grpc爆出的,nacos没有对grpc做改动,因此只有网络问题导致连接断开,或者两端中其中一端存在资源问题(CPU、内存)不足导致。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants