Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG] tcp连接断开,agent重新连接发送log数据 #6154

Open
2 of 3 tasks
callmediaomao opened this issue Apr 18, 2024 · 5 comments
Open
2 of 3 tasks

[BUG] tcp连接断开,agent重新连接发送log数据 #6154

callmediaomao opened this issue Apr 18, 2024 · 5 comments
Assignees
Labels
bug Something isn't working

Comments

@callmediaomao
Copy link

Search before asking

  • I had searched in the issues and found no similar feature requirement.

DeepFlow Component

Agent

What you expected to happen

agent发送log数据的时候出现问题
image

How to reproduce

No response

DeepFlow version

No response

DeepFlow agent list

No response

Kubernetes CNI

No response

Operation-System/Kernel version

No response

Anything else

No response

Are you willing to submit a PR?

  • Yes I am willing to submit a PR!

Code of Conduct

@callmediaomao callmediaomao added the bug Something isn't working label Apr 18, 2024
@1473371932 1473371932 self-assigned this Apr 18, 2024
@1473371932
Copy link
Contributor

目前 agent 恢复了么?出现这个日志时候,可以进 agent pod,telnet 对应 server ip + port 看看连接情况

@callmediaomao
Copy link
Author

@1473371932 telnet是可以通的,猜测网络丢包的特殊情况导致该情况发生。一般出现这个,agent下一条日志就会显示连接成功,但是我看代码发现是不是会抛弃掉连接失败的那批buffer数据,不会进行重发。

@1473371932
Copy link
Contributor

@1473371932 telnet是可以通的,猜测网络丢包的特殊情况导致该情况发生。一般出现这个,agent下一条日志就会显示连接成功,但是我看代码发现是不是会抛弃掉连接失败的那批buffer数据,不会进行重发。

一般来说,非网络断联造成的丢包都是可以通过 agent_group_config 配置来优化的,如果是由于网络断联导致的丢包,确实无法重发,因为 agent 本身并不存储数据

@callmediaomao
Copy link
Author

@1473371932 telnet是可以通的,猜测网络丢包的特殊情况导致该情况发生。一般出现这个,agent下一条日志就会显示连接成功,但是我看代码发现是不是会抛弃掉连接失败的那批buffer数据,不会进行重发。

一般来说,非网络断联造成的丢包都是可以通过 agent_group_config 配置来优化的,如果是由于网络断联导致的丢包,确实无法重发,因为 agent 本身并不存储数据

@1473371932 目前只是猜测是网络丢包的问题,想问下哪些配置可以优化该问题,我尝试下能不能解决

@1473371932
Copy link
Contributor

@1473371932 telnet是可以通的,猜测网络丢包的特殊情况导致该情况发生。一般出现这个,agent下一条日志就会显示连接成功,但是我看代码发现是不是会抛弃掉连接失败的那批buffer数据,不会进行重发。

一般来说,非网络断联造成的丢包都是可以通过 agent_group_config 配置来优化的,如果是由于网络断联导致的丢包,确实无法重发,因为 agent 本身并不存储数据

@1473371932 目前只是猜测是网络丢包的问题,想问下哪些配置可以优化该问题,我尝试下能不能解决

丢包问题,可以通过这个 Dashboard:
https://github.com/deepflowio/deepflow-dashboards/blob/main/dashboards/DeepFlow-System/DeepFlow-Alert-Analysis.json
看到具体丢包位置,把时间周期拉长,例如看最近 24 小时,如果面板中有数据,就说明有丢包,把有数据的面板贴一下看看

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants