原因: okhttp默认每个主机最大并发请求数是5,超过会排队等待,在k8s环境中会导致java服务响应到ingress超时(默认1m),报错提示“504 Gateway Time-out” 根本原因: LLM响应较慢,通常每次响应至少需要几十秒,增加每主机最大请求数以提升并发能力