Je vois quelques erreurs de 502 "Bad Gateway" sur Google App Moteur. Il est difficile de voir sur le tableau ci-dessous (les couleurs sont très similaires et je ne peux pas comprendre comment les changer), mais c'est mon trafic au cours des 6 dernières heures:
La ligne rose foncée représente des erreurs 5xx. Ils ont commencé vers 9h30 ce matin et se sont calmés vers 12 h 30. Mais pour ces 3 heures, Nginx retournait 502 Bad Gateway
assez systématiquement. Et puis cela vient de s'arrêter.
Pendant ce temps, le seul engagement que j'ai fait au code Pour essayer de modifier le comportement consistait à augmenter chaque instance de 0,5 à 1 g de mémoire et augmentat le cache TTL Sur certaines réponses 404. J'ai aussi Ajout d'une vérification de la vigueur Donc, NGinx saurait lorsque les serveurs d'applications étaient en panne.
J'ai vérifié le journal d'erreur Nginx 'et j'ai vu un tas de ceux-ci:
failed (111: Connection refused) while connecting to upstream
J'ai triple vérifié et tous mes serveurs d'applications sont en cours d'exécution sur le port 8080, alors j'ai décidé que ça. Je pense que peut-être que le chèque de la vie a aidé l'App moteur à savoir quand redémarrer les serveurs qui en avait besoin, mais je ne vois rien dans les journaux STDOUT des serveurs d'applications qui indiquent que l'un d'entre eux était mauvais.
Cela pourrait-il juste être une erreur de moteur d'application d'une sorte?
EDIT @ 9: 17P PST: Vous trouverez ci-dessous une image de mon trafic de moteur d'application au cours des 24 dernières heures, avec des modifications de code minimes de l'application. J'ai mis en évidence les pointes 5xx afin que vous puissiez les voir plus clairement.
Malheureusement, il existe une myriade de raisons pour une pointe dans 502 erreurs telles que:
Pour obtenir plus d'informations, vous auriez besoin de Recherchez dans la journalisation de StackDriver pour les erreurs 502 de votre console de cloud.
La prochaine fois que les pics se produisent, quelque chose que vous pouvez vérifier est si les 502 erreurs sont causées par vos contrôles de santé donnant de faux positifs. Il y avait un autre Serverfault Post qui avait le même problème qui peut vous faire connaître un peu plus. Si tel est le cas, vous voudrez peut-être examiner l'espace disque de votre instance.
Pour éviter d'autres épices, je vous suggère d'ajouter des vérifications de préparation à votre fichier APP.YAML avec les chèques de la vie afin que votre instance n'obtienne aucun trafic avant qu'il ne soit absolument prêt à le prendre. Vous l'avez peut-être déjà vu, mais Voici la documentation pour ajouter des chèques de préparation
Une dernière chose à vérifier serait si le pourcentage de trafic avec la picture que vous avez eue par rapport à tout votre trafic tombe sous le SLA .