Disponibilité Group Problème de mémoire de grappe après les problèmes de réseau. Comment vider la piscine msg de blocage du journal HADR?

Question

Nous avons un groupe de disponibilité de quatre nœuds, deux nœuds sur un site, deux nœuds hors site dans un autre centre de données. J'ai remarqué qu'après chaque WAN problème où le WAN Connection est battant, et les nœuds de site OFF se déconnectent et reconnectent constamment (à l'aide de la santé AOAG à partir du tableau de bord AOAG) , la mémoire du serveur principal est consommée par la "Piscine msg de blocage de Hadr"

SELECT * FROM sys.dm_os_memory_clerks ORDER BY pages_kb DESC

taper: OBJECTSTORE_SERVICE_BROKER
[.____] Nom: Bloc de journal HADR Piscine MSG

Dans le pire des cas, lorsque le réseau battait des heures, ce greffier de mémoire finira par prendre en charge plus de 90% de la mémoire du serveur SQL, ce qui entraînera le fonctionnement du serveur SQL. utilisait 9.8 Go).

Y a-t-il un moyen de décharger cette piscine MSG de Block de journal HADR? Ou arrêtez-vous de grandir si grand en premier lieu? Notre seule solution jusqu'à présent a été de basculer et de redémarrer la boîte.

Il n'y a pas d'erreurs, juste les journaux du nœud déconnecte et reconnecte et se connecte pour la ré-durcissement de DBS après la reconnecte.

Comme de plus en plus de mémoire se fait mangé par la "Piscine MSG du blocage du journal HADR", la mémoire disponible pour tout le reste tombe, affectant les performances. Normalement, ce 10 Go de RAM= est bien pour ce groupe AOAG et cet usage. Ce n'est que lorsque le WAN rabats pendant un moment que nous avons ce problème.

Nous pourrions lancer plus de mémoire sur le serveur, mais je ne pense pas que cela résoudra le problème sous-jacent, cela nous achèterait tout simplement plus de temps avant que cela ne fait plus de mal à la performance.

Je conviens que le réseau est la cause fondamentale, mais il semble étrange que, après que le problème soit résolu et que l'AOAG soit de retour en synchronisation que SQL ne récupérerait pas/réaffecter RAM Retour à d'autres commis de mémoire SQL comme La plupart des commis de mémoire SQL font.

Journal d'expédition ne fonctionnera pas; Il s'agit d'un environnement transactionnel, nous avons besoin près de l'heure en temps réel, de préférence en temps réel, en temps réel. Le groupe AOAG fonctionne à 99% du temps et est presque toujours en temps réel en temps réel. Nous essayons de travailler avec l'équipe de réseau pour améliorer la connectivité, et/ou peut-être peut-être que cela se déconnecterait simplement au lieu de battre.

Informations système
[.____] Version SQL: SQL 2016 SP1 CU6 13.0.4457.0
Version du système d'exploitation: Windows 2012 R2 6.3.9600
Server MEM: 12 Go
[.____] SQL Max Mem: 10 Go

Info de configuration du groupe de disponibilité
[.____] Quatre bases de données sont dans l'AOAG
[.____] Les bases de données AOAG ensemble sont 364 Go
[.____] Les deux nœuds locaux sont en mode synchronisation avec un vote chacun
[.____] Les deux nœuds distants sont en mode async avec zéro votes
[.____] Il existe également un témoin local avec un vote.

Sean Gallardy - Retired User · Accepted Answer

J'ai remarqué après chaque WAN problème où le WAN Connection est battant et les nœuds de site OFF se déconnectent et reconnectent constamment, la mémoire du serveur principal est consommée. par la "Piscine msg de blocage de Hadr"

Oui, il s'agit actuellement de la conception. On s'attend à ce que le réseau entre les deux sites puisse gérer le trafic et est disponible. Comme il semble que ce n'est pas le cas, SQL Server n'est vraiment pas le problème ici, mais se manifeste comme une question. Si vous continuez à continuer à travailler sur une connexion de bande passante peu fiable et éventuellement extrêmement élevée, je n'utiliserais pas de groupes de disponibilité. En fait, je ne suis pas sûr de ce que vous voudriez utiliser car rien n'aurait une connexion solide et fiable qui semble être la cause fondamentale du problème.

Y a-t-il un moyen de décharger cette piscine MSG de Block de journal HADR?

À l'intérieur de SQL Server? Non.

Ou arrêtez-vous de grandir si grand en premier lieu?

Oui, corrigez le problème de la connectivité et il ne poussera pas. Si c'est des problèmes de connectivité prolongés, supprimez les répliques distantes de l'AG et cela cessera de croître. Comme il existe deux répliques distantes, les données seront envoyées deux fois pouvant exacerber le problème, car il aurait pu être pris en compte pour l'infrastructure disponible lors de l'architecture.

Server Mem: 12 Go

Il s'agit d'une petite quantité importante de mémoire de serveur pour 364 Go de bases de données + Cluster + AG + AG + Tous les antivirus et agents installés.