Articles - Serveurs

C'est l'histoire d'un Dell PowerEdge T340...

  |   883  |   Poster commentaire  |  Serveurs

Un matin au boulot un Dell PowerEdge T340 à base de Xeon E-2124 est retrouvé planté sur un kernel panic. La chose étant spontanée, aucune mise à jour hardware ou software récente, ça ne sent pas bon. Après relance, Linux continue de donner des segfault puis tombe en KP/freeze (oops) après un temps aléatoire entre systemd et 30 minutes d'uptime.
04 02 01

Je lance le test ePSA (utilitaire de diagnostic intégré au BIOS/UEFI), j'ai la même chose sur mon AIO Optiplex 9030 :

Bilan code erreur 2000-0123 (Memory Error).


Les tests processeur sont OK :

La machine étant à distance de quelques centaines de km tout se fait en console virtuelle via l'IDRAC9. Nous pensons "naturellement" à une barrette mémoire défectueuse (Hynix HMA81GU7CJR8N). Entre-temps nous mettons à jour le BIOS. Le serveur étant encore sous garantie constructeur, un technicien passe quelques jours plus tard et remplace la barrette (une seule de 8Go d'installée). Mais l'erreur est toujours présente.


Nous demandons au technicien sur place de changer de slot DIMM 2 fois : pas mieux, tant pis on aura fait ce qu'on a pu. Après consultation du support Dell : il faut changer la carte mère. J'explique quand même qu'il faudrait prendre un CPU aussi sous le coude au cas où. Mais je me vois répondre que ce n'est pas le client qui décide, que c'est le N+1 et puis un CPU c'est cher on ne remplace pas ça comme cela sans raison, on ne sort pas les pièces du stock sans être sûr (même pour les faire revenir sans avoir été utilisée) bla bla bla...

Bah oui, depuis quelques années une bonne décennie déjà, la liaison CPU-RAM s'effectue via un bus direct, retiré du Northbridge/PCH, le contrôleur mémoire est dans le CPU.
Avant : https://en.wikipedia.org/wiki/Northbridge_(computing)
Maintenant : https://en.wikipedia.org/wiki/Platform_Controller_Hub
De ce coté la carte mère n'apporte que des pistes sur le PCB, plus de composant actif. Et le problème de connectique défectueuse du slot DIMM ayant été écarté par le déplacement de la barrette. Donc il reste soit un problème de socket LGA (mauvais contact) ou de CPU en interne. Il accepte quand même de le pré-réserver si le remplacement de la carte mère échoue. Un deuxième passage est programmé pour le remplacement de la carte mère. Vous l'avez deviné, le problème est toujours là avec exactement la même erreur 2000-0123. Exit l'hypothèse du socket LGA, il ne reste que le CPU qui peut provoquer cela.

En attendant la 3ème intervention :) j'ai tenté de faire tourner le CPU sur un seul cœur. Ceci dans l'espoir de rendre la machine (non-redondée) à ses utilisateurs même un peu dégradée au niveau de performances, tant pis. Je remets ici ma vidéo concernant un CPU semi-HS.

Hélas cela n'a fait qu'empirer la chose, plus moyen d’accéder au BIOS, adieu Lifecycle, ePSA etc... Mayday Mayday Mayday. En effet, après l'application de mon réglage à "1 cœur" forcé, le serveur ne démarre plus.
Caché :
1479334577-1469541956-risitas197

Le BIOS n'arrête pas de crash au POST à l'écran bleu DELL/EMC de manière aléatoire souvent sur "Loading BIOS drivers". Image d'illustration :

J'ai ainsi créé une traînée de "BIOS halted" dans le log lifecycle avec toutes des tentatives de ramener à la vie la machine.



Une exception CPU dans un BIOS UEFI Dell :

J'ai pu finalement rétablir la situation en laissant le CPU refroidir 15 minutes avant de retenter (arrêt / relance de l'alimentation via l'IDRAC). L'application de la nouvelle config du BIOS via IDRAC a eu le temps de se faire correctement au prochain boot. Visiblement le processeur était plus stable à froid.

Le CPU a donc à nouveau ses 4 cœurs d'activés, plus de BIOS qui plante. Ne me demandez pas de comprendre la logique de cette affaire. :lol J'en reviens à l'état d'avant ma tentative foireuse. Ouf. Je ne touche plus à rien.


Finalement le technicien est passé une 3ème fois pour le remplacement du combo CPU + MB + RAM tout neuf. Depuis les tests ePSA sont bons et plus de problème. C'était bien le CPU qui était semi-HS depuis le départ un souci dans sa partie contrôleur mémoire DDR4. Tout cela explique le "Memory Error" à répétition alors que la barrette DDR4 n'avait rien. Comme quoi tout peut vraiment arriver. Contrôle qualité chez Intel ? Après exploration du net je suis tombé sur ça : https://www.dell.com/community/Desktops-General-Read-Only/need-help-error-code-2000-0123-Memory-Integretiy-test/td-p/3936682
Citation :
I try to change the mother board the same error problem…lastly, I swap the processor its working fine.

La loi de Murphy étonnera toujours.