OpenMPI dans SGE ne fonctionne pas s'il n'est pas respecté

Je sais que c'est un sujet étrange, mais c'est mon problème. Dans notre cluster nous avons SGE de OpenMPI, Compilé pour une intégration étroite. Lorsque je l'ai mis en place, il a parfaitement travaillé dans mes tests, et jusqu'à présent, il n'y avait pas de plainte. Le fait est que lorsque j'envoie une tâche en utilisant OpenMPI PE et lancez votre fichier binaire en utilisant mpirun, Il échoue.

Les messages d'erreur sont similaires à


fully.quallified.host.name - daemon did not report back when launched

et


[hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost

C'est même pour quelque chose de simple, par exemple

mpirun -np 40 --pernode hostname

Maintenant c'est étrange: si j'inclus une conclusion détaillée pour plm_base, Il travaillera:

mpirun -np 40 --mca plm_base_verbose 5 --pernode hostname

travail!!! Beaucoup de données de débogage créées par cela sur stderr, Ne contiennent aucune instruction sur le problème.

Je l'ai essayé plusieurs fois et je peux toujours reproduire cela, alors je suis tout à fait sûr que ce n'est pas qu'un accident. Le problème est que maintenant je suis très perplexe.

Bien sûr, je manque quelque chose, alors voici les questions:

Est-ce que cela établit dans ce cas le niveau de détail est également automatiquement différents paramètres?

Que pourrait causer un comportement aussi étrange?

Meilleurs vœux.

Modifier: Configuration du correspondant PE:

pe_name           ompi-gcc
slots 2000
user_lists NONE
xuser_lists NONE
start_proc_args /bin/true
stop_proc_args /bin/true
allocation_rule $round_robin
control_slaves TRUE
job_is_first_task FALSE
urgency_slots min

Rien de spécial ... OpenMPI Compilé pour l'intégration thigh et détecte tout ce dont il a besoin ... Cependant, cela ne fonctionne pas avec qrsh, celles. Fonctionne seulement quand désactivé qrsh pour rsh ...
Invité:

Catherine

Confirmation de:

Ça ne fait rien. Après quelques essais et erreurs avec d'autres paramètres

plm

J'ai trouvé ce réglage

plm_rsh_disable_qrsh

Élimine le problème. Cependant, cela n'explique pas pourquoi l'installation de sa valeur de détail de base autre que 0, Également éliminé le problème. C'est la partie que je ne comprends toujours pas.

Pour répondre aux questions, connectez-vous ou registre