Linux NFS gèle grossièrement autour 15 minutes

Je suis nouveau à l'administration Linux et NFS, Alors tolère moi.

Nous essayons de mettre en place un petit groupe au travail. Actuellement dans le système de tous 2 Postes de travail haute performance DELL régi par CentOS 6.5. Pour simplifier l'administration des utilisateurs et des fichiers, nous avons décidé de partager NFS Au catalogue / home et quatre fichiers de / etc (

le mot de passe

,

Grouper

,

ombre

, et

ombre

(Cela peut être fait, les déplacer dans le sous-répertoire et en utilisant des liens pour les renvoyer à / etc))

Ces fichiers sont disponibles pour cela. / etc / exports Sur le serveur:

/home/  x.x.x.0/24(rw,sync,no_root_squash,no_all_squash)  
/etc/sub_dir/ x.x.x.0/24(rw,sync,no_root_squash,no_all_squash)

Les fichiers sont montés avec cela dans / etc / fstab Sur le client:

server_name:/home/          /home/          nfs rw,sync,hard,intr 0 0
server_name:/etc/sub_dir/ /etc/sub_dir/ nfs rw,sync,hard,intr 0 0

Après avoir défini tout cela

Le système a travaillé normalement environ un mois.

. Bien que le serveur ait été activé, tous les utilisateurs du serveur étaient visibles lorsque vous démarrez le client, ainsi que tous les fichiers.

Cependant, près de 5 Il y a quelques jours, il a commencé à capricieux. Après avoir démarré le client, il a travaillé bien 15 minutes (Plus moins). Les utilisateurs pourraient se connecter localement ou via SSH. Après le premier 15 Minute que le système dépendait presque complètement. Les nouveaux utilisateurs ne pouvaient pas se connecter et les utilisateurs enregistrés ne pouvaient rien faire. (Des choses principales, telles que la souris en mouvement, toujours travailler). Le seul moyen de recommencer le système - Il est désactivé et sur le client à nouveau. Malheureusement, cela signifie également que le débogage sur le client est très complexe.

Nous avons réduit le problème pour avoir une sorte de relations avec des ressources partagées. NFS Les fichiers décrits ci-dessus. (Nous le savons parce que la désactivation de montage dans / etc / fstab Permet au client de revenir à ses fichiers locaux et tout fonctionne bien)

Le plus plus que nous puissions comprendre, c'est que le système commence, tout monte et fonctionne. Les connexions sont ensuite rafales et la prochaine fois que le client a besoin d'accéder au fichier. (par exemple, passwd), Il ne sera pas capable de le trouver et le système passera en prévision de la connexion.

Les ordinateurs sont connectés à un seul commutateur sur 1000 Mbit / C, et la charge est assez petite.

Toute aide est la bienvenue.

Mises à jour

:

Je creuse toujours. J'ai trouvé ce problème similaire
https://serverfault.com/questi ... nutes
sur Server Fault, Mais il n'est pas non plus résolu.

J'ai aussi essayé de passer à
http://www.centos.org/docs/5/h ... .html
, Mais cela n'a pas non plus résolu le problème.

Je suis tombé sur des articles expliquant comment trouver et résoudre
http://joelinoff.com/blog/?p=356
(Mais je ne suis pas sûr du problème).

Mises à jour

:

J'ai réussi à obtenir un journal du client de / var / log / messages (Dans quelques minutes de travail).

Parcourir, j'ai découvert un échantillon répété "blocage" nfsidmap, Ensuite, l'appel traçant avec un grand nombre d'enregistrements «[nfs]» En lui.

Aug  7 14:17:01 computer-name kernel: INFO: task crond:10578 blocked for more than 120 seconds.
Aug 7 14:17:01 computer-name kernel: Tainted: P --------------- 2.6.32-431.20.3.el6.x86_64 #1
Aug 7 14:17:01 computer-name kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Aug 7 14:17:01 computer-name kernel: crond D 000000000000000e 0 10578 1 0x00000080
Aug 7 14:17:01 computer-name kernel: ffff880a5cf0b148 0000000000000082 0000000000000000 ffffffff81059096
Aug 7 14:17:01 computer-name kernel: ffff880a5cf0b0d8 ffff880a5f77eaa0 ffff880a5cf0b0d8 ffffffff8105559d
Aug 7 14:17:01 computer-name kernel: ffff880a555a5098 ffff880a5cf0bfd8 000000000000fbc8 ffff880a555a5098
Aug 7 14:17:01 computer-name kernel: Call Trace:
Aug 7 14:17:01 computer-name kernel: [<ffffffff81059096>] ? enqueue_task+0x66/0x80
Aug 7 14:17:01 computer-name kernel: [<ffffffff8105559d>] ? check_preempt_curr+0x6d/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff815296d5>] schedule_timeout+0x215/0x2e0
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109afb6>] ? autoremove_wake_function+0x16/0x40
Aug 7 14:17:01 computer-name kernel: [<ffffffff810546b9>] ? __wake_up_common+0x59/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff81529353>] wait_for_common+0x123/0x180
Aug 7 14:17:01 computer-name kernel: [<ffffffff81061d00>] ? default_wake_function+0x0/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff81095211>] ? __queue_work+0x41/0x50
Aug 7 14:17:01 computer-name kernel: [<ffffffff8152946d>] wait_for_completion+0x1d/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109386c>] call_usermodehelper_exec+0x10c/0x120
Aug 7 14:17:01 computer-name kernel: [<ffffffff812246ae>] call_sbin_request_key+0x24e/0x2f0
Aug 7 14:17:01 computer-name kernel: [<ffffffff8121eb03>] ? key_instantiate_and_link+0xa3/0xb0
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1060030>] ? nfs4_callback_layoutrecall+0x30/0x90 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffff812241e5>] request_key_and_link+0x315/0x3d0
Aug 7 14:17:01 computer-name kernel: [<ffffffff812243b0>] request_key+0x50/0xa0
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105cb65>] nfs_idmap_request_key+0xc5/0x170 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105d194>] nfs_idmap_lookup_id+0x34/0x80 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105d5d5>] nfs_map_name_to_uid+0x75/0xa0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057504>] decode_getfattr_attrs+0xf64/0xfa0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffff810097cc>] ? __switch_to+0x1ac/0x320
Aug 7 14:17:01 computer-name kernel: [<ffffffffa10575c3>] decode_getfattr_generic.clone.0+0x83/0xe0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057ce0>] nfs4_xdr_dec_access+0xb0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057c30>] ? nfs4_xdr_dec_access+0x0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f90fc4>] rpcauth_unwrap_resp+0x84/0xb0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057c30>] ? nfs4_xdr_dec_access+0x0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f85923>] call_decode+0x1b3/0x800 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109b020>] ? wake_bit_function+0x0/0x50
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f85770>] ? call_decode+0x0/0x800 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f8f677>] __rpc_execute+0x77/0x350 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109ae27>] ? bit_waitqueue+0x17/0xd0
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f8f9b1>] rpc_execute+0x61/0xa0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f863a5>] rpc_run_task+0x75/0x90 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f864c2>] rpc_call_sync+0x42/0x70 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104ba9e>] _nfs4_call_sync+0x3e/0x40 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104a7cc>] _nfs4_proc_access+0x11c/0x1a0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104a89b>] nfs4_proc_access+0x4b/0x80 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa102658c>] nfs_do_access+0x19c/0x240 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f92625>] ? generic_lookup_cred+0x15/0x20 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f915f0>] ? rpcauth_lookupcred+0x70/0xc0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa10266d8>] nfs_permission+0xa8/0x1e0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffff81198e93>] __link_path_walk+0xb3/0x1000
Aug 7 14:17:01 computer-name kernel: [<ffffffff81199abf>] __link_path_walk+0xcdf/0x1000
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119a09a>] path_walk+0x6a/0xe0
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119a2ab>] filename_lookup+0x6b/0xc0
Aug 7 14:17:01 computer-name kernel: [<ffffffff81226c26>] ? security_file_alloc+0x16/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119b784>] do_filp_open+0x104/0xd20
Aug 7 14:17:01 computer-name kernel: [<ffffffff8128f70a>] ? strncpy_from_user+0x4a/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff811a8a62>] ? alloc_fd+0x92/0x160
Aug 7 14:17:01 computer-name kernel: [<ffffffff81185ba9>] do_sys_open+0x69/0x140
Aug 7 14:17:01 computer-name kernel: [<ffffffff81185cc0>] sys_open+0x20/0x30
Aug 7 14:17:01 computer-name kernel: [<ffffffff8100b072>] system_call_fastpath+0x16/0x1b
Aug 7 14:17:01 computer-name kernel: INFO: task nfsidmap:13767 blocked for more than 120 seconds.
Aug 7 14:17:01 computer-name kernel: Tainted: P --------------- 2.6.32-431.20.3.el6.x86_64 #1
Aug 7 14:17:01 computer-name kernel: "echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Aug 7 14:17:01 computer-name kernel: nfsidmap D 000000000000000e 0 13767 13766 0x00000080
Aug 7 14:17:01 computer-name kernel: ffff88145d1e93f8 0000000000000086 0000000000000000 ffff880a5bae6080
Aug 7 14:17:01 computer-name kernel: ffff88145d1e9378 ffffffff814b1d35 0000000053e3c1ad 0000000028930cb7
Aug 7 14:17:01 computer-name kernel: ffff88145139f058 ffff88145d1e9fd8 000000000000fbc8 ffff88145139f058
Aug 7 14:17:01 computer-name kernel: Call Trace:
Aug 7 14:17:01 computer-name kernel: [<ffffffff814b1d35>] ? tcp_event_new_data_sent+0xb5/0x110
Aug 7 14:17:01 computer-name kernel: [<ffffffff81223d90>] ? key_wait_bit+0x0/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff81223d9e>] key_wait_bit+0xe/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff81529a8f>] __wait_on_bit+0x5f/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff81223d90>] ? key_wait_bit+0x0/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff81529b38>] out_of_line_wait_on_bit+0x78/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109b020>] ? wake_bit_function+0x0/0x50
Aug 7 14:17:01 computer-name kernel: [<ffffffff81223d7e>] wait_for_key_construction+0x6e/0x80
Aug 7 14:17:01 computer-name kernel: [<ffffffff812243c5>] request_key+0x65/0xa0
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105cb65>] nfs_idmap_request_key+0xc5/0x170 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105d194>] nfs_idmap_lookup_id+0x34/0x80 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa105d5d5>] nfs_map_name_to_uid+0x75/0xa0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057504>] decode_getfattr_attrs+0xf64/0xfa0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffff810097cc>] ? __switch_to+0x1ac/0x320
Aug 7 14:17:01 computer-name kernel: [<ffffffffa10575c3>] decode_getfattr_generic.clone.0+0x83/0xe0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057ce0>] nfs4_xdr_dec_access+0xb0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057c30>] ? nfs4_xdr_dec_access+0x0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f90fc4>] rpcauth_unwrap_resp+0x84/0xb0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa1057c30>] ? nfs4_xdr_dec_access+0x0/0xc0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f85923>] call_decode+0x1b3/0x800 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109b020>] ? wake_bit_function+0x0/0x50
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f85770>] ? call_decode+0x0/0x800 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f8f677>] __rpc_execute+0x77/0x350 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffff8109ae27>] ? bit_waitqueue+0x17/0xd0
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f8f9b1>] rpc_execute+0x61/0xa0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f863a5>] rpc_run_task+0x75/0x90 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f864c2>] rpc_call_sync+0x42/0x70 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104ba9e>] _nfs4_call_sync+0x3e/0x40 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104a7cc>] _nfs4_proc_access+0x11c/0x1a0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa104a89b>] nfs4_proc_access+0x4b/0x80 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa102658c>] nfs_do_access+0x19c/0x240 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f92625>] ? generic_lookup_cred+0x15/0x20 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa0f915f0>] ? rpcauth_lookupcred+0x70/0xc0 [sunrpc]
Aug 7 14:17:01 computer-name kernel: [<ffffffffa10266d8>] nfs_permission+0xa8/0x1e0 [nfs]
Aug 7 14:17:01 computer-name kernel: [<ffffffff81198e93>] __link_path_walk+0xb3/0x1000
Aug 7 14:17:01 computer-name kernel: [<ffffffff81199abf>] __link_path_walk+0xcdf/0x1000
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119a09a>] path_walk+0x6a/0xe0
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119a2ab>] filename_lookup+0x6b/0xc0
Aug 7 14:17:01 computer-name kernel: [<ffffffff81226c26>] ? security_file_alloc+0x16/0x20
Aug 7 14:17:01 computer-name kernel: [<ffffffff8119b784>] do_filp_open+0x104/0xd20
Aug 7 14:17:01 computer-name kernel: [<ffffffff811a27e8>] ? d_free+0x58/0x60
Aug 7 14:17:01 computer-name kernel: [<ffffffff8128f70a>] ? strncpy_from_user+0x4a/0x90
Aug 7 14:17:01 computer-name kernel: [<ffffffff811a8a62>] ? alloc_fd+0x92/0x160
Aug 7 14:17:01 computer-name kernel: [<ffffffff81185ba9>] do_sys_open+0x69/0x140
Aug 7 14:17:01 computer-name kernel: [<ffffffff81185cc0>] sys_open+0x20/0x30
Aug 7 14:17:01 computer-name kernel: [<ffffffff8100b072>] system_call_fastpath+0x16/0x1b

(Désolé pour la longueur, je n'ai aucune idée de quelles parties sont utiles)

Ce modèle est répété toutes les deux minutes.

Selon
https://unix.stackexchange.com ... n-lin
et
https://serverfault.com/questi ... conds
, Le message indique qu'il existe une sorte de faim de ressources. Cependant, le client est généralement inactif.
</ffffffff8100b072></ffffffff81185cc0></ffffffff81185ba9></ffffffff811a8a62></ffffffff8128f70a></ffffffff811a27e8></ffffffff8119b784></ffffffff81226c26></ffffffff8119a2ab></ffffffff8119a09a></ffffffff81199abf></ffffffff81198e93></ffffffffa10266d8></ffffffffa0f915f0></ffffffffa0f92625></ffffffffa102658c></ffffffffa104a89b></ffffffffa104a7cc></ffffffffa104ba9e></ffffffffa0f864c2></ffffffffa0f863a5></ffffffffa0f8f9b1></ffffffff8109ae27></ffffffffa0f8f677></ffffffffa0f85770></ffffffff8109b020></ffffffffa0f85923></ffffffffa1057c30></ffffffffa0f90fc4></ffffffffa1057c30></ffffffffa1057ce0></ffffffffa10575c3></ffffffff810097cc></ffffffffa1057504></ffffffffa105d5d5></ffffffffa105d194></ffffffffa105cb65></ffffffff812243c5></ffffffff81223d7e></ffffffff8109b020></ffffffff81529b38></ffffffff81223d90></ffffffff81529a8f></ffffffff81223d9e></ffffffff81223d90></ffffffff814b1d35></ffffffff8100b072></ffffffff81185cc0></ffffffff81185ba9></ffffffff811a8a62></ffffffff8128f70a></ffffffff8119b784></ffffffff81226c26></ffffffff8119a2ab></ffffffff8119a09a></ffffffff81199abf></ffffffff81198e93></ffffffffa10266d8></ffffffffa0f915f0></ffffffffa0f92625></ffffffffa102658c></ffffffffa104a89b></ffffffffa104a7cc></ffffffffa104ba9e></ffffffffa0f864c2></ffffffffa0f863a5></ffffffffa0f8f9b1></ffffffff8109ae27></ffffffffa0f8f677></ffffffffa0f85770></ffffffff8109b020></ffffffffa0f85923></ffffffffa1057c30></ffffffffa0f90fc4></ffffffffa1057c30></ffffffffa1057ce0></ffffffffa10575c3></ffffffff810097cc></ffffffffa1057504></ffffffffa105d5d5></ffffffffa105d194></ffffffffa105cb65></ffffffff812243b0></ffffffff812241e5></ffffffffa1060030></ffffffff8121eb03></ffffffff812246ae></ffffffff8109386c></ffffffff8152946d></ffffffff81095211></ffffffff81061d00></ffffffff81529353></ffffffff810546b9></ffffffff8109afb6></ffffffff815296d5></ffffffff8105559d></ffffffff81059096>
Invité:

Catherine

Confirmation de:

Les messages d'erreur du noyau indiquent qu'il n'était pas possible de planifier le début du processus sur 120 secondes. Ceci est soit un chargement trop élevé de la CPU, soit de la concurrence au niveau des E / S.

Je ne recommanderais pas d'utiliser NFS Échanger des fichiers critiques importants, tels que / etc / passwd ou même des références symboliques, car les opérations elles-mêmes dépendent d'eux NFS. Vous pouvez penser à la configuration du script pour les transférer à travers SCP Et écraser le courant, mais vous devriez alors penser à la logique pour déterminer quel serveur il y a des fichiers plus récents.

Solution à long terme transition vers LDAP.

ÉDITER:

Basé sur des informations supplémentaires présentées dans les commentaires, l'alternative consiste à transition de NFSv4 sur NFSv3.

Catherine

Confirmation de:

J'ai commencé à essayer

des choses

, Et il semble que je suis tombé sur la réponse.

Sur la ligne cliente pour le montage

le mot de passe

,

Grouper

,

ombre

, et

ombre

Fichiers B. / etc / fstab étaient tels:

server_name:/etc/sub_dir/           /etc/sub_dir/           nfs rw,sync,hard,intr 0 0

Je l'ai changé:

server_name:/etc/sub_dir/           /etc/sub_dir/           nfs ro,sync,hard,intr,nolock,noexec,noacl,nfsvers=3 0 0

Les changements sont les suivants:

Modifié rw sur ro

Nolok ajouté

Ajoutée noexec

Ajoutée noacl

Ajoutée nfsvers = 3 (Il a également été suggéré. gtirloni Au-dessus, merci!)

Après cela, j'ai redémarré le client et tout semble être ok. Le client travaille plus 40 minutes et tout est en ordre (Le problème est manifesté 10-15 minutes après le lancement, alors 40 minutes - Ceci est un enregistrement).

Comme je changé immédiatement 5 choses que je ne suis pas sûre de corriger (Je soupçonne que c'était soit nolock, ou nfsvers = 3). De plus, je ne comprends toujours pas pourquoi il travaillait normalement environ un mois, puis décidé de compliquer la tâche.

Pour répondre aux questions, connectez-vous ou registre