sábado, octubre 01, 2005

Recaídas

Ya lo decía yo... que no era normal que la semana empezara tan bien.

Dos días después del "accidente" con los discos de sistema del servidor, volvieron los problemas. Lo primero fue la llamada de una usuaria. Estaba conectada a la susodicha máquina y no podía ejecutar comandos, incluso cuando intentaba hacer un ls le salían errores.

Me conecto por ssh, pero es imposible, me cierra la conexión. Lo intento por telnet y consigo entrar, aunque me salen errores del .bashrc, y cualquier comando que intento lanzar finaliza con un 'I/O error'.

Bajo al CPD donde está la máquina (es en un sótano) y en la consola aparecen un montón de errores muy muy feos que vienen a decir algo así como que no se ha podido recuperar el registro de transacciónes ext3 del dispositivo /dev/sda1 (la partición /).

Así que hago un ctrl + alt + supr (sí, en Linux también se puede reiniciar así, aunque solo en la consola del sistema) pero entonces me dice que no puede ejecutar el comando /sbin/shutdown por un error de I/O. Así, que finalmente tengo que apagarlo del interruptor.

Después de que arranca, parece que lo hace bien. Asciendo otra vez desde el inframundo hacia la luz y aviso a los usuarios de que la máquina ya funciona de nuevo. Craso error, no pasan ni dos minutos y se vuelve a caer. Vuelvo al inframundo, y los mismos mensajes en la consola.

Vuelvo a resetearlo y arranco en modo monousuario. Hago un fsck a todos los sistemas de archivos. Y además hago también un 'touch /forcefsck' para que cuando arranque de nuevo se chequéen otra vez todos los sistemas de archivos, aunque estén marcados como correctos.

Después de eso, reinicio la máquina, y el resto de la semana ha funcionado bien.

Pero la cosa no acaba ahí. Este servidor tiene otro gemelo, mismo modelo, características y sistema que se compró a la vez. También tuvo algunas caidas al principio, pero después de actualizar el kernel, el driver del ext3 y el firmware de la controladora RAID parecía que se había estabilizado. Vana ilusión, durante toda la jornada del viernes se cayó nada menos que tres veces. En este no salían mensajes feos del ext3, simplemente un kernel panic.

Parece que la combinación de hardware_muy_nuevo + sistema_muy_nuevo es anormalmente inestable. Creo que le haré un downgrade del sistema, e instalaré la versión 3 del RedHat en lugar de la 4, que por lo menos esa lleva ya muchos meses en el mercado y es de suponer que estará más madura que la última.

No hay comentarios: