viernes, septiembre 23, 2005

Para empezar bien el fin de semana...

Es viernes, faltan un par de horas para terminar la jornada y empezar el fin de semana. Alrededor de las 13:00 me avisan de que uno de los servidores de aplicaciones de cálculo no responde. Me dirijo al CPD y allí está, con un bonito kernel panic en la pantalla.

Bueno, hasta cierto punto es casi normal, no es el primero que hace. Se trata de un servidor Dell PowerEdge 6850, con 8 gigas de RAM, y 4 CPUs. Lleva dos discos de 36 Gb en mirror para el sistema y tres más de 146 Gb en Raid 5 para los datos. Como sistema operativo lleva RedHat AS 4. Tiene menos de 3 meses, y en todo este tiempo se ha caído ocho o nueve veces. Parece que por problemas con la controladora RAID y/o drivers. Tanto la máquina como el sistema son bastante nuevos, los sacaron más o menos a principios de junio, y hasta que los fabricantes del hardware y el software no saquen un par de actualizaciones de BIOS y controladores, es posible que no sea todo lo estable que debería.

A lo que iba. Tras ver el mensaje hago como otras veces, le doy al botón de encendido y lo reinicio. Comienzan a salir los mensajes de la pantalla de arranque y, ¡horror!, sale un error cuando llega a la tarjeta RAID, y además los leds de los discos del sistemas pasan de estar de color verde al ambar (y porque no podrán ponerse rojo, que si no...). Mal rollo, los dos discos del sistema petados, ¡los dos! se ponen en espejo precisamente para que si casca uno pueda seguir funcionando el otro, pero van y (en apariencia) petan los dos a la vez.

Llamo al servicio técnico y en seguida me pasan con un ídem. Ma va indicando lo que hacer. Primero saco uno de los discos dañados dejando el otro y entro en la BIOS de la tarjeta RAID para activar el que queda. Luego intento arrancar, y al principio parece que sí, que arranca, sale la pantalla del Grub y comienza a cargar el kernel. Hace un fsck de las particiones y parece que las pasa, pero luego cuando va a iniciar los servicios, empiezan a fallar todos.

Lo siguiente es pasar diagnósticos a los discos. Me bajo de la web de Dell un fichero que genera dos disquetes y arranco de uno de ellos y pongo a diagnosticar el primer disco. Entre llamadas de teléfono, mensajes de correo a los usuarios, y arranques, ya se han hecho las 15:00, hora de irse.

Como nadie se ha quejado mucho y en mi empresa lo de las horas extras es un poco peculiar, dejo haciéndose el diagnóstico y me voy a casa. Si fuera un sistema crítico y fuese a haber gente usándolo el fin de semana me pensaría lo de quedarme para arreglarlo. Pero como no se da ninguna de las dos condiciones anteriores y ademàs ya tengo planes para la tarde, pues así se queda.

Seguirá el lunes.

1 comentario:

Anónimo dijo...

La gran ventaja de los sistemas raid, pasa por la redundancia manteniendo los tiempos de transferencia, por eso los niveles 0 de raid no son los mas efectivos. Pero ojo, que a veces los raid fallan y la recuperación de sus datos se puede convertir en una pesadilla. Si en un momento dado necesitais recuperar datos de varios discos duros en raid os recomiendo las siguiente web : http://www.lineared.com/es/recuperar/raid-discos-duros.htm