martes, septiembre 27, 2005

Lunes bendito

Normalmente los lunes no tienen nada de bendito, habría que prohibirlos, pero hoy ha sido eso precisamente, y así tendrían que ser siempre.

Nos habíamos quedado con un servidor que no arrancaba y que tenía mu mala pinta. El viernes dejé corriendo unos diagnósticos sobre uno de los discos y esta mañana he ido a ver el resultado. Estaba bien, así que lanzo de nuevo el test para el otro disco, y lo dejo corriendo.

Al cabo de un par de horas vuelvo y ya había terminado, también correctamente. Mando un fichero de log con los resultados al soporte técnico y al cabo de un rato me responden. Dicen que parece que físicamente los discos están bien, que el fallo puede ser del sistema de archivos, que por alguna razón se ha corrompido. Sugieren que intente arrancar con el otro disco y recupere todos los datos que pueda para a continuación volver a crear el RAID 1 y reinstalar.

Hago eso. Extraigo el disco con el que arranqué el viernes y dejo solamente pinchado el otro. Entro en la BIOS de la tarjeta RAID para ponerlo online y reinicio. Vuelve a salir el Grub y comienza a cargarse el RedHat. Igual que el otro día hace un fsck a los sistemas de archivos y... sorpresa, cuando llega a la parte donde se inician los servicios empiezan a arrancar correctamente uno detrás de otro, poniendo en todos un bonito [ Ok ].

No me lo puedo creer, miro el log del sistema en busca de fallos o errores y nada, está todo perfecto. Para asegurarme, paro y reinicio el servidor un par de veces más, y todas ellas arranca bien. Después pincho el disco que había dejado desconectado y al hacerlo los leds comienzan a parpadear frenéticamente y lo que es más importante, pasan del color ambar al verde. Significa que se está reconstruyendo el mirror y que he salvado el día. Paso un mensaje a los usuarios y comienzan a trabajar en él, sin que haya pasado nada más el resto de la mañana.

Un par de horas después de pasada la crisis me llega por paquetería un switch para sustituir a uno de los que petaron con el SAI la semana pasada. Al final hice lo que recomendaba cada persona a la que le conté el caso, que era llamar por uno de ellos a la empresa con la que tenemos contratado el mantenimiento haciéndome el tonto, para que me lo sustituyeran.

Lo he sacado del paquete y he comprobado que el modelo era exactamente igual al que cascó. No se, yo me esperaba que después de cinco años en el mercado lo hubieran cambiado un poco por fuera, o que el número de modelo fuese algo distinto, pero no, era idéntico al anterior.

Tengo guardadas a buen recaudo las configuraciones de todos los switches, así que ha sido cuestión de minutos cargársela de nuevo y ver que arrancaba bien. He avisado a los usuarios para que supieran que probablemente se quedarían sin red esa misma tarde, y lo he colocado en el armario, quitando el cutre hub que había colocado como emergencia para salir del paso.

A ver como sigue la semana, porque esto de que empiece tan bien no puede ser normal.

viernes, septiembre 23, 2005

Para empezar bien el fin de semana...

Es viernes, faltan un par de horas para terminar la jornada y empezar el fin de semana. Alrededor de las 13:00 me avisan de que uno de los servidores de aplicaciones de cálculo no responde. Me dirijo al CPD y allí está, con un bonito kernel panic en la pantalla.

Bueno, hasta cierto punto es casi normal, no es el primero que hace. Se trata de un servidor Dell PowerEdge 6850, con 8 gigas de RAM, y 4 CPUs. Lleva dos discos de 36 Gb en mirror para el sistema y tres más de 146 Gb en Raid 5 para los datos. Como sistema operativo lleva RedHat AS 4. Tiene menos de 3 meses, y en todo este tiempo se ha caído ocho o nueve veces. Parece que por problemas con la controladora RAID y/o drivers. Tanto la máquina como el sistema son bastante nuevos, los sacaron más o menos a principios de junio, y hasta que los fabricantes del hardware y el software no saquen un par de actualizaciones de BIOS y controladores, es posible que no sea todo lo estable que debería.

A lo que iba. Tras ver el mensaje hago como otras veces, le doy al botón de encendido y lo reinicio. Comienzan a salir los mensajes de la pantalla de arranque y, ¡horror!, sale un error cuando llega a la tarjeta RAID, y además los leds de los discos del sistemas pasan de estar de color verde al ambar (y porque no podrán ponerse rojo, que si no...). Mal rollo, los dos discos del sistema petados, ¡los dos! se ponen en espejo precisamente para que si casca uno pueda seguir funcionando el otro, pero van y (en apariencia) petan los dos a la vez.

Llamo al servicio técnico y en seguida me pasan con un ídem. Ma va indicando lo que hacer. Primero saco uno de los discos dañados dejando el otro y entro en la BIOS de la tarjeta RAID para activar el que queda. Luego intento arrancar, y al principio parece que sí, que arranca, sale la pantalla del Grub y comienza a cargar el kernel. Hace un fsck de las particiones y parece que las pasa, pero luego cuando va a iniciar los servicios, empiezan a fallar todos.

Lo siguiente es pasar diagnósticos a los discos. Me bajo de la web de Dell un fichero que genera dos disquetes y arranco de uno de ellos y pongo a diagnosticar el primer disco. Entre llamadas de teléfono, mensajes de correo a los usuarios, y arranques, ya se han hecho las 15:00, hora de irse.

Como nadie se ha quejado mucho y en mi empresa lo de las horas extras es un poco peculiar, dejo haciéndose el diagnóstico y me voy a casa. Si fuera un sistema crítico y fuese a haber gente usándolo el fin de semana me pensaría lo de quedarme para arreglarlo. Pero como no se da ninguna de las dos condiciones anteriores y ademàs ya tengo planes para la tarde, pues así se queda.

Seguirá el lunes.

miércoles, septiembre 21, 2005

Cerrar sesión != Apagar equipo (1)

Cuando se usa un ordenador lo más aconsejable es hacerlo con permisos restringidos para cambiar la configuración del sistema. Así, será más dificil que lo dañemos por un descuido nuestro, o por la acción de algún virus, troyano, o bicharraco similar.

En la empresa en la que trabajo intentamos que sea así con los PCs de los usuarios, pero no siempre es posible porque hay aplicaciones que si no tienen ciertos permisos no funcionan, o lo hacen mal. Pero esa es otra historía de la que hablaré otro día.

Estos usuarios limitados normalmente no pueden instalar aplicaciones así como así, por lo que cuando necesitan alguna en su ordenador nos lo dicen, y nosotros nos conectamos por Terminal Server a su equipo para entrar con permisos de administrador e instalársela. Esto lo permite el Windows XP aunque con una limitación, y es que no puede haber conectados al mismo tiempo dos usuarios distintos. Por eso, siempre hay que decirle a la persona que cierre todos los programas y salga de su sesión, para que nosotros podamos entrar como administradores. Para hacer eso, simplemente tienen que irse al menú Inicio y seleccionar la opción Cerrar sesión que aparece justo encima de la de Apagar equipo (2).

La conversación típica suele ser parecida a esta:

- ¿Sí digame?
- Hola, necesito instalar en mi PC la aplicación AAA.
- Vale, sal de todos los programas y cierra la sesión para que me conecte remotamente.
- Ya he cerrado todo, ¿ahora apago el ordenador?
- No, no lo apagues, dale a Cerrar sesión en el menú de Inicio.
- Ah vale.

Y va, y lo apaga.

A veces pienso que los usuarios nos deben ver a los administradores como una especie de dioses o magos, que todo lo ven y todo lo pueden. Pero esto, por supuesto, no es así. También hay cosas imposibles para nosotros, como por ejemplo hacerles comprender que un ordenador necesita electricidad para que funcione. ¿Se les ocurriría programar en casa la lavadora o el vídeo cuando están apagados? No, claro, pero entonces ¿por qué razón el ordenador sí? Me lo expliquen.

El siguiente paso es volver a llamarlo para que encienda otra vez el ordenador. Si hay suerte y lo pillas (porque a veces se van y tienes que perseguirlo por media empresa para dar con él) entonces le explicas lo que ha pasado y lo vuelve a encender. Una vez ha arrancado, aun hay alguno que te pregunta si es necesario que entren con su usuario. ¡Pero que te acabo de decir hace 1 minuto, cabezudooooooo!

La próxima vez les diré que sí, que vuelvan a entrar, y que a continuación cierren la sesión. Y si vuelven a hacer lo mismo, iré allí en persona y después de instalarles la aplicación los pondré a escribir 100 veces en la pizarra:

"Cerrar sesión no es Apagar equipo. Los ordenadores para funcionar tienen que estar encendidos."
"Cerrar sesión no es Apagar equipo. Los ordenadores para funcionar tienen que estar encendidos."
"Cerrar sesión no es Apagar equipo. Los ordenadores para funcionar tienen que estar encendidos."




(1) Para el que no lo haya deducido, los caracteres '!=' significan 'distinto de' en algunos lenguajes de programación, como C.
(2) Esta opción no aparece por defecto, pero nosotros la tenemos configurada en una directiva de dominio para que sí que salga.

Poderes telepáticos

Ayer, cuando volvíamos de tomar el café de media mañana pasamos cerca de una de las impresora de color en red, y al lado de ella estaba un usuario sacando hojas. Además se da la circunstancia de que el susodicho tiene la manía de utilizar esa impresora como si fuese una imprenta. La última vez sacó unas 200 copias en color por las dos caras para hacer unos trípticos. La impresora esta (una OKI 5300n) no tiene ese accesorio que le da la vuelta a la hoja y permite imprimir por las dos caras cómodamente, así que tuvo que hacer las 200 copias, volver a ponerlas en la bandeja del papel al revés, e imprimir otras tantas copias de la otra cara. No se cómo le quedarían, pero seguro que si los hubiese llevado a una copistería o una imprenta profesional le quedarían mejor y no tendría que haber hecho esa chapuza.

Bueno, pues como decía, pasábamos cerca de donde estaba, y nos llama, tal que así:

- Oye, ya sabéis que esto no funciona ¿no? [Así de sopetón, sin decir primero un 'hola' o un 'buenos días']
- Pues no, no lo sabíamos ¿qué le pasa? [Claro que no lo sabíamos, las impresoras no tienen todavía la capacidad de enviar mensajes de error vía telepática para que lo sepas mientras te estás tomando un café, ¡y que sigan así por muchos años!]
- Ah... no se... aquí se enciende una luz...

La miramos. Ponía TONER CYAN LOW.

- El tóner del color cian, que está bajo.
- Pero ¿se puede seguir imprimiendo? [¿Tú nos lo preguntas? No haces más que mandar a imprimir chorradas por esta impresora, y aún no te has aprendido que:
- Sí, es solo un aviso que sale cuando está a menos del 10%, pero todavía puedes imprimir varias hojas hasta que se agote del todo.
- Ah, vale vale...

Y ahí lo dejamos, con sus impresiones de colores.

lunes, septiembre 19, 2005

Enanitos en la red (y II)

La usuaria CCC de la primera parte de esta historia, vino el viernes pasado, media hora antes de salir, con un problema que tenía con el Freehand. Al parecer iba a componer un cartel y al abrir una plantilla-tipo que tenía para hacerlo, le daba un error diciéndo que no encontraba no-se-que logotipos y se cerraba, sin dejarle editarlo. Por supuesto, lo necesitaba para hoy por la tarde, así que quedamos con ella en que se lo miraríamos entonces hoy mismo.

Cuando faltaba algo más de una hora, ha venido a recordárnoslo. Ha hecho bien, porque confieso que ya no nos acordábamos, se nos había pasado completamente, por todas las cosas que habían ido surgiendo a lo largo de la mañana.

Se ocupa de la tarea mi compañera. Primero piensa que puede ser un problema de instalación, así que intenta hacerse con el CD original del programa. Pregunta a dos o tres personas, que se van pasando unas a otras la pelota sobre quién era la última que lo había tenido en sus manos. Como no aparece, se va mirar in situ el problema, rezando para que no fuera necesario reinstalar.

Al parecer, efectivamente, el programa no encuentra unos ficheros gráficos de unos logotipos. Pero es tan 'tonto', que no es capaz de mostrar un cuadro negro o algo así donde tuviera que ir el logotipo que falta. En vez de eso, directamente se cierra tras mostrar el mensaje. Mi compañera le comenta a CCC lo que ocurre, que son necesarios unos ficheros en una determinada ruta, pero dicha ruta no existe. La otra, dice que no puede ser, que esos ficheros llevan ahí desde el 2001. Comienza a ponerse tensa. Y suelta la frase que da título a estos post:

- Eso seguro que es que hay enanitos en la red.

Y a continuación añade algo parecido a:

- Y SIEMPRE le tiene que pasar al departamento FFF.

Una forma sutil de decir que la culpa es nuestra. Lo de 'siempre' estoy seguro de que hace referencia al episodio de las carpetas que se movían solas, que parece haber olvidado que finalmente ella era una de las causas de aquel curioso fenómeno.

En aquel momento, otro usuario del mismo dpto. que estaba por allí cerca y lo ha oido todo, le echa un cable a mi compañera.

- Ah, pues yo el otro día estuve haciendo limpieza, y creo que moví esos logotipos a la carpeta de archivado. (Una carpeta de la que se hace copia de seguridad en cinta para que la información no crezca de forma incontrolada en los servidores).
- No no, no es eso, son los enanitos de la red- replica CCC.
- Bueno, déjame que lo pruebe- dice mi compañera.

Al cabo de unos minutos, todo funcionaba de nuevo. El enanito no estaba sentado en la red, sino en una mesa del dpto. FFF.

En una cosa tenía razón CCC. SIEMPRE le tiene que pasar al mismo departamento.

Enanitos en la red (I)

Lo que voy a contar ahora sucedió hará cosa de un año, pero como tiene cierta relación con algo que ha pasado hoy, lo cuento para poneros en antecedentes.

Año 2003: Algunas personas del departamento FFF nos contaron un curioso fenómeno que les pasaba de vez en cuando. Algunos ficheros del servidor de archivos, cambiaban de carpeta y se movían sin motivo aparente de unas a otras, sin seguir ninguna lógica.

Cada uno o dos meses, volvían con la misma historia. Las primeras veces yo intentaba encontrar alguna pauta que ayudara a dilucidar la causa. Cuando ya habían venido tres o cuatro veces con el problema, empezaron a sospechar que "alguien" se metía en sus ordenadores, físicamente cuando no estaban o "pirateándoselos". Yo no creía que fuera así, pero no obstante hice como en la serie de CSI: descartarlo. Para ello activé en el servidor directivas de seguridad que registraban cada movimiento que se hacía en él, y controlaba que nadie más que los miembros del departamento FFF pudieran entrar en sus ordenadores.

Al cabo de unos meses, volvió a repetirse. Examinando los logs de entrada de los usuarios no se observaba nada anormal. Los registros de movimiento de ficheros y carpetas eran bastante arduos de interpretar, así que no se sacó de ellos nada en claro. Pero había algo curioso. En todo ese tiempo (ya habría pasado casi un año) a nadie más de la empresa le había pasado nada similar. Parecía altamente probable que el problema no fuera de los sistemas, sino de los lusers usuarios del departamento FFF. Así se lo dijimos; algunos lo asumieron más o menos 'deportivamente', pero hubo quien se lo tomó un poco mal.

Finalmente, cuando ya había pasado más de un año, uno de mis compañeros estaba en el departamento FFF haciendo otra cosa (algo de una impresora, creo recordar) cuando le dijeron que les había vuelto a pasar. La usuaria CCC comenzó a recriminarle que no hiciéramos nada al respecto para solucionarlo, y la cosa acabó en discusión, de buenas maneras, pero discusión al fin y al cabo. Para afirmar su postura, dicha usuaria fue a mostrarle lo que había ocurrido esa vez. Se dirigió a su PC, y como tenía el salvapantallas activado, movió el ratón para que se fuera. Y al observar ese gesto, a mi compañero, bendito él, se le encendió la bombilla:

- ¿No será, que cuando mueves el ratón, aprietas sin querer alguno de los botones?

La otra se quedó pillada, y reconoció que sí, que podía ser que al mover el ratón para desactivar el salvapantallas pulsara sin darse cuenta alguno de los botones. Y al hacerlo, podía ser que teniendo abierta alguna carpeta moviera ficheros y subcarpetas a otra. Y que ni siquiera lo viera, porque al tener un monitor CRT, tarda tres o cuatro segundos en volver a mostrar la señal de vídeo, y en ese lapso la pantalla está negra.

Además, otra usuaria, también reconoció que ella podría estar haciendo lo mismo. La cosa se calmó al instante, y se quedó con la gente de ese departamento que de ahí en adelante tuviesen especial cuidado de no apretar ningún botón del ratón al moverlo para quitar el salvapantallas. Y que no obstante, si les volvía a pasar, que nos lo dijeran.

Ha pasado más de un año, y no ha vuelto a repetirse el fenómeno.

sábado, septiembre 17, 2005

Documentos protegidos

Hoy en el trabajo ha habido un momento de la mañana en que he recibido dos llamadas seguidas casi sobre lo mismo:

La primera ha sido una chica que trabaja en el dpto. de administración. Le han mandado una hoja excel con muchos campos y quería borrar los que no le servían para quedarse con los que le eran útiles, pero no podía porque la hoja estaba protegida. Y además cuando le daba a Herramientas -> Desproteger, le pedía una contraseña. Me ha preguntado si se podía saltar la contraseña para desprotegerla, y le he dicho que no. Le he dicho que probara a copiar todo y pegarlo en una hoja nueva en blanco, a ver si así podía luego quitar lo que quisiera, y ya no he sabido si le ha funcionado o no.

No he hecho más que colgar el teléfono y ha vuelto a sonar. Esta vez era un ingeniero mecánico que por lo que se ve va a impartir unos cursos. Le han pasado las transparencias en PDF, y quería resaltar algunos párrafos o algunas hojas con lo que considera más importante. Pero el PDF estaba protegido, y no tenía permiso más que para imprimirlo, no podía ni modificarlo ni seleccionar el texto para pegarlo luego en un documento de Word, por ejemplo. Y preguntaba lo mismo, que si se podía desproteger, y de nuevo le he contestado que no.

Se que existen programas que desprotegen esos documentos, de Office y PDFs probando claves por fuerza bruta, y que puede llevar desde unas pocas horas hasta unos cuantos días. Pero no he querido decírselo a ninguno de los dos. Primero, porque crearía un precedente, se malacostumbrarían, correría la voz, y cada dos por tres tendría que estar desencriptando documentos. Y la segunda razón es también ética. Estoy a favor del libre conocimiento y el open source y todas esas cosas, pero si el creador de un documento desea que no sea modificado o copiado, sus razones tendrá, y hay que respetarlo.

viernes, septiembre 16, 2005

El SAI asesino

Apenas acababa de llegar al trabajo y de encender mi ordenador cuando suena el teléfono:



- Sí digame

- Oye, que no va la red [Lo más vago que se puede decir, puede significar que no le funciona el acceso a internet, que no puede entrar en algún servidor, o simplemente que ha metido mal la contraseña del correo]

- Y ¿qué es lo que no te va exactamente?

- Nada, y además aquí abajo sale 'cable desconectado'

- ¿Está bien pinchado el latiguillo?

- Espera... sí sí, está bien... oye, que por aquí me dicen que a ellos también les pasa lo mismo.
- Vale, ahora me acerco.



Que le pase a uno solo, vale, puede ser problema del cable que conecta el ordenador a la red, o de la tarjeta, pero si le pasa a mucha gente a la vez, casi seguro que es algo del switch.



Me dirijo hacia allí y voy al armario donde están los equipos de red. Cuando me acerco me hace daño a los oídos el silencio que reina. Normalmente cuatro switches y un SAI que llevan encendidos 24 horas diarías desde hace cinco años, acumulan polvo en los ventiladores y hacen bastante ruido. Bueno, pues no se oía ni una mosca porque estaba todo apagado. Pulso el botón de encendido del SAI pero nada, no se enciende. Puede que se le haya agotado la batería, que no se le ha cambiado desde que se compró. Bueno, no pasa nada, mientras conseguimos otra, enchufo los switches directamente a la corriente en la regleta que hay al fondo del armario, y listos.



Empiezo por el de abajo del todo, lo enchufo y comienza a hacer ruido y a encenderse todas las lucecitas de los puertos indicando que hay conexión. Bien, hago lo mismo con el segundo y con el tercero. Pero este último no se enciende. ¿Estará mal el cable de corriente o el enchufe? Cambio el cable, y nada. Lo enchufo en otro sítio, y nada tampoco. Intercambio cable y enchufe con el de otro switch de los que estaba funcionando, y tampoco nada.



Mal asunto, eso de que no se encienda el switch. Sigo con el cuarto... y para horror mío, sucede lo mismo. A todo esto, entre ir y venir y reconectar los cables en el diminuto espacio del armario, había pasado casi una hora, y había medio edificio de gente sin poder trabajar. Rápidamente bajo al sótano, donde tenemos el CPD (centro de proceso de datos) y chatarra variada, y rescato de una estantería un par de hubs de 24 puertos a 10Mb + 2 a 100Mb. Me los llevo para allá, saco del armario los equipos averiados y pongo estos en su lugar. Reconecto todos los latiguillos que había antes (24 en uno y 18 en otro) y los conecto en cascada mediante cables cruzados con los switches que han sobrevivido. A continuación me paso por algunos puestos para ver si ya funcionaba la conexión, y sí, funciona, al menos ya se puede trabajar.



Informe de daños:

- 2 switches Cisco 3524: Cascados, ni siquiera se encienden.

- 1 SAI APC SU2200: Batería agotada, y se desconoce si el resto funciona aún.



Los switches los tenemos con contrato de mantenimiento, que se supone lo reemplazan en 24 horas. Pero solo cubre averías 'fortuitas'. Una subida de tensión producida por el último latido de vida de un SAI moribundo no creo que entre en esa categoría. Si fuera solo uno, podría hacerme el tonto y decir simplemente que se ha averiado, sin más. Pero dos a la vez... no creo que cuele. Igual lo que hago es hacer esto último con uno de ellos, y dentro de un mes llamar por el otro. El primero seguro que lo cambiarán, y el segundo, puede que sí o puede que no... pero por intentarlo...

jueves, septiembre 15, 2005

Presentación

Soy informático, tengo 31 años, y junto con dos compañeros más trabajo administrando el sistema informático de una empresa de casi 200 empleados.

Nuestro trabajo consiste en la instalación y mantenimiento de los equipos informáticos necesarios para el funcionamiento de la empresa, y que incluye ordenadores personales de sobremesa y portátiles, impresoras, servidores, estaciones de trabajo, equipos de red (switches, firewalls) y casi casi cualquier cosa a la que se le pueda conectar un teclado o pinchar un cable de red.

El parque informático es variado: PCs ofimáticos con Windows XP; estaciones de trabajo también con ese sistema y algunas con Linux; impresoras láser y de tinta, en color y blanco y negro; servidores con Windows y otros con Solaris o Linux; librerías de backup con cintas LTO; equipos de red Cisco y otros fabricantes... en fin, mucho y variado, aunque lo ideal sería 'poco y uniforme', pero eso es lo que hay.

En cuanto a usuarios, también los tenemos de lo más variopintos: Administrativas/os que usan el Office y no las/os saques de ahí, desarrolladores de software, ingenieros que usan aplicaciónes de CAD/CAM/CAE, usuarios avanzados que saben bastante, y usuarios 'enteradillos' que creen que saben y nunca pierden la oportunidad de enguarrar el ordenador con programas chorras bajados de Softonic.

En fin, con tanta variedad y tanta cantidad de todo (personas y máquinas) no es extraño que casi cada día sucedan cosas que unas veces son para reir y otras para llorar.

El título de este blog es el nombre de un fichero que tenemos los administradores en el que vamos apuntando las ocurrencias y accidentes mentales más entrañables de nuestros lusers usuarios.

Por supuesto, ese documento solo lo conocemos nosotros :-)