Condor Tutorial

¿Qué es?

Es un sistema de control de procesos y administrador de tareas basados en scripts batch, similar a Torque/PBS, SGE, LSF..

Cuenta con 4 servicios basicos para el funcionamiento del sistema.
Scheduler: Controla los trabajos
Collector: Controla la informacion entre los diferentes nodos del sistema.
Master: Nodos donde se ejecutan los procesos
Server: Controla todo lo anterior.
Abajo aprenderemos a identificar cada uno de estos elementos.

Universos

Existen varios ambientes de ejecución in HTCondor llamados universos y se especifica en el archivo de envio de procesos. Los universos mas comunes son el standard y el vainilla pero tambien podemos habilitar el universo parallel.
Lo principal caracteristica del universo estandar es que se pueden hacer checkpoints pero requiere que el codigo sea en c/c++ y que se compile con el comando condor_compile y condor con este universo proveera las utilidades para hacer el checkpoint y restaurar el proceso.
El universo de vainilla proporciona menos servicios, pero es menos restringido, no hay manera de tomar un punto de control o migrar un trabajo ejecutado bajo el universo de vainilla.
El universo paralelo es compatible con trabajos que necesitan ser programadas en conjunto, eso quiere decir, un trabajo en el que hay varios procesos que se ejecutan al mismo tiempo en diferentes máquinas.



Comandos Básicos de Condor


condor_status

Muestra los recursos disponibles.
Name               OpSys      Arch   State     Activity LoadAv Mem   ActvtyTime

slot1@gfif-doc0.ud LINUX      X86_64 Unclaimed Idle     0.010   640  6+19:26:22
slot2@gfif-doc0.ud LINUX      X86_64 Unclaimed Idle     0.000   640  6+19:26:42
slot3@gfif-doc0.ud LINUX      X86_64 Unclaimed Idle     0.000   640  6+19:26:43


Name: muestra .. es el procesador 1 del nodo gfif-doc0, muestra tantos slots como procesadores-
OpSyst: sistema operativo en el que esta el slot. (Puede ser windows, MacOSX, solaris...)
Arch: arquitectira de la CPU, puede ser X86_64(64 bits ), 32 bits, Mips, sparc...
State: Si esta en uso o libre.
LoadAv: Carga promedio en un intervalo de tiempo. Load Average(external link)
Mem:¿?
ActvtyTime: Tiempo que lleva activo.

Algunas opciones de condor_status

Identificar el servidor agendador.
[omazapa] [gfif] [~]$ condor_status -schedd

Name                 Machine    TotalRunningJobs TotalIdleJobs TotalHeldJobs 

gfif.udea.edu.co     gfif.udea.                0             0              0
                      TotalRunningJobs      TotalIdleJobs      TotalHeldJobs


Identificar los nodos de ejecicion
[omazapa] [gfif] [~]$ condor_status -master
gfif-doc0.udea.edu.co
gfif-doc1.udea.edu.co
gfif-wn0.udea.edu.co
gfif-wn1.udea.edu.co
gfif-wn2.udea.edu.co
gfif.udea.edu.co
gfifdev.udea.edu.co

Identificar nodos de almacenamiento(En nuestro caso no tenemos, se usa principal mente e grids)
condor_status -storage



Universo Parallel



El documento original está disponible en https://clustercien.udea.edu.co/web/tiki-index.php?page=Condor+Tutorial