Condor Tutorial
¿Qué es?
Es un sistema de control de procesos y administrador de tareas basados en scripts batch, similar a Torque/PBS, SGE, LSF..Cuenta con 4 servicios basicos para el funcionamiento del sistema.
Scheduler: Controla los trabajos
Collector: Controla la informacion entre los diferentes nodos del sistema.
Master: Nodos donde se ejecutan los procesos
Server: Controla todo lo anterior.
Abajo aprenderemos a identificar cada uno de estos elementos.
Universos
Existen varios ambientes de ejecución in HTCondor llamados universos y se especifica en el archivo de envio de procesos. Los universos mas comunes son el standard y el vainilla pero tambien podemos habilitar el universo parallel.Lo principal caracteristica del universo estandar es que se pueden hacer checkpoints pero requiere que el codigo sea en c/c++ y que se compile con el comando condor_compile y condor con este universo proveera las utilidades para hacer el checkpoint y restaurar el proceso.
El universo de vainilla proporciona menos servicios, pero es menos restringido, no hay manera de tomar un punto de control o migrar un trabajo ejecutado bajo el universo de vainilla.
El universo paralelo es compatible con trabajos que necesitan ser programadas en conjunto, eso quiere decir, un trabajo en el que hay varios procesos que se ejecutan al mismo tiempo en diferentes máquinas.
Comandos Básicos de Condor
condor_status
Muestra los recursos disponibles.Name OpSys Arch State Activity LoadAv Mem ActvtyTime slot1@gfif-doc0.ud LINUX X86_64 Unclaimed Idle 0.010 640 6+19:26:22 slot2@gfif-doc0.ud LINUX X86_64 Unclaimed Idle 0.000 640 6+19:26:42 slot3@gfif-doc0.ud LINUX X86_64 Unclaimed Idle 0.000 640 6+19:26:43
Name: muestra .. es el procesador 1 del nodo gfif-doc0, muestra tantos slots como procesadores-
OpSyst: sistema operativo en el que esta el slot. (Puede ser windows, MacOSX, solaris...)
Arch: arquitectira de la CPU, puede ser X86_64(64 bits ), 32 bits, Mips, sparc...
State: Si esta en uso o libre.
LoadAv: Carga promedio en un intervalo de tiempo. Load Average
Mem:¿?
ActvtyTime: Tiempo que lleva activo.
Algunas opciones de condor_status
Identificar el servidor agendador.[omazapa] [gfif] [~]$ condor_status -schedd Name Machine TotalRunningJobs TotalIdleJobs TotalHeldJobs gfif.udea.edu.co gfif.udea. 0 0 0 TotalRunningJobs TotalIdleJobs TotalHeldJobs
Identificar los nodos de ejecicion
[omazapa] [gfif] [~]$ condor_status -master gfif-doc0.udea.edu.co gfif-doc1.udea.edu.co gfif-wn0.udea.edu.co gfif-wn1.udea.edu.co gfif-wn2.udea.edu.co gfif.udea.edu.co gfifdev.udea.edu.co
Identificar nodos de almacenamiento(En nuestro caso no tenemos, se usa principal mente e grids)
condor_status -storage