La tolerancia a fallos es un aspecto crítico para aplicaciones a gran escala, ya que aquellas simulaciones que pueden tardar del orden de varios días o semanas para ofrecer resultados deben tener la posibilidad de manejar cierto tipo de fallos del sistema o de alguna tarea de la aplicación.
Sin la capacidad de detectar fallos y recuperarse de estos, dichas simulaciones pueden no llegar a completarse. Es más, algunos tipos de aplicaciones requieren ser ejecutadas en un entorno tolerante a fallos debido al nivel de seguridad requeridos.
De cualquier forma, en ciertos casos debería haber algún modo de detectar y responder automáticamente a ciertos fallos del sistema o al menos ofrecer cierta información al usuario en el caso de producirse un fallo.
Sin la capacidad de detectar fallos y recuperarse de estos, dichas simulaciones pueden no llegar a completarse. Es más, algunos tipos de aplicaciones requieren ser ejecutadas en un entorno tolerante a fallos debido al nivel de seguridad requeridos.
De cualquier forma, en ciertos casos debería haber algún modo de detectar y responder automáticamente a ciertos fallos del sistema o al menos ofrecer cierta información al usuario en el caso de producirse un fallo.
El crecimiento de los clusters de computadores, y en concreto de sistemas multicluster incrementa los potenciales puntos de fallos, exigiendo la utilización de esquemas de tolerancia a fallos que proporcionen la capacidad de terminar el procesamiento. El objetivo general planteado a sistemas de tolerancia a fallos es que el trabajo total se ejecute correctamente, aún cuando falle algún elemento del sistema, perdiendo el mínimo trabajo realizado posible, teniendo en cuenta que las prestaciones disminuyen debido al overhead necesario introducido para tolerar fallos y a la perdida de una parte del sistema.
Los grados de tolerancia de fallos necesario
ResponderEliminardepende de la aplicación.
Entre estos existen:
Tolerancia completa (fail operational).
El sistema sigue funcionando, al menos durante un tiempo, sin perder funcionalidad ni prestaciones
Degradación aceptable (failsoft).
El sistema sigue funcionando con una pérdida parcial de funcionalidad o prestaciones hasta la reparación del fallo
Parada segura (failsafe).
El sistema se detiene en un estado que asegura la integridad del entorno hasta que se repare el fallo.
Maira Magallán
C.I.: 11.115.915
Sección "4"
Es la propiedad o parte que permite a un sistema continuar trabajando correctamente en caso de que se genere una falla en alguno de sus componentes. La tolerancia de fallas es muy importante en aquellos sistemas que deben funcionar todo el tiempo. Ante una falla, otro componente o un procedimiento especial de respaldo pueden tomar el control para subsanar o amortiguar los efectos del fallo. Una manera de lograr la tolerancia de fallas, es duplicar cada componente del sistema.
ResponderEliminarIsorlettd Teran C.I. 18.044.108
Seccion "2"
Es la prioridad de ciertos computadores de seguir funcionando a pesar de haber sufrido alguna avería en cualquiera de sus componentes. Se puede lograr la tolerancia a fallas a través de la duplicidad d elementos y otras técnicas. Es algo propio del sistema que tengan un índice elevado de disponibilidad en función de la importancia estratégica de los trabajos que realiza o del tipo de servicio que presta a usuarios en gran proporción.
ResponderEliminarVirginia Requena C.I. 18.032.009
Sección “2”
Tolerancia a fallas
ResponderEliminarEs la propiedad que permite a un sistema continuar operando adecuadamente en caso de una falla en alguno de sus componentes. La tolerancia de fallas es muy importante en aquellos sistemas que deben funcionar todo el tiempo.
Ante una falla, otro componente o un procedimiento especial de respaldo pueden tomar el control para subsanar o amortiguar los efectos del fallo. Una forma de lograr tolerancia de fallas, es duplicar cada componente del sistema.
Un sistema falla cuando deja de proveer el servicio que debe prestar.
Un sistema es tolerante a fallas si continua proveyendo los servicios especificados aún en presencia de fallas de hardware o errores de software.
dayana altuve 17353406 seccion 4