Tengo un flujo continuo de datos del archivo de registro de una máquina. El registro contiene diferentes eventos y ocurrencias de falla de la máquina en varios puntos en el tiempo. Necesito desarrollar un modelo (no necesariamente de aprendizaje automático) que pueda predecir fallas futuras. ¿Alguno de ustedes tiene experiencia en el análisis de archivos de registro?

Lo siguiente es una abstracción de alto nivel de las estrategias que utilicé.

1. Una clase de minería de reglas modificada para el flujo de datos para predecir eventos específicos ( fallas ).

Se definieron dos parámetros como se muestra a continuación, tw (ventana de tiempo analizada antes de la falla) y tl (el tiempo de entrega indica con qué anticipación se predice la falla). Se aplicó el algoritmo de minería de reglas estándar para encontrar la confianza de cada conjunto de elementos. La confianza es cuántas veces se produjo un conjunto de elementos dentro de tw contra el número total de ocurrencias.

2. Extendido (Minería de reglas) para capturar el patrón de ocurrencia de ráfaga como se muestra a continuación. (E es Evento y F es Fallo). El algoritmo de minería de reglas estándar no captura la aparición de ráfagas, ya que calcula la confianza a nivel mundial.

Procesó cada lote por separado y definió dos parámetros de confianza, uno para el lote y otro para las reglas dentro del lote.

3. Desarrollé un modelo de predicción de aprendizaje automático de dos clases (con o sin falla) con varios algoritmos como Bayesian, RBF, VFI, etc. con una construcción de vectores de características variadas. Comparó el ROC para encontrar el mejor modelo. Selección variada de parámetros, como AttributeSelectedClassifier, normalización de los ejemplos de instancias de características de entrada, evaluación sensible al costo (ya que las etiquetas de clase no están distribuidas de manera uniforme (demasiadas menos etiquetas de falla en comparación con las etiquetas sin falla), división porcentual, ventana deslizante para capturar el cambio de contexto, etc.

4. Desarrollé un espacio de estado gráfico con estados que son eventos y las aristas dirigidas son la probabilidad de que los eventos tarden en llegar a otros eventos con un tiempo medio de falla definido. Se parece más a una cadena de Markov pero se desarrolló utilizando una llamada recursiva realizada en el algoritmo básico de minería de reglas explicado en 1.

5. Los datos estadísticos se ajustan capturando tasas decrecientes entre llegadas entre eventos relacionados con fallas. Se usaron varias distribuciones (por ejemplo, Weibull).