Lo siguiente es una abstracción de alto nivel de las estrategias que utilicé.
1. Una clase de minería de reglas modificada para el flujo de datos para predecir eventos específicos ( fallas ).
Se definieron dos parámetros como se muestra a continuación, tw (ventana de tiempo analizada antes de la falla) y tl (el tiempo de entrega indica con qué anticipación se predice la falla). Se aplicó el algoritmo de minería de reglas estándar para encontrar la confianza de cada conjunto de elementos. La confianza es cuántas veces se produjo un conjunto de elementos dentro de tw contra el número total de ocurrencias.
2. Extendido (Minería de reglas) para capturar el patrón de ocurrencia de ráfaga como se muestra a continuación. (E es Evento y F es Fallo). El algoritmo de minería de reglas estándar no captura la aparición de ráfagas, ya que calcula la confianza a nivel mundial.
- ¿Me equivoco al creer que Martin Luther King votaría por Trump si todavía estuviera vivo hoy?
- Estoy entrando en mi tercer año de secundaria. Quiero trabajar en Google ¿Qué puedo hacer para prepararme?
- Tengo 14 años y mido 6’4 ‘¿debería jugar baloncesto?
- Jugué béisbol competitivo durante años, y lo he visto aún más. ¿Alguien puede explicar por qué las posiciones defensivas tienen expectativas ofensivas?
- Quiero comprar una casa 2-3 BHK en una ubicación decente en Delhi NCR. Planeando comprar en 6 meses. Mi presupuesto es de alrededor de 35 Lakh. ¿Dónde debería mirar?
Procesó cada lote por separado y definió dos parámetros de confianza, uno para el lote y otro para las reglas dentro del lote.
3. Desarrollé un modelo de predicción de aprendizaje automático de dos clases (con o sin falla) con varios algoritmos como Bayesian, RBF, VFI, etc. con una construcción de vectores de características variadas. Comparó el ROC para encontrar el mejor modelo. Selección variada de parámetros, como AttributeSelectedClassifier, normalización de los ejemplos de instancias de características de entrada, evaluación sensible al costo (ya que las etiquetas de clase no están distribuidas de manera uniforme (demasiadas menos etiquetas de falla en comparación con las etiquetas sin falla), división porcentual, ventana deslizante para capturar el cambio de contexto, etc.
4. Desarrollé un espacio de estado gráfico con estados que son eventos y las aristas dirigidas son la probabilidad de que los eventos tarden en llegar a otros eventos con un tiempo medio de falla definido. Se parece más a una cadena de Markov pero se desarrolló utilizando una llamada recursiva realizada en el algoritmo básico de minería de reglas explicado en 1.
5. Los datos estadísticos se ajustan capturando tasas decrecientes entre llegadas entre eventos relacionados con fallas. Se usaron varias distribuciones (por ejemplo, Weibull).