Mi aplicación de análisis genera alrededor de 2 millones de registros durante una sola ejecución. ¿Cuál es la mejor manera de hacer una inserción masiva de estos datos en una base de datos MySQL?

En términos generales, la forma más rápida de mover un lote de datos ASCII sin procesar a cualquier DBMS es a través de técnicas de carga masiva. Como mencionó Joshua Forman, la forma de hacer esto en MySQL es usar LOAD DATA INFILE.

Pero además del uso de carga masiva, hay otras cosas a considerar.

Por ejemplo, si sabe que sus datos están limpios al ingresar, puede deshabilitar las claves primarias, las claves externas, los índices y verificar las restricciones durante la carga, y luego volver a habilitarlas después de la carga. Siempre es más rápido reconstruir índices y restricciones después del hecho que hacer que el DBMS verifique durante una carga de datos.

Pero debo advertirle que solo debe intentar esto si puede garantizar que los datos no violarán la integridad referencial cuando vuelva a activar las restricciones después de la carga. Si no eres POSITIVO porque tu carga de datos no violará las restricciones de integridad referencial, entonces no uses este truco.

Además, mucho depende del sistema que esté cargando, pero si puede evitar desactivar el registro de transacciones durante la carga, también puede obtener algo de rendimiento.

Además de deshabilitar las restricciones y usar técnicas de carga masiva, vale la pena pasar un tiempo pensando en su infraestructura física. La clave para mejorar el rendimiento es eliminar los cuellos de botella. ¿Se pueden almacenar los datos que está cargando en la misma máquina física que la base de datos que está cargando? Si es así, esto podría eliminar la latencia de la red. Por supuesto, si está organizando sus datos en la misma máquina que aloja la base de datos que está cargando, no desea cambiar un cuello de botella por otro. Use un disco para alojar los datos que no contengan ninguno de los espacios de tablas utilizados para almacenar las tablas que está cargando o las tablas del sistema MySQL. (es decir, asegúrese de no causar un cuello de botella de E / S entre la lectura de datos ASCII y la inserción de datos en las tablas de destino)

Recientemente he visto una estrella como una cosa que pasa de una esquina del horizonte a la otra esquina. ¿Qué significa eso para nuestro mundo?

Tengo 40k menos para una educación de 100k y mis padres no me lo prestan. ¿Cuál es la mejor manera de obtenerlo?

¿Mi video .mov de 60 MB es demasiado grande para subirlo a YouTube?

Estoy usando Eclipse para codificar en Java. Soy nuevo en Java y no sé cómo se ejecuta el programa. ¿Puede haber dos platos principales en dos clases diferentes en un proyecto?

Si la Tierra alcanzara el cero absoluto en 7 días, ¿qué pasaría?

Siento que mi arrendador fue injusto al fabricar el costo de los daños para que no me pagara una parte de mi depósito o la totalidad. ¿Cuáles son los pasos legales como inquilino que puedo tomar para presentar un reclamo contra mi arrendador?

Definitivamente use LOAD DATA INFILE por la respuesta del usuario de Quora y por el comentario de Brian Rue, divida el archivo en 20-50K filas a la vez (evalúe qué tamaño de ruptura es más rápido; encontrará uno que sea más rápido en función de los tamaños de fila y la E / S del host actuación).

Una sugerencia adicional dependiendo de cómo almacene sus datos diarios es que, si se trata de datos, posiblemente se puedan colocar en una nueva tabla y no agregarse a una tabla existente, eso es más rápido. En iLike teníamos muchos millones de filas de los últimos datos de estadísticas de “reproducción” y “alcance” del artista / álbum / pista que completamos todas las noches en una base de datos. Reemplazaríamos los datos más recientes de la última noche “atómicamente” de la siguiente manera:

crear una nueva tabla como la tabla anterior (crear una tabla como barra)
CARGAR DATOS DE ARCHIVO los fragmentos en foo, y deshabilitar índices, FK durante la carga
renombrar foo a bar, bar a foo
soltar foo

esto produce una nueva tabla limpia que se cambia atómicamente de debajo de cualquiera que use la anterior.

Vijay Rayapati

En general, el cuello de botella en la inserción masiva estará en el servidor DB

Envío de datos de gran tamaño: como lo sugirió Joshua, puede usar la función de datos de carga es una buena alternativa.

Para un mejor rendimiento en las inserciones masivas, use la función “inserción demorada”: http://dev.mysql.com/doc/refman/ …

Vijay Rayapati

More Interesting

Estoy buscando un bolígrafo. ¿Qué bolígrafo debo comprar? Siempre he comprado bolígrafos Flair. ¿Debería cambiarme a otra marca?

Quiero ser terapeuta de arte, ¿es esencial tener un título en bellas artes a pesar de tener mi propio portafolio personal?

Me voy a mudar a Miami desde Nueva York para el invierno, ¿dónde puedo vivir por menos de $ 800 al mes, tener estacionamiento y un viaje de menos de 45 minutos al centro de la ciudad?

Soy un graduado en ciencias de la computación. ¿Cómo encuentro trabajo en Abu Dhabi o Dubai?

Como todo lo que quiero, pero hago ejercicio y limito mi consumo de calorías. ¿Esta bien?

Tengo un Google Nexus S con el lector RFID y tengo etiquetas RFID. ¿Cómo obtengo información sobre las etiquetas RFID?

Cuando toco la bomba de gasolina para pasar de $ 19.99 a $ 20.00, ¿realmente dispensa una pequeña porción de gasolina medida, o solo estoy desperdiciando dinero?

Si no pago mi deuda de tarjeta de crédito, ¿cuáles son las consecuencias? ¿Pueden los acreedores embargar mi salario?

Necesito rastrear una URL externa con mi Google Analytics. ¿Debo usar el mismo código GA o configurar uno nuevo para estas páginas externas?

Mi solicitud de préstamo fue rechazada por un banco, ¿debería tomar un préstamo rápido en efectivo?