Quiero analizar el sitio con 16 millones de currículums para mi proyecto de visualización de datos. ¿Qué base de datos debo usar para almacenar y procesar los datos y por qué?

Aquí está la cosa, 16M se reanuda simplemente no es tanta información. Todo cabe en un servidor grande. Por lo tanto, realmente no necesita las funciones de escalado de MongoDB. Y si no necesita la escala de MongoDB, las bases de datos SQL son herramientas mucho mejores en general.

Dicho esto, si planea ejecutar análisis como Búsqueda de texto completo, probablemente desee ver ElasticSearch que facilitaría ver cosas como “cuántas personas están usando la palabra Excepcional en su currículum” . Tenga en cuenta que PostgreSql también tiene algunas funciones básicas de búsqueda de texto completo, por lo que también puede aprovechar eso.

Tenga en cuenta que si también planea almacenar archivos PDF / Doc, probablemente desee evitar colocarlos en la base de datos. Guárdelos como archivos en el sistema de archivos y haga referencia a ellos de esa manera. Es un poco de trabajo extra, pero es mucho más fácil en el tamaño de la base de datos.

Si realiza una visualización gráfica, debe usar DynamoDB y Titan.