Tengo un archivo CSV (custid, data, weight, timetoload). Quiero leer el archivo CSV, filtrar las líneas donde el peso> 5 libras. ¿Cómo puedo lograr esto en Apache Spark usando Scala?

No necesitas Apache Spark. Solo necesita la base de datos de tipo Nosql dedicada para el formato csv llamada CSV Comp DB. La solución a su problema es simple usando CQL nativo. CQL (Comma Quer Language) se puede usar con cualquier lenguaje de programación. Os dejo ejemplos.

Usando CQL de forma nativa:

Así es como:

“Seleccione de CUSTID todos los valores cuyo PESO sea mayor que 5 y menor que 10”

{
Your_CSV_table;
@máximo minimo;
(PESO);
(5)
(10)
0;
(CUSTID)
consulta = 2;
destino = 0
}

Existe una tecnología llamada ILDE que es el CQL integrado en el lenguaje de programación de su preferencia. Ejemplo con ILDE-Lua:

función de transacción ()
local db = “c: \\ DB \\” –Db carpeta
local id_table = “Your_CSV_table” – Tabla
idwf local = “PESO” – Campo donde encontrar
vmin local = valor de 5 min
vmax local = 10 – valor límite superior
local query_index = 2 –field donde find.The Cusid es el índice “2”

find_min_max (db, id_table, idwf, vmin, vmax, query_index)
final
-cómo utilizar
transacción()
–El resultado estará en la tabla de resultados “Your_CSV_table.que”

Puede descargar CSV Comp DB en http: //adltecnologia.blogspot.co…