Si deseo agregar masivamente una gran cantidad de datos a una base de datos pública en línea gratuita como Freebase, ¿qué base de datos debo elegir?

Esta pregunta es interesante porque es un ejemplo de dónde chocan la tecnología y la política. Lamentablemente, estas consideraciones (escala, licencia, formato, comercio, legado, acceso) no reciben la atención suficiente, aunque creo que son los temas que preocuparán a la mayoría de las personas. Los geeks tienden a encontrar grandes soluciones para las batallas técnicas y asumen que alguien más se encargará del mayor desafío de crear algo que una amplia sección de la sociedad utilizará. Una buena base para el diseño de productos en esta categoría podría ser “si puede usar Facebook, puede usar mi explorador de datos“.

Tengo algunas preguntas de seguimiento (que constituyen una respuesta porque cada situación es diferente):

  • ¿quién eres tú? ¿Eres importante para las personas que quieren tus datos? ¿Serás curador además de editor?
  • ¿Qué datos estás intentando subir? ¿Es oportuno, preciso, completo? ¿Lo hiciste o estás publicando en nombre de una organización? ¿planea cambiar los datos después de la carga inicial?
  • ¿Por qué estás cargando los datos? ¿es tuyo para subir? ¿Estás buscando obtener ganancias? ¿Los datos están disponibles actualmente en otro lugar?
  • ¿Cuáles son sus definiciones de “práctico”, “probable”, “futuro”, “acceso”, “volumen”, “tipo”, “capaz de hacer frente” y “aplicación”?

La respuesta más simple que funcionará en la mayoría de los casos hoy es “probablemente no importa”. El espacio cambia a diario, con nuevos jugadores, mejoras de infraestructura y lo más importante, más personas prestando atención. En los primeros días, siempre sugiero que la gente actúe primero y se disculpe después.

Ahora, resulta que mi propia compañía BuzzData (compañía) está trabajando actualmente en una solución a muchos de estos problemas. Considere suscribirse a la lista de correo en http://buzzdata.com para que pueda estar al frente de la línea para recibir invitaciones beta esta primavera. Si tiene alguna sugerencia o elementos de la lista de deseos para un centro de colaboración de datos que se lanzará próximamente, infórmenos.

¡Preguntas bastante interesantes hechas aquí! Recientemente escribí una descripción general de las capacidades de varias herramientas de Google: Freebase, Fusion Tables, Docs, Public Data Explorer, Base.

http://www.sendung.de/2011-02-26

Como sugerencia, es posible que desee consultar las tablas de Google Fusion. Tiene una API de escritura bastante fácil de usar, utilizando un subconjunto de SQL. Y confío en Google lo suficiente como para que al menos nos permitan volcar nuestros datos antes de que nos quiten las tablas de fusión.

Editar 2011-11-08: Acabo de descubrir http://www.datacouch.com/ , que es el resultado de un proyecto de Code for America. Está específicamente diseñado para publicar datos abiertos. Está construido como GitHub para datos, lo que significa que las bases de datos se pueden bifurcar (copiar) para que otras personas las editen y se vuelvan a unir si se desea. El backend es Apache CouchDB y el acceso de la API CouchDB a los datos en DataCouch está abierto. DataCouch todavía está en una etapa temprana, pero vale la pena considerarlo. El código fuente también está abierto.

Hora de una actualización.

BuzzData y Data Couch se han ido. Google está cerrando Freebase. La presentación de Suhas se ha ido. Wikidata es nuevo en la escena. Los participantes de data mart como Azure Data Market no han tenido mucho éxito.

No parece un problema difícil, pero como Pete Forde describe en su respuesta, se encuentra en la intersección de la tecnología, las licencias, la ley de propiedad intelectual, etc., que siempre es un lugar difícil de operar.

Si es algo de valor comercial para usted, probablemente esté atrapado con el autohospedaje. Si es algo que estás dispuesto a regalar, puedes mirar Wikidata (o incluso Github para descargas masivas actualizadas en colaboración que no son demasiado grandes).