Estoy haciendo un proyecto de feria de ciencias sobre aprendizaje automático que implica analizar oraciones. ¿Dónde puedo encontrar datos de entrenamiento?

Gracias por el A2A. He trabajado en minería de texto antes y supongo que lo que está tratando de implementar cae en el análisis de sentimientos. He enumerado algunas opciones a continuación.

  • gran conjunto de datos de ngrams de google storage.googleapis.com/books/ngrams/books/datasetsv2.html
  • http://www.sananalytics.com/lab/…
  • http://inclass.kaggle.com/c/si65…
  • http://nlp.stanford.edu/sentiment/treebank.html
  • o puede consultar este repositorio global de conjuntos de datos ML: https://archive.ics.uci.edu/ml
  • Análisis de los sentimientos
  • Conjunto de datos de revisión de usuarios para análisis de opiniones, minería de opiniones y resumen
  • Conjunto de datos de sentimiento multidominio

En caso de que no pueda acceder al conjunto de datos de Stanford, deberá completar un formulario para solicitar datos con fines académicos. En la mayoría de los casos, aprueban conjuntos de datos para estudiantes actuales.

Malo y agradable se llama ‘análisis de sentimientos’, y hay una gran cantidad de fuentes de datos.

Gramaticalmente correcto es mucho más difícil. Una forma de hacerlo es utilizar el corpus del Proyecto Gutenberg, otra posibilidad es wikipedia (puede descargar una instantánea de todo el corpus de wikipedia, o simplemente raspar una muestra mucho más pequeña). Probablemente desee centrarse en un subconjunto de errores gramaticales (algo fácil sería elegir las 100 palabras más intercambiadas allí / sus / ellas, fueron / estamos, es / es, etc.), entonces puede suponer que las oraciones en el corpus son correctas, y crean oraciones falsas tomando una oración real y sustituyendo la palabra incorrecta.

¿Buen conjunto de datos para el análisis de sentimientos?

http://www.cs.upc.edu/~nlp/wikic

2. Acceso a Corporación de texto y recursos léxicos

Esto debería cubrir la mayoría de sus necesidades de datos. Conjuntos de datos | Kaggle

More Interesting

Mi madre actúa muy inmadura y se dispara en tangentes cada vez que peleamos. ¿Como lo detengo?

Estoy planeando andar en bicicleta 10 km en cada sentido para mi viaje diario. El viaje es principalmente tramos de carriles para bicicletas con probablemente algunas paradas de tráfico en el medio. ¿Cuánto tiempo tardaría en recorrer 10 km suponiendo que estoy moderadamente en forma?

Estoy trabajando en un problema de aprendizaje automático para una competencia. Tengo el presentimiento de que solo hay un pequeño subconjunto relevante en los datos de entrenamiento que debería estar usando. ¿Cómo verifico esta corazonada y cómo identifico el subconjunto relevante para usar en la capacitación?

Nací viendo películas indias y me arrepiento cuando tenía poco más de 20 años. ¿Qué puedo hacer para cambiarme?

Estoy comparando dos informes con 406 discrepancias de 1,449 entradas. He analizado 20 discrepancias individuales y cada vez he encontrado una causa en particular. ¿Cuál es la probabilidad de que esta causa sea la única culpable?

¿Mi tarjeta gráfica está muerta o mi ranura PCI-E no funciona?

Quiero hacer MME en NIFFT. ¿Es mejor que las NIT?

Entré en posesión de un dragón en los Estados Unidos modernos. ¿Cómo evito que sea confiscado en nombre de la seguridad nacional?

Si aprendo jujitsu brasileño, ¿me lastimaré los oídos y los dientes?

Estoy tratando de aprender a hablar español, chino mandarín y japonés. No conozco a nadie en mi área que hable esto. ¿Hay un sitio para tutores?