menu
arrow_back

Aprendizaje automático con Spark en Google Cloud Dataproc

Aprendizaje automático con Spark en Google Cloud Dataproc

1 hora 30 minutos 7 créditos

GSP271

Labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, aprenderá cómo implementar la regresión logística mediante una biblioteca de aprendizaje automático en Apache Spark que se ejecuta en un clúster de Google Cloud Dataproc para desarrollar un modelo de datos a partir de un conjunto de datos multivariable.

Google Cloud Dataproc es un servicio en la nube rápido, fácil de usar y completamente administrado que se utiliza para ejecutar clústeres de Apache Spark y Apache Hadoop de manera simple y rentable. Cloud Dataproc se integra fácilmente en otros servicios de Google Cloud Platform (GCP), lo que le proporciona una plataforma eficaz y completa para el procesamiento de datos, las estadísticas y el aprendizaje automático.

Apache Spark es un motor de estadísticas para procesamiento de datos a gran escala. La regresión logística está disponible como un módulo en MLlib, la biblioteca de aprendizaje automático de Apache Spark. Spark MLlib, también llamada Spark ML, incluye implementaciones para la mayoría de los algoritmos estándar de aprendizaje automático como agrupamientos en clústeres k-means, bosques aleatorios, mínimos cuadrados alternos, árboles de decisión, máquinas de vectores de soporte, entre otros. Spark se puede ejecutar en un clúster Hadoop, como Google Cloud Dataproc, con el objetivo de procesar conjuntos de datos muy grandes en paralelo.

El conjunto de datos base que se usa brinda información histórica sobre los vuelos internos en Estados Unidos. Esa información se recuperó del sitio web de la Oficina de Estadísticas de Transporte de EE.UU. Este conjunto de datos se puede usar para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos, y se utiliza en todos los demás labs de las Quests Data Science on the Google Cloud Platform y Data Science on Google Cloud Platform: Machine Learning. En este lab, los datos se proporcionan como un conjunto de archivos de texto con formato CSV.

Objetivos

  • Preparar la shell interactiva de Spark en un clúster de Google Cloud Dataproc

  • Crear un conjunto de datos de entrenamiento para aprendizaje automático con Spark

  • Desarrollar un modelo de aprendizaje automático de regresión logística con Spark

  • Evaluar el comportamiento predictivo de un modelo de aprendizaje automático con Spark en Google Cloud Datalab

Únase a Qwiklabs para leer este lab completo… y mucho más.

  • Obtenga acceso temporal a Google Cloud Console.
  • Más de 200 labs para principiantes y niveles avanzados.
  • El contenido se presenta de a poco para que pueda aprender a su propio ritmo.
Únase para comenzar este lab
Puntuación

—/5

Check that the Spark ML model files have been saved to Cloud Storage

Ejecutar paso

/ 5