menu
arrow_back

Clasificación de Bayes con Cloud Datalab, Spark y Pig en Google Cloud Dataproc

Clasificación de Bayes con Cloud Datalab, Spark y Pig en Google Cloud Dataproc

Horas Minutos 7 Créditos

GSP270

Labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, aprenderá a implementar un clúster de Google Cloud Dataproc con Google Cloud Datalab preinstalado. Luego, utilizará Spark para realizar la cuantización de un conjunto de datos a fin de mejorar la exactitud del modelo de datos mediante los enfoques de una sola variable que se usaron en labs anteriores.

Los datos están almacenados en Google BigQuery, y el análisis se realizará con Google Cloud Datalab, que se ejecuta en Google Cloud Dataproc.

El conjunto de datos base que se usa brinda información histórica sobre vuelos domésticos en Estados Unidos y se obtuvo del sitio web de la Oficina de Estadísticas del Transporte de EE.UU. Este conjunto de datos se puede usar para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos y se utiliza en todos los demás labs de las Quests Data Science on the Google Cloud Platform y Data Science on Google Cloud Platform: Machine Learning.

Cloud Dataproc es un servicio en la nube completamente administrado, rápido y fácil de usar que se utiliza para ejecutar clústeres de Apache Spark y Apache Hadoop de manera simple y rentable.

Cloud Datalab es una herramienta interactiva potente creada para explorar, analizar, transformar y visualizar datos, y generar modelos de aprendizaje automático en Google Cloud Platform. Se ejecuta en Google Compute Engine y se conecta a varios servicios en la nube, como Google BigQuery, Cloud SQL o datos de texto sin formato almacenados en Google Cloud Storage. De este modo, puede enfocarse en sus tareas de ciencia de datos.

Google BigQuery es un servicio web RESTful que habilita el análisis interactivo de enormes conjuntos de datos y trabaja de manera conjunta con Google Storage.

Objetivos

  • Crear un clúster de Cloud Dataproc que se ejecute en Cloud Datalab

  • Crear un modelo de datos de entrenamiento con Spark en Cloud Datalab

  • Evaluar un modelo de datos con Cloud Datalab

  • Realizar análisis de datos masivos con Apache Pig

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Puntuación

—/100

Look for Cloud Dataproc cluster called ch6cluster

Ejecutar paso

/ 25

Check that a new Jupyter Notebook has been created and used to clone the git hub repository for the lab

Ejecutar paso

/ 25

Check that a copy of the quantization notebook has been created.

Ejecutar paso

/ 25

Query Cloud Dataproc for a successful Apache Pig job and confirm output data was saved to Cloud Storage

Ejecutar paso

/ 25