arrow_back

Engenharia de dados para modelagem preditiva com o BigQuery ML: laboratório com desafio

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engenharia de dados para modelagem preditiva com o BigQuery ML: laboratório com desafio

Lab 1 hora universal_currency_alt 5 créditos show_chart Intermediário
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Laboratórios autoguiados do Google Cloud

Informações gerais

Nos laboratórios com desafio, apresentamos uma situação e um conjunto de tarefas. Para concluí-las, em vez de seguir instruções passo a passo, você usará o que aprendeu nos laboratórios da Quest. Um sistema automático de pontuação (mostrado nesta página) avaliará seu desempenho.

Nos laboratórios com desafio, não ensinamos novos conceitos do Google Cloud. O objetivo dessas tarefas é aprimorar aquilo que você já aprendeu, como a alteração de valores padrão ou a leitura e pesquisa de mensagens para corrigir seus próprios erros.

Para alcançar a pontuação de 100%, você precisa concluir todas as tarefas no tempo definido.

Este laboratório é recomendado para estudantes que se inscreveram no selo de habilidade Engineer Data for Predictive Modeling with BigQuery ML. Tudo pronto para começar o desafio?

Configuração

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Cenário do desafio

A TaxiCab Inc contratou você para o cargo de engenheiro de dados. Sua tarefa é importar dados históricos para um conjunto de dados funcional do BigQuery e criar um modelo básico, que usa as informações disponíveis para prever o preço da corrida assim que ela começar. Os diretores da empresa querem criar um aplicativo que mostra aos usuários o preço estimado da corrida. Os dados de origem serão incluídos no projeto.

Seu conhecimento deve ser suficiente para realizar essas tarefas sem guias passo a passo.

Seu desafio

Assim que abrir o novo laptop na sua mesa, você receberá uma solicitação da diretoria da empresa para criar um modelo básico de previsão do valor da corrida no BQML. Realize as tarefas a seguir para importar e limpar os dados, depois crie o modelo e faça previsões em lote com os dados novos. Assim, os diretores podem avaliar o desempenho do modelo e decidir se a funcionalidade será implantada ou não no aplicativo.

Tarefa 1: limpe os dados de treinamento

Você já criou o conjunto de dados taxirides e importou os dados históricos para a tabela historical_taxi_rides_raw. Os dados incluem as informações de corridas de 2015.

Observação: aguarde de um a três minutos para que os dados sejam carregados no projeto.

Para concluir esta tarefa, faça o seguinte:

  • Limpe os dados em historical_taxi_rides_raw e copie para no mesmo conjunto de dados. É possível usar o BigQuery, o DataPrep ou o DataFlow para criar a tabela e limpar os dados. O nome da coluna de destino deve ser .

Algumas dicas úteis:

  • Primeiro, abra o conjunto de dados de origem na IU do BQ para conhecer o esquema de origem.
  • Para saber mais sobre os dados disponíveis no momento da previsão, consulte a tabela taxirides.report_prediction_data, que mostra o formato em que eles serão estruturados.

Tarefas de limpeza de dados:

  • Confira se trip_distance é maior que .
  • Remova as linhas em que fare_amount tem um valor muito baixo (por exemplo, menor que US$ ).
  • Verifique se as latitudes e longitudes são relevantes para o caso de uso.
  • Veja se passenger_count é maior que .
  • Adicione tolls_amount e fare_amount a como a variável de destino, já que "total_amount" inclui gorjetas.
  • Como o conjunto de dados de origem é grande (mais de 1 bilhão de linhas), crie uma amostra com menos de 1 milhão de linhas.
  • Copie apenas os campos que serão usados no modelo (report_prediction_data pode servir como guia).

Clique em Verificar meu progresso para conferir o objetivo. Faça uma cópia limpa dos dados em

Tarefa 2: crie um modelo do BigQuery ML

  1. Com base nos dados em , crie um modelo do BigQuery ML que faça previsões de .

  2. Chame este modelo de .

Observação: para concluir a tarefa, seu modelo precisa ter um REQM menor ou igual a 10.

Algumas dicas úteis:

  • É possível encapsular as transformações de dados adicionais em uma cláusula TRANSFORM().
  • É importante lembrar que apenas os recursos na cláusula TRANSFORM() serão transmitidos para o modelo. Você pode usar * EXCEPT(feature_to_leave_out) para transmitir recursos sem chamá-los explicitamente.
  • As funções SIG ST_distance() e ST_GeogPoint() no BigQuery podem ser usadas para calcular com facilidade a distância euclidiana (ou seja, o deslocamento do táxi entre os pontos de partida e chegada da corrida):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

Clique em Verificar meu progresso para conferir o objetivo. Crie um modelo do BigQuery ML com um REQM menor ou igual a 10

Tarefa 3: faça uma previsão em lote com os dados novos

Os diretores estão curiosos para saber os resultados do seu modelo com os dados novos (neste caso, todos os dados coletados em 2015). Esses dados estão em taxirides.report_prediction_data. Apenas os valores conhecidos no momento da previsão são incluídos na tabela.

  • Use ML.PREDICT e seu modelo para prever . Depois, armazene os resultados em uma tabela chamada 2015_fare_amount_predictions.

Clique em Verificar meu progresso para conferir o objetivo. Faça previsões em lote e armazene os resultados em uma nova tabela chamada 2015_fare_amount_predictions

Parabéns!

Selo "Engineer Data for Predictive Modeling with BigQuery ML"

Conquiste seu próximo selo de habilidade

Este laboratório autoguiado faz parte do selo de habilidade Engineer Data for Predictive Modeling with BigQuery ML. Ao concluir o curso, você ganha o selo acima como reconhecimento pela sua conquista. Ele pode ser adicionado ao seu currículo e compartilhado nas plataformas sociais. Use #GoogleCloudBadge para anunciar sua conquista.

Este selo de habilidade faz parte do programa de aprendizado Data Engineer do Google Cloud. Se você já concluiu os outros selos deste programa, consulte o catálogo para ver mais opções para se inscrever.

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 25 de março de 2024

Laboratório testado em 11 de setembro de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.