arrow_back

Como analisar metadados do conjunto de dados entre projetos com o Data Catalog

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Como analisar metadados do conjunto de dados entre projetos com o Data Catalog

Lab 1 hora 30 minutos universal_currency_alt 1 crédito show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP789

Laboratórios autoguiados do Google Cloud

Informações gerais

O Data Catalog é um serviço de administração de metadados totalmente gerenciado e escalonável no Dataplex.

Sem as ferramentas certas, o gerenciamento de recursos de dados pode ser demorado e caro. O Data Catalog fornece um local centralizado onde as organizações podem localizar, selecionar e descrever os recursos de dados.

Como usar o Data Catalog

Existem duas maneiras principais de interagir com o Data Catalog:

  • Procurar os recursos de dados a que você tem acesso
  • Incluir tags em recursos com metadados

O que você vai aprender

Neste curso, você vai aprender a:

  • Analisar um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
  • Navegar manualmente em uma tabela do BigQuery na IU.
  • Executar consultas para entender melhor as colunas de dados sensíveis que serão marcadas com tag.
  • Usar o Data Catalog para procurar conjuntos de dados em projetos.
  • Usar os modelos de tag do Data Catalog para incluir tags em recursos com metadados avançados

Por que isso é útil?

  • Ver recursos de dados em vários projetos na organização
  • Criar modelos de tag reutilizáveis e adicionar descrições de dados completas para suas equipes
  • Destacar rapidamente os conjuntos de dados com PII (informações de identificação pessoal)
  • Controlar o acesso aos metadados, o que é herdado com base nos usuários conectados (sem necessidade de ACLs separadas do Data Catalog)

Pré-requisitos

Importante: antes de iniciar este laboratório, saia da sua conta pessoal ou corporativa do Gmail ou faça o laboratório usando a navegação anônima. Isso evita confusão no processo de login enquanto o laboratório está em execução.

Inicie o laboratório

  1. Clique em Começar o laboratório se ainda não tiver feito isso.

  2. Dica: leva de três a cinco minutos para o ambiente do laboratório gerar automaticamente dois projetos do Google Cloud, dois conjuntos de dados pré-preenchidos e duas contas de usuário. Não é necessário esperar a conclusão dos recursos do laboratório para continuar lendo. Você não fará login após ler o cenário a seguir.

  3. Clique em Abrir console de bicicletas no laboratório ou acesse o Console do Cloud em uma janela anônima do navegador. Não faça login com as contas fornecidas até agora. Continue lendo o cenário. Você receberá instruções depois sobre qual conta usar.

Observação importante: uma vez iniciado, o laboratório não pode ser pausado. Se ele for encerrado, os projetos em execução do estudante serão excluídos.

Cenário: CEO da NYC Transportation Company

Você é CEO de uma empresa de transportes na cidade de Nova York. As equipes de analistas consultam os conjuntos de dados que você coletou sobre o transporte por bicicleta e carro em Nova York.

Desafios:

  • Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
  • A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.
  • Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal).

Conjuntos de dados para sua organização

  • Viagens em NY por aluguel de bicicletas
  • Colisões de veículos motorizados em NY

Cada equipe de engenharia de dados mantém seu conjunto de dados em um projeto separado do Google Cloud. Assim fica mais fácil gerenciar o acesso e o faturamento. Embora isso seja melhor para elas, fica mais difícil para a equipe de analistas encontrar esses conjuntos de dados.

Nem todos os papéis de analista são iguais

Para complicar ainda mais, existem diferentes níveis de analistas de dados trabalhando para você na equipe de BI:

  • Analistas de dados: com privilégios mínimos
  • Proprietário: administrador total

Saiba o que está sendo criado automaticamente

Para simular melhor um ambiente corporativo real com vários projetos e conjuntos de dados para catalogar, sua equipe de engenharia permitiu que você acessasse recursos. Isso significa que o laboratório pré-carrega esses recursos para que você não precise criá-los.

Vários links de projetos e usuários.

Como mostrado acima, sua equipe forneceu logins a você para:

  • dois projetos;
  • duas contas de usuário.

Além disso, ela adicionou as seguintes observações sobre a restrição do acesso:

  • O proprietário deve ter acesso total aos projetos e conjuntos de dados.
  • Os analistas de dados não podem ter acesso de leitura ou consulta ao conjunto de dados sobre colisões de veículos motorizados em NY (dados sensíveis).

Parte 1: analise o ambiente de dados atual com o papel de proprietário

Lembre que a equipe de engenharia de dados disponibilizou três projetos, cada um com um conjunto de dados diferente sobre a cidade de Nova York. Verifique se o Papel de proprietário pode acessar e consultar todos os conjuntos de dados.

  1. Faça login usando o e-mail e a senha gerados automaticamente para o Proprietário (administrador total) como parte deste laboratório.

  2. Aceite os Termos e Condições para usar o Google Cloud (se solicitado).

Encontre o projeto sobre colisões em Nova York

  1. Clique no menu suspenso do nome do projeto na parte de cima da página e selecione um projeto.

Menu suspenso do projeto em destaque

  1. Consulte o nome do projeto gerado automaticamente pelo Qwiklabs para NYC Motor Vehicle Collisions Project e encontre o valor da string no pop-up "Selecione um projeto":

Link de realce do NYC Motor Vehicle Collisions Project.

Valor de string em destaque na lista "Sem organização".

Ativar a API Data Catalog

  1. Use Menu de navegação > Mais produtos e role para baixo até o Data Catalog aparecer.
  2. Passe o cursor sobre o nome e clique no ícone de fixação. Isso move o Data Catalog para a parte superior do menu de navegação.
  3. Clique em Data Catalog. Se um pop-up aparecer, clique em Fechar.
  4. Verifique se a API já está ativada. Se a mensagem que solicita a ativação da API não for exibida, ela já estará ativada e você não precisa fazer nada.

Depois de pesquisar e consultar manualmente os conjuntos de dados no BigQuery, volte a este laboratório para usar o Data Catalog.

Acessar e fixar o BigQuery

  1. No Menu de navegação, role para baixo até encontrar o BigQuery.
  2. Passe o cursor sobre o nome e clique no ícone de fixação.
  3. Clique em BigQuery e depois em Concluído.

Tarefa 1: verifique se o papel de proprietário pode acessar e consultar o conjunto de dados new_york_mv_collisions

Verifique se o papel de proprietário pode visualizar o conjunto de dados new_york_mv_collisions.

  1. Em Explorer no BigQuery, clique no nome do seu projeto para abrir os conjuntos de dados disponíveis que você tem acesso de visualização.

  2. Verifique se você pode ver o conjunto de dados new_york_mv_collisions.

  3. Clique no conjunto de dados new_york_mv_collisions para abrir as tabelas que ele contém.

  4. Clique na tabela nypd_mv_collisions e analise os campos disponíveis no esquema.

O esquema será semelhante a este:

Página com guias de esquema mostrando campos no esquema da tabela nypd_mv_collisions

Responda às perguntas a seguir.

Embora a tabela não contenha informações de identificação pessoal, como número de telefone ou endereço de e-mail, ainda é preciso ter cuidado ao compartilhar esse conjunto de dados com toda a equipe.

No restante do laboratório, você vai aprender maneiras de acessar conjuntos de dados restritos e usar o Data Catalog para incluir tags de maneira proativa em conjuntos de dados e tabelas com metadados avançados para sua organização.

Observação: o conjunto de dados de colisões da polícia de NY é carregado automaticamente no projeto com base no conjunto de dados público do BigQuery original, que é atualizado diariamente. Clique no link para saber mais sobre como o conjunto de dados foi coletado e ver exemplos de consulta.

Verifique se o papel de proprietário pode consultar o conjunto de dados sobre colisões

Uma vez que você fez login como um proprietário global, confirme se é possível ver e acessar os projetos e conjuntos de dados. Verifique se você pode executar a consulta a seguir.

  • Copie e cole a consulta a seguir no Editor de consultas do BigQuery e clique em Executar:

Quais são os 10 fatores mais comuns nas colisões de carro em NY?

SELECT contributing_factor_vehicle_1 AS collision_factor, COUNT(*) AS num_collisions FROM `new_york_mv_collisions.nypd_mv_collisions` WHERE contributing_factor_vehicle_1 != "Unspecified" AND contributing_factor_vehicle_1 != "" GROUP BY collision_factor ORDER BY num_collisions DESC LIMIT 10;

Clique em Verificar meu progresso para ver o objetivo. Consulte os dados sobre colisões em Nova York

Tarefa 2: verifique se o papel de proprietário pode visualizar e consultar o conjunto de dados de aluguel de bicicletas

  1. Clique em Selecionar um projeto na parte de cima da página.

  2. Selecione a guia Todos.

  3. Encontre o conjunto de dados de compartilhamento de bicicletas consultando o ID do projeto correto gerado automaticamente:

ID do projeto de aluguel de bicicletas de Nova York

Lista de projetos com um exemplo de projeto qwiklabs-gcp-project em destaque

  1. Clique no ID do projeto.
Observação: se solicitado, clique em "SAIR" no trabalho não salvo.
  1. Na IU do BigQuery, abra a tabela ID do projeto > new_york_citibike > citibike_trips.

Ao acessar o esquema, os detalhes e a prévia, responda às perguntas a seguir.

Quais são os trajetos mais usados pelo aluguel de bicicletas por gêneros?

O Conjunto de dados público sobre bicicletas na cidade de Nova York rastreia cada viagem (local de saída e de chegada), bem como outros campos dos usuários.

  • Adicione a consulta abaixo ao editor de consultas e clique em Executar para conferir os trajetos mais usados por gênero. O conjunto de dados fornece somente três valores: desconhecido, masculino e feminino, que podem não representar todos os valores de gênero dos ciclistas:
WITH unknown AS ( SELECT gender, CONCAT(start_station_name, " to ", end_station_name) AS route, COUNT(*) AS num_trips FROM `new_york_citibike.citibike_trips` WHERE gender = 'unknown' GROUP BY gender, start_station_name, end_station_name ORDER BY num_trips DESC LIMIT 5 ) , female AS ( SELECT gender, CONCAT(start_station_name, " to ", end_station_name) AS route, COUNT(*) AS num_trips FROM `new_york_citibike.citibike_trips` WHERE gender = 'female' GROUP BY gender, start_station_name, end_station_name ORDER BY num_trips DESC LIMIT 5 ) , male AS ( SELECT gender, CONCAT(start_station_name, " to ", end_station_name) AS route, COUNT(*) AS num_trips FROM `bigquery-public-data.new_york_citibike.citibike_trips` WHERE gender = 'male' GROUP BY gender, start_station_name, end_station_name ORDER BY num_trips DESC LIMIT 5 ) SELECT * FROM unknown UNION ALL SELECT * FROM female UNION ALL SELECT * FROM male;

Clique em Verificar meu progresso para conferir o objetivo. Consulte o trajeto de bicicleta mais usado por gênero

A seguir, você vai aprender a incluir tags em conjuntos de dados e tabelas com dados confidenciais.

Resumo da análise

  • Você analisou cada conjunto de dados sobre NY (colisões e viagens com aluguel de bicicletas).
  • Cada conjunto de dados fica armazenado em um projeto diferente.
  • O papel de proprietário (que você está usando agora) pode visualizar e consultar cada conjunto de dados.

Parte 2: analise o ambiente de dados com acesso de usuário restrito

Até o momento, você só usou a conta de proprietário fornecida pela equipe de engenharia de dados com as permissões de mais alto nível.

Você pediu para as equipes de engenharia limitarem o acesso aos usuários analistas de dados da seguinte maneira.

Os analistas de dados podem ver:

  • Aluguel de bicicletas em NY

Os analistas de dados NÃO podem ver:

  • Colisões de veículos motorizados em NY

Saia da conta de proprietário

  1. Clique no ícone de perfil.

  2. Saia da conta.

Tarefa 3: faça login com o usuário analista de dados e confirme o acesso restrito ao projeto

  1. Clique em Usar outra conta.

  2. Entre novamente no Google Cloud com o e-mail e a senha do Data Analyst User [usuário analista de dados].

  3. Em Selecionar um projeto, verifique se você pode ver somente um, e não dois projetos gerados automaticamente pelo Qwiklabs.

  4. Selecione o projeto do Qwiklabs que você pode acessar.

  5. Acesse o BigQuery.

Tarefa 4: tente consultar diretamente um conjunto de dados privado

No BigQuery, é possível consultar um projeto (se você tiver acesso) sem ele estar fixado ou disponível na seção "Explorer". Tente consultar o conjunto de dados sobre colisões em Nova York diretamente como um usuário analista de dados usando o ID do projeto.

  • Adicione abaixo a consulta anterior e substitua o prefixo do ID do projeto pelo ID no NYC Motor Vehicle Collisions Project:
SELECT contributing_factor_vehicle_1 AS collision_factor, COUNT(*) AS num_collisions FROM `qwiklabs-gcp-REPLACE-HERE.new_york_mv_collisions.nypd_mv_collisions` WHERE contributing_factor_vehicle_1 != "Unspecified" AND contributing_factor_vehicle_1 != "" GROUP BY collision_factor ORDER BY num_collisions DESC LIMIT 10;

A mensagem de erro de acesso negado verifica seu nível de acesso de analista de dados.

Você já conheceu os diferentes privilégios e acessos concedidos aos papéis de proprietário (o conjunto de privilégios mais amplo) e analista de dados (mais limitado) na hora de acessar projetos, conjuntos de dados e consultas.

A seguir, você vai tentar encontrar um conjunto de dados escondido usando o recurso de pesquisa do Data Catalog. Você acha que ele aparecerá para os analistas de dados se o BigQuery bloquear você?

Parte 3: use o Data Catalog para incluir tags em conjuntos de dados de projetos

Você já conhece os conjuntos de dados e os níveis de acesso concedidos a diferentes papéis. Agora, você vai solucionar os desafios definidos anteriormente no cenário:

Desafios:

  • Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
  • A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.

Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal). Solucione esses desafios e conclua a tarefa com o serviço do Data Catalog.

  1. Abra o menu de navegação e clique em Data Catalog.
Observação: se solicitado, clique em "SAIR" no trabalho não salvo. Observação: se uma tela pedir para você ativar a API, faça login novamente com o papel de proprietário e faça a ativação (uma etapa anterior deste laboratório).
  1. Na página inicial do Data Catalog, em Sistemas, filtre por BigQuery.
Observação: talvez você encontre linhas do projeto `qwiklabs-resources`. Elas podem ser ignoradas. O projeto conta com recursos compartilhados em todos os laboratórios.
  1. Insira qwiklabs-gcp na barra de pesquisa do Data Catalog para filtrar os recursos externos do Qwiklabs.

  2. Confira se sua visualização como analista de dados é parecida com esta:

Página inicial do Data Catalog

Qualquer que seja o projeto em que você fez login, o Data Catalog mostrará TODOS os conjuntos de dados do BigQuery que seu papel pode acessar.

Como analista de dados, não vai aparecer o new_york_mv_collisions no Data Catalog, mesmo que esse valor exista, porque já consultou esse conjunto como proprietário.

Por quê? A seguir, saiba como funciona o controle de acesso no nível do Data Catalog.

Como o Data Catalog exibe metadados

Antes de pesquisar, descobrir ou exibir recursos do Google Cloud, o Data Catalog verifica se o usuário recebeu uma função do IAM com as permissões de leitura de metadados exigidas pelo BigQuery, o Pub/Sub ou outro sistema de origem para acessar o recurso.

Exemplo: o Data Catalog verifica se o usuário recebeu um papel com a permissão bigquery.tables.get antes de exibir os metadados da tabela do BigQuery.

Tarefa 5: crie um modelo de tag do Data Catalog com base em um conjunto de dados do BigQuery

  1. Clique na entrada de nome new_york_citibike da tabela. Essa é uma subtarefa do conjunto de dados sobre aluguel de bicicletas que você tem permissão para visualizar.

Página do Dataplex com os detalhes do conjunto de dados do BigQuery exibido na página com guias "Detalhes"

Nas tabelas do BigQuery, o Data Catalog permite incluir tags:

  • no conjunto de dados;
  • na tabela;
  • em colunas individuais.
  1. Tente clicar no botão Anexar tag.

  2. Verifique se este erro aparece:

Mensagem de erro: você não tem permissão para anexar tags a esta entrada Permissão necessária: bigquery.datasets.updateTag

  1. Nessa caixa de diálogo, passe o cursor sobre Saiba mais para saber o motivo do recurso não estar disponível.

Parece que o papel de analista de dados pode procurar metadados no Data Catalog, mas não pode anexar novas tags.

A seguir, você vai descobrir como funcionam as permissões de inclusão de tags e os modelos de tag do Data Catalog.

Modelos, tags e permissões do Data Catalog

Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao recurso de dados, o que significa que podem ser encontradas no sistema do Data Catalog. Ao usar esse recurso, você também pode criar mais aplicativos que consomem metadados contextuais sobre um recurso de dados.

Qual é a aparência de um modelo de tag?

Exemplo de modelo de tag do Data Catalog

Quem pode criar um modelo de tag?

Para criar modelos de tag, o usuário precisa ter, no mínimo, acesso para editar o recurso em questão (o BigQuery, neste laboratório) E datacatalog.tagTemplateUser, se o modelo já tiver sido criado. Para saber mais, consulte o Guia de IAM do Data Catalog.

E se for preciso criar um modelo de tag novo? No mínimo, você precisaria ser datacatalog.tagTemplateCreator ou roles/datacatalog.tagTemplateOwner. O proprietário pode excluir modelos e outros privilégios de administrador.

Papéis do Cloud IAM mais comuns predefinidos para o Data Catalog:

  • roles/datacatalog.tagTemplateViewer
  • roles/datacatalog.tagTemplateUser
  • roles/datacatalog.tagTemplateCreator
  • roles/datacatalog.tagTemplateOwner
  • Consulte papéis do Data Catalog para acessar uma lista completa de papéis

Tarefa 6: crie um novo modelo do Data Catalog

  1. Faça login com o papel de proprietário que tem a permissão roles/datacatalog.tagTemplateOwner.

  2. Selecione o projeto de aluguel de bicicletas em Nova York que você usou antes.

Observação: se aparecer um erro de permissão, faça login novamente com as credenciais corretas. É provável que você tenha escolhido o proprietário errado.
  1. Navegue até o Data Catalog.

  2. Clique em Modelos de tag > Criar modelo de tag.

  3. Insira informações básicas no novo modelo e dê o nome Conjuntos de dados de Nova York.

Caixa de diálogo da criação de modelo

  1. Clique em Adicionar campo.

  2. Dê o nome Contém PII ao novo campo, marque Tornar este campo obrigatório, selecione o tipo Booleano e, por fim, clique em Concluído.

  3. Selecione Adicionar campo.

  4. Dê o nome de Tipo de PII ao campo, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:

  • Valor 1: nenhum
  • Valor 2: data de nascimento
  • Valor 3: gênero
  • Valor 4: localização geográfica
  1. Selecione Adicionar campo.

  2. Dê o nome Equipe do proprietário dos dados ao campo, marque Tornar este campo obrigatório, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:

  • Valor 1: marketing
  • Valor 2: ciência de dados
  • Valor 3: vendas
  • Valor 4: engenharia
  1. Clique em Criar.

Inclua tags no nível do conjunto de dados

  1. Clique em Pesquisar entradas que não usam este modelo.

  2. Clique no conjunto de dados new_york_mv_collisions.

  3. Observe que não há tags abaixo do nome do conjunto de dados. Depois disso, clique em Anexar tags.

  4. Escolha o modelo que você criou antes e clique em OK.

  5. Use o menu suspenso para preencher os valores dos campos do modelo com os dados a seguir. Depois disso, clique em Salvar:

  • Contém PII: verdadeiro
  • Tipo de PII: localização geográfica
  • Equipe do proprietário dos dados: engenharia
  1. Confira as tags no nível do conjunto de dados.

Insira tags no nível da tabela e da coluna

É possível incluir tags no nível da tabela e da coluna para detalhar ainda mais o processo.

  1. Volte aos recursos da pesquisa anterior e clique na tabela nypd_mv_collisions.

  2. Clique em Anexar tags e defina os campos a seguir como Tags de coluna e esquema:

  • Tabela: nypd_mv_collisions

  • Coluna: local

  • Modelo de tag: conjuntos de dados de Nova York

  • Valores de tag:

    • Contém PII: verdadeiro
    • Tipo de PII: localização geográfica
    • Equipe do proprietário dos dados: engenharia
  1. Clique em Salvar.

  2. Inclua a tag PII no campo para geolocalização e verifique se ela aparece quando você clica no nome do modelo.

Página com guias de tags com coluna e esquema para o modelo de tag do Data Catalog nypd_mv_collisions

Clique em Verificar meu progresso para conferir o objetivo. Como criar um modelo de tag do Data Catalog

Pesquise conjuntos de dados por tag e chave de tag

Agora, com as tag incluídas, é possível pesquisar seu catálogo usando as que você adicionou.

  1. Na barra de pesquisa, copie e cole tag:qwiklabs-YOUR-PROJECT-HERE.new_york_datasets.contains_pii e substitua o prefixo do ID do projeto pelo ID atual no Qwiklabs.

Página de pesquisa do Data Catalog

  1. Para outros exemplos de como pesquisar rapidamente no seu catálogo, consulte Pesquisar e visualizar recursos de dados com o Data Catalog.

Parabéns!

Você aprendeu sobre outras funções do Data Catalog. como:

  • Análise de um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
  • Execução de consultas para entender melhor as colunas de dados sensíveis em que você quer incluir tags depois.
  • Uso do Data Catalog para procurar os conjuntos de dados em um projeto
  • Uso dos modelos de tag do Data Catalog para incluir tags em recursos com metadados avançados

Terminar a Quest

Este laboratório autoguiado é parte das Quests BigQuery for Marketing Analysts e Data Catalog Fundamentals. Uma Quest é uma série de laboratórios relacionados que formam um programa de aprendizado. Ao concluir uma Quest, você ganha um selo como reconhecimento da sua conquista. É possível publicar os selos e incluir um link para eles no seu currículo on-line ou nas redes sociais. Inscreva-se em qualquer Quest que tenha este laboratório para receber os créditos de conclusão na mesma hora. Consulte o catálogo do Google Cloud Ensina para conferir todas as Quests disponíveis.

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 11 de julho de 2023

Laboratório testado em 11 de julho de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.