arrow_back

Dataprep: Qwik Start

Partecipa Accedi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1 ora universal_currency_alt 1 credito show_chart Introduttivi
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Questo lab è stato sviluppato in collaborazione con il nostro partner Trifacta. Le tue informazioni personali potrebbero essere condivise con Trifacta, lo sponsor del lab, se hai acconsentito a ricevere aggiornamenti, annunci e offerte di prodotti nel profilo del tuo account.

GSP105

Laboratori autogestiti Google Cloud

Panoramica

Cloud Dataprep di Trifacta è un servizio dati intelligente che consente di esplorare in modo visivo, ripulire e preparare i dati per l'analisi. Cloud Dataprep è serverless e funziona su qualsiasi scala. Non è necessario eseguire il deployment o gestire alcuna infrastruttura, e i dati possono essere preparati in pochi clic e senza nessun codice.

In questo lab userai Dataprep per manipolare un set di dati. Importerai set di dati, correggerai le corrispondenze errate, trasformerai i dati e li unirai. Se non hai mai eseguito queste operazioni, le imparerai durante questo lab.

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Pulsante Apri console Google
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google. Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Note: se visualizzi la finestra di dialogo Scegli un account, fai clic su Utilizza un altro account.
  3. Se necessario, copia il Nome utente dal riquadro Dettagli lab e incollalo nella finestra di dialogo di accesso. Fai clic su Avanti.

  4. Copia la Password dal riquadro Dettagli lab e incollala nella finestra di dialogo di benvenuto. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali presenti nel riquadro di sinistra. Non utilizzare le tue credenziali Google Cloud Skills Boost. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  5. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: puoi visualizzare il menu con un elenco di prodotti e servizi Google Cloud facendo clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Attività 1: crea un bucket di Cloud Storage nel tuo progetto

  1. Nella console Cloud, seleziona menu di navigazione(Icona menu di navigazione) > Cloud Storage > Bucket.

  2. Fai clic su Crea bucket.

  3. Nella finestra di dialogo Crea un bucket, assegna al bucket un nome univoco. Lascia le altre impostazioni al loro valore predefinito.

Nota: scopri di più sulla denominazione dei bucket nelle Linee guida per la denominazione dei bucket.
  1. Deseleziona Applica la prevenzione dell'accesso pubblico in questo bucket per Scegli come controllare l'accesso agli oggetti.

  2. Fai clic su Crea.

Hai creato il bucket. Tieni a mente il nome per i passaggi successivi.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un bucket Cloud Storage, visualizzerai un punteggio di valutazione.

Crea un bucket Cloud Storage

Attività 2: inizializza Cloud Dataprep

  1. Seleziona Menu di navigazione > Dataprep.
  2. Seleziona la casella di controllo per accettare i Termini di servizio di Google Dataprep, poi fai clic su Accetta.
  3. Seleziona la casella di controllo per autorizzare la condivisione dei dati del tuo account con Trifacta, poi fai clic su Accetta e continua.
  4. Fai clic su Consenti per autorizzare Trifacta ad accedere ai dati del progetto.
  5. Fai clic sul tuo nome utente studente per accedere a Cloud Dataprep tramite Trifacta. Il tuo nome utente è il Nome utente nel riquadro di sinistra del lab.
  6. Fai clic su Consenti per autorizzare Cloud Dataprep ad accedere all'account del lab Google Cloud.
  7. Seleziona la casella di controllo per accettare i Termini di servizio di Trifacta e fai clic su Accetta.
  8. Fai clic su Continua nella schermata Prima configurazione per creare la posizione di archiviazione predefinita.

Dataprep si apre.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai inizializzato correttamente Cloud Dataprep con la posizione di archiviazione predefinita, visualizzerai un punteggio di valutazione.

Inizializza Cloud Dataprep

Attività 3: crea un flusso

Cloud Dataprep usa un'area di lavoro flow per accedere ai set di dati e manipolarli.

  1. Fai clic sull'icona Flows, quindi sul pulsante Create, quindi seleziona Blank Flow:

Icona Flows, pulsante Create, opzione Blank Flow

  1. Fai clic su Untitled Flow, quindi assegna un nome e una descrizione al flusso. Poiché questo lab usa i dati della Commissione elettorale federale degli Stati Uniti del 2016, assegna al flusso il nome "FEC-2016" e la descrizione "Commissione elettorale federale degli Stati Uniti del 2016".
  2. Fai clic su Ok.

Si apre la pagina del flusso FEC-2016.

Attività 4: importa i set di dati

In questa sezione importerai e aggiungerai dati al flusso FEC-2016.

  1. Fai clic su Add Datasets, quindi seleziona il link Import Datasets.

  2. Nel riquadro del menu a sinistra, seleziona Cloud Storage per importare i set di dati da Cloud Storage, poi fai clic sull'icona della matita per modificare il percorso del file.

Pagina Cloud Storage

  1. Digita gs://spls/gsp105 nella casella di testo Scegli un file o una cartella, poi fai clic su Go.

Per visualizzare i pulsanti Go e Cancel, potresti dover ingrandire la finestra del browser.

  1. Fai clic su us-fec/.

  2. Fai clic sull'icona + accanto a cn-2016.txt per creare un set di dati mostrato nel riquadro a destra. Fai clic sul titolo nel set di dati nel riquadro di destra e rinominalo "Candidate Master 2016".

  3. Allo stesso modo, aggiungi il set di dati itcont-2016-orig.txt e assegna "Campaign Contributions 2016" come nuovo nome.

  4. Quando entrambi i set di dati sono visualizzati nel riquadro a destra, fai clic su Import & Add to Flow.

Due set di dati elencati nel riquadro di destra

Vedrai entrambi i set di dati elencati come flusso.

Attività 5: prepara il file dei candidati

  1. Per impostazione predefinita, è selezionato il set di dati Candidate Master 2016. Nel riquadro a destra, fai clic su Edit Recipe.

Pagina del set di dati Candidate Master 2016

La pagina di Transformer Candidate Master 2016 si apre in visualizzazione griglia.

Pagina di Transformer Candidate Master 2016 in visualizzazione griglia

Nella pagina del convertitore puoi creare la formula di trasformazione e visualizzare i risultati applicati al campione. Se li ritieni soddisfacenti, esegui il job utilizzando il set di dati.

  1. L'intestazione di ogni colonna contiene un nome e un valore che specificano il tipo di dati. Per visualizzare i tipi di dati, fai clic sull'icona della colonna:

column6

  1. Tieni inoltre presente che quando fai clic sul nome della colonna, sulla destra si apre il riquadro Details.

  2. Fai clic su X in alto a destra del riquadro Details per chiuderlo.

Nei passaggi successivi, esplorerai i dati nella visualizzazione griglia e applicherai i passaggi di trasformazione alla formula.

  1. column5 contiene i dati del periodo 1990-2064. Ingrandisci column5 (come faresti in un foglio di lavoro) per separare gli anni. Fai clic per selezionare la barra più alta, che rappresenta l'anno 2016.

column5

Viene creato un passaggio in cui questi valori sono selezionati.

  1. Nel riquadro Suggestions a destra, nella sezione Keep rows, fai clic su Add per aggiungere questo passaggio alla formula.

 Riquadro Suggestions

Il riquadro Recipe a destra ora contiene il seguente passaggio:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Passa il mouse su column6 (State) e fai clic sulla parte dell'intestazione con corrispondenza errata (in rosso) per selezionare le righe con corrispondenza errata.

column6

Scorri verso il basso, trova i valori (evidenziati in rosso) non corrispondenti e nota come la maggior parte di questi record hanno il valore "P" in column7 e "US" in column6. Questa errata corrispondenza si verifica perché column6 è contrassegnata come "State" (indicata dall'icona a forma di bandierina), ma sono presenti valori diversi dallo stato (ad esempio "US").

  1. Per correggere l'errata corrispondenza, fai clic su X nella parte superiore del riquadro Suggestions annullare la trasformazione, poi fai clic sull'icona a forma di bandierina in column6 e modificane il valore in "String".

column6

Non ci sono più corrispondenze errate e ora l'indicatore della colonna è di colore verde.

  1. Applica un filtro unicamente per i candidati alla presidenza, vale a dire quelli che mostrano il valore "P" in column7. Nell'istogramma di column7, passa il mouse sopra le due barre per vedere a cosa corrispondono "H" e "P". Fai clic sulla barra "P".

column7

  1. Nel riquadro Suggestions a destra, fai clic su Add per accettare il passaggio nella formula.

Riquadro Keep rows

Attività 6: utilizza Wrangle sul file Contributions e uniscilo al file Candidates

Nella pagina Join, puoi aggiungere l'attuale set di dati a un altro set di dati o a un'altra formula in base alle informazioni comuni a entrambi i set di dati.

Prima di unire il file Contributions al file Candidates, esegui la pulizia del file Contributions.

  1. Fai clic su FEC-2016 (il selettore del set di dati) nella parte superiore della pagina della visualizzazione griglia.

FEC-2016 nella parte superiore della pagina della visualizzazione griglia

  1. Fai clic per selezionare Campaign Contributions 2016, che appare disattivato.

  2. Nel riquadro a destra, fai clic su Add > Recipe, poi fai clic su Edit Recipe.

  3. Fai clic sull'icona della formula in alto a destra nella pagina, poi fai clic su Add New Step.

Icona della formula e pulsante Add New Step

Rimuovi i delimitatori extra nel set di dati.

  1. Inserisci il seguente comando in linguaggio Wrangle nella casella di ricerca:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

Il builder di trasformazione analizza il comando Wrangle e compila i campi di trasformazione Find e Replace.

Builder di trasformazione

  1. Fai clic su Add per aggiungere la trasformazione alla formula.

  2. Aggiungi un altro nuovo passaggio alla formula. Fai clic su New Step, poi digita "Join" nella casella di ricerca.

Casella Search transformations

  1. Fai clic su Join datasets per aprire la pagina Join.

  2. Fai clic su "Candidate Master 2016" per unirlo a Campaign Contributions 2016, poi su Accept in basso a destra.

Riga Candidate Master 2016

  1. Sul lato destro, passa con il mouse sulla sezione Join keys, quindi fai clic sulla matita (icona Modifica).

Riquadro Join conditions

Dataprep deduce le chiavi comuni. Dataprep suggerisce molti valori comuni come chiavi di unione.

  1. Nel riquadro Add Key, nella sezione Suggested join keys, fai clic su column2 = column11.

Riquadro Add Key

  1. Fai clic su Save and Continue.

Le colonne 2 e 11 si aprono per il controllo.

  1. Fai clic su Next, poi seleziona la casella di controllo a sinistra dell'etichetta "Columns" per aggiungere tutte le colonne di entrambi i set di dati al set di dati unito.

Elenco delle etichette di colonna

  1. Fai clic su Review, poi su Add to Recipe per tornare alla visualizzazione griglia.

Attività 7: riepilogo dei dati

Genera un utile riepilogo aggregando i contributi nella colonna 16, calcolandone la media e conteggiandoli, oltre che raggruppando i candidati per ID, nome e affiliazione politica, rispettivamente nelle colonne 2, 24 e 8.

  1. Nella parte superiore del pannello Recipe a destra, fai clic su New Step e inserisci la seguente formula nella casella di ricerca Transformation per visualizzare in anteprima i dati aggregati.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Viene visualizzato un campione iniziale dei dati uniti e aggregati, che rappresenta una tabella di riepilogo dei candidati alle elezioni presidenziali degli Stati Uniti e le metriche dei loro contributi nella campagna del 2016.

Pagina Campaign contributions

  1. Fai clic su Add per aprire una tabella di riepilogo dei principali candidati alle elezioni presidenziali degli Stati Uniti e le metriche dei loro contributi nella campagna del 2016.

Attività 8: assegna un nuovo nome alle colonne

Puoi semplificare l'interpretazione dei dati assegnando un nuovo nome alle colonne.

  1. Aggiungi singolarmente ciascun passaggio di assegnazione del nuovo nome e arrotondamento alla formula facendo clic su New Step, poi inserisci:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Quindi, fai clic su Add.

  2. Aggiungi quest'ultimo New Step per arrotondare la quantità media di contributi:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Quindi, fai clic su Add.

I risultati dovrebbero avere un aspetto simile a questo:

Tabella dei risultati con le colonne Candidate_Id, Candidate_Name, Part_Affiliation e Total_Contribution_Sum

Complimenti!

Hai usato Dataprep per aggiungere un set di dati e hai creato formule per eseguire il data wrangling nei risultati pertinenti.

Prossimi passi/Scopri di più

Questo lab fa parte di una serie chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 15 settembre 2023

Ultimo test del lab: 15 settembre 2023

Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.