Whitepaper

Preparazione dei dati per l'interazione in Ask Data usando il linguaggio naturale

Ask Data, la funzionalità di elaborazione del linguaggio naturale di Tableau, è compatibile con tutte le origini dati pubblicate su Tableau Server o Tableau Cloud. Per sfruttare al meglio i vantaggi di Ask Data, le origini dati devono essere selezionate accuratamente affinché la conversazione analitica dia risultati ottimali.

Per facilitare la distribuzione di Ask Data a livello aziendale, abbiamo redatto questa guida sulla selezione delle origini dati per garantire un'esperienza utente soddisfacente.

Capire cosa vogliono dire le persone

Ask Data sfrutta il contesto per determinare gli attributi dei tipi di dati pertinenti, suddividendo l'input utente in token, ovvero in frasi che contengono espressioni temporali, spaziali o numeriche, per comprenderne le intenzioni. Quindi si avvale delle best practice visive per definire la visualizzazione più indicata per la richiesta dell'utente.

Supponiamo di voler porre delle domande su un'origine dati pubblicata relativa alle vendite dell'ultimo anno. Possiamo digitare una domanda sui profitti nel tempo, "what is the profit over time?", nella casella di input di Ask Data. In questo caso, Ask Data risolve la richiesta aggregando "Profit" come somma (aggregazione predefinita). L'aspetto temporale, invece, viene risolto con l'attributo "Order Date" (Data ordine) nell'origine dati, aggregato per anno (Figura 1).

Figure 1  Visualization output from the expression “what is the profit over time?”

Figura 1: output della visualizzazione a partire dalla domanda "what is the profit over time?"

L'algoritmo di inferenza di Ask Data è più efficace quando tutti gli attributi sono del tipo di dati previsto. In questo esempio, "Date" rappresenta il tipo di dati previsto, che genera una visualizzazione di serie temporale (trend nel tempo). Le misure devono essere specificate con l'aggregazione predefinita e la formattazione numerica previste.

Con Ask Data è possibile fare domande in inglese sui campi calcolati, i campi di colonna, i campi di gruppo e i campi contenitore nelle origini dati pubblicate. Attualmente Ask Data non supporta i set, i parametri, i campi combinati, i set combinati né le gerarchie. Il supporto di questi tipi di campi sarà incluso nelle prossime release di Tableau.


Espressioni di analisi supportate in Ask Data

Esistono cinque espressioni di analisi di base. Una frase può comprendere una o più di queste espressioni.

Ask Data supporta le seguenti funzioni di analisi:

Espressioni di aggregazione: i valori di più righe vengono raggruppati insieme per formare un unico valore in base a una funzione matematica. Ad esempio, "Sum of Sales" (somma delle vendite), "Average Profit" (profitti medi) o "Count of Customers" (numero di clienti).

Espressioni di gruppo: i dati vengono suddivisi in categorie, ad esempio "by Region" (per area geografica) o "by Sales" (per vendite), mostrate nella visualizzazione.

Espressioni di ordinamento: queste permettono di disporre le righe di dati secondo un ordine, che può essere crescente, decrescente o alfabetico. Ad esempio, "sort Products in ascending order by sum of Profit" (ordinare i prodotti in modo crescente in base alla somma dei profitti) o "sort Customer Name in alphabetical order" (ordinare i nomi dei clienti in modo alfabetico).

Espressioni di filtro: restituiscono un set secondario del dominio del campo. Possono essere filtri numerici, tipo "sum of Sales at least $2,000" (somma delle vendite con importi di almeno $2.000), o filtri categorici, come "Customer Name starts with John" (nomi dei clienti che iniziano con John) o "Category contains Manufacturing" (categoria che include la fabbricazione).

Espressioni di limite: analogamente ai filtri, restituiscono un set secondario del dominio del campo, restringendolo a un set secondario di righe. Ad esempio, "top 5 Wineries by sum of Sales" (le prime 5 cantine per somma delle vendite) o "bottom Category by average Profit" (la categoria inferiore per profitti medi).

Scopri di più sulle funzioni di analisi supportate.

In Ask Data sono presenti alcuni sinonimi frequenti di questi concetti, come "from largest" (dal più grande) per l'ordine decrescente e "mean" (valore medio) per la media, nonché delle abbreviazioni, come "cnt" per il conteggio, "avg" per la media, e così via. Scopri subito come fare per aggiungere sinonimi in Ask Data.

In più, Ask Data permette di rappresentare le espressioni temporali, ovvero quelle riguardanti il tempo, sia relative che assolute. Ask Data supporta i concetti di tempo assoluto con espressioni del tipo "starts in" (inizia tra), "ends in" (termina tra) e "between" (tra), nonché quelli di tempo relativo con espressioni del tipo "last 3 years" (ultimi tre anni), "next quarter" (prossimo trimestre), "this month" (questo mese), "today" (oggi) e "yesterday" (ieri).

Preparare le origini dati per una conversazione analitica ottimale

Ask Data è stato progettato per essere compatibile con tutte le origini dati pubblicate su Tableau Server o Tableau Online. Per offrire utili impostazioni predefinite per le espressioni di filtro, il modello semantico è stato arricchito con metadati sui campi. Questi metadati includono informazioni numeriche sui valori nelle misure, come "minimum" (minimo), "maximum" (massimo) e "average" (media).

Inoltre contengono i valori di stringa più ricorrenti. Quando un utente digita un'espressione di filtro in Ask Data, i metadati indicano al sistema di fornire le impostazioni predefinite per i valori. Ad esempio, nella figura sottostante, "$4" è indicato come valore minimo nei metadati per l'attributo "Price" e il filtro "at least".

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

Figura 2: "$4" è indicato come valore minimo nei metadati per l'attributo "Price" e il filtro "at least".

Le origini dati con autorizzazioni a livello di riga non hanno requisiti minimi di prestazioni e si possono usare in Ask Data. Tuttavia, Ask Data non crea un profilo o un indice di tali origini dati né archivia i metadati dei campi nel modello semantico. Senza metadati, Ask Data non è in grado di fornire le impostazioni predefinite di filtro (come illustrato nella Figura 2), riconoscere i concetti di valuta come "cheap" (economico) o "expensive" (costoso) o mostrare i dati del profilo nelle descrizioni comando del riquadro dei dati.

Se la tua azienda dispone già di origini dati certificate pubblicate, i team possono sfruttarle in Ask Data. Se invece si vogliono creare altre origini dati per gli utenti finali o rimodellare quelle esistenti per un'analisi più facile in Ask Data, occorre scegliere con cura i dati tenendo conto dei seguenti fattori, per ottenere il massimo da Ask Data.



Scegliere i dati pensando all'utente finale

Gli utenti di Ask Data possono ottenere risultati migliori quando i dati sono stati attentamente selezionati da esperti o analisti che sanno, da un lato, come preparare i dati per l'analisi e, dall'altro, prevedere i tipi di domande che verranno poste usando il linguaggio naturale.

Leggi di più sulle best practice per selezionare un'origine dati pubblicata.

Quando si selezionano i dati per Ask Data, per prima cosa è necessario semplificare quanto più possibile le origini dati pubblicate. In altre parole, bisogna mantenere un set minimo di campi per le query degli utenti che interagiscono con Ask Data e rimuovere (o nascondere) i campi non necessari dall'origine dati. Ask Data supporta origini di dati con un massimo di 1.000 campi, ma è meglio ridurre le ambiguità a beneficio delle prestazioni generali del sistema, così da velocizzare i tempi di inizializzazione e l'analisi delle espressioni in linguaggio naturale. Se l'origine dati è lenta, utilizzare un estratto con i filtri, se necessari, per migliorare le prestazioni.

Quando si selezionano le origini dati per eseguire le query in Ask Data, considerare i seguenti fattori:

Preparare i dati. Prevedere i tipi di domande per cui gli utenti cercano delle risposte nell'origine dati. È possibile che si debbano modellare i dati o eseguire operazioni di unione e funzioni di preparazione correlate affinché i dati assumano la forma adeguata per poter rispondere alle domande previste.

Configurare i valori predefiniti di campo appropriati. Assegnare a ogni campo il tipo di dati (es. stringa, numero, punto geografico, data, data/ora, booleano) e il ruolo (es. discreto vs. continuo, misura vs. dimensione) in modo corretto. Per ogni misura, assegnare le funzioni di aggregazione predefinite. Ad esempio, SUM (somma) può essere un valore predefinito corretto per "Sales" (vendite), mentre AVERAGE (media) potrebbe essere quello più adeguato per "Test Score" (punteggio di test).

Impostare i formati numerici per la valuta e la percentuale. Per consentire l'uso di espressioni più colloquiali nelle domande che vengono poste sui dati, Ask Data include concetti come "low" (basso), "high" (alto), "lowest" (il più basso), "highest" (il più alto), nonché altri basati sulla valuta come "cheap" (economico) e "expensive" (costoso), insieme ai sinonimi corrispondenti. Per poter rispondere a frasi del tipo "show me the cheapest wineries in France" (mostrami le cantine più economiche in Francia), impostare le misure nelle origini dati con il formato di valuta appropriato (come illustrato nelle figure 3 e 4).

Figure 3   Set up measures in the data source with the appropriate currency format.

Figura 3: impostazione delle misure nell'origine dati con il formato di valuta appropriato.

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

Figura 4: per la richiesta "cheapest wineries in France" (cantine più economiche in Francia), il sistema deduce un attributo di valuta "Price" per il concetto di "cheapest". Ask Data deduce un intervallo numerico dai metadati per "Price". Facendo clic su "cheapest", i valori numerici inferiti vengono affinati.

Impostare le gerarchie logiche. In questo modo gli utenti possono esplorare i dati in generale o in dettaglio nelle visualizzazioni create con Ask Data. Ciò vale per le dimensioni geografiche (es. City, State, Country), le indicazioni di data/ora (es. year, quarter, month) e le dimensioni dipendenti dal punto di vista funzionale (es. Category e Sub-category).

Creare campi in contenitore descrittivi, con dimensioni appropriate, per le variabili quantitative nei seguenti scenari:

  • Visualizzazione della versione nel contenitore di un campo che non è una misura nell'origine dati.
    Ad esempio, "Age" (Età) è una dimensione numerica che non può essere rappresentata sotto forma di istogramma in Tableau, né tanto meno in Ask Data. Però si può creare un campo nel contenitore per "Age" nell'origine dati e poi usarlo per rispondere alle domande (come illustrato nella Figura 5).
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

Figura 5: è possibile digitare "by Age (bin)" per visualizzare una versione della dimensione nel contenitore sotto forma di grafico a barre.

  • Deduzione di risposte sotto forma di istogramma in Ask Data con le impostazioni personalizzate del contenitore.
    La creazione di campi nel contenitore delle misure con dimensioni personalizzate offre un maggior controllo sulla loro visualizzazione in Ask Data. Nell'esempio sottostante (Figure 7), è possibile digitare "Fare as a histogram" (tariffa sotto forma di istogramma) e Ask Data userà le impostazioni personalizzate del contenitore dal relativo campo "Fare (bin)" per generare un istogramma.
Figure 6

Figura 6: nel riquadro dei dati, fare clic con il pulsante destro del mouse (o usare la combinazione CTRL+clic in Mac) e selezionare Create (Crea) > Bins (Contenitori).

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

Figura 7: output della visualizzazione dell'espressione "Fare as a histogram" con dimensioni personalizzate del contenitore.

Assegnare ai campi nomi univoci e descrittivi

Per rendere l'origine dati più comprensibile per gli utenti finali, e aumentare le possibilità di ottenere le risposte desiderate da Ask Data, è necessario verificare i nomi dei campi nell'origine dati.

Attenersi alla seguente procedura per offrire un'esperienza utente ideale:

Creare alias descrittivi per i valori dei campi. In Tableau Desktop si possono usare gli alias per creare nomi di campo intuitivi (es. "CustID" sta per "Customer ID", ovvero ID cliente). È un consiglio standard quando si tratta di data curation. Con Ask Data si può fare ancora di più con l'aggiunta di sinonimi. Ad esempio, si può usare anche "Customer Number" per riferirsi a "Customer ID" internamente. La possibilità di aggiungere sinonimi in Ask Data facilita la comprensione delle domande degli utenti.

Differenziare gli attributi. Assegnare nomi univoci agli attributi nell'origine dati per una migliore fruizione di Ask Data da parte degli utenti. Se l'espressione è ambigua, Ask Data trova le stringhe parzialmente corrispondenti allo schema dei dati, con la differenza di un solo carattere. Ask Data mostra quindi le varie corrispondenze come opzioni. Nell'esempio seguente (Figura 8), l'origine dati presenta più attributi che contengono la parola "Sales". Ma digitando "sales" vengono trovati soltanto tre attributi corrispondenti, perché la parola inserita "sales" e l'attributo "Sales Foo" si differenziano per più di un carattere.

Figure 8

Figura 8

Si consiglia inoltre di assegnare agli attributi nomi chiari per il dominio dell'origine dati dal punto di vista semantico, in modo che le domande poste in Ask Data siano intuitive per l'attività analitica. Ad esempio, "Number of Records" (numero di registrazioni) viene rinominato "Number of Earthquakes" (numero di terremoti), dove ciascun record corrisponde a un terremoto nell'origine dati (Figura 9).

Figure 9

Figura 9

Controllare i nomi dei campi. Ask Data filtra i valori in base ai campi nell'origine dati. Non assegnare ai campi gli stessi nomi dei valori, altrimenti Ask Data può interpretarli in modo errato come valori (es. numeri, date o valori booleani come "true" o "false"). Inoltre, ai fini delle prestazioni, Ask Data non indicizza i campi che si sovrappongono alle espressioni di analisi supportate. Ad esempio, non usare nomi di campo del tipo "Average" (media), "Sales in 2015" (vendite nel 2015) o "Most Products Sold" (prodotti più venduti).

Geocodificare i campi geografici. Per i campi di tipo geografico, verificare che i valori dati siano geocodificati correttamente. In tal caso, i campi vengono riconosciuti come attributi geografici in Ask Data, accompagnati da un'icona specifica nel riquadro dei dati (Figura 10). Questi attributi supportano frasi come "where are the highest fire fatalities?" (dov'è il numero maggiore di vittime per incendio?), con il sistema che riconosce il token "where" per indicare una mappa e deduce un attributo geografico valido come "County" (regione).

Figura 10

Aggiungere i campi calcolati pertinenti

Ask Data non è in grado di creare calcoli immediati, pertanto è necessario aggiungere prima i calcoli previsti all'origine dati. Ad esempio, creando un campo calcolato "Total Compensation" (Retribuzione totale), che permette di aggiungere lo stipendio minimo di base da "Base (Variable)" con le provvigioni totali da "Commission (Variable)", è possibile digitare domande del tipo "what is the total compensation for each sales person?" (qual è la retribuzione totale per ogni rappresentante?) (Figure 11 e 12).

Figura 11: per creare un campo calcolato, selezionare Analysis (Analisi) > Create Calculated Field (Crea campo calcolato). Per modificare un campo calcolato, fare clic con il pulsante destro del mouse sul campo calcolato nel riquadro dei dati e selezionare Edit (Modifica).

Figure 12

Figura 12: creando un campo calcolato "Total Compensation" (Retribuzione totale), che permette di aggiungere lo stipendio minimo di base da "Base (Variable)" con le provvigioni totali da "Commission (Variable)", è possibile digitare domande del tipo "what is the total compensation for each sales person?" (qual è la retribuzione totale per ogni rappresentante?).

Arricchire i dati con sinonimi

È possibile definire sinonimi per i campi all'interno di un'origine dati tramite il riquadro dei campi di Ask Data. Ad esempio, supponiamo di avere un'origine dati relativa agli acquisti di auto e un campo "New Vehicle Model" (Nuovo modello veicolo). Aggiungendo "vehicle purchased" (veicolo acquistato) e "car" (auto) come sinonimi per il campo "New Vehicle Model", è possibile elaborare frasi in linguaggio naturale come "vehicles purchased by city" (veicoli acquistati per città) (Figura 13).

Figura 13: per aggiungere sinonimi relativi a campi di dati specifici, passare il puntatore del mouse sul campo dell'origine dati, fare clic sulla freccia verso il basso e scegliere Edit synonyms (Modifica sinonimi). Inserire i sinonimi per il nome del campo separati da virgole.

Rendere possibile l'accesso e la governance dei dati

Ask Data prevede le stesse misure di sicurezza e governance di Tableau Server o Tableau Online. A seguire vengono fornite maggiori informazioni sull'uso delle origini dati certificate con Ask Data e sul controllo dell'accesso ad Ask Data nell'azienda.


Impostare ruoli e permessi

Una volta selezionati i dati per Ask Data, è possibile controllare chi ha accesso alla funzionalità. Per utilizzare Ask Data, gli utenti devono disporre dei ruoli Creator o Explorer e dell'accesso di web authoring a Tableau Server o Tableau Online. Gli amministratori di Tableau Server possono specificare i permessi a livello di sito per determinare chi ha accesso alle funzionalità di web authoring (come illustrato nella Figura 14). Sia per gli analisti che per i business user Ask Data si rivela uno strumento valido per esplorare in modo facile e veloce un'origine dati e trovare subito degli spunti fruibili.

Scopri di più sui permessi di web authoring.

Figura 14: specificare i permessi a livello di sito per determinare chi ha accesso alle funzionalità di web authoring, compreso Ask Data.

Controllare le origini dati certificate

Gli utenti possono certificare un'origine dati su Tableau Server o Tableau Online per indicare che è attendibile e accurata. Questa certificazione non è specifica della funzionalità, infatti non esiste una certificazione apposita per Ask Data. Ma se si desidera disabilitare in particolare Ask Data per un'origine dati, è possibile farlo nelle relative impostazioni dall'interfaccia utente di Tableau Server (come illustrato nelle figure 15 e 16).

Figura 15

Figura 16: se necessario, è possibile disabilitare Ask Data per determinate origini dati nella relativa sezione dei dettagli su Tableau Server o Tableau Online.

Ask Data permette a chiunque nell'azienda di porre domande sui dati. Seguendo le linee guida di data curation fornite, è possibile preparare i dati e garantire un'esperienza perfetta nell'uso del linguaggio naturale.