Selezione

Table of Contents

Tecnologie progettazione basi di dati - This article is part of a series.

Part 1: Come e fatto un database?

Part 2: Dbms e disco

Part 3: Indici

Part 4: Indici b-tree

Part 5: Indici b+tree

Part 6: La specifica GiST

Part 7: Indici hash

Part 8: Transazioni

Part 9: Garantire la persistenza nei dbms

Part 10: Operatori relazionali

Part 11: Ordinare i dati: sort

Part 12: This Article

Part 13: Proiezione

Part 14: Join

Part 15: Group_by

Part 16: Operatori di modifica

Part 17: Ottimizzazione delle interrogazioni

Part 18: Ricerca del piano di accesso

Part 19: Progetto fisico e tuning del DB

Part 20: Indici multidimensionali

Part 21: R-tree

Part 22: Top-k queries

Part 23: Top-k join queries

Part 24: Introdurre il concetto di rank nei dbms

Part 25: Oltre le top-k: skyline queries

Part 26: Big data architectures

Data una query di selezione come la seguente

SELECT *
FROM Recensioni R
WHERE R.rivista='Sapore DiVino'

L’obbiettivo e quello di determinare qual’e la strategia di accesso migliore, questo può dipendere da diversi fattori

Stimare il numero di risultati
#

L’efficienza di due strategie di selezione e fortemente dipendente dal numero di record del risultato, non e possibile ovviamente saperlo a priori ma si può ottenere una stima come $E = f\times N$ dove:

$E$ record in output stimati
$N$ numero di record in input
$f$ e il fattore di selettività della query, una query e molto selettiva se $f$ piccolo

ℹ️ Note

se i valori dell’attributo di selezione sono uniformemente distribuiti allora $f = E/N$

Anche in questo caso il costo dipende dalla presenza o meno di indici

se non ci sono indici si deve leggere tutto il file dati (costo $P$)
indice clustered (costo $h-1 + f*L + f*P$)
indice un-clustered (costo $h-1 + f*L + E *\Phi(N/NK,P)$) (si fa uso del Modello di cardenas)

Selezione alternativa con indice un-clustered
#

In caso di indice un-clustered si può decidere di ordinare i RID prima di accedere al file dati per ottimizzarne l’accesso

Selezioni con condizioni multi-attributo
#

In caso di condizioni multi-attributo l’utilizzo di indici non e sempre possibile, in particolare:

gli indici hash possono essere utilizzati solo se sono presenti termini di uguaglianza per ogni attributo chiave dell’indice
i b+tree possono essere utilizzati solo se i termini presenti compongono un prefisso delle chiavi dell’albero (si fa riferimento a indici multi attributo)

Selezioni senza disgiunzione
#

In caso di condizioni senza disgiunzione (condizioni in AND) si applicano i metodi di accesso per i predicati risolubili e poi si valutano i predicati residui

È possibile usare più indici e poi fare l’intersezione dei risultati

Selezione con disgiunzioni
#

In caso di predicati in disgiunzione (condizioni in OR) se anche solo una condizione non e risolubile si deve scandire il file, altrimenti si utilizzano gli indici e si fa l’unione del risultato

Db2, tipologie di predicato
#

Per poter valutare un interrogazione, DB2 distingue fra 4 diverse tipologie di predicati di ricerca

Tipo	Descrizione
Range delimiting	predicati che delimitano il range di foglie a cui accedere
Index SARGable	non delimitano il range di foglie ma escludono elementi durante la ricerca nell’indice
data SARGable	predicati che possono essere applicati nel momento di accesso ai dati
Residual	Predicati residui, risolti in memoria centrale