Defect and Fault Tolerance in
VLSI
Dr. Marco Ottavi
Finalità
Introduzione e descrizione delle problematiche relative alla resa
di produzione, collaudo e affidabilità dei componenti e circuiti
elettronici.
• Resa di produzione e collaudo
o Guasti e resa di produzione
o Generazione automatica dei vettori di collaudo
o Tecniche di progettazione orientate al collaudo
• Metodologie di progetto per garantire affidabilità
durante la vita utile
o Misure della affidabilità di un sistema
o Tecniche di progettazione fault tolerant
o Codici a correzione d'errore
Difetti di produzione e di funzionamento
•Si può distinguere tra difetti di produzione e difetti di funzionamento:
–Difetto di produzione: è presente al momento della produzione e causa
conseguenza immediate sul compente che possono causare dei guasti,
esempio:
• difetti spot
• difetti sistematici
• etc
–Difetto di funzionamento: sono difetti che si attivano dopo un periodo di
funzionamento tramite i cosiddetti failure mechanisms. Esempi:
• Rottura dell’ossido di gate
• Contatti e riempimenti delle vie incompleti
• Elettromigrazione
• etc
•I difetti di produzione sono l’obiettivo del collaudo mentre i difetti di
funzionamento sono l’obiettivo dell’affidabilità
Definizioni di Lambda
Come effetto dei difetti di produzione:
In fase di produzione λ è il numero medio di guasti sul chip e
viene calcolato in base al risulato dei collaudi e a modelli
matematici sulle dimensioni dei difetti e del layout
Come effetto dei difetti di funzionamento:
λ o failure rate è la frequenza con cui un sistema o un
componente si guastano ed è espresso in guasti per unità di
tempo (per esempio guasti in un’ora). Viene calcolato in base a
dati empirici e modelli sul deterioramento dei componenti
Relazione tra guasti ed affidabilità
La presenza di guasti su un componente in fase di produzione
e lo svilupparsi di guasti su un componente durante la sua vita
utile sono eventi correlati.
I meccanismi che causano l’insorgere dei guasti possono
essere analoghi, ma con un tempo di attivazione diverso
Andamento dei guasti n funzione del
tempo, la curva ha un tipico andamento
ad U.
Tre fasi:
1. Mortalità infantile (il failure rate
decresce)
2. Vita utile (il failure rate è costante)
3. Invecchiamento (Il failure rate
cresce)
Il numero di componenti guasti al
momento della produzione può
essere visto come l’effetto del
failure rate a tempo zero
Resa di produzione e collaudo
La produzione dei componenti elettronici è inevitabilmente
affetta dalla presenza di difetti. I difetti possono causare guasti
funzionali (functional faults) che riducono la resa del processo
di produzione.
Il collaudo (test) è finalizzato a verificare se la presenza di
difetti altera le funzionalità attese dal componente.
In un lotto di produzione il rapporto tra il numero di componenti
non guasti e il numero totale di componenti prodotti
rappresenta la resa del processo produttivo (manufacturing
yield).
Flusso realizzativo di un progetto VLSI
Customer’s need
Determine requirements
Write specifications
Design synthesis and Verification
Test development
Fabrication
Manufacturing test
Chips to customer
Definizioni
• Sintesi di progetto (Design synthesis): Data una
funzione di I/O, sviluppare una procedura per produrre
un componente usando materiali e processi produttivi
noti
• Verifica (Verification): Analisi predittiva che assicura
che quando il progetto sarà sintetizzato si comporterà
seguendo la data funzione di I/O
• Collaudo (Test): Un passo del processo di produzione
che assicura che il componente fisico generato dal
progetto sintetizzato non abbia guasti
Differenze tra Verifica e Collaudo
• Verifica la correttezza del
progetto.
• Fatta tramite simulazione,
emulatori hardware o metodi
formali.
• Fatta una volta sola prima della
produzione.
• Responsabile per la qualità del
progetto.
• Verifica la correttezza dell’hardware
prodotto.
• Il processo si articola in due parti:
– 1. Generazione dei vettori di test:
processo software che viene eseguito
solo una volta per ogni iterazione del
progetto
– 2. Applicazione dei test: i test elettrici
sono effettivamante applicati
all’hardware
• Ogni componente prodotto passa tramite il
passo della applicazione dei test
• Responsabile per la qualità dei componenti
Layout di un componente VLSI
• Il processo di produzione a
strati:
– Substrato di silicio su cui
vengono realizzati i transistor
– Livelli di metallizazione
successivi per il routing dei
segnali e delle alimentazioni.
– Connessioni verticali si
chiamano via
Difetti di produzione
Durante il processo produttivo i componenti possono essere
interessati da:
Difetti spot
• Impurità
o missing material che può causare circuiti aperti
o extra material che può causare corto circuiti
Difetti sistematici
• Process variation: che causa variazioni nelle specifiche dei
transistor
• Difetti sulle maschere
Difetti di produzione
Gli effetti dei difetti sistematici sono per lo più presenti nelle fasi
iniziali di un nuovo processo produttivo, per esempio al
passaggio a un nuovo nodo tecnologico come lo scaling da 65
nm a 45 nm.
Parte di questi difetti come per esempio errori sulle maschere
vengono individuati e rimossi col maturare del processo
produttivo.
I difetti spot continuano ad interessare il processo produttivo
durante tutta la sua vita e sono una causa dominante di guasti
in un processo maturo.
Esempio di Difetti Spot
I difetti spot possono essere modellizzati come la presenza di
impurità di diametro variabile che possono essere conduttive o
meno. Esempi:
Esempio di Difetti Spot
• Esempi di difetti spot da
microscopio elettronico
riportati sullo standard
militare Americano MILSTD-883G che regola le
procedure per il test dei
dispositivi microelettronici
destinati ad uso militare
Area critica
• Per diventare un guasto un difetto deve essere in una
posizione e dimensione tale da causare
un'interruzione o un corto tra due piste.
• Per calcolare la densità di guasti corrispondente ad
una certa densità di difetti viene usata la definizione
di area critica.
• Area critica: Per un determinato tipo di difetto, si
definisce area critica Ac(x) l'area nella quale
un difetto di diametro x deve cadere per causare un
guasto. Se si considera una distribuzione uniforme
dei centri dei difetti la percentuale di difetti che
causano un guasto per difetti di diametro x è:
• f(x) = Ac(x)/Atot
• dove Atot è l'area toale del chip
Area critica
Esempio di area critica per difetti di tipo extra material:
Area critica
http://www.design-reuse.com/articles/10850/improving-yield-in-rtl-to-gdsii-flows.html
• Per ottenere la
probabilità di guasto
l'area critica deve essere
mediata con la funzione
di distribuzione di
probabilità delle
dimensioni dei difetti.
• La funzione di
distribuzione d(x) è
calcolata empiricamente
ed ha un andamento
approssimativamente
triangolare
Densità di difetti
La probabilità di difetti a raggio nullo è uguale a 0, raggiunge un
massimo e poi ha un andamento decrescente al crescere del
raggio. Se d è la densità media totale dei difetti di tutte le
dimensioni:
d ( x) d s( x)
Come si vede nella
figura comparato
all’area critica di
destinazione solo le
yield failures
causano guasti,
tuttavia guasti più
piccoli possono
causare problemi di
affidabilità
W. Kuo, W. Chien, T. Kim, Reliability, Yield and Stress Burn-in 1998
Lambda
Facendo la media sui diametri dei difetti con l'area critica si
ottiene il numero di guasti causati da difetti la cui area è
comparabile all’aea critica.
0
0
Ac ( x)d ( x)dx Atot f ( x) d s( x)dx Ac d
dove
è il numero medio di guasti sul chip.
Resa Produttiva Definizione
La resa produttiva (manufacturing Yield) rappresenta la percentuale di
chip funzionanti sul totale del lotto di produzione.
Y
N good
N tot
(100%)
La resa è una funzione del numero medio di guasti per chip lambda.
Il die (letteralmente dado) è il componente prima di essere incluso nel
suo packaging
Il chip è il componente nel packaging quando viene venduto
Fabbricazione del silicio
• Il Quarzo o Silice, è fatto di ossido di silicio
• La sabbia contiene molti piccoli granelli di quarzo
• Il silicio può essere prodotto artificialmente da Silice
e Carbonio in una fornace elettrica: SiO2 + C → Si +
CO2
• Questo processo dà un silicio policristallino (fatto di
molti cristalli)
• I circuiti integrati di uso pratico richiedono materiale
monocristallino
Crescita del silicio monocristallino
• Processo Czochralski è
una tecnica per creare
silicio monocristallino
• Un seme di cristallo
solido viene fatto girare
e lentamente estratto da
una vasca di Silicio fuso
• Richiede un controllo
molto accurato per
ottenere cristalli di una
voluta purezza e
dimensione
www.uta.edu/ronc/4345sp02/lectures/L09a_4345_Sp02.ppt
Cilindro monocristallino
• Il cilindro di silicio viene
chiamato lingotto
• Un lingotto tipico è lungo circa
1 o 2 metri
• Può essere affettato in centinaia
di fette circolari chiamate
Wafer
• Ogni Wafer fornisce fino a
migliaia di circuiti integrati
Produzione del Wafer
• Il cristallo di silicio è affettato in wafer sottili usando una sega con punte
di diamante
• I wafer vengono ordinati per spessore
• I wafer danneggiati vengono rimossi durante la fase di lappatura
– La lappatura (lapping) rimuove il silicio di superficie che si è spaccato
o altrimenti danneggiato durante la fase di affettamento tramite abrasivi
• Dopo la lappatura viene fatto Etching sui Wafer con prodotti chimici per
rimuovere ogni rimanente danno sul reticolo cristallino
• La fase finale di Polish è un processo chimico/meccanico che livella le
superfici lasciate ineguali dai passi precedenti
Wafer
Il wafer è un disco di
silicio su cui
vengono ricavati
tramite litografia
molte copie dei
singoli chip o die
Wafer
Dimensioni dei wafer in commercio
•
•
•
•
•
•
•
•
1 inch.
2 inch (50.8 mm)
3 inch (76.2 mm)
4 inch (100 mm)
5 inch (127 mm) or 125 mm (4.9 inch)
150 mm (5.9 inch, usually referred to as "6 inch").
200 mm (7.9 inch, usually referred to as "8 inch")
300 mm (11.8 inch, usually referred to as "12 inch" or "Pizza
size" wafer).
• 450 mm ("18 inch"). (atteso)
Litografia
http://dot.che.gatech.edu/henderson/Introductions/microlithography%20intro.htm
Wafer
• I guasti sono
distribuiti sul
Wafer
• Il numero di guasti
riduce la resa
• Esempio:
– 26 dies
– 8 guasti
– Yield = 18/26 =
69%
Probabilità di guasto - Poisson
La funzione di densità di probabilità del numero di k guasti per chip è
tipicamente rappresentata da una distribuzione di Poisson:
e - k
P{X k}
k!
nel caso semplice in cui non ci sia ridondanza nel chip la resa
corrisponde alla probabilità che non ci siano guasti sul chip.
-
e
-
Y P{X 0}
e
0!
0
Effetto di raggruppamento dei guasti
E' stato provato che la distribuzione di Poisson che si basa
sull'assunzione che la distribuzione dei guasti sul wafer sia uniforme è
in effetti troppo pessimistica poichè non tiene in conto dell'effetto di
raggruppamento (clustering) dei guasti notato in produzione
Probabilità di guasto - Negative binomial
La funzione che meglio approssima la resa in presenza di clustring è
quella derivata dalla distribuzione negative binomial ed ha la seguente
formula:
( k )
p( X k )
k!( ) 1
k
k
dove rappresenta l'effetto di clustering ed è tipicamente considerato
circa uguale a 2 nell'industria.
Se tende ad infinito la distribuzione diventa la Poisson.
Probabilità di guasto - Negative binomial
Come con la distribuzione di Poisson, nel caso
semplice in cui non ci sia ridondanza nel chip la resa
corrisponde alla probabilità che non ci siano guasti
sul chip.
Y P ( X 0) 1
Aspetti economici
Il costo per chip dipende dal costo per die e dai costi di test e costo
di packaging:
Cc Cd Ct C p
Ciascuna ci queste componenti deve essere ottimizzata.
Il Costo per die è funzione della resa produttiva
Dies per wafer e costo
il costo di un die è il rapporto tra il costo per Wafer e il prodotto della
resa del wafer e la resa produttiva
Cw
Cd
Nw Y
La resa del Wafer è il numero di die che si ottengono in un wafer ed è
data da una formula geometrica approssimata che considera il
rapporto tra l'area del wafer circolare e i die rettangolari
Dies per Wafer e costo
(d w / 2) 2 d w
Nw
Ad
2 Ad
•Dove:
•dw è il diametro del Wafer
•Ad è l’area di un die
•Il primo termine è semplicemente il rapporto tra le aree e il secondo
è un termine correttivo che tiene in considerazione gli effetti di bordo
Esempio
• Considerando un die di 0.30 cm2 per un microcontrollore
prodotto usando un Wafer di diametro 300 mm e un costo per un
Wafer di 5000 €
• Considerando una densità di difetti 0.2/cm2 ed α=2, quale è il costo
per die?
Soluzione
Approssimazione dell’area critica con l’area reale
A d
La formula per la resa diventa:
A d
Y 1
0,3 0,2
1
2
2
0,94
Il numero di die per wafer è:
(30 / 2) 2 30
Nw
2356,19 - 121,67 2234,52
0,3
2 0,3
Pertanto il costo per die è:
5000
Cd
2,38 €
2234,52 0,94
Costo per il test
• Il collaudo o test dei componenti elettronici prodotti viene compiuto
tramite l’uso di apparati generalmente molto costosi e ad alte
prestazioni chiamati Automated Test Equipment.
• Pertanto il costo del test di un componente è calcolabile in base al costo
per l’ammortamento (svalutazione) la manutenzione e il
funzionamento dell’ ATE durante la sua vita utile.
• Il Costo annuale viene ridotto a costo per secondo e moltiplicato per il
tempo necessario al test del singolo componente. Infine il costo viene
ripartito solo sui componenti vendibili ossia si divide il risultato per la
resa
C C C
y
a
y
m
y
f
1
Ct
tt
365 24 3600
Y
Costo per il test: Esempio
• Esempio dal libro:
• Un ATE allo stato dell’arte può applicare test a frequenza maggiori di
250 MHz.
• Il costo per l’acquisto di un tester è composto da una parte fissa e da una
parte variabile in base al numer di pin.
• Esempio: un tester a 500MHz costa $1,2M + (1024 pins * $3000/pin) =
$4,272M.
• Costo di funzionamemnto annuale: Svalutazione + Mantenimento +
costo di funzionamento= $0,85M + $0,085M + $0,5M = $1,439M/anno.
• Costo del test per funzionamento ininterrotto: $1,439M/(365 * 24 *
3600) = 4,5 cents/secondo.
• Tempo di test per un ASIC digitale= 6 secondi o 27 cents.
• Per una resa del 65%, la parte del prezzo di vendita dovuto al test è
27/0,65 = 41,5 cents.
Tipi di Testing
• Verification testing, characterization testing
– Verifica la correttezza del progetto e delle procedure
di collaudo – di solito richiede correzioni al progetto
• Manufacturing testing
– Collaudo di fabbrica di tutti i chip prodotti per guasti
parametrici e difetti casuali
• Acceptance testing (incoming inspection)
– Collaudo svolto dai clienti sui chip acquistati per
verificarne la qualità
Automatic Test Equipment (ATE)
• ATE: sistemi complessi e molto costosi ITRS 2003
test-cost predizione del costo per-pin:
– Short term $1K to $3K (up to 2009)
– Long term $2K to $4K (2010 to 2016);
• Si compone di
– Un computer
– Un DSP
– Un programma di test scritto in un linguaggio di alto
livello che gira sul computer
– Probe Head (con i contatti per i pin del chip)
– Probe Card o Membrane Probe (contiene elettronica di
misura dei segnali)
Il test in sintesi
Manufacturing Test
• Determina se i chip prodotti rispettano le specifiche
– Può fare il binning delle parti in base alle loro specifiche
•
•
•
•
•
Deve coprire alte percentuali di guasti
Deve minimizzare i tempi di test (e quindi i costi)
Non svolge alcuna diagnosi di guasto
Collauda ogni dispositivo sul chip
Il test deve avvenire alla velocità cui operano i
dispositivi
Burn-in or Stress Test
• Processo:
– Sottopone i chip a alte temperature e sovratensioni di
alimentazione, durante l’esecuzione di collaudi di
produzione
• Che cosa rileva:
– Casi di mortalità infantile – chip danneggiati che
tipicamente si rompono nei primi due giorni di applicazione
– questi guasti vengono provocati intenzionalmente prima
che i chip vengano mandati ai clienti
– Freak failures – dispositivi con gli stessi meccanismi di
guasto dei dispositivi affidabili ma che si guastano sotto
condizioni di stress per guasti non tipicamente modellabili
con difetti, ad esempio problemi col wire bonding
Incoming Inspection
(Test di accettazione)
• Può essere:
– Simile al test di produzione
– Più esaustiva del test di produzione
– Orientata ad applicazioni specifiche
• Spesso viene fatto su un campione casuale di
dispositivi
– Le dimensioni del campione dipendono dalla qualità dei
dispositivi e dalle specifiche di affidabilità dei sistemi
– Evita di inserire dispositivi difettosi in sistemi dove i costi
di diagnosi eccedono quelli della incoming inspection
ADVANTEST Model T6682 ATE
Tipi di test di produzione
• Wafer sort o probe test – viene fatto prima che il
wafer sia tagliato nei singoli die
– Include la caratterizzazione di alcuni dispositivi di test
che sono inseriti nel wafer per lo specifico scopo di essere
usati per misurare parametri di produzione come:
• Tensioni di soglia
• Resistenza del polisilicio
• etc.
• Packaged device tests
– Test dei componenti dopo il loro inserimento nel
packaging.
Tipi di test
• In generale ogni chip passa attraverso due fasi
di test
– Test Parametrico – misura le proprietà elettroniche
dei pin di I/O – ritardi, tensioni, correnti, etc. – veloce
ed economico
– Funzionale /strutturale– usato per coprire una
percentuale molto alta di guasti modellati collauda
ciascun transistor e connessione nei circuiti digitali –
lungo e costoso, oggetto dell’ATPG
Analisi dei dati ottenuti dal test
• Utilizzio dei dati provenienti dagli ATE:
– Eliminazione dei DUTs malfunzionanti
– Informazioni sul progetto di fabbricazione
– Informazioni sulle debolezze di progetto
• I dispositivi che passano il collaudo sono
sicuramente corretti solo se i vettori di collaudo
coprono il 100% dei guasti
• Failure mode analysis (FMA)
– Diagnosi delle cause dei dispositivi malfunzionanti
– Permettono di migliorare il progetto logico & e le regole
di layout