L’articolo, a cura di Franco Visintin, intende valutare teoricamente le perdite in risoluzione dei formati stereoscopici 3D HD rispetto alla risoluzione orizzontale e verticale presentate dagli standard 2D HD monoscopici, oggi in uso in Europa.

L’esigenza di assicurare il trasporto di segnali stereoscopici con le esistenti infrastrutture di produzione e distribuzione in 3D ha portato allo sviluppo dei cosiddetti “Dual image stereoscopic 3D imaging systems”.

Tali sistemi sono in grado di fornire due immagini (il cosiddetto stereo pair) che gli occhi destro e sinistro possono vedere, nella pratica, simultaneamente. In tal modo, gli osservatori sono in grado di percepire le profondità insite nell’immagine, come accade nella visione binoculare di oggetti reali.

Fra i vari sistemi proposti per trasportare le due immagini HD dello stereo pair è stato adottato il ‘3D frame compatible packing method’, che ospita in un singolo quadro HD le due immagini dette, secondo uno ‘spatial multiplexing’. Ciò però comporta il loro ‘downsizing’ cioè uno schiacciamento (image squeezing) orizzontale e/o verticale dell’immagine.
Nel processamento digitale del segnale video, l’image squeezing viene attuato mediante un processo di decimazione (*) preceduto da un opportuno filtraggio, finalizzato a ridurre possibili aliasing.

Sistemi simili a questi erano già stati presi in considerazione dalla cinematografia stereoscopica.
Infatti, sia durante la prima ‘Golden Era’ della cinematografia 3D negli anni ‘50 che nel secondo boom del 3D Hollywood-driven nel 1983, sono stati utilizzati diversi metodi riguardo alle pellicole stereoscopiche. Grazie a un separatore ottico (beamsplitter) la camera da 35mm o 16mm era in grado di indirizzare la luce da due diversi punti (quelli dei due occhi) a due porzioni differenti dello stesso fotogramma. A tale riguardo vennero impiegati i due seguenti formati:

– Side-by-Side, che acquisiva sul fotogramma le immagini sinistra e destra, una a fianco dell’altra, schiacciandole orizzontalmente;

– Over-Under, che le acquisiva una sull’altra, schiacciandole verticalmente.


Il 3D in televisione

Trasferendo l’esperienza cinematografica 3D al settore televisivo con l’attuale ‘frame compatible 3D TV’, sono state prese in considerazione alcune soluzioni similari:

– Side-by-Side (SbS): le immagini sinistra e destra vengono inserite nel quadro 720p o 1080i, l’una a fianco dell’altra. Per attuare ciò, si richiede un restringimento orizzontale del segnale video, con conseguente dimezzamento della definizione orizzontale dell’immagine;

– Top-and-Bottom (TaB): le immagini sinistra e destra vengono inserite nel quadro 720p o 1080i l’una sull’altra, richiedendo così un restringimento verticale, con conseguente dimezzamento della definizione verticale dell’immagine.

– 3D-Tile Format: le due immagini sinistra e destra con formato 720p vengono inserite in un singolo quadro 1080p: quella di sinistra rimane invariata, cioè senza alcun restringimento (down-sizing); l’immagine di destra, invece, viene divisa in tre parti (tiles), senza alcun processo di filtraggio o decimazione, ma solo tramite una distribuzione (remapping) dei pixel.

Il presente articolo intende valutare, teoricamente, le perdite in risoluzione di questi formati stereoscopici 3D HD rispetto alla risoluzione orizzontale e verticale presentate dagli standard 2D HD monoscopici, oggi in uso in Europa, che sono: 720p/50, 1080i/25, 1080p/50.
Analoghe considerazioni possono essere condotte nei riguardi dei formati HD che adottano le frequenze 59,94/60 Hz.

Figura 1. Side-by-Side su film da 70mm
Figura 2. Over-Under su film da 35mm

Valutazione della risoluzione

Figura 3. Side-by-side
Figura 4. Top-and-Bottom
Figura 5. 3D Tile Format
Figura 6. Valutazione della risoluzione

Negli ambienti cinematografico e televisivo il termine ‘risoluzione’ viene inteso per valutare quanto ravvicinati possano trovarsi i dettagli di un’immagine per poter essere ancora percepiti visivamente come separati. I dettagli sono considerati idealmente costituiti da linee, alternativamente una chiara e una scura (line pairs).

In cinematografia, la valutazione della risoluzione è legata alle dimensioni fisiche ed è specificata come numero di linee per unità di lunghezza (LP/mm, line per mm), lungo gli assi verticale e orizzontale.
In televisione la valutazione della risoluzione è legata alla dimensione globale dell’immagine ed è specificata, orizzontalmente e verticalmente, dal numero di linee presenti su una distanza eguale all’altezza dell’immagine (LPH, line per picture height). In particolare:

– la risoluzione verticale NV definisce la capacità del sistema di risolvere linee orizzontali, condizionata primariamente sia dal numero di linee usate per l’esplorazione dell’immagine che dall’effetto combinato delle capacità della camera e del display (effetti Kell e di interlacciamento, vedi oltre). Viene espressa come numero di linee orizzontali risolvibili sullo schermo.

– la risoluzione orizzontale NH definisce la capacità del sistema di risolvere linee verticali, condizionata dalla frequenza di campionamento adottata dal sistema, cioè dalle capacità della camera e del display, tenendo conto il rapporto d’immagine (aspect ratio, AR) del sistema e la frequenza di cut-off del filtro anti-aliasing. È espressa come numero di linee verticali risolvibili su una lunghezza orizzontale pari all’altezza dello schermo. Al fine di tenere la stessa scala spaziale per ambedue le risoluzioni verticale e orizzontale, la risoluzione orizzontale è anch’essa specificata come linee per altezza d’immagine (LPH) invece che come linee per larghezza d’immagine (LPW, lines per picture width).


Risoluzione verticale

La risoluzione verticale equivale solo idealmente al ‘numero di righe attive’ (Nal, number of active lines) nell’esplorazione del quadro (frame).
Infatti, questo concetto è valido solo quando le linee di esplorazione del mezzo di acquisizione (camera o scanner, ove l’esplorazione viene effettuata con file di celle sensibili) sono centrate sui dettagli dell’immagine. All’opposto, una perdita completa di risoluzione verticale si verifica quando le linee scavalcano i contorni.

Quanto detto porta ad una diminuzione della risoluzione verticale, identificabile moltiplicando il numero delle linee attive (Nal) per il ‘fattore di Kell verticale’ (vKf) il cui valore, misurato statisticamente con l’esplorazione progressiva, è stato stimato fra 0,6 e 0,8 (per i vecchi sensori e display a raggi catodici) e fra 0,85 e 0,95 per gli attuali sensori (CCD, CMOS) e display (LCD, PDP) con matrice di pixel.

Raymond D. Kell della RCA nel 1934, in base a prove soggettive con sistemi ad esplorazione progressiva, valutò che la risoluzione verticale potesse ridursi, per le ragioni specificate, al 64% del numero delle righe attive. Tale valore venne da allora riveduto più volte, fino a raggiungere quelli specificati più sopra.

Il valore della Risoluzione Verticale è quindi il seguente:

NV = Nal x vKf (linee)

Un’ulteriore perdita nella risoluzione verticale, valida solo sui dettagli in movimento, si verifica per i soli sistemi con esplorazione interlacciata.
Questa perdita viene individuata dal fattore di interlacciamento (If) inteso come il rapporto fra le linee percepite in un’immagine video trattata con esplorazione interlacciata e le linee percepite nella stessa porzione d’immagine, trattata con esplorazione progressiva (vedi Ref.1) e stimata col valore 0,7.
La risoluzione verticale interlacciata completa NVi risulta pertanto:

NVi = Nal x vKf x If (linee)

Nota: per immagini con esplorazione progressive il fattore d’interlacciamento vale 1.0.


Risoluzione orizzontale

Figura 7. 3D SIDE-by-SIDE 720p/50
Figura 7a. 3D SIDE-by-SIDE 1080i/25
Figura 8. 3D SIDE-by-SIDE 1080p/50

La risoluzione orizzontale equivale idealmente al ‘numero di campioni per riga attiva’ (Nsa, number of samples per active line) diviso per il rapporto d’immagine (aspect ratio, AR). Ma ciò vale solo nel caso le celle dei sensori della camera siano centrate orizzontalmente sui dettagli dell’immagine.

All’opposto, si avrebbe una completa perdita di risoluzione, se tali celle li scavalcassero.
Tale perdita viene individuata mediante il ‘fattore di Kell orizzontale’ (hKf, horizontal Kell factor), il cui valore è stimato fra 0,85 e 0,95.

Il valore della risoluzione orizzontale viene così espresso dalla seguente formula:

NH = Nsa x hKf / AR (lines)

La Tabella 1 riassume i valori delle risoluzioni verticale NV2D e orizzontale NH2D calcolati per gli attuali sistemi 2D HD (televisione ad alta definizione monoscopica).


Valutazione della risoluzione nella TV stereoscopica 3D

Figura 9. 3D TOP-and-BOTTOM 720p/50
Figura 10. 3D TOP-and-BOTTOM 1080i/25
Figura 11. 3D TOP-and-BOTTOM 1080i/50
Figura 12. 3D TILE 1080p/50

L’inserimento della coppia d’immagini dell’informazione 3D entro un unico quadro (frame packing) viene effettuato schiacciando quelle immagini orizzontalmente (quindi riducendo il numero dei campioni per riga attiva Nsa , number of samples per active line), o verticalmente (quindi riducendo il numero delle righe attive Nal , number of active lines).
Questo schiacciamento riduce la corrispondente risoluzione in base ai seguenti fattori:

– fattore di riduzione verticale Vrf (Vertical reduction factor) = Nal ridotto / Nal originale

– fattore di riduzione orizzontale Hrf (Horizontal reduction factor) = Nsa ridotto / Nsa originale

cosicché i valori delle risoluzioni orizzontale e verticale della coppia delle immagini 3D sinistra e destra divengono:

– risoluzione verticale 3D, NV3D = NV2D x Vrf

– risoluzione orizzontale 3D, NH3D = NH2D x Hrf

Possiamo ora calcolare i valori della risoluzione verticale e orizzontale nelle varie condizioni di frame packing, tenendo in conto i valori di NV2D e NH2D della Tabella 1.

I valori di NH e NH che emergono da questa valutazione possono offrire interessanti considerazioni sull’opportunità di operare con i vari sistemi di frame packing oggi proposti.

3D Side by Side 720p/50. Le immagini sinistra e destra, schiacciate orizzontalmente al rapporto d’immagine 640×720, vengono inserite side-by-side entro il quadro 1.280×720 e trasmesse nel formato 720p/50.

In conseguenza di ciò:
Vrf = 720/720 = 1,0
Hrf = 640/1280 = 0,5
per cui i valori di risoluzione divengono:

NV3D = NV2D x Vrf = ˜ 648 x 1,0 = ˜648 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜ 648 x 0,5 = ˜324 LPH (Risoluzione Orizzontale)

Side by Side 1080i/25, figura 7a. Le immagini sinistra e destra, schiacciate orizzontalmente al rapporto d’immagine 960×1.080, vengono inserite side-by-side entro il quadro 1.920×1.080 e trasmesse nel formato 1080i/25.

Quindi:
Vrf = 1080/1080 = 1,0
Hrf = 960/1920 = 0.5

per cui i valori della risoluzione divengono:

NV3D = NV2D x Vrf = ˜680 x 1,0 = ˜680 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜972 x 0,5 = ˜486 LPH (Risoluzione Orizzontale)

3D SIDE-by-SIDE 1080p/50, figura 8. Le immagini sinistra e destra, schiacciate orizzontalmente al rapporto d’immagine 960×1.080, vengono inserite side-by-side entro il quadro 1.920×1.080 e trasmesse nel formato 1080p/50.

Ne deriva che:
Vrf =1.080/1.080 = 1,0
Hrf = 960/1.920 = 0.5

per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜972 x 1.0 = ˜972 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜972 x 0.5 = ˜486 LPH (Risoluzione Orizzontale)

3D TOP-and-Bottom, figura 9. Le immagini sinistra e destra, schiacciate verticalmente al rapporto d’immagine 360×1.280, vengono inserite top-and-bottom entro il quadro 1.250×720 e trasmesse a 720p/50.

Allora:
Vrf = 360/720 = 0,5
Hrf = 1.280/1280 = 1,0
per cui i valori della risoluzione divengono:

NV3D = NV2D x Vrf = ˜648 x 0.5 = ˜324 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜648 x 1.0 = ˜648 LPH (Risoluzione Orizzontale)

3D TOP-and-BOTTOM, figura 10. Le immagini sinistra e destra, schiacciate verticalmente al rapporto d’immagine 1.920×540, vengono inserite top-and-bottom entro il quadro 1.920×1.080 e trasmesse a 1080i/25.

Ecco che:
Vrf = 540/1080 = 0,5
Hrf = 1.920/1.920 = 1,0

per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜680 x 0.5 = ˜340 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜972 x 1.0 = ˜972 LPH Risoluzione Orizzontale)

3D TOP-and-BOTTOM, figura 11. Le immagini sinistra e destra, schiacciate verticalmente al rapporto d’immagine 1.920×540, vengono inserite top-and-bottom entro il quadro 1.920×1.080 e trasmesse a 1080i/50.

Quindi:
Vrf = 540/1.080 = 0,5
Hrf = 1.920/1.920 = 1,0
per cui i valori della risoluzione divengono:

NV3D = NV2D x Vrf = ˜972 x 0.5 = ˜486 LPH (Risoluzione Verticale)

NH3D = NH2D x Hrf = ˜972 x 1.0 = ˜972 LPH (Risoluzione Orizzontale)

3D TILE 1080p/50, figura 12. Le immagini destra e sinistra, ambedue nel formato 720p/50, vengono inserite nel quadro 1.920×1.080 e trasmesse col formato 1080p/50. Non si richiede alcun processamento di schiacciamento, ma solo un più sicuro processamento di re-mapping, evitando così problemi di degradazione dell’immagine. L’immagine sinistra viene inserita nella parte superiore sinistra del quadro 1.920×1.080, mentre l’immagine destra è divisa in tre parti (tiles) che vengono inserite negli spazi restanti del quadro 1.920×1.080 (come si può vedere in Figura 12).

In conseguenza di ciò, i valori di risoluzione sono gli stessi di quelli di un’immagine nel formato 720p.
NV3D = ˜648 LPH (Risoluzione Verticale)
NH3D = ˜648 LPH (Risoluzione Orizzontale)


Conclusioni

La Tabella 2 riassume i valori delle risoluzioni verticale NV e orizzontale NH calcolate per i sistemi 2D e 3D al momento disponibili. Il segno ˜ ricorda che i valori della risoluzione dipendono da quelli attribuiti ai fattori di Kell (orizzontale e verticale) e al fattore d’interlacciamento, il che è stato motivo di acceso dibattito fin dal 1934, quando Raymond D. Kell ne scoprì l’esistenza.
I dati raccolti in Tabella 2 per i formati SbS e TaB denunciano, a differenza di quelli del 3D Tile Format, rilevanti divergenze fra i valori della risoluzione orizzontale e verticale. Mentre molto è stato scritto sul fatto che l’occhio possa essere più influenzato dalla risoluzione orizzontale o da quella verticale, resta il sospetto che il giudizio complessivo degli spettatori sulla qualità dell’immagine possa essere condizionato dai valori più bassi di tale risoluzione. Una ricerca statistica su tale aspetto sarebbe auspicabile. Peraltro non vi è dubbio che una situazione di bilanciamento fra le due risoluzioni giochi a favore di una valutazione più favorevole della qualità dell’immagine riprodotta.

(*) La decimazione è un processo volto a ridurre il numero dei campioni (samples) del segnale digitale. Il termine viene dal latino decimatio cioè ‘eliminazione di un decimo’, provvedimento in uso nell’esercito romano contro i soldati codardi o ammutinati.


Riferimenti

1. Allan W. Jayne, Jr., “Video and Scanner Resolution — The Kell Factor”, www.cockam.com/kell.htm, 1997-2000

2. ITU-R, “Parameter values for the HDTV standards for production and international programme exchange”, Rec. ITU-R BT.709-5 (04/2002)

3. Michael Robin, “Revisiting Kell”, Broadcast Engineering, March 1, 2003

4. Michael Robin, “Horizontal Resolution: Pixel or Lines”, Broadcast Engineering, April 1, 2005

5. Steve Mullen, Just What is 1080i? , HDV@Work, Feb. 2006 http://digitalcontentproducer.com/hdhdv/depth/hdv_at_work_02272006/

6. Hans Hoffmann, “HDTV – EBU format comparisons at IBC-2006“, EBU Technical Review – October 2006

7. EBU-UER, “High Definition (HD) Image Formats for Television Production”, EBU-Tech 3299, Geneva January 2010

* Franco Visintin, Chairman della Sezione Italiana di SMPTE, ha ricoperto il ruolo di Capo Struttura Tecnica presso il Centro di Produzione RAI di Milano