Men din påstand om at få bits låter like bra som f. ex 24 bit 96 kHz kan muligens bli misforstått om du ikke utdyper denne påstanden.
Allright. Fort og gæli.
Sony og Philips sitt DSD-format (Direct Stream Digital) bruker bare 1 bit til
å lagre en strøm av audiodata. Til gjengjeld bruker formatet et sinnssykt
høy samplerate på 2.8224 MHz.
Idéen er at en 1-bits datastrøm som er produsert av en delta-sigma A/D-
konverter er i stand til å holde all den informasjonen som en D/A-konverter
trenger for å rekonstruere den opprinnelige lydbølgen.
Problemet med en 1-bits datastrøm er at den inneholder enorme mengder
kvantiseringsforvrengning i tillegg. Jeg vet ikke hvorfor, men av en eller
annen grunn manifisterer seg denne forvrengningen nesten som hvit støy
fordelt over hele den tilgjengelige frekvensspekteret. Det kan ikke være
på grunn av dithering, slik vi vanligvis ville forventet, for en 1-bits datastrøm
er matematisk umulig å dithre (her ligger også svakheten til DSD, vil
mange mene).
En 1-bits datastrøm har i utgangspunktet et dynamikkområde på 6 dB.
Det betyr at kvantiseringsforvrengningen/-støyen er så fantastisk sterk at
den ligger som et støygulv bare 6 dB under signalet dersom dignalet er
på full-scale. Det er et problem. Dersom et 1-bits opptak i 44.1 kHz ble
spilt av slik at peakene i signalet målte 90 dBSPL, ville støygulvet aldri
vært svakere enn 84 dBSPL.
Men.
DSD bruker ikke 44.1 kHz. DSD bruker 2.8 MHz.
En av egenskapene til hvit støy er at den er random, og derfor fordeler
den amplituden jevnt over hele det tilgjengelige frekvensspekteret. Nå er
ikke 1-bits delta-sigma kvantiseringsforvrengning helt hvit støy, men den
likner. Altså er den fordelt rimelig jevnt over 2.8 MHz. Tilsammen, i snitt,
over hele spekteret, er all støyen på -6 dBFS. Men dersom vi zoomer inn
på et begrenset område, f eks 20 Hz - 20 kHz, så ser vi at støyen er mye
lavere. Her er dynamikkområdet ganske mye større enn 6 dB, og det bare
fordi det tilgjengelige frekvensspekteret er så stort, at støyen "strekkes ut",
eller "vannes ut" over et større område. All støyen finnes ikke innenfor
det hørbare området, slik tilfellet ville vært i 44.1 kHz.
Men dynamikkområdet er fremdeles ikke godt nok. Så DSD benytter ganske
sløye noise shaping-algoritmer som filtrerer den gjenværende støyen
oppover og dytter mesteparten over 20 kHz-grensa. På den måten klarer
DSD å oppnå et dynamikkområde på rundt 120 dB, selv om grunnlaget er
en 1-bit datastrøm som er umulig å dithre!
En morsom detalj er at vanlig PCM audio, som vi bruker til daglig, bruker
nesten den samme prosessen i A/D-konverteringen. Jeg sier nesten, for
det vanligste er 5-bit (for å slippe problemet med at 1-bit ikke kan dithres)
og 2.8 MHz. Forskjellen er at PCM-konverterne våre desimerer datastrømmen
til 44.1, 48, 96 eller 192 kHz og rekvantiserer til 24-bit før resultatet lagres
på disk, så vi "ser" aldri den opprinnelige datastrømmen. Slik opererer
ikke en DSD-konverter. Den lagrer og bruker den opprinnelige datastrømmen.
Bortsett fra det er prosessen påfallende lik. Det vi hører i Pro Tools er
med andre ord opprinnelig 5-bits lyd som er blitt rekvantisert til 24.
Det er ennå et bevis på at få bits kan være nok. Vi jobber med få bits
hver dag, hele hurven.