Comprendre les Formats Audio Numériques Haute Définition

La fréquence d’échantillonnage.

Une précaution avant d’aller plus avant, nous tenons à insister sur le fait que la qualité de la restitution offerte par un format audio numérique, outre ce que nous allons exposer dans cette section et les suivantes, dépend de la source audio utilisée (votre lecteur de fichiers et votre DAC) et de la qualité et du soin avec lesquels ont étés réalisés la prise de son, le mixage et le mastering de l’enregistrement contenu dans le support numérique (ce qui par ailleurs est également vrai pour le vinyle !).

Pour comprendre les formats numériques haute définition (ALAC, FLAC, DSD, CD, SACD …), il nous faut nous intéresser aux deux grandeurs utilisées pour les caractériser. Vous avez sûrement du rencontrer les termes « fréquence d’échantillonnage » et « profondeur de bits » couplé de la manière suivante : 192 kHz / 32 bits.

La fréquence d’échantillonnage.

Pour illustrer notre propos, reprenons l’analogie de l’onde mesurée à la surface de l’eau (voir « La Différence entre format Analogique et Numérique »). Nous avons vu que pour en décrire le comportement, il nous était possible de déterminer un intervalle de temps entre chaque mesure de la hauteur de l’eau réalisée.

Dans la caractérisation d’un format numérique, cet intervalle de temps permet de déterminer la fréquence d’échantillonnage, ou le nombre de mesures effectuées par seconde. Plus la fréquence d’échantillonnage est élevée, plus le nombre de mesures effectué est élevé, et plus le son enregistré sur le support numérique sera à même de restituer avec fluidité l’ensemble des fréquences présentes dans le son original, offrant par ailleurs une plage dynamique plus large, une écoute plus agréable et proche du son enregistré.

« La fréquence d’échantillonnage correspond au nombre de mesures de la valeur du signal effectuées par seconde
Plus elle est élevée, plus la plage dynamique est large, et l’écoute fluide et agréable »

Le graphique ci-dessous illustre ceci : la première partie du signal (au dessus de l’axe des abscisses) est encodée avec une fréquence d’échantillonnage de 2 x n kHz, le double de la fréquence utilisée pour la seconde partie (en dessous de l’axe des abscisses) de n kHz. On voit immédiatement que le comportement du tracé « en escalier » est bien plus proche de celui de la courbe originale dans la première partie que dans la seconde.

*Illustration de la fréquence d’échantillonnage d’un signal audio*

Cette seule grandeur ne suffit pas à elle seule à décrire la qualité d’un format audio numérique, ni celle du signal restitué. Pour mesurer le trajet de notre vague nous pourrions très bien choisir de réaliser des mesures à la fréquence de 192 kHz, ce qui représente le considérable nombre de 192 000 mesures par seconde, mais avoir une approximation de chaque mesure peu représentative du trajet : la précision de notre tracé variera énormément selon que l’on prenne comme unité de mesure le centimètre, le millimètre, le micromètre, le nanomètre … Nous aurions ainsi sur un niveau de variation de 1m de la hauteur d’une vague 100 valeurs possibles en utilisant le centimètre, 1 000 en utilisant le millimètre, 1 000 000 en utilisant le micromètre …

La profondeur de bits.

Intervient alors la profondeur de bits, ou le niveau de précision de la mesure effectuée, qui dépend du nombre de valeurs possibles que peut prendre chaque mesure. Les formats numériques sont stockés dans des systèmes informatiques qui utilisent un langage dit « binaire », où l’information est stockée sous forme de 0 et de 1, chaque couple de valeur possible correspondant à un bit. Une profondeur de bit égale à 32 par exemple, signifie ainsi qu’il y a 2³² valeurs possibles à la mesure (soit 4 294 967 296 valeurs). Ainsi, plus la profondeur de bit est élevée, plus les nuances seront subtiles et chaque note exactement fidèle à l’originale.

Profondeur de bits

« La profondeur de bits est le nombre de valeurs possibles que peut prendre chaque mesure.

Plus elle est élevée, plus chaque note restituée est fidèle à l’originale«

Le graphique ci-dessous illustre ceci. La première partie du signal (à gauche) montre le résultat de l’encodage avec une faible profondeur de bits : chaque mesure effectuée prend la valeur la proche possible de celle du signal original selon l’unité de mesure. On remarque en particulier dans la zone entourée en rouge, où les variations du signal original sont plus subtiles, que le nombre de valeurs possibles pour le signal numérique est diminué par les approximations réalisées. La seconde partie (à droite) sert de témoin.

*Illustration de la profondeur de bits d’un signal audio*

Selon tout évidence, ce graphique n’est qu’une grossière illustration du concept. En réalité, le nombre de mesure niveau de mesures possible pour les formats audio numérique haute résolution augmente en exponentielle de 2 et peut, comme nous l’avons dit, monter extrêmement haut et atteindre des valeurs aisément en mesure de surpasser les limites de l’ouïe humaine.

Caractérisation d’un format audio haute résolution (PCM)

« On peut considérer que les formats numériques haute résolution commencent à partir du couple fréquence d’échantillonnage / profondeur de bit 44,1 kHz / 24 bit »

Pour vous situer par rapport un format numérique bien connu, le CD, celui-ci présente un couple fréquence d’échantillonnage / profondeur de bit 44,1 kHz / 16 bits.

Nous avons ici décrit le principe de fonctionnement des fichiers audio PCM (Pulse Code Modulation).

Quid des fichiers DSD ?

Le principe est légèrement différent pour les fichiers DSD (Direct Stream Digital, reposant sur la technologie Pulse Density Modulation) qui utilisent des fréquences d’échantillonnage bien supérieures (64 fois celle du CD, soit 2.8224MHz pour le simple DSD64 et jusqu’à 8 fois cette valeur pour le moins commun octa DSD512), mais une profondeur de bit égale à 1 bit.

Pas de panique cependant: la raison pour une si faible valeur de profondeur de bits est que la mesure effectuée dans les formats DSD est celle de la variation du signal au cours du temps, qui ne peut prendre que deux valeurs, + ou -. Vous pouvez imaginez pour vous le représenter une suite de signes plus et moins venant incrémenter ou moduler la valeur du signal au cours du temps.

Ici, c’est donc la fréquence d’échantillonnage utilisée qui est essentielle : plus elle est élevée, plus le nombre de modifications par seconde est élevé, et la valeur du signal à un instant t précise et fidèle a l’originale pour une meilleure restitution.

DSD vs PCM : deux manières d’encoder le signal audio

« Les Fichiers numériques PCM sont caractérisés par le couple fréquence d’échantillonnage / Profondeur de bit. Pour les Fichiers DSD on regardera plutôt la valeur de la fréquence d’échantillonnage »

Notre prochain article s’intéressera aux différents usages pour les formats audio numériques, de qualités moindres à optimales.