Pauvre temps pauvre époque ! Covid, toussa, blablah. Evacuons tout de suite le sujet, je ne parlerai pas ici du Covid au sens strict. Non je me bornerai une fois de plus à évoquer une histoire en rapport avec l’audio, en me demandant pourquoi une partie non négligeable et non moins incivique (je vais rester poli pour cette fois) enlève son masque pour téléphoner, dans les transports en commun j’entends. Est-ce que cela entrave la compréhension de votre interlocuteur ?
Mesures très simples
J’ai la chance avoir une petite tête de mesure, ainsi que des microphones assez précis si besoin. C’est donc armé de ces ustensiles que j’ai eu une petite idée, même si je ne suis pas le seul : vérifier l’impact du classique masque chirurgical sur la voix. L’idée était toujours de vérifier si cela modifiait la réponse en fréquence, mais également le volume.
On ne va pas se le cacher, le fait que des chirurgiens puissent parfaitement communiquer entre eux, dans un environnement ou la communication est critique, me donnaient déjà un petit avis sur la question. Avis d’autant plus simple à avoir que nous échangeons déjà avec un masque (hors téléphone) depuis plus d’un an.
Les mesures effectuées ici ne sont pas parfaites, du moins parce qu’il n’existe pas de protocole parfait justement. On ne peut pas demander à une personne de répéter une même phrase avec et sans masque. Un humain ne peut pas reproduire à l’identique, il y aura toujours une différence de volume, d’intonation, d’accentuation sur tel ou tel mot, etc… C’est pourquoi je suis plus simplement passé par une mesure de la réponse en fréquence d’un casque, l’un des coussinets recouvert du masque chirurgical, en conservant le sens, et presque à l’identique la pliure, le tout sur tête de mesure. Ce protocole reste bricolé, n’est pas idéal, mais est pourtant le plus probant, car il limite la distance entre l’émetteur sonore (haut-parleur) et le micro, pour un résultat très proche d’un couple bouche-téléphone (ou bouche- écouteur bluetooth). De plus, les basses n’étant pas en jeu ici, les problèmes de couplage n’existe pas.
Qu’est ce que cela donne à la mesure ?
Comme on peut le voir, les deux types de configurations donnent des résultats très proches. Les courbes ne sont pas identiques, ce qui était plutôt attendu, mais les différences ne sont vraiment notables qu’à partir de 5-6 kHz, et ne sont vraiment marquées qu’entre 8 kHz et 10 kHz. Qu’est ce que cela signifie ? Que ce masque, en grande partie composé de pile de tissu/fibre, joue pratiquement le même rôle d’atténuation que pourrait le faire un vêtement devant la bouche. L’action sur les médiums (globalement entre 100 Hz et 1-2 kHz) est à peu près négligeable.
Ca veut dire ?
Qu’est-ce cela veut dire ? Que l’essentiel des composantes de la voix humaine n’est pas altérée. Aucune fréquence fondamentale (la fréquence « de base » que l’on veut reproduire) n’est modifiée, puisqu’aucune voix ne peut monter aussi haut. Cela qui implique que n’importe quel mot peut parfaitement être reproduit.
Néanmoins, il y a des harmoniques dans la voix (fréquences multiples de la fondamentale), même si leur volume sonore est bien plus faible que les harmoniques d’instruments à cordes (ici les harmoniques viennent des cordes vocales principalement). Il y a encore de l’information dans les fréquences atténuées ici, notamment autour de 8 kHz. On considère généralement que la voix humaine peut transmettre de l’information jusqu’à 12 kHz environ.
Comment se traduit cette atténuation ? Par un son un peu plus étouffé, ou plutôt un peu moins clair. En parlant à une personne masquée (genre zorro), on peut largement reconnaitre sa voix propre, mais tout de même sentir cette légère altération, un peu comme si nous étions au téléphone… Au maximum, nous avons mesuré un écart de 6 dB. Pas négligeable, mais pas suffisant pour parler d’une atténuation vraiment marquée.
Une autre limite
L’une des problématiques du smartphone est de reproduire la voix en toutes circonstances, et pour cela il faut aller au plus simple, en sabrant ce qui n’est pas indispensable. Il existe plusieurs normes et codecs pour les appels, et nous n’allons faire ici qu’à un rapide résumé.
Pendant très longtemps, et cela est encore le cas quand le réseau capté est faible, la qualité est limitée à une bande passante de 300 Hz à 3 400 Hz. De quoi, même sans perdre le sens des mots, donner un rendu très voilé, et souvent robotique. La norme plus largement utilisé maintenant va quant à elle plus loin, car permet d’aller de 50 Hz à 7 000 kHz. Pas parfait, mais déjà bien. Les téléphones et réseaux plus récents ne s’arrêtent pas là, puisque des normes 20 Hz – 20 000 kHz (l’ensemble du spectre) existent, mais impliquent que le réseau le supporte, et que les deux téléphones soient bien calqués sur la même norme. Malheureusement, sur ce point là, les smartphones sont un peu une grande foire, et le rendu 50 Hz – 7 000 Hz reste largement majoritaire.
En somme, à moins d’utiliser des applications reproduisant l’entièreté des fréquences, ou avoir la chance de se calquer sur des codecs vraiment modernes entre téléphones compatibles, peu de chances d’entendre une vraie différence, et encore moins que cette différence soit notable. Cela est même accentué par l’utilisation des casques et écouteurs Bluetooth, qui sont déjà limités par les codecs voix Bluetooth (max 8 000 Hz, sauf quelques rares exceptions), et par leurs propres microphones (rarement linéaires jusque-là).
En somme, peu de chance qu’enlever votre masque modifie quoique ce soit du côté de votre interlocuteur, certainement pas la compréhension du message en tous cas. Vous passerez simplement pour un petit malpoli (si j’étais vulgaire j’aurais dit « sac à merde », mais je reste classe). Bien sûr, un masque tient chaud, donne une sensation un peu différente en parlant, mais rien de bien méchant.