
Dans La voix au cinéma, Michel Chion défend que la voix n’est pas un son comme les autres : c’est le son roi. Ce phénomène, il le théorise, il le nomme, c’est le vococentrisme. La voix, c’est surtout la présence d’un autre, l’être sonore d’une personne. C’est donc parce qu’elle est proprement humaine que la voix est au centre de l’écoute. Contrairement aux autres sons, la voix n’appartient jamais qu’à un homme. Et cela la définit : on ne parle de « voix » que quand il y a « homme », tous les dictionnaires le signalent. Mais au cinéma, tout semble possible. Grâce aux « effets spéciaux », le réalisateur, s’il en a les moyens, peut donner à voir et à entendre ce qu’il veut. Parce que le cinéma est un art, il ne se contente pas de reproduire la réalité, mais d’en construire une. Un film projette toujours sa réalité. Ainsi a-t-on d’une part, la fiction cinématographique, où rien ne semble impossible, et d’autre part, la réalité, où la voix est proprement humaine. Dès lors : la voix est-elle le propre de l’homme au cinéma ? A priori, lorsqu’on entend une voix dans un film, c’est un personnage humain qu’on écoute. La voix est une spécificité humaine, elle en est le trait signalétique. Dans une situation acousmatique (où on entend le son sans voir la cause qui le produit), l’écoute d’une voix permet de dire : « il y a quelqu’un (c’est-à-dire un être humain) ». Tant et si bien qu’il est impossible d’enregistrer (ou de créer) une voix à partir de sons qui ne sont pas émis par l’appareil phonatoire humain. Bruits et notes auront beau s’additionner, se déformer, elles ne feront jamais une voix, seuls de véritables morceaux de voix, des phonèmes le peuvent. La preuve en est que toute « voix » informatisée puise dans une banque d’enregistrements de voix humaines pour former un énoncé. Bref, si l’on entend une voix, on entend un être humain.
La voix est donc le propre de l’homme au cinéma, comme dans la réalité. Mais ce serait considérer le cinéma dans ce qu’il a de réel, et non dans ce qu’il a de fictif. Dans la plupart des cas, le spectateur n’entend pas la voix d’un acteur, ni celle d’un doubleur, mais celle d’un personnage. Or à l’écran, voix et images peuvent s’assembler pour donner vie à un personnage non-humain. A posteriori, on ne compte plus au cinéma les êtres non-humains qui ont une voix (automates, autres animaux, objets …). Du point de vue de l’expérience cinématographique, qui est peut-être le plus important, la voix n’est donc pas réservée aux personnages humains. Si, et seulement s’il s’agit de fiction, la voix n’est donc pas le propre de l’homme au cinéma. Pourtant, n’est-ce pas la considérer comme un homme que d’attribuer une voix à quelque chose ? Donner une voix n’est-il pas synonyme d’« humaniser » ? Il semblerait donc que « la perception humaine, naturellement vococentrée » (Chion), permette au cinéma de rendre « humain » tout ce qui n’est pas « homme » simplement en lui associant une voix. D’où ce paradoxe : comment le cinéma peut-il faire de la voix le propre des personnages humains alors même qu’il ne cesse d’utiliser sa magie pour en donner une à toute chose ?
De prime abord, il existe une contradiction entre la réalité et le cinéma. Dans l’un, la voix est le propre de l’homme, et dans l’autre, elle ne l’est pas. Le problème d’une telle opposition, c’est la vraisemblance. Donner une voix à ce qui n’en a habituellement pas, c’est une chose ; mais le faire accepter au spectateur c’en est une autre. Il s’agira de comprendre la façon dont la voix perd sa qualité de « propre de l’homme » au niveau de la réception.
Ce qui permet de donner une voix aux êtres non-humains, c’est d’abord la nature représentative du cinéma. L’impression de réalité qui accompagne tout film permet au spectateur d’accepter l’association entre une voix (humaine) et un personnage non-humain, chose qu’il aurait du mal à faire dans la réalité. En ce sens, dans La sémiologie en question, Jean Mitry remarque que l’image filmique a tendance à effacer son statut de re-présentation. Car contrairement au pinceau, la caméra ne peut pas inventer une image. Ce qu’elle montre a existé, elle l’a capté dans la réalité. Mais tout en gardant cette « impression de réalité », la voix du personnage efface celle du doubleur. La sensation de présence qui accompagne l’image sonore d’une voix permet au spectateur d’oublier la personne réelle qui l’a produite.
Nonobstant, ce n’est pas tant le réalisme du cinéma que son artifice qui permet au spectateur d’accepter l’association d’une voix humaine avec un personnage non-humain. Ainsi, lorsque le spectateur accepte le « pacte fictif » qu’un film lui propose, il consent à mettre de côté son scepticisme, il se refuse d’émettre un jugement à propos de l’impossibilité d’un élément narratif : il se laisse plonger dans le film. C’est ce qui permet d’expliquer que le film d’animation soit le genre privilégié des êtres vocaux non-humains. Le dessin (ou la pâte à modeler d’un stop motion) est moins réaliste que l’image photographique, plus imaginaire donc. Par l’aspect irréel de son image, le cinéma d’animation est plus propice à donner une voix à des personnages non-humains. Tant est si bien que dans le premier film d’animation synchrone, Steamboat Willie (1928), Walt Disney ne donne pas sa voix à un être humain, mais à une souris : Mickey. Fait emblématique du privilège accordé au cinéma d’animation, le premier être vocal du dessin animé n’est pas humain.

Mais l’on objectera aussitôt : il y a de l’humain dans tout être vocal. Même si Mickey n’est pas un être humain, c’est tout comme. Finalement, il n’y a que son corps qui fait de lui une souris (encore qu’il se tient debout), il semble doté d’une intelligence sociale, pilote un bateau, joue de la musique et épluche des pommes de terres. De fait, tout être vocal se comporte comme un être humain au cinéma. On peut donner une explication anthropologique à cela : pour les situations acousmatiques (où on ne voit pas la source sonore), l’homme a appris à reconnaître ses semblables en différenciant la voix des autres sons.
Néanmoins, il arrive parfois que certains êtres ne soient pas humanisés, bien qu’il aient une voix. Comment cela est-il possible ? Il semblerait d’abord que cela n’arrive qu’à une échelle locale dans le film, c’est-à-dire qu’à certains moments, ou pour certains personnages … En effet, il serait incongru d’entendre un animal parler dans certains films, mais pas dans d’autres où c’est justement la norme, comme dans la plupart des films « Disney ». Mais dans une fiction qui se veut réaliste, et non pas imaginaire, comment, à un moment donné du film, un être non-humanisé peut-il avoir une voix ? La réponse tient dans l’idée que ce n’est pas vraiment la voix de cet être non-humanisé qu’on entend. Deux exemples permettent de mieux comprendre ce phénomène : Le Daim (2019) de Quentin Dupieux, et Twink Peaks de David Lynch (1990).

Premièrement, la folie d’un personnage permet de donner de la vraisemblance à l’expression vocale d’un être non-humain. Vers la fin du Daim, le blouson fétiche du protagoniste s’adresse à lui dans son sommeil. À partir des scènes précédentes où Georges dialoguait avec le vêtement en répondant à sa place, le spectateur déduit que ce qu’il entend se passe dans l’esprit névrosé du personnage. Ce qui empêche l’humanisation de l’être vocal non-humain, c’est donc l’idée que ce n’est pas vraiment la voix de l’objet qu’on entend, mais celle d’un homme.
Deuxièmement, pour donner une voix sans humaniser, l’enregistrement constitue un cas à part. Dans Twin Peaks, le mainate Waldo laisse un témoignage enregistré, capital. Présent lors du meurtre de Laura Palmer, il fut un témoin clé de l’enquête, ayant retenu la phrase « Léo, non ! » qu’un magnétophone posé à côté de lui a enregistré. Ainsi, ni la machine, ni l’animal ne sont humanisés par la voix humaine qu’ils émettent. Car en la répétant indépendamment de sa signification, ils la vident de toute fonction expressive. Cette voix doublement rapportée n’humanise rien, si ce n’est la victime du meurtre, soit celle qui l’a produite à l’origine.

La voix n’est donc pas le propre de l’homme au cinéma. À cause de cette transgression de la réalité, les exemples qui le prouvent sont cependant menacés d’invraisemblance. Néanmoins, le cinéma possède de nombreux moyens audio-visuels de donner « une impression de réalité » à l’association surréaliste d’une voix humaine avec un non-humain. À tous les niveaux, le cinéma est capable de faire oublier au spectateur la réalité vocale (le doubleur) et ses lois (seuls les humains ont une voix). Reste que le septième art ne le peut que partiellement : tout être qui a vraiment sa voix est aussitôt humanisé. Mais si la voix est le propre de l’humain, alors comment le cinéma peut-il se servir d’elle pour déshumaniser certains personnages ? Il s’agira donc de venir nuancer l’apparente fatalité qui veut que toute attribution de voix à un personnage l’humanise nécessairement.
D’emblée, il convient de clarifier la distinction entre « propre de l’humain » et « propre de l’homme » pour le cinéma. Ce qui fait « l’homme » à l’écran, c’est son apparence visuelle, par laquelle le spectateur peut identifier son corps. En revanche, « le propre de l’humain » au cinéma ne réside pas dans un corps, mais dans un comportement. Or, s’il y a bien un mode de manifestation privilégié de chacun de ces « propres de l’humain », c’est la voix.
C’est ce qu’illustre le personnage de Samantha dans Her (Spike Jonze, 2013). Dans ce film d’anticipation, une intelligence artificielle et un homme nouent une relation amoureuse. Théodore est donc confronté à une situation réelle qui n’arrive pourtant qu’au cinéma : il est face à un être « humain » (il lui dit : « tu sembles être une personne ») qui n’est pas un homme (c’est « un ordinateur »). Pourtant, il ressent l’humanité de cette intelligence artificielle, si bien qu’il en tombera amoureux. Or, Samantha n’est « qu’une voix », tout ce qui la fait « humaine » passe par là. Si le protagoniste s’entendait a posteriori, il se corrigerait : « tu sembles être une personne, <car> tu <es> une voix dans un ordinateur ». La voix est donc « le propre de l’humain » ; toute « humanité » passe par elle : parole, intelligence, sociabilité et sensibilité font son affaire.

Difficile par conséquent d’affirmer que la voix puisse être le vecteur d’une déshumanisation au cinéma. Quoiqu’elle ne puisse pas à proprement parler rendre « homme » (ce qui impliquerait une véritable métamorphose visuelle), la voix peut rendre « humain », conférer une « humanité » à ce qui n’en a habituellement pas. Mais ce serait négliger la distinction qui existe entre voix et parole. Dans Les Politiques, Aristote attribue la parole aux hommes, et la voix aux autres animaux. Pour lui, la voix ne sert qu’à transmettre des affects ou des sensations éprouvés immédiatement. En revanche, la parole permet d’exprimer des pensées indépendantes de l’espace égocentrique de l’individu. Et c’est cette capacité de s’abstraire de l’immédiat, de penser l’absent à l’aide du langage et donc de penser un société, qui lui permet d’accomplir une spécificité humaine, à savoir de vivre comme « un animal politique ou fait pour la société ». Car en effet, c’est le logos qui permet l’humanité de l’homme selon Aristote, à savoir son intelligence sociale, et les particularités qui en découlent. Bref, ce n’est pas la voix (phônê) qui constitue le propre de l’humain, mais la parole (logos), car elle constitue l’origine de toutes les spécificités humaines. Cette distinction faite, il s’avère par conséquent possible de déshumaniser un personnage à l’aide de la voix : il faut pour cela lui retirer la parole.

Le cri de Tarzan est l’exemple le plus emblématique de la réduction d’un homme à l’animalité par la voix. Étant donné que l’animalité et l’état sauvage servent de référence pour la masculinité occidentale, il n’est pas étonnant que Tarzan, qui en est l’incarnation, n’ait pas la parole. Chion qualifie cette déshumanisation virilisante par la voix de « point de cri ». En quelque sorte, il serait contradictoire pour Tarzan d’être doué de parole, car cela l’humaniserait au point de retirer sa bestialité. En fait, la virilité occidentale est contrainte de renoncer à une part d’humanité pour s’affirmer, phénomène dont la mise en valeur de la phonê – au détriment du logos – rend compte avec Tarzan.
Mais il est possible d’aller plus loin encore. Plus que déshumaniser un personnage, le cinéma peut aller jusqu’à « inhumaniser » un homme à l’aide d’une voix, c’est-à-dire le rendre monstrueux. Il faut dire que « l’humain » se distingue certes du non-humain (l’animalité, la mécanicité, etc.), mais il s’oppose surtout à « l’inhumain ». L’inhumain, ce n’est pas le manque d’humanité, mais ce qui le contredit radicalement, par transgression de ce que les êtres humains tiennent comme valeur morale fondamentale. C’est ce qu’illustre à merveille le discours judéophobe d’Adenoïd Hynkel (une caricature d’Adolf Hitler) dans Le Dictateur (1940) de Charlie Chaplin.

La signification du discours n’est produite que par la voix du traducteur et l’on pourrait défendre qu’à l’entendre, il ne s’agit pas d’une parole : de fait, Chaplin invente des onomatopées. Durant son discours, Hynkel perd son humanité en même temps que son logos l’abandonne. Son expression n’est plus que phônê, cris bestiaux et bruits vocaux monstrueux. Une parole incompréhensible au cinéma, ce n’est donc pas vraiment une parole, c’est plutôt une voix animale (phônê), que l’on peut facilement pousser à la monstruosité pour dénoncer l’inhumanité d’un discours.

Ainsi, la voix n’est ni le propre de l’homme, ni le propre de l’humain au cinéma. Car d’une part, le propre de « l’homme » (un corps biologique, une apparence d’homo sapiens) ne peut qu’être visuel dans un film ; et d’autre part, le propre de « l’humain » c’est la parole. Ce qui le prouve au cinéma c’est que lorsqu’on la retire, l’expression vocale devient animale, bestiale (non-humaine), voire monstrueuse (inhumaine). Mais si la parole est le propre de l’homme au cinéma (elle seule peut humaniser un être cinématographique), alors comment une voix sans parole peut-elle « rendre humain » ? Il s’agira de comprendre en quoi la voix peut être considérée comme le propre de l’humain.
Certes, l’humain se différencie notamment du non-humain par le logos. Mais ce serait négliger une partie essentielle, voire majeure, de ce qu’est « l’humain » – sa définition négative, par opposition à ce qu’on nomme « inhumain ». En grossissant les traits, l’inhumanité caractérise le « méchant » du film, qui incarne ce qu’il ne faut pas être : cruel, apathique, manipulateur – bref, sans pitié. La pitié est sûrement la qualité que l’on qualifierait le plus d’« humaine », car elle est justement celle qui s’oppose le plus à ce que l’on qualifie de proprement « inhumain ». En ce sens, la voix empathique est le propre de l’humain au cinéma, car elle incite le spectateur à comprendre ce que le personnage ressent, et donc à considérer la part d’humanité qui est en lui, à savoir une sensibilité sociale – qui lui permet d’avoir de la pitié.
La voix ne saurait donc se réduire à une fonction informative (parole). Dans certaines situations, la voix s’avère même plus efficace que la parole. Très présent au cinéma, le cri correspond à une situation de danger immédiat, qui ne laisse pas le temps au personnage d’élaborer un discours verbal. Dans le cinéma d’horreur, le cri du spectateur a pour principale fonction d’effrayer le spectateur, et de le faire crier à son tour. La scène la plus marquante du Psychose de Hitchcock, n’est pas dialoguée, mais criée.
Le « point de cri » appelle le secours d’un semblable, elle signale la présence d’un humain à un autre humain. Plus elle s’écarte de la parole, du discours élaboré et rationnel, plus la voix criée appelle un humain à se reconnaître en celui qui l’émet.
La voix, lorsqu’elle suscite l’empathie, est donc aussi le propre de l’« humain » au cinéma. Si la parole renvoie à une raison humaine, la voix signale un cœur humain. Or, si le cinéma est un art, c’est que la création d’émotions chez le spectateur prime. Par conséquent, comme le suggère Béla Balázs, le cinéma doit profiter de la matérialité sonore de la voix et ne pas se réduire à sa dimension linguistique, à une parole. Mais elle est aussi plus poétique. La parole peut certes dire une émotion, mais la voix le fait plus poétiquement : elle ne la dit pas, elle la montre, la signale et la suscite. C’est le pouvoir suggestif de la voix qui fait sa poésie ; au contraire, comme l’explique Mallarmé, la précision de la parole est anti-poétique. L’art cinématographique s’intéresse donc à la voix pour sa puissance expressive et poétique. Or, ce qui fait l’humanité d’une voix poétique au cinéma, ce n’est pas seulement qu’elle souligne la sensibilité humaine, mais qu’elle a aussi l’ambition de toucher « l’humanité » dans son ensemble. Étant donné que la poésie dit plutôt le général, une voix poétique cherchera à exprimer le vécu humain, à savoir une chose dans laquelle chaque humain pourra se retrouver. Ces deux éléments poétiques (sensibilité et généralité) font du chant la voix « humaine » par excellence.
À la fin des Parapluies de Cherbourg (1964), Jacques Demy continue de faire chanter les deux anciens amants au moment de leur rencontre fortuite qui a lieu cinq années après leur séparation forcée, chacun s’étant alors marié à quelqu’un d’autre. Il y a certes de l’indicible dans cet échange. Mais il se montre par le chant. Et c’est le sentiment humain. La voix chantée exprime toute l’ampleur de l’émotion ressentie par les personnages et contredit ainsi la platitude de leur dialogue, en le suggérant poétiquement, par une mélodie languissante. Dans cet extrait, la contradiction entre le dit et le chanté prouve que la voix chantée est plus « humaine » que n’importe quelle parole ; tout spectateur peut se retrouver dans ces sentiments échappés, car ils forment l’humaine condition.

En somme, il apparaît nettement que contrairement à la réalité, la voix n’est pas le propre de l’homme au cinéma. À tous les niveaux, le cinéma peut persuader le spectateur que la voix n’est plus le propre de l’homme, le temps d’un film. Néanmoins, il restera convaincu qu’elle est au moins le propre de l’humain : tout être vocal se comporte comme un « humain » à l’écran. Mais ce serait tomber dans une assimilation entretenue par le langage courant, car une fois la distinction faite, le propre de l’humain au cinéma, c’est plutôt la parole. En effet, retirer la parole à une voix, c’est déshumaniser son personnage, voire pointer sa monstruosité. Cependant, cette association de « l’humain » au logos, bien qu’ayant le mérite de le différencier du « non-humain », néglige un aspect fondamental de la notion : sa relation antinomique avec « l’inhumain ». À travers sa puissance d’expression des émotions la voix, criée ou chantée, peut montrer au spectateur qu’il y a de l’humain à l’écran. Car comprendre l’autre, c’est déjà l’appréhender humainement, en faire un potentiel objet de sympathie où se produit une similitude des affects. En définitive, si la voix n’est pas le propre de la raison humaine, elle n’en reste pas moins le propre de l’humanité, à moins que le réalisateur choisisse d’en faire le propre de la monstruosité humaine. Débordant la parole par-deçà[1] et par-delà[2], la voix sensible est donc le propre de l’humain, elle celle qui fait sonner dans l’oreille du spectateur une sensibilité humaine.
[1]Elle est antérieure au logos (à la parole raisonnée) qui est une spécificité humaine.
[2]Elle est supérieure au logos sur le plan expressif et artistique, puisqu’elle permet d’exprimer l’ineffable.
