La Percepción del Lenguaje: Teorías Principales

Introducción

El lenguaje consta de 2 clases de fenómenos. Unos son públicos (observables y medibles). En esta dimensión el lenguaje natural es un estímulo físico compuesto por sonidos percibidos auditivamente o trazos percibidos visualmente. Otros son privados (inferidos y supuestos por el observador). Aquí el lenguaje es una representación mental dotada de significado.

La percepción del lenguaje oral o escrito es un proceso que se realiza sin apenas esfuerzo consciente por parte del receptor y con notable eficacia, incluso en condiciones en que la señal física nos llega distorsionada (habla susurrada, teléfono, escritura manual….).

Por otra parte, la percepción del lenguaje se mantiene relativamente constante aun cuando ciertas propiedades físicas de la estimulación varíen. Reconoceremos cono idénticas dos secuencias de habla a pesar de las variaciones que se puedan producir en la frecuencia de la voz del hablante (voz femenina o masculina), en la velocidad del habla o a través de diferentes acentos regionales.

La percepción del lenguaje oral y escrito presentan diferencias importantes. Por una parte, cada una afecta a un órgano sensorial distinto: audición y visión respectivamente. Por otra, la percepción del habla tiene que hacer frente a unas limitaciones temporales.

Dado que el estímulo auditivo del habla se desvanece de forma inmediata, no podemos tener un acceso permanente a él, por lo que se ha de registrar y procesar a la mayor brevedad. El lenguaje escrito no impone una exigencia tan apremiante de procesamiento inmediato.

El habla es un estímulo continuo, con pocos cortes o silencios entre las unidades lingüísticas que el oyente tiene que descodificar, es decir, cada sonido, sílaba o palabra casi nunca va separado por pausas, mientras que la escritura se nos ofrece dividida en unidades, palabras, en el caso de la escritura manual, y palabras y letras, en el de la impresa. Hay que tener en cuenta que el lenguaje no se percibe en forma de unidades fragmentadas, sino como una sucesión continua de elementos perceptivos.

Principales problemas de la percepción del habla

La percepción del habla se puede definir como el proceso en virtud del cual un patrón de variación de energía acústica, que incide en los órganos receptores de la audición, se transforma en una representación mental de la configuración estimular (los fonemas o sonidos) que produce esa variación de energía.

Desde el punto de vista físico, el habla se define como una onda sonora con propiedades acústicas (frecuencia y amplitud) y temporales (duración). Estas propiedades de la onda sonora son producto de cambios o variaciones en la presión que se difunden en el espacio.

La tarea de nuestro sistema perceptivo es extraer de estas variaciones unas constancias perceptivas que, en el caso del habla, corresponden a las unidades lingüísticas que llamamos fonemas.

Las claves acústicas presentes en la señal de habla deben estar temporalmente ordenadas. La tarea de percibir habla podría definirse, a primera vista, como la sucesiva transformación, de uno en uno, de segmentos de la onda sonora del habla en fonemas individuales. Se trataría por tanto de una tarea de reconocimiento de patrones. Pero esto no es así.

La percepción del habla es una actividad bastante compleja. Para entender la percepción del habla es necesario examinar antes las propiedades físicas de los sonidos del habla. Mediante el procedimiento conocido como espectografía de sonidos es posible obtener una representación visual del habla o espectrograma, que recoge la composición de frecuencias de la voz en unidades de tiempo.

Algunas secuencias de sonidos de habla se descomponen en unas bandas de frecuencia expresada en hercios (Hz), denominadas formantes, que se numeran a partir de los valores más bajos de frecuencia. Cada formante consta de dos partes: una parte curva o “transición del formante” en la que el valor de la frecuencia va modificándose progresivamente y una parte recta o “parte estable del formante”.

La percepción no es un proceso de “traducción directa” de propiedades o claves acústicas a representaciones fonémicas, es decir, cada fonema de la lengua no corresponde siempre al mismo conjunto de unidades acústicas. Esta falta de correspondencia acústico-fonémica se manifiesta en dos problemas distintos.

Uno es el problema de la segmentación, relacionado con que la señal del habla es continua, mientras que los sonidos del habla se perciben como discretos o discontinuos.

Al separar de manera artificial el fragmento del espectro que corresponde a la consonante de una sílaba del que corresponde a la vocal de la misma sílaba y al presentar únicamente la parte de la consonante, los oyentes eran capaces de “adivinar” qué vocal seguía a dicha consonante: cada fragmento de habla retiene información acústica del fragmento contiguo, es decir, las claves acústicas transmiten información en paralelo sobre segmentos fonémicos sucesivos.

El otro es el problema de la ausencia de invarianza, que se define como la falta de correspondencia biunívoca entre fragmentos de la señal acústica y fonemas discretos. Los segmentos de habla carecen en su mayoría de propiedades invariantes, ya que a causa de la naturaleza continua del estímulo de habla, se ven influidos por el contexto acústico en que se encuentran.

Pese a ello, los oyentes somos capaces de descubrir constancias perceptivas y con ello identificar eficazmente sonidos de habla. P. ej, nuestro sistema perceptivo identifica el mismo fonema (/n/) aún cuando éste se encuentre en contextos acústicos sustancialmente diferentes como sucede en las palabras “co(n)trario”, “ “co(n)ato”, o “co(n)vocatoria”

Los problemas de segmentación y de ausencia de invarianza tienen un mismo origen: las demandas “co-articulatorias” del habla. Cuando pronunciamos una secuencia de fonemas, no articulamos cada fonema por separado, sino que ajustamos la posición de nuestros órganos articulatorios (lengua, labios…) a las configuraciones que éstos han de adoptar para producir los fonemas inmediatamente anterior y posterior.

Así, al articular el fonema /n/, la posición de la lengua es más extendida y plana en “co/n/trario”, algo más retraída y en contacto con los alvéolos en “co(n)ato”, y se halla en reposo en “co/n/vocatoria”.

En suma, los movimientos articulatorios efectuados en fonemas sucesivos se solapan en el tiempo, lo que origina diferencias acústicas en un mismo fonema en función del contexto acústico-articulatorio en que éste se localiza.

Estas demandas co- articulatorias son también responsables de que el habla humana se emita a considerable velocidad, hasta el punto de que la tasa normal de emisión de fonemas por unidad de tiempo (que oscila entre 10 y 15 fonemas por segundo, y que puede alcanzar de 25 a 30), superaría el poder de resolución del oído humano si cada fonema estuviese realmente asociado a un conjunto de claves discretas y específicas.

Procesos básicos de la percepción del habla

Etapas en la percepción del habla

Las etapas en que se divide el proceso de percepción del habla se apoyan en consideraciones más lingüísticas que psicológicas. Por esta razón, no se postularon inicialmente como estadios temporalmente discretos y funcionalmente autónomos, sino como una caracterización de las sucesivas transformaciones que sufre la información.

No obstante, a pesar de su carácter teórico, hay evidencia empírica a favor de la división de los procesos de percepción del habla en cuatro etapas: análisis auditivo periférico, análisis auditivo central, análisis acústico-fonético y análisis fonológico.

ANÁLISIS AUDITIVO PERIFÉRICO

En esta etapa se produce una descodificación preliminar de las señales de habla

en el sistema auditivo periférico, o lo que es lo mismo, las estructuras anatómicas y neurales del oído realizan un primer análisis de las propiedades acústicas relevantes de la señal. Se trata de convertir lo que tiene mucha variabilidad en algo menos variante: provocamos invarianza.

Los mecanismos de descodificación investigados son de dos clases. Unos son los mecanismos neuroacústicos, como los patrones de descarga de fibras nerviosas que sintonizan con atributos de la señal de habla. Los otros son mecanismos psicoacústicos, más abstractos, independientes de sus correlatos fisiológicos. Un ej de estos mecanismos son los “filtros paso-banda”, que efectúan transformaciones de la señal mediante el análisis de algunos de sus componentes.

ANÁLISIS AUDITIVO CENTRAL

El cometido de este análisis es extraer de la señal una serie de patrones espectrales y temporales y almacenarlos en la memoria auditiva de breve duración (“memoria ecoica”). De éste análisis se obtienen unas claves acústicas o propiedades que se combinan para dar lugar a los fonemas.

Las claves acústicas que nos permiten identificar propiedades fonéticas son en su mayoría dependientes del contexto acústico. Pero algunas claves sí parecen estar relacionadas con rasgos fonéticos específicos.

ANÁLISIS ACÚSTICO-FONÉTICO

Este es el primer nivel de análisis en que se efectúa un procesamiento propiamente lingüístico de la señal. El objetivo de esta etapa es identificar los segmentos o fonemas del habla. En ella las claves acústicas se acoplan a los rasgos distintivos fonéticos, esto es, a las propiedades acústico-articulatorias en que se descomponen los fonemas de la lengua.

Los rasgos fonéticos son representaciones abstractas que sirven de mediadores entre los planos físico (acústico) y lingüístico (fonético). Asimismo, en esta etapa se verifica la categorización perceptiva del habla, es decir, se descubren las constancias perceptivas que nos permiten identificar sonidos discretos, resolviéndose los problemas de segmentación y variabilidad antes aludidos.

Algunos investigadores han propuesto la existencia en este nivel de unos “detectores de rasgos” o mecanismos neurales especializados en la identificación de rasgos fonémicos distintivos.

ANÁLISIS FONOLÓGICO

En esta última etapa los rasgos y segmentos fonéticos identificados en la etapa anterior son convertidos en segmentos fonológicos, es decir, en representaciones abstractas de los sonidos que se someten a reglas combinatorias para formar unidades superiores como las sílabas y las palabras.

En este nivel ciertas distinciones fonéticas dejan de ser fonológicamente relevantes para convertirse en variaciones alofónicas del mismo fonema (el mismo sonido con dos variantes o alófonos). Ciertos fenómenos de asimilación o transformación fonética que aparecen vinculados a procesos de derivación morfológica se explican en virtud de reglas fonológicas que operan en este nivel.

El resultado del análisis fonológico es una secuencia lineal de fonemas organizados en una estructura jerárquica de constituyentes fonológicos. Esta estructura jerárquica viene dada por la estructura de la sílaba, que comprende el inicio u onset, formado por una consonante o grupo consonántico inicial de carácter opcional, y la rima o rime, que a su vez se divide en dos constituyentes menores: el núcleo vocálico y la coda o terminación consonántica, también opcional.

Como señalábamos al comienzo, no parece haber acuerdo sobre la realidad psicológica de cada uno de estos niveles de procesamiento en la percepción del habla ni sobre el curso temporal de estos cuatro procesos y sus posibles interacciones.

Hay autores que consideran inadecuado postular un nivel independiente de representación fonética debido a la dificultad de hallar un acoplamiento sistemático entre claves acústicas y segmentos fonéticos. Por ello, optan por aplazar la resolución del problema de la ausencia de invarianza hasta un nivel superior de procesamiento, es decir, hasta los procesos de acceso al léxico.

Como han observado Pisoni y Luce, si se elimina el nivel fonético tampoco habrá razones para postular un nivel fonológico de procesamiento, dado que en tal caso careceríamos de la representación de entrada a este nivel.

Es preciso recordar que las “representaciones fonémicas” no están presentes en la señal de habla, sino que son suministradas por el propio perceptor a partir de información de que dispone en su memoria. Así, aunque los procesos de transformación acústico-fonética estén dirigidos inicialmente por propiedades de la señal, es decir, que sean procesos de “abajo-arriba”, también dependen del uso de información superior, es decir, transmitida de “arriba-abajo”.

Existen pruebas comúnmente aducidas a favor de la existencia de procesos de transformación acústico fonética donde cabe resaltar la investigación sobre la “percepción categorial” de segmentos fónicos y sobre los mecanismos de detección de rasgos.

La percepción categorial

¿De qué depende la percepción categorial del habla? Esta pregunta da paso a otras más específicas aunque no menos importantes. Una es la cuestión del innatismo “computacional”, que se refiere en qué medida esta forma de categorizar los sonidos del habla depende de nuestra experiencia con el lenguaje; ¿se trata de una habilidad aprendida o de una capacidad innata?

Otra es la cuestión de la especificidad de dominio del sistema de percepción del habla: hasta qué punto la percepción categorial se aplica exclusivamente a estímulos de habla o caracteriza también nuestra percepción de los continuos de no habla (estímulos musicales, zumbidos…).

Y por último la cuestión de la especificidad humana de este sistema perceptivo: en qué medida la percepción categorial del habla es privativa de la especie humana o compartida por otras especies animales.

La percepción del habla en bebés

Estudia las habilidades de categorización de continuos del habla desde edad muy temprana y si los bebes comparten con los adultos los mismos valores críticos de discriminación. Los estudios más conocidos respecto son los llevados a cabo por Peter Eimas y colbs.

Éstos deseaban comprobar si bebés de pocas semanas dividían continuos de habla en categorías discretas y si lo hacían en torno al valor de TEV (dimensión de variación o “tiempo de omisión de voz”) de + 25 mseg. La tarea empleada fue el procedimiento llamado “succión de elevada amplitud”, que consistía en suministrar al bebé un chupete o tetina que llevaba incorporado un sensor para registrar los movimientos de succión realizados por el bebé.

En el experimento se habituaba al bebé escuchar repetidamente un estímulo hasta que la tasa de succión decaía por efecto de la habituación. Una vez alcanzada la línea base de respuesta se procedía a presentar otro estímulo, que podía caer dentro o fuera de la categoría fonémica del estímulo previo. Los resultados mostraron que los bebés sólo respondían a modificaciones introducidas en el TEV cuando estas modificaciones suponían un cambio de categoría fonémica.

La interpretación de estos resultados, dado que a tan corta edad los bebés apenas han podido disponer de la experiencia lingüística suficiente para fijar el valor crítico de discriminación de fonemas, es que esta habilidad debe considerarse innata, es decir, el valor de TEV necesario para discriminar entre consonantes sonoras y sordas se halla genéticamente programado.

En otros estudios se ha comprobado que los bebés muestran una sensibilidad muy temprana no sólo hacia los estímulos del habla, sino también hacia los que corresponden a la lengua que se habla en su comunidad. Estos datos constituyen un apoyo indudable a las hipótesis innatistas del desarrollo del lenguaje, aunque dejan abierta la posibilidad de un influjo precoz de la experiencia prenatal.

Mecanismos de detección de rasgos fonémicos

La percepción categorial de los sonidos del habla constituye una prueba de que los procesos de percepción del habla están basados en la identificación de propiedades fonéticas a partir de claves acústico-articulatorias presentes en la señal.

Según algunos autores, en los procesos de acoplamiento acústico-fonético desempeñan un papel fundamental los detectores de rasgos, sistemas especializados en la detección de propiedades fonéticas a partir de la inspección de fragmentos de la señal de habla.

Según estas teorías, los detectores funcionan en paralelo y pueden solaparse unos con otros. Cada uno tiene un umbral de respuesta que le hace sintonizar de forma variable con los estímulos que recibe.

Una prueba reciente de la existencia de estos detectores procede del fenómeno conocido como “adaptación selectiva”. Se describe como el desplazamiento, en uno u otro sentido, de la frontera entre categorías fonémicas (ej: sonoro-sordo) por efecto de la exposición repetida al sujeto de un mismo estímulo.

Así, si a un sujeto se le presenta repetidamente la sílaba /ba/, al cabo de varias presentaciones se producirá una fatiga del detector de fonemas sonoros y una sensibilidad reducida hacia los estímulos de esa categoría. Por ello, la probabilidad de identificar como sordo (/pa/) un fonema sonoro (/ba/) aumentará.

Liberman ha subrayado que la relación entre claves acústicas y representaciones fonéticas es bastante indirecta, y que el proceso de acoplamiento acústico-fonético no es tanto un proceso de “acoplamiento” como de “integración”. Según esto, puede haber claves acústicamente dispares que, en cambio, contribuyan de forma equivalente a producir un mismo efecto perceptivo. Liberman ilustró este fenómeno, conocido con el nombre de relaciones de intercambio entre claves acústicas.

Especificidad de la percepción categorial

Por lo que se refiere a la especificidad de dominio de la percepción categorial, hay que resaltar d o s h e c h o s . Por una parte, no puede afirmarse que todas las distinciones acústicas que son fonéticamente relevantes se discriminen de manera categorial.

Por otra, el fenómeno de la percepción categorial no sólo se produce en continuos de habla, sino también en continuos de estímulos de no habla. Esto apunta a que la percepción categorial sea una característica general de la percepción auditiva (los parámetros de discriminación perceptiva del habla (TEV) toman sus valores de parámetros de la capacidad auditiva general) y la percepción del habla se halle sometida a procesos aplicados “horizontalmente” a través de distintos dominios estimulares. Los datos relativos a la especificidad de la especie avalan esta interpretación.

Con respecto a la especificidad de especie, Kuhl y Miller comprobaron que la percepción categorial de fonemas oclusivos a partir del TEV no es exclusiva de la especie humana, sino que se manifiesta en otras especies, como en las chinchillas.

La conclusión más obvia es que la percepción categorial es una capacidad perceptiva no exclusiva de la especie humana y, por eso mismo, basada en recursos no lingüísticos de PI. La mera capacidad para discriminar claves acústicas no equivale a la capacidad para identificar fonemas de la lengua, para lo que hace falta algo más.

Teorías acerca de la integración acústico-fonética

Teoría motora de la percepción del habla

Según esta teoría la identificación fonética se efectúa mediante un sistema de procesamiento especializado en la percepción de sonidos del habla distinto del sistema empleado en la percepción de los restantes estímulos auditivos, lo que determina un modo específico de procesamiento, el llamado: modo del habla.

El modo de habla se podría definir como un canal de procesamiento de señales auditivas permanentemente sintonizado a aquellas propiedades acústicas de la señal que pueden ser integradas en un estímulo de habla. Este sistema se halla adaptado a un código en virtud del cual la estructura fonética del lenguaje se impone sobre las propiedades acústicas de la señal del habla.

Este código se define a su vez, en términos de las propiedades articulatorias y coarticulatorias de los sonidos. Es decir, existe un vínculo directo entre los sistemas de percepción y producción del habla que permite al oyente determinar qué gestos articulatorios realiza el hablante, y con ello cuáles son los segmentos fonéticos que produce.

Así pues, la idea central de esta teoría es que el habla se percibe gracias a nuestro conocimiento tácito o inconsciente del modo en que se produce. Esta teoría postula como mecanismo básico de la percepción del habla un mecanismo de análisis por síntesis que comprende, por un lado, procesos de extracción de información de la señal (análisis) y por otro, procesos de generación «interna” de sonidos a partir de claves acústicas analizadas y del conocimiento de las propiedades articulatorias de los sonidos del habla (síntesis).

Esto permite explicar cómo se resuelven problemas tan complejos como el de la variabilidad de la señal física del habla y el del procesamiento de propiedades globales del habla pertenecientes a niveles superiores de representación. La variabilidad se resuelve por medio de la integración de claves acústicas con representaciones articulatorias, una integración que no se produce estrictamente de abajo-arriba, sino de forma interactiva, acoplando conjuntos de claves acústicas a representaciones fonémicas discretas.

El mecanismo de análisis por síntesis permite también incorporar a los procesos de percepción del habla propiedades más globales o de orden superior de las emisiones lingüísticas como la estructura suprasegmental (acento y entonación) y métrica (silabificación) dado que estas propiedades pueden influir sobre los procesos de integración acústico-fonética.

Las pruebas empíricas más destacables a favor de la teoría motora son de tres tipos. Primero, hay evidencia de que los juicios perceptivos de los oyentes varían sustancialmente en función de información previa sobre las características de la voz del hablante. El sistema perceptivo ajusta sus parámetros a las características acústicas de la fuente de emisión, modelando los gestos articulatorios de dicha fuente.

Una segunda prueba a favor es el fenómeno denominado “percepción duplex”. Como ya se indicó, las transiciones de los formantes o variaciones en las bandas de frecuencia de los sonidos sirven para discriminar entre categorías fonéticas diferentes.

Liberman diseñó un experimento en el que aisló de forma artificial el 3o formante del espectrograma de una sílaba, separándolo del resto de la configuración espectral, presentando cada parte por separado a cada oído (presentación dicótica). Los oyentes informaban de 2 perceptos diferenciados.

Así pues, una única clave acústica (la transición del formante) daba lugar a 2 perceptos independientes y simultáneos: cuando la clave acústica aislada era integrada por otras claves acústicas, se formaba un percepto unitario (la sílaba /da/o /ga/); cuando no lo era, se percibía como un estimulo de no habla. Liberman lo interpretó como un mecanismo de filtrado de la señal acústica, que inspecciona la señal para extraer de ella propiedades que puedan ser integradas en la estructura fonética.

Cuando la transición del formante es percibida en el “modo de habla”, es aprovechada para identificar fonemas; cuando no lo es, es objeto de un análisis acústico en el sistema auditivo general.

La tercera prueba a favor de la teoría motora procede de estudios sobre integración de información visual y auditiva en la percepción de sonidos de habla. Si la teoría es correcta, cualquier información sobre las propiedades articulatorias del habla que pueda ser empleada en la identificación de sonidos será utilizada por los oyentes y, por tanto, influirá en los juicios y respuestas perceptivas de los sujetos.

Cuando a bebés de pocos meses se les presentan estímulos de habla (vocales) emparejados con imágenes de un hablante efectuando los gestos articulatorios correspondientes, los bebés muestran un mayor interés por la estimulación visual cuando ésta coincide con el estímulo percibido auditivamente. Esto sugiere que los bebés poseen un conocimiento tácito de la relación entre las consecuencias auditivas y visuales de la articulación de fonemas.

Otra prueba concluyente en este sentido es el efecto McGurk. Hallaron que cuando a un sujeto perceptor se le presentan estímulos auditivos y visuales contradictorios en cuanto a sus consecuencias fonéticas, los sujetos adoptan de forma inconsciente una solución de compromiso entre ambas fuentes de estimulación.

Si el estímulo auditivo es una consonante con un punto de articulación anterior (la consonante bilabial /ba/), y el estímulo visual muestra a un hablante articulando una consonante posterior (ejemplo, consonante velar /ga/), el percepto resultante es una consonante dental /da/, cuyo punto de articulación se encuentra a medio camino entre los de las consonantes percibidas por cada modalidad sesorial. Así, se origina un percepto que no es ni puramente visual ni auditivo, sino fonético-articulatorio.

Teoría auditiva de la percepción del habla

Según esta teoría la percepción del habla no requiere ningún sistema especializado de procesamiento, sino que el habla se percibe por medio de los mismos mecanismos que cualquier otro estímulo auditivo. Esta teoría reúne una variedad de modelos y explicaciones en muchos aspectos divergentes entre sí. En términos generales, los enfoques auditivos tienden a rechazar la idea de que la percepción del habla sea específica de “dominio y especie”.

Rechazan las explicaciones basadas en mecanismos de análisis por síntesis a favor de mecanismos más analíticos. Así, los partidarios de este tipo de explicación tienden a investigar los mecanismos de procesamiento temprano de la señal, situados en los niveles auditivos de análisis.

Esto puede traer dos consecuencias. Por una parte, hay autores para quienes la señal de habla no es tan variable como se supone, sino que en el nivel acústico existen propiedades invariantes que permiten efectuar un acoplamiento microestructural directo entre las propiedades físicas y las representaciones fonéticas.

Una clave acústica que parece estar directamente asociada con propiedades articulatorias de los fonemas es la transición del segundo formante. Este acoplamiento microestructural tiene lugar en la etapa de análisis auditivo central.

Por otra parte, otros autores sostienen que las propiedades invariantes de la señal acústica no emergen en el nivel micrfoestructural, sino en niveles macroestructurales, y en concreto, en el nivel léxico. Desde este punto de vista se mantiene que la señal de habla estimula unos “patrones neurosensitivos” que representan formas léxicas almacenadas en la memoria.

Estas representaciones léxicas están formadas por “plantillas espectrales” (representación de una secuencia ideal de claves acústicas) o secuencias de representaciones espectrales prototípicas. A medida que el oyente recibe fragmentos de la cadena hablada, va computando sobre la marcha representaciones espectrales de la señal (que KLATT denomina “difonos”) y comparando estas representaciones con las que tiene almacenadas en la memoria (plantillas espectrales).

La característica fundamental de las plantillas y de los difonos es que contienen información sensible al contexto acústico en el que se producen, esto es, que son dependientes del contexto. Sin embargo, estas representaciones no corresponden a unidades fonémicas discretas, sino que del nivel acústico se accede directamente al nivel léxico. Por ello, al modelo de KLATT de reconocimiento de palabras, basado en un acoplamiento macroestructural, se le conoce como acceso al léxico a partir de espectros.

La percepción del habla continua

La percepción del habla continua viene determinada por la señal física, información lingüística e información extralingüística que el oyente tiene almacenada en su memoria. Los sonidos del habla se encuentran inmersos en un contexto lingüístico (sílabas, palabras, oraciones, etc.) que el sujeto perceptor analiza e interpreta mediante procesos que operan de forma concurrente con los procesos de identificación de sonidos.

Por consiguiente, es posible que los procesos psicolingüísticos más inmediatos a los de la percepción del habla (reconocimiento de palabras, análisis sintáctico o comprensión del significado oracional) ejerzan un influjo descendente o de “arriba-abajo” sobre ellos.

Una consecuencia del carácter activo de la percepción del habla continua es que el procesamiento de la señal acústica no tienen por qué ser exhaustivo, no es preciso identificar todos los segmentos fonémicos de la entrada sensorial para acceder a otros niveles superiores de procesamiento como el reconocimiento de palabras.

En consecuencia, puede decirse que a partir de los niveles de análisis fonético y fonológico, se produce una interacción entre procesos de identificación de segmentos fonéticos a partir de claves acústicas, por un lado y procesos de acceso al léxico a partir de representaciones fonológicas por otro.

Hay varias pruebas del influjo de procesos superiores de reconocimiento sobre mecanismos perceptivos elementales:

1. Efecto de la restauración de fonemas: sustitución inconsciente de material fonético, ausente de la señal acústica, por un estímulo de no habla presente en la señal (legi*latura: el fonema /s/ se sustituía por una tos o un zumbido: la mayoría de los sujetos percibían la palabra “legislatura” de manera intacta). Este efecto desaparecía cuando el fonema ausente pertenecía a una pseudopalabra (“apismatura”).

La restauración también se efectúa cuando el fragmento sustituido abarca más de un fonema (“le***latura”), e incluso se halla condicionada a los contextos sintáctico y semántico en que se encuentra la palabra crítica. El efecto de la restauración se acomoda a una palabra semánticamente congruente con el contexto oracional inmediato.

2. Efecto de la restauración de errores: el sujeto, de forma inconsciente, sustituye estímulos de habla erróneos (“serveza”) por las formas correctas (“cerveza”). Este efecto se registra consistentemente con la tarea de “seguimiento”, en la que el oyente recibe un mensaje verbal por vía auditiva y tiene que repetirlo en voz alta de forma simultánea a su recepción, y a la mayor brevedad posible.

3. Fenómeno de “escucha selectiva”: cuando se somete a un oyente a una tarea de escucha dicótica instruyéndole a que efectúe un seguimiento de uno de los canales, se registran una serie de efectos originados por el material presentado por el canal no atendido. En determinadas circunstancias, el mensaje no atendido puede provocar interferencias en la tarea de seguimiento cuando comparte ciertas características con el mensaje atendido.

Estos hallazgos ponen de relieve que la información lingüística de orden superior se halla disponible desde las primeras etapas del reconocimiento y puede influir sobre los procesos de percepción del habla continua.

Los procesos de reconocimiento del habla están abiertos a influencias de niveles superiores de procesamiento, es decir, que la información suprasegmental (prosódica y métrica), léxica, sintáctica y semántica impone restricciones sobre los procesos de percepción del habla continua, y que estas restricciones operan de forma automática e inconsciente.

No obstante, no se puede concluir que la percepción del habla continua sea un proceso completamente distinto de la percepción de sonidos aislados. Más bien se debe subrayar que la percepción del habla es un proceso sujeto a dos tipos de determinantes: restricciones impuestas por las propiedades físicas de la señal y restricciones impuestas por las representaciones lingüísticas que se recuperan en niveles superiores de procesamiento.

Ambas clases de información convergen e interactúan en algún punto. Lo difícil es establecer a partir de qué momento del procesamiento de la señal comienzan a ejercer sus efectos los procesos de identificación de unidades lingüísticas de carácter superior (ej. palabras y oraciones). Los procesos de reconocimiento de palabras podrían ser un terreno adecuado para ello.

La Percepción del Lenguaje: Teorías principales