análisis humita sicoacústico de sala

RR · Mensaje por RR » Dom 28 Ene 2007 , 18:49

wynton escribió: El aspecto extraño de la gráfica se debe a un problema de ajuste de escalas.

¿También la plataforma del principio? Es que no aciertro a ver el desplazamiento de la cresta conforme bajamos en frecuencia... Puedo mandarte el impulso si quieres, por si depende de sus dimensiones, pero no creo que sea eso. Es decir, ¿por qué tu delta sale distinto?

De la existencia del compresor no tenía idea. Tal cual está ahora el script, creo que no puedo implementarlo, porque una respuesta impulsiva no incluye en si misma su nivel medido en dB-SPL.

Creo que el compresor va detrás de la elevación al cuadrado del impulso, no creo que haya problema.

Lo que nos podemos plantear es hacer una batería de análisis donde el impulso inicial sea el mismo y a cada ejecución del script le suponemos un nivel SPL de referencia en una banda ERB de referencia (1 kHz por ejemplo). Así podemos ver si el sistema es más o menos inmune al "loudness" humano. Pero esto sería cuando acabemos la fase alfa.

Es posible (vamos, es seguro) que habrá alguna variación de los resultados con el nivel, no sé si importante. Así que habría en su momento que escalar los impulsos a un nivel normalizado, ¿digamos "como si fueran" 85 dB? No sé, quizá sea mucho. Pero en su momento.

No sé hacerlo. Tal cual lo entiendo, la ventana de P&O es una integración ponderada en el tiempo del cuadrado de la señal. Tras ella se pierde la información en frecuencia: ¡No tengo valores negativos!

Sí sabes. Para esto da lo mismo tener el cuadrado del impulso que la raíz cuadrada de la ventana, lo que importa es el tipo de ponderación que se va introduciendo conforme nos alejamos en el tiempo, ¿no?

De todos modos, he equivocado lo de la predicción de las curvas de loudness, no era en este artículo. Lo busco.

wynton · Mensaje por **wynton** » Lun 29 Ene 2007 , 13:54

Hola,

he implementado la ventana de Plack&Oxenham a lo bestia, con una convolución FIR. El PC no se muere, lo que demuestra que ahora pueden hacerse cosas que hace 10 años eran impensables por lentas. He sacado el resultado de la delta filtrada por bandas ERB,y luego convolucionada por la ventana P&O en tabla de datos a gnuplot (o importable excel, para los viciosos del Office).

Ejemplo de resultados (Eje x tiempo en segundos, eje y nivel en dB):

Imagen

Es la propia forma de la ventana P&O salvo que retrasada y atenuada en pico conforme disminuye la frecuencia. Se pueden ver los extremos de la ventana (en algún sitio tengo que cortar el FIR)

Yo aquí no veo información en frecuencia. Es decir, no puedo pasar los filtros gammatone tras la convolución de la ventana P&O. Y no le veo sentido a invertir los términos del proceso. Porque esa es otra: ¿Esto significa que la delta resuena decenas de milisegundos en nuestros oidos? Pues parece ser que eso significa.

Si le hacemos un filtrado en bandas de frecuencia a la ventana P&O entonces ¿Qué significa? Pues yo creo que no significa nada.

¿Y que el pico nos llegue antes en alta que en baja frecuencia? Pues entiendo que los responsables en la simulación son los gammatone filters. Entiendo que en parte para eso están.

¿Qué ocurre cuando pasamos a waterfall (de valores promediados, que sino el gnuplot se muere)? Pues que son gráficos que los carga el diablo.

A escala brutal y con angulo mal elegido:
Imagen

No se ve ná. Acercamos la escala.

Imagen

Coge forma de P&O window.

en espectrograma:
Imagen

Se ven un poco mejor algunas cosas.

¿qué puede hacerse para disponer de más detalle en frecuencia? Pues tomar bandas de menos de 1 ERB. Hay una variable en el script que se llama ERBStep. Se cambia al paso deseado y a correr.

*******************************************************

Última versión del script y de las librerías:

http://rapidshare.com/files/13927476/er ... a.rar.html

Yo creo que ya empiezo a tenerlo algo más claro. A ver si le enchufo un compresor.

RR · Mensaje por RR » Mar 30 Ene 2007 , 22:56

Hola:

Menos mal que lo ves más claro, yo lo veo más confuso... puede que eso sea buena señal.

Te paso los links de lo del loudness. Es muy interesante, porque es otro ángulo sobre el problema de la construcción subjetiva (o más bien sensorial) del sonido, la sonoridad en este caso, con las bandas críticas de por medio.

http://www.hitech-projects.com/hera/peo ... /aar91.pdf
http://www.hitech-projects.com/hera/peo ... aar92a.pdf

Aparte, cuando te decia lo de la ponderación P&O, me refería a una simple ventana sobre el impulso (estática, digamos), no una integración. ¿Tiene sentido? Te pasaré, vulnerando los copyrights pero poco, un AES paper que hizo algún ruido en su momento, sobre un "espectro central", también con bandas críticas de por medio, y un tipo de ponderación curiosa.

Otra duda, que improviso: ¿La convolución equivale a un promedio móvil? Lo digo porque en la convolución a uno de los impulsos se le da la vuelta (en el tiempo) antes de promediar. Mmmm... El promedio es más bien la correlación, ¿no?

Por cierto, ya me salen gráficas decentes. Bravo.

Mensaje por **Luismax** » Mié 31 Ene 2007 , 9:49

Hola.

¿Wynton por qué en esta ventana la curva de 13Khz. se corta con un muro?.

Imagen

¿Es por esto que dices?.

wynton escribió: Se pueden ver los extremos de la ventana (en algún sitio tengo que cortar el FIR)

wynton escribió: ¿Esto significa que la delta resuena decenas de milisegundos en nuestros oidos? Pues parece ser que eso significa.

Eso parece y también que entre 60Hz y 13Khz. la diferencia de "salida" es de centésimas y la de llegada.... no lo tengo claro sin saber que es la caída brusca por la derecha pero poco.

Son valores muy bajos, que no se que aplicación tendrían en un "análisis de sala".

wynton escribió: ¿Y que el pico nos llegue antes en alta que en baja frecuencia?

Va a ser que como dijo el mago las frecuencias altas viajan más rápido que las bajas.

esa es la parte "humita" de la propuesta.

wynton escribió: Yo aquí no veo información en frecuencia.

De variaciónes en frecuencia, ni yo.

En las gráficas de cascada y espectro ya no entiendo nada de nada.

Os sigo de leeeeejos.

wynton · Mensaje por **wynton** » Mié 31 Ene 2007 , 13:33

RR escribió: Otra duda, que improviso: ¿La convolución equivale a un promedio móvil? Lo digo porque en la convolución a uno de los impulsos se le da la vuelta (en el tiempo) antes de promediar. Mmmm... El promedio es más bien la correlación, ¿no?

Exacto. A la ventana de Plack&Oxenham se le da la vuelta antes de la convolución, de tal forma que queda como una correlación. Es un promedio móvil.

Hasta donde yo he entendido, la gráfica se explica así: nuestro oido no tiene una capacidad de discriminación ni en frecuencia ni en tiempo infinita, sino que depende del del espectro del sonido percibido, de lo que haya percibido antes y de lo que percibirá despues.

En una banda ERB, el nivel percibido estará dominado por el sonido más alto recibido dentro esa banda (uno de los modelos sicoacústicos empleados en la compresión tipo mp3, creo). Los demás podrán quedar enmascarados. Y además, puede quedar enmascarado por otros efectos de tipo temporal:

- Un sonido que va a venir despues (pendiente pronunciada a la izquierda). Es el efecto menos importante.
- Un sonido que ya nos llegó (pendiente de la derecha). Lo importante.

De tal forma que el nivel percibido en un instante depende de lo ocurrido en el tiempo anterior y de lo que ocurrirá en el tiempo siguiente. Estas influencias son, evidentemente, menores conforme nos alejamos del instante concreto (la ventana de P&O) y son asimétricas (es más importante el pre-enmascaramiento que el post-enmascaramiento). Finalmente, conocida la importancia de cada efecto, solo queda integrar.

Una vez integrada, la señal en ese punto pierde su información en frecuencia.

Siempre según este modelo (que no discutimos por motivos obvios), no percibimos una reverberación que decaiga con pendiente más pronunciada que nuestro nivel de enmascaramiento. O un rebote cercano frente a uno lejano, dependiendo de los niveles de los rebotes y del nivel del sonido directo, podrá percibirse uno u otro.

Claro que aquí falta la dirección de llegada del sonido, que permite superar en parte estas limitaciones. Estamos trabajando en primera aproximación.

wynton · Mensaje por **wynton** » Mié 31 Ene 2007 , 13:56

Aqui lo vemos para el análisis sicoacústico de una delta. En términos coloquiales, todo el conjunto de sonidos que produzca unas curvas de este tipo, sonarán igual, a "delta". Aunque le pongamos "rebotes", si quedan por debajo de lo predicho en cada curva (aproximadamente) para cada banda ERB, no lo oimos.
Un rebote de la delta a 10 ms y atenuado -20 dB no lo oimos (según el modelo).

Y esto nos acota la utilidad de los tratamientos acústicos o de las ecualizaciones, porque hay un punto en que estamos modificando por debajo de nuestro umbral de percepción y va a dar igual. ¿Se oye un comb filter? Pues ahora quizás podamos saber porque parece que a veces no.

Luismax escribió: ¿Es por esto que dices?.

Si, es el final del FIR. Las exponenciales se extienden en el infinito, pero valores de -230 dB no tienen sentido acústico.

atcing · Mensaje por **atcing** » Mié 31 Ene 2007 , 15:15

Hola

Siempre según este modelo (que no discutimos por motivos obvios), no percibimos una reverberación que decaiga con pendiente más pronunciada que nuestro nivel de enmascaramiento. O un rebote cercano frente a uno lejano, dependiendo de los niveles de los rebotes y del nivel del sonido directo, podrá percibirse uno u otro.

Esto explicaría que con difusión (aunque quede digamos "reflexiones retardadas") también se puede conseguir un sonido de claridad parecida a la que se consigue con absorción, no?

.
En casa voy haciendo pruebas y cuanta más difusión profunda coloco el sonido más me recuerda a cuando tenía la sala con absorbentes de 60cms. Ahora hay algo más de aire que antes pero el sonido tiene esa sensación subjetiva de claridad y rapidez que me gusta a pesar de no haber absorbido las reflexiones.

Un saludete

luegotelodigo · Mensaje por **luegotelodigo** » Jue 01 Feb 2007 , 11:34

atcing escribió:Esto explicaría que con difusión (aunque quede digamos "reflexiones retardadas") también se puede conseguir un sonido de claridad parecida a la que se consigue con absorción, no?

No, más bien creo que explicaría que no podamos distinguir entre el waterfall de un driver y el de otro mejor a partir de un límite (cuando el sonido se extingue más rápido en el aire que en nuestras orejotas).

atcing · Mensaje por **atcing** » Jue 01 Feb 2007 , 12:45

No, más bien creo que explicaría que no podamos distinguir entre el waterfall de un driver y el de otro mejor a partir de un límite (cuando el sonido se extingue más rápido en el aire que en nuestras orejotas).

Claro.............. pero ese hecho explicaría el otro......... el porqué aun quedando reflexiones si están suficientemente retardadas como para estar por debajo de ese límite de nuestro oido no mejoraríamos más por mucho que continuáramos bajando el RT, luego simplemente con difusión se podría llegar al mismo nivel de claridad percibido que al aire libre .........

Un saludete

luegotelodigo · Mensaje por **luegotelodigo** » Dom 04 Feb 2007 , 13:34

Pues no, cuanto más retardadas las reflexiones, más audibles. Otra cosa es que sean agradables o no.

El enmascaramiento es el que te impide oír un fenómeno y esa curvas te dicen si es audible o no en función de atenuación y desfase temporal.

atcing · Mensaje por **atcing** » Dom 04 Feb 2007 , 14:27

Pues no, cuanto más retardadas las reflexiones, más audibles

Claro, pero menos se mezclan con el sonido directo y te permite escuchar extensiones sin "tapar" información grabada. El problema viene cuando distan poco en tiempo del sonido directo y todo es un auténtico barullo ininteligible.
Que a mi las reflexiones no me molestan!!

sólo lo hacen cuando pierdes inteligibilidad

Un saludete

wynton · Mensaje por **wynton** » Lun 05 Feb 2007 , 14:21

Hola,

estoy preparando una forma de "ver" todo esto. Al final suele ocurrir que tienes un modelo, aplicas sus algoritmos a una situación y obtienes unas manchas de las que no sabes que sacar.

Mi idea es mirar el fenómeno de esta forma:

Para cada banda ERB mostramos una gráfica con el RMS del filtrado por el gammatone correspondiente (amarillo) y con el filtrado ponderado por la ventana de Plack&Oxenham (rojo). Y añadimos como referencia (curva marrón) una función delta filtrada por el mismo gammatone, ponderada por ventana P&O y normalizada para que su pico tenga el mismo valor que a curva roja.

En principio entiendo que hay dos aspectos a mirar:
- Posición temporal del pico con respecto al ideal anecoico.
- Caida temporal de la sonoridad aparente según el modelo sicoacústico aplicado comparada con la del ideal anecoico (resonancias).
- Suavidad o rizado de la caida temporal (reflexiones marcadas).

Pues aquí van algunas gráficas de ejemplo (la medida empleada es la misma que aquí):

Imagen

wynton · Mensaje por **wynton** » Lun 05 Feb 2007 , 14:26

En breve subo la nueva versión de los scripts de python y gnuplot.

Estoy pensando en pasar estas gráficas a una tabla de distancia entre picos, pendiente de la regresión lineal y algún tipo de evaluación del rizado. De esta forma será más manejable.