Információ

Hangmagasság -észlelés - miért nem észlelik a hiányzó alapot közvetlenül a kagylóban?


Tanulok a hangmagasság érzékeléséről, és megismertem a hiányzó alap esetét.

A wikipédia-oldal fő képén úgy tűnik, mint az alsó grafikon, az alapfrekvencia és a második harmonikus eltávolításával, hogy a hullám még mindig nagyon periodikus 100 Hz-en. Mivel a Corti-szervnek van bizonyos területe, amelyet gerjeszteni kell, amikor 100 Hz-es hanghullám van, miért nem gerjeszti közvetlenül az orgona adott régióját ez a hanghullám, amely 100 Hz-en periodikusnak tűnik?

Valaki elmagyarázná a belső fül működését és részletezné, hogy a hiányzó alapvető miért nem aktiválja a fülkagylót? Fordítva, hogyan lehet hallani a 100 Hz-et, amikor a cochlea nem is aktiválódik ezen a frekvencián?


A belső fülben lévő baziláris membrán (cochlea) helyfüggő Fourier-transzformátor (1. ábra). Ez azt jelenti, hogy van egy rendezett tonotopikus térkép a basilaris membránra (BM). A BM-re kifejtett haladó hullámok az ossicle láncon és az ovális ablakon keresztül az alaptól indulnak és egészen a csúcsig terjednek. Útközben a BM rezonanciafrekvenciája fokozatosan csökken, ahogy a BM szélesebb és rugalmasabb lesz (mint a zongora húrok).

Most, ha egy bizonyos frekvencia hiányzik, a BM nem mozog ezen a frekvenciahelyen, és így a szőrsejtek nem aktiválódnak, és az adott jellemzővel rendelkező neuronok sem aktiválódnak. Hogy a fenében hallani még ezt a frekvenciát?

A felharmonikus szerkezet határozza meg a hangmagasság felfogását, nem pedig a legalacsonyabb harmonikus. Agyunk érzékeny a frekvencia különbség egyik felharmonikusról a másikra, és erre a különbségre alapozza a hang „valódi” magasságát. Ezt "különbség hangnak" nevezik. Amikor két tiszta hangot hall, a fül és az agy kivonja az egyik frekvenciát a másikból, és "hall" egy hangot, amelynek gyakorisága ilyen különbség (forrás: Tajvani Nemzeti Egyetem).

1. ábra Frekvencia hangolás a cochleában. forrás: New York University


Hangmagasság diszkrimináció

A rendelkezésre álló bizonyítékok alapján a pontos hangmagasság-megkülönböztetéshez kétoldali primer hallókéregre van szükség, míg a hangmagasság-intervallum meghatározása nagy valószínűséggel a bal féltekére lateralizálódik, és a pontos dallamkontúr észlelést végző jobb frontotemporális régióktól függ. Úgy tűnik, hogy a skála és a harmónia észlelése függ a kétoldalú, rosszabb frontális régióktól, amelyek valószínűleg inkább jobbra, mint balra féltekén vannak lateralizálva. A tembrikus megkülönböztetés szorosan összefügg a jobb agyfélteke tevékenységével. Mind a ritmus, mind a mérő kétoldalú félgömb ábrázolással rendelkezik, bizonyos mértékben függ a kisagyi és a bazális ganglionok működésétől. Az időbeli zenei változók kölcsönösen disszociálhatónak és a dallamos változóktól is elválaszthatóknak tűnnek.


A hiányzó alap esete

Mindennapi életünkben természetesnek vesszük azt a tapasztalatot, hogy közvetlen kapcsolatban vagyunk a világgal: látunk, hallunk, megérintünk, kóstolunk, szagolunk. Ott vagyunk, jelen vagyunk, ahogy a világ kibontakozik körülöttünk.

Az idegtudomány legújabb felfedezései azonban kimutatták, hogy bármennyire is meggyőzően mondják érzékszerveink, hogy közvetlen kapcsolatban vagyunk a külvilággal, a tapasztalat valójában egy összetett mentális konstrukción keresztül jön létre, amelyet egy életen át tartó próbálkozások és tévedések során építettünk fel. Az érzékszerveinken keresztül beérkező adatokat agyunknak kell feldolgoznia ezzel a modellel, mielőtt tudatosság -észleléssé válhat.

Amikor gyerekként megtanulunk labdát fogni, a nehézségek egy része az, hogy mire a vizuális adatokat agyunk feldolgozta és felismerte, a labda már elmozdult onnan, ahol látjuk. Az agykép közel negyed másodperccel elavult, így a sikeres fogáshoz tapasztalatból meg kell tanulnunk, hogyan kell előre előre vetíteni a labda helyét.

Egyáltalán nem vagyunk közvetlen kapcsolatban a világgal.

Ahogy a Duke Egyetem idegtudósa, Dale Purves [1] rámutat, a hanggal kapcsolatos tapasztalataink is mentális konstrukciók. A meghallgatás ugyanazon az alapelven működik, mint a látás: két érzékszervön keresztül veszi fel az adatokat, és egy komplex meghallgatási modellen keresztül dolgozza fel azokat, mielőtt tudatos tapasztalattá válna.

Az fizika rezgés, rezonancia és hanghullámok történnek a való világban.

A miénk észlelés ennek a valóságnak a tapasztalata az elménkben.

Sikeres élőlényekként (vagyis még életben!) Feltételezhetjük, hogy hallási modellünk elég pontosan illeszkedik a fizikai valósághoz ahhoz, hogy túlélhessük a valós világban.

A modellünk és a valós világ közötti kapcsolat a térkép és az általa ábrázolni kívánt terep viszonya. A térkép nem a terep.

Ennek nagyon érdekes következményei vannak. A különbség frekvencia és hangmagasság jó példa.

GYAKORSÁG ÉS PIT

A gyakoriság annak a mértéke, hogy milyen gyorsan rezeg valami.

A rezgés ciklikus. Gondoljunk egy hintázó gyerekre - a lengőülés hátra és előre mozog, minden ciklus elején áthalad a központi pihenőhelyén, majd a végén, visszafelé, hogy elindítsa a következő ciklust.

A gyakoriság az egy másodperc alatt teljesített ciklusok száma. Az egység cycle másodpercenként Hertz (Hz) nevet kap. A 10 Hz 10 ciklus/sec. A 0,1 Hz egy lassú ciklus 10 másodpercenként.

A frekvencia a fülét érő hanghullámok tulajdonsága. A hangmagasság az agyad eredménye, amikor a fül által kapott frekvenciaadatokat szenzoros élménnyé rekonstruálja.

A hangmagasság a „magasság” vagy a „gyengeség” érzete, amikor hangot hallunk. A hangmagasság észlelés, nem külső fizikai valóság.

Össze lehet hasonlítani a hallás hangmagasságát a látás színével. A színérzékelés az a mód, ahogy agyunk megjeleníti a külvilágból származó adatokat, amelyek a szemünk által beszívott fény frekvenciájára vonatkoznak. A „piros” az érzékelési válaszunk az alacsonyabb fényfrekvenciákra, a „lila” pedig a magasabb frekvenciákra.

A hangmagasság, amit ezen a hangfelvételen fog hallani, egy zongora hangja alacsony A:

Hangfájl 1: Zongora alacsony A hang

(Ha lehetséges, használjon jó minőségű fejhallgatót.)

Dúdolhatja ezt a hangmagasságot, és mindannyian egyetlen hangként éljük meg az ehhez hasonló hangokat. Még a jegyzeteket is megnevezzük: ezt például A -nak hívják2.

TÖBB A GYAKORLATRÓL

Az alábbi diagram az éppen hallgatott zongorahang frekvenciaelemzését mutatja.

1. ábra: A zongora teljesítményének alacsony spektruma

Ezt a diagramot a frekvencia teljesítmény spektrum, és ez azt mutatja, hogyan sugárzik az energia a rezgő zongorahúrból, amelyet a hangszer soundboardja erősít.

Egyetlen tiszta hang csak az egyik csúcs a spektrumban.

Tehát itt van az első jelzés a különbség a frekvencia - mérhető mennyiség - és a hangmagasság között, amely az agy által előállított érzés. Egyetlen hangmagasságot hallunk, és a többi frekvencia -emelkedést a hangszín a hangjegyről, így könnyen azonosítható zongoraként.

Bizonyos frekvenciákon a zongora egyáltalán nem sugároz energiát, miközben keskeny diszkrét frekvenciasávokban szivattyúzza ki az audio energiát. Ezt a spektrumcsúcs -sorozatot a harmonikus sorozatés abból fakad, hogy egy húr rezeghet és nem rezeghet.

Most átállok a zongorahangszerekről a gitárhangszerekre [2].

A következő hangfájl az, ahogy a nyitott 5 -ös gitárhúr pengetéskor hangzik:

2. hangfájl: 5 -ös gitárhúr (A)

Ez a gitár A 110 Hz -es húr hangjának spektruma:

2. ábra: Gitár spektruma 110 Hz -es húr

A hangot alkotó frekvenciacsúcsok 110, 220, 330, 440, 550, 660, 770, 880 és 990 Hz-en vannak.

Ezek mind az alap, a 110 Hz többszörösei. Matematikailag a csúcsokat a következő módszerekkel lehet megjósolni:

ahol n -t harmonikus számnak nevezik (1, 2, 3 stb.).

Figyeljük meg egyébként, hogy a gitárhúr harmonikus keveréke nem olyan gazdag, mint a zongorahang. Hallja a hangok közötti különbséget a hangszín tekintetében, ami a hangokat alkotó harmonikus keverékből fakad.

AZ OKTÓV INTERVAL

A következő diagram a Fret 2 -n játszott G gitár vonalának spektrumát mutatja, egy második A hangot adva.

Először hallgassa meg a megjegyzést:

3. hangfájl: gitár G húr a 2. hangon

Így néz ki a spektrum:

3. diagram: Egy gitár G húr spektruma, amelyet a második hangon játszanak

A csúcsok itt 220, 440, 660 és 880 Hz -en vannak [3].

Azt várná, hogy ez másképp szóljon, mint az eredeti A hangjegy, 110 Hz -en az alaphanggal, és ez így is van. A legtöbb ember a hangmagasság-különbséget egy oktávnyi ugrásként ismeri fel.

A HIÁNYOS ALAP

Furcsa és érdekes dolgot fogsz tapasztalni. Az alábbiakban két hangfájl található, amelyek közül az első egyszerűen a gitár nyitott A string (5. sztring) hangjegy.

4. hangfájl: Gitár Egy megjegyzés

Tudjuk, hogy alapja 110 Hz, harmonikus sorozatát pedig f adjan= n × 110.

A második hangfájl ugyanaz a hangjegy, de egy szűrő segítségével eltávolítottam az első frekvenciacsúcsot 110 Hz-nél, így a hangjegy többi részét érintetlenül hagytam.

5. hangfájl: Doktori gitár Egy hangjegy az alapelemekkel eltávolítva

Íme a mesterségesen módosított hang spektruma:

4. ábra: A gitár spektruma Egy húr, amelyen az alap (110 Hz) el van távolítva

Itt van valami teljesen természetellenes - 220, 330, 440, 550 Hz harmonikus sorozat. Természetes sorozat, amely 220 Hz-en kezdődik, amint az ábrán látható 3. diagram, menne 220, 440, 660, 880 Hz.

Hasonlítsa össze a két hang hangját (Hangfájlok 4 és 5). Tekintettel arra, hogy a doktorált hangnak most van a legalacsonyabb csúcsa 220 Hz -en, azt várhatja, hogy a hangmagasságot oktávként hallja - de nem!

Mesterségesen el kellett távolítanom az alapvető felhasználást Vakmerőség’s bevágás szűrő. Nincs a világon az én doktoros jegyzetemnek megfelelő természetes hang, így az agyad kötelességszerűen visszahelyezi a hiányzó frekvenciát.

A hangmagasság-felismerés bizonyos mértékig be van kötve az agyba, vannak a hangmagasságnak szentelt központok, és a fül minden bizonnyal kiváló hangmagassági adatokat szolgáltat az agy számára. „Tudjuk”, hogy a hiányzó alapvető elemet leszámítva a doktorált hangban található frekvenciák az A 110Hz -vel azonos harmonikus sorozatot alkotnak.

Agyunk nem vesztegeti az idejét azon, hogy vajon miért nincs meg az alapvető - ehelyett csak kitölti a hiányt.

MIT TANULHATUNK EZ felől?

Eltekintve a fizika és az észlelés bonyolult kapcsolatának feltárásától, a fő szempont a pszichoakusztika jelentősége annak meghatározásában, hogy mit hallunk. Például egyetlen beszélgetésre összpontosíthatunk egy zajos szobában a háttér kiszűrésével.

A pszichoakusztika sokkal többet vonz, mint az önmagunk által felépített észlelési audio modell. Tágabb ismereteink és feltételezéseink is beépülnek a folyamatba.

Például mindenki ismeri a legjobbnak a Stradivarius hegedűt, annak ellenére, hogy számos vakpróba kimutatta, hogy a hegedűs szakértők gyakran nem választják ki a Stradot más kiváló minőségű hangszerek közül. Talán azoknak a tapasztalatai, akik játszanak és hallgatnak Stradivarius hangszereket, a feltételezéseinkből fakadnak, mint maguk a hangszerek valóban kiváló minősége.

A gitárok iránt érdeklődőknek különösen a Gore And Gilet monumentálisját tudom ajánlani Kortárs akusztikus gitár 1. és 2. kötet. Az 1.1.2-1.1.3 szakaszok a fül működését mutatják be a támadás és a leromlás, az érdesség és különösen a maszkolás szempontjából.

Ezek a kötetek zseniálisak, és nem tudom őket eléggé ajánlani.

A zene mint biológiaPurves, Dale Harvard University Press, 2017

Kortárs akusztikus gitár 1. és 2. kötetGore, Trevor és Gilet, Gerard Trevor Gore kiadó, 2011

Erről videó is készült Youtube Trevor, aki megosztja tudását az akusztikus gitárok fizikájáról:

[1] A zene mint biológiaPurves, Dale Harvard University Press, 2017

[2] A váltás oka, hogy a zongorán nagyszámú csillapítatlan húr található, amelyek szabadon rezonálhatnak egy adott billentyű leütésekor. A 220 Hz -es A oktáv spektruma tüskét mutatott 110 Hz -en, mert ez a karakterlánc visszhangzott, amikor a 220 Hz -es húr megszólalt.

[3] Azok számára, akik kíváncsiak az 50 Hz -es nagyon éles csúcsra, ez a helyiség 50 ciklusos áramellátásából származik.


Szenzáció és észlelés (kvíz válaszok)

kritérium: annak kiszámított értéke, hogy egy tartományon belül melyik értéknél váltja át a választ az egyik alternatíváról a másikra (amikor a telefon hangosabban cseng, így biztos lehet benne, hogy valóban csörög)

lencse: állítható optikai eszköz a szaruhártya és a pupilla mögött, amely segíti a fény fókuszálását a retinára

üvegtesti humor: átlátszó folyadék, amely kitölti a szem térfogatának nagy részét, és segít elhajlítani a fényt a retinához vezető úton

retina: a szem hátsó részében, és olyan sejteket tartalmaz, amelyek érzékelik a fényt, és jelzik annak jelenlétét az idegsejteknek, amelyek információt küldenek az agynak

- A fotoreceptorok kétféle formában vannak: rudak és kúpok

- rudak: elsősorban a retina perifériás részén helyezkednek el, és kis térfogatú, kis térbeli élességű fény észlelésére specializálódtak. a legtöbben diffúz bipoláris sejtekhez küldik az információkat, amelyek nagyszámú rúdtól kapnak bemenetet, ami tovább fokozza a nagyon gyenge jelek észlelésének képességét.

- kúpok: elsősorban a retina közepén helyezkednek el, és nagy mennyiségű fény érzékelésére specializálódtak, nagy térélességgel, és három különböző hullámhossz érzékenységgel rendelkezhetnek (rövid, közepes, hosszú), amelyek a hullámhossz érzékelésünk alapját képezik. és színét. Jellemzően kis számban küldik el információikat törpe bipoláris sejteknek, megőrizve ezzel a kúpok nagy térélességét.

- a diffúz bipoláris sejtek információt küldenek a napernyő (M) ganglionsejteknek, míg a fiatalkorú bipoláris sejtek információt küldenek a fiatalkorú vagy (P) ganglionsejteknek


Köszönetnyilvánítás

Ezt a munkát az NIH támogatása támogatta az X.W. és D.B. Köszönjük B. Delgutte-nak, D. McAlpine-nak, E. Youngnak, B. Moore-nak és a Laboratory of Auditory Neurophysiology tagjainak a kézirattal kapcsolatos megjegyzéseiket és javaslataikat, valamint A. Pistoriónak, E. Bartlett-nek és E. Issa-nak a segítségüket állatgondozás. E. Issa adatokat szolgáltatott a jellemző gyakorisági térképekhez. Szerző közreműködése D.B. és X.W. tervezte a kísérletet és társszerzője volt a dolgozatnak. D.B. elvégezte az elektrofiziológiai felvételeket és az adatok elemzését.


Anyagok és metódusok

Kísérleti alanyok

Görények (Mustela putorius furo)

Ebben a vizsgálatban öt felnőtt nőstény pigmentált görényt (6–24 hónapos korban) képeztek ki. A teljesítményszámítások becslései szerint öt állat volt a minimális megfelelő mintaméret az 1-farkú páros összehasonlításhoz alfa = 5%, közepes (0,5) hatásméret és béta = 20%. A görényeket 2-3 fős csoportokban helyezték el, szabadon hozzáférve az élelmiszer -pelletekhez. Az edzés jellemzően 5 egymást követő napon fut, majd két nap pihenőt követ. A görények szabadon ihattak vizet az otthoni dobozaikban lévő palackokból a pihenőnapokon. Az edzésnapokon az ivóvizet pozitív megerősítésként kapták a feladathoz, és este nedves táplálékként egészítették ki annak biztosítására, hogy minden görény naponta legalább 60 ml/kg vizet kapjon. Rendszeres otoszkópos és typanometriai vizsgálatokat végeztek, hogy megbizonyosodjanak arról, hogy az állatok fülei tiszták és egészségesek, valamint az állatorvosi ellenőrzések érkezéskor és azt követően évente megerősítették az állatok egészségességét. Az állatkísérleteket az Oxfordi Egyetem Állatgondozási és Etikai Felülvizsgálati Bizottsága hagyta jóvá, és az Egyesült Királyság Belügyminisztériumának engedélye alapján hajtották végre, az 1986. évi Animals (Scientific Procedures) Act-nek megfelelően.

Emberek

16 felnőtt ember (kilenc férfi, 18-53 éves átlagéletkor = 25,3 év) hangmagasság -besorolási teljesítményét is megvizsgálták, ami 60% -os bétát biztosított a görényeknél leírt teljesítményszámításokban. Minden alany arról számolt be, hogy normális a hallása. Valamennyi, emberen végzett kísérleti eljárást jóváhagyott az MIT -ben az emberek kísérleti alanyként való felhasználásával foglalkozó bizottság.

A módszer részletei

Cochleáris szűrő szimulációk

Cochleáris szűrő bankot használtunk, amelyet korábban Patterson és munkatársai fejlesztettek ki. (1992), és Slaney (1993) hajtotta végre, hogy szimulálja a baziláris membránon lévő hangok ábrázolásait. A modell szimulálja a baziláris membrán komplex hangokra adott válaszát párhuzamos Gammatone szűrők halmazaként, amelyek mindegyike eltérő jellemző frekvenciával és egyenértékű téglalap alakú sávszélességgel (ERB) rendelkezik. Annak érdekében, hogy összehasonlíthassuk a harmonikus tónuskomplexusok reprezentációját az emberi és a görény cochleában, ezt a modellt úgy módosítottuk, hogy az emberi cochleáris szűrők pszichofizikai becsléseiből (Glasberg és Moore, 1990), vagy a görény hallóideg-felvételeiből származó szűrőkonstansokat használjunk (Sumner és Palmer, 2012). Ezen források alapján az i szűrő egyenértékű téglalap alakú sávszélességét az emberi kagylóban a következőképpen számították ki:

ahol f i a szűrő középfrekvenciája Hz -ben.

A görénykagyló esetében az egyes szűrők egyenértékű téglalap alakú sávszélességét a következő lineáris illesztéssel becsülték meg Sumner és Palmer (2012) adataihoz:

A fenti Gammatone szűrőbank mindegyik csatornájának kimenetét félhullámmal egyenirányították, majd tömörítették (0,3-as teljesítményig), hogy szimulálják a belső szőrsejtek általi hangátvitelt. Végül a kimenetet aluláteresztő szűréssel 3 kHz-en (FIR szűrő, 3 sávos sáv, 4 kHz-es leállási sáv, 60 dB csillapítás) tükrözi, hogy tükrözze a hallóidegszálak fáziszárolási határát. Ez a modell -architektúra hasonló a korábbi tanulmányokban használthoz (pl. Karajalainen, 1996 Roman et al., 2003).

Oktatóberendezés

A görényeket arra tanították, hogy megkülönböztessék a hangokat egyedi tervezésű tesztkamrákban, amelyek dróthálóból készült ketrecből (44 × 56 × 49 cm) készültek, szilárd műanyag padlóval, akusztikus habbal bélelt hangszigetelt dobozba helyezve a visszhangok csillapítására. A ketrec egyik fala mentén három műanyag orrütköző csövet helyeztek el, amelyek egy belső vízkifolyót tartalmaztak: egy központi „indító kifolyót” és két „válaszcsövet” balra és jobbra (2A. Ábra). A görények orrpiszkálását úgy észlelték, hogy megtörték az infravörös LED -sugarat a cső nyílásán, és mágnesszelepek segítségével vizet juttattak a kifolyókból. A hangingereket, beleértve az akusztikus visszacsatolási jeleket, egy hangszórón (FRS 8 Visaton, Crewe, Egyesült Királyság) keresztül mutatták be, amely a központi kifolyócső fölé volt szerelve, és amelynek lapos reakciója (± 2 dB) volt 0,2 és 20 kHz között. A viselkedési feladatokat, az adatgyűjtést és az ingergenerálást automatizálták egy egyedi MATLAB (The Mathworks, Natick, MA, USA) kódot futtató laptop és egy valós idejű processzor (RP2 Tucker-Davis Technologies, Alachua, FL, USA) használatával. ).

Előképzés

A görények naponta két edzést futottak, és edzésenként általában 94 ± 24 próbát teljesítettek (átlag ± szórás). Számos előkészítő szakaszt hajtottak végre, hogy alakítsák az állatok viselkedését osztályozási feladatunkhoz. Az első ülésen az állatok vízjutalmat kaptak, amikor az orruk bármelyik kifolyóra bökött. Ezt követően csak akkor kaptak vízjutalmat, amikor felváltva váltották a központi és a perifériás kifolyókat. A perifériás válaszcsövekből származó vízjutalom (0,3–0,5 ml vizsgálatonként) nagyobb volt, mint a központi indítócsőnél (0,1–0,2 ml vizsgálatonként). Az állatnak 300 ms-ig a központi orrbökésben kellett maradnia, hogy vízjutalmat kapjon a kifolyóból.

Miután az állatok hatékonyan elvégezték ezt a feladatot, a következő ülésen hangingereket vezettek be. Minden kísérlet elején ismétlődő tiszta hang „referencia” (200 ms időtartam, 200 ms hangközi intervallum, 60 dB SPL) mutatott be, jelezve, hogy a központi kifolyó aktiválható. Az orr a központi kifolyóra bökve 100 ms késleltetés után ismétlődő komplex hang „célpontot” mutatott be (200 ms időtartam, 200 ms hangközi intervallum, 70 dB SPL). Az állatnak ismét a központban kellett maradnia 300 ms-ig, és a korai kibocsátások most „hiba” szélessávú zajkitörést (200 ms időtartamú és 60 dB SPL) és 3 másodperces időtúllépést eredményeztek az új kísérlet megkezdése előtt. . A célhang két lehetséges F0 érték egyikét vehette fel, amely a két perifériás kifolyócső egyikének megfelelő jutalmaknak felelt meg (jobb jutalom magas F0 céloknál, bal pedig alacsony F0 értékeknél). A képzési és tesztelési szakaszokban a célhangok azonos frekvenciatartományban lévő harmonikusokat tartalmaztak, így az állatok nem használhattak spektrális határértékeket a hangok osztályozására. A célhang addig játszott, amíg az állat a megfelelő perifériás kifolyónál nem reagált, ami vízjutalmat eredményezett. Miután az állatok elvégezhették ezt a végső előképzési feladatot & gt70% -os pontossággal a kísérletek során, továbbléptek a hangmagasság osztályozási teszteléshez.

A fázisok és az ingerek tesztelése

A komplex hangcélt kísérletenként csak egyszer mutatták be, és a hibás perifériás kifolyóválasztás hibazajt és 10 másodperces időtúllépést eredményezett (2B. Ábra). Egy ilyen hiba után a következő próba hibajavító próba volt, amelyben a bemutatott F0 megegyezett az előző próbával. Ezeket a kísérleteket azért vezettük be, hogy elrettentsük a görényeket attól, hogy mindig ugyanazon a perifériás kifolyón válaszoljanak. Ha a vadászgörény a célbemutatás után 14 másodpercig nem válaszolt egyik perifériás kifolyón sem, a vizsgálatot újrakezdtük.

A referencia tiszta hang frekvenciáját az alacsony és a magas cél F0 között félúton állítottuk be egy log skálán. Megvizsgáltuk a görények hangmagasság-osztályozási teljesítményét két komplex hangcélpár segítségével, külön kísérleti blokkban: az elsőben 500 és 1000 Hz-es F0-sek (707 Hz-es referencia), a másodikban pedig 150 és 450 Hz-es célpontok (260 Hz-es referencia). A 150 és 450 Hz -es célokat úgy választottuk, hogy átfedjék az F0 tartományt, amelyet emberi hallgatókban teszteltünk (alább). Az 500 és 1000 Hz-es feltételt belefoglalták, mivel a görények gyakran jobban teljesítenek a hangmagasság-megkülönböztetési feladatokban ebben a tartományban, mint az alacsonyabb F0-s hangoknál (Walker et al., 2009). Négy görényt képeztek ki a 707 Hz -es referenciára. Ezen állatok közül kettőt, valamint egy további naiv állatot a 260 Hz -es referencián tanítottak. A tesztelés minden esetben három szakaszon keresztül zajlott, amelyben a görény feladata változatlan maradt, de az ingerparaméterek egyedi halmazát megváltoztatták (3. és 4. ábra), az alábbiak szerint. A görényeket a 260 és 707 Hz -es referencia -feltételekhez rendelték, a tesztelés idején való rendelkezésre állásuk alapján.

1. szakasz: A célhangok hangkomplexumok voltak, amelyek széles frekvenciatartományon belül tartalmazták az összes harmonikust (a 4B. ábra mutatja). A célingerek párjait vagy egy oktáv (kétszeres 500 és 1000 Hz -es tényező) vagy háromszoros (150 és 450 Hz) távolságra választottuk, hogy a felharmonikusok tartománya pontosan illeszkedjen a spektrális tartományba. Amikor egy állat ezt a feladatot >gt75%-ban helyesen hajtotta végre három egymást követő alkalommal (32,8 ± 7,1 alkalom a kiképzés kezdetétől átlag ± szórás n = 4 görény), a 2. szakaszba került.

2. szakasz: A kísérletek 80% -án ugyanazokat a szabványos célhangokat mutatták be az első szakaszból. A kísérletek másik 20%-a „próbakísérlet”, amelyben a görényt a választott perifériás kifolyótól függetlenül jutalmazták, időtúllépés vagy hibajavítási kísérlet nélkül. A próbakísérleteket véletlenszerűen összeillesztettük a standard kísérletekkel. A szonda ingerei csak abban különböztek egymástól, hogy rózsaszín zajt (0,1–10 kHz) adtak a célhangokhoz, hogy elfedjék a lehetséges cochleáris torzítási termékeket F0 -nál. A zajmaszkoló szintjét úgy állítottuk be, hogy az F0 középpontba helyezett Gammatone szűrő kimenetén (a sávszélesség a görény hallóideg méréseivel egyező sávszélességgel [Sumner és Palmer, 2012]) 5 dB -rel alacsonyabb volt a szint. a cél tiszta hangkomponenseit. Ez azért konzervatív, mert a torzító termékek várhatóan legalább 15 dB-rel alacsonyabbak lesznek az ingerkomponensek szintjén az embereken végzett mérések alapján (Norman-Haignere és McDermott, 2016 Pressnitzer és Patterson, 2001). Amikor egy állat három egymást követő ülésen elvégezte ezt a feladatot, és gt75% -ban helyesen, a 3. szakaszba léptek.

3. szakasz: A második szakaszból származó szonda -inger „standard” hangként szolgált a kísérletek 80% -ában, és minden inger (mind a standard, mind a szondák) tartalmazta a fent leírt rózsaszín zajmaszkot. A vizsgálatok húsz százaléka szondakísérlet volt, mint a 2. szakaszban, de ez a szakasz olyan hangokat tartalmazott, amelyeket a rendelkezésre álló hangmagasság -jelzések megváltoztatására manipuláltak. Az egyes felharmonikusok felbonthatóságát a korábban publikált hallóideg -felvételekben rendelkezésre álló ERB mérések segítségével becsültük meg (Sumner és Palmer, 2012). Egy adott F0 esetében a felbontott felharmonikusok számát F0 és a hallóidegszálak sávszélességének arányaként közelítettük, ezen az F0 -n jellemző frekvenciával, amint azt Moore és Ohgushi (1993) leírták, és Osmanski és mtsai. (2013). Ez a mérés 1 és 8 közötti felbontott harmonikát eredményezett a görények esetében, az F0 -tól függően (4A. Ábra). A szonda ingereinek négy típusát mutatták be: (1) „alacsony felharmonikusok”, amelyek csak feloldottnak feltételezett felharmonikusokat tartalmaztak; ugyanazt a harmonikuskészletet tartalmazta, mint a szabvány, de fázisai egymástól függetlenül véletlenszerűen lettek randomizálva, hogy csökkentsék a hangmagasság időbeli burkológörbéjét, és (4) a „High Harmonics Random Phase”, amely tartalmazza a „High Harmonics” ingerekben jelen lévő harmonikusokat, de randomizált fázisok. A szonda -ingerek sáváteresztési határértékeit úgy választottuk meg, hogy az „Low Harmonic”, de nem a „High Harmonic” szondák feloldott felharmonikusokat tartalmaztak a görény hallgatók számára. Minden egyes próbaingert legalább 40 kísérleten mutattak be minden görény esetében, míg a standardot több mint 1000 kísérleten tesztelték görényenként.

Emberi pszichofizikai feladat

Az emberi alanyokat egy hangmagasság-osztályozási feladaton tesztelték, amelyet úgy terveztek, hogy a lehető leghasonlítóbb legyen a görények feladatának 3. szakaszához (lásd fent). 16 alany megkülönböztette a 180 és 220 Hz-es cél F0-t. A kisebb F0 különbség miatt, amely eléggé megnehezítette a feladatot az emberi hallgatók kihívásához (Walker és mtsai, 2009), nem sikerült egyeztetni az „Low Harmonic” és az „All Harmonic” ingerek alsó spektrális élét. görényekért tette. Az ingereket azonban úgy állítottuk be, hogy a magasabb F0 célpont alsó spektrális éle legyen. Ennek eredményeként ezek az éljelzések nem egyeztek az F0 -val. Mivel a visszacsatolás nem biztosított, nem valószínű, hogy az alanyok megtanulhatták volna az alacsonyabb spektrális élt a magasabb F0-val társítani, és fordítva. Ez az inger tehát összezavar, ha valami valószínűleg megnehezítette a feladatot az „alacsony harmonikus” és az „összes harmonikus” körülmények között. Mivel fő megállapításunk az, hogy az emberek relatív teljesítménye jobb volt, mint a görényeké ilyen körülmények között, nem valószínű, hogy ez befolyásolta volna a kulcsfontosságú eredményeket.

A pszichofizikai feladat során az emberi hallgatóknak ugyanazokat az ingerosztályokat mutatták be, mint a vadászgörényeknél. A szonda ingerek frekvenciatartományait a 4B. A hangokat fejhallgatón (Sennheiser HD280) mutatták be egy hangcsillapított fülkében (Industrial Acoustics, USA). A vizsgálat elején ismétlődő referencia tiszta hang (200 ms időtartam, 200 ms hangközi intervallum, 60 dB SPL) került bemutatásra, és az alany kezdeményezte a célharmonikus hang komplex (200 ms időtartam, 70 dB SPL) bemutatását gombnyomás. A számítógép monitorán megjelenő szöveg ezután megkérdezte az alanyt, hogy a hallott hang alacsony vagy magas hang volt -e, amit az alanyok egy másik gombnyomással válaszoltak (1 = alacsony, 0 = magas). Minden kísérlet után visszajelzést adtak a monitoron annak jelzésére, hogy az alany helyesen válaszolt -e. A standard ingerekre adott helytelen válaszok szélessávú zajkitörést (200 ms-os időtartam és 60 dB SPL) és 3 másodperces időtúllépést eredményeztek a következő vizsgálat megkezdése előtt. Hibajavító kísérleteket nem alkalmaztak humán alanyoknál, mivel nem mutattak erős válaszeltolódást. A standard harmonikus komplex tónusokat a kísérletek 80% -ában mutatták be, és a négy szondát ("Low Harmonics", "High Harmonics", "All Harmonics Random Phase" és "High Harmonics Random Phase") a véletlenszerűen összefűzött 20% -ban mutatták be. próbák. A szondakísérletekre adott visszajelzések mindig „helyesek” voltak, függetlenül a hallgatók válaszától. A tesztelés előtt az emberek 10 gyakorló próbát kaptak a szokásos ingerekkel, hogy megtanulhassák, melyik inger alacsony és magas, és hogyan kell reagálni a billentyűzettel. Minden egyes próbaingert alanyonként 40 kísérletben, míg a standardot alanyonként 680 kísérletben tesztelték.

Számszerűsítés és statisztikai elemzés

Pszichofizikai adatelemzés

A hibajavító kísérleteket kizárták az összes adatelemzésből, csakúgy, mint bármely olyan vizsgálati munkamenet adatait, amelyben az alany kevesebb, mint 60% -os pontosságot ért el a standard vizsgálatok során. A statisztikai szignifikancia értékeléséhez végig T-teszteket és ANOVA-kat használtak, amelyek alfa-értéke 5%.

Mivel a négy görény közül csak 3 volt kiképezve mindkét referencián (a végső görény csak a 707 Hz-es referenciafeltételen volt kiképezve), a görényadatok elemzéséhez használt ismételt ANOVA mérések erre a három görényre korlátozódtak. Ez az ANOVA azt mutatta, hogy a teljesítményhatások nem változtak szignifikánsan az állatok között. Ezért az elemzés többi részét elvégeztük, miközben a görényeket a két feltétel között önálló intézkedésként kezeltük, lehetővé téve mind a négy görény beillesztését (különben az ANOVA kiegyensúlyozatlan lenne). Mivel az állatok viselkedését nagyon munkaigényes begyűjteni, úgy döntöttünk, hogy feláldozzuk az ismételt mérési elemzést a negyedik görény bevonására. Mindenesetre eredményeink kellően robusztusak voltak ahhoz, hogy ne igényeljék az ismételt mérések elemzésének további érzékenységét.

Az 1. és 5. ábrán a hibasávok az átlag ± standard hibákat mutatják. Az itt leírt statisztikai tesztek további részleteit táblázatokként adjuk meg (1a-1k kiegészítő fájlok).

Mivel az emberek összességében magasabb százalékos helyes pontszámot értek el, mint a görények a viselkedési feladat során, a fajok teljesítményének közvetlen összehasonlításakor a szondapontokat normalizáltuk a standard pontszámokkal szemben. Az egyes fajok pontszámát minden próbaállapotban a következőképpen ábrázoltuk:

ahol P n o r m az a faj normalizált szonda pontszáma az i szondán, P a i az a faj százalékos helyes pontszáma az i próbán, és S a az a faj százalékos helyes pontszáma a standard vizsgálatokban. Ha az a faj teljesítménye sértetlen egy adott i próbaingerre a standard ingerhez képest, akkor P n o r m a i 1 lesz. Ha a hallgatók teljesen képtelenek megkülönböztetni a szonda F0 értékét, akkor P n o r m a i = 0 .

Az ebben a kéziratban kifejlesztett adatok és egyedi szoftverek elérhetők a Dryad archívumban.


2 válasz 2

Ezt hívjuk a hangmagasság-észlelési biz-ban, a & quotoktáv probléma& quot.

Először is az AMDF -et ASDF -re cserélném. És nem csökkenteném az ablak méretét, ahogy nő a késés. (Ezenkívül megváltoztatom a jelölést a hagyományosabbra. "$ X [n] $" diszkrét idejű jel.)

A $x[n]$ átlagos négyzetes különbségfüggvénye (ASDF) a $x[n_0]$ minta közelében:

$ Q_x [k, n_0] triangleq frac <1> sumlimits_^ left (x [n+n_0- left lfloor tfrac<2> jobb rfloor] - x [n+n_0- left lfloor tfrac<2> jobb rfloor + k] jobb)^2 $

$leftlfloor cdot ight floor$ is the floor() function and, if $k$ is even then $ leftlfloor frac<2> ight floor = leftlfloor frac<2> ight floor = frac <2>$ .

Now, expand the square and consider what the summations look like as $N o infty$ (not that $N$ van going to infinity, but to give you an idea if $N$ is large). The ASDF is directly related to the autocorrelation. It is essentially the autocorrelation turned upside down. These steps I will leave to you. take a look at this answer.

So now consider this finite-length "autocorrelation" (in the neighborhood of sample $x[n_0]$ ) defined from the ASDF:

$ R_x[k,n_0] = R_x[0,n_0] - frac12 Q_x[k, n_0] $

$ R_x[0, n_0] riangleq frac<1> sumlimits_^ Big(x[n+n_0-leftlfloor frac<2> ight floor]Big)^2 $

This value $R_x[0,n_0]$ is a measure of the mean power of the signal $x[n]$ in the neighborhood of $n approx n_0$ . Since $Q_x[0,n_0]=0$ and $Q_x[k,n_0] ge 0$ for all lags $k$ , that means that $ R_x[k,n_0] le R_x[0,n_0] $ for all lags $k$ .

Another useful way to look at this autocorrelation taking place in the neighborhood centered at sample $x[n_0]$ is to normalize $R_x[k, n_0]$ with $R_x[0, n_0]$ :

This normalized autocorrelation has $r_x[0,n_0]=1$ and $r_x[k,n_0] le 1$ for all other $k$ .

Suppose for a minute that $x[n]$ is periodic with period $P$ (and $P$ happens to be an integer), then

and $Q_x[mP, n_0] = 0$ and $R_x[mP, n_0] = R_x[0, n_0] ge R_x[k, n_0]$ for any integer number of periods ( $m$ is an integer). So you get a peak at $k=0$ and at $k$ equal to any other multiple of $P$ if $x[n]$ is periodic. If $x[n]$ is nem perfectly periodic, what we might expect is the biggest peak at $k=0$ , another peak (but slightly smaller) at $k=P$ (the period we are looking for) and progressively smaller peaks for larger multiples of $P$ .

We can then expect that the value of the normalized autocorrelation, $r_x[k,n_0]$ evaluated at a lag of $k=P$ or other multiples of $P$ should be pretty close to 1. That value $r_x[P,n_0]$ can be thought of as a measure of the degree of periodicity (sometimes called the pitch confidence) of the estimated period $P$ for the quasiperiodic $x[n]$ in the neighborhood of $n approx n_0$ . If $r_x[P,n_0]=1$ , we can say that $x[n]$ is perfectly periodic with period $P$ . If the best $r_x[k,n_0]$ you can get (with $k$ that's not close to $k=0$ ) is very small, then $x[n]$ shows nem periodicity and your pitch confidence is low.

Így a octave problem comes about because of a couple of reasons. First of all, $P$ is not necessarily an integer. That is an interpolation problem, not a big deal.

The second reason and more difficult problem is that of subharmonics. Consider that you're listening to a nice periodic tone at exactly A-440 Hz and it sounds like an A that is 9 semitones above middle C. Now suppose someone adds to that tone a very tiny-amplitude (like down 60 dB) A-220? What will it sound like and mathematically what is the "true" period?

Choosing the "right" peak for the period.

Let's say you run your note through a DC-blocking filter, so that the mean of $x[n]$ is zero. It turns out that causes the mean of the autocorrelation $R_x[k, n_0]$ for every $n_0$ to also be zero (or close to it if $N$ is large). That means $R_x[k, n_0]$ must sum (over $k$ ) to be about zero which means there is as much area above zero as below.

Okay, so $R_x[0, n_0]$ represents the power of $x[n]$ in the vicinity around $n=n_0$ and must be non-negative. $R_x[k, n_0]$ never exceeds $R_x[0, n_0]$ but can get as large as it when $x[n]$ is periodic. $R_x[P, n_0] = R_x[0, n_0]$ if $x[n+P]=x[n]$ . So if $x[n]$ is periodic with period $P$ and you have a bunch of peaks spaced apart by $P$ and you have an idea for how high those peaks should be. And if the DC component of $R_x[k, n_0]$ is zero, that means in-between the peaks, it kell have negative values.

If $x[n]$ was "quasi-periodic", one cycle of $x[n]$ will look a lot like an adjacent cycle, but not so much like a cycle of $x[n]$ farther down the signal in time. That means the first peak $R_x[P, n_0]$ will be higher than the second at $R_x[2P, n_0]$ or the third $R_x[3P, n_0]$ . One could use the rule to always pick the highest peak and expect the highest peak to always be the first one. But, because of inaudible subharmonics, sometimes that is not the case. sometimes the second or possibly the third peak is oh-so-slightly higher. Also, because the period $P$ is likely not an integer number of samples but $k$ in $R_x[k, n_0]$ is always an integer, so the true peak will likely be in-between integer values of $k$ . Even if you were to interpolate where the smooth peak is (which I recommend and quadratic interpolation is good enough), and how high it really is between integer $k$ , your interpolation alg could make a peak slightly higher or slightly lower than it really is. So choosing the absolutely highest peak can result in spuriously picking the second over the first peak (or vise versa) when you really wanted the other.

So somehow you have to handicap the peaks at increasing $k$ so that the first peak has a slight advantage over the second, and the second over the fourth (the next octave down), etc. How do you do that?

You do that by multiplying $R_x[k, n_0]$ with a decreasing function of $k$ so that the peak at $k=2P$ is reduced by some factor, relative to an identical peak at $k=P$ . Turns out that the power function (not the exponential) does that. so compute

So, if $x[n]$ were perfectly periodic with period $P$ , and ignoring interpolation issues for non-integer $P$ , then

The factor by which the peak for a pitch of one octave lower is reduced is the ratio

So if you want to give your first peak a 1% boost over the second peak, which means you will not choose the pitch to be the sub-harmonic pitch, unless the sub-harmonic pitch autocorrelation is at least 1% more than the first peak, you would solve for $alpha$ from

That is the consistent way to weight or de-emphasize or handicap the peak corresponding to the subharmonic pitch one octave below.

It still leaves you with a thresholding issue. You have to choose $alpha$ well. But this is a consistent way emphasize the first peak over the second, which is an octave lower, but not so much that if the note really van an octave lower, but the energy in all of the even harmonics was strong, compared to the odd harmonics, this will still leave a possibility for the second peak being chosen.


Absztrakt

Pitch is one of the most important features of natural sounds, underlying the perception of melody in music and prosody in speech. However, the temporal dynamics of pitch processing are still poorly understood. Previous studies suggest that the auditory system uses a wide range of time scales to integrate pitch-related information and that the effective integration time is both task- and stimulus-dependent. None of the existing models of pitch processing can account for such task- and stimulus-dependent variations in processing time scales. This study presents an idealized neurocomputational model, which provides a unified account of the multiple time scales observed in pitch perception. The model is evaluated using a range of perceptual studies, which have not previously been accounted for by a single model, and new results from a neurophysiological experiment. In contrast to other approaches, the current model contains a hierarchy of integration stages and uses feedback to adapt the effective time scales of processing at each stage in response to changes in the input stimulus. The model has features in common with a hierarchical generative process and suggests a key role for efferent connections from central to sub-cortical areas in controlling the temporal dynamics of pitch processing.


Perception - Lecture notes 1-6

“Out there” (outside of our mental state) there is only fizika and “In here” there is only pszichológia (i.e., neural activity). Physical stimuli are “transduced” into nerve impulses by our sense organs. We experience these as a reconstruction or representation of the world: sounds, shapes, colours, smells, heat, etc. Perception (also Psychophysics) deals with the relationship between physical stimuli &amp their subjective, or psychological correlates. There is no other way for information to enter the brain. Perception determines what we believe is real and mediates everything we have ever learned. An understanding of Perception is crucial to Psychology.

Five Is that it? (Additional?)  Sight (Visual - eyes)  Hearing (Auditory - ears)  Smell (Olfactory - nose)  Taste (Gustatory - tongue)  Touch (Tactile, also Haptic - skin)

 Balance (Equilibrioception, vestibular system)  Body awareness (Proprioception, joints)  Heat (Thermoception, skin/internal)  more? (Debatable)

 Vision  Audition  The Chemical Senses - Gustation - Olfaction  The Body Senses - Somatosensation o Taction/Haptics o Proprioception - Equilibrioception

Areas of Psychology impacted by Perception

  • Apperceptive/Associative Agnosia
    • Inability to recognise objects
    • Due to a perceptual problem, or higher?
    • See also agnosias in other senses (auditory, tactile, etc)
    • Weapons Focus
    • Facial Identification
      • Police Identity Parades
      • Other Race Effect

      Illusions &amp aftereffects

       Illusions of Spatial Vision o Simultaneous brightness contrast o Craik O’Brien/ Corn sweet Illusion o Adelson Checkerboard o Café Wall illusion o The Fraser Spiral  Illusions of Colour Vision o “The Dress” o Colour aftereffects  Illusions of Depth o Perspective (Ames Room) o Julian Beever – pavement art o Steropsis (3D movies) o Autostereograms  AKA “SIRDS” (Single Image Random Dot Stereograms)  AKA “MagicEye™”  Illusions in Faces o Thatcher illusion  Illusions of Motion o Rotating snakes o Motion aftereffect – MAE “Waterfall illusion”

      Transduction  First stage of any sensory process  Receptors turn energy into neural signals  Impulses travel along axons, to terminals which release neurotransmitters across synapses to be received by another cell

      Hierarchical Processing  Neural impulses travel “up” the system to the cortex  “Relay station” in the Thalamus (except for olfaction)  Higher cortical areas also involve lateral &amp feedback connections  Bottom-up o Flow of information from sensory receptors towards “higher” cortical areas with increasing levels of complexity  Top-down o Prior knowledge influences what is perceived  It is NEM a dichotomy – bottom-up and top-down must happen together  Both undeniably exist o There MUST be bottom-up, otherwise how would information get in? o Patients in a coma, or anaesthetised animals show substantial activation through the visual pathway o Top-down influences are clear in the dolphin example,

      successful discrimination o Sometimes called the “just noticeable difference” (JND) o E.g., How different in brightness do 2 circles have to be before we can reliably tell them apart? o Lower is better – means you don’t need much light Adaption: consequences for detection, consequences for perceived intensity &amp discrimination

       Prolonged stimulation results in a decrease in the rate of firing (physiology)  Various perceptual consequences o Increased detection thresholds for same/similar stimuli o Reduction of perceived intensity for similar suprathreshold stimuli o Perceived properties of other similar stimuli can appear biased e.g., the motion aftereffect that you saw in the first hour

      Anatomical Methods (dead brains)

       Visible Differences o White/Grey Matter  Staining o Reveals axons/connections o Reveals cell body density &amp size o Reveals activity (cytochrome oxidase)

      Recording Techniques (live brain)

       Invasive (mostly animals) o Single Cell Recording - Anaesthetised or awake - Microstimulation (awake) - High spatial &amp temporal resolution - Difficult to get the “big picture” o Optical Imaging - Blood flow dependent changes - Small area of cortical surface - Slow response  Non-invasive (mostly human) o Visually Evoked Potential (VEP) &amp Magnetoencephalography (MEG) - Measures electric currents or magnetic fields from cortex with sensors on the scalp - But which cells are responsible? - Fast responses o Positron Emission Tomography (PET) &amp Functional Magnetic Resonance Imaging (fMRI) - PET: inject radioactive glucose &amp track it around the brain - fMRI: differences between oxygenated &amp deoxygenated blood - Slow responses

       Animal studies - Neurotoxins (specific pathway) or surgery (specific area)  Human Neuropsychology - Usually diffuse damage, and often varying patterns of deficit  Problems:

      • Damage to fibres passing through can affect areas far from lesion
      • Brains recover from damage (“plasticity”)
      • Need to know the right test  Transcranial Magnetic Stimulation (TMS)
      • Ideiglenes
      • Magnetic field “knocks out” cells over a broad area
      • Temporally precise, spatially imprecise

      Sound, Ear &amp Brain Auditory Perception

      Sound Sound consists of pressure waves carried by vibrating air molecules.

      Complex Sounds: Adding Waves Together

      Sound waves are “Linear”, i.e., they add together logically (sum the values at each point in time). Natural sounds are a collection of simple sine waves added together. The waveform of any sound can be expressed as a sum of sine waves with different frequencies, amplitudes, and phases. Just as you can add sine waves to make more complex waveforms, you can do the opposite too. Decomposing a complex sound into its component frequencies is called “ Fourier analysis ”.

      We can re-plot the sound as amplitude vs. frequency called a spectrum. The component with the lowest frequency is called the alapvető frekvencia , which gives the sound its characteristic pitch. Harmonic frequencies are components of sound that have a frequency that is an integer multiple of the fundamental frequency

      Fourier Analysis: to decompose a complex sound into its frequency (sine- wave) components. This ‘decomposition’ is usually displayed visually in a spectrogram – a graphical representation of changes in the frequency content of a signal over time. Time is plotted horizontally, frequency is plotted vertically, and amplitude is represented by the darkness of the plot.

      Time is plotted horizontally, frequency is plotted vertically, and amplitude is represented by the darkness of the plot.

      Far more complex than simple sine waves.

      Filters separate things on the basis of a given property e.g., a coffee filter separates things on the basis of particle size. Let’s the liquid through (small particles), but “filters out” the granules (large particles). “Low-pass filter”.

      Fourier filters allow certain frequency components of a sound to pass while blocking others e.g., sound travelling pass the head. Head obstructs high frequencies, thus acts as a low-pass filter.

      Outer Ear Pinna: the flexible flap on the outside of the ear. Focuses sound waves into the ear canal (meatus). Shape &amp size of outer ear have the effect of amplifying medium sound frequencies (1500-7000 Hz).

      Middle Ear The small bones (ossicles) in the middle ear transmit sound energy from the eardrum (tympanic membrane) to the oval window in the inner ear.

      Inner Ear The inner ear contains a small, coiled tube (cochlea), filled with fluid. The oval window is situated at one end of the cochlea. The cochlea is divided in two along its length by the basilar membrane. Sound waves impinging on the oval window displace fluid along the cochlea &amp cause a travelling wave along the basilar membrane.

      Transduction: Inner Hair Cells

      3500 inner hair cells protrude from the basilar membrane. Fluid displacement causes vibration in basilar membrane. This deflects the stereocilia of inner hair cells, generating impulses. The base of each inner hair cell makes

      contact with afferent fibres of the auditory nerve (50,000 nerve fibres).

      Frequency-to-Place Conversion in the Cochlear

      The fluid displacement in the cochlear takes the form of a wave travelling along the basilar membrane. The wave peaks at a particular location, due to the width &amp stiffness gradient along the basilar membrane. High frequencies show largest vibration near the stapes, at the base of the cochlea. Low frequencies show the largest vibration near the apex of the cochlea. This is known as ‘frequency-to-place conversion’.

      Note: fibres still fire a little to frequencies close to their characteristic

      “Frequency-tuned auditory filters”

      Auditory nerve cells filter on the basis of frequency. They let the neural signal through for frequencies that they are tuned to and filter it out for others.

       “ Band-pass filter

      Ascending Auditory Pathway

      Auditory nerve fibres terminate in the cochlear nucleus (one on each side).

      Binaural neurons found in superior olive, taking inputs from both ears.

      Thalamic relay is called the medial geniculate nucleus.

      Tonotopic Organisation: Primary auditory cortex is organised in terms of sound frequency - there is an orderly progression of cell’s preferred frequency across the cortex.

      Outer Hair Cells &amp the Descending Auditory Pathway

       Descending fibres run from auditory cortex to cochlea, with synapses in reverse order to ascending projections.

       Descending projections may be involved in auditory attention and outer hair cell amplification functions.

       More outer hair cells (3 rows) than inner hair cells ( row) yet only 5- 10% of them send signals “upwards”

       Many outer hair cells receive impulses from higher areas, and respond by changing their length - known as their “motile response”

       This serves as a “cochlear amplifier”, making the early auditory processes highly non-linear

      Audition

      Pitch is the perceptual attribute of a sound that corresponds most closely to its frequency.

      Auditory nerve responses are phase-locked to a sound-wave’s frequency below 4-5kHz. Response rate of neural impulses carries information about sound frequency. Assumes the listener discriminated the pitch of sine waves by means of differences in response rate or time intervals between neural firings. Evidence suggests:  Timing theory and rate coding important for pitch of low/mid-range frequency sine waves.

       For high frequencies, place

      Pitch of sine waves.

      Pitch Perception of Complex Tones Contains a series of harmonic frequency components spaced at intervals equal to the frequency or repetition rate of the fundamental. The pitch heard in a complex tone is usually determined by the fundamental frequency.

      A phenomenon known as the “missing fundamental” presents a basic problem for place theory as an explanation of pitch in complex tones.

      The Case of the Missing Fundamental If the fundamental frequency of a complex tone is removed, its pitch is still heard at a frequency that corresponds to the fundamental. Even when the fundamental frequency component is removed. Place theory cannot account for this.

      Pitch Perception: Temporal Theory Phase locking for tones up to 1kHz for individual fibres. Volley principle important for tones up to 4kHz. For higher frequencies, two harmonics should fit into the wider bandwidths of single auditory filters. These “unresolved harmonics” can produce “beats” as their waveforms overlap.

      The frequency of beats from unresolved harmonics is the same as the fundamental. This is known as “residue pitch”. If nerve firing becomes phase locked to this frequency, perhaps temporal theory can account for the missing fundamental? But when lower (resolved) harmonics and higher (unresolved) harmonics specify different fundamentals, human rely more on the resolved harmonics (Plomp, 1967).

      Pitch Perception: Pattern Recognition Theory Goldstein (1973):  Auditory system resolves individual sine wave components and analyses frequencies using place code  Then tries to find a series of harmonically related frequencies that first the resolved components.  Pitch is determined by the fundamental of the best-fitting harmonic series.  Can explain missing fundamental effect, since the pitch of the fundamental is defined by the harmonics present in the stimulus, even when the fundamental is not present. Where does this leave us? For simple sine waves For complex sound waves 1. Place theory : Explains pitch for sine waves very well but not how we discriminate two sine waves at high frequencies. Can’t explain missing fundamental. 2. Timing (rate) theory : Explains pitch for low/ mid frequencies very well.

      1. Temporal theory : Explains low frequencies very well – frequencies up to 4kHz explained by volley principle.
      2. Pattern Recognition Theory : Explains pitch for sine waves similar to place theory. Can explain the “missing fundamental” effect.

      Loudness Perception Loudness is the perceptual attribute thar corresponds to intensity. Different intensities can have equal loudness due to frequency. In loudness matching, adjust the intensity of a comparison or “probe” tone until it matches the loudness of a fixed standard pure tone – method of adjustment (Moore, 1997).  Plot equal-loudness contours  Sensitivity is poor at low frequency  At mid-intensity, low frequency sounds lack loudness compared to high frequency  This is why some stereos have a “base boost”  As intensity increases, the curves flatten out. Models of Loudness Individual Auditory Nerve Fibres: Auditory nerve fibres are tuned to a characteristic frequency (CF), but respond a little to neighbouring frequencies. For a given auditory nerve fibre, you need more intensity at frequencies other than the CF to get the same amount of firing as you would to a CF sound.

      Interaural Time Difference (ITD) Interaural Level Difference (ILD) Difference in time of arrival at each ear depends on azimuth. ITD = time (L ear) – time (R ear) Maximum ITD is approximately 650 microseconds for a stimulus directly to the right or left. For a stimulus directly in front (or behind), ITD = 0. Any given time difference could be either of two possible azimuths (e.g., 0.4msec delay could be 50º or 130º). Processed in Medial Superior Olive in the brainstem.

      The ear furthest from the sound source lies in an “acoustic shadow” cast by the listener’s head.  Intensity is lower at the further ear Difference in intensity at each ear depends on frequency  For low frequencies, differences are small so not useful  For high frequencies, differences are large, so very useful For a stimulus directly in front (or behind), ILD=0. Processes in Lateral Superior Olive in the brainstorm.

      The Cone of Confusion ITD &amp ILD can be ambiguous. Each ITD &amp ILD corresponds to two possible azimuths (i.e., can’t tell front from behind). Also, binaural cues give no information on elevation. As a result, a sound producing a particular ILD &amp ITD could originate from anywhere on the surface of a cone.

      How do we resolve the cone of confusion?

      Head movements for pure tones. Frequency filtering at the pinna also helps resolve complex tones.

      Monaural Sound Localisation Pinnae filter incoming sound waves. Important for sound source localisation on the vertical plane.


      Anyagok és metódusok

      Serkentő

      In Experiment 1, 5 different stimuli were created which each evoked a pitch corresponding to that of a 200-Hz pure tone ( Supplementary Fig. 1 ):

      (1) T: A 200-Hz single-frequency tone

      (2) WB: Wideband complex consisting of the harmonics of a 200-Hz F0 added in cosine phase and low-pass filtered at 2 kHz

      (3) Res: Resolved complex without an F0 component consisting of the harmonics of a 200-Hz F0 added in cosine phase and bandpass filtered between 1 and 2 kHz

      (4) Unres: Unresolved complex without an F0 component consisting of the harmonics of a 100-Hz F0 added in alternating sine and cosine phase and bandpass filtered between 1 and 2 kHz to produce a pitch corresponding to 200 Hz

      (5) Huggins: Huggins pitch stimulus consisting of a Gaussian noise low-pass filtered at 2 kHz and presented diotically, except for a frequency region from 190 to 210 Hz (200 Hz ± 5%). This region was given a progressive phase shift, linear in frequency between 0 and 2Π, in the left ear only. Huggins pitch stimuli contain no distinctive spectro-temporal features at either ear and so offer stringent experimental control to rule out the possibility that an F0 component is introduced via peripheral nonlinearity ( Pressnitzer and Patterson 2001 McAlpine 2004).

      Signals were generated digitally with 16-bit resolution at a sampling rate of 48 kHz. A low-pass noise (filtered at 1 kHz) was added to the missing F0 complexes to mask cochlear distortions. The single-frequency tone 1) included a bandpass noise (filtered between 500 Hz and 2 kHz) in order to match its gross spectral envelope to that of the other stimuli. A “nonpitch” control stimulus was also generated and, to match for the acoustic energy in each pitch stimulus, it consisted of a Gaussian noise low-pass filtered at 2 kHz. Low-pass noise has been the control stimulus of choice for most neuroimaging studies of pitch processing. All the stimuli were matched in terms of gross spectral envelope and overall level (83-dB SPL for the behavioral measurements and 90-dB SPL for the fMRI measurements, measured at the ear). For the behavioral measurements, the noise, when present, had a spectrum level (level in each 1-Hz wide band) of 50 dB (re. 2 × 10 −5 N/m 2 ), the single-frequency tone had a level of 77 dB SPL [50 + 10 log10(500)], the harmonics of the 200-Hz complexes had a level of 73 dB SPL [50 + 10 log10(200)], and the harmonics of the 100-Hz complex had a level of 70 dB SPL [50 + 10 log10100)]. Hence the overall level of each stimulus was the same, and the gross spectral density (i.e., the average power per Hz) was constant from 0 to 2 kHz. With the exception of the Huggins stimulus, stimuli were presented diotically (i.e., the same stimulus to both ears). Stimuli had a total duration of 200 ms with 10-ms raised-cosine onset and offset ramps and were delivered via Sennheiser HD580 headphones. For the fMRI measurements the levels were increased by 7 dB and the stimulus duration was 500 ms, including 10-ms raised-cosine onset and offset ramps. Stimuli of one class were repeated in a 15.5-s sequence, with 50-ms gaps between each stimulus. The order of the stimulus conditions was fully counterbalanced. Listeners completed 2 h of psychophysical testing and a 50-min scanning session.

      In Experiment 2, diotic IRN was generated by a delay-and-add process performed on a bandpass-filtered (1–2 kHz) Gaussian noise. A copy of the noise segment was added back onto the original after a delay of 10 ms had been imposed onto the copy. The delay-and-add process was repeated for 16 iterations to generate a salient pitch percept. Because many earlier neuroimaging studies have failed to adequately rule out the contribution of neural responses to low-frequency distortions for spectrally complex stimuli (but see Hall et al. 2006), here IRN was presented with and without a low-pass (0–1 kHz) Gaussian noise masker with the same spectrum level as the IRN to quantify the effects of cochlear distortion in temporal pitch coding ( Supplementary Fig. 1 ). The low-pass noise masks distortion products at F0 and its harmonics and so it is more conservative than narrowband maskers centered on the peak of the distortion product ( Hall et al. 2006). For comparison with each IRN stimulus, a control Gaussian noise with an equivalent bandwidth was also generated. Listeners completed a 30-min scanning session in which the stimulus duration and sound level were the same as in the fMRI session for Experiment 1.

      Psychophysical Estimates of Pitch Salience

      Pitch salience was estimated in a sound-proofed booth using a measure of individual pitch discrimination threshold. On each trial there were 2 observation intervals separated by 500 ms, containing a standard and a comparison tone, assigned at random. The frequency, F0, or (in the case of Huggins) center frequency of the phase-shifted region, of the standard was fixed to produce a nominal pitch corresponding to 200 Hz. The frequency of the comparison was greater than this. The discrimination task was pitch direction (“in which interval was the pitch higher?”). Discrimination thresholds were measured using a two-down, one-up, adaptive procedure that estimates the 71% correct point on the psychometric function ( Levitt 1971) for every 2 consecutive correct responses, the frequency difference was decreased for the subsequent trial, and for every incorrect response the frequency difference was increased. The frequency difference between the standard and comparison intervals was varied using a geometric step size of 2 for the first 4 reversals (transitions between decreasing and increasing portions of the adaptive track), and 1.414 thereafter. In each block of trials, 16 reversals were measured and the threshold taken as the geometric mean frequency difference at the last 12. Five such estimates were made for each condition, and the final estimate was taken as the geometric mean of the last 4. Two of the subjects (#10 and #12) could not hear the Huggins pitch and had thresholds greater than 100%. The thresholds for these subjects were assumed to be 100% for the purpose of subsequent analysis.

      FMRI Protocol

      Scanning was performed on a Philips 3 T Intera using an 8-channel SENSE receiver head coil and a SENSE factor of 2 to reduce image distortions. For each listener, a 4.5-min T1-weighted image (1-mm 3 resolution) was acquired first magnetization prepared rapid acquisition gradient echo (sequence matrix = 256 × 256 × 160 time repetition [TR] = 8.2 ms time echo [TE] = 3.7 ms flip angle = 8°). This whole-head anatomical scan was used to position the subsequent functional scan centrally on HG. Functional scans consisted of 20 slices taken in an oblique-axial plane, with a voxel size of 3 mm 3 (single shot fast field echo sequence matrix = 64 × 64 × 20 TR = 8000 ms TE = 36 ms flip angle = 90°). We took care to include the superior temporal plane and superior temporal sulcus and to exclude the eyes. To eliminate the effect of the scanner noise on patterns of auditory cortical activation, functional scanning used a modification to the pulse sequence (SofTone factor 2) to reduce the background scanner noise level (by 9 dB) and scans were collected at regular 8-s intervals, with the stimulus presented predominantly in the quiet periods between each scan. To equate the within-subject statistical power across the 2 experiments, each one comprised a total of 44 scans for each stimulus type and an additional 46 silent baseline scans, with the order of conditions randomized. Listeners were requested to attend to the sounds and to listen out for the pitch, but were not required to perform any task.

      Analysis of the imaging data was conducted using SPM2 (www.fil.ion.ucl.ac.uk/spm) separately for each listener. Preprocessing steps included within-subject realignment and spatial normalization. For each subject, normalized images were up-sampled to a voxel resolution of 2 mm 3 and smoothed by 4 mm full width at half maximum. This procedure meets the smoothness assumptions of the statistical model without compromising much of the original spatial resolution, so preserving the precise mapping between structure and function. Pitch-related brain activation was identified using the principal of the general linear model applied to the smoothed normalized images for each listener using standard procedures implemented in SPM2. The first-level individual analysis used a model that partitioned the observed response according to a sum of 6 weighted variables (the 5 pitch conditions and the noise control). Low-frequency artifacts in the time series, associated with physiological fluctuations, were handled by applying a high-pass filter with a cut-off of 0.002 Hz. After model estimation, statistical contrasts between each pitch condition and the noise control were specified by a linear combination of the corresponding variables and the significance of each contrast was determined relative to the scan-to-scan residual variability. Individual contrasts were combined across the group using 2 approaches that each underpinned a different class of inference about the general pattern of pitch-related activation. A random-effects analysis expresses the typical characteristics of the population (P < 0.05, corrected for multiple comparisons) and it assesses the statistical significance of activity by comparing its mean value to its variability across subjects ( Friston et al. 1999). However, when the between-subject variance is high and the mean activation signal is weak, this approach can prove rather unreliable and insensitive ( Thirion et al. 2007). In such circumstances, an alternative and informative way to express the results is to plot an incidence (“probability”) map. This is a descriptive statistic that depicts the percentage of subjects that exhibit activity at a particular brain location and is generated by summing individual, thresholded statistical maps, typically thresholded between P < 0.05 ( Keilholz et al. 2004 Moylan Governo et al. 2006) and P < 0.001 ( Hall et al. 2005), uncorrected for multiple comparisons. In the present study, a probability threshold of P < 0.01 was chosen because it contributed information about the distribution of weak pitch-related activation for every listener (see also Hall and Plack 2007).

      Listeners

      Sixteen normally hearing listeners (≤25 dB hearing level between 250 Hz and 6 kHz) participated in Experiment 1. Their mean age was 24.5 years old, ranging from 18 to 40 years, and the group comprised 7 females and 9 males. A majority of listeners were musically trained with only 2 listeners unable to read music or play an instrument (#10 and #14). All except one listener (#03) were right handed. Nine of these listeners volunteered to return and participate in Experiment 2. Recruitment of the same listeners reduces the effect of between-subject variability in functional neuroanatomy enabling more precise comparison of results across experiments. The study was approved by the University Medical School Ethics Committee and written informed consent was obtained from all participants.


      Absztrakt

      This paper reviews the contributions of von Békésy to psychoacoustics, comparing his findings and interpretations to those that have emerged since his work. The areas covered include the perception of pitch for pure tones and complex tones, the effect of frequency on the apparent location of pure tones, estimation of the velocity of the traveling wave on the basilar membrane using judgments of lateralization, and the relative loudness of monaural and diotic sounds. While subsequent research has failed to replicate some of his findings, other findings have stood the test of time. There is no doubt that von Békésy made very substantial contributions to psychoacoustic research.

      Főbb jellemzők

      ► Selected work of von Békésy on psychoacoustics is described. ► von Békésy's results are compared to more recent results. ► Some of von Békésy's results on pitch perception have been hard to replicate. ► von Békésy's work on the diotic/monaural loudness ratio has been replicated.


      Nézd meg a videót: TEMELJ (Január 2022).