紐約大學(xué)發(fā)表在PNAS(IF = 9.4)的最新研究“The time course of person perception from voices in the brain” ,揭示了人物特征的神經(jīng)表征在大腦中何時(shí)、如何被感知和解碼。
一、引言
我們?cè)诼牭揭粋€(gè)聲音后的大約80毫秒時(shí),就開始形成對(duì)說話者的多方面印象,包括身體特征(如性別、年齡、健康狀況),還包括性格特征(如吸引力、支配力、可信度)和社會(huì)特征(如教育水平、職業(yè)素養(yǎng))。本研究使用腦電和表征相似性分析(RSA)來描述這些來自聲音的多維印象是如何隨著時(shí)間的推移在不同的抽象水平上出現(xiàn)的。研究發(fā)現(xiàn),這些印象并非同時(shí)形成,而是逐步出現(xiàn):關(guān)于身體特征(如性別、年齡)的印象較早就形成,大約在120毫秒時(shí)就能出現(xiàn);而關(guān)于個(gè)性特征和社會(huì)特征(如吸引力、教育水平等)的印象則稍晚一些,大約在360毫秒之后才開始形成。
二、研究方法
實(shí)驗(yàn)共采集32名被試信息。共完成兩個(gè)測(cè)試階段(EEG測(cè)試和行為評(píng)分測(cè)試)。如圖1:
圖1:實(shí)驗(yàn)流程說明
1、EEG測(cè)試階段:
被試聽取96個(gè)元音錄音樣本(96個(gè)元音錄音樣本,每段重復(fù)40次,共3840個(gè)試次),每段錄音的時(shí)長為400毫秒。分為6個(gè)區(qū)塊完成,刺激間隔ISI為400~600ms。大約9%的試次中,計(jì)算機(jī)屏幕會(huì)提示完成1-back警覺任務(wù)(由26種警覺刺激重復(fù)16次,共384個(gè)警覺試次),判斷兩個(gè)相鄰的錄音片段是否相同(元音因素或發(fā)聲者是否相同)。警覺任務(wù)的試次在每個(gè)區(qū)塊內(nèi)均勻分布,既不會(huì)出現(xiàn)在區(qū)塊的開始,也不會(huì)緊接在上一個(gè)警覺試次之后。相同的錄音對(duì)條件下,警覺試次呈現(xiàn)兩次相同的語音刺激;不同的錄音對(duì)條件下,警覺試次先呈現(xiàn)一個(gè)隨機(jī)的測(cè)試刺激(由26種測(cè)試刺激重復(fù)呈現(xiàn)8次,共198個(gè)試次),隨后再呈現(xiàn)一個(gè)警覺刺激。
2、行為評(píng)分階段:
在行為評(píng)分階段,被試再次聽取所有EEG記錄中用到的錄音片段,并給出他們對(duì)這些聲音的主觀評(píng)分。評(píng)分的內(nèi)容包括:
身體特征:性別、年齡、健康感、吸引力。
性格特征:主導(dǎo)性、可信賴性、教育程度、專業(yè)性。
3、腦電記錄:
使用Brain Products的32導(dǎo)主動(dòng)電極和BrainAmp放大器(國內(nèi)均由瀚翔腦科學(xué)總代理),參考電極貼在鼻尖。
4、聲學(xué)處理:
使用PRAAT軟件從每個(gè)語音錄音中提取LTAS(長時(shí)平均聲譜),分析語音錄音之間的頻率分布差異。此外,提取了多項(xiàng)聲學(xué)指標(biāo):F0均值(基頻的平均值)、 前四個(gè)共振峰(F1、F2、F3、F4)均值、共振峰散布度(DF);諧波源與非諧波源;諧波噪聲比(HNR)等。
三、研究結(jié)果:
聲音的主觀感知特征
考慮到人物特征之間的高度相關(guān)性,研究者對(duì)每個(gè)聲音錄音的平均評(píng)分進(jìn)行了主成分分析(PCA,oblimin 旋轉(zhuǎn)),對(duì)聲音錄音的評(píng)分?jǐn)?shù)據(jù)進(jìn)行降維。相關(guān)性分析和PCA進(jìn)一步確定了不同的人的特征不是彼此獨(dú)立的,而是高度相互依賴的。
大腦對(duì)聲音解碼表征的時(shí)間進(jìn)程
研究對(duì)EEG和行為數(shù)據(jù)進(jìn)行了時(shí)間分辨率的RSA表征相似性分析(見圖2):計(jì)算每個(gè)錄音的平均EEG響應(yīng)(選取刺激前100毫秒到刺激呈現(xiàn)后700毫秒時(shí)間段)。在每個(gè)時(shí)間點(diǎn),使用支持向量機(jī)(SVM)分類,并通過五折交叉驗(yàn)證來測(cè)試該分類模型的準(zhǔn)確度。最終生成96x96的神經(jīng)表征不相似性矩陣(RDM),其中每個(gè)元素表示每個(gè)被試和每個(gè)時(shí)間點(diǎn)的解碼準(zhǔn)確度。
圖2:RSA的分析方法。
(A)作為RSA的基礎(chǔ),我們創(chuàng)建了來自神經(jīng)和行為數(shù)據(jù)的RDM。
(B)神經(jīng)和行為RDM通過部分秩相關(guān)性關(guān)聯(lián),從神經(jīng)數(shù)據(jù)中解碼不同人物特征表征的時(shí)間軸。
(C)神經(jīng)、行為和聲學(xué)RDM示例
在66毫秒內(nèi),大腦就能分辨出不同的聲音
對(duì)所有被試的神經(jīng)RDM的上三角形(不包括對(duì)角線)每個(gè)時(shí)間點(diǎn)的所有成對(duì)解碼準(zhǔn)確度取平均值。結(jié)果顯示,在刺激開始后66 ms至700 ms之間,大腦能夠有效地區(qū)分不同的聲音記錄,并且在154毫秒時(shí)達(dá)到了最高的解碼準(zhǔn)確度峰值(平均準(zhǔn)確度為53.1%,圖3,灰線)。
圖3:關(guān)于人物特征(性別、年齡、健康、主導(dǎo)性、吸引力、可信度、教育程度、和專業(yè)性)感知時(shí)間過程不同模型的比較;
最后一張圖為每個(gè)聲音可以從神經(jīng)數(shù)據(jù)中解碼出來的平均配對(duì)解碼準(zhǔn)確率
表1:不同的人的特征表征可以從神經(jīng)數(shù)據(jù)中解碼的顯著簇和時(shí)間點(diǎn)
人物特征在大腦中表征的時(shí)間過程進(jìn)程
通過計(jì)算和比較三種不同類型的RDM(神經(jīng)、行為和聲學(xué))將EEG數(shù)據(jù)與行為評(píng)分?jǐn)?shù)據(jù)進(jìn)行關(guān)聯(lián)。使用Spearman的部分秩相關(guān)性來評(píng)估神經(jīng)RDM、行為RDM和聲學(xué)RDM矩陣的下三角部分,揭示出每個(gè)時(shí)間點(diǎn),神經(jīng)反應(yīng)、行為評(píng)分以及聲學(xué)差異之間的相關(guān)性。具體來說,建立了三個(gè)模型(見圖2B):
Model 1是基線模型,通過控制LTAS(長時(shí)平均頻譜)的成對(duì)相似度矩陣,去除低級(jí)聲學(xué)特性后,觀察大腦對(duì)人物特征的表示方式。
Model 2在Model 1的基礎(chǔ)上通過控制聲學(xué)矩陣(LTAS矩陣和主成分矩陣),控制感知顯著的聲學(xué)特性(能被人類感知并影響人類對(duì)聲音或人物特征感知的音頻特征)差異。觀察去除感知上顯著的聲學(xué)差異后,人物特征表示的變化。
Model 3控制了三個(gè)重要的變量:LTAS矩陣、感知顯著的聲學(xué)差異、所有已知的行為矩陣,計(jì)算了行為RDM和神經(jīng)RDM之間的時(shí)間相關(guān)性,進(jìn)而識(shí)別不受聲音聲學(xué)特性和其他感知特征影響的抽象人物特征。
Model 1:在聽到聲音的100毫秒內(nèi),可以解碼身體、性格和社會(huì)特征的表征。
神經(jīng)和行為RDM(代表性距離矩陣)之間顯著相關(guān)性,所有人物特征的表征都可以在刺激開始后80 ms到102 ms之間被檢測(cè)到,并在100 ms到200 ms之間達(dá)到第一個(gè)峰值,這些表征通常會(huì)持續(xù)到至少435 ms,如性別特征。在持續(xù)時(shí)間上,性別、主導(dǎo)性、吸引力、教育程度等特征的表示通常在刺激結(jié)束后不久便檢測(cè)不到了,其他人物特征(如健康、信任度、專業(yè)性等)則可以持續(xù)更長時(shí)間,如專業(yè)性的表征在采樣時(shí)間窗口的末尾仍然顯著(見圖3,紫色線,表1)。
Model 1證明人物特征的表征并非分階段出現(xiàn),而是所有特征的表征幾乎同步出現(xiàn)。
Model 2:感知顯著的聲學(xué)特性與人物特征感知的早期階段密切相關(guān)
Model 2的結(jié)果表明:感知顯著的聲學(xué)特性對(duì)人物特征的影響在時(shí)間上與Model 1類似,但性別感知的時(shí)間范圍有所變化。在Model 2中,性別的表征只能在85毫秒到362毫秒之間被檢測(cè)到(參見圖4,藍(lán)色線,表1)。
感知顯著的聲學(xué)特性主要影響的是人物特征感知的早期階段(表2):相較于Model 1,在Model 2中,性別、健康、主導(dǎo)性和吸引力四個(gè)特征在96 ms到236 ms的時(shí)間窗口內(nèi),神經(jīng)RDM和行為RDM之間的相關(guān)性顯著降低。而可信度、教育程度、和專業(yè)性這些特征,感知顯著聲學(xué)特征對(duì)其表征的影響持續(xù)時(shí)間較長,延續(xù)至388 ms及之后。
排除了感知顯著的聲學(xué)特征后,人物特征的表征依然能夠在80 ms到至少435 ms的時(shí)間范圍內(nèi)通過EEG數(shù)據(jù)顯現(xiàn)出來,表明人物特征的表征不僅僅依賴于聲學(xué)信息,而是由更高層次的認(rèn)知處理形成的。
Model 3: 獨(dú)立、抽象的人物特征表征在不同時(shí)間點(diǎn)出現(xiàn)
Model 3的目標(biāo)是檢測(cè)是否以及何時(shí)能夠發(fā)現(xiàn)獨(dú)立于聲學(xué)特性和其他人物特征(如性別、年齡等)的抽象神經(jīng)表征。通過雙樣本t檢驗(yàn)發(fā)現(xiàn),與Model 1相比,Model 3中神經(jīng)RDM和行為RDM之間的相關(guān)性顯著較低(見圖3,粉色線和表2)。這表明,在Model 3中,大多數(shù)人物特征的獨(dú)立神經(jīng)表征消失了。通過單樣本t檢驗(yàn)發(fā)現(xiàn),健康、吸引力和教育程度這三個(gè)特征的抽象表征在Model 3中完全消失。性別(127 ms到181 ms)和年齡(94 ms到373 ms)的抽象表征仍然可以在較早的時(shí)間段被檢測(cè)到,而主導(dǎo)性(384 ms到432 ms)、可信度(647 ms到700 ms)和專業(yè)性(367 ms到535 ms)的獨(dú)立抽象表征則出現(xiàn)在較晚的時(shí)間段。
這表明,在去除聲學(xué)信息和其他人物特征后,只有部分抽象人物特征的表征仍然可以被檢測(cè)到,尤其是性別和年齡,而其他如健康、吸引力等特征則完全消失。
表2:不同模型對(duì)比的時(shí)間過程差異
四、總結(jié)
人物特征的感知過程并非一蹴而就,而是分階段、漸進(jìn)式的過程。早期的聲學(xué)信息對(duì)人物特征的表征有重要影響,隨著時(shí)間推移,這些表征逐漸變得抽象并獨(dú)立于聲學(xué)特性。不同類型的人物特征在大腦中的表征出現(xiàn)時(shí)間也不同,身體特征較早,而個(gè)性和社會(huì)特征稍晚。人物特征的感知可能會(huì)出現(xiàn)過度概括(overgeneralization)和光環(huán)效應(yīng)(halo effect),并導(dǎo)致人物特征之間的高相關(guān)性,但這一解釋仍然是推測(cè)性的(speculative),需要更多的未來研究來驗(yàn)證這種因果關(guān)系的層次結(jié)構(gòu)是否真實(shí)存在。
本研究結(jié)果與最新的理論模型相一致,并為我們理解通過聲音感知他人時(shí)的大腦計(jì)算過程提供了新的視角。