紐約大學發表在PNAS(IF = 9.4)的最新研究“The time course of person perception from voices in the brain” ,揭示了人物特征的神經表征在大腦中何時、如何被感知和解碼。
一、引言
我們在聽到一個聲音后的大約80毫秒時,就開始形成對說話者的多方面印象,包括身體特征(如性別、年齡、健康狀況),還包括性格特征(如吸引力、支配力、可信度)和社會特征(如教育水平、職業素養)。本研究使用腦電和表征相似性分析(RSA)來描述這些來自聲音的多維印象是如何隨著時間的推移在不同的抽象水平上出現的。研究發現,這些印象并非同時形成,而是逐步出現:關于身體特征(如性別、年齡)的印象較早就形成,大約在120毫秒時就能出現;而關于個性特征和社會特征(如吸引力、教育水平等)的印象則稍晚一些,大約在360毫秒之后才開始形成。
二、研究方法
實驗共采集32名被試信息。共完成兩個測試階段(EEG測試和行為評分測試)。如圖1:
圖1:實驗流程說明
1、EEG測試階段:
被試聽取96個元音錄音樣本(96個元音錄音樣本,每段重復40次,共3840個試次),每段錄音的時長為400毫秒。分為6個區塊完成,刺激間隔ISI為400~600ms。大約9%的試次中,計算機屏幕會提示完成1-back警覺任務(由26種警覺刺激重復16次,共384個警覺試次),判斷兩個相鄰的錄音片段是否相同(元音因素或發聲者是否相同)。警覺任務的試次在每個區塊內均勻分布,既不會出現在區塊的開始,也不會緊接在上一個警覺試次之后。相同的錄音對條件下,警覺試次呈現兩次相同的語音刺激;不同的錄音對條件下,警覺試次先呈現一個隨機的測試刺激(由26種測試刺激重復呈現8次,共198個試次),隨后再呈現一個警覺刺激。
2、行為評分階段:
在行為評分階段,被試再次聽取所有EEG記錄中用到的錄音片段,并給出他們對這些聲音的主觀評分。評分的內容包括:
身體特征:性別、年齡、健康感、吸引力。
性格特征:主導性、可信賴性、教育程度、專業性。
3、腦電記錄:
使用Brain Products的32導主動電極和BrainAmp放大器(國內均由瀚翔腦科學總代理),參考電極貼在鼻尖。
4、聲學處理:
使用PRAAT軟件從每個語音錄音中提取LTAS(長時平均聲譜),分析語音錄音之間的頻率分布差異。此外,提取了多項聲學指標:F0均值(基頻的平均值)、 前四個共振峰(F1、F2、F3、F4)均值、共振峰散布度(DF);諧波源與非諧波源;諧波噪聲比(HNR)等。
三、研究結果:
聲音的主觀感知特征
考慮到人物特征之間的高度相關性,研究者對每個聲音錄音的平均評分進行了主成分分析(PCA,oblimin 旋轉),對聲音錄音的評分數據進行降維。相關性分析和PCA進一步確定了不同的人的特征不是彼此獨立的,而是高度相互依賴的。
大腦對聲音解碼表征的時間進程
研究對EEG和行為數據進行了時間分辨率的RSA表征相似性分析(見圖2):計算每個錄音的平均EEG響應(選取刺激前100毫秒到刺激呈現后700毫秒時間段)。在每個時間點,使用支持向量機(SVM)分類,并通過五折交叉驗證來測試該分類模型的準確度。最終生成96x96的神經表征不相似性矩陣(RDM),其中每個元素表示每個被試和每個時間點的解碼準確度。
圖2:RSA的分析方法。
(A)作為RSA的基礎,我們創建了來自神經和行為數據的RDM。
(B)神經和行為RDM通過部分秩相關性關聯,從神經數據中解碼不同人物特征表征的時間軸。
(C)神經、行為和聲學RDM示例
在66毫秒內,大腦就能分辨出不同的聲音
對所有被試的神經RDM的上三角形(不包括對角線)每個時間點的所有成對解碼準確度取平均值。結果顯示,在刺激開始后66 ms至700 ms之間,大腦能夠有效地區分不同的聲音記錄,并且在154毫秒時達到了最高的解碼準確度峰值(平均準確度為53.1%,圖3,灰線)。
圖3:關于人物特征(性別、年齡、健康、主導性、吸引力、可信度、教育程度、和專業性)感知時間過程不同模型的比較;
最后一張圖為每個聲音可以從神經數據中解碼出來的平均配對解碼準確率
表1:不同的人的特征表征可以從神經數據中解碼的顯著簇和時間點
人物特征在大腦中表征的時間過程進程
通過計算和比較三種不同類型的RDM(神經、行為和聲學)將EEG數據與行為評分數據進行關聯。使用Spearman的部分秩相關性來評估神經RDM、行為RDM和聲學RDM矩陣的下三角部分,揭示出每個時間點,神經反應、行為評分以及聲學差異之間的相關性。具體來說,建立了三個模型(見圖2B):
Model 1是基線模型,通過控制LTAS(長時平均頻譜)的成對相似度矩陣,去除低級聲學特性后,觀察大腦對人物特征的表示方式。
Model 2在Model 1的基礎上通過控制聲學矩陣(LTAS矩陣和主成分矩陣),控制感知顯著的聲學特性(能被人類感知并影響人類對聲音或人物特征感知的音頻特征)差異。觀察去除感知上顯著的聲學差異后,人物特征表示的變化。
Model 3控制了三個重要的變量:LTAS矩陣、感知顯著的聲學差異、所有已知的行為矩陣,計算了行為RDM和神經RDM之間的時間相關性,進而識別不受聲音聲學特性和其他感知特征影響的抽象人物特征。
Model 1:在聽到聲音的100毫秒內,可以解碼身體、性格和社會特征的表征。
神經和行為RDM(代表性距離矩陣)之間顯著相關性,所有人物特征的表征都可以在刺激開始后80 ms到102 ms之間被檢測到,并在100 ms到200 ms之間達到第一個峰值,這些表征通常會持續到至少435 ms,如性別特征。在持續時間上,性別、主導性、吸引力、教育程度等特征的表示通常在刺激結束后不久便檢測不到了,其他人物特征(如健康、信任度、專業性等)則可以持續更長時間,如專業性的表征在采樣時間窗口的末尾仍然顯著(見圖3,紫色線,表1)。
Model 1證明人物特征的表征并非分階段出現,而是所有特征的表征幾乎同步出現。
Model 2:感知顯著的聲學特性與人物特征感知的早期階段密切相關
Model 2的結果表明:感知顯著的聲學特性對人物特征的影響在時間上與Model 1類似,但性別感知的時間范圍有所變化。在Model 2中,性別的表征只能在85毫秒到362毫秒之間被檢測到(參見圖4,藍色線,表1)。
感知顯著的聲學特性主要影響的是人物特征感知的早期階段(表2):相較于Model 1,在Model 2中,性別、健康、主導性和吸引力四個特征在96 ms到236 ms的時間窗口內,神經RDM和行為RDM之間的相關性顯著降低。而可信度、教育程度、和專業性這些特征,感知顯著聲學特征對其表征的影響持續時間較長,延續至388 ms及之后。
排除了感知顯著的聲學特征后,人物特征的表征依然能夠在80 ms到至少435 ms的時間范圍內通過EEG數據顯現出來,表明人物特征的表征不僅僅依賴于聲學信息,而是由更高層次的認知處理形成的。
Model 3: 獨立、抽象的人物特征表征在不同時間點出現
Model 3的目標是檢測是否以及何時能夠發現獨立于聲學特性和其他人物特征(如性別、年齡等)的抽象神經表征。通過雙樣本t檢驗發現,與Model 1相比,Model 3中神經RDM和行為RDM之間的相關性顯著較低(見圖3,粉色線和表2)。這表明,在Model 3中,大多數人物特征的獨立神經表征消失了。通過單樣本t檢驗發現,健康、吸引力和教育程度這三個特征的抽象表征在Model 3中完全消失。性別(127 ms到181 ms)和年齡(94 ms到373 ms)的抽象表征仍然可以在較早的時間段被檢測到,而主導性(384 ms到432 ms)、可信度(647 ms到700 ms)和專業性(367 ms到535 ms)的獨立抽象表征則出現在較晚的時間段。
這表明,在去除聲學信息和其他人物特征后,只有部分抽象人物特征的表征仍然可以被檢測到,尤其是性別和年齡,而其他如健康、吸引力等特征則完全消失。
表2:不同模型對比的時間過程差異
四、總結
人物特征的感知過程并非一蹴而就,而是分階段、漸進式的過程。早期的聲學信息對人物特征的表征有重要影響,隨著時間推移,這些表征逐漸變得抽象并獨立于聲學特性。不同類型的人物特征在大腦中的表征出現時間也不同,身體特征較早,而個性和社會特征稍晚。人物特征的感知可能會出現過度概括(overgeneralization)和光環效應(halo effect),并導致人物特征之間的高相關性,但這一解釋仍然是推測性的(speculative),需要更多的未來研究來驗證這種因果關系的層次結構是否真實存在。
本研究結果與最新的理論模型相一致,并為我們理解通過聲音感知他人時的大腦計算過程提供了新的視角。