本體支持的視頻語(yǔ)義概念探測(cè)
1 引言視頻語(yǔ)義內(nèi)容分析的目標(biāo)是抽取視頻包含的高層語(yǔ)義內(nèi)容,為用戶提供語(yǔ)義概念的視頻瀏覽、檢索服務(wù),語(yǔ)義概念探測(cè)是實(shí)現(xiàn)這一目標(biāo)的核心步驟,并成為近期視頻語(yǔ)義內(nèi)容分析領(lǐng)域的重要研究方向。
以往的視頻概念探測(cè)主要采用基于內(nèi)容的方法,即通過(guò)抽取概念具有的低層特征,學(xué)習(xí)某種關(guān)聯(lián)模型(基于規(guī)則的或是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的),直接的、獨(dú)立的建立低層特征與概念之間的關(guān)聯(lián),探測(cè)視頻概念。
基于規(guī)則的方法是在抽取特征的基礎(chǔ)上,對(duì)特征進(jìn)行簡(jiǎn)單或者復(fù)雜的閾值判定。這種關(guān)聯(lián)模型的缺點(diǎn)是閾值確定難、算法不魯棒,并且簡(jiǎn)單的閾值判斷難以有效的表征概念具有的特征多樣性。因此,目前采用較多的是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的關(guān)聯(lián)模型,即通過(guò)某個(gè)機(jī)器學(xué)習(xí)模型學(xué)習(xí)標(biāo)注的樣本數(shù)據(jù)中低層特征與視頻概念之間的統(tǒng)計(jì)概率關(guān)聯(lián)模式,然后采用訓(xùn)練好的機(jī)器學(xué)習(xí)模型對(duì)新的樣本進(jìn)行識(shí)別,探測(cè)視頻概念。目前的研究表明,支持向量。
和最大熵模型(maximum entropy model,簡(jiǎn)稱mem)是兩類較為有效的用于概念探測(cè)的機(jī)器學(xué)習(xí)模型。
但是,由于語(yǔ)義鴻溝的存在,低層特征和高層語(yǔ)義的關(guān)聯(lián)并不是一一對(duì)應(yīng)。不同的視頻概念可能具有相似的低層特征,相同的視頻概念也可能具有完全不同的低層特征,基于內(nèi)容的獨(dú)立概念探測(cè)方法難以克服這個(gè)問(wèn)題。另一方面,視頻中的概念并不是獨(dú)立出現(xiàn)的,不同的概念總是同時(shí)出現(xiàn)在視頻幀序列中。顯然,不同概念的共現(xiàn)性將增加低層特征模式的復(fù)雜性,進(jìn)而影響?yīng)毩⒌母拍钐綔y(cè)性能。但是,從另外一個(gè)角度思考,不同概念間的關(guān)系信息也為概念探測(cè)提供了重要的上下文信息,例如:包含“汽車”概念的視頻片段,具有很大的可能包含有“道路”概念。重要的是如何有效的建模和利用這些信息。
針對(duì)語(yǔ)義概念探測(cè)存在的困難,本文提出了本體支持的視頻語(yǔ)義概念探測(cè)方法。一方面通過(guò)定義中層語(yǔ)義以減小語(yǔ)義鴻溝,建立低層特征與高層語(yǔ)義關(guān)聯(lián)的橋梁;另一方面利用概念間的關(guān)系和上下文語(yǔ)境,在概念探測(cè)中加入語(yǔ)義線索,提高概念探測(cè)器的語(yǔ)義識(shí)別能力。查看更多網(wǎng)絡(luò)營(yíng)銷畢業(yè)論文。
而本體作為合適的知識(shí)建模工具可以有效的描述視頻語(yǔ)義內(nèi)容和建模領(lǐng)域知識(shí),因此利用本體增強(qiáng)概念探測(cè)的語(yǔ)義表達(dá)和識(shí)別能力是必需的也是可行的。
2 本體支持的概念探測(cè)框架視頻內(nèi)容跨越了低層感知特征、感知特征模式、簡(jiǎn)單語(yǔ)義概念、復(fù)雜語(yǔ)義概念諸多層次,并不是簡(jiǎn)單的特征層和語(yǔ)義層就能表示的;更為重要的是,這種層次結(jié)構(gòu)建立了視頻內(nèi)容從低層特征到高層語(yǔ)義的內(nèi)在關(guān)聯(lián)過(guò)程,為跨越語(yǔ)義鴻溝提供了有效途徑。另一方面,視頻語(yǔ)義內(nèi)容分析的本質(zhì)就是各個(gè)層次內(nèi)容的分析抽取和各個(gè)層次之間關(guān)聯(lián)的建立。
基于以上分析,定義感知概念和語(yǔ)義概念如下:
定義 1 感知概念 (perception concept)感知概念是視頻中特征相似、反復(fù)出現(xiàn)的感知特征模式的抽象。這里的低層感知特征模式指視頻流中具有相同視覺(jué)或聽(tīng)覺(jué)特征模式的時(shí)序或空間分割,例如:具有相同顏色特征的區(qū)域、具有相同音頻特征的視頻片段等,是語(yǔ)義概念在低層感知特征空間中最基本的表征。
定義 2 語(yǔ)義概念 (semantic concept)語(yǔ)義概念對(duì)應(yīng)視頻中的特定時(shí)間片段或空間區(qū)域。語(yǔ)義概念是用戶分析視頻內(nèi)容時(shí)關(guān)心的基本概念;從低層特征上看,語(yǔ)義概念具有明顯的、容易區(qū)別的低層感知特征模式,能夠表現(xiàn)為一個(gè)感知概念或多個(gè)感知概念和其關(guān)系的組合。
在上述概念定義的基礎(chǔ)上,提出視頻領(lǐng)域知識(shí)本體和視頻概念擴(kuò)展本體建模上下文信息和視頻低層特征與高層概念的關(guān)聯(lián)關(guān)系。
定義視頻領(lǐng)域知識(shí)本體(video knowledge ontology,簡(jiǎn)稱vko)為一個(gè)二元組,表示視頻領(lǐng)域知識(shí)中的概念的集合和概念間關(guān)系的集合。概念表示為一個(gè)五元組:名稱、標(biāo)簽、關(guān)系集、同義詞集、描述文本;概念間語(yǔ)義關(guān)系包括四類:kind ? of 關(guān)系、instance ? of關(guān)系、part ? of 關(guān)系、attribute ? of 關(guān)系。需要指出的是,在實(shí)際知識(shí)建模過(guò)程中,概念間的關(guān)系不限于上述定義幾種基本關(guān)系,可以根據(jù)目標(biāo)領(lǐng)域的具體情況定義相應(yīng)的關(guān)系。
其中,vlo (video linguistic ontology),表示視頻概念擴(kuò)展本體中的語(yǔ)言層本體,即視頻內(nèi)容中的語(yǔ)言級(jí)概念和概念間關(guān)系的集合。這里的語(yǔ)言級(jí)概念對(duì)應(yīng)于視頻內(nèi)容層次結(jié)構(gòu)模型中定義的視頻概念。
vpo(video perception ontology),表示視頻概念擴(kuò)展本體中的感知概念層本體,即視頻內(nèi)容中感知特征層中蘊(yùn)含的感知特征模式和其關(guān)系的集合。
語(yǔ)義概念的探測(cè)應(yīng)該從兩個(gè)方面進(jìn)行考慮。一方面是發(fā)現(xiàn)概念具有的低層特征模型,稱為特征匹配。感知概念的抽象和定義建立了低層特征和視頻概念兩個(gè)層次之間的中間語(yǔ)義,避免直接建立低層特征和視頻概念間的關(guān)聯(lián),減小語(yǔ)義鴻溝問(wèn)題帶來(lái)的影響。從低層特征角度看感知概念是低層特征模式的抽象,具有特征穩(wěn)定性和一致性;從高層語(yǔ)義角度看,視頻概念總是表現(xiàn)為若干感知概念的組合,因此感知概念也具有一定的語(yǔ)義。因此,首先抽取視頻概念關(guān)聯(lián)的感知概念,然后從感知概念中抽取低層特征訓(xùn)練統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,識(shí)別語(yǔ)義概念。
另一方面是建模并利用上下文信息增強(qiáng)概念探測(cè)方法的語(yǔ)義理解和識(shí)別能力,稱為上下文信息匹配。提出的視頻概念擴(kuò)展本體的語(yǔ)言層定義了概念之間的關(guān)系,同時(shí)“概念描述”、“同義詞集”、“關(guān)聯(lián)概念”等概念描述屬性完整、準(zhǔn)確的描述了概念包含的上下文信息。
同時(shí),利用vocr 和語(yǔ)音識(shí)別技術(shù)可以從視頻片段中抽取文本信息,這些文本信息中出現(xiàn)的概念術(shù)語(yǔ)為語(yǔ)義概念探測(cè)提供了語(yǔ)義線索,能夠增強(qiáng)概念探測(cè)的準(zhǔn)確率。本文提出的本體支持的概念探測(cè)方法。
視頻概念探測(cè)主要分為三個(gè)部分:上下文信息匹配、特征匹配和匹配結(jié)果融合。在上下文信息匹配中,一方面通過(guò)vocr 和語(yǔ)音識(shí)別技術(shù)從視頻片段提取文本信息,另一方面通過(guò)視頻概念擴(kuò)展本體的定義獲取待探測(cè)概念的描述和與其關(guān)聯(lián)的概念,則二者的相關(guān)程度暗示了待探測(cè)概念出現(xiàn)的可能,上下文信息匹配將定量計(jì)算這種相關(guān)程度。特征匹配根據(jù)低層感知特征相似性計(jì)算視頻片段中包含視頻概念的可能性,首先通過(guò)視頻概念擴(kuò)展本體的定義獲取待探測(cè)概念包含的感知概念,然后抽取視覺(jué)對(duì)象特征訓(xùn)練概念分類器,計(jì)算視覺(jué)對(duì)象匹配程度,同時(shí)統(tǒng)計(jì)視頻片段包含其他感知概念的情況,計(jì)算其他感知概念匹配結(jié)果。最后,通過(guò)一種融和策略,對(duì)匹配結(jié)果進(jìn)行融合,融合結(jié)果表示概念探測(cè)結(jié)果。
3 上下文信息匹配語(yǔ)義概念具有的上下文信息包括兩個(gè)方面,一是概念本身的描述所蘊(yùn)含的上下文信息。
本文在視頻概念擴(kuò)展本體中定義概念描述包括兩個(gè)部分,一是對(duì)概念的內(nèi)在性質(zhì)、外在屬性的詳細(xì)闡述,可以幫助人們更好的理解概念;二是概念具有的同義詞集,即表達(dá)同一概念的不同語(yǔ)言術(shù)語(yǔ)。例如可以將概念“爆炸”描述為:在巨大響聲過(guò)后出現(xiàn)火光和濃煙。根據(jù)上述概念描述,如果在文本信息中探測(cè)到響聲、煙、火等術(shù)語(yǔ),則表明很可能該段文本對(duì)應(yīng)的視頻片段包含有“爆炸”概念。又如概念“美國(guó)總統(tǒng)”可以使用不同的語(yǔ)言術(shù)語(yǔ)表達(dá),如“喬治.布什”、“美國(guó)國(guó)家元首”等等,如果在文本信息中探測(cè)到某個(gè)概念具有的同義詞術(shù)語(yǔ),則表明該段文本對(duì)應(yīng)的視頻可能包含有該概念,而且同義詞出現(xiàn)的數(shù)量和頻度在一定程度上反映出該概念出現(xiàn)的可能性大小。
另一方面的上下文信息表現(xiàn)為概念間的關(guān)系。視頻概念擴(kuò)展本體中定義了兩類概念間關(guān)系,一類是語(yǔ)義關(guān)系,主要包括kind-of,instance-of 和part-of 三類父子層次關(guān)系;另一類是概念共現(xiàn)關(guān)系,定義為不同的概念在視頻中同時(shí)出現(xiàn)的概率大小。容易理解,具有強(qiáng)共現(xiàn)關(guān)系的概念趨向于同時(shí)出現(xiàn),因此一個(gè)概念的出現(xiàn)可以作為另一個(gè)概念探測(cè)的有力線索;語(yǔ)義關(guān)系表征的是概念間的語(yǔ)義相關(guān)性,而從自然語(yǔ)言的特點(diǎn)來(lái)看,語(yǔ)義相關(guān)的概念的出現(xiàn)具有集中性,因此概念語(yǔ)義關(guān)系為概念探測(cè)提供有用的上下文信息。
3.1 文本匹配文本匹配通過(guò)計(jì)算概念描述文本與視頻片段包含的文本之間的相似性來(lái)判斷視頻片段包含該概念的可能性大小。
視頻中包含的文本信息一方面來(lái)自于視頻伴隨音軌中的語(yǔ)音信息,另一方面來(lái)自于視頻中字幕、場(chǎng)景文字的識(shí)別,即vocr。本文采用scansoft 公司開(kāi)發(fā)的nuance 系統(tǒng)[6](前身為ibm 公司開(kāi)發(fā)的viavoice 引擎)作為語(yǔ)音識(shí)別工具和人工方法輔助視頻伴隨音軌文字標(biāo)注視頻中的語(yǔ)音信息;新聞視頻中的字幕包含了對(duì)視頻內(nèi)容的主要文本描述,因此在本文的研究中只考慮字幕文本的識(shí)別而不考慮場(chǎng)景文字的識(shí)別。本文采用郭金林等[7]提出的基于壓縮域特征的字幕定位與文字識(shí)別作為字幕文本識(shí)別工具。通過(guò)語(yǔ)音識(shí)別和vocr 抽取的文本信息記作vt。采用中科院的開(kāi)源分詞軟件ictclas[8]進(jìn)行中文分詞,抽取vt 中包含的詞條集1 { }ni i nt nt = = 。對(duì)于英文分詞采用人工標(biāo)注方法處理。
概念描述文本通過(guò)視頻概念擴(kuò)展本體中的定義獲得,包括兩個(gè)部分:一是概念描述d,d ∈d,d 為本體中所有概念描述集合。另一個(gè)是概念同義詞集synonymslist 。對(duì)概念描述d 進(jìn)行分詞,從中抽取詞條集,與同義詞集合并組成概念描述詞條集{ } 1mj j c d c d == 。