|
|
電信博物館 >
多媒體 > 繽紛世界的背后
>
數(shù)據(jù)庫技術(shù)的挑戰(zhàn)
新老數(shù)據(jù)類型的使用
字符數(shù)值型數(shù)據(jù)
字符數(shù)值型數(shù)據(jù)記錄的是事物非常簡單的屬性(如人的性別),數(shù)值屬性(如人數(shù)),或是高度抽象的屬性(如事物的所屬類別)。這種數(shù)據(jù)具有簡單、規(guī)范的特點(diǎn),因而易于管理。傳統(tǒng)數(shù)據(jù)庫主要是針對這種數(shù)據(jù)的,在多媒體數(shù)據(jù)庫中仍然需要管理這一類數(shù)據(jù)。
文本數(shù)據(jù)
文本是最常見的媒體格式,各種書籍、文獻(xiàn)、檔案等無不是由文本媒體數(shù)據(jù)為主構(gòu)成的。
在計算機(jī)內(nèi)文本數(shù)據(jù)是由一個具有特定意義的字符串表示。字符串長短不一,給數(shù)據(jù)的存儲和再現(xiàn)帶來不便。自然語言理解技術(shù)的不成熟也使查詢文本數(shù)據(jù)的難度加大。因此,許多通用型數(shù)據(jù)庫系統(tǒng)根本就沒有管理和使用文本媒體的有效手段。檢索文本數(shù)據(jù)主要采用關(guān)鍵字檢索和全文檢索兩種方法。關(guān)鍵字檢索是在存儲文本的同時,自動或手工生成能夠反映該文本數(shù)據(jù)主題的關(guān)鍵字的集合,并將其存儲在數(shù)據(jù)庫中。檢索時通過某些關(guān)鍵字的匹配找到所需的文本數(shù)據(jù)。全文檢索方法可以根據(jù)文本數(shù)據(jù)中任何單詞或者詞組進(jìn)行檢索,檢索是進(jìn)行全文掃描。此外,大多數(shù)的實(shí)用系統(tǒng)使用文件直接存儲文本系統(tǒng),或把數(shù)據(jù)規(guī)范化成標(biāo)準(zhǔn)長度的字符串。在普通數(shù)據(jù)庫中并不具備很強(qiáng)的文本數(shù)據(jù)管理能力。
聲音數(shù)據(jù)
音樂數(shù)據(jù)在計算機(jī)里是由字符表示的,因而數(shù)據(jù)量小,對它的存儲、查詢可以當(dāng)作文本處理。但計算機(jī)目前還無法模擬不同人的口音,以及人們講話時的抑揚(yáng)頓挫的語氣。因而語音數(shù)據(jù)還是以數(shù)字化的波形數(shù)據(jù)為主,這樣存儲空間就比較大。語音識別技術(shù)還沒有達(dá)到可以廣泛應(yīng)用的程度,這為語音數(shù)據(jù)的檢索帶來不利。目前,對語音數(shù)據(jù)的檢索主要有兩種方法,第一種是給語音數(shù)據(jù)人工附加屬性描述或文字描述,例如我們可以給錄音數(shù)據(jù)附上講話人的姓名、講話日期、講話題目和主要內(nèi)容等。之后,我們就可以用字符數(shù)據(jù)和文本數(shù)據(jù)的檢索方法檢索語音數(shù)據(jù)。第二種方法是瀏覽,把語音逐一播放出來,邊聽邊判斷所需查找的語音數(shù)據(jù),這種方法最大的缺點(diǎn)是速度太慢。在具體應(yīng)用中,一般是與第一種方法配合使用,由第一種方法縮小范圍之后再進(jìn)行瀏覽。
圖形數(shù)據(jù)
圖形數(shù)據(jù)的管理已經(jīng)有一些成功的應(yīng)用范例,例如地理信息系統(tǒng)、工業(yè)圖紙管理系統(tǒng)、建筑CAD數(shù)據(jù)庫等等。圖形數(shù)據(jù)可以分解為點(diǎn)、線、弧等基本圖形元素。描述圖形數(shù)據(jù)的關(guān)鍵是要有可以描述層次結(jié)構(gòu)的數(shù)據(jù)模型。對圖形數(shù)據(jù)來說最大的問題是如何對數(shù)據(jù)進(jìn)行表示。對圖形數(shù)據(jù)的檢索也是如此。一般來說,由于圖形是用符號或特定的數(shù)據(jù)結(jié)構(gòu)表示的,更接近于計算機(jī)的形式,還是易于管理的。但管理方法和檢索使用需要有明確的應(yīng)用背景。
圖像數(shù)據(jù)
圖像數(shù)據(jù)是指圖式圖像。圖像數(shù)據(jù)在應(yīng)用中出現(xiàn)的頻率很高,也很有實(shí)用價值。圖像數(shù)據(jù)庫較早就有研究,已提出許多方法,包括屬性描述法、特征提取、分割、紋理識別、顏色檢索等等。特定于某一類應(yīng)用的圖像檢索系統(tǒng)已經(jīng)取得成功的經(jīng)驗(yàn),如指紋數(shù)據(jù)庫、頭像數(shù)據(jù)庫等,但在多媒體數(shù)據(jù)庫中將更強(qiáng)調(diào)對通用圖像數(shù)據(jù)的管理和查詢。
視頻數(shù)據(jù)
動態(tài)視頻數(shù)據(jù)要比剛才介紹的信息類型復(fù)雜得多,在管理上也存在新的問題。特別是由于引入了時間屬性,對視頻的管理還要在時間空間上進(jìn)行。檢索和查詢的內(nèi)容可以包括鏡頭、場景、內(nèi)容等許多方面,這在傳統(tǒng)數(shù)據(jù)庫中是從來沒有過的。對于基于時間的媒體來說,為了真實(shí)地再現(xiàn)就必須做到實(shí)時,而且需要考慮視頻和動畫與其它媒體的合成和同步。例如給一段視頻加上一段字幕,字幕必須在適當(dāng)?shù)臅r候疊加到視頻的適當(dāng)位置上。再如給一段視頻配音,聲音與圖像必須配合的恰到好處,合成和同步不僅是多媒體數(shù)據(jù)庫管理的問題,它還涉及到通信、媒體表現(xiàn)、數(shù)據(jù)壓縮等諸多方面。
[上一頁] [下一頁]
|
|
|