Jó lenne a választ annyival lerendezni, hogy igen-e avagy sem

Tartalomalapú képkinyerés képarchívumokból - van ilyen?

Veréb Krisztián

Debreceni Egyetem

Matematikai és Informatikai Intézet

Információ Technológia Tanszék

sparrow@math.klte.hu

Kivonat

A multimédia térhódításával a képek adatbázisbeli tárolására és visszakereshetőségére is megjelent az igény. A képek tárolása, de legfőképp azok adatbázisból történő visszakeresése nagyban különbözik a nem multimédiás jellegű egyéb adatok tárolásától és visszakeresésétől. Az újabb, objektumrelációs vagy teljesen objektumorientált szemléletű adatbázisok terjedésével pedig a problémákra újabb megoldási lehetőségek adódnak. Az adatbázisszerű megoldásokon túl az Interneten is egyre gyakrabban jelennek meg képarchívumok, melyekben a keresések még nem teljes mértékben tekinthetők megoldottnak. Persze az új technikák, technológiák megjelenése mellett a kérdés továbbra is megmaradt. Lehet-e pusztán a képi információk birtokában automatikusan képeket visszakeresni képarchívumokból? Létezik-e tartalomalapú képkinyerés?

1. Bevezetés

A minap egy Online cikkadatbázisban kerestem egy cikk után. A gond az volt, hogy sem a szerző, sem a cím nem jutott eszembe. A téma a képfeldolgozás egy témaköre volt, és pontosan tudtam, milyen tesztképeket használtak a cikkben. Vajon létezik módszer, mely segítségével pusztán a tartalmazott képek alapján megtalálom a keresett cikket?

Jó lenne a választ annyival lerendezni, hogy igen-e avagy sem. De ez sajnos nem ilyen egyszerű. A képi adatbázisok, képarchívumok legfontosabb feladata a képek tárolása, és azok visszakeresésének megoldása. Ebből beláthatóan a képek tárolása okoz kisebb problémát. A visszakeresés az, amely egy nagyon fontos sarokpontját képezi a képadatbázisok létrehozásának [1] [4] [8] [13] [17].

2. A képarchívumokról

Először tekintsük csak át, miért lehet szükség a szöveges információk mellet képi információk tárolására is. Az egyik ok, amikor a képi információ csak kiegészítő szerepet játszik az archívumban, csak arra szolgál, hogy - úgymond - kelendőbbé tegye a szöveges árút. Tipikus ilyen példa az újságok hirdetési rovataiban megjelenő képes hirdetések, mikor az eladandó autó hirdetése mellé prezentálnak egy amúgy sem jól kivehető fotót. Ez a webes hirdetésekben, a webes archívumokban is egy jellemző eset. Erre élő példa egy napjainkban működő magyar webes antikvárium, mely tartalmaz fotót a könyv borítójáról is. A második csoportba azok az esetek sorolhatók, amikor már a kép nem csak mint kiegészítő információ van jelen, hanem maga a kép képezi az archívum tárgyát. Azért jött létre maga az adatbázis, hogy a képet, mint információt tárolja. Ez alatt azt kell érteni, hogy a kép nem csak mint adat, mint bitek sorozata van jelen, hanem mint információ is, azaz a tartalmazott objektumokról is rendelkezünk valamilyen ismerettel. Még hétköznapibb nyelven mondva, a kárpitos textiladatbázisát átnézve, a képek mellett pontosan szerepel az, hogy az adott képen milyen színű, milyen anyagú, milyen árú textília látható. És persze egyértelmű, hogy maga a kép a fontos, hiszen az alapján választjuk ki, milyen bútorkárpitot szeretnénk, és az ár csak másodlagos (jó esetben). A harmadik csoport a maradék, azaz amikor csak maguk a képek vannak jelen az archívumban, és nincsen mellettük semmiféle kiegészítő információ (tipikus példa erre a konferenciákon készült képállományok weblapra történő felhelyezése, vagy képfeldolgozási körökben a tesztképek publikálása).

Az itt megemlített osztályok esetében persze még nem volt szó a visszakeresésről. Az első csoportnál triviális a keresés iránya, a megadott szöveges információkhoz szeretnénk a hozzá tartozó képet vagy képeket megkapni. A második csoport esetében ez szintén kijelenthető (például egy festményadatbázisban megadom a festőt, és szeretném látni a hozzá tartozó képeket), de már (a kép fontosságából adódóan) felmerül egyéb jellegű keresés is, azaz mikor megadom magát a festményt, és szeretném a hozzá tartozó adatokat (festő, kor, méret) megkapni. Itt jelenik meg tehát az igény a vizuális információ tartalom alapú kinyerésére. A harmadik eset úgymond a legkacifántosabb. Nincs szöveges információ, amit meg szeretnénk kapni. Magát a képet akarjuk megkapni, mert vagy csak részletei vannak meg, vagy rendelkezünk a képpel, de kisebb/rosszabb minőségben. Ebben a cikkben ez utóbbi két eset közös részeivel foglalkozom. Tehát nem azt tekintjük most keresési iránynak, hogy szöveges információk alapján keresem a képet és a többi hozzátartozó szöveget, hanem egy kép alapján keresek hasonló képet, képeket, kapcsolódó szövegeket. Ha belegondolunk, korántsem triviális, hogy ez hogyan oldható meg.

A választ a vizuális információ tartalom alapú kinyerése adja [8]. Képzeljük el, hogy tervezőként dolgozunk a következő Gyűrűk Ura epizódon. Több ezer képet, grafikát és fotót lapozunk át a monitorunkon. Persze az emlékeinkben csak néhány jellegzetességet tudunk felidézni ezekből a képekből (az egyiken szép kék volt az ég, vagy homokdűnék voltak rajta valahol, stb.). Hogyan találjuk meg a vizuális hasonlóságokat? Vagy ha újságírók vagyunk, és az a feladatunk, hogy hasonlítsuk össze az újév ünneplésének formáit a földön, hogyan találjuk meg a megfelelő videó képsorokat? A vizuális információ kinyerés (Visual Information Retrieval, VIR) az ilyen vizuális hasonlóságok kinyerésére fókuszál. A tartalom alapú képkinyerés (Content-Based Image Retrieval, CBIR) pedig kifejezetten a képi információk alapján történő kinyerést célozza meg. Tekintsük át most nagyvonalakban, milyen eszközöket használnak a CBIR rendszerek [13].

Ha szöveges magyarázat is kapcsolódik a képekhez, akkor akár direkt, kulcsszó alapú keresések is elvégezhetők. Mindazonáltal számos szituációban a szöveges leírás vagy nem létezik, vagy nem teljes, és mint említettem, ez a cikk nem az ilyen jellegű keresésekkel foglalkozik. Ha a szöveges leírás nem elérhető, akkor a tartalomalapú képkinyerés felé kell fordulnunk. A tartalomalapú megközelítések esetében a keresés olyan tulajdonságokon alapszik, melyek közvetlenül a nyers képekből lettek kinyerve, mint például szín vagy textúra. A meghatározó VIR paradigmák keresései három fő csoportba oszthatók. Ezek a hasonlókép-alapú lekérdezések [11], a vázlat alapján történő lekérdezések [3] [9], illetve az ikon alapú lekérdezések [8]. A hasonló kép alapján történő lekérdezések esetében a felhasználó kiválaszt egy képet, majd a rendszer visszaadja képek egy olyan sorozatát, melyek hasonlóak a felhasználó által kiválasztott képhez. A vázlat alapú kereséseknél a felhasználó manuálisan felvázol (rajzol) egy képet, mely a későbbiekben a keresés alapja lesz. Az ikon alapúnál a felhasználó különböző ikonokat helyez el a kép különböző pontjaiban, ezáltal kijelölve, hogy hol, milyen vizuális tulajdonságot tart fontosnak [2]. Bármelyik megközelítési módot is alkalmazzuk, a végeredmény az, hogy összeállítunk egy képet (mely plusz információkkal is rendelkezik, mint például alkalmazandó illesztési stratégia, stb.) és megkérjük a rendszert, a meghatározott feltételek mellett keressen nekünk az archívumban olyan képeket, melyek kielégítik az általunk megadott hasonlósági kritériumokat. Kérdés, mik ezek a hasonlósági kritériumok. És mi az, hogy egyáltalán hasonlóság?

3. A tulajdonságokról

Ahhoz, hogy két képet összehasonlítsunk, a pixelről-pixelre történő illeszkedésvizsgálat mellett számos kifinomultabb eszközt is alkalmazhatunk (már csak a zaj miatt is). Az irodalomban használatos technikák mind megegyeznek abban, hogy a képek totális összehasonlítása helyett a képekből kinyert tulajdonságokat, tulajdonságvektorokat hasonlítják össze [8]. A kinyerhető tulajdonságvektorokat két nagyobb csoportba szokás sorolni [13]. Az első csoportba azok a vektorok tartoznak, melyekből a kép kis hibával teljes mértékben visszaállítható. Ez a csoport a reprezentáció. A másik csoportba azok a vektorok tartoznak, melyekből a kép nem állítható vissza, de a kép, vagy a képen található objektumok valamilyen mérhető tulajdonságait reprezentálják. Ezek a jellegzetességek. Az illesztések gyakran mindkét fajta tulajdonságvektor meglétét is igényelik egy-egy hasonlóság eldöntéséhez. A tulajdonságvektor szó mindkét osztály vektorait jelenti. Az irodalomban legtöbbször csak a reprezentációt szokás külön nevesíteni, ha az szükséges. Most először megnézzük, mik a legfontosabb tulajdonságok, majd azt világítjuk meg, mit nevezünk hasonlóságnak ezek között a tulajdonságok között.

A legelterjedtebb tulajdonságok a képen található színek (globális színek), a képen található objektumok színei (lokális színek), az objektumok formái (alakok), azok egymáshoz vett elhelyezkedései (struktúra), illetve az objektumok felületi mintázatai (textúra). Az objektumok esetünkben olyan egybefüggő régiókat jelentenek, melyek a környezetüktől homogén színükkel és/vagy textúrájukkal elkülönülnek, úgymond foltokat alkotnak.

A színek illeszkedésének vizsgálatában a leggyakrabban alkalmazott eszközök a színhisztogrammok. A hisztogramm nem más, mint a képen, vagy a kép adott régióján található pixelek színeinek eloszlása, tehát megadja, hogy egy adott színt mennyi pixel realizál.

1. ábra: kép és hisztogrammja

Miután ezt az információt kinyertük a képből, a hisztogrammok, mint eloszlások vizsgálata következik, hogy megállapítsuk, a színek tekintetében hasonló-e a két kép, illetve régió. Az irodalom számos hisztogrammtávolságot ismer, ezek közül következzen most néhány. A példákban a két kép hisztogrammjai H₀ és H₁ vektorok, ahol H₀(i) értéke azon pixelek száma, melyek az i sorszámú színnel rendelkeznek.

L₁ távolság: d(H₀,H₁) = S_i|H₀(i)-H₁(i)|

L₂ távolság: d(H₀,H₁) = (S_i|H₀(i)-H₁(i)|²)^1/2

L_i távolság: d(H₀,H₁) = max_i(H₀(i),H₁(i))

Az alakok illeszkedésének vizsgálatához több megközelítési módot is lehet alkalmazni. Egyesek a régiót egy ponthalmaznak tekintik, és két régió alakjának illeszkedése esetén egy olyan leképezést keresnek, mely a két ponthalmaz pontjait egymásnak jól megfelelteti. Mások hasonlóan járnak el, de nem a különálló pontoknak tekintik a régiókat, hanem egymáshoz szorosan kötődő pontoknak, foltoknak, és az alakok egymáshoz viszonyított lefedését vizsgálják, illetve különféle olyan geometriai transzformációkat keresnek, melyek minél kisebb deformációval viszik át az egyik foltot a másikba. A legkifinomultabb módszerek az objektumok kontúrjait tekintik kiindulási alapnak, és azokat, mint (zárt vagy nyílt) görbéket próbálják egymásnak megfeleltetni különféle approximációs technikákkal. Az objektum kontúrja persze nem csak paraméteres görbeként adható meg, hanem léteznek különféle kontúrkódolási technikák is (lánckód, differencia kód, alakszám), melyek jól alkalmazhatók.

2. ábra: objektum rögzített kiindulási ponttal, és az iránykódok. A lánckód: 1002335567

A lánckód végül is nem más, mint az adott görbét leíró pixelek sorozatának egymáshoz viszonyított elhelyezkedéseinek a leírása. A [6]-ban ilyen, lánckóddal megadott kontúrok hasonlóságvizsgálatára találhatunk példát.

Az objektumok egymáshoz viszonyított elhelyezkedésének vizsgálata a már korábban említett ikon alapú kereséseknél is jól alkalmazható. Gyakori, hogy a képet egy valamilyen méretű mátrixnak tekintik, ahol a mátrixban található elemek az objektumok (immár mértüktől függetlenül), és a mátrixok között próbálnak meg olyan transzformációt végrehajtani, melyek az egyikből a másikat adják eredményül.

3. ábra: szimbolikus kép, a 9DLT kódok és maga a 9DLT mátrix

Egy másik megközelítési mód az, amikor egy úgynevezett 9DLT (9 Direction Lower Triangular, 9 irányítású alsó háromszög) mátrixot építenek fel mindkét képre, és azon mátrixokat főkomponens analízissel [2], vagy egyéb statisztikai eszközökkel vizsgálják tovább.

A textúrák illeszkedésének vizsgálata az egyik legbonyolultabb feladat, ugyanis már magának a textúrának a definíciója is problémákba ütközik. A textúra egy nagyon intuitív fogalom. Minden gyerek tudja, hogy a leopárd pöttyös, de a tigris csíkos. Ebből a példából is látszik, hogy a textúra az valamilyen intenzitások és színek ismétlődése. No persze ez csak egy megközelítés. A textúrát (vizuális textúrát) befolyásolja az anyag fizikai felülete is (érdes, tükröződő, stb.). Érződik az intuitív megközelítés, ugyanis a textúrát pontosan definiálni meglehetősen nehéz (ez abból is látszik, hogy már számos eltérő definíciója létezik az irodalomban). Az univerzális textúra definíció hiányától eltekintve minden kutatás megegyezik néhány közös pontban. Ezek, hogy egy adott textúrán belül fontos a pixelintenzitások változását követni az egymáshoz közel álló pixeleken, azaz limitált a felbontás alulról ilyen értelemben, másrészt a skálázás is közrejátszik a textúrában, mert más-más skálázás esetén mást lehet ismétlődőnek tekinteni (azaz limitált a felbontás felülről is).

4. ábra: különféle textúrák

Mikor különböztethető meg két textúra, ha ugyanazokkal a fényerő, kontraszt és szín tulajdonságokkal rendelkeznek? Ha beágyazzuk az egyik textúrát a másik textúrába, és a beágyazott vizuálisan elüt a befogadótól, akkor a két textúra nem tekinthető hasonlónak. Ennek eldöntése érdekében különféle statisztikai eszközöket szokás alkalmazni, például Fisher féle kulcsokat, illetve Markov véletlen mezőket, vagy egy másik megközelítés, amikor faautomatákkal generálnak és ismertetnek fel textúrákat.

4. A hasonlóságról

Most, hogy láttuk, milyen tulajdonságokat szoktak kinyerni a képekből, felmerül a kérdés, hogyan mérhető köztük a hasonlóság [8] [13]. Két megközelítési mód terjedt el. Az egyik a hasonlóság mértékét egy 0 és 1 közötti valós számnak tekinti, ahol az 1 a totális illeszkedés, míg a 0 a totális különbözőség. A másik megközelítés pont fordítva osztályoz. A hasonlóságot távolságnak tekinti, és ekkor annak értéke 0, ha a két kép (tulajdonság) identikus, és a távolság egyre nagyobb, minél kisebb a hasonlóság. Melyik a jó megoldás? Mivel a gyakorlatban a képek és azok tulajdonságainak univerzuma véges, így a két megközelítési mód kisebb-nagyobb munkával jól megfeleltethető egymásnak. A távolságok esetében a leggyakrabban megkívánt tulajdonságok a következők:

p₁: d(I,I) = d(J,J) önhasonlóság

p₂: d(I,I) Ł d(I,J) minimalitás

p₃: d(I,J) = d(J,I) szimmetria

p₄: d(I,J) Ł d(I,K) + d(K,J) háromszög egyenlőtlenség

Persze fontos megemlíteni, hogy ezek egyrészt nem mindig biztosíthatók (például hogyan értelmezzük a háromszög egyenlőtlenséget az emberi szem érzékelésére, vagy az emberi agy hasonlóságfogalmára?), másrészt az alkalmazások tekintetében nem is biztos, hogy mindegyiket biztosítani kell. Általánosan elfogadott, hogy a hasonlósághoz minimálisan szükséges tulajdonságok a p₁ és a p₂, melyekhez az egyszerűség kedvéért gyakran beveszik a p₃-at.

5. A keresésről

Miután tisztáztuk a legfontosabb tulajdonságokat és a hasonlóság fogalmát, tekintsük át egy általános keresés menetét. A felhasználó egy (hasonlókép-, vázlat- illetve ikonalapú) interfészen keresztül meghatározza a keresőképet, azaz azt a képet, amelyhez hasonlót keres az archívumban. Ezt jelölhetjük Q-val. Ezután a rendszer képezi a keresőkép tulajdonságvektorait, majd sorra illeszti őket az archívumban található képek vektoraira. A visszaadandó eredményhalmaz általában három csoportra osztható. Van amikor csak egyetlen egy totálisan illeszkedő képet keresünk (pontosabban a hozzá tartozó információkat). Ekkor alkalmazzuk az identikus keresést, azaz azokat a R képeket, amelyekre

d(R,Q) = 0.

Megadhatunk egy e környezetet is (küszöb), ekkor azokat az R képeket keressük ahol

d(R,Q) < e.

Ez az e-keresés. A harmadik csoportba a legközelebbi szomszéd keresése (NN, Nearest Neighbour) tartozik, ekkor azokat az R-eket keressük melyekre

"P, P š R, d(R,Q) Ł d(P,Q).

Miután az eredményt illetve eredményeket megkaptuk, a tanulási funkcióval rendelkező rendszerek gyakran várnak egy visszacsatolást, melyben a felhasználó értékeli, esetleg sorba rendezi a kapott eredményeket "jóságuk" szerint, így a rendszer megpróbál pontosabb eredményt produkálni a következő ugyanilyen jellegű kereséskor. A mi szempontunkból most igazán a keresés középső fázisa az érdekes. Mi történik akkor, ha az archívum mérete meghalad egy bizonyos határt, és a vektorok illesztésének teljes ideje olyan nagyra nő, hogy a felhasználó nem bírja kivárni. Természetesen csökkenteni kellene valahogy az illesztésre kandidált képek (vektorok) számát. Erre alkalmasak a különféle multimédiás indexelési technikák.

6. Az indexelésről

A multimédiás indexelési technikák két nagy csoportba oszthatók [5] [7]. Az első az adatpartíciós indexelés, a másik pedig a térpartíciós indexelés. Az első az adatok eloszlása alapján, a másik pedig előre meghatározott vonalak mentén osztja fel a teret, függetlenül az adatok előfordulásától. A térpartíciós indexelés nem túl hatékony azon esetekben, mikor a képek közel azonosak, azaz az indexeik távolsága nem túl nagy, és egy nagyobb csoportba csoportosulva nem töltik ki az elméleti teret. Ilyen esetek elkerülése érdekében érdemesebb az adatpartíciós indexelést alkalmazni.

Az adatpartíciós indexelés az R-fából származtatható [18], mely eredetileg kétdimenziós adatok indexelésére szolgált a GIS-ben (Geographic Information System). Később az R-fákat kiterjesztették többdimenziós adatokra is. Az SS-fa például egy ilyen kiterjesztés. De nagyon sok egyéb kiterjesztés is létezik, melyek mind azon alapulnak, hogy nem minden régiónak van ugyanakkora szerepe a visszakeresésekkor.

Amennyiben a multimédiás indexelési technikákat kiegészítjük a könyvtári rendszerekben használatos szöveg alapú indexelési technikákkal, egy jól működő, többszörös indexelési technikát lehet kialakítani, mely egyszerre támogatja a szöveges információ hasonló kép alapján történő elérését, illetve a képek szöveges információ alapján történő keresését.

7. A kutatási területekről

Az eddigiekben láthattuk, hogyan épülnek fel a képarchívumok tartalomalapú keresőrendszerei, vizuális információ kinyerő moduljai. Most pedig tekintsük át, milyen lehetséges kutatási területek vannak a témában. Ha röviden akarnám kifejezni magam, azt mondhatnám, hogy bármi, hiszen a technológia még eléggé gyerekcipőben jár.

Elsőként a gépi látás az, ami előbbre viheti a témát. Ugyanis ha nem pusztán robotikusan működő illesztőalgoritmus-gyűjteményt akarunk alkalmazni, akkor nagy előrelépést hozhat a különféle gépi látást alkalmazó, illetve mesterséges intelligencia algoritmusokkal együttműködő felismerő rendszerek használata (arcdetektálás, arcfelismerés, karakterfelismerés, stb.). No persze, ez a távoli jövő. Adott speciális feladatok esetén az illesztőalgoritmusok javítása is nagy előrelépést hozhat. A régiók alakjának illesztésében például azt feltételezve, hogy a kontúrt leíró lánckódok különféle valószínűségi változók mintarealizációi, statisztikai próbák alkalmazására nyílik sor [6]. Hasonlóan jó eredményre vezet, ha a lánckódot egy sztochasztikus folyamat egy realizációjának tekintjük.

Az indexelés területén is lehet előrelépéseket tenni [16]. Köztudott, hogy a visszakeresés illetve a karbantartás (beleértve a bővítést is) minden adatszerkezet esetén szöges ellentétben áll egymással. Minél gyorsabb illetve könnyebb a visszakeresés, annál nehezebb a karbantartás, illetve annál több feladatot kell ellátni az archívum bővítése setén. Amennyiben az archívum képein található objektumok jól csoportosíthatók, akkor a beszúráskor csak annyi plusz feladatot kell ellátni a beszúrást végző személynek, hogy meghatározza, mely csoportba tartozik az ábrázolt objektum tekintetében a kép. Az objektumorientált modellezés segítségével lehetségessé válhat olyan osztályhierarchia felépítése, mely a generalizáció/specializáció segítségével jól modellezi a képen ábrázolt objektumokat. Az így megkapott osztályhierarchia pedig nem más, mint egy hierarchikus, többszintű indexszerkezet, mely a szó legszorosabb értelmében tartalom alapú, ugyanis a képek tartalmán alapszik. A hierarchia csomópontjai tartalmazhatják a konkrét képekre vonatkozó indexbejegyzéseket. Ilyen jellegű keresésekkel [14]-ben és [15]-ben bővebben foglalkozom.

Mint már korábban említettem, napjaink illesztőalgoritmusai a képen található régiókon alapulnak. Itt hatalmas előrelépéseket lehet tenni, ugyanis a régiókijelölés egy olyan lépés, mely szinte sohasem működik jól. Gondoljunk csak a sok textúrát tartalmazó képek régiókijelölésire. Ezen a problémán is, illetve a régiók egymáshoz viszonyított helyzetén alapuló keresésekben is nagyot segíthet az, ha a keresést indító személy nagyrészt be tudja határolni, a kép mely részén érdemes keresni, és főleg, hogy mit (lásd ikon alapú keresések). Ilyen irányban továbblépés az, ha megengedjük, hogy a kereső személy összetett kereséseket indítson el (pl.: vagy kék volt a kép teteje, vagy piros, de hogy a jobb alsó sarokban nem zöld, az biztos). Egy ilyen jellegű kereséshez biztosítani kell a részképeken alapuló keresést, illetve a keresési eredmények logikai eszközökkel történő összekapcsolását (illetve maguknak a kereséseknek a formalizációját). Erre láthatunk példát [14]-ben.

A kérdésformalizáció a képadatbázisok lekérdezőnyelveiben is felmerül, így több kutatás is foglalkozik a multimédiás adatbázisok lekérdezőnyelveivel, melyek lehetnek SQL-alapúak illetve akár teljesen új alapra is helyezhetőek (gyakori, hogy valamilyen algebrából vagy kalkulusból indulnak ki) [10] [11]. A lekérdezőnyelvek pedig már nyitást képeznek az archívumok (akár máselvű) interfészei felé, melyeken lehetőség nyílik a felhasználó általi visszacsatolásra, amely segítségével a rendszerek javíthatják válaszadó képességeiket (és ezáltal megint elértünk a mesterséges intelligencián alapuló rendszerekhez).

Az eddigieket talán úgy lehetne összefoglalni, hogy a kutatás alapjait alkotó kérdések a következők: Mi a jobb, az alacsony szintű tulajdonságokon alapuló keresések fejlesztése, vagy szemantikus megoldások kifejlesztése? Hogyan lehet összekötni, fuzionálni a különféle lehetőségeket? Egymenetes kérdésfeltevést érdemes választani, vagy végignavigálni a keresést a megfelelő válaszig? Egyáltalán, az eddigi rendszerek továbbfejlesztésére vagy teljesen új alapra helyezésére lenne-e szükség? És persze mindezen felül ott van a teljesítmény fokozásának kérdése is, mint mindennel összefüggő probléma.

8. Az alkalmazásokról

Számos alkalmazás létezik, ahol nagy szerepe lehet a képi adatbázisoknak, a tartalomalapú képkinyerésnek illetve tágabb értelemben a vizuális információkinyerésnek. Ilyenek például az építészet, belső design, biokémia, kulturális szolgáltatások, Online katalógusok, boltok, az oktatás, szórakozás, film-, kép-, videó archiválás, azonosítás, GIS, újságírás, orvosi alkalmazások, távérzékelés, őrzés, turista információk, és végül, de nem utolsó sorban az intelligens könyvtári rendszerek.

Építészetileg leginkább a hasonló épületek, szerkezetek megtalálása lehet fontos, mely segítségével a felhasználó egy vázlatot kaphat az épülő ház kinézetéről például. A belsőépítészetben a szín alapú (illetve a szöveges leírás alapú) keresések lehetnek kifizetődők (jók a színek, de milyen hasonló színezetű/hangulatú kombináció lehetséges).

A biokémiában gyakori a molekulák osztályozása, katalogizálása. Ezek indexelése nagy segítséget nyújthat a gyógyszerek fejlesztésében. Gondoljunk csak arra, amikor a felhasználó a mikroszkópban látott molekulához hasonló képű/alakú molekulákat keres az archívumban. Ilyen esetekben az alak/szöveg alapú keresések nyújtanak nagy segítséget.

Az Online vásárlás esetében gyakori tapasztalat, hogy a vásárlók nem konkrét dolgot keresnek, hanem "ha meglátom, felismerem" alapon böngésznek a termékek között. Itt is nagy segítséget nyújthat például a szín alapú keresés.

Az oktatás szempontjából nem csak a képfeldolgozás oktatása terén hasznosíthatók a VIR tulajdonságai, hanem például akár a történelem oktatás területén, vagy a művészettörténet oktatása terén is (arcok, képek, szobrok keresése).

A film, kép, videó archiválást azt hiszem nem kell külön említeni, hiszen ehhez alkalmazkodik leginkább a VIR, mert természetéből ez az, ami a VIR egyik legfontosabb szerepe, az archívumokban való hathatós keresés.

Az orvosi alkalmazásokban az abnormális jelenségek vizuális felismerésén van a hangsúly. A vizuális alapot a röntgen, MR, CT és egyéb képek szolgáltatják.

Az intelligens könyvtári rendszerek esetében nem csak a könyvek borítóinak képeit kell képi információnak tekinteni, hanem minden tartalmazott képet, illetve grafikát is annak tekinthetünk. Így a könyvek és a cikkek által tartalmazott fotók és grafikák is a keresés alapjait képezhetnék elősegítve a minél szélesebb palettán történő kereséseket.

9. És végül: a kérdésről

Zárszóként most már illene megválaszolni a címben feltett kérdésemet, létezik-e tartalomalapú képkinyerés képarchívumokból. A fentiek ismeretében sem lehet eléggé rövid választ adni. A legdiplomatikusabb talán az, hogy jó lenne, ha lenne. Maga a paradigma létezik. Láthattuk a téma sokszínűségét, szerteágazóságát. Rengetegen kutatnak, fejlesztenek a témában. Tehát létezik, de azt is hozzá kell tenni, hogy nincs igazán hatékonyan működő, mindenki által használható rendszer. Elszigetelt prototípusok, vagy speciális feladatot ellátó zárt rendszerek persze léteznek. De az, hogy cikkeket, könyveket vagy egyéb szöveges információkat keressünk akár az Interneten hasonló képeken alapuló keresésekkel, még csak álom. Tehát van kinyerés, mert foglakoznak vele, fejlesztik, és nincs, mert nincs igazi működő alkalmazás. Azok a képkeresők, amik széles körben, mindenki által elérhetőek, pedig napjainkban még csak szöveges kereséseket támogatnak (lásd: Google képkereső). Az irány tehát adott, már csak a megfelelően kiforrott technológiai háttér szükségeltetik.

Hivatkozások

[1] C. C. Chang, S. Y. Lee, Retrieval of similar pictures on pictorial databases, Pattern Recogn. 24, 7, (1991), 675-681,

[2] C. C. Chang, T. C. Wu, An exact match retrieval scheme based upon principal component analysis, Pattern Recognition Letters, 16, (1995), 465-470

[3] M. Egenhofer, Spatial-Query-by-Sketch, VL'96, IEEE Symposium on Visual Languages, (1996), 60-67

[4] J. M. Fuertes, M. Lucena, N. Pérez de la Blanca, J. Chamorro-Martínez, A scheme of colour image retrieval from databases, Pattern Recognition Letters 22, (2001), 323-337,

[5] W. I. Grosky, R. Mehrotra, Index-based object recognition in pictorial data management, Comput. Vision Graph. Image Process. 52, 3, (1990), 416-436.

[6] J. Kormos, K. Veréb, Recognition of chain-coded patches, COMCON 8, Proceedings of 8^th International Conf. on Advances in Communication and Control (Telecommunications/Signal Processing), (2001), 37-45

[7] E. A. El-Kwae, M. R. Kabuka, Efficient Content-Based Indexing of Large Image Databases, ACM Transactions on Information Systems, Vol. 18, No. 2, April (2000).

[8] M. S. Lew (ed), Principles of Visual Information Retrieval, Springer, (2001)

[9] S. Matusiak, M. Daoundi, T. Blu, O. Avaro, Scketch-Based Images Database Retrieval, MIS'98, LNCS 1508, (1998), 185-191

[10] J. Z. Li, M. T. Ozsu, D. Szafron, V. Oria, MOQL: A Multimedia Object Query Language, 3rd Int. Workshop on Multimedia Information Systems, Como, Italy, (1997), 19-28,

[11] D. Papadias, T. Sellis, A Pictorial Query-By-Example Language, Journal of Visual Languages and Computing, 6(1), (1995), 53-72

[12] N. Roussopoulos, C. Faloutsos, T. Sellis, An Efficient Pictorial Database System for PSQL, IEEE Trans. Soft. Eng. 14 (5), (1988), 639-650,

[13] S. Santini, Exploratory Image Databases, Content-Based retrieval, Academic Press, (2001)

[14] K. Veréb, Kutatási irányzatok az objektumorientált képadatbázisok terén, Informatika a felsőoktatásban, (2002), 975-981

[15] K. Veréb, Objektum alapú keresési és indexelési technológia képadatbázisokhoz, V. Országos Objektumorientált Konferencia, (2002), http://zenith.sch.bme.hu/~ooffk/oookea/Vereb_Krisztian.rtf

[16] S. F. Chang, Content based indexing and retrieval of visual information, IEEE Signal Processing Magazine 14, (4), (1997), 45-48,

[17] J. P. Eakins, Automatic image content retrieval: Are we going anywhere? In Proceedings of the 3^rd International Conference on Electronic Library and Visual Information Research, May (1996)

[18] A. Guttman, R-Trees: A dynamic index structure for spatial searching. Proc ACM SIGMOD, Boston, MA, (1984), 47-57