Tartalomalapú képkinyerés képarchívumokból - van ilyen?

 

 

 

Veréb Krisztián

Debreceni Egyetem

Matematikai és Informatikai Intézet

sparrow@math.klte.hu

 

 

Kivonat

 

 

Képzeljük el, hogy tervezőként dolgozunk a következő Gyűrűk Ura epizódon. Több ezer képet, grafikát és fotót lapozunk át a monitorunkon. Persze az emlékeinkben csak néhány jellegzetességet tudunk felidézni ezekből a képekből (az egyiken szép kék volt az ég, vagy homokdűnék voltak rajta valahol, stb.). Hogyan találjuk meg a vizuális hasonlóságokat? Vagy ha újságírók vagyunk, és az a feladatunk, hogy hasonlítsuk össze az újév ünneplésének formáit a földön, hogyan találjuk meg a megfelelő videó képsorokat? A vizuális információ kinyerés (Visual Information Retrieval, VIR) az ilyen vizuális hasonlóságok kinyerésére fókuszál.

Az adatbázisok térhódításával a képek adatbázisbeli tárolására és visszakereshetőségére is megjelent az igény. A probléma megoldására született speciális eszközök azonban nem minden esetben használhatóak föl. Gondoljunk csak például az olyan esetekre, mikor az adott képadatbázis csak kiegészítő eleme egy meglévő nagyobb, szöveges adatokon alapuló adatbázisnak (rendőrségi személyi nyilvántartás, stb.) Ilyenkor sokkal költséghatékonyabb a meglévő adatbázisban tárolni a képeket, mint egy új, teljes mértékben képek tárolására szolgáló adatbázisgépet beszerezni. Persze mindkét esetben (főleg ez utóbbiban) a képekre történő illesztés egy adott illesztési stratégián alapszik, mely a legtöbb esetben egy adott illesztési algoritmust tartalmaz.

                A képek tárolása, de legfőképp azok adatbázisból történő visszakeresése nagyban különbözik a nem multimédiás jellegű egyéb adatok tárolásától és visszakeresésétől. Az újabb, objektumrelációs vagy teljesen objektumorientált szemléletű adatbázisok terjedésével pedig a problémákra újabb megoldási lehetőségek adódnak. Mindamellett napjaink képi adatbázisaiban a képek visszakeresése közben felhasznált illesztési algoritmusok és stratégiák nem teszik igazán lehetővé az összetett illesztési kérdések alkalmazását.

                Számos kinyerési paradigma van használatban a VIR terén. Ha a szöveges magyarázat is kapcsolódik a képekhez, akkor akár direkt, kulcsszó alapú keresések is elvégezhetők. Mindazonáltal számos szituációban a szöveges leírás vagy nem létezik, vagy nem teljes.

Ha a szöveges leírás nem elérhető, akkor a tartalomalapú képkinyerés felé kell fordulnunk. A tartalom-alapú megközelítések esetében a keresés olyan tulajdonságokon alapszik, melyek közvetlenül a nyers képekből lettek kinyerve, mint például szín vagy textúra. A meghatározó VIR paradigmák keresései három fő csoportba oszthatók. Ezek a hasonlókép-alapú lekérdezések, a vázlat alapján történő leképezések, illetve az ikon alapú lekérdezések. A hasonló kép alapján történő lekérdezések esetében a felhasználó kiválaszt egy képet, majd a rendszer visszaadja képek egy olyan sorozatát, melyek hasonlóak a felhasználó által kiválasztott képhez. A vázlat alapú kereséseknél a felhasználó manuálisan felvázol (rajzol) egy képet, mely a későbbiekben a keresés alapja lesz. Az ikon alapúnál a felhasználó különböző ikonokat helyez el a kép különböző pontjaiban, ezáltal kijelölve, hogy hol, milyen vizuális tulajdonságot tart fontosnak.         

Az előadásomban bemutatom a legelterjedtebb képi keresőrendszerek által használt legfontosabb keresési módszereket és stratégiákat, és betekintést nyújtok a különböző lehetséges fejlesztési irányokba is, néhány saját eredményen keresztül.