A weben lévő információk hozzáférhetősége

Krauszné Princz Mária, pmaria@delfin.klte.hu,

Debreceni Egyetem, Műszaki Főiskolai Kar

A weben keresztül óriás mennyiségű információ érhető el, de vajon megtaláljuk-e mindig a számunkra éppen szükségeset? A felmérések szerint a felhasználók egy jelentős részénél a válasz erre a kérdésre: nem. Milyen keresési stratégiákat alkalmazhatunk? Hogyan növelhetjük az esélyét a minél relevánsabb információ fellelésének?

E cikk a weben lévő óriási mennyiségű információ elérhetőségének lehetőségeit elemzi. .

Keresési stratégiák

A weben lévő információk közül a szükséges ismeretek megtalálásában több stratégiát követhetünk:

1. A jónak vélt URL cím beírása

Számos web site esetében jó taktika a nem hivatalos www.társaság_neve.com általános címet kipróbálni (pl. www.oracle.com). Ekkor a társaság nyitólapjára kerülve, onnan a hiperhivatkozásokat, elágazásokat követve megtalálható a céggel kapcsolatos információ. Amerikai web szerverek esetén a .com domain mellett használatosak az .edu, .org, .gov, .mil domainek, egyéb országokban a cím az ország kódjára végződik.

2. Tematikus keresők alkalmazása

A tematikus keresők az Interneten található dokumentumokra mutató hiperhivatkozások sokszor hierarchikus gyűjteménye, ahol tartalom szerint felépülő könyvtárakban kereshetünk. Az összegyűjtött anyag jellege szerint lehet akadémiai vagy egyéb szakgyűjtemény, illetve a közönség széles rétegeinek szánt, minél több szolgáltatást nyújtó üzleti portál.

A tematikus keresők használata számos előnnyel jár:

A kiválogatott dokumentumok témakörönként rendezve, csoportosítva találhatók meg.
A témák széles köre szerepel az ilyen gyűjteményekben.
A dokumentumokat a témák szakértői válogatják ki, így biztosított, hogy minőségileg kontrolált anyagot találunk.
Az összegyűjtött anyag sokszor kiértékelve, magyarázatokkal ellátva érhető el.
A legfrissebb dokumentumok (pl. hírek) itt találhatók meg, hiszen a keresőprogramoknak idő szükséges, míg adatbázisukba beemelik, s így kereshetővé teszik ezen oldalakat.

A tematikus keresők a webnek szűkebb részét fedik le, mint amit a keresőprogramok adatbázisai tartalmaznak.

3. Keresőszoftverek alkalmazása

A keresőprogramokat a weben lévő óriási mennyiségű információ lekérdezésére hozták létre.

Működésükre általánosan jellemző, hogy:

a weben lévő dokumentumok különböző halmazát választják ki és gyűjtik össze (ezt a tevékenységet önállóan és rekurzív módon működő robotprogramok végzik),
a kiválasztott és begyűjtött dokumentumok egyes részeiből adatbázist építenek fel (indexelő rész),
majd a felhasználók által megfogalmazott lekérdezéseket ezen adatbázisok alapján kísérlik meg megválaszolni.

Működésük általános folyamatát szemlélteti az 1. ábra:

1. ábra

A keresőprogramok működésének általános folyamata

Az általánosságokban való egyezésen túl nagyon sok eltérés található a különböző keresőprogramok működésénél.

Begyűjtés

A begyűjtő részben a keresőprogramok az Interneten át elérhető dokumentumokat gyűjtenek, hogy azokból saját adatbázist építsenek fel. Minden keresőprogramnak megvan a saját robotprogramja, amely a begyűjtést végzi. A különböző robotok a weben lévő dokumentumok csak egy részét indexelik. Különböznek abban, hogy mely szervereket tekintenek kiindulási pontnak, az információ kigyűjtésének mely módszerét alkalmazzák, milyen frissítési periódust használnak.

A keresőprogramok egy része csak HTML oldalakat gyűjt indexelésre, míg mások más típusú információk között is keresnek. Pl. gopher, WAIS, ftp, telnet (OPACs), UseNet News, IRC, különböző adatbázisok, multimédia termékek (kép, film, hang), egyéb típusok (pl. e-mail címek).

Különböznek a keresők abban is, hogy egy domainről kiindulva mélységi vagy szélességi bejárást alkalmaznak a domainről induló hivatkozások indexelésénél. Számos kereső felső korlátot ad meg, hogy egy domainről hány dokumentumot indexel (pl. Alta Vista). Így oly hatalmas dokumentum mennyiséget képviselő site-ok, mint pl. geocities.com vagy microsoft.com ezen keresők adatbázisában különösen alulreprezentáltak.

Fontos szempont, hogy milyen sűrűn írja felül saját adatbázisát egy kereső, újralátogatva azokat a helyeket, amelyeket egyszer már indexelt. Ez a paraméter jelentősen eltér a különböző keresőknél: egy héttől akár több hónapig is terjedhet, így ha közben módosulnak, megszűnnek az indexelt oldalak, a keresőprogram adatbázisában még a régi adatok szerepelnek (halott linkek). Bizonyos keresők a gyakrabban módosuló fontosabb oldalakat sűrűbben látogatják és indexelik újra.

Valamennyi kereső lehetővé teszi, hogy a felhasználók saját nyitólapjukat regisztráltathassák, azaz web szerverük, nyitólapjaik URL címét átadják a kereső robotprogramjának, bár ez nem jelent automatikus bekerülést a kereső adatbázisába. A legtöbb keresőnél azonban különböző nagyságú regisztrációs összegek befizetése mellett biztosítható, illetve gyorsítható az adatbázisba való bekerülés. 1998-ban publikálták az első eredményeket arról, hogy az egyes keresők a web hány százalékát indexelik. Az adatok szerint az akkori 6 legnépszerűbb és legjobb eredményt felmutató keresőprogramok együttesen a webnek mintegy 60%-át fedte le, egyenkénti eredményük a következő volt:

*Keresőgép*	*A web hány százalékát indexeli?*
HotBot	34%
AltaVista	28%
Northern Light	20%
Excite	14%
Infoseek	10%
Lycos	3%

2. ábra

A web lefedettsége a legjobb eredményt mutató keresőprogramok által (1998-as adat)

A következő évben a legjobb eredményt a Northern Light mutatta fel, de a webnek már csak 16%-át indexelte, s az akkori első 10 keresőprogram együttvéve is a webnek csupán 42%-át fedte le.

A web növekedési ütemével a keresőket üzemeltető szolgáltatók nem tudnak lépést tartani. A legfrissebb adatok szerint a jelenlegi legnagyobb indexállománya a következő keresőknek van:

3. ábra

A legtöbb oldalt indexelő keresőprogramok mérete (millió web oldal)

(2001 decemberi adat)

Indexelés

Az indexelő részben a begyűjtött dokumentumok bizonyos elemeiből, szövegéből a keresőprogram saját adatbázist épít fel, vagy tovább bővíti azt. A keresők különböznek azon szavak gyűjteményének nagyságában (lexicon, thesaurus), amelyeket ismernek, s amelyekből adatbázisukat felépítik. A Google esetében ez több mint 14 millió szót jelent. A keresők adatbázisában minden egyes szót (index) a koordináták egy halmaza reprezentál, amely leírja, hogy a keresett szó hol található (mely dokumentumban, bekezdésben, mondatban, címsorban, stb.).

Részletes leírások az indexelés folyamatáról nem érhetők el, de az általában ismert, hogy egyes keresők mit indexelnek.

A keresőprogramok a dokumentumok különböző részeiből építik fel adatbázisukat:

§ A dokumentum címét <TITLE> valamennyi kereső indexeli.

§ A fejléc információkat a <HEAD> és </HEAD> rész között (pl. file információk, meta adatok) a legtöbb kereső beépíti az adatbázisába.

§ Az URL címeket (host, könyvtár, file név) tartalmazzák a keresők adatbázisai, s néhány keresőnél keresési szempontként külön is megadható.

§ Számos kereső egyéb HTML elemeket is indexel: például címsorokat, horgony elemeket (<A> és </A> közötti rész), kiemelt szövegrészeket.

§ Míg kezdetben a keresők csak a dokumentum elejét, esetleg az első néhány bekezdést indexelték, ma már a legjobb keresők képesek a dokumentumok teljes szövegét indexelni.

§ Vannak olyan sűrűn előforduló szavak (pl. névelők, elöljárók, számok), amelyeket néhány kereső nem épít be adatbázisába (stop words). Ezen szavak listája keresőnként eltérő lehet.

Keresőrendszer

A keresőrendszer - a tényleges keresést megvalósító egység - a keresési kulcsszavak, kifejezések alapján a keresőprogram adatbázisából veszi elő a dokumentumokat. A kereső szoftver kiválasztása mellett a lekérdezés optimális megadásával befolyásolhatjuk leginkább a lekérdezés eredményességét.

A legtöbb kereső a legjobb egyezés elvét használja a visszakereséseknél, néhány csak a pontos egyezéseket tekinti eredménynek.

A keresés interfész

Valamennyi jelentős keresőprogram a lekérdezések legegyszerűbb formáján kívül (egy vagy több kulcsszó megadása) lehetővé teszi az összetettebb lekérdezéseket is. Azonban jelentős eltérések vannak, hogy mely keresőknél mit használhatunk.

§ Logikai operátorokkal (AND, OR, NOT) a legtöbb keresőnél kombinálhatjuk a keresési kifejezések szavait. Elhagyásuk esetén több keresési kulcsszó megadásakor egyes keresők AND, míg mások OR műveletet vesznek alapértelmezettnek. A szó előtti + jel használatával előírhatjuk, a - jellel kizárhatjuk a szó jelenlétét az eredményhalmazban.

§ A kulcsszóegyezéses kereséseken kívül kifejezések keresésére is lehetőség van a legtöbb keresőnél. Ekkor a szavak sorrendje lényeges, és a kifejezést idézőjelek közé kell zárni.

§ Néhány keresőnél a NEAR operátor használatával előírhatjuk, hogy egy adott szó környezetében kell előfordulnia a keresett szónak. A szavak közötti távolság keresőnként változhat: 2-től (WebCrawler) akár 25 szóig (Lycos) is terjedhet.

§ Keresési megszorítások adhatók meg néhány kereső szolgáltatásnál. Előírhatunk a dokumentumok létrehozására vonatkozó időkorlátot, megadhatjuk a dokumentum nyelvét, típusát, méretét, előfordulását domainenként, site-onként.

§ Számos keresőnél kereshetünk különböző szempontok szerint: választhatjuk a keresést a dokumentum címében, a hiperhivatkozások között illetve az URL alapján.

§ Egy-két keresőnél lehetőség van a szavak végének levágására. Ekkor a rádió* keresés eredménye egyaránt lehet a rádió, rádiózás, rádióhullám szavak valamelyikét tartalmazó dokumentum.

§ Kereséskor érdemes arra is figyelni, hogy néhány kereső kis- és nagybetű érzékeny.

A felhasználók keresési szokásait vizsgálva megállapították, hogy a felhasználók túlnyomó többsége átlag 2 szavas egyszerű kereséseket használ, és egyáltalán nem tudja használni a haladóbb keresési lehetőségeket, logikai függvényeket. A lekérdezések megfogalmazásának könnyítésére egyre több keresőprogram a műveletek kiadása mellett vagy helyett a megfelelő összefüggések kiválasztását biztosítja a felhasználóknak.

Sorrend

Valamennyi kereső úgy rendezi a keresés eredményét, hogy az eredmény lista elejére az általa legfontosabbnak tartott dokumentumok kerüljenek, de a rangsorolási algoritmusok keresőnként különböznek.

A fontosság meghatározása alapvetően két szemlélet szerint történik: az egyik a kulcsszavak előfordulásával számol, de a legújabb trend már a dokumentumra mutató hivatkozásokat veszi alapul.

Egyes keresőknél az eredménylistán szereplő dokumentumok sorrendjének meghatározásakor elsődleges szempont az adott kulcsszó előfordulásának gyakorisága a dokumentumban, illetve a kulcsszó előfordulásának távolsága a dokumentum elejétől, ezen belül is különleges fontosságú a kulcsszó szerepeltetése a dokumentum címsorában, valamint az alcímekben, stb. E feltételek meglétét különböző súlyozással veszik figyelembe a keresők.

Ezen elsődleges elvek mellé a keresők további tulajdonságokat is felhasználnak a sorrend meghatározásához. Bizonyos keresők (pl. HotBot, Infoseek) előrébb rangsorolja azokat a dokumentumokat, amelyek meta jeleket tartalmaznak. Az Excite - lévén a keresőprogramok és a rendszerező könyvtárak kombinációja - azon oldalaknak ad elsőbbséget, amelyek saját könyvtárában is megtekinthetők.

A valóságban azonban bizonyos kulcsszavak túlsúlya nincs mindig arányban az oldal fontosságával. Tekintsünk példának valamely keresés eredményéül kapott két dokumentumot: Az elsőnek a címében többször előfordul a keresési kulcsszó, de a dokumentum tartalma semmitmondó pár sor. A második ugyan csak egyszer tartalmazza címében a keresési kulcsszót, de részletes leírást ad, több részes oktatói anyagot közöl, és számos hivatkozást tartalmaz a kulcsszóval kapcsolatban.

A keresők egy része az első dokumentumot előrébb rangsorolná, mint a másodikat, bár a második jóval több hasznos információt közvetít. Éppen ezért egyre több kereső a keresési kulcsszavak számolgatása mellett új megoldásokat is alkalmaz egy-egy oldal fontosságának meghatározásakor, ezeket nevezzük második generációs keresőprogramnak.

A második generációs keresőprogramok újításai a keresési eredmények megjavítására:

ˇ A keresés irányultságának fogalmi felismerése.

Ide tartozó területek az alkalmazott jelentéstan, a természetes nyelvi feldolgozás. E technikákat alkalmazó két legjelentősebb kereső az Ask Jeeves és a Northern Light.

Az Ask Jeeves adattárában számos, különböző tárgyterületek szakértői által előre megfogalmazott kérdés van, amelyekhez hozzárendeli a legrelevánsabb válaszoldalakat. A kereső elemzi a felhasználó által feltett kérdést, majd hozzárendeli a hozzá legjobban hasonlító előredefiniált kérdéshez, s szolgáltatja a válaszokat.

Northern Light a keresés eredményét a természetes nyelvi feldolgozó alkalmazásával csoportosítja site és/vagy tartalom alapján, s a felhasználó e csoportok közül választhat.

ˇ Hivatkozások analízise

A Google elsősorban a dokumentumra mutató külső hivatkozásokkal számol, s a népszerűbb oldalról történő külső hivatkozásokat súlyozottan veszi figyelembe. Algoritmusa annyira hatékony, hogy általánosan elfogadottan a Google-t tartják a legjobb keresési eredményeket nyújtó szolgáltatásnak.

Az oldal népszerűségének elismerése

Számos kereső az eredménylista sorrendjének meghatározásánál figyelembe veszi az eredményoldalak népszerűségét. Pl. Google, DirectHit.

A DirectHit egy oldalt azon elv alapján rangsorol, hogy egy egyszerű keresés eredménylistájából hányan választják az adott oldalt.

A második generációs keresőprogramokra jellemző, hogy egy oldal helyezését a rangsorban előnyösen befolyásolja az oldal népszerűsége. Ha ehhez hozzávesszük, hogy a felhasználók ritkán böngésznek a keresési eredménylista második oldalán túl, akkor az a várható trend, hogy az eddig is népszerű oldalak még népszerűbbek lesznek, az új oldalaknak pedig egyre nehezebb lesz jó helyezést elérni.

A rangsor befolyásolására tett kísérletek büntetése

Valamennyi keresőprogram küzd a webmesterek különböző mesterkedései ellen, amellyel megpróbálják oldalaik fontosságát megemelni. Ez számos módon történhet, az ötletek kifogyhatatlanok:

§ A kulcsszavak vég nélküli ismétlésével, ami a böngésző számára láthatatlan, ha a háttérszín és a betűszín azonos, vagy ha a betűméret elég kicsinek van megválasztva, de a kereső számára ugyanakkor a kulcsszavak láthatók.

§ A TITLE elem többszörözésével, amelyek közül csak az elsőt jelenítik meg a böngészők, de a robot valamennyit indexeli.

§ A tartalom duplikálásával vagy ugyanazon oldal többszöri előterjesztése, vagy ugyanazon tartalom más hoston való elhelyezése által.

§ A nyitólapra mutató "mesterséges linkek" elhelyezésével. Ilyenek az olyan oldalak, amelyek egyetlen tartalma egy link egy másik oldalra, vagy amelyek elsődleges szándéka a felhasználót egy másik oldalra átirányítani.

Az említett próbálkozások eredménye számos keresőprogramnál az, hogy az érintett oldalakat alacsonyabb rangsorolással büntetik vagy automatikusan kizárják az adatbázisukból.

Kereshető web oldalak

A keresőmotorok tulajdonságainak ismerete nemcsak a lekérdezések minél hatékonyabb megfogalmazásánál, s ezáltal a találati eredmények leszűkítésénél segít, de hasznos a webre szánt dokumentumok elkészítésénél is. Ha tudjuk, hogy a kereső szoftverek mely tulajdonságok alapján szerepeltetik az eredménylistán előkelőbb helyen az egyes oldalakat, akkor a webre szánt oldalak optimalizálásával, kereshetőbbé tételével több emberhez juttathatjuk el az információt, s ez az üzletmenetben keményen éreztetheti a hatását. Nem véletlen tehát, hogy számos cég foglalkozik a honlapok minél inkább kereshetővé tételével.

A weben át elérhető információ egy része strukturált formában van tárolva. (pl. relációs adatbázisok), amelyek a megszokott eszközökkel (pl. SQL alkalmazásával) lekérdezhetők.

A HTML-ben írt szöveges dokumentumok félig strukturáltak, ahol a strukturálást, s evvel a lekérdezhetőséget a különböző meta elemek, jelölő tagek alkalmazásával érjük el. A HTML-t követő XML-ben különböző névtereket alkalmazva fokozhatjuk a szöveges állományaink strukturáltságát, s ezáltal kereshetővé tételét, ma még azonban a kereső szoftverek döntő része nem indexeli az XML tageket.

A láthatatlan web

A láthatatlan web részét képezik azok a weben át elérhető dokumentumok, információk, amelyek a keresőprogramok számára láthatatlanok, azaz nem épülnek be a keresők adatbázisába.

Alapvetően két oka van, hogy a keresők nem indexelnek egy web oldalt: egyrészt technikai korlát, amely gátolja az oldal elérését, másrészt a szolgáltató tudatos döntése vagy választása, amely kizárja az oldalt a kereső adatbázisából. Ideiglenesen a láthatatlan web részét képezik a legfrissebb dokumentumok (pl. hírek, újdonságok leírásai), amelyeket a keresőprogramok még nem indexeltek.

1. Technikai korlátok

Nagyon sok adatbázis érhető el a weben keresztül, de tartalmuk a keresőprogramok számára láthatatlan. Az adatbázisokban tárolt adatok lekérdezését valamely lekérdező nyelv (SQL, OQL) teszi lehetővé. A lekérdezés megadásakor valamely karaktersorozatot be kell gépelni vagy tulajdonságok egy sorozatát ki kell választani, amire a begyűjtő robotok képtelenek.

Lekérdezhető webes adatbázisok tartalma, azaz a dinamikusan generált web oldalak teljesen vagy részlegesen láthatók vagy láthatatlanok egy keresőmotor számára attól függően, hogy mennyit tartalmaz abból egy hiperhivatkozás által elérhető statikus oldal. Ha nem mutat egy hiperhivatkozás a web oldalra, akkor az a robot számára láthatatlan.

A fentiekből következik az is, hogy valamennyi webes adatbázis tartalma, amely felhasználói nevet és jelszót igényel a használótól, a keresők számára elérhetetlen.

2. Oldalak, amelyeket a keresőprogramok elvi okokból zárnak ki adatbázisukból

Léteznek olyan oldalak, amelyeknek kizárása a keresőszoftvert üzemeltető szolgáltató irányelveinek alapján történik. Ezen oldalak elérésének nincs technikai akadálya, de tartalmuk, minőségük, formátumuk miatt mégis kizárásra kerülhetnek.

A formátum miatti kizárás különböző okai:

A keresőprogramok és a robotok HTML nyelvű programok olvasására vannak optimalizálva, hisz ez a web alapnyelve. A szinte teljes egészében képeket tartalmazó oldalak gyakran kerülnek kizárásra, mert az oldalak nem tartalmaznak szöveget, leírást, ami alapján a keresők indexelhetnék az oldal tartalmát. A képek leírására használható ALT elemet, valamint az image mapben megadott dokumentumokat sem indexeli minden kereső. Néhány kereső nem támogatja a frame szerkezetet, ezért a framekben megadott dokumentumokat sem indexeli. (pl. Excite, Fast).

A különböző felhasználói programok által készített dokumentumok (pl. PDF, Word, PowerPoint fájlok) tartalmának indexelésére a legtöbb keresőnek hosszabb időre volna szükség, ezért eleve kizárják ezen típusokat az adatbázisukból.

A strukturálatlan állományok, azaz a programok, képfájlok, animációs állományok, hangfájlok esetén is nehéz vagy egyelőre lehetetlen relációt megadni a fájl tartalma és belső struktúrája között, hacsak valamely magyarázó szöveggel nem adjuk meg a fájlok tartalmának leírását. Sehogy vagy nehezen - valamilyen konverziót igénylő - indexelhetőségük miatt kerülnek kizárásra ma még a legtöbb esetben ezek a fájlok.

Az egyes szolgáltatók döntése alapján kerülnek teljes vagy részleges kizárásra a különböző scripteket tartalmazó oldalak, amelyeknek URL-je tartalmazza a kérdőjelet. (pl. http://www.cre8asiteforums.com/viewtopic.php?t=1130) Ennek oka az, hogy a kereső robot nem tudhatja biztosan, nem egy végtelen ciklust eredményező csapda-e a scriptet tartalmazó oldal, amely a fenntartónak idő- és pénzveszteséget eredményezne, így megelőzés végett kerül sor az oldal kizárására.

A láthatatlan web részét képező források, adatbázisok elérését segítik a rendszerezett hivatkozások gyűjteményei. Ilyen található például a www.invisible-web.netcímen.

A weben át elérhető dokumentumok nagyobbik részét, becslések szerint 2-3-szorosát alkotják azok a dokumentumok, amelyek megtalálásában a keresőprogramok nem segítenek minket. A láthatatlan web nagyon gyors mértékben növekszik, így tartalmának lekérdezhetővé tétele sürgető feladat.