5. "Aranymosás" az információtengerben:
Keresőrendszerek alkalmazása

A keresőrendszerek taglalása kétszeresen is témánkba vág: Egyrészt, mint az eddigiekből talán sejthető, általában már nem az a kérdés, hogy találunk-e valamit az Interneten a minket érdeklő témáról, hanem az, hogy hol találjuk meg. Ebben nyújtanak hatékonynak mondható segítséget a keresők. Másrészt, mint az egyik számítástechnikai lap szerzője nemrég megállapította, a Hálózaton való információkeresés az aranymosáshoz hasonlít: itt is óriási mennyiségű anyagot kell átszűrni ahhoz, hogy a minket érdeklő kincset megtaláljuk. Mi ez, ha nem geológia? :-)

A teljes Internet "átvilágítására" a keresőszoftverek új generációjára volt szükség. A régi, "klasszikus" keresőprogramok a Hálózatnak csak egy részét - az FTP-archívumokat (Archie) vagy a gopherteret (Veronica, Jughead) - tekintették át. Ezekkel nem foglalkozunk részletesen, csupán utalunk néhány hasznos címre:

Külön "tudomány" személyek, pontosabban e-mail postafiókcímek megtalálása a világhálón. Ez azonban nem kifejezetten szakmai feladat, így itt is csak hivatkozunk a témába vágó Web-oldalakra:

A továbbiakban tehát csakis a webes keresőrendszerekről lesz szó, amelyek nagyjából három típusra oszthatók: Web-katalógusok, keresőszoftverek és meta-keresőrendszerek. Ezek alapvetően eltérő megközelítéssel segítenek bennünket a Hálózat áttekintésében, ugyanakkor az utóbbi időben némi konvergencia figyelhető meg közöttük: a katalógusokból is indíthatunk keresőprogramot, egyes keresőrendszerek pedig katalógust is tartalmaznak a tájékozódás megkönnyítésére. Ettől persze mi még maradhatunk a hármas felosztásánál.

 

5.1. Web-katalógusok

Az Interneten való eligazodás első, jól használható eszközei a katalógusok voltak. Alapelvük egyszerű: a világot kategóriákra osztják fel, ezeket alkategóriákra, és így tovább. A hierarchikus katalógusban előbb-utóbb eljutunk a minket érdeklő témához, azon keresztül pedig konkrét Web-helyhez vagy más Internet-szolgáltatáshoz.

A legismertebb katalógusok:
 
Yahoo!
Magellan 
HuDir (1)
HuDir (2)

Az első - és mindmáig legnépszerűbb - katalógus a Yahoo! (A felkiáltójel itt nem feltétlenül a szerző lelkesedését tükrözi: része a jól megválasztott cégnévnek.) Ha ebben pl. földtudományi információt keresünk, a kezdőlapon a Science pontot kell választanunk, azon belül pedig az Earth Sciences kategóriát. A földtudományokat a következő ágakra osztották fel: geológia és geofizika, geotechnika, hidrológia, meteorológia, oceanográfia, paleontológia. Ezeken belül a finomabb tudományterületi felosztás mellett folyóiratokat, intézeteket, konferenciákat és egyéb témákat is találunk (9. ábra).

9. ábra. A Yahoo! geológiai-geofizikai katalógusa

A Magellan lényegében csak annyiban különbözik a Yahoo-tól, amennyiben más társaság gondozza. A HuDir magyar nyelvű katalógus, a magyarországi címeket tárolja. Jól működő rendszer, de a földtudományokra nem terjed ki a figyelme.

 

5.2. Keresőszoftverek

A keresőszoftverek vagy "keresőgépek" (search engines) - látszólag - úgy működnek, ahogy egy keresőszoftvertől elvárható: egy vagy több kulcsszó megadásával indíthatók, majd rövidebb-hosszabb idő elteltével kiadják az adott kifejezést tartalmazó dokumentumok URL-címét, és rendszerint egy rövid ismertetést a dokumentumról. A HTML-formátumú lista elmenthető, a megtalált címekre pedig bármikor egy kattintással ellátogathatunk.

Hogyan képesek ezek a szoftverek néhány másodperc alatt megtalálni a minket érdeklő állományt a világ több százezer (lassan már több millió!) szerverén? Természetesen sehogyan. Valójában egészen más történik: a szoftver egy póknak vagy robotnak nevezett modulja dolgozik a háttérben, főleg olyan időszakokban, amikor a Háló kevésbé leterhelt. Ez végiglátogatja a Web-helyeket, követve minden fellelt hiperlinket is. A megtalált dokumentumokat leindexeli, azaz minden egyes szavát beépíti adatbázisába. Amikor a keresőszoftvernek megadunk egy kulcsszót, az már a saját gigantikus indexállományából keresi elő a bennünket érdeklő URL-címeket.

A legismertebb keresőszoftverek:

AltaVista
HotBot
Excite
Lycos 
InfoSeek
Heuréka

A Heuréka magyar nyelvű keresőprogram, és a hazai szerverek állományát tartja nyilván. Az AltaVistának is van magyar felülete, ahonnan elindíthatjuk a keresést, de a választ már angolul kapjuk meg. 1998-ban indult egy teljesen magyarított változat, az AltaVizsla, amely - a Heurékához hasonlóan - a magyarországi kibervilágot tekinti át.

Ezek a keresőszoftverek elsősorban a WWW- és gopher-dokumentumokat indexelik. Az AltaVista átnézi a hírcsoportok anyagát is, és beállítható, hogy szerepeljenek-e ezek URL-címei is a találatok között. A DejaNews nevű kitűnő program pedig kizárólag a hírcsoportok állományainak lekérdezésére készült.

A Datasurge Company kifejezetten földtani szakemberek számára fejlesztette ki a GeoIndex keresőrendszert. A program csakis geológiával foglalkozó cégek, társaságok, intézmények dokumentumait indexeli le, így pl. ha egy mérnökgeológus az "alapozás"-t (foundation) adja meg kulcsszóként, ez a rendszer összehasonlíthatatlanul kevesebb "alapítvány"-t fog találni, mint egy általános keresőszoftver.

A keresőgépek kezelése viszonylag egyszerű, a nyitólapjukon megtaláljuk a legalapvetőbb tudnivalókat. Érdemes azonban elolvasni a help állományt is, hogy megtudjuk, hogyan lehet többszavas kifejezésre keresni, az "és", "vagy" műveleteket, helyettesítő (joker) karaktereket alkalmazni stb. A befektetett idő gyorsan megtérül a hatékonyabb keresések révén.

Figyelem: A keresés eredményessége attól is függhet, hogy mennyire leterhelt a Hálózat! Egy hétvégi próba alkalmával az egyik legjobb keresőprogram 307 olyan dokumentumot talált, amelynek a címében szerepel a "geological map" kifejezés. Néhány nap múlva, egy hétköznap délelőtt ugyanaz a program csak 120 címet adott, majd délután - amikor már nemcsak "egész Európa", de "egész Amerika" is a Weben szörföl -, mindössze 6 (!) ilyen dokumentumot "méltóztatott" kilistázni.

 

5.3. Meta-keresőrendszerek

A meta-keresőrendszerek működési elve roppant kézenfekvő. Azon a felismerésen alapul, hogy a keresőszoftverek, bármennyire is a teljességre törekednek, valójában a Web-dokumentumoknak csak egy részhalmazát látják, mégpedig a különböző keresők nyilvánvalóan különböző részt. Célszerű tehát a keresést egyszerre több programmal elvégeztetni, ha nagyobb találatszámra törekszünk. A meta-keresőrendszerek pontosan ezt végzik el - helyettünk (10. ábra), majd (általában) összesítik az eredményt.

10. ábra. Az All4one által kínált keresőkavalkád

A legismertebb meta-keresőrendszerek:

MetaCrawler
SavvySearch
All4one

További keresőrendszerek garmadájának címe található pl. a Zrínyi Miklós Nemzetvédelmi Egyetem Web-szerverén.

 
5.4. A keresőrendszerek összevetése

A fenti vázlatos áttekintés révén az információforrások bőségével kapcsolatos zavart feltehetőleg sikerült tetézni a keresőrendszerek bőségéből adódó zavarral. Végül is melyiket használjuk a sok közül? Erre a kérdésre egyértelmű (és végleges) választ nem lehet adni, ezért ezt meg sem kíséreljük - bemutatunk viszont néhány adatot és szempontot az értékeléshez.

Összehasonlítás céljából a legfontosabb keresőrendszerekkel próbafuttatást végeztünk. Ehhez a gorceixit nevű, meglehetősen ritka ásványt választottuk (így könnyebben áttekinthetjük az eredményt). Ez egy báriumtartalmú foszfát, nálunk először néhány éve írták le a MÁFI kutatói Rudabánya környékén, pannóniai korú üledékekből (Szentpétery I. et al. 1991: Gorceixit előfordulás Magyarországon. Földtani Közlöny, vol. 119: pp. 167-172.). Az ásvány angol nevét (gorceixite) adtuk meg kulcsszóként minden keresőrendszernek. Mint láttuk, fontos az időzítés - ennek megfelelően a tesztet egy hétvégi napon végeztük.

A kapott találatok számát a 4. táblázat 2. oszlopában tüntettük fel. A legtöbb dokumentumot, 27-et a HotBot talált. A SavvySearch metakereső pontosan ugyanennyi címet adott, ami nem véletlen, mivel az általa elindított keresők között szerepel a HotBot is. Az AltaVista és a Yahoo egyaránt 20-at talált - és ugyanazt a 20-at, mivel utóbbi is az AltaVistával "dolgoztat". Az AltaVistával kapcsolatban meg kell még említeni legendás gyorsaságát, amely ezúttal is érzékelhető volt, pl. a HotBottal összevetve.

4. tábl. A keresőrendszerek összehasonlítása
 
 
"gorceixite"
Schimmrich
Lebegyev
PC-World
Számítás-techn.
HotBot
27
1.
2.
4.
-
SavvySearch
27
-
-
-
3.
AltaVista
20
3.
1.
5.
6.
Yahoo
20
10.
10.
-
4.
MetaCrawler
10
-
9.
-
1.
Excite
7
2.
3.
1.
5.
InfoSeek
2
-
4.
2.
-
Heuréka
1
-
-
-
-
Lycos
0
4.
5.
3.
-
a teszt ideje:
1997.10.
1996.08.
1997.02.
1996.10.
1997.07.
 

A MetaCrawler 10 találata azt jelzi, hogy a metakeresők csak akkor működnek megfelelően, ha a kiváló koncepció mellett kiváló keresőprogramokra is támaszkodhatnak. Az egykor igen népszerű Excite, InfoSeek és Lycos az "ásványtan vizsgán" lemaradtak. A Heuréka a magyar szervereken egyetlen dokumentumra bukkant: Kázmér M. korábban említett angol nyelvű geológiai helyesírás-ellenőrzőjére.

A GeoIndex - habár a földtanra van "kihegyezve" - nem talált adatot a gorceixitről. Az All4one meta-kereső pedig azért nem szerepel összehasonlításunkban, mivel nem összesíti a meghívott keresőgépektől kapott eredményeket, így "hozzáadott értéket" nem képvisel.

Valamennyi kereső együtt 37 URL-címet talált a Hálózaton. A két legeredményesebb program közül csak a HotBot talált meg 16 Web-helyet, kizárólag az AltaVista 9-et, közös találataik száma 11, a kettő együtt tehát 36 dokumentumra bukkant rá! Az egyetlen állomány, amelyet egyikük sem talált, nem más, mint a Kázmér-féle szótár, amely a Heurékán kívül csak az InfoSeek indexállományában szerepelt.

Egyetlen kísérletből persze nem szabad messzemenő következtetéseket levonni. A kapott sorrend azonban jó egyezést mutat S.H. Schimmrich (1997) eredményével, aki 10 geológiai szakkifejezés után nyomozott 10 különböző programmal. A táblázat harmadik oszlopa az ő adatai alapján felállított sorrendet mutatja (Schimmrich nem tesztelte a metakeresőket, bevont viszont más, kevéssé használt programokat). A Computers & Geosciences egyik internetes különszámában publikált cikke ráirányítja a figyelmet a meghökkentő különbségekre: pl. a "geology" kulcsszó találatainak száma 273 001 és 253 között, a "Rb/Sr" kifejezésé 80 376-től 0-ig (!) változott, a szoftvertől függően.

Ugyancsak hasonló következtetésekre jutott A. Lebegyev, a Moszkvai Állami Egyetem kutatója, aki tudományos alapossággal végzett összehasonlító vizsgálatainak eredményeit magán a Hálózaton teszi közzé rendszeresen (ld. Best search engines for finding scientific information...). Igaz, az ő értékelésében az Excite, az InfoSeek és a Lycos az előkelő 3-5. helyet foglalta el. A Yahoo korábban még nem hívta segítségül az AltaVistát, csak a saját címtárában keresett, ezért szorult Lebegyev minősítése szerint az utolsó helyre.

Merőben eltérő teszteredményekről olvashatunk viszont a vezető hazai számítástechnikai lapokban. A PC-World tesztjében (1996. okt.) az Excite, az InfoSeek és a Lycos bizonyult jobbnak, a HotBot és az AltaVista gyengébb teljesítményt mutatott. A Számítástechnika összehasonlítása (1997. 27-28. sz.) már a meta-keresőrendszerekre is kiterjedt - és azok végeztek az élen. (A cikk szerint "ezüstérmes" Internet FastFind egy kereskedelmi forgalomban kapható meta-keresőprogram, hálózaton át nem érhető el, ezért a mi tesztünkben nem szerepel.)

A feltűnő eltéréseknek több oka lehet:

Térjünk még vissza a gorceixithez, nézzük meg, mit is tudhatunk meg erről a ritka ásványról az Internet segítségével. A 37-ből 9 dokumentumban csak az ásvány neve szerepel (ezek főként ásványboltok, ill. múzeumi és egyéb gyűjtemények leltárszerű jegyzékei). 12 cím olyan adatbázisokra mutat, amelyek az ásványok nevét és összetételét tartják nyilván (a gorceixit képlete: BaAl3(PO4)(PO3OH)(OH)6). Igaz, a 12-ből 9 ugyanazon jól szervezett adatbázis, az amerikai United Consultants Corporation által létrehozott Mineralogy Database különböző "bejáratait" - a "g" betűs, a Ba-ot, Al-ot, P-t, O-t, H-t tartalmazó ásványok stb. - jelöli.

10 másik URL-cím révén három, részletesebb adatokat tartalmazó adatbankhoz juthatunk el. A genfi egyetem Athena Mineralogy adatbázisa szerint a gorceixit monoklinális vagy pszeudotriklinális kristályrendszerű lehet, és létezik egy As-tartalmú változata, az arsenogorceixit. Az École des Mines de Paris adatbázisából kiderül, hogy az ásványt Hussak írta le 1906-ban, sűrűsége 3,32, nevét pedig H.C. Gorceix francia mineralógusról (élt 1842-1919) kapta. Az USGS-ben összeállított Dictionary of Mining, Mineral, and Related Terms  magyarázó szótárból megtudhatjuk, hogy ásványunk a crandallit csoportba tartozik, és - többek között - brazíliai gyémánttartalmú homokban is előfordul.

Három további címről teljes szövegű publikációt tölthetünk le. Ebből az egyik egy előadás, amely csak egyetlen bekezdésben foglalkozik a gorceixittel. A másik két címen olyan cikket találunk, amelynek a címében is szerepel a keresett ásvány - de ugyanazon cikkről van szó, amely az American Journal of Science-ben jelent meg, és a folyóirat Web-lapjának két különböző könyvtárában is elhelyezték. Végül három dokumentum hivatkozást tartalmaz egy-egy nyomtatásban megjelent cikkre, ebből egy az AJS-beli publikációra.

Összefoglalva: rábukkantunk négy használható adatbázisra, két teljes szövegű közleményre, és két további hivatkozásra, amelyek alapján az eredeti cikkek szakkönyvtárban beszerezhetők. Ez megerősíti A. Lebegyev megfigyelését, aki szerint a keresőprogramok által kilistázott URL-címek 10-20 %-a bizonyul valóban hasznosnak.

A lényeg azonban az, hogy már most, a World-Wide Web megszületése után pár évvel viszonylag gazdag anyagot találunk az Interneten egy lényegében ismeretlen ásványról. Sokkal részletesebb leírást a nagyobb mineralógiai kézikönyvek sem adnak (a kisebbek nem is említik ásványunkat)! Ugyanakkor a GeoRef bibliográfiai adatbázis a század elejétől 1997 végéig 48, a gorceixittel foglalkozó cikkről tud, tehát a Hálózaton található információ távolról sem nevezhető teljeskörűnek (igaz, a GeoRef sem: ez az óriási adatbázis a Weben talált négy cikkcím közül csak egyet tart nyilván). Mindemellett tesztünk eredménye rávilágít az Internet-alapú információs rendszer néhány előnyére is:

És hogy végül is melyik keresőt használjuk? Ezt a kérdést - a fentiek figyelembevételével, vagy inkább saját kísérletek, tapasztalatok alapján - mindenkinek magának kell eldöntenie...


6. Ajánlott (nyomtatott) irodalom

Arvidson R.E 1990: The electronic GSA. - In: Dvorzak M. (ed.): Geological societies and information transfer in the electronic age - Proceedings. Geoscience Information Society, vol. 21: pp. 37-39.

Barta G., Főző A.L. 1997: Geológia a World Wide Weben. Élet és Tudomány, no. 16: p. XCV.

Butler J.C. (ed.) 1995: Internet. Computers & Geosciences, Special issue, vol. 21, no. 6: pp. 727-824.

Butler J.C. (ed.) 1997: Distance education and the Internet. Computers & Geosciences, Special issue, vol. 23, no. 5: pp. 495-608.

Dellinger J. 1992: Electronic mail for geophysicists. Geophysics - The Leading Edge of Exploration, vol. 11: pp. 37-40.

Dunn L.G. 1993: Internet, electronic media, and changes in geoscience information. - In: Geological Society of America, 1993 annual meeting. Abstracts with Programs - Geological Society of America, vol. 25: p. 146.

Harbert W. 1993: Internet archive of the world paleomagnetic database and an interactive tool to search, plot, and retrieve these data. - In: Geological Society of America, 1993 annual meeting. Abstracts with Programs - Geological Society of America, vol. 25: p. 247.

Ingram P. 1996: Web developments and the Internet. Computers & Geosciences, vol. 22: pp. 579-584.

Menke W., Friberg P., Lerner L.A., Simpson D., Bookbinder R., Karner G.D., 1991: Sharing data over Internet with the Lamont view-server system. Eos, Transactions, American Geophysical Union, vol. 72: pp. 409-414.

Schimmrich S.H. 1997: Searching the World Wide Web for geoscience resources. Computers & Geosciences, vol. 23: pp. 559-562.


 

Előző rész     Tartalomjegyzék