A láthatatlan web keresése

Dr. Rutkovszky Edéné

Debreceni Egyetem TTK

Matematikai és Informatikai Intézet

Információtechnológia Tanszék

kata@delfin.klte.hu

Rutkovszky Ádám

Debreceni Egyetem KTK

Közgazdaságtan Tanszék

rutkova@wall.econ.klte.hu

1. Bevezetés

A láthatatlan webbel manapság nagyon sok cikk és tanulmány foglalkozik. Az angol terminológia három elnevezést is használ a fogalomra, az invisible web mellett a deep web, mély web illetve a hidden web, rejtett web is használatos. A web komplex információ tár, amely különböző típusú, hatalmas mennyiségű ismeretet tartalmaz. Ebben a "szénakazalban" megtalálni a "tűt" és éppen a megfelelő tűt , ez minden internet használó számára nagy kihívást jelent. Ebben segíteni a kereső rendszerek feladata. A web mérete hihetetlen ütemben növekszik és ez a folyamat az elkövetkező időben egyre csak gyorsul. A többezer kereső szerver többsége a web információinak csak felszínét érinti. 2001-es becsült adatok szerint a www 7.4 millió site oldalait tartalmazza.

2. Mi a láthatatlan web?

Azokat a website-okat, melyeknek oldalait a háttérben dolgozó kereső motorok megtalálnak, a kereshető (surface), látható webnak nevezzük. Ennek nagyságát a teljes web méretének 16%-ára becsülik. Amikor a láthatatlan webről beszélünk, általánosságban fogalmazhatunk úgy, hogy azokat az oldalakat jelentik, amelyeket a keresők nem tudnak megtalálni. Láthatatlanná különböző okok miatt válhatnak oldalak.

ˇ Vannak olyan weblapok, amelyek dinamikusan jönnek létre, azaz az oldal tartalma egy adatbázisból kerül a lapra. Az információ eléréséhez különböző adatbázisokat pl.: ACCESS, Oracle, SQL Server, DB2 stb kell lekérdezni. Ezért ezek az oldalak különböznek a fix, statikus weblapoktótól, amelyek a keresők számára direkt módon elérhetők.

ˇ Azok az oldalak, amelyek csak regisztráció után érhetők el, szintén a láthatatlan web részét képezik.

ˇ A rejtett web odalainak másik csoportját a nem szöveges állományok alkotják, mint a multimédia-, grafikus fájlok, szoftverek és nem standard HTML formátumú dokumentumok, mint pl a PDF fájlok.

ˇ Szintén a láthatatlan web részét képezik a "dokumentum szigetek". A kereső programok pókjai egy-egy oldalt kiválasztva kezdik a feldolgozást, indexelik az ott található szavakat, majd tovább haladnak az oldalon lévő linkeken. Ha egy oldalra vagy egész site-ra nem mutat egyetlen link sem, akkor tartalma nem kerül be a kereső adatbázisába, így keresésnél az eredményhalmazba sem.

ˇ A láthatatlan web részét képezik a kereső motorok által kizárt oldalak is.

3. A rejtett web jellemzése

A BrightPlanet cég kutatói vizsgálták a láthatatlan web különböző mutatóit. Eredményeik szerint a láthatatlan web méretében és tartalmában is szignifikáns különbséget mutat a kereshető webbel szemben. A láthatatlan web dokumentumai átlagosan 27%-al kisebbek, mint a kereshető web oldalai, melyek átlagos mérete13 KB, mediánja 19.7 KB. Az egyes láthatatlan web site-ok méretben nagyon különbözőek, a rekordok számát illetően, néhány 10, 100-tól akár 100 milliókig is terjedhetnek. Az átlag 5.43 millió rekord, s bár a medián érték csak 4.950 rekord, megállapíthatjuk, hogy a rejtett site-ok átlagosan sokkal sokkal nagyobbak, mint a kereshető web site-ok. Másfélszeres különbség muatatkozik a havi forgalom tekintetében, a láthatatlan web site-ra 123,000 látogatást regisztrálhattak a kereshető web 85,000-ével szemben. A már ismertté vált láthatatlan web site-ok népszerűek a felhasználók körében, ezt mutatja az az adat is, mely szerint ezekre az oldalakra csaknem kétszer annyi link mutat, mint a web kereshető részére. (6200-3700). Természetesen vannak olyan site-ok is amelyek nem ismertek a weben kereséssel foglalkozók körében. A láthatalan web site-ok 97.4 %-a korlátozás nélkül elérhető, 1.1%-nál kötelező a feliratkozás és díjfizetés, a maradék 1.5% pedig nem teljesen publikus.

A láthatatlan web méretét becsülve a kutatók úgy vélik, hogy csak a 60 legnagyobb mély web site kb. 750 terabájt információt tartalmaz, ami 40-szerese a kereshető web méretének. A teljes rejtett web a becslések szerint 500-550-szer nagyobb annál a méretnél, amit a kereső spiderek be tudnak járni.

Mit tartalmaznak ezek a site-ok?

4. A rejtett web főbb témakörei

A BrightPlanet kutatói vizsgálták a láthatatlan web site-ok tartalmi megoszlását is. 17 ezer ilyen site-ot elemeztek, eredményüket az 1. táblázat mutatja.

A láthatatlan web tartalmi megoszlása
Mezőgazdaság	2.7%
Művészetek	6.6%
Üzleti élet	5.9%
Számitástechnika/Web	6.9%
Oktatás	4.3%
Foglalkoztatás	4.1%
Műszaki tudományok	3.1%
Kormányzat	3.9%
Egészségügy	5.5%
Humán tudományok	13.5%
Jog/Politika	3.9%
Életvitel	4.0%
Hírek/Média	12.2%
Emberek/Társaságok	4.9%
Kikapcsolódás/Sport	3.5%
Hivatkozások	4.5%
Tudományok/Matematika	4.0%
Utazás	3.4%
Vásárlás	3.2%

1. táblázat

A láthatatlan web oldalai lefedik életünk szinte valamennyi területét. Forgalmuk kb. Másfélszerese a kereshető web oldalainak.

A fenti adatok is bizonyítják, hogy a rejtett web "láthatóvá tétele" nagy fontosságú kérdése az internetet használók számára. Cikkünk további részében néhány megoldási lehetőséget vázolunk fel. Ezen megoldási lehetőségek alapvetően két csoportba sorolhatók:

ˇ web-szerver oldali megoldások

ˇ kereső oldali megoldások

5. Megoldások a rejtett web feltárására

5.1 Meta - kereső megoldások

Cégek egész sora kínálja adatbázis alapú weboldalakon való keresését a mély web jelenség egy lehetséges megoldásaként. (ProFusion, The Invisible Web, Complete Planet, DirectSearch, Lycos Directory) Ezen oldalak hasznosak azoknak, akik ismerik őket, és akik tudják hogyan kell használni őket. Forgalmuk azonban csak töredéke az olyan nagy forgalmú keresők forgalmának, mint a Google, Yahoo és AltaVista. Továbbá ahhoz, hogy a fenti oldalakon megjelenjenek lapjaink, a keresőoldal beleegyezése és bizonyos regisztrációs díj befizetése is szükséges. Az oldalainak láthatóságát növelni szándékozó webmester számára ez nagy befektetést igényel relatíve alacsony megtérülés mellett.

5.2 Web-site optimizációs megoldások

A kereső oldalakon meg nem jelenő dinamikus lapok problémáját részben az okozza, hogy a kereső pókok figyelmen kívül hagyják a '?'-t tartalmazó URL-ket. Az ilyen URL-k ugyanis egyértelmű jelzői a dinamikus lapoknak. A dinamikus oldalak esetén könnyen előfordulhat, hogy a pók olyan hurokba kerül az oldal linkjeinek követésekor, melyből nem tud szabadulni. Az utóbbi időben a '?'-t tartalmazó URL-k problémája veszített jelentőségéből, mivel az olyan keresőrobotok, mint amilyen például a Google-é és a HotBot-é, követik ezeket az URL-ket az első szintig. Ez azt jelenti, hogy a dinamikus oldalakon talált, dinamikus oldalakra mutató linkeket ugyan nem követik, de statikus oldalakon elhelyezett, dinamikus oldalra mutató linkeket már igen.

Egy lehetséges megoldás lehet a webmester számára, hogy webhelyének dinamikus oldalait is pókok által kedvelt statikus linkként tüntesse fel a külvilág számára. Több, különböző módon működő URL újraíró eszköz is segíti ennek elvégzését:

Egy részük, mint például az Apache Web Server modfirewriet modulja, lehetővé teszi az URL-kben szereplő '?' helyettesítését más karakterrel.

A Cold Fusion rendelkezik olyan lehetőséggel, mely leegyszerűsítve a következő szerint működik: a '?'-t '/'-rel helyettesíti, a kérés paramétereit pedig alkönyvtárakként kódolja

Az előző pontban említett taktika használható a kézzel írott CGI scriptekben is (ASP, PHP, Perl, stb)

Ezen megoldások közös vonása, hogy igen komoly manuális erőfeszítéseket igényelnek a web hely tervezéséhez és üzemeltetéséhez. Nemcsak az összes '?'-t tartalmazó URL-t kell manuálisan átírni, hanem az összes relatív linket is át kell írni a megváltozott URL struktúrának megfelelő abszolút hivatkozássá. Az abszolút linkek határozottan növelik a fenntartás költségeit, és a tükrözést is megnehezítik.

A nagy erőfeszítés ellenére, melyet ezek a megoldások igényelnek, mégiscsak a problémák egy kis részére kapunk megoldást. Gondoljunk például az Amazon.com nyitólapjára, mely többnyire csak a pillanatnyilag legnépszerűbb könyvekre mutató hivatkozásokat tartalmazza. Ezek a linkek ugyan dinamikus oldalakra mutatnak, de a fenti megoldások valamelyikével láthatóvá tehetők a pókok számára. Mi a helyzet azonban a több mint 1 000 000 könyvet tartalmazó adatbázis azon könyveivel, melyekre nem mutatnak linkek? Azok továbbra is láthatatlanok maradtak.

A másik nagy probléma a fenti megoldásokkal, hogy csak a GET metódust alkalmazó oldalakon használható. Az ilyen metódust használó lapok az URL-ben a '?'-t követően, kódolva kapják meg a paramétereket. A dinamikus lapok nagy számban használnak azonban POST módszert is, melynél a paraméterek nem az URL-ben vannak kódolva, hanem külön kerülnek elküldésre. Ezek figyelembe vételével nyilvánvaló a POST metódusú oldalak láthatatlansága a keresők számára.

5.3 Tartalomjegyzék -TOC- készítés

Az előzőeknél hatékonyabb megoldást kínál a YourAmigo cég Spider Linker nevű terméke. Az előzőekben említett technikák valamelyikével a Spider Linker is kereső-barát linkeket készít a dinamikus oldalak URL-jeiből. Ezen túlmenően tartalomfeltárást is végez az alkalmazás annak érdekében, hogy elkészíthesse azt a tartalomjegyzéket (TOC), mely webhely összes statikus és dinamikus oldalának linkjét tartalmazza. A TOC két formában létezhet:

Egy vagy több, a hely tartalmára mutató linkeket tartalmazó HTML oldalként.

A webszerver minden virtuális hosztjára elkészített, a szabványnak megfelelő 'sitelist.txt' állományént.

Ezek után már csak arról kell gondoskodni, hogy a TOC elérhető legyen a kereső robotok számára. Erre a problémára több megoldás is kínálkozik:

Linkelés a nyitólapról

Nyilvánvalóan ez a legegyszerűbb módszer. Ha a nyitólap tartalmaz a TOC-ra mutató hivatkozást, akkor a kereső pók eljut a TOC-ra, és onnan elérhetővé válik a tartalomjegyzéken szereplő összes oldal.

Leplezés (Cloaking)

A leplezés (cloaking) az a technika, mellyel különböző tartalom szolgáltatható a kérő kilététől függően. Általában a webszerverek a kérés User Agent mezőjének tartalmát vizsgálják, melyből kiderül hogy honnan érkezett a kérés: Netscape, Internet Explorer böngészőből vagy keresőpóktól, és ennek megfelelő tartalommal válaszolnak a kérésre. A TOC lehet alternatívája a nyitólapnak, ha egy kereső robot próbálja elérni azt. Ennek a technikának vannak komoly hátrányai is, hiszen több keresőoldal is (pl: Google) kitiltja a cloaking technikát alkalmazó webhelyeket kereséseiből.

Közvetlen megadás

A keresőoldalakon általában lehetőség nyílik a webmesterek számára, hogy olyan URL-ket adjanak meg, melyet indexeltetni akarnak a keresővel. Azon keresőgépek esetén, melyek ezen megadott URL-ket használják pókjaik kiinduló pontjaként, célszerű a TOC-t megadni kiinduló URL-ként.

TOC nyitólap

Bizonyos esetekben a TOC fájl is használható nyitólapként. Megjelenését JavaScriptek alkalmazásával a kívánalmaknak megfelelően testreszabhatjuk.

'sitelist.txt' használata

Azon keresőpókok számára, melyek megértik a 'sitelist.txt' állományokat, az előző 3 megoldás felesleges. A pók megtalálja a 'sitelist.txt' fájlt és onnan a teljes tartalmat eléri.

5.4. Directory site építése (BrighPlanet)

A BrightPlanet cég eszközeivel olyan directory site építhető, mely automatikusan szűri és kategorizálja a beérkező tartalmat. A cég technológiája olyan szoftvereket tartalmaz, melyek többek között lehetővé teszik:

ˇ a láthatatlan webhez tartozó helyek automatikus felismerését

ˇ az itt található tartalom begyűjtését

ˇ az eredmény szűrését

ˇ a megszűrt eredmény automatikusan generált kategóriákban való elhelyezését

ˇ tartalom-specifikus dokumentum összegzések készítését

ˇ a végső eredmények web oldalként történő publikását

A felsorolt eszközök segítségével épített directory site elkészítésének lépései az alábbiak:

1. A jelölt web oldalakat kereséssel vagy pók segítségével kerítik elő, figyelembe véve a már kategorizált oldalakról rá mutató hivatkozásokat. Ez már tulajdonképpen a szűrés első lépésének is tekinthető.

2. Ezek után kiszűrik a már korábban elutasított vagy eltávolított dokumentumokat.

3. Az ily módon megszűrt oldalak a tárházba kerülnek. Ebben a tárházban van az összes elfogadott web dokumentum indexelve és súlyozva.

4. A frissen bekerült oldalakat többek között nyelvészeti eszközökkel is elemzik, és súlyozzák is annak érdekében, hogy csak a témakörök legjobb dokumentumai kerüljenek tárolásra.

5. A beválogatott dokumentumokról automatikus összegzések és jellemzések készülnek.

5.5.Rejtett webet is felfedező pók készítése (Stanford-Michigan)

Kereső oldali megoldások közül az egyik leghatékonyabb lehetne olyan pók építése, mely be tudja járni a mély webet, és képes az ott talált információk kinyerésére. A Stanford University két kutatója által épített, HiWE (Hidden Web Exposer) névre hallgató pók képes erre.

2. ábra

A HiWE alapvetően 4 funkcionális részből áll, melyek a 2. ábrán láthatók. A hagyományos pókok és a HiWE közötti különbség a keresési űrlapokat tartalmazó oldalak kezelésében mutatkozik. Amint a HiWE találkozik egy ilyen oldallal, először elkészíti az F űrlap belső reprezentációját, mely a követekező képpen néz ki: F=({E₁, E₂,...,E_n},S,M), ahol {E₁,E₂,...,E_n} űrlapobjektumok n elemű halmaza, S az űrlap továbbítási információi (pl: feldolgozó URL), M az űrlap meta-információi. A pók fel van szerelve egy feladat-specifikus adatbázissal is, mely az adott feladathoz kapcsolódó keresési kérések megfogalmazásához szükséges információkat tartalmazza. A HiWE illesztő algoritmusa a bemenetként megkapott belső űrlap reprezentáció és D feladat-specifikus adatbázis alapján előállítja a Illesztés(({E₁, E₂,...,E_n},S,M),D)={[E₁←v₁,...,E_n←v_n]} érték párok halmazát, ahol E_i űrlap objektum, v_iÎD (i=1,...,n). Az illesztés egészen addig ismétlődik, amíg D ki nem "ürült". Az így előállított érték párokon alapuló űrlap kitöltésekre kapott válaszokat a válasz elemző kapja meg, mely a robot adattárjában helyezi el a lapokat, illetve megpróbálja megkülönböztetni a valós válaszokat és a hibaüzeneteket.

6. Összegzés

A web napjainkban korábban nem látott ütemben növekszik, és a folyamat egyre csak gyorsul. Hatalmas mennyiségű ismeret érhető el a világhálón keresztül. Ezen óriási mennyiségből a szükséges információt tartalmazó dokumentum megtalálására két stratégiát követhetünk: keresőgépek vagy tematikus keresők szolgáltatásait vesszük igénybe. A keresőszerverek többsége azonban csak a felszínét érinti a web információinak, figyelmen kívül hagyva az adatbázisból szolgáltatott dinamikus oldalak döntő részét. Ez, a láthatatlan vagy rejtett web-nek nevezett rész, becslések szerint az oldalak számában kb 500-szorosa a látható web-nek. E hatalmas mennyiségű hasznos ismeret felkutatására, mint cikkünk is mutatja, több módszert is alkalmaznak, de még mindig rengeteget kell tenni a keresések szakértüinek azért, hogy ez a rész is ismertebb, használhatóbb legyen.

7. Irodalom

http://www.brightplanet.com/

http://www.completeplanet.com/Tutorials/DeepWeb/

http://www.completeplanet.com/

http://www.invisibleweb.com/

http://www.lexibot.com/

http://searchenginewatch.com/reports/sizes/

http://dailynews.yahoo.com/h/ap/20000727/tc/deep_web_3.html

http://searchenginewatch.com/links/Specialty_Search_Engines/Invisible_Web/

http://websearch.about.com/library/searchwiz/bl_invisibleweb_apra.htm