Søking på NTNUs websider
Andreas Aannerud Nilsen
andreas.nilsen at itea.ntnu.no
Wed Nov 19 13:46:03 2003
Vi som jobber med søketjenesten ved NTNU er enig i at relevansen på
søketreffene helt klart ikke er tilfredsstillende.
FASTs søkemotor er kjent med de ulike teknologiene som nevnes, men FASTs
implementasjon av disse er nok ikke like gode som f eks Googles. Mer
spesifikt så mangler DataSearch 3.2 (som vi kjører nå) en måte å rangere
dokumenter basert på hvordan de ulike dokumentene refererer til hverandre.
(I praksis ser man på antall lenker som peker til et gitt dokument, og
antar at et dokument som blir pekt på av en mengde andre dokument, er mer
relevant, enn et dokument som har få pekere til seg). Det er nettopp denne
funksjonaliteten som gjør at Google (i de fleste tilfeller) returnerer mer
relevante dokumenter enn konkurrentene. Dette er tatt opp med FAST, og DS
3.2 inneholder muligheter for slik funksjonalitet. Det er imidlertid ikke
en defaultinnstilling, og vi har dessverre ikke hatt tid til å teste ut
denne funksjonaliteten.
Grunnen til det er at vi har hatt store problemer med stabiliteten til
selve søkemotorapplikasjonen. Det har derfor vært viktigere for oss å
holde søkemotoren gående, enn å forbedre relevansen på søketreffene. Dette
i kombinasjon med at vi er pålagt å bruke et minimum av timer på
søkemotoren har resultert i situasjonen slik den er i dag.
Det påstås at FASTs søkemotor “foretrekker å returnere irrelevante
resultat, tilsynelatende plukket ut på måfå”. Det er ikke tilfelle.
Relevansen bestemmes av en kombinasjon av antall ganger søkeordet
forekommer i teksten i forhold til hvor mange ord teksten består av, hvor
i dokumentet søkeordet forekommer og en rekke andre såkalte “boolske”
kriterier. Svakheten med denne formen for relevanstesting er at dokumenter
av og til får en feilaktig høy relevans dersom søkeordet befinner seg i
tittelen til dokumentet, og dokumentet generelt inneholder lite tekst. F
eks kan man prøve å søke på “orakel” i websøket (sok.ntnu.no). Det første
returnerte dokumentet er “Øyvind Mølls hjemmeside”. Grunnen til at dette
dokumentet er rangert høyest er at søkeordet “orakel” befinner seg i
tittelen til dokumentet, samt at resten av dokumentet består av svært lite
tekst. Dersom man prøver det samme på www.google.com/ntnu/ ser man at
“Øyvind Mølls hjemmeside” kommer opp som treff nr 6. Google rangerer med
andre ord også dette dokumentet svært høyt. Grunnen til at det ikke er
øverst er den tidligere nevnte funksjonaliteten som ser på antall lenker
som peker til det nevnte dokumentet. Det er ikke dermed sagt at FASTs
implementasjon av denne funksjonaliteten er på høyde med Googles, men man
kan nok anta at relevansen vil bli betraktelig bedre dersom vi kunne
benyttet oss av den.
Søkemotorens webcrawler håndterer både dynamiske (skriptgenererte) og
statiske websider (.html). Hvis vi ønsket, kunne vi la crawleren samlet
inn alle sidene den fant på www.universitetsavisa.no. Man ville da hatt de
sedvanlige problemene med at all tekst i rammeverket rundt artiklene også
kom med i fulltekstsøket. Styrken til FASTs søkemotor er at den lett kan
integreres i applikasjoner slik som Innsida og Universitetsavisa, slik at
man kan tilby søk direkte i dokumenter fra disse applikasjonene. Den nye
Rekrutteringsweb-applikasjonen som er under utvikling vil også benytte
søkemotoren til å søke direkte i sine dokumenter. Derfor har Innsida og UA
egne søkefelt som utfører søk direkte i applikasjonenes dokumenter. Det er
med andre ord fåfengt å søke etter Universitetsavisartikler og
Innsidameldinger i websøket som man finner på hovedsiden (www.ntnu.no)
eller på søkemotorens hovedside (sok.ntnu.no).
Hvis man går inn på www.universitetsavisa.no og søker etter noe i
søkefeltet øverst til venstre, vil du kunne finne alt som er publisert på
Universitetsavisa. Det samme gjelder Innsida, og her vil du i tillegg kun
få treff i dokumenter som du har rettigheter til å lese.
Funksjonalitet for å indeksere dokumenter direkte på denne måten tilbys
ikke av noen gratistjenester så vidt oss bekjent, og betyr derfor at vi er
nødt til å benytte oss av en kommersiell tjeneste for å få dekket våre
behov. Det lages også stadig flere websider som er bygd opp på denne måten
på NTNU, slik at denne funksjonaliteten vil bli stadig viktigere.
Så kan man jo spørre seg: er det ingen andre kommersielle søkemotorer som
tilbyr samme funksjonalitet som FAST, og som kan gi relevante søketreff i
webindekset uten en rekke tilpasninger? Vi så på dette i fjor sommer, men
pga at kommersielle søkemotorer er svært dyre, og det faktum at NTNU har
en svært god avtale med FAST, gjorde at vi så bort fra muligheten til å
bytte søkemotor av økonomiske grunner. Tilpasningskostnadene som
nødvendigvis følger et bytte av søkemotor veide også relativt tungt på
vektskålen.
Det påstås videre at “driftingen av søketjenesten er plankekjøring i
forhold til bruken av den”. Vel, på hardware og OS nivå er nok dette
tilfelle, men på applikasjonsnivå er driften av tjenesten alt annet enn
plankekjøring. Som nevnt tidligere er dette en av faktorene til at
søketjenesten ikke fungerer tilfredsstillende.
Veien videre er å få søketjenesten stabil nok til at vi kan fokusere på å
"tune" relevansen ved hjelp av diverse tilleggsfunksjonalitet som tilbys
av FAST. For å få til dette er vi sannsynligvis avhengig av å installere
(nok) en ny versjon av søkemotoren, og i en overgangsperiode er det stor
sannsynlighet for at vi vil redirecte websøkene til nettopp
www.google.com/ntnu/. Så får vi i ettertid vurdere hva som er den beste
løsningen.
Vi håper at dette var svar godt nok på spørsmålene som ble stilt.
Med vennlig hilsen
Andreas Nilsen
Integrasjonsgruppa, ITEA