Søking på NTNUs websider
Stian Søiland
stain at stud.ntnu.no
Mon Nov 17 05:31:04 2003
Jeg har her forsøkt å skrive et saklig innlegg om NTNUs søketjeneste
på http://sok.ntnu.no/. I god stil har jeg såklart skrevet for mye,
og har derfor delt opp artikkelen med overskrifter.
Søkemotorer generelt
====================
Jeg har i mange år forsøkt å få ferdig utdannelsen min i informatikk.
Jeg har vært gjennom mye rart opp igjennom årene, et av de mer
interessante emnene på IDI har vært Informasjonsgjenfinning. I dette
faget lærer man bl.a. om hvordan man kan indeksere og gjenfinne
dokumenter, dvs. hvordan en søkemotor kan lages, og hvilke ulike
teknikker man kan benytte.
En av de viktigste delene av en søkemotor for å gjøre den praktisk
brukbar er noe som heter ranking, dvs. å klassifisere relevansen til et
dokument i forhold til et søk. En naiv ranking vil f.eks. si at et
dokument som inneholder en term mange ganger vil gjøre dette dokumentet
mer relevant for et søk på den gitte termen.
En mer avansert ranking vil ta hensyn til hvordan ulike dokumenterer
referer til hverandre, om termen er brukt i lenker og overskrifter, og
utnytte statistikk på hvilke andre termer som ofte er brukt sammen med
det man søker etter (f.eks. vil termene "kvalitetsreform" og "oppfølging"
ofte kunne opptre ofte sammen, og et søk på "kvalitetsreform" vil derfor
kunne foretrekke dokumenter som også har med "oppfølging")
Rankingen kan man bruke til å velge ut hvilke dokumenter man presenterer
som svar på søket, og ikke minst i hvilken rekkefølge. Dette gir
høy sannsynlighet for at brukeren får de dokumentene han er ute etter
tidlig i søkeresultatet.
Det forundrer meg derfor kraftig at NTNU har tatt i bruk en søkemotor
som tydeligvis er totalt ukjent med disse teknikkene, og foretrekker å
returnere irrelevante resultat, tilsynelatende plukket ut på måfå.
NTNUs søkemotor
===============
NTNUs søkemotor er på http://sok.ntnu.no/
Jeg har enda tilgode å bruke denne søkemotoren og få et relevant svar
tilbake. Her er eksempler: (adressene er linjeknekt for lesbarhet)
Søk på ordet "innsida" (for å finne Innsida):
7422 dokumenter funnet - 0.8860 sekunder
1. Index of /engelsk/website/Innsida
http://www.hf.ntnu.no/engelsk/website/Innsida/ (588b)
2. Re: Innsida?
http://psyweb.svt.ntnu.no/grunnfag/messages/7996.php (4.9k)
3. Innsida?
http://psyweb.svt.ntnu.no/grunnfag/messages/7980.php (4.3k)
4. Re: Innsida?
http://psyweb.svt.ntnu.no/grunnfag/messages/7997.php (5.5k)
5. Re: Innsida?
http://psyweb.svt.ntnu.no/grunnfag/messages/7994.php (4.6k)
6. NTNUs Intranett-påloggingstjeneste
https://innsida.ntnu.no/sso/doc/ (1.2k)
7. Velkommen på Innsida!
http://innsidaut.ntnu.no/utskrift.php?kategori=nyheter&
dokid=3a378b828974d6.89544341&utskrift=1 (2.0k)
8. Snart kan prosjektene styres via web
http://innsida.ntnu.no/ua_lesmer_fra_innsida.php?kategori=nyheter&
dokid=3da9f8093c81b7.43586960 (10.5k)
9. Her er NTNU-prosjektene
http://innsida.ntnu.no/ua_lesmer_fra_innsida.php?kategori=nyheter&
dokid=3d7e7143726f66.61739671 (2.7k)
10. Nye forskningsmillioner ruller inn
http://innsida.ntnu.no/ua_lesmer_fra_innsida.php?kategori=nyheter&
dokid=3d7efa4a01bac6.61739671 (4.7k)
Her er ingen av treffene relevante, utenom nummer 7, som er en artikkel
ifra 2000 som forteller om at snart skal Innsida settes i drift.
Søk på "idi" (for å finne instituttet):
266457 dokumenter funnet - 0.7480 sekunder
1. IDI -
http://www.idi.ntnu.no/emner/it2105/index.html (11.2k)
2. IDI - MNFIT-378: Subsymbolic Artificial Intelligence Methods
http://www.idi.ntnu.no/~keithd/classes/mnfit378/ (7.6k)
3. IDI - Logic and Planning
http://www.idi.ntnu.no/emner/tdt14/ (11.1k)
4. Driftsdokumentasjon for IDI
http://tekweb.idi.ntnu.no/drdok (5.1k)
5. Studieveiledning IDI-Lade
http://www.idi.ntnu.no/~oleb/veiledning/ (2.6k)
6. IDI
http://p2p.idi.ntnu.no/emner/tdt4290/oppgaver/2003/13_IDI.php (2.7k)
7. Evolutionary Robotics at IDI
http://www.idi.ntnu.no/~keithd/research/alife/
pictures/robots/idi-robots.html (275b)
8. IDI - Fordypningsprosjekter i teknologistudiet
http://www.idi.ntnu.no/undervisning/
prosjektoppgaver.php?utvalg=fordypning (262.5k)
9. IDI - Fordypningsprosjekter i teknologistudiet
http://idi.ntnu.no/undervisning/
prosjektoppgaver.php?utvalg=fordypning (262.5k)
10. IDI - Fordypningsprosjekter i teknologistudiet
http://www.idi.ntnu.no/undervisning/
prosjektoppgaver.php?utvalg=fordypning&emnekombinasjon=7 (262.5k)
Ingen av treffene er relevante, men en litt oppegående EDB-person vil
ihvertfall skjønne at det er http://www.idi.ntnu.no/ som er tingen.
Hvis man vil more seg utover dagen (ja, jeg har litt rar døgnrytme..) er
det bare å søke på ting som:
- bachelor opptak
- forskning
- matematikk
- ntnu (!!!)
- webmail
(her får man opp 150 treff som alle går til samme side, ekstra
artig)
Prøv deretter tilsvarende søk på http://www.google.com/ntnu
Her vil du få opp relevante treff, som oftest blant de 5 øverste, i
mange tilfeller vil øverste treff være riktig.
Spørsmål
========
Hvilken nytte gir sok.ntnu.no til studenter og ansatte ved NTNU samt for
personer utenfra NTNU når det ikke er mulig å få opp et eneste relevant
treff på noen som helst søk?
Hvem er egentlig fornøyd med det tjenesten sok.ntnu.no tilbyr fremfor
det som tilbys av Googles NTNU-tilbud? Hvorfor lenkes det overalt til
sok.ntnu.no istedet for til en søkemotor som virker?
Er det mulig å fikse sok.ntnu.no så den gir resultater av noen som helst
verdi?
Er firmaet FAST tjent med å ha logoen sin på en slik tjeneste som virker
til de grader dårlig? Er ikke dette dårlig PR?
Hvorfor egen søketjeneste?
==========================
Jeg har prøvd å spørre ansvarlige om dette, og det er visstnok
informasjonsavdelingen som står bak finansieringen av sok.ntnu.no. Ja,
det er faktisk en del penger involvert i dette, uten at jeg vet hvilke
summer. Noen av pengene går til intern drift av tjenesten, mens andre
kanskje går til firmaet FAST? Driften ser ut til å virke, men hva med
innholdet?
Det eneste argumentet jeg har hørt for sok.ntnu.no fremfor Google er at
den klarer å søke i Universitetsavisen. Jeg har ikke sett noe bevis for
dette, f.eks. er der en 4 dager gammel artikkel på
<URL: http://www.universitetsavisa.no/ua_lesmer.php?
kategori=nyheter&dokid=3fb398f91b5660.28731572 >
som forteller om læringsmetoder for eksperter i team.
Søk på "læringsmetoder eksperter i team" gir 22 treff, men ingen av dem
er til universitetsavisen. Derimot får man treff til den nedlagte
tjenesten "innsida UT".
Et søk på vanlig Google med site:universitetsavisa.no gir treff til
forsiden, men ikke undersidene. Årsaken til at Universitetsavisen faller
utenom Googles NTNU-søk på http://www.google.com/ntnu er nok at den
ligger utenfor domenet ntnu.no, samt at Google ikke traverserer siden
"ua_lesmer.php" mer enn én gang, dvs. uten å variere parameteret dokid.
Dette kan løses f.eks. slik som Infoweb gjør, ved å skjule
dokument-ID-er og heller lage "ekte" URLer som
http://infoweb.ntnu.no/datautstyr/generelt/macintosh.html
(jeg synes forøvrig det er litt rart at Universitetsavisen har frigjort
seg fra NTNU på den måten, er de den eneste universitetsavisen i Norge?
Studenttinget har gjort det samme, men kjører ikke så hardt for
promotering "tøffe .no-adresse")
Konklusjon
==========
Mitt forslag er at noen tar for seg søketjenesten og vurderer om den har
noen verdi eller ikke, og isåfall for hvem. Hvis det er tilfelle at den
gir noe av verdi må den forbedres kraftig i konfigurasjon og virkemåte.
Hvis det ikke er tilfellet kan man endre alle søkereferanser til Google
(hvis universitetstilbud er gratis) og heller rette utviklerressurser
mot å gjøre Universitetsavisen søkbar.
Jeg ser gjerne at noen ifra Informasjonsavdelingen svarer på dette, og
minner om at jeg nå såklart poster denne meldingen som
informatikkstudent selv om jeg tilfeldigvis også er ITEA-ansatt.
(driftingen av søketjenesten er plankekjøring iforhold til bruken av
den)
--
Stian Søiland Being able to break security doesn't make
Trondheim, Norway you a hacker more than being able to hotwire
http://stain.portveien.to/ cars makes you an automotive engineer. [ESR]