Sustavi za pretraživanje informacija
Pretraživanje informacija se može definirati kao skup tehnika za pohranjivanje i pronalaženje često raspršenih podataka najčešće korištenjem pomoću računalnog sustava.
Osoba koja je zaslužna za samu ideju pretraživanja informacija pomoću računala je Vannevar Bush koji je 1945 g. u svom članku As We May Think popularizirao tu ideju, a prvi automatizirani sustavi za pretraživanje informacija bili razvijeni tokom 1950-ih i 1960-ih. Od 1990-ih godina najrašireniji sustav distribucije informacija je internet, s time da su u njega implementirani brojna svojstva koja su se prije mogla naći samo u nekim eksperimentalnim sustavima pretraživanja ili su zavisila od korisnika.
Prateći ubrzani razvitak na području računala, E. F Codde 1970. godine iznosi prijedlog da bi se određene informacije trebale moći pretraživati po njihovom sadržaju, te bi se taj prijedlog mogao smatrati početnom idejom za razvitak baza podataka i sustava za pretraživanja istih, ali to onda nije bilo moguće realizirati, jer tada nisu postojala dovoljno jaka računala koja bi mogla omogućiti takvo što.
Od 1970-ih godina i prvih oblika baza podataka došlo je do znatnog napretka u dizajnu i izgradnji baza koje od tada mogu sve efikasnije i fleksibilnije strukturirati i pohraniti podatke.
Prekretnica u razvoju baza podataka je bio prelazak sa sistema koji su bili zasnovani na PS (eng. Parameterised search) načinu pretraživanja na BROWSE sustav jer je PS sustav imao veliku količinu manjkavosti u korištenju kao što su :
- Korisničko sučelje je bilo jako teško za koristiti osobama koje nisu upoznate s pretragom baza podataka
- Logička struktura baze podataka se uvelike razlikovala od korisnikovog viđenja baze podataka
- Korisnik se nikako nije mogao upoznati sa samom organizacijskom strukturom baze podataka, jer se nije imao priliku upoznati sa sistemom kao cjelinom, nego samo s onim dijelovima koje je pretraživao.
- Nije postojao brz i jednostavan način pristupa pojmovima i informacijama koje su bile srodne traženom pojmu.
BROWSE sustav je za razliku od PS sustav koristio heurističke metode pretraživanja, a najkorištenije su bile:
- If book X is interesting, then what else has the author of X written?
- If book X is interesting, then what other books are in the same category?
- If a symposium is interesting, then what else appeared in the same symposium?
- If the author of interesting paper is from institution X, then what else has been published at that institution?
- If there is an interesting paper in a journal, then what else appeared in that journal?[1]
Da bi korisnik razumio BROWSE sistem morao je i razumjeti ZOG sistem.[1] Osnovne značajke ZOG sistema su:
- Rapid response
- Simple selecting
- Large network
- Frame simplicity
- Transparency
- Communication agent
- External definition
Tablica : Razvoj hipertekst sustava koji su pridonijeli razvitku WWW-a.
Naziv sustava | Godina | Autori |
---|---|---|
NLS | 1966 | Engelbart D. |
ZOG | 1972 | McCracken D. & Akscyn R. |
KMS | 1981 | McCracken D. & Akscyn R. |
FRESS | 1985 | Yankelovich N & Meyrotwitz N. |
NoteCard | 1985 | Xeroc Parc |
Intermedia | 1986 | Brown University |
Guide | 1986 | Brown P. |
HyperCard | 1987 | Atkisnon B. |
Hypertext Editing System | 1991 | Rada |
U zadnjih nekoliko godina došlo je do velike promjene u konceptu pretraživanja informacija zbog naglog razvoja informacijskih tehnologija. Dok su se prijašnji sustavi temeljili na metapodatcima, danas se pohranjuju baze podataka s potpunim tekstom ili multimedijom. Velika je razlika i u dostupnosti tih baza podataka, prije su one bile namijenjene specifičnoj grupi korisnika, dok su pojavom interneta informacije postale dostupne gotovo svakome. Kroz posljednjih 30 godina broj digitalnih baza podataka u konstantnom je porastu, a time i broj pohranjenih informacija za pretraživanje. Pojava i razvoj interneta i multimedije utjecali su na taj porast te bitno promijenili način pretraživanja podataka.
Online pretraživanje podrazumijeva pretraživanje udaljene baze podataka putem interaktivne komunikacije uz pomoć računala i komunikacijskih kanala. Taj proces pretraživanja može se odvijati direktno ili preko posrednika. te taj proces dozvoljava korisniku da mijenja parametre pretraživanja kako bi lakše i preciznije našao traženu informaciju. Mana ovakvog sustava je što je pristup starijim informacijama ponekad ograničen. U svrhu unaprjeđenja sustava za online pretraživanje, danas se razvijaju nova, pametna sučelja (eng. Smart interface), koja korisniku nude više opcija pretraživanja, pa tako i više rezultata relevantnih za njegov upit. Ova sučelja se također koriste i obradom dostupnih podataka o korisniku u svrhu poboljšanja pretrage.
Multimedija je tokom godina postala sve češći oblik zapisa informacija, te počela preplavljivati baze podataka i tako postala učestali predmet pretraživanja. S obzirom na to da multimedija predstavlja kombinaciju zvuka, slike i teksta, znatno je kompleksnija od tradicionalnih tekstualnih dokumenata te samim time i zahtjevnija za pretraživanje. Sustavi za pretraživanje multimedije stoga kreću prvo pretražujući tekst, bilo da je on dio samog zapisa ili predstavlja opis multimedijskog zapisa. Potom sustav traži poveznicu između teksta i ostalih medija u zapisu kako bi pretražio pripadajući zvuk i sliku.
Od ranih 1970-ih i knjižnice su počele koristiti internetske mreže za pretraživanje bibliografskih baza podataka. Danas se koristi LSI (Latent Semantic Indexing) tehnologija, koja korištenjem raznih specijalnih algoritama, indexa i formula pretražuje nama potreban relevantan sadržaj, smanjuje „semantičku rupu“ između korisnika i sustava te oslobađa sistemske resurse. Za pristup muzejskim informacijama bitnu ulogu igra ontologija, pa je u tom cilju potrebno imati sistem u kojem inteligentni posrednički sustavi mogu imati pristup mentalnom modelu korisnika koje izražava njegove interese putem semantičkog obilježavanja dokumenata (npr. CIDOC CRM) za što relevantnije rezultate.
Moderni sustavi ne primjenjuju se samo u poljima informacijskih znanosti. Za pacijente dijagnosticirane s dijabetesom važno je stvaranje specifičnih terminoloških lista (tzv. lista “fraza za pretraživanje”) koje postoje kao posrednik između vokabulara i pretraživanja te korisničkih zahtjeva i postojećih online izvora, a one se dobivaju automatskom ekstrakcijom online baza informacija. Time se pretraživanje podataka može prilagoditi i onom medicinski neobrazovanom krugu korisnika zbog nepozavanja termina ali i njihovih značenja na stranim jezicima.
- Lesk, M. The Seven Ages of Information Retrieval, 1997., URL : http://archive.ifla.org/VI/5/op/udtop5/udtop5.htm Arhivirana inačica izvorne stranice od 22. kolovoza 2013. (Wayback Machine)
- Chowdhury, G. G. Introduction to modern information retrieval. London: Library Association Publishing, 2001.
- Lancaster F. W.,Warner, A. J. Information Retrieval Today, Virginia : Information Resources Press, 1993.
- Ch. Aswani Kumar, Ankush Gupta,Mahmooda Batool and Shagun Trehan, School of Computer Sciences. „Latent Semantic Indexing-Based Intelligent Information Retrieval System for Digital Libraries“, CIT. Journal of Computing and Information Technology Vol.14, No.3 (2006): 191. – 196.
- Oresto, S. „Ontološki pristup muzejskim informacijama“, Muzeologija, No.41/42, (2007): 63. – 70.
- Seljan S. Baretić M., Kučiš V. „Information Retrieval and Terminology Extraction in Online Resources for Patients with Diabetes”, Collegium Antropologicu Vol.38, No.2, (2014): 705. – 710.