Problematyka wyszukiwania informacji zyskała na znaczeniu szczególnie w latach dziewięćdziesiątych ubiegłego wieku, kiedy to stwierdzono, że Internet rokrocznie podwaja się, a zasoby informacyjne w nim umieszczone porównywalne są do liczby zasobów drukowanych. Wydawałoby się zatem, że od tego właśnie czasu liczba publikacji poświęcona temu zagadnieniu powinna rosnąć w sposób równie zauważalny. Niestety, większość opracowań – zarówno jeśli chodzi o Internet jak i systemy informacyjno-wyszukiwawcze – ogranicza się do analizy zachowań samych użytkowników oraz możliwości tychże systemów. Zdecydowanie brakuje publikacji, które prezentowałyby metody oraz konkretne przykłady budowy strategii wyszukiwawczych – w rozumieniu czynności, jakie musi wykonać użytkownik systemów informacyjno-wyszukiwawczych (dla pewnego ułatwienia przez system informacyjno- wyszukiwawczy będziemy rozumieli zarówno Internet jak i systemy informacyjno-wyszukiwawcze w bazach informacyjnych) w celu wyszukania konkretnych źródeł.
Co prawda na rynku polskim można bez trudu znaleźć artykuły w prasie, które w różnym stopniu podejmują tę problematykę i są na tyle istotne, że bez ich znajomości trudno byłoby pokusić się o jakąkolwiek analizę. Mam tu na myśli przede wszystkim takich autorów, jak: Lidia Derfert-Wolff, Bożena Bednarek-Michalska, Katarzyna Materska, Maria Próchnicka, Anna Szczepańska, Marta Grabowska, Aneta Firlej-Buzon, Stanisław Skórka, Dawida Weiss i in. (patrz: bibliografia) Zdecydowaną jednak większość stanowią publikacje obcojęzyczne. Co ciekawe, wydawnictwa książkowe związane z tym tematem (opublikowane w języku polskim) sięgają drugiej połowy lat siedemdziesiątych. Od tamtego czasu nie ukazała się ani jedna książka, która w stopniu co najmniej zadowalającym pełniłaby rolę podręcznika lub przewodnika. Zatem wiedza na temat wyszukiwania informacji i budowy związanej z nią strategii jest stosunkowo mocno rozproszona, co niestety nie sprzyja kształtowaniu umiejętności w tym zakresie i nadaje im pewnych cech niepotrzebnej elitarności.
Mówiąc o publikacjach książkowych, odnoszących się do interesującej nas problematyki, miałem przede wszystkim na uwadze prace O. Unguriana i A. I. Czernego. Wypada wspomnieć również o książce A. Wakulicz-Dei. Ta ostatnia pozycja jednak odnosi się bardziej do systemów informacyjno-wyszukiwawczych stosowanych w latach osiemdziesiątych w bibliotekach i innych ośrodkach informacyjnych. Poza tym autorka wykorzystała do prezentacji przykładów modele matematyczne w sposób niezbyt przyjazny dla potencjalnego czytelnika.
W teorii wyszukiwania informacji opis bibliograficzny dokumentu określany jest jako tworzenie jego charakterystyki wyszukiwawczej. Poszczególne elementy opisu (hasła: osobowe, korporatywne, tytulatura, rok i miejsce wydania, itd.) stanowią kryteria wyszukiwawcze, które dla łatwiejszego zindeksowania dokumentów wyrażone są najczęściej w języku sztucznym (język informacyjny lub informacyjno-wyszukiwawczy) będącym przekładem z języka naturalnego. Głównym powodem opisu dokumentów za pomocą języka quasinaturalnego (za jaki możemy uznać, np. JHP, KABA) jest konieczność wyeliminowania z zastosowanych kryteriów wyszukiwawczych w charakterystyce wyszukiwawczej (opisie bibliograficznym) dokumentu cech homonimii (wyrazów o podobnym brzmieniu i pisowni, lecz o różnym znaczeniu) oraz synonimii (wyrazy o różniącej się pisowni i brzmieniu, ale o podobnym znaczeniu). Zabieg taki ma na celu stworzenie możliwości wyboru słowa (wyrażenia) oddającego w sposób możliwie najbardziej precyzyjny i dokładny charakter jakiegoś opisywanego zjawiska lub przedmiotu.
Między słowami zastosowanego języka informacyjnego zachodzą oczywiście odpowiednie relacje (np. pomiędzy słowami ‘okładka’ i ‘książka’ zachodzi relacja część-całość, między słowami ‘łyżka’ i ‘widelec’ relacja podobieństwa pod względem funkcji, itd). Te relacje o charakterze logicznych związków są niezwykle istotne dla późniejszego konstruowania instrukcji wyszukiwawczej w ramach określonej strategii wyszukiwania informacji.
Niestety, przy wyszukiwaniu informacji nie zastanawiamy się nad powyższymi zasadami i najczęściej w wyszukiwarkach używamy słów kluczowych w sposób intuicyjny. Nie znaczy to, że w takich sytuacjach nasze poszukiwania skazane są na niepowodzenie. Musimy jednak pamiętać, że stosowanie tzw. „słownictwa niekontrolowanego” (intuicyjnego wpisywania słów i wyrażeń, co do których mamy nadzieję na uzyskanie jakichś rezultatów) wywoła jednocześnie „niekontrolowaną listę wyników” (dokumentów relewantnych i całkowicie przypadkowych, bezwartościowych). Poza tym dokumenty wyświetlone na pierwszych miejscach listy wcale nie muszą być tymi najbardziej wartościowymi. Dlatego ważne jest, aby przy wyszukiwaniu informacji formułować słowa kluczowe według pewnych zasad. Do tych podstawowych reguł należą:
Reasumując - w procesie wyszukiwania informacji najczęściej mamy do czynienia z następującymi pojęciami:
Charakterystyka wyszukiwawcza - którą tworzymy w celu umożliwienia wyszukania danego dokumentu. Jest ona tworzona najczęściej
przy pomocy słów języka sformalizowanego, którego słowa odnoszą się zarówno do treści dokumentu, jego formy jak
i cech wydawniczych. Utożsamiana jest także z opracowaniem bibliograficznym dokumentu.
W strukturze charakterystyki wyszukiwawczej możemy wyróżnić szereg kryteriów tworzących w efekcie metainformację,
czyli informację o informacji (dokumencie).
Kryterium wyszukiwawcze - jest jednym z elementów charakterystyki wyszukiwawczej dokumentu. Może więc to być hasło osobowe (autor), tytuł czy też hasło przedmiotowe odnoszące się do treści danego źródła.
Instrukcja wyszukiwania (wyszukiwawcza) - powstaje w wyniku przetworzenia i formalizacji zapytania, które następnie jest kierowane do wyszukiwarki w celu wyszukania konkretnego dokumentu. Formalizacja zapytania najczęściej przyjmuje postać słów kluczowych lub słów języka informacyjno-wyszukiwawczego, które w wyszukiwaniu zaawansowanym łączone są za pomocą operatorów logicznych oraz innych wyrażeń (łączników, znaków specjalnych, itp.) – o czym będzie mowa w dalszej części artykułu.
Strategia wyszukiwawcza - jest to ogólny schemat wyszukiwania informacji, który w praktyce związany jest z operacjami logicznymi wyznaczonymi przez instrukcje wyszukiwawcze w celu nie tylko odszukania dokumentów, ale i uzyskania jak najlepszego (relewantnego w stosunku do zapytania) wyniku.
Do podstawowych operatorów, za pomocą których możemy łączyć słowa kluczowe i tworzyć wyrażenia złożone w celu zaawansowanego wyszukiwania źródeł, należą spójniki OR (lub), AND (i) oraz NOT (nie). Operatory te są odpowiednikami pojęć z rachunku logicznego zdań (OR-alternatywa, AND-koniunkcja, NOT-negacja).
Przykłady zastosowań:
Operator AND
Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem AND, wówczas wyszukiwarka wyświetli listę stron, na których te wyrazy wystąpią co najmniej raz (ale niekoniecznie obok siebie i w tej samej kolejności).
Musimy pamiętać, że w wyszukiwarkach spójnik AND może być zastępowany znakiem „+” lub po prostu spacją (np. w Google, Yahoo).
kot AND pies kot+pies kot pies
Uwaga:
Przy zastosowaniu znaku „+” znak ten musi być przedzielony od wyrazu poprzedzającego (‘kot’) spacją i przylegać
do drugiego wyrazu (‘pies’). Ma to szczególne znaczenie przy korzystaniu z wyszukiwarki „Szukacz”
„kot AND pies” (kot AND pies) „kot pies”
Otrzymamy w wyniku listę stron, na których słowa ‘kot’ i ‘pies’ wystąpią jednocześnie obok siebie co najmniej raz.
kot AND „pies AND królik” kot AND (pies AND królik) kot (pies królik)
Otrzymamy w wynikach witryny, w których wystąpi co najmniej raz słowo ‘kot’ i co najmniej raz „pies i królik”.
Operator OR
Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem OR, wówczas wyszukiwarka wyświetli witryny, w których wystąpi jedno lub drugie słowo w dowolnym miejscu i kolejności.
kot OR pies kot | pies
Uwaga:
Operator OR może być zastąpiony znakiem „|”.
Operator NOT
Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem NOT (lub znakiem „ – „) wówczas otrzymamy adresy witryn, w których wystąpi pierwsze słowo, ale nie wystąpi te poprzedzone operatorem NOT lub znakiem „ – „.
kot NOT pies kot –pies
Uwaga:
Znak „ – „ musi być przedzielony od wyrazu poprzedzającego (‘kot’) spacją i przylegać do następnego wyrazu (‘pies’).
W wyszukiwarkach „Google” i „Yahoo” nie ma to znaczenia dla kompletności wyników (ilości wyszukanych rekordów),
ale za to poziom relewantności może już być różny.
Operator | Znaczenie | Przykładowy wpis do wyszukiwarki |
allinanchor: | Wszystkie słowa zapytania muszą być umieszczone w tekście linków do stron, przy czym strona dotyczy tematu określonego przez te słowa | [allinanchor:adopcja psów] (wyszukuje strony, których głównym tematem są kwestie związane z adopcją psów) |
inanchor: | Słowo (lub słowa w zapytaniu) muszą się znaleźć wyłącznie w treści odnośników zawartych w witrynach | [Olsztyn inanchor:biblioteki przyjazne] dzieciom (wyszukuje strony (olsztyńskie), które w treści odnośników mówią o bibliotekach przyjaznych dzieciom [inanchor:wbp olsztyn -inurl:wbp.olsztyn +site:ua] (zwróci nam adresy witryn, w których wystąpi fraza "wbp olsztyn" w jakimś odnośniku, ale nie w adresie. Poza tym musi to być witryna ukraińska. |
allintext: | Wszystkie słowa zapytania muszą być umieszczone w tekście strony | [allintext:składniki pizzy wegetariańskiej] (szukaj stron, które w tekście odnoszą się do pizzy wegetariańskiej i jej składników) |
intext: | Wyszukanie słów (słowa) wyłącznie w tekście witryn. | [Olsztyn intext:collegium musicum] (szukaj stron, które w tekście mówią o olsztyńskim chórze "CollegiumMusicum") |
allintitle: | Wszystkie słowa zapytania muszą być zamieszczone w tytułach witryn | [allintitle:poprawność polityczna] (szukaj witryn, które w swoich tytułach zawierają frazę "poprawność polityczna" |
intitle: | Wyszukiwanie słowa (słów) zawartych wyłącznie w tytułach witryn | [firmy polskie intitle:pierwsza dziesiątka] (szukaj stron, które w tekście zawierają słowa "Firmy" i "polskie" oraz dodatkowo w tytule strony musi wystąpić fraza "pierwsza dziesiątka" |
allinurl: | Wszystkie słowa zapytania muszą być umieszczone w adresie url | [allinurl:majster pol] (szukaj stron, które w adresie zawierają słowa "majster" i "pol") |
inurl: | Wyszukuje słowa wyłącznie w adresie witryny. Jednocześnie można zastosować dodatkowe warunki umieszczone przed operatorem | [drzewo inurl:drwal] (szukaj witryn, w których adresie wystąpi słowo "drwal", a w treści "drzewo" |
Operatory zawężające wyszukiwanie | ||
site: | Wyszukuje dane słowo (lub informacji na dany temat) wyłącznie w podanej po operatorze witrynie | [referaty site:www.uw.edu.pl] (szukaj słowa "referaty" wyłącznie w witrynie www.uw.edu.pl) |
filetype: | Wyszukuje dokumenty wyłącznie w zakresie zdefiniowanego typu. | ["formularz PIT-37" filetype:PDF] (szukaj formularz PIT-37 w formacie PDF) |
link: | Wyszukuje adresy stron odwołujących się do strony podanej w zapytaniu | [link:wbp.olsztyn.pl] (szukaj witryn, które w swoich treściach podają link do strony www.wbp.olsztyn.pl |
author: | Wyszukuje prace (lub odwołań do tego autora) | ["Michał Kajka" autor: "Zbigniew Chojnowski"] (szukaj prac - lub odwołań do prac - na temat Michała Kajki autorstwa Zbigniewa Chojnowskiego |
Proces budowania strategii wyszukiwania jest procesem twórczym i stosunkowo trudnym. Wymaga bowiem dostosowania do dwóch odmiennych środowisk informacyjno-wyszukiwawczych. Pierwszym z nich są katalogi oparte na słowniku kontrolowanym (bazy bibliotek, specjalistyczne repozytoria, itp.), drugim natomiast jest Internet, w którym króluje słownictwo niekontrolowane. Dlatego problem właściwego zidentyfikowania i analizy zapytania informacyjnego ma tak istotne znaczenie. Znajomość zasad tworzenia słów kluczowych (o czym była mowa na wstępie) jest również przydatna – także przy ich intuicyjnym określaniu.
Sarah Kelly w „Przewodniku do planowania strategii wyszukiwania” podaje osiem podstawowych „kroków” służących nie tylko planowaniu strategii, ale i kształtowaniu odpowiednich umiejętności w tym zakresie. Według niej cały proces decyzyjny związany z wyszukiwaniem polega na:
Budowa strategii i jej stosowanie jest działaniem heurystycznym (metoda rozwiązywania problemów polegająca na dochodzeniu do wyniku poprzez ocenę i wyciąganie wniosków z kolejnych prób podejmowanych dla jego znalezienia). Stąd też nie można poprzestać na jednej próbie wyszukiwania przy tematach złożonych lub o znacznym stopniu trudności. Wiąże się to głównie z modyfikacją instrukcji wyszukiwawczych, uzupełnianiem listy słów kluczowych (specjalistyczne tezaurusy) i ich stosowaniu w kolejnych zapytaniach informacyjnych.
W tej części zostaną zaprezentowane trzy podstawowe strategie:
Istnieją co prawda wątpliwości czy wyszukiwanie proste można zaliczać do katalogu odrębnych strategii (A. Szczepańska), jednak Saracevic – jeden z bardziej znanych badaczy procesów zaawansowanego wyszukiwania – przyznaje briefsearch taki status podkreślając jego zalety, takie jak: używanie tylko kilku terminów łączonych operatorami Boole’a, możliwość szybkich interakcji systemu z zapytaniem oraz możliwość wykorzystywania w celu weryfikacji informacji uzyskanych w wyniku przeszukiwania bardziej skomplikowanego. Poza tym strategia ta jest najczęściej stosowana przez użytkowników i nie wymaga specjalnych umiejętności.
Przykład
Poszukujemy informacji oraz artykułów na temat Zbigniewa Chojnowskiego opublikowanych w latach 2000-2001. Postanowiliśmy ograniczyć
się do wyszukania jedynie w źródłach elektronicznych, wobec tego skorzystamy z dwóch wyszukiwarek „Google” i „Yahoo”
Instrukcja wyszukiwania będzie miała zatem postać :
[„Zbigniew Chojnowski” 2000..2001]
W wyniku uzyskaliśmy 51 rekordów. Wszystkie dotyczą Z. Chojnowskiego przy czym zdecydowana większość z nich odnosi się do prac literackich i krytycznych autora.
Przy zastosowaniu tej samej instrukcji wyszukiwawczej w wyszukiwarce „Yahoo” wyniki są o wiele ciekawsze (60 wyników). Znajdujemy tam bowiem odwołania do różnych publikacji (sporo recenzji) Z. Chojnowskiego m.in. w prasie polonijnej („Przegląd Polski” – artykuł na temat „Węgierskiego Października ‘56 ”) czy też wiersze poety Z. Chojnowskiego w tłumaczeniu na język czeski. Z uzyskanych wyników jedynie dwa nie są relewantne do zapytania (odnoszą się do producenta mebli o tym samym imieniu i nazwisku). Można zatem uznać zastosowaną instrukcję wyszukiwawczą za właściwą, a uzyskane wyniki za zadowalające.
Przykład ten pokazuje, że nawet przy stosowaniu strategii wyszukiwania prostego nie powinno ograniczać się do jednej tylko wyszukiwarki.
W praktyce stosuje się odmianę tej strategii, tzw. multiplikację wyszukiwania prostego (multiple briefsearch), która w ogólnym zarysie polega na kierowaniu tej samej instrukcji wyszukiwawczej do wielu baz i wyszukiwarek. Przy stosowaniu tej strategii brokerzy informacji korzystają ze specjalnych narzędzi – skryptozakładek (bookmarklets), które umożliwiają wyodrębnienie danych z różnych stron internetowych, a tym samym rozszerzają możliwości wyszukiwawcze skonstruowanej przez nas instrukcji.
Ta strategia jest szczególnie przydatna przy wyszukiwaniu pełnotekstowym oraz w Internecie.
W celu wyszukania informacji za pomocą tej strategii należy przede wszystkim:
Przykład: Chcemy znaleźć informację na temat związku ubóstwa z przestępczością w Polsce. Załóżmy, że pytanie brzmi: Czy istnieje związek pomiędzy ubóstwem i przestępczością w Polsce i jakie zdanie na ten temat mają nasi decydenci? Z powyższego zdania musimy wyodrębnić terminy główne, którymi będą: „ubóstwo”, „przestępczość” i „Polska”. Pomijamy drugi człon pytania ponieważ stanowi on warstwę zawężającą zapytanie, którą możemy wyrazić za pomocą operatora. Jako terminy dodatkowe do „ubóstwa” wybieramy: „bieda” i „nędza”, do terminu „przestępczość” – „przestępstwo”, „przestępcy”, a do terminu „Polska” – „RP”, „miasta polskie”, „polska wieś”. Wobec tego nasz wyżej przedstawiony schemat oraz wynikająca stąd instrukcja, będą wyglądały następująco:
KLASA I Ubóstwo | KLASA II Przestępczość | KLASA III Polska |
bieda | przestępstwo | RP |
nędza | przestępcy | miasta polskie |
wieś polska |
Podstawowa instrukcja wyszukiwawcza będzie przedstawiała się następująco:
Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)]
Na potrzeby zilustrowania przykładu skorzystamy z wyszukiwarki Google, do której wprowadzimy powyższą instrukcję. W efekcie uzyskaliśmy aż 406 rezultatów, co być może jest dobrym wynikiem, ale jedynie pod względem ilości. Przy tak dużej liczbie rekordów nie jesteśmy w stanie nie tylko ocenić, które z nich są wartościowe, ale i zdecydować o ich poziomie relewantności
Musimy zatem zawęzić nasze zapytanie. Ponieważ interesują nas materiały, w których może być wyrażone stanowisko polskich władz wobec problemu przedstawionego w zapytaniu, zmieniamy naszą instrukcję:
Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)] +site:gov.pl
Przy tak skonstruowanej instrukcji uzyskujemy już tylko 48 wyników (pochodzących ze stron rządowych – gov.pl), ale chcielibyśmy jeszcze te wyniki zawęzić do dokumentów, nad którymi pracowali nasi posłowie. Zatem w efekcie nasza instrukcja wyglądać będzie następująco:
Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)] +site:sejm.gov.pl
W rezultacie otrzymaliśmy 21 wyników, które już są możliwe do przyjęcia i analizy pod kątem naszego zapytania.
Jest to strategia nieco bardziej zaawansowana od poprzednich i służy generalnie wyszukiwaniu dokumentów w bazach o słowniku kontrolowanym (uczelnie, repozytoria specjalistycznych źródeł, itp.). Do przeprowadzenia tej strategii niezbędna jest znajomość minimum jednego dokumentu, który spełnia kryteria naszego zapytania informacyjnego. Dalszy tok działania przebiega następująco:
Poszukiwane są dokumenty dotyczące budowy strategii pomnażania cytowań. Znany jest autor oraz początek tytułu publikacji, w której ten temat wystąpił (Harter, Stephen: Online Information Retrieval). Ponieważ jest to dzieło wielokrotnie cytowane zarówno w wydawnictwach zagranicznych jak i polskich, należy sądzić, że nie powinno być problemu z dotarciem do opisu tego dokumentu. Z uwagi jednak na możliwość istnienia nowszych rozwiązań dotyczących budowy strategii wyszukiwania informacji postanowiono na potrzeby artykułu skorzystać z innych niż S. Harter autorów.
W wyniku wyszukiwania prostego okazało się, że książka Hartera została opisana dwoma terminami: „Human factors” i „languages”. To niewiele i można się było spodziewać, że po wprowadzeniu instrukcji wyszukiwawczej do bazy ACM Digital Library uzyskamy zbyt dużo wyników do przeanalizowania. Ponieważ w instrukcji wyszukiwawczej występują główne terminy (subject terms) użyjemy operatora SUB przed każdym wyrażeniem:
SUB(human factors) AND SUB(languages)
Niestety wynik to 1.793 rezultaty. Przy kolejnych zmianach instrukcji wyszukiwawczych i wprowadzaniu terminów: „heuristic search”, „Boolean queries”, „algorithms”, „information retrieval” pobieranych z opisów innych artykułów lista wyników została zawężona do 37 i znalazł się tam artykuł Eero Sormunena „A novel method for the evaluation of Boolean query effectiveness across a wide operational range”. Tytuł artykułu sugerował znaczny poziom relewantności do zapytania. Niestety artykuł w bazie ACM jest dostępny za odpłatnością. W związku z tym postanowiono powrócić do wyszukiwania prostego i spróbować dotrzeć do artykułu w bazie Uniwersytetu w Tampere, którego autor jest pracownikiem. Na stronie uczelni wyszukano pracę o nieco innym tytule („A method for Measuring Wide Range Performance of Boolean Queries In Full-Text Databases”), ale biorąc pod uwagę fakt, że obydwa ukazały się w tym samym roku (2000), a ten pierwszy był artykułem prezentowanym na konferencji naukowej w Atenach w lipcu 2000 roku, można było wyciągnąć wniosek, iż jest on prezentacją poglądów autora z jego wcześniejszej publikacji. Uzyskany tą drogą artykuł jest o tyle cenny, że prezentuje charakterystykę wszystkich przedstawionych w niniejszym artykule strategii wyszukiwania.