Waldemar Tychek

 

WYSZUKIWANIE INFORMACJI.
PODSTAWY BUDOWY STRATEGII WYSZUKIWAWCZYCH

 

Problematyka wyszukiwania informacji zyskała na znaczeniu szczególnie w latach dziewięćdziesiątych ubiegłego wieku, kiedy to stwierdzono, że Internet rokrocznie podwaja się, a zasoby informacyjne w nim umieszczone porównywalne są do liczby zasobów drukowanych. Wydawałoby się zatem, że od tego właśnie czasu liczba publikacji poświęcona temu zagadnieniu powinna rosnąć w sposób równie zauważalny. Niestety, większość opracowań – zarówno jeśli chodzi o Internet jak i systemy informacyjno-wyszukiwawcze – ogranicza się do analizy zachowań samych użytkowników oraz możliwości tychże systemów. Zdecydowanie brakuje publikacji, które prezentowałyby metody oraz konkretne przykłady budowy strategii wyszukiwawczych – w rozumieniu czynności, jakie musi wykonać użytkownik systemów informacyjno-wyszukiwawczych (dla pewnego ułatwienia przez system informacyjno- wyszukiwawczy będziemy rozumieli zarówno Internet jak i systemy informacyjno-wyszukiwawcze w bazach informacyjnych) w celu wyszukania konkretnych źródeł.

Co prawda na rynku polskim można bez trudu znaleźć artykuły w prasie, które w różnym stopniu podejmują tę problematykę i są na tyle istotne, że bez ich znajomości trudno byłoby pokusić się o jakąkolwiek analizę. Mam tu na myśli przede wszystkim takich autorów, jak: Lidia Derfert-Wolff, Bożena Bednarek-Michalska, Katarzyna Materska, Maria Próchnicka, Anna Szczepańska, Marta Grabowska, Aneta Firlej-Buzon, Stanisław Skórka, Dawida Weiss i in. (patrz: bibliografia) Zdecydowaną jednak większość stanowią publikacje obcojęzyczne. Co ciekawe, wydawnictwa książkowe związane z tym tematem (opublikowane w języku polskim) sięgają drugiej połowy lat siedemdziesiątych. Od tamtego czasu nie ukazała się ani jedna książka, która w stopniu co najmniej zadowalającym pełniłaby rolę podręcznika lub przewodnika. Zatem wiedza na temat wyszukiwania informacji i budowy związanej z nią strategii jest stosunkowo mocno rozproszona, co niestety nie sprzyja kształtowaniu umiejętności w tym zakresie i nadaje im pewnych cech niepotrzebnej elitarności.

Mówiąc o publikacjach książkowych, odnoszących się do interesującej nas problematyki, miałem przede wszystkim na uwadze prace O. Unguriana i A. I. Czernego. Wypada wspomnieć również o książce A. Wakulicz-Dei. Ta ostatnia pozycja jednak odnosi się bardziej do systemów informacyjno-wyszukiwawczych stosowanych w latach osiemdziesiątych w bibliotekach i innych ośrodkach informacyjnych. Poza tym autorka wykorzystała do prezentacji przykładów modele matematyczne w sposób niezbyt przyjazny dla potencjalnego czytelnika.

SZCZYPTA TEORII

W teorii wyszukiwania informacji opis bibliograficzny dokumentu określany jest jako tworzenie jego charakterystyki wyszukiwawczej. Poszczególne elementy opisu (hasła: osobowe, korporatywne, tytulatura, rok i miejsce wydania, itd.) stanowią kryteria wyszukiwawcze, które dla łatwiejszego zindeksowania dokumentów wyrażone są najczęściej w języku sztucznym (język informacyjny lub informacyjno-wyszukiwawczy) będącym przekładem z języka naturalnego. Głównym powodem opisu dokumentów za pomocą języka quasinaturalnego (za jaki możemy uznać, np. JHP, KABA) jest konieczność wyeliminowania z zastosowanych kryteriów wyszukiwawczych w charakterystyce wyszukiwawczej (opisie bibliograficznym) dokumentu cech homonimii (wyrazów o podobnym brzmieniu i pisowni, lecz o różnym znaczeniu) oraz synonimii (wyrazy o różniącej się pisowni i brzmieniu, ale o podobnym znaczeniu). Zabieg taki ma na celu stworzenie możliwości wyboru słowa (wyrażenia) oddającego w sposób możliwie najbardziej precyzyjny i dokładny charakter jakiegoś opisywanego zjawiska lub przedmiotu.

Między słowami zastosowanego języka informacyjnego zachodzą oczywiście odpowiednie relacje (np. pomiędzy słowami ‘okładka’ i ‘książka’ zachodzi relacja część-całość, między słowami ‘łyżka’ i ‘widelec’ relacja podobieństwa pod względem funkcji, itd). Te relacje o charakterze logicznych związków są niezwykle istotne dla późniejszego konstruowania instrukcji wyszukiwawczej w ramach określonej strategii wyszukiwania informacji.

Niestety, przy wyszukiwaniu informacji nie zastanawiamy się nad powyższymi zasadami i najczęściej w wyszukiwarkach używamy słów kluczowych w sposób intuicyjny. Nie znaczy to, że w takich sytuacjach nasze poszukiwania skazane są na niepowodzenie. Musimy jednak pamiętać, że stosowanie tzw. „słownictwa niekontrolowanego” (intuicyjnego wpisywania słów i wyrażeń, co do których mamy nadzieję na uzyskanie jakichś rezultatów) wywoła jednocześnie „niekontrolowaną listę wyników” (dokumentów relewantnych i całkowicie przypadkowych, bezwartościowych). Poza tym dokumenty wyświetlone na pierwszych miejscach listy wcale nie muszą być tymi najbardziej wartościowymi. Dlatego ważne jest, aby przy wyszukiwaniu informacji formułować słowa kluczowe według pewnych zasad. Do tych podstawowych reguł należą:

  1. Stosowanie głównie rzeczowników (jako nazw w formie jednowyrazowej, w mianowniku liczby pojedynczej).
  2. Przy konieczności zastosowania czasowników wybierać formę rzeczowników odczasownikowych (np. rysować - czyli wykonywać rysunek).
  3. Przymiotniki i przysłówki możemy używać jedynie w przypadku terminów wielowyrazowych. Przy czym należy pamiętać o stosowaniu odpowiedniego szyku wyrazów (pierwszy wyraz nie może być nazwą o szerokim zakresie, nie charakterystyczną, np. zamiast „materiały pędne” powinniśmy użyć zwrotu „pędne materiały”).
  4. W przypadkach połączeń różnych wyrażeń części mowy (np. dwóch rzeczowników, rzeczownika i imienia własnego, rzeczownika z przymiotnikiem, itd.) musimy być pewni, że mamy do czynienia z terminem wielowyrazowym i nie da się go rozdzielić na słowa kluczowe o podstawowym charakterze (np. „ładowność samochodu” możemy rozbić na dwa słowa kluczowe – „ładowność” i „samochód”, ale podobny zabieg z terminem „samochód ciężarowy” już nam się nie powiedzie). Zasada ta ma powszechniejsze zastosowanie w bazach systemów informacyjno-wyszukiwawczych bibliotek i repozytoriów informacyjnych bazujących na słownictwie języka haseł przedmiotowych lub słowniku kontrolowanym (indeks słów kluczowych możliwych do wyboru i zastosowania). Natomiast w wyszukiwarkach internetowych istnieje możliwość stosowania wyrażeń złożonych pod warunkiem ujęcia całej frazy w cudzysłów, ale wówczas musimy mieć pewność, że taki ciąg wyrazów i w takiej kolejności wystąpi w dokumencie.

Reasumując - w procesie wyszukiwania informacji najczęściej mamy do czynienia z następującymi pojęciami:

Charakterystyka wyszukiwawcza - którą tworzymy w celu umożliwienia wyszukania danego dokumentu. Jest ona tworzona najczęściej przy pomocy słów języka sformalizowanego, którego słowa odnoszą się zarówno do treści dokumentu, jego formy jak i cech wydawniczych. Utożsamiana jest także z opracowaniem bibliograficznym dokumentu.
W strukturze charakterystyki wyszukiwawczej możemy wyróżnić szereg kryteriów tworzących w efekcie metainformację, czyli informację o informacji (dokumencie).

Kryterium wyszukiwawcze - jest jednym z elementów charakterystyki wyszukiwawczej dokumentu. Może więc to być hasło osobowe (autor), tytuł czy też hasło przedmiotowe odnoszące się do treści danego źródła.

Instrukcja wyszukiwania (wyszukiwawcza) - powstaje w wyniku przetworzenia i formalizacji zapytania, które następnie jest kierowane do wyszukiwarki w celu wyszukania konkretnego dokumentu. Formalizacja zapytania najczęściej przyjmuje postać słów kluczowych lub słów języka informacyjno-wyszukiwawczego, które w wyszukiwaniu zaawansowanym łączone są za pomocą operatorów logicznych oraz innych wyrażeń (łączników, znaków specjalnych, itp.) – o czym będzie mowa w dalszej części artykułu.

Strategia wyszukiwawcza - jest to ogólny schemat wyszukiwania informacji, który w praktyce związany jest z operacjami logicznymi wyznaczonymi przez instrukcje wyszukiwawcze w celu nie tylko odszukania dokumentów, ale i uzyskania jak najlepszego (relewantnego w stosunku do zapytania) wyniku.

OPERATORY WYKORZYSTYWANE DO BUDOWY INSTRUKCJI WYSZUKIWAWCZYCH

Do podstawowych operatorów, za pomocą których możemy łączyć słowa kluczowe i tworzyć wyrażenia złożone w celu zaawansowanego wyszukiwania źródeł, należą spójniki OR (lub), AND (i) oraz NOT (nie). Operatory te są odpowiednikami pojęć z rachunku logicznego zdań (OR-alternatywa, AND-koniunkcja, NOT-negacja).

Przykłady zastosowań:
Operator AND
Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem AND, wówczas wyszukiwarka wyświetli listę stron, na których te wyrazy wystąpią co najmniej raz (ale niekoniecznie obok siebie i w tej samej kolejności).
Musimy pamiętać, że w wyszukiwarkach spójnik AND może być zastępowany znakiem „+” lub po prostu spacją (np. w Google, Yahoo).

kot AND pies   kot+pies   kot pies

Uwaga:
Przy zastosowaniu znaku „+” znak ten musi być przedzielony od wyrazu poprzedzającego (‘kot’) spacją i przylegać do drugiego wyrazu (‘pies’). Ma to szczególne znaczenie przy korzystaniu z wyszukiwarki „Szukacz”

„kot AND pies”   (kot AND pies)   „kot pies”

Otrzymamy w wyniku listę stron, na których słowa ‘kot’ i ‘pies’ wystąpią jednocześnie obok siebie co najmniej raz.

kot AND „pies AND królik”    kot AND (pies AND królik)     kot (pies królik)

Otrzymamy w wynikach witryny, w których wystąpi co najmniej raz słowo ‘kot’ i co najmniej raz „pies i królik”.

Operator OR

Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem OR, wówczas wyszukiwarka wyświetli witryny, w których wystąpi jedno lub drugie słowo w dowolnym miejscu i kolejności.

kot OR pies     kot | pies

Uwaga:
Operator OR może być zastąpiony znakiem „|”.

Operator NOT

Gdy w polu wyszukiwań wpiszemy słowa przedzielone operatorem NOT (lub znakiem „ – „) wówczas otrzymamy adresy witryn, w których wystąpi pierwsze słowo, ale nie wystąpi te poprzedzone operatorem NOT lub znakiem „ – „.

kot NOT pies     kot –pies

Uwaga:
Znak „ – „ musi być przedzielony od wyrazu poprzedzającego (‘kot’) spacją i przylegać do następnego wyrazu (‘pies’). W wyszukiwarkach „Google” i „Yahoo” nie ma to znaczenia dla kompletności wyników (ilości wyszukanych rekordów), ale za to poziom relewantności może już być różny.

Podstawowe operatory stosowane do zaawansowanego wyszukiwania

Operator Znaczenie Przykładowy wpis do wyszukiwarki
allinanchor: Wszystkie słowa zapytania muszą być umieszczone w tekście linków do stron, przy czym strona dotyczy tematu określonego przez te słowa [allinanchor:adopcja psów]
(wyszukuje strony, których głównym tematem są kwestie związane z adopcją psów)
inanchor: Słowo (lub słowa w zapytaniu) muszą się znaleźć wyłącznie w treści odnośników zawartych w witrynach [Olsztyn inanchor:biblioteki przyjazne] dzieciom
(wyszukuje strony (olsztyńskie), które w treści odnośników mówią o bibliotekach przyjaznych dzieciom
[inanchor:wbp olsztyn -inurl:wbp.olsztyn +site:ua]
(zwróci nam adresy witryn, w których wystąpi fraza "wbp olsztyn" w jakimś odnośniku, ale nie w adresie. Poza tym musi to być witryna ukraińska.
allintext: Wszystkie słowa zapytania muszą być umieszczone w tekście strony [allintext:składniki pizzy wegetariańskiej]
(szukaj stron, które w tekście odnoszą się do pizzy wegetariańskiej i jej składników)
intext: Wyszukanie słów (słowa) wyłącznie w tekście witryn. [Olsztyn intext:collegium musicum]
(szukaj stron, które w tekście mówią o olsztyńskim chórze "CollegiumMusicum")
allintitle: Wszystkie słowa zapytania muszą być zamieszczone w tytułach witryn [allintitle:poprawność polityczna]
(szukaj witryn, które w swoich tytułach zawierają frazę "poprawność polityczna"
intitle: Wyszukiwanie słowa (słów) zawartych wyłącznie w tytułach witryn [firmy polskie intitle:pierwsza dziesiątka]
(szukaj stron, które w tekście zawierają słowa "Firmy" i "polskie" oraz dodatkowo w tytule strony musi wystąpić fraza "pierwsza dziesiątka"
allinurl: Wszystkie słowa zapytania muszą być umieszczone w adresie url [allinurl:majster pol]
(szukaj stron, które w adresie zawierają słowa "majster" i "pol")
inurl: Wyszukuje słowa wyłącznie w adresie witryny. Jednocześnie można zastosować dodatkowe warunki umieszczone przed operatorem [drzewo inurl:drwal]
(szukaj witryn, w których adresie wystąpi słowo "drwal", a w treści "drzewo"
Operatory zawężające wyszukiwanie
site: Wyszukuje dane słowo (lub informacji na dany temat) wyłącznie w podanej po operatorze witrynie [referaty site:www.uw.edu.pl]
(szukaj słowa "referaty" wyłącznie w witrynie www.uw.edu.pl)
filetype: Wyszukuje dokumenty wyłącznie w zakresie zdefiniowanego typu. ["formularz PIT-37" filetype:PDF]
(szukaj formularz PIT-37 w formacie PDF)
link: Wyszukuje adresy stron odwołujących się do strony podanej w zapytaniu [link:wbp.olsztyn.pl]
(szukaj witryn, które w swoich treściach podają link do strony www.wbp.olsztyn.pl
author: Wyszukuje prace (lub odwołań do tego autora) ["Michał Kajka" autor: "Zbigniew Chojnowski"]
(szukaj prac - lub odwołań do prac - na temat Michała Kajki autorstwa Zbigniewa Chojnowskiego

Budowa strategii wyszukiwawczych – wprowadzenie

Proces budowania strategii wyszukiwania jest procesem twórczym i stosunkowo trudnym. Wymaga bowiem dostosowania do dwóch odmiennych środowisk informacyjno-wyszukiwawczych. Pierwszym z nich są katalogi oparte na słowniku kontrolowanym (bazy bibliotek, specjalistyczne repozytoria, itp.), drugim natomiast jest Internet, w którym króluje słownictwo niekontrolowane. Dlatego problem właściwego zidentyfikowania i analizy zapytania informacyjnego ma tak istotne znaczenie. Znajomość zasad tworzenia słów kluczowych (o czym była mowa na wstępie) jest również przydatna – także przy ich intuicyjnym określaniu.

Sarah Kelly w „Przewodniku do planowania strategii wyszukiwania” podaje osiem podstawowych „kroków” służących nie tylko planowaniu strategii, ale i kształtowaniu odpowiednich umiejętności w tym zakresie. Według niej cały proces decyzyjny związany z wyszukiwaniem polega na:

  1. Zanalizowaniu zapytania informacyjnego pod kątem tematów i dziedzin, których problem może dotyczyć.
  2. Zidentyfikowaniu właściwych słów kluczowych i wyrażeń oddających przedmiot problemu.
  3. Zidentyfikowaniu odpowiednich do tych słów i haseł synonimów i relacji semantycznych między nimi.
  4. Określenie baz i systemów informacyjnych, które zostaną poddane wyszukiwaniu oraz wstępne określenie zastosowanych strategii.
  5. Rozpoczęcie wyszukiwania przy zastosowaniu wybranych przez siebie strategii.
  6. Ocena wyników wyszukiwania.
  7. Zapisanie całego procesu wyszukania oraz tworzenie dodatkowych sugestii co do zmiany zastosowanych strategii.
  8. Rejestrowanie odniesień do innych wyszukiwań tego typu w celu ewentualnej weryfikacji wyników i zmian w zastosowanej strategii.

Budowa strategii i jej stosowanie jest działaniem heurystycznym (metoda rozwiązywania problemów polegająca na dochodzeniu do wyniku poprzez ocenę i wyciąganie wniosków z kolejnych prób podejmowanych dla jego znalezienia). Stąd też nie można poprzestać na jednej próbie wyszukiwania przy tematach złożonych lub o znacznym stopniu trudności. Wiąże się to głównie z modyfikacją instrukcji wyszukiwawczych, uzupełnianiem listy słów kluczowych (specjalistyczne tezaurusy) i ich stosowaniu w kolejnych zapytaniach informacyjnych.

Budowa strategii wyszukiwawczych

W tej części zostaną zaprezentowane trzy podstawowe strategie:

  1. Wyszukiwanie proste (briefsearch).
  2. Strategia formowania klas (building blocks strategy).
  3. Strategia pomnażania cytowań (citation pearl growing)

WYSZUKIWANIE PROSTE

Istnieją co prawda wątpliwości czy wyszukiwanie proste można zaliczać do katalogu odrębnych strategii (A. Szczepańska), jednak Saracevic – jeden z bardziej znanych badaczy procesów zaawansowanego wyszukiwania – przyznaje briefsearch taki status podkreślając jego zalety, takie jak: używanie tylko kilku terminów łączonych operatorami Boole’a, możliwość szybkich interakcji systemu z zapytaniem oraz możliwość wykorzystywania w celu weryfikacji informacji uzyskanych w wyniku przeszukiwania bardziej skomplikowanego. Poza tym strategia ta jest najczęściej stosowana przez użytkowników i nie wymaga specjalnych umiejętności.

Przykład
Poszukujemy informacji oraz artykułów na temat Zbigniewa Chojnowskiego opublikowanych w latach 2000-2001. Postanowiliśmy ograniczyć się do wyszukania jedynie w źródłach elektronicznych, wobec tego skorzystamy z dwóch wyszukiwarek „Google” i „Yahoo”
Instrukcja wyszukiwania będzie miała zatem postać :

[„Zbigniew Chojnowski” 2000..2001]

W wyniku uzyskaliśmy 51 rekordów. Wszystkie dotyczą Z. Chojnowskiego przy czym zdecydowana większość z nich odnosi się do prac literackich i krytycznych autora.

Przy zastosowaniu tej samej instrukcji wyszukiwawczej w wyszukiwarce „Yahoo” wyniki są o wiele ciekawsze (60 wyników). Znajdujemy tam bowiem odwołania do różnych publikacji (sporo recenzji) Z. Chojnowskiego m.in. w prasie polonijnej („Przegląd Polski” – artykuł na temat „Węgierskiego Października ‘56 ”) czy też wiersze poety Z. Chojnowskiego w tłumaczeniu na język czeski. Z uzyskanych wyników jedynie dwa nie są relewantne do zapytania (odnoszą się do producenta mebli o tym samym imieniu i nazwisku). Można zatem uznać zastosowaną instrukcję wyszukiwawczą za właściwą, a uzyskane wyniki za zadowalające.

Przykład ten pokazuje, że nawet przy stosowaniu strategii wyszukiwania prostego nie powinno ograniczać się do jednej tylko wyszukiwarki.

W praktyce stosuje się odmianę tej strategii, tzw. multiplikację wyszukiwania prostego (multiple briefsearch), która w ogólnym zarysie polega na kierowaniu tej samej instrukcji wyszukiwawczej do wielu baz i wyszukiwarek. Przy stosowaniu tej strategii brokerzy informacji korzystają ze specjalnych narzędzi – skryptozakładek (bookmarklets), które umożliwiają wyodrębnienie danych z różnych stron internetowych, a tym samym rozszerzają możliwości wyszukiwawcze skonstruowanej przez nas instrukcji.

STRATEGIA FORMOWANIA KLAS

Ta strategia jest szczególnie przydatna przy wyszukiwaniu pełnotekstowym oraz w Internecie.
W celu wyszukania informacji za pomocą tej strategii należy przede wszystkim:

  1. Określić (nazwać) główne terminy oddające treść zapytania
  2. Ustalić relacje zachodzące pomiędzy tymi terminami w sposób taki, ażeby było możliwe ustalenie operatorów, jakimi będziemy je łączyć.
  3. Dla każdego głównego terminu określić dodatkowe wyrażenia w postaci np. synonimów, terminów węższych, itp. – w tym przypadku dobrze jest skorzystać zarówno z JHP jak i z dziedzinowych tezaurusów – jak również słów języka naturalnego, co do których możemy spodziewać się, że zostaną uznane przez wyszukiwarki lub może istnieć potencjalny związek tych słów w z głównymi terminami.
  4. Terminy główne oraz przypisane do nich dodatkowe wyrażenia tworzą tzw. klasy, które łączymy za pomocą operatorów, tworząc w ten sposób instrukcję wyszukiwawczą.
  5. Wyrażenia przypisane do terminów głównych łączymy za pomocą operatora OR, terminy główne za pomocą operatora AND, natomiast klasy za pomocą wszystkich operatorów.

Schemat strategii formowania klas

Przykład: Chcemy znaleźć informację na temat związku ubóstwa z przestępczością w Polsce. Załóżmy, że pytanie brzmi: Czy istnieje związek pomiędzy ubóstwem i przestępczością w Polsce i jakie zdanie na ten temat mają nasi decydenci? Z powyższego zdania musimy wyodrębnić terminy główne, którymi będą: „ubóstwo”, „przestępczość” i „Polska”. Pomijamy drugi człon pytania ponieważ stanowi on warstwę zawężającą zapytanie, którą możemy wyrazić za pomocą operatora. Jako terminy dodatkowe do „ubóstwa” wybieramy: „bieda” i „nędza”, do terminu „przestępczość” – „przestępstwo”, „przestępcy”, a do terminu „Polska” – „RP”, „miasta polskie”, „polska wieś”. Wobec tego nasz wyżej przedstawiony schemat oraz wynikająca stąd instrukcja, będą wyglądały następująco:

KLASA I
Ubóstwo
KLASA II
Przestępczość
KLASA III
Polska
biedaprzestępstwoRP
nędzaprzestępcymiasta polskie
  wieś polska

Podstawowa instrukcja wyszukiwawcza będzie przedstawiała się następująco:

Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)]

Na potrzeby zilustrowania przykładu skorzystamy z wyszukiwarki Google, do której wprowadzimy powyższą instrukcję. W efekcie uzyskaliśmy aż 406 rezultatów, co być może jest dobrym wynikiem, ale jedynie pod względem ilości. Przy tak dużej liczbie rekordów nie jesteśmy w stanie nie tylko ocenić, które z nich są wartościowe, ale i zdecydować o ich poziomie relewantności

Musimy zatem zawęzić nasze zapytanie. Ponieważ interesują nas materiały, w których może być wyrażone stanowisko polskich władz wobec problemu przedstawionego w zapytaniu, zmieniamy naszą instrukcję:

Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)] +site:gov.pl

Przy tak skonstruowanej instrukcji uzyskujemy już tylko 48 wyników (pochodzących ze stron rządowych – gov.pl), ale chcielibyśmy jeszcze te wyniki zawęzić do dokumentów, nad którymi pracowali nasi posłowie. Zatem w efekcie nasza instrukcja wyglądać będzie następująco:

Ubóstwo AND przestępczość AND Polska AND [(bieda OR nędza) AND (przestępstwo OR przestępcy) AND (RP OR „miasta polskie” OR „wieś polska”)] +site:sejm.gov.pl

W rezultacie otrzymaliśmy 21 wyników, które już są możliwe do przyjęcia i analizy pod kątem naszego zapytania.

STRATEGIA POMNAŻANIA CYTOWAŃ (ODWOŁAŃ)

Jest to strategia nieco bardziej zaawansowana od poprzednich i służy generalnie wyszukiwaniu dokumentów w bazach o słowniku kontrolowanym (uczelnie, repozytoria specjalistycznych źródeł, itp.). Do przeprowadzenia tej strategii niezbędna jest znajomość minimum jednego dokumentu, który spełnia kryteria naszego zapytania informacyjnego. Dalszy tok działania przebiega następująco:

  1. Przy zastosowaniu strategii wyszukiwania prostego dotarcie do rekordu znanego nam już dokumentu.
  2. Wynotowanie terminów (słów kluczowych, haseł przedmiotowych), które zostały zaindeksowane przy opisie tego dokumentu.
  3. Użycie tych terminów do budowy klas – a więc przejście do etapu strategii wcześniej scharakteryzowanej, tj. formowania klas.
  4. Utworzenie instrukcji wyszukiwawczej i wprowadzenie do systemu informacyjno-wyszukiwawczego.
  5. Selekcja uzyskanych wyników pod kątem relewantności do zapytania.
  6. Ewentualne przeformułowanie instrukcji (zastosowanie np. terminów dodatkowych pobranych z innych opisów, słowników lub dostępnych tezaurusów dziedzinowych).

Przykład

Poszukiwane są dokumenty dotyczące budowy strategii pomnażania cytowań. Znany jest autor oraz początek tytułu publikacji, w której ten temat wystąpił (Harter, Stephen: Online Information Retrieval). Ponieważ jest to dzieło wielokrotnie cytowane zarówno w wydawnictwach zagranicznych jak i polskich, należy sądzić, że nie powinno być problemu z dotarciem do opisu tego dokumentu. Z uwagi jednak na możliwość istnienia nowszych rozwiązań dotyczących budowy strategii wyszukiwania informacji postanowiono na potrzeby artykułu skorzystać z innych niż S. Harter autorów.

W wyniku wyszukiwania prostego okazało się, że książka Hartera została opisana dwoma terminami: „Human factors” i „languages”. To niewiele i można się było spodziewać, że po wprowadzeniu instrukcji wyszukiwawczej do bazy ACM Digital Library uzyskamy zbyt dużo wyników do przeanalizowania. Ponieważ w instrukcji wyszukiwawczej występują główne terminy (subject terms) użyjemy operatora SUB przed każdym wyrażeniem:

SUB(human factors) AND SUB(languages)

Niestety wynik to 1.793 rezultaty. Przy kolejnych zmianach instrukcji wyszukiwawczych i wprowadzaniu terminów: „heuristic search”, „Boolean queries”, „algorithms”, „information retrieval” pobieranych z opisów innych artykułów lista wyników została zawężona do 37 i znalazł się tam artykuł Eero Sormunena „A novel method for the evaluation of Boolean query effectiveness across a wide operational range”. Tytuł artykułu sugerował znaczny poziom relewantności do zapytania. Niestety artykuł w bazie ACM jest dostępny za odpłatnością. W związku z tym postanowiono powrócić do wyszukiwania prostego i spróbować dotrzeć do artykułu w bazie Uniwersytetu w Tampere, którego autor jest pracownikiem. Na stronie uczelni wyszukano pracę o nieco innym tytule („A method for Measuring Wide Range Performance of Boolean Queries In Full-Text Databases”), ale biorąc pod uwagę fakt, że obydwa ukazały się w tym samym roku (2000), a ten pierwszy był artykułem prezentowanym na konferencji naukowej w Atenach w lipcu 2000 roku, można było wyciągnąć wniosek, iż jest on prezentacją poglądów autora z jego wcześniejszej publikacji. Uzyskany tą drogą artykuł jest o tyle cenny, że prezentuje charakterystykę wszystkich przedstawionych w niniejszym artykule strategii wyszukiwania.

BIBLIOGRAFIA

  1. Czerny, Arkadij I.: Teoria wyszukiwania informacji. Warszawa: PWN, 1981.
  2. Derfert-Wolff, Lidia: Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways, „Biuletyn EBIB” [on-line] 2004, nr 6 ; [dostęp: 31 maja 2008]. Dostępny w World Wide Web: http://ebib.oss.wroc.pl/2004/57/derfert.php
  3. Firlej-Buzon, Aneta: Heurystyka – geneza oraz współczesne zastosowania, „Zagadnienia Informacji Naukowej”, 2003, nr 1, s. 23-37.
  4. Google Guide. Making Searching Even Easier [on-line] ; [dostęp: 5 czerwca 2008]. Dostępny w World Wide Web: http://www.googleguide.com
  5. Kaczmarek, Elzbieta, Marks, Maria: Informator Wrocławskiego Centrum Sieciowo-Superkomputerowego [on-line] ; [dostęp: 4 czerwca 2008]. Dostępny w World Wide Web: http://www.wcss.wroc.pl/wcss/infor/
  6. Kelly, Sarah (2005): Planning a Search Strategy, [on-line] Edinburgh University Library ; [dostęp: 5 czerwca 2008]. Dostępny w World Wide Web: http://www.lib.ed.ac.uk/resbysub/PDF/search_skills_A4_booklet.pdf
  7. Massachusetts Institute of Technology. (2008) The Information Navigator. A self-help guide to quality information [on-line] ; [dostęp: 4 czerwca 2008]. Dostępny w World Wide Web: http://libraries.mit.edu/tutorials/general/boolean.html
  8. Materska, Katarzyna.: Heurystyka informacyjna. „Przegląd Biblioteczny” 1994 nr 3/4, s. 263-267.
  9. Pamuła-Cieślak Natalia: Ukryty Internet – jeśli nie wyszukiwarka to co? „Biuletyn EBIB” [on-line] 2004, nr 58 ; [dostęp: 31 maja 2008]. Dostępny w World Wide Web: http://ebib.oss.wroc.pl/2004/58/pamula.php
  10. Próchnicka, Maria: Modelowanie użytkownika systemów informacyjnych. „Zagadnienia Informacji Naukowej”, 2000, nr 2, s. 31-42.
  11. Próchnicka, Maria: Spersonalizowane wyszukiwanie i dostarczanie informacji. W: Multimedialne i Sieciowe Systemy Informacyjne. Materiały konferencyjne pod red. Cz.Daniłowicza. Wrocław: Oficyna Wydawnicza Politechniki Wrocławskiej, 2004. Vol. 1, s. 373-383.
  12. Saracevic, Tefko: Advanced searching [on-line] ; [dostęp: 6 czerwca 2008]. Dostępny w World Wide Web: http://www.scils.rutgers.edu/~tefko/Courses/e530/Lectures/Advanced%20searching.ppt
  13. Sormunen, Eero: A method for Measuring Wide Range Performance of Boolean Queries In Full-Text Databases [on-line] ; [dostęp: 8 czerwca 2008]. Dostępny w World Wide Web: http://acta.uta.fi/english/haku.phtml
  14. Ungurian, Olgierd: Elementy teorii języków informacyjnych. Warszawa: PAN, 1976.
  15. Wakulicz-Deja, Alicja: Podstawy systemów wyszukiwania informacji. Analiza metod. Warszawa-Łódź: PWN, 1990.

cofnij