PERS - System Informacji o Pracownikach

SKEP - Szukanie zaawansowane - pomoc

1. Uwagi wstępne


System poszukuje publikacji, które zawierają poszukiwaną frazę (lub frazy - w zależności od wybranej opcji) w którymkolwiek miejscu w opisie bibliograficznym, który pojawia się na stronie www (np. nazwisko autora, tytuł publikacji, numer ISBN, rok wydania, nazwa wydawnictwa, w którym wydano publikację, kategoria publikacji w systemie SKEP, itp.).

System potrafi również przeszukiwać dołączone do opisów bibliograficznych pliki źródłowe (np. zapisane w formatach doc, ps, pdf).

Można podawać przedział lat, z których chcemy wyświetlić publikacje (chodzi o rok opublikowania dzieła).

Wyniki można wstępnie grupować wg roku opublikowania oraz według rodzaju publikacji.

Wreszcie można ustalić ile wyników ma być pokazywanych na jednej stronie. Do wyboru mamy wartości 10, 25, 50 lub 100.



Uwaga: Język polski ma charakter fleksyjny. Stąd, chcąc odnaleźć publikacje dotyczące np. kryptografii, lepiej wpisać frazę krypto% niż kryptografia. W drugim przypadku publikacje zawierające w opisie bibliograficznym takie słowa jak np. kryptograficzne lub kryptografii nie zostaną odnalezione. Bardzo przydatne w tym miejscu są znaki uogólniające, tzw. operatory (% "procent" oraz _ "podkreślnik"). Szczegóły patrz punkt 3.

System uwzględnia również polskie znaki diakrytyczne oraz jest nieuczuły na wielkość liter.

2. Opcje wyszukiwania


Przykład 1

Załóżmy, że w odpowiednich polach edycyjnych wpisane są następujące frazy:

z którymkolwiek ze słów
ze wszystkimi słowami Polska lubuskie
z wyrażeniem
bez słów Zielona Góra

Wówczas wyszukiwarka odnajdzie wszystkie publikacje, dla których spełnione jest podane niżej wyrażenie logiczne:

(Polska AND lubuskie) NOT Zielona NOT Góra


Przykład 2

Załóżmy, że w odpowiednich polach edycyjnych wpisane są następujące frazy:

z którymkolwiek ze słów Polska lubuskie
ze wszystkimi słowami
z wyrażeniem
bez słów Zielona Góra

Wówczas wyszukiwarka odnajdzie wszystkie publikacje, dla których spełnione jest podane niżej wyrażenie logiczne:

(Polska OR lubuskie) NOT Zielona NOT Góra

Ponieważ publikacji, gdzie w opisach bibliograficznych występuje fraza Polska LUB fraza lubuskie, jest bardzo dużo, to liczba odnalezionych pozycji jest też dosyć pokaźna. W przykładzie tym abstrahujemy od sensowności takiego akurat zapytania. Pokazujemy jedynie zasadę działania.

Oczywiście nie wszystkie pola edycyjne muszą być obowiązkowo wypełnione. Gdy pewne pola są puste system po prostu je pomija.

Przykład 3

Załóżmy, że w odpowiednich polach edycyjnych wpisana jest następująca fraza:

z którymkolwiek ze słów
ze wszystkimi słowami
z wyrażeniem Zeszyty Naukowe Uczelni
bez słów

Wówczas wyszukiwarka odnajdzie wszystkie publikacje zawierające dokładnie wpisane wyrażenie czyli frazę "Zeszyty Naukowe Uczelni". Wszystkie trzy wyrazy muszą więc występować w publikacji tak jak je wpisano czyli obok siebie z rozdzielającą je spacją.


Przykład 4

Podobny efekt uzyskamy wpisując podane powyżej wyrażenie bezpośrednio w polu edycyjnym opcji Skonstruuj wyrażenie logiczne. Podstawowa różnica jest taka, że w ramach tej opcji możemy dodatkowo użyć dostępnych tam operatorów (patrz punkt 3). Operatory te pozwalają bardziej precyzyjne skonstruować wyrażenie logiczne i tym samym otrzymać wyniki bardziej zbliżone do oczekiwanych. Poniższy przykład pokazuje jak to wygląda w praktyce:

Skonstruuj wyrażenie logiczne (Polska AND lubus%) NOT Zielona NOT Góra

W tym przypadku używając operatora % we frazie lubus% uwzględniliśmy ew. odmianę słowa lubuskie (lubuskiego, lubuska, lubuski, itp.). Ilość odnalezionych w bazie SKEP pozycji istotnie zwiekszyła się w porównaniu do ilości wyników z Przykładu 1.

Przykład 5

W praktyce pole Skonstruuj wyrażenie logiczne najczęściej wykorzystywane bywa do uwzlędniania odmiany języka polskiego. Poniższy przykład pokazuje jak odnaleźć publikacje zawierające w opisie bibliograficznym frazę elektron (czyli np. słowo elektronicznej, elektronicznych, itp). Wynik wyszukiwania ograniczamy ponadto do pozycji zakwalifikowanych w sytemie SKEP jako "Publikacja w wydawnictwie ciągłym w języku polskim lub innym niekongresowym z listy KBN", które oznaczane są tam kodem CIA-KBN.

Skonstruuj wyrażenie logiczne elektron% AND CIA-KBN



3. Operatory


W ramach opcji Skonstruuj wyrażenie logiczne można używać pewnych operatorów, które wzbogacają możliwości wyszukiwarki. Dzięki nim definiowane kryteria zapytań mogą być bardziej precyzyjne, a to z kolei pozwala otrzymywać wyniki możliwie jak najbardziej zbliżone do oczekiwanych. W poniższej tabeli zamieszczono krótki opis wspomnianych operatorów.

W pierwszej kolumnie zamieszczono podstawową formę operatora. W drugiej kolumnie natomiast podano możliwy do zastosowania zamiennik. Obie formy są całkowicie sobie równoważne.

Oparator Oparator alternatywny Opis Przykłady użycia
% Operator zastępuje dowolną ilość znaków. Może występować przed frazą, za nią lub w dowolnym miejscu pomiędzy. Ilość używanych znaków % może być dowolna. kowal%
stero%
g%cki
tran%ow%
_ Operator zastępuje dokładnie jeden znak. Może występować przed frazą, za nią lub w dowolnym miejscu pomiędzy. Ilość używanych znaków _ może być dowolna. tranzystor_
_cki
AND & Zwraca dokumenty, w których występują wszystkie frazy połączone tym operatorem. pies AND kot AND ptak
pies AND kot & ptak
OR | Zwraca dokumenty, w których występuje przynajmniej jedna z fraz połączonych tym operatorem. pies OR kot OR ptak
pies | kot OR ptak
NOT ~ Zwraca dokumenty, w których występuje pierwsza fraza i nie występuje druga fraza. pies NOT kot
pies ~kot
MINUS - Zwraca dokumenty, w których występuje pierwsza fraza. Przy czym wystąpienie drugiej frazy powoduje, że współczynnik trafień (ang. score) tego dokumenty staje się niższy (patrz niżej, punkt 5).

Operator ten jest przydatny, gdy istnieje konieczność zmniejszenia znaczenia fraz mających charakter "szumów informacyjnych".
pies MINUS owczarek
pies - owczarek
ACCUM , Operator ten jest podobny w działaniu do operatora OR. Różnica polega na tym, że wyższy współczynnik trafień otrzymują dokumenty, które zawierają wszystkie podane frazy. pies ACCUM kot
pies, kot

*

Operator wagi (ang. weight). pozwala na uprzywilejowanie wybranych fraz. Współczynnik trafień uzyskany dla danej frazy jest mnożona przez podaną wartość. Można podać liczbę w granicach od 0.1 do 10. Gdy w wyniku mnożenia otrzymamy liczbę większą niż 100, system zaokrągla wynik do liczby 100. pies * 10 AND kot
EQUIV = Operator ten pozwala zdefiniować zamiennik dla podanej frazy. Wyszukane zostaną również dokumenty zawierające tą drugą frazę (substytut). pies EQUIV owczarek OR kot
pies=owczarek OR kot
NEAR ; Operator daje wyższy współczynnik trafień dokumentom, w których szukane frazy występują bliżej siebie. piers NEAR kot
piers ; kot
> Operator progu zadziałania (ang. treshhold). Nie wyświetla tych dokumentów, których współczynnik trafień jest niższy niż podany jako parametr operatora.

Może działać na dwóch poziomach:

  • Dla całego wyrażenia. Wówczas nie są wyświetlane te dokumenty, których współczynnik trafień jest poniżej podanej wartości.
  • Dla wybranej frazy w wyrażeniu. Wówczas nie są wyświetlane te dokumenty, których współczynnik trafień dla podanej frazy jest poniżej podanej wartości.
(pies AND kot) > 10
pies > 10 AND kot > 20



4. Znaki grupujące


W kolejnej tabeli pokazano tzw. znaki grupujące.

Znaki grupujące Opis Przykłady użycia
( ) Grupuje frazy i operatory. Pozwala ustalić właściwą kolejność wykonywania.
Gdy nie używamy nawiasów okrągłych operatory wykonywane są w następującej kolejności:

EQUIV (=) NEAR (;) * MINUS (-) NOT (~) AND (&) OR ( | ) ACCUM (,)
(pies OR kot) AND ptak
{ } Pozwala grupować frazy w taki sposób, aby były traktowane jak jedna fraza.

W praktyce oznacza to, że wyszukiwarka poszukuje dokumentów zawierających wyrażenie w postaci dokładnie takiej, jak podano.

Gdy w podanym wyrażeniu występują znaki specjalne (jak np. MINUS, -, OR) są one traktowane jak normalne frazy.
{mam psa i kota}
{analysis and simulations}
{controllability and stability analysis}
{Litwo, Ojczyzno moja}
\ Pozwala "chwilowo" znieść specjalne znaczenie pewnych pojedynczych znaków.

Gdy przykładowo poszukujemy frazy "biało-czerwony" to chcielibyśmy, aby w tym momencie kreska rozdzielająca nie była potraktowana jak operator MINUS.

biało\-czerwony
AG\&JG



5. Współczynnik trafień dokumentów


Każdy zwracany dokument otrzymuje pewien umowny współczynnik trafień (ang. score) zależny od dwóch elementów:

  • ilości dokumentów zawierających poszukiwaną frazę (frazy),
  • ilości wystąpień poszukiwanej frazy (fraz) w dokumencie.

Wyszukiwarka stara się ustawiać zwracane wyniki tak, aby te, które otrzymały wyższy współczynnik trafień były wyświetlane jako pierwsze. Współczynnik trafień jest zawsze liczbą z zakresu od 0 do 100.

Użyty algorytm (ang. inverse frequency algoritm, tzw. formuła Saltona) przyjmuje, że frazy, które występują często w zbiorze dokumentów są elementami zakłócającymi i w związku z tym są one niżej oceniane (otrzymują niższy współczynnik trafień). Dla uzyskania wysokiego współczynnika trafień, poszukiwana fraza musi występować często w pojedynczym dokumencie, ale niezbyt często w całym zbiorze dokumentów.

Formuła Saltona ma postać:

w = 3f(1+log(N/n))


gdzie:

w - współczynnik trafień
f - ilość wystąpień poszukiwanej frazy w dokumencie
N- całkowita liczba dokumentów
n - liczba dokumentów, które zawierają przynajmniej jedno wystąpienie poszukiwanej frazy

Przykładowo załóżmy, że w zbiorze 10000 dokumentów z dziedziny informatyki fraza komputer występuje co najmniej raz w każdym z tych 10000 dokumentów. Fraza ta występuje więc często w tym zestawie. Następnie załóżmy, że w pewnym konkretnym dokumencie fraza komputer występuje 5 razy. W dokumencie tym występuje również fraza dyskietka (też 5 razy) i fraza ta nie występuje w żadnym innym dokumencie. Możemy więc powiedzieć, że fraza dyskietka występuje rzadko w całym zbiorze dokumentów. Po wstawieniu odpowiednich wartości do wzoru Saltona otrzymujemy, że dla dokumentu, który zawiera 5 razy frazę komputer współczynnik trafień wynosi: 3*5(1+log(10000/10000)) = 15 a dla dokumentu, który zawiera 5 razy frazę dyskietka współczynnik trafień wynosi: 3*5(1+log(10000/1)) = 75.

Ponieważ fraza komputer występuje często a fraza dyskietka rzadko, więc współczynnik trafień dokumentu w kontekście frazy komputer jest niższy niż współczynnik trafień tego dokumentu w kontekście frazy dyskietka. Zwróćmy uwagę, że wyznaczone współczynniki trafień są różne mimo tego, że obie frazy występują taką samą ilość razy (pięć) w badanym dokumencie.

Poniższa tabela pokazuje jaka ilość wystąpień danej frazy w dokumencie jest potrzebna, aby uzyskać współczynnik trafień 100. Zakładamy, że tylko jeden dokument w całym przeszukiwanym zbiorze zawiera poszukiwana frazę (tzn. we wzorze powyżej n=1).

Całkowita liczba dokumentów
(N)
Liczba wystąpień poszukiwanej frazy w danym dokumencie potrzebna do uzyskania współczynnika trafień równego 100
(f)
1 34
5 20
10 17
50 13
100 12
500 10
1000 9
10.000 7
100.000 5
1.000.000 4



Z powyższej tabeli można przykładowo odczytać, że gdy mamy tylko jeden dokument zawierający poszukiwaną frazę, musi ona wystąpić w nim aż 34 razy, aby system nadał dokumentowi współczynnik trafień 100.

Gdy natomiast dokumentów tych jest 1000, to aby system nadał dokumentowi współczynnik trafień 100 poszukiwana fraza musi wystąpić w nim tylko 9 razy.

Analogicznie, gdy mamy 1.000.000 dokumentów to już 4. krotne wystąpienie w nim poszukiwanej frazy nadaje dokumentowi współczynnik trafień 100.

W przypadku używania operatorów (patrz punkt 3) dany dokument otrzymuje współczynnik trafień według następujących zasad:

Operator Opis
AND Wynikowy współczynnik trafień obliczany jest jako najniższy współczynnik trafień spośród indywidualnych współczynników dla poszczególnych fraz. Gdy przykładowo dla wyrażenia "pies AND kot AND ptak" indywidualne współczynniki dla poszczególnych fraz wynoszą odpowiednio 10, 20, 30, cały dokument otrzymuje współczynnik 10.
OR Wynikowy współczynnik trafień obliczany jest jako najwyższy współczynnik trafień spośród indywidualnych współczynników dla poszczególnych fraz. Gdy przykładowo dla wyrażenia "pies OR kot OR ptak" indywidualne współczynniki dla poszczególnych fraz wynoszą odpowiednio 10, 20, 30, cały dokument otrzymuje współczynnik 30.
NOT Operator ten nie wpływa na współczynnik trafień dokumentu. Przykładowo, gdy dokument, gdzie poszukujemy frazy "pies" otrzyma współczynnik 20, to dokument z poszukiwaną frazą "pies NOT kot" również otrzyma współczynnik 20.
MINUS Wynikowy współczynnik trafień obliczany jest jako różnica współczynnika trafności pierwszej frazy oraz drugiej frazy. Zwracane są tylko dokumenty, w których różnica jest liczbą dodatnią.
EQUIV Wynikowy współczynnik trafień obliczany jest jako suma współczynników dla obu fraz połączonych tym operatorem.
ACCUM Operator ten określa współczynnik trafień biorąc pod uwagę dwa elementy:

  • wagi poszczególnych fraz (patrz operator "gwiazdka")
  • współczynniki trafności poszczególnych fraz

Przykładowo w wyrażeniu pies, kot * 5, ptak * 2 fraza pies ma wagę 1, fraza kot ma wagę 5 a fraza ptak 2. W powyższym przykładzie sumaryczna waga fraz wynosi więc 1+2+5=8.

Operator ACCUM gwarantuje, że jeżeli w dokumencie A występuje p fraz z sumaryczną wagą m oraz w dokumencie B występuje q fraz z sumarycznę wagą m+1 to dokument Bzawsze otrzyma wyższy współczynnik trafień niż dokument A niezależnie od wartości p oraz q.