Celem
niniejszego podręcznika jest przybliżenie zagadnienia naukowego
zwanego „rozpoznawaniem wzorców” [3, 5] oraz jego głównych
zastosowań w technice, którymi są systemy analizy obrazów
cyfrowych [6, 7, 10, 11] i sygnałów mowy [1, 2, 6, 8, 9],
stosunkowo szerokiej grupie studentów różnych kierunków studiów
– Informatyki, Automatyki i Robotyki, Optoelektroniki i Inżynierii
Biomedycznej. Podręcznik obejmuje materiał do wykładu i ćwiczeń.
W części wykładowej kładzie się nacisk na opisy funkcjonalne i
algorytmiczne metod analizy. W ramach ćwiczeń (Zadania) następuje
praktyczne opracowanie tych metod w drodze ich symulacji, z
wykorzystaniem przykładowych danych. Oba etapy przygotowują
studentów do samodzielnego wykonania projektu informatycznego,
którego celem jest implementacja programowa wybranego systemu
analizy obrazu lub mowy.
Ze
względu na duży zakres materiału konieczna była jego selekcja,
którą autor wykonał, wykorzystując trzy kryteria. Po pierwsze, w
naturalny sposób w ramach zagadnienia analizy sygnałów i obrazów
można wyróżnić trzy poziomy abstrakcji danych: poziom
przetwarzania sygnału, poziom segmentacji sygnału i rozpoznawania
obiektów oraz poziom rozumienia sygnału. Autor skoncentrował się
na pośrednim poziomie analizy (segmentacja sygnału i rozpoznawanie
obiektów), gdyż zagadnienia przetwarzania sygnału są przedmiotem
wielu podręczników, a poziom rozumienia sygnałów ma silny związek
z dziedziną „sztucznej inteligencji”.
Po
drugie ograniczone omawianie algorytmów rozpoznawania obiektów i
sekwencji słów, w zasadzie do statystycznej analizy względem
czasu, tzn. do analizy pojedynczych obiektów i do „wsadowej” (
nieiteracyjnej, niekontekstowej) analizy wycinków sygnału mowy.
Jedynym odstępstwem jest tu rozdz. 6, dotyczący sposobów detekcji
i estymacji ruchu w sekwencji obrazów. Tym samym pominięto analizę
danych obrazowych uzyskiwanych metodami stereowizji, dalmierzami
laserowymi. 3-wymiarowej tomografii i za pomocą innych
specjalizowanych urządzeń pomiarowych. W opinii autora ten obszar
analizy obrazów odpowiada specjalizowanym wykładom na temat
zastosowań wizji komputerowej w robotyce, w medycynie, w nawigacji
itd.
Po
trzecie, autor zdaje sobie sprawę z tego, że nawet w zakresie
rozpoznawania obiektów pominął pewne klasy algorytmów, jak np.:
morfologiczne metody przetwarzania obrazów, modelowanie analizy
metodami zbiorów rozmytych lub algorytmami genetycznymi. W tym
względzie, z uwagi na wymów spójności treści, zdecydowało
subiektywne odczucie autora o ogólności i skuteczności
prezentowanych algorytmów.
Materiał
został podzielony na trzy części zatytułowane: Rozpoznawanie
wzorców
[5, 10, 11], Rozpoznawanie
obrazów
i Rozpoznawanie
sygnałów mowy.
W
pierwsze części przedstawiono najpierw pojęcie wzorca, rodzaje
wzorców, procesy klasyfikacji prostych wzorców i rozpoznawania
złożonych wzorców [3, 5] (rozdz. 1). Następnie omówiono
zagadnienia transformacji przestrzeni cech metodami analizy
składowych głównych i liniowej analizy dyskryminacyjnej oraz
główne rodzaje klasyfikatorów (rozdz. 2).
W
drugiej części, dotyczącej zagadnień rozpoznawania obrazów [4 –
7], omawiana jest najpierw problematyka reprezentacji obrazów,
autokalibracji kamery i normowania obrazów (rozdz. 3). Następnie
przedstawiono metody segmentacji obrazu, wyznaczania cech tekstur
i
konturów (rozdz. 4), rozpoznawanie 2- wymiarowych i 3-wymiarowych
obiektów (rozdz. 5) oraz analizy sekwencji obrazów w celu detekcji
ruchu, śledzenia obiektów i autonomicznej nawigacji (rozdz. 6).
W
trzeciej części, dotyczącej rozpoznawania mowy, prezentowane są
zagadnienia [2, 8, 9]: reprezentacji cyfrowego sygnału mowy w
dziedzinie czasu i częstotliwości (rozdz. 7), przetwarzania i
detekcji sygnału mowy w sygnale akustycznym (rozdz.8), segmentacji
i wyznaczania cech sygnału mowy w dziedzinie czasu i
częstotliwości (rozdz. 9), modelowania akustyczno – fonetycznego
sygnału mowy (rozdz. 10), tworzenia statystycznego modelu słów i
rozpoznawania sekwencji słów (rozdz. 11).
Podrozdziały
z treścią o rozszerzającym charakterze oznaczono za pomocą znaku
(*). Literatura została podzielona na podstawową, zamieszczoną na
końcu podręcznika, i uzupełniającą, podawaną po kolejnych
rozdziałach.
Spis treści
- ROZPOZNAWANIE
WZORCÓW
Podstawy
rozpoznawania wzorców
Wprowadzenie
Pojęcie
wzorca
Paradygmaty
rozpoznawania wzorców
Analiza
cyfrowych obrazów
Analiza
sygnałów mowy
Statystyka
sygnału/obrazu cyfrowego
Próbkowanie
i digitalizacja sygnału analogowego
Wybrane
problemy optymalizacji
Zadania
Literatura
uzupełniająca
Klasyfikacja
prostych wzorców
Wprowadzenie
Przekształcenia
wzorca zależne od dziedziny (*)
Problem
klasyfikacji prostego wzorca
Klasyfikator
według funkcji potencjału
Klasyfikator
statystyczny Bayesa
Klasyfikator
według minimalnej odległości
Klasyfikator
„według k
sąsiadów”
Maszyna
wektorów wspierających SVM (*)
Klasyfikacja
neuronowa
Zadania
Literatura
uzupełniająca
ROZPOZNAWANIE
OBRAZÓW
Reprezentacja
obrazu cyfrowego
Akwizycja
obrazu dla 3-wymiarowej sceny
Wewnętrzna
reprezentacja obrazu
Zewnętrzna
reprezentacja obrazu
Zadania
Literatura
uzupełniająca
Segmentacja
obrazu i detekcja cech
Przekształcenia
początkowe obrazu
Obraz
krawędziowy
Segmenty
liniowe
Przekształcenia
Hougha
Obszary
jednorodne obrazu
Tekstura
w obrazie
2-wymiarowe
kształty
Zadania
Literatura
uzupełniająca
Rozpoznawanie
2- i 3-wymiarowych obiektów
Sekwencja
wzorców i programowanie dynamiczne
Rozpoznawanie
znanego obiektu sztywnego
Przeszukiwanie
przestrzeni rozwiązań
Rozpoznawanie
3-wymiarowego obiektu o parametrycznym modelu (*)
Zadania
Literatura
uzupełniająca
Estymacja
w ruchu w sekwencji obrazów
Wprowadzenie
Detekcja
i estymacja ruchu w obrazie
Optyczny
potok
Ruch
dyskretnych cech obrazu
Zadania
Literatura
uzupełniająca
ROZPOZNAWANIE
SYGNAŁÓW MOWY
Reprezentacja
sygnału mowy
Reprezentacja
cyfrowego sygnału mowy
Układ
słuchu człowieka
Transformata
Fouriera
Transformata
falkowa (*)
Zewnętrzna
reprezentacja cyfrowego dźwięku
Zadania
Literatura
uzupełniająca
Detekcja
sygnału mowy
Usuwanie
szumu i normowanie sygnału mowy
Cechy
sygnału w dziedzinie czasu
Zadania
Literatura
uzupełniająca
Wyznaczanie
cech sygnału mowy
Cechy
mel-cepstralne sygnału mowy
Cechy
według liniowej predykcji (LPC)
Klasyfikacja
cech ramki
Częstotliwość
podstawowa mówcy
Zadania
Literatura
uzupełniająca
Akustyczno-fonetyczny
model mowy
Fonetyczne
kategorie dźwięków
Typowe
spektrogramy dla grup fonemów
Dekompozycja
fonemu zależna od kontekstu
Zadania
Literatura
uzupełniająca
Akustyczno-fonetyczny
model mowy
Wprowadzenie
Metoda
„marszczenia czasu”
Rozpoznawanie
jako statystyczne wnioskowanie
Przeszukiwanie
Viterbiego
Uczenie
modelu HMM (*)
Zadania
Literatura
uzupełniająca
Literatura
podstawowa
Skorowidz