Jestem jak Fin, czyli słowo o języku angielskim

Języka angielskiego uczę się od wielu lat. W dzisiejszych czasach jego znajomość jest bezdyskusyjnie przydatna, a często wręcz wymagana. Większość młodych Polaków uczy lub uczyła się tego języka na różne sposoby w swoim życiu. W szkole kładzie się największy nacisk na znajomość zasad języka – gramatyki, poprawnej ortografii i wymowy. Jednak przy formułowaniu myśli w tym języku pojawiają się problemy. Ja miałem stosunkowo niewiele do czynienia z tym językiem na co dzień w mowie. Więcej – w piśmie, szczególnie korzystając z Internetu. Dlatego nie mam problemu z poprawnym pisaniem po angielsku, czy też ze zrozumieniem artykułów, które czytam.
Ostatnio, próbując uczyć się podstaw języka fińskiego, natrafiłem na ciekawy artykuł, napisany przez Fina, a dotyczący znajomości języka angielskiego przez Finów. Pisze on:

„(…) in a typical conversation between people from different nations, the Finn is still trying to formulate his first grammatically correct sentence when others have changed the topic a few times”,

czyli:

„(…) w typowej rozmowie między ludźmi o różnej narodowości, Fin jeszcze ciągle składa swoje pierwsze gramatycznie poprawne zdanie, podczas gdy inni zdążyli już zmienić temat wiele razy”.

To zdanie doskonale oddaje to, co czuję podczas rozmów po angielsku. Jest to o tyle ważne, że ten język jest w mojej pracy podstawowym językiem komunikacji z pracownikami z innych krajów, a takie kontakty są częste.
Podobieństw między Polakami i Finami w kwestii nauki języków jest sporo. Nacisk na poprawność gramatyczną, na poprawność (mniej więcej) wymowy. Mamy też wyrazy, tzw. „false friends”, które brzmią podobnie w angielskim, jak i w polskim/fińskim, ale znaczą coś innego. Jednak zdecydowanie lepiej jest u Finów z osłuchaniem się języka angielskiego. Przede wszystkim, filmy w telewizji są tam nadawane w oryginale, z podpisami. W Polsce niestety jest to ciągle wyjątkiem.

Jeśli chcecie wiedzieć więcej – zajrzyjcie na wyżej zlinkowaną stronę.

Język (nie do końca) rozpoznawalny

praca magisterskaW poniedziałek, 15 września 2008 roku, zakończyłem oficjalnie pisanie pracy magisterskiej i złożyłem ją w dziekanacie. Jako, że nie wszyscy wiedzą o czym pisałem, postaram się przedstawić krótko całą historię.

Gdy półtora roku temu zacząłem się zastanawiać na poważnie nad tematem pracy, miałem kilka sprecyzowanych punktów, według których chciałem sobie dobrać temat. Moją specjalnością jest inżynieria oprogramowania, ale w tej dziedzinie dowolny temat pracy wydawał mi się mało interesujący. Postanowiłem pracę pisać w innym instytucie, a mianowicie w Instytucie Sztucznej Inteligencji i Metod Matematycznych. Miałem nawet konkretnie wybranego promotora, u którego chciałem pisać. Podszedłem do wyboru tematu dość ambitnie. Wybór czegoś łatwego i odtwórczego mnie zupełnie nie przekonywał. W końcu ma to być moja pierwsza publikacja naukowa z prawdziwego zdarzenia. Dlaczego więc nie połączyć kilku dziedzin, które mnie interesują? Z racji wybranej specjalności, głównym zadaniem w pracy miało być stworzenie programu. Chciałem napisać program, dzięki któremu przeprowadziłbym badania, których wyniki mogą się realnie przydać, a jednocześnie sam program mógł być rozwojowy. Wykorzystywałby sieci neuronowe do klasyfikacji czegoś związanego z dźwiękiem. Na początku myślałem o rozpoznawaniu stylu muzycznego badanego utworu. Jednak klasyfikacja gatunków muzycznych jest na tyle trudna dla człowieka, że komputer tym bardziej nie będzie w stanie sobie z tym poradzić. Poprosiłem więc promotora o pomoc w wymyśleniu tematu w sam raz dla mnie. I promotor wymyślił:

„Zastosowanie sztucznych sieci neuronowych do rozpoznawania języka mówiącej osoby”

Temat spodobał mi się od samego początku. Wow! Zajmę się rozpoznawaniem języków :-). Oprócz dziedzin związanych z dźwiękiem, sztuczną inteligencją i programowaniem, mogę się zająć też bardzo interesującą mnie dziedziną – językoznawstwem. Chociaż w ograniczonym stopniu. Do tematu nie miałem żadnych zastrzeżeń, więc taki właśnie został oficjalnie przyjęty.

Jako rasowy prokrastynator, na poważnie zająłem się pracą dopiero w ostatnim semestrze ;-). Wcześniej bardzo powoli gromadziłem literaturę, na której mógłbym się oprzeć. Jednak literatury takiej nie ma. Musiałem się oprzeć na kilku anglojęzycznych artykułach naukowych, traktujących konkretnie o temacie rozpoznawania języka. Reszta literatury to publikacje o analizie i syntezie dźwięku czy ogólne o samych sieciach neuronowych. W dodatku publikacji o identyfikacji języka, w języku polskim, nie znalazłem żadnych. Dobrze, że oprócz promotora znającego się na sieciach neuronowych, miałem też do kogo się zwrócić w temacie samej analizy dźwięku. Pani Ania dużo mi pomogła – dzięki niej opracowałem najważniejszą część pracy, czyli metodę ekstrakcji cech głosu, którymi potem miałem uczyć sieć neuronową.

Sama metoda powstała i została przetestowana w Matlabie jeszcze przed wakacjami. Zdążyłem jeszcze tylko napisać rozdziały teoretyczne i przesunąć termin oddania pracy na wrzesień. Wakacje upłynęły mi na pisaniu całego programu w C++ (jakieś 20% czasu) i jego testowaniu (80% czasu, bo przecież nic nie może dobrze działać za pierwszym razem ;-)). Gdy po bólach program już powstał, przeprowadziłem za jego pomocą badania. Wreszcie mogłem sprawdzić jak się sprawuje moje dziecko :-).

Badania były przeprowadzone na próbkach zdań w 6 językach: polskim, angielskim, niemieckim, włoskim, hiszpańskim i rosyjskim. Przygotowałem po 21 zdań w każdym z tych języków i zaprzęgłem syntezatory mowy, żeby wygenerowały mi zdania z poprawną wymową. Dodatkowo, przygotowałem próbki mowy żywego człowieka dla języka polskiego, angielskiego i rosyjskiego. Zapowiadało się ciekawie… ale wyniki badań mnie nieco rozczarowały. Przy uczeniu wszystkich 6 języków na raz, jakość rozpoznawania była bardzo niska. Od 20 do 50%. Z czego najgorzej sieć rozpoznawała… język angielski. Najlepiej za to włoski. Włoski praktycznie wygrywał w każdej konfiguracji. Najlepiej był rozpoznawalny (i to w prawie 85%) przy zestawie 3 języków – polskim, włoskim i hiszpańskim. Nie zdziwiło mnie to. Jeśli znacie melodię języka włoskiego (a mój program właśnie analizuje melodię wypowiadanych zdań), to wiecie, że każde zdanie kończy się skokiem intonacji od dźwięku wyższego do niższego. Co więcej -badania na próbkach żywej ludzkiej mowy wypadły nieco gorzej niż na próbkach syntetycznych.

Czy więc poniosłem klęskę? W żadnym wypadku! Wyciągnąłem wnioski, które pozwolą mi na udoskonalenie algorytmu i przeprowadzenie kolejnych badań. Na pewno nie porzucę tego co zacząłem. A świadomość tego, że moja publikacja jest chyba jedyną taką w języku polskim, motywuje mnie dodatkowo. W końcu interfejsy głosowe za kilka lat staną się bardzo popularne, a ja tworzę pewien ważny wycinek tego, co w tych interfejsach będzie implementowane. Napisałem przyzwoitą pracę, z której jestem zadowolony i która rokuje na przyszłość. Jeszcze czeka mnie obrona na początku października i wtedy będę mógł odetchnąć :-). I z pewnością po obronie opiszę bardziej szczegółowo wyniki badań, a także opublikuję swoją pracę w internecie.

Mam nadzieję, że Was nie zanudziłem, i że kogoś innego oprócz mnie też to zainteresowało. W razie czego – pytajcie w komentarzach. Chętnie odpowiem 🙂

Ortograficzna masakra

Będąc internautą od ponad 8 lat, na co dzień mam kontakt z ludźmi z całego kraju. Z różnych regionów, w różnym wieku, zajmujących się różnymi profesjami. W większości są to ludzie młodzi – studenci, a czasem uczniowie. Każdy internauta ma także pośredni kontakt z innymi biorąc udział w dyskusjach w Usenecie czy też na forach. Zauważyliście jak większość polskich internautów pisze po polsku?

Na pierwszy ogień pójdzie ortografia. Nie jest to mocna strona internautów. Pomijam już fakt pomijania polskich znaków diakrytycznych (co jest coraz rzadsze wśród młodych), ale „żeby” nie pisze się przez „rz”. Dosyć strasznie wyglądają wyniki z pewnego zapytania w googlach – „(…) spośród około 654,000 dla zapytania wogule„. W takich wynikach królują oczywiście komentarze z różnych serwisów, fora dyskusyjne oraz blogi – tam, gdzie jest najwięcej młodzieży. Jeszcze kilka lat temu piętnowano takie pisanie, szczególnie w Usenecie. Teraz – piętnujących jest zbyt mało jak na ogrom dysortografików. Każdy z nich oczywiście jest w stanie poświadczyć to kwitkiem z poradni. Kwitkiem propagującym lenistwo językowe. Po co na lekcjach polskiego dyktanda, skoro i tak połowa uczniów ma teraz takie zaświadczenie?

Secundo – interpunkcja. To, moim zdaniem, największa zmora internautów. Napisanie jednego zdania bez żadnych znaków przestankowych jeszcze od biedy można znieść. Ale napisanie całego posta na forum czy też blogu, składającego się z wielu zdań, jednym ciągiem? Masakra! Jeśli próbowaliście kiedyś przeczytać taki wpis – wiecie o czym mówię.

Czy wogule sa tu jacys chłopacy bo ja tak to mam do nich pytanie znaczy do was czy wy lubicie plastikowe lalki barbie z tipsami z głupia gadtka i z kilogramem tapety na gębie pytam sie tak z ciekawosci

Po trzecie – pisanie pseudoslangiem. Czy też zauważyliście, że internet ostatnio jest pełen sweeeeet ziomali, koffanych pshyjaciooł i innych smoków wawelskich? Tak, oto przyszłość naszego narodu! Może ktoś kiedyś napisze na ten temat pracę dyplomową?

Na koniec zostawiam perełkę:

Hey moooOye słJthaśNe looodzJsqA! Wjem, JsH DAwno nJe pJsauAM, za co FAS barDZo, baRdZ psHepraAasham. Na peFFno TEnsQnNnjLjścJE, Ay NOł DaTh (ale shpAn NJe? Ingljsh zJoOOom).

W sHQoOouC Spox, moYA śReDnJA tho 5.2. CjEsHYTHa sJem praaffdA MOye QOfffANe ZJomooOSje.
ALE, Jaq wjAdOmO Ocenq NjE soM NAywashnjeeeeEysheE. WasHNIeYSh SOm sprAfYyYy sERDooOShqOfFe, o tAQ, tHaQ, JA jeSTeM pAan Tjq-TTTAq, a zEeeGAr tho muy ZnaQ. Ło thaq, BBbbBARdZOOo llloooOBbbbJam ThOOOO OGloNdAć.
ALlllLeEe DO sedna SprAwY psHEFFfoDzonc….. Z DaweedQjeM coraAAZ dzJwNJeY. CzYshbb on mnjEe ooOOnjQAł? NJEDaaaaafFNo FfFcjałAm moooo poDaaaarowAććć F prEsENCje QfJotqj, QtóR ZeeEEerFfauAmMmM fFF mOJM ogróDq,, OTshyYwJścjE z QoshONQam i zJeMjoN,,,,, a On mYy na tHo pOwJedzJał, sHE ooooofsHeEem, bardDZo SjEm cjesHy, alE presenTH nje mOshE psHyYonć. I jaqoś THAq… pOLAsU gdzjEśśśśś sOOby i JOosH gggggoOOoo nJE fjdZJAłaM. ŁEeeEeee…….
Mammm thErAS DołoooOSjaaaaa co jestH bArdZo nIe słjthAśNe i źLe rOB na ceReN. NaAaa dooofFOooo podThShyMoOoyOm mnje jEdynjE WaSH sujt QoOooMmMEntHAaShYKj.
DzJENqyeM WaM z cAłEGO seRdoosHqa!

Jakiś komentarz? Bo mi powoli wszystko opada…