Jestem jak Fin, czyli słowo o języku angielskim

Języ­ka angiel­skie­go uczę się od wie­lu lat. W dzi­siej­szych cza­sach jego zna­jo­mość jest bez­dy­sku­syj­nie przy­dat­na, a czę­sto wręcz wyma­ga­na. Więk­szość mło­dych Pola­ków uczy lub uczy­ła się tego języ­ka na róż­ne spo­so­by w swo­im życiu. W szko­le kła­dzie się naj­więk­szy nacisk na zna­jo­mość zasad języ­ka — gra­ma­ty­ki, popraw­nej orto­gra­fii i wymo­wy. Jed­nak przy for­mu­ło­wa­niu myśli w tym języ­ku poja­wia­ją się pro­ble­my. Ja mia­łem sto­sun­ko­wo nie­wie­le do czy­nie­nia z tym języ­kiem na co dzień w mowie. Wię­cej — w piśmie, szcze­gól­nie korzy­sta­jąc z Inter­ne­tu. Dla­te­go nie mam pro­ble­mu z popraw­nym pisa­niem po angiel­sku, czy też ze zro­zu­mie­niem arty­ku­łów, któ­re czy­tam.
Ostat­nio, pró­bu­jąc uczyć się pod­staw języ­ka fiń­skie­go, natra­fi­łem na cie­ka­wy arty­kuł, napi­sa­ny przez Fina, a doty­czą­cy zna­jo­mo­ści języ­ka angiel­skie­go przez Finów. Pisze on:

„(…) in a typi­cal conver­sa­tion betwe­en people from dif­fe­rent nations, the Finn is still try­ing to for­mu­la­te his first gram­ma­ti­cal­ly cor­rect sen­ten­ce when others have chan­ged the topic a few times”,

czy­li:

„(…) w typo­wej roz­mo­wie mię­dzy ludź­mi o róż­nej naro­do­wo­ści, Fin jesz­cze cią­gle skła­da swo­je pierw­sze gra­ma­tycz­nie popraw­ne zda­nie, pod­czas gdy inni zdą­ży­li już zmie­nić temat wie­le razy”.

To zda­nie dosko­na­le odda­je to, co czu­ję pod­czas roz­mów po angiel­sku. Jest to o tyle waż­ne, że ten język jest w mojej pra­cy pod­sta­wo­wym języ­kiem komu­ni­ka­cji z pra­cow­ni­ka­mi z innych kra­jów, a takie kon­tak­ty są czę­ste.
Podo­bieństw mię­dzy Pola­ka­mi i Fina­mi w kwe­stii nauki języ­ków jest spo­ro. Nacisk na popraw­ność gra­ma­tycz­ną, na popraw­ność (mniej wię­cej) wymo­wy. Mamy też wyra­zy, tzw. „fal­se friends”, któ­re brzmią podob­nie w angiel­skim, jak i w polskim/fińskim, ale zna­czą coś inne­go. Jed­nak zde­cy­do­wa­nie lepiej jest u Finów z osłu­cha­niem się języ­ka angiel­skie­go. Przede wszyst­kim, fil­my w tele­wi­zji są tam nada­wa­ne w ory­gi­na­le, z pod­pi­sa­mi. W Pol­sce nie­ste­ty jest to cią­gle wyjąt­kiem.

Jeśli chce­cie wie­dzieć wię­cej — zaj­rzyj­cie na wyżej zlin­ko­wa­ną stro­nę.

Język (nie do końca) rozpoznawalny

praca magisterskaW ponie­dzia­łek, 15 wrze­śnia 2008 roku, zakoń­czy­łem ofi­cjal­nie pisa­nie pra­cy magi­ster­skiej i zło­ży­łem ją w dzie­ka­na­cie. Jako, że nie wszy­scy wie­dzą o czym pisa­łem, posta­ram się przed­sta­wić krót­ko całą histo­rię.

Gdy pół­to­ra roku temu zaczą­łem się zasta­na­wiać na poważ­nie nad tema­tem pra­cy, mia­łem kil­ka spre­cy­zo­wa­nych punk­tów, według któ­rych chcia­łem sobie dobrać temat. Moją spe­cjal­no­ścią jest inży­nie­ria opro­gra­mo­wa­nia, ale w tej dzie­dzi­nie dowol­ny temat pra­cy wyda­wał mi się mało inte­re­su­ją­cy. Posta­no­wi­łem pra­cę pisać w innym insty­tu­cie, a mia­no­wi­cie w Insty­tu­cie Sztucz­nej Inte­li­gen­cji i Metod Mate­ma­tycz­nych. Mia­łem nawet kon­kret­nie wybra­ne­go pro­mo­to­ra, u któ­re­go chcia­łem pisać. Pod­sze­dłem do wybo­ru tema­tu dość ambit­nie. Wybór cze­goś łatwe­go i odtwór­cze­go mnie zupeł­nie nie prze­ko­ny­wał. W koń­cu ma to być moja pierw­sza publi­ka­cja nauko­wa z praw­dzi­we­go zda­rze­nia. Dla­cze­go więc nie połą­czyć kil­ku dzie­dzin, któ­re mnie inte­re­su­ją? Z racji wybra­nej spe­cjal­no­ści, głów­nym zada­niem w pra­cy mia­ło być stwo­rze­nie pro­gra­mu. Chcia­łem napi­sać pro­gram, dzię­ki któ­re­mu prze­pro­wa­dził­bym bada­nia, któ­rych wyni­ki mogą się real­nie przy­dać, a jed­no­cze­śnie sam pro­gram mógł być roz­wo­jo­wy. Wyko­rzy­sty­wał­by sie­ci neu­ro­no­we do kla­sy­fi­ka­cji cze­goś zwią­za­ne­go z dźwię­kiem. Na począt­ku myśla­łem o roz­po­zna­wa­niu sty­lu muzycz­ne­go bada­ne­go utwo­ru. Jed­nak kla­sy­fi­ka­cja gatun­ków muzycz­nych jest na tyle trud­na dla czło­wie­ka, że kom­pu­ter tym bar­dziej nie będzie w sta­nie sobie z tym pora­dzić. Popro­si­łem więc pro­mo­to­ra o pomoc w wymy­śle­niu tema­tu w sam raz dla mnie. I pro­mo­tor wymy­ślił:

„Zasto­so­wa­nie sztucz­nych sie­ci neu­ro­no­wych do roz­po­zna­wa­nia języ­ka mówią­cej oso­by”

Temat spodo­bał mi się od same­go począt­ku. Wow! Zaj­mę się roz­po­zna­wa­niem języ­ków :-). Oprócz dzie­dzin zwią­za­nych z dźwię­kiem, sztucz­ną inte­li­gen­cją i pro­gra­mo­wa­niem, mogę się zająć też bar­dzo inte­re­su­ją­cą mnie dzie­dzi­ną — języ­ko­znaw­stwem. Cho­ciaż w ogra­ni­czo­nym stop­niu. Do tema­tu nie mia­łem żad­nych zastrze­żeń, więc taki wła­śnie został ofi­cjal­nie przy­ję­ty.

Jako raso­wy pro­kra­sty­na­tor, na poważ­nie zają­łem się pra­cą dopie­ro w ostat­nim seme­strze ;-). Wcze­śniej bar­dzo powo­li gro­ma­dzi­łem lite­ra­tu­rę, na któ­rej mógł­bym się oprzeć. Jed­nak lite­ra­tu­ry takiej nie ma. Musia­łem się oprzeć na kil­ku anglo­ję­zycz­nych arty­ku­łach nauko­wych, trak­tu­ją­cych kon­kret­nie o tema­cie roz­po­zna­wa­nia języ­ka. Resz­ta lite­ra­tu­ry to publi­ka­cje o ana­li­zie i syn­te­zie dźwię­ku czy ogól­ne o samych sie­ciach neu­ro­no­wych. W dodat­ku publi­ka­cji o iden­ty­fi­ka­cji języ­ka, w języ­ku pol­skim, nie zna­la­złem żad­nych. Dobrze, że oprócz pro­mo­to­ra zna­ją­ce­go się na sie­ciach neu­ro­no­wych, mia­łem też do kogo się zwró­cić w tema­cie samej ana­li­zy dźwię­ku. Pani Ania dużo mi pomo­gła — dzię­ki niej opra­co­wa­łem naj­waż­niej­szą część pra­cy, czy­li meto­dę eks­trak­cji cech gło­su, któ­ry­mi potem mia­łem uczyć sieć neu­ro­no­wą.

Sama meto­da powsta­ła i zosta­ła prze­te­sto­wa­na w Matla­bie jesz­cze przed waka­cja­mi. Zdą­ży­łem jesz­cze tyl­ko napi­sać roz­dzia­ły teo­re­tycz­ne i prze­su­nąć ter­min odda­nia pra­cy na wrze­sień. Waka­cje upły­nę­ły mi na pisa­niu całe­go pro­gra­mu w C++ (jakieś 20% cza­su) i jego testo­wa­niu (80% cza­su, bo prze­cież nic nie może dobrze dzia­łać za pierw­szym razem ;-)). Gdy po bólach pro­gram już powstał, prze­pro­wa­dzi­łem za jego pomo­cą bada­nia. Wresz­cie mogłem spraw­dzić jak się spra­wu­je moje dziec­ko :-).

Bada­nia były prze­pro­wa­dzo­ne na prób­kach zdań w 6 języ­kach: pol­skim, angiel­skim, nie­miec­kim, wło­skim, hisz­pań­skim i rosyj­skim. Przy­go­to­wa­łem po 21 zdań w każ­dym z tych języ­ków i zaprzę­głem syn­te­za­to­ry mowy, żeby wyge­ne­ro­wa­ły mi zda­nia z popraw­ną wymo­wą. Dodat­ko­wo, przy­go­to­wa­łem prób­ki mowy żywe­go czło­wie­ka dla języ­ka pol­skie­go, angiel­skie­go i rosyj­skie­go. Zapo­wia­da­ło się cie­ka­wie… ale wyni­ki badań mnie nie­co roz­cza­ro­wa­ły. Przy ucze­niu wszyst­kich 6 języ­ków na raz, jakość roz­po­zna­wa­nia była bar­dzo niska. Od 20 do 50%. Z cze­go naj­go­rzej sieć roz­po­zna­wa­ła… język angiel­ski. Naj­le­piej za to wło­ski. Wło­ski prak­tycz­nie wygry­wał w każ­dej kon­fi­gu­ra­cji. Naj­le­piej był roz­po­zna­wal­ny (i to w pra­wie 85%) przy zesta­wie 3 języ­ków — pol­skim, wło­skim i hisz­pań­skim. Nie zdzi­wi­ło mnie to. Jeśli zna­cie melo­dię języ­ka wło­skie­go (a mój pro­gram wła­śnie ana­li­zu­je melo­dię wypo­wia­da­nych zdań), to wie­cie, że każ­de zda­nie koń­czy się sko­kiem into­na­cji od dźwię­ku wyż­sze­go do niż­sze­go. Co wię­cej ‑bada­nia na prób­kach żywej ludz­kiej mowy wypa­dły nie­co gorzej niż na prób­kach syn­te­tycz­nych.

Czy więc ponio­słem klę­skę? W żad­nym wypad­ku! Wycią­gną­łem wnio­ski, któ­re pozwo­lą mi na udo­sko­na­le­nie algo­ryt­mu i prze­pro­wa­dze­nie kolej­nych badań. Na pew­no nie porzu­cę tego co zaczą­łem. A świa­do­mość tego, że moja publi­ka­cja jest chy­ba jedy­ną taką w języ­ku pol­skim, moty­wu­je mnie dodat­ko­wo. W koń­cu inter­fej­sy gło­so­we za kil­ka lat sta­ną się bar­dzo popu­lar­ne, a ja two­rzę pewien waż­ny wyci­nek tego, co w tych inter­fej­sach będzie imple­men­to­wa­ne. Napi­sa­łem przy­zwo­itą pra­cę, z któ­rej jestem zado­wo­lo­ny i któ­ra roku­je na przy­szłość. Jesz­cze cze­ka mnie obro­na na począt­ku paź­dzier­ni­ka i wte­dy będę mógł ode­tchnąć :-). I z pew­no­ścią po obro­nie opi­szę bar­dziej szcze­gó­ło­wo wyni­ki badań, a tak­że opu­bli­ku­ję swo­ją pra­cę w inter­ne­cie.

Mam nadzie­ję, że Was nie zanu­dzi­łem, i że kogoś inne­go oprócz mnie też to zain­te­re­so­wa­ło. W razie cze­go — pytaj­cie w komen­ta­rzach. Chęt­nie odpo­wiem 🙂

Ortograficzna masakra

Będąc inter­nau­tą od ponad 8 lat, na co dzień mam kon­takt z ludź­mi z całe­go kra­ju. Z róż­nych regio­nów, w róż­nym wie­ku, zaj­mu­ją­cych się róż­ny­mi pro­fe­sja­mi. W więk­szo­ści są to ludzie mło­dzi — stu­den­ci, a cza­sem ucznio­wie. Każ­dy inter­nau­ta ma tak­że pośred­ni kon­takt z inny­mi bio­rąc udział w dys­ku­sjach w Use­ne­cie czy też na forach. Zauwa­ży­li­ście jak więk­szość pol­skich inter­nau­tów pisze po pol­sku?

Na pierw­szy ogień pój­dzie orto­gra­fia. Nie jest to moc­na stro­na inter­nau­tów. Pomi­jam już fakt pomi­ja­nia pol­skich zna­ków dia­kry­tycz­nych (co jest coraz rzad­sze wśród mło­dych), ale „żeby” nie pisze się przez „rz”. Dosyć strasz­nie wyglą­da­ją wyni­ki z pew­ne­go zapy­ta­nia w googlach — „(…) spo­śród oko­ło 654,000 dla zapy­ta­nia wogu­le”. W takich wyni­kach kró­lu­ją oczy­wi­ście komen­ta­rze z róż­nych ser­wi­sów, fora dys­ku­syj­ne oraz blo­gi — tam, gdzie jest naj­wię­cej mło­dzie­ży. Jesz­cze kil­ka lat temu pięt­no­wa­no takie pisa­nie, szcze­gól­nie w Use­ne­cie. Teraz — pięt­nu­ją­cych jest zbyt mało jak na ogrom dysor­to­gra­fi­ków. Każ­dy z nich oczy­wi­ście jest w sta­nie poświad­czyć to kwit­kiem z porad­ni. Kwit­kiem pro­pa­gu­ją­cym leni­stwo języ­ko­we. Po co na lek­cjach pol­skie­go dyk­tan­da, sko­ro i tak poło­wa uczniów ma teraz takie zaświad­cze­nie?

Secun­do — inter­punk­cja. To, moim zda­niem, naj­więk­sza zmo­ra inter­nau­tów. Napi­sa­nie jed­ne­go zda­nia bez żad­nych zna­ków prze­stan­ko­wych jesz­cze od bie­dy moż­na znieść. Ale napi­sa­nie całe­go posta na forum czy też blo­gu, skła­da­ją­ce­go się z wie­lu zdań, jed­nym cią­giem? Masa­kra! Jeśli pró­bo­wa­li­ście kie­dyś prze­czy­tać taki wpis — wie­cie o czym mówię.

Czy wogu­le sa tu jacys chło­pa­cy bo ja tak to mam do nich pyta­nie zna­czy do was czy wy lubi­cie pla­sti­ko­we lal­ki bar­bie z tip­sa­mi z głu­pia gadt­ka i z kilo­gra­mem tape­ty na gębie pytam sie tak z cie­ka­wo­sci

Po trze­cie — pisa­nie pseu­do­slan­giem. Czy też zauwa­ży­li­ście, że inter­net ostat­nio jest pełen swe­eeeet zio­ma­li, kof­fa­nych pshy­ja­cio­oł i innych smo­ków wawel­skich? Tak, oto przy­szłość nasze­go naro­du! Może ktoś kie­dyś napi­sze na ten temat pra­cę dyplo­mo­wą?

Na koniec zosta­wiam pereł­kę:

Hey moooOye słJ­tha­śNe looodzJ­sqA! Wjem, JsH DAw­no nJe pJsau­AM, za co FAS bar­DZo, baRdZ psHe­pra­Aasham. Na peF­F­no TEn­sQnN­njLj­ś­cJE, Ay NOł DaTh (ale shpAn NJe? Ingljsh zJo­OOom).

W sHQo­OouC Spox, moYA śReDn­JA tho 5.2. CjE­sHY­THa sJem pra­af­fdA MOye QOff­fA­Ne ZJo­mo­oOSje.
ALE, Jaq wjA­dO­mO Oce­nq NjE soM NAy­wa­shn­je­eeeEy­sheE. WasH­NIeYSh SOm sprA­fY­y­Yy sER­Do­oOShqOf­Fe, o tAQ, tHaQ, JA jeSTeM pAan Tjq-TTTAq, a zEeeGAr tho muy ZnaQ. Ło thaq, BBbb­BAR­dZO­Oo lllo­ooOBbb­bJam ThO­OOO OGloN­dAć.
ALlll­Le­Ee DO sed­na SprA­wY psHEFF­fo­Dzonc.…. Z Dawe­edQjeM cora­AAZ dzJwN­JeY. CzY­shbb on mnjEe ooOOn­jQAł? NJE­Da­aaaaf­F­No FfF­cja­łAm moooo poDa­aaaro­wAććć F prE­sEN­Cje QfJo­tqj, QtóR ZeeEEerF­fau­AmMmM fFF mOJM ogró­Dq„ OTshy­YwJ­ś­cjE z QoshO­NQam i zJeM­joN„„, a On mYy na tHo pOwJe­dzJał, sHE ooooofsHe­Eem, bard­DZo SjEm cje­sHy, alE pre­senTH nje mOshE psHy­Y­onć. I jaqoś THAq… pOLA­sU gdzjEśśśśś sOOby i JOosH gggg­go­OOoo nJE fjdZJA­łaM. ŁEeeEeee.……
Mammm thE­rAS Doło­ooOSja­aaaa co jestH bAr­dZo nIe słj­thA­śNe i źLe rOB na ceReN. NaAaa dooof­FO­ooo pod­Th­Shy­Mo­Ooy­Om mnje jEdyn­jE WaSH sujt QoOooMm­MEn­tHA­aShYKj.
DzJE­Nqy­eM WaM z cAłE­GO seR­do­osHqa!

Jakiś komen­tarz? Bo mi powo­li wszyst­ko opa­da…