analiza morfologiczna

analiza morfologiczna


Widzisz archiwalną wersję wątku "analiza morfologiczna" z forum pl.sci.ai




Pawe
15 Wrz 2004, 16:52
Witam.
Jaka jest najwydajniejsza metoda analizy czesci mowy (w szczegolnosci dla
jezyka polskiego). Jaka jest jej "skutecznosc" ? Metody statystyczne maja
chyba w wiekszosci < 100% poprawnosci.
Widzialem dwa ciekawe podejscia - zbiory regul, wyrazen regularnych,
podajace dla danego wyrazu potencjalna forme podstawowa (na baze ispel'a).
jest to dosc zawodne; oraz "pelny slownik" - zbior wszystkich form
wystepujacych wyrazow (oczywiscie, na tyle, na ile jest kompletny slownik :)
ze "wskazaniem" na wlasciwa forme slownikowa.
Mozna ro robic inaczej? Lepiej?..
A jak sobie radzimy z wyrazami spoza slownika, jak nazwy wlasne?..

Pozdrawiam serdecznie
Paweł


Maciej Pilichowski
16 Wrz 2004, 02:10

Jaka jest najwydajniejsza metoda analizy czesci mowy
podajace dla danego wyrazu potencjalna forme podstawowa (na baze ispel'a).



Chodzi Ci o to, zeby danemu slowu przyporzadkowac czesc mowy, czy dla
danego slowa znalezc jego forme podstawowa? Jako wejscie masz to
slowo, czy to slowo "zanurzone" w zdaniu?

A jak sobie radzimy z wyrazami spoza slownika, jak nazwy wlasne?..



Popraw mnie jesli sie myle, ale jesli nie masz na mysli takze
neologizmow /np. zipowac/ to sa to rzeczowniki.

milego dnia zycze
hej

Maciek
16 Wrz 2004, 07:13

| Jaka jest najwydajniejsza metoda analizy czesci mowy
| podajace dla danego wyrazu potencjalna forme podstawowa (na baze ispel'a).



Trudno powiedziec - twoje pytanie jest bardzo ogolne. Metod jest
kilka. Dwie glowne to podejscie statystyczne (modele markova, itd)
oraz symboliczne-regulowe (wyrazenia regularne, czy tez reguly
transofrmacyjne). NIe ma zadnej metody, ktora bylaby w 100% skuteczna.
Nawet czlowiek nie jest w stanie takiego wyniku osiagnac, bo zachodzi
pytanie co to jest 100% skutecznosc? Zawsze pojawiaja sie roznice w
intepretacji niektorych czesci mowy na poziomie teoretycznym.

Ale nawet jezeli przyjac, ze czlowiek moze w 100% poprawnie otagowac
czesci mowy, to najlepsze tagery (dla angielskiego), np. CLAWS
osiagaja 95-96%. Z tym ze trudnosc zwiekszania skutecznosci rosnie
wykladniczo. Czyli 70%-80 procent jest stosunkowo latwo osiagnac.
Potem zaczynaja sie ostre schody.

Dla jezyka polskiego jest duzo slabiej, bo mamy fleksje mocno
pokrecona, a poza tym nie ma u nas takiej tradycji ani zapotrzebowania
na taka technologie. Najlepiej podobno radza sobie panowie
Przepiorkowski i Wolinski z IPI PAN. Dobry slownik fleksyjny ma AGH
Krakow (prof. Lubaszewski) (rowniez w postaci elektronicznej).

Wiele najlepszych tagerow stosuje mieszane metodologie. Na przyklad
angielski CLAWS dziala klikufazowo. Niektore tagery wykorzystuja
output innych tagerow i tylko go ulepszaja. Wszystko zalezy od tego
jaka skutecznosc cie satysfakcjonuje. O 100% zapomnij.

| A jak sobie radzimy z wyrazami spoza slownika, jak nazwy wlasne?..



Wklepujemy, wklepujemy :-). Radze poszukac w sieci artykulow na temat
POS Tagging oraz Markov Models.

Pozdrawiam,

M

Maciek
16 Wrz 2004, 07:18
a i jeszcze mi sie przypomnialo, ze nie okresliles czy chodzi ci o
samo tagowanie - przypisanie mozliwych czesci mowy do danego slowa,
czy rowniez o dezambiguacje, czyli wskazanie ktora z nich jest
wlasciwa, jezeli jest wiecej niz jedna. na przyklad masz forme:

przyszły

ktorej czesc mowy jest wieloznaczna slownikowo (przymitonik  -
przyszly rok, czasownik - przyszly listy), ale moze byc rozstrzygnieta
przez analize kontekstu - tylko ze wlasnie przy analizie kontekstu
zaczynaja sie prawdziwe problemy.


Pawe
16 Wrz 2004, 13:44

Chodzi Ci o to, zeby danemu slowu przyporzadkowac czesc mowy, czy dla
danego slowa znalezc jego forme podstawowa? Jako wejscie masz to
slowo, czy to slowo "zanurzone" w zdaniu?



Hmmm. Analizujemy pewne zdanie i chcemy dla kazdego z wyrazow podac jego
forme podstawowa (slownikowa) oraz wlasnie okreslic jego "paramentry"
(przypadek, rodzaj, liczbe, itd.) w formie "wejsciowej", w zdaniu, ktore
analizujemy.

| A jak sobie radzimy z wyrazami spoza slownika, jak nazwy wlasne?..

Popraw mnie jesli sie myle, ale jesli nie masz na mysli takze
neologizmow /np. zipowac/ to sa to rzeczowniki.



No wlasnie. Jak rozpoznawac, czy sa to rzeczowniki, nazwy wlasne, czy moze
pewne "zlozenia" rzeczownikow (np. samochodorower - glupie, ale w tekstach
zdarzaja sie podobne konstrukcje), czy wlasnie czasowniki (np.
odrzeczownikowe formy, jak "zipowac", "kamerowac" ) czasownikow, ktorych nie
znajdziemy w slowniku.
Mozna statrac sie dopasowac wyraz do pewnej grupy koniugacji i wtedy bylby
to czasownik, albo deklinacji, co moglboby wskazywac ze jest to rzeczownik.
Oczywiscie do tej grupu wyrazow dopuszczamy znaczny margines bledu, ale
takie "wstepne okreslenie, co to moze byc" pomagalo by na kolejnych etapach
analizy, w tych wszystkich przypadkach, gdy nie ma wyrazu w slowniku.
No i sie zastanawiam, jak sie rozwiazuje tego typu problemy?..

Pozdrawiam

Boni Sułkowski
16 Wrz 2004, 14:13
Paweł nieopatrznie wrotuje:

Hmmm. Analizujemy pewne zdanie i chcemy dla kazdego z wyrazow podac jego
forme podstawowa (slownikowa) oraz wlasnie okreslic jego "paramentry"
(przypadek, rodzaj, liczbe, itd.) w formie "wejsciowej", w zdaniu, ktore
analizujemy.
[...]
No i sie zastanawiam, jak sie rozwiazuje tego typu problemy?..



Drobny hint: ten kto rozwiąże kontekstowo takie problemy dla
polskiego, rozwiąże je też dla angielskiego czy japońskiego. I zrobi
od ręki niezły uniwersalny program tłumaczący. I szkielet symbolicznej
AI. I zostanie guru wszystkich speców od NLP i AI. I będą go nosić na
rękach, sexowne groupies będą za nim szaleć, a granty same będą mu się
do stóp słały...

P,ANMSP

Boni

Pawe
16 Wrz 2004, 16:03
[...]

Naprawde nie rozumiem :) Zadalem dosc konkretne pytanie nt. metod. Apropos
samej analizy morfologicznej przytoczylem dwa przyklady, ktore daja bardzo
dobre rezultaty dla wyrazow ze slownika. Na tym etapie analizy moga
oczywiscie pojawic sie pewne "wieloznacznosci", jak chociazby "spodni" -
moze to byc rzeczownik w dopełniaczu, albo przypomiotnik, co mozna
roztrzygnac na dalszym etapie analizy zdania, ale nie o to pytalem.

Pozdrawiam
Paweł

Electronic Dyl
16 Wrz 2004, 18:03

Witam.
Jaka jest najwydajniejsza metoda analizy czesci mowy (w szczegolnosci dla
jezyka polskiego). Jaka jest jej "skutecznosc" ? Metody statystyczne maja
chyba w wiekszosci < 100% poprawnosci.
Widzialem dwa ciekawe podejscia - zbiory regul, wyrazen regularnych,
podajace dla danego wyrazu potencjalna forme podstawowa (na baze ispel'a).
jest to dosc zawodne; oraz "pelny slownik" - zbior wszystkich form
wystepujacych wyrazow (oczywiscie, na tyle, na ile jest kompletny
slownik :)
ze "wskazaniem" na wlasciwa forme slownikowa.
Mozna ro robic inaczej? Lepiej?..
A jak sobie radzimy z wyrazami spoza slownika, jak nazwy wlasne?..

Pozdrawiam serdecznie
Paweł



Do czego może służyć taka analiza morfologiczna ?, bo tak się zastanawiam,
gdy Człowiek odbiera przekaz słowny (lub pisany) to nie bada, czy docierają
do niego rzeczowniki, przymiotniki, nie zastanawia się w jakim one są
przypadku itd. Chodzi mi o to, że Człowiek nie dokonuje takich czy innych
administracyjno-gramatycznych czynności. Chociaż można spotkać sytuację, że
taka analiza (ale bardzo szybko zachodząca) może mieć miejsce, - a kiedy ?, -
wtedy, gdy słowo jest niesłownikowe i wtedy pojawia sie "chwila" gdy Człowiek
na podstawie kontekstu tworzy znaczenie słowa niesłownikowego. I co ciekawe
może to być tylko na chwilę na jedną okoliczność, dla siebie.

Tak więc czy taka analiza będzie wolna czy szybka to co wynik tej analizy nam
da ?

Tak generalnie słowa przywołują jakieś treści. Takie treści można opisać też
przez zbiory słów. Czyli słowa przywołują zbiory słów. Następnie na podstawie
kontekstu ze zdań poprzednich (nawet bardzo odległych) są formowane finalne
zbiory treściowe dla zdania. A z całej wypowiedzi są formowane zbiory
treściowe finalne dla całej wypowiedzi. U Człowieka jest jeszcze takie dziwne
zachowanie, że dosyć często finalna treść raz jest taka, raz inna. Może to
wynikać z nastroju, czasem z przekory, czasem ze zmęczenia.

W takim procesie percepcyjnym jest więc dużo dowolności. Reguły tworzenia
finalnych zbiorów treściowych są bardzo nieostre w związku z tym te zbiory
też są nieostre.

Ale Ludzie uparli się (niektórzy) aby za pomocą maszyn deterministycznych
aproksymować wyżej skrótowo przedstawiony proces percepcji. Czy da się to
zrobić ?.

Pozdrawiam
Edyl.

Maciej Pilichowski
17 Wrz 2004, 02:03

Hmmm. Analizujemy pewne zdanie i chcemy dla kazdego z wyrazow podac jego
forme podstawowa (slownikowa)



Zalezy jakie masz moce przerobowe. Mozesz albo zagladac do slownika
albo majac duzy korpus trenowac program do sprowadzania formy
odmienionej do podstawowej.

oraz wlasnie okreslic jego "paramentry"
(przypadek, rodzaj, liczbe, itd.) w formie "wejsciowej", w zdaniu, ktore
analizujemy.



Niedokladnie to przez ww. metody. Dokladniej to przez parsowanie
zdania. Dlaczego? Bo niektore formy wygladaja tak samo w roznych
odmianach.

No wlasnie. Jak rozpoznawac, czy sa to rzeczowniki, nazwy wlasne, czy moze
pewne "zlozenia" rzeczownikow (np. samochodorower - glupie, ale w tekstach
zdarzaja sie podobne konstrukcje), czy wlasnie czasowniki (np.
odrzeczownikowe formy, jak "zipowac", "kamerowac" ) czasownikow, ktorych nie
znajdziemy w slowniku.



Przecwiczyc program, tak aby na podstawie budowy wyrazu wiedzial co to
jest. W koncu Ty nie znasz wyrazu "magmerkowac" ale nie przypuscisz,
ze to przyslowek, prawda?

No i sie zastanawiam, jak sie rozwiazuje tego typu problemy?..



Tak w ogole o wiele latwiej Ci pojdzie, jesli bedziesz mial duzy
korpus tekstu. Jak przestane przysypiac ze zmeczenia, to mysle nad

sieci /wskazane przeze mnie/ -- probowalem robic to manualnie, ale po
miesiacu padlem :-D

milego dnia zycze
hej

Maciej Pilichowski
17 Wrz 2004, 02:04


W takim procesie percepcyjnym jest więc dużo dowolności. Reguły tworzenia
finalnych zbiorów treściowych są bardzo nieostre w związku z tym te zbiory
też są nieostre.

Ale Ludzie uparli się (niektórzy) aby za pomocą maszyn deterministycznych
aproksymować wyżej skrótowo przedstawiony proces percepcji. Czy da się to
zrobić ?.



Nie da sie, wiec bron boze nawet nie zaczynaj.

milego dnia zycze
hej

Electronic Dyl
17 Wrz 2004, 04:03



| W takim procesie percepcyjnym jest więc dużo dowolności. Reguły tworzenia
| finalnych zbiorów treściowych są bardzo nieostre w związku z tym te zbiory
| też są nieostre.

| Ale Ludzie uparli się (niektórzy) aby za pomocą maszyn deterministycznych
| aproksymować wyżej skrótowo przedstawiony proces percepcji. Czy da się to
| zrobić ?.

Nie da sie, wiec bron boze nawet nie zaczynaj.

milego dnia zycze
hej



Sam widzisz, że finalny zbiór może być raz taki jak u Ciebie, a innym razem
zupełnie przeciwny i jak sam widzisz zależy to równiez mocno od sytuacji
emocjonalnej w tym przypadku Twojej. No bo dlaczego mi odradzasz robienie
czegoś, czego JA wcale nie zamierzałem robić, i skąd takie wnioskowanie ? Czy
kontekst ma takie silne oddziaływanie ?

Człowiek na codzień lubi posługiwać się pojęciami o "ostrym" brzegu.
Natomiast Mózg Człowieka aproksymuje te "lubiane i ostre" pojęcia przez
zbiory "nieostre". Ale takie czynności Człowiek wykonuje bezwiednie. I
finalnie dostrzega tylko zbiór o ostrym brzegu.

Analiza morfologiczna, o której mówimy umożliwia w jakimś stopniu
aproksymację na przykład dla automatycznego tłumacza dwu języków. Ale jest to
aproksymacja !. Taka aproksymacja w wielu przypadkach jest wystarczająca.
Robi to na przykład z powodzeniem firma ECTACO w swoich słownikach. Ale do
dokonywania czegoś co nazywamy "percepcją" taka aproksymacja jest zupełnie
nie do przyjęcia. Umożliwia ona wytworzenie "maszyny" co "rozumie słowa" ale
nie jest w stanie roumieć treści - taka "maszynę" można przyrównać do
osobnika z objawem określanym w medycynie nazwą: schizofrenia. Taka "maszyna"
to też słownik.

Aby robić inne takie próby, np. te które mi odradzasz, potrzeba innych
podejść teoretycznych.

Zajrzałem na Twoją stronę i tam w jednym miejscu (wg linku) jest
żądanie: "całkowitej nieograniczoności swobody" - czy jakoś tak ? dla
jednostki, Człowieka. Ale JA zapytam a gdy ta "100% swoboda" jednego
Człowieka jest w sprzeczności ze "100% swobodą" innego Człowieka ? Nie
znalazłem odpowiedzi.

Natomiast tłumacz chyba działa, co wypada pochwalić. I jeśli rzeczywiscie
będzie on sie sam uczył to wyrazy uznania.

Myśl też o tłumaczu PL --EN.

Pozdrawiam
Edyl.

Maciej Pilichowski
17 Wrz 2004, 04:26


Zajrzałem na Twoją stronę i tam w jednym miejscu (wg linku) jest
żądanie: "całkowitej nieograniczoności swobody" - czy jakoś tak ?



Raczej nie jakos tak, bo nigdy czegos takiego nie postulowalem...

dla
jednostki, Człowieka. Ale JA zapytam a gdy ta "100% swoboda" jednego
Człowieka jest w sprzeczności ze "100% swobodą" innego Człowieka ? Nie
znalazłem odpowiedzi.



...wolnosc jednostki tak daleko, dopoki nie ogranicza cudzej wolnosci.

Natomiast tłumacz chyba działa, co wypada pochwalić. I jeśli rzeczywiscie
będzie on sie sam uczył to wyrazy uznania.



Za kilka lat, na razie to przedszkole raczej ;-))

milego dnia zycze
hej

Pawe
17 Wrz 2004, 07:03
[..] Nie staramy sie tu nasladowac procesow percepcyjnych ludzkiego mozgu.
Pewnie lepiej nawalaby sie do tego siec neuronowa ;)
Co do zastosowan: przede wszystkim systemy wyszukiwawcze. polskie
wyszukiwarki "cierpia" na wrazliwosc "morfologiczna". dla jezyka angielkiego
za to google swietnie sobie z tym radzi.
Inne zastosowanie: na politechnice warszawskiej postaje szereg systemow NLP,
gdzie analizotor morfologiczny jest I stopniem analizatora. to nic, ze
niektore wyrazy moga byc wieloznaczne, o tym juz pisalem.
dobry analizor morfologiczny znajdziemy tez u tworcow Translatica'i.

W kazdym razie - szkoda, ze wywiazala sie dyskusja "quasi-filozoficzna", a
nikt nie przytoczyl jakis przykadow algorytmow, rozwian.
Ja nie jestem ekspertem - ale mozna to robic, ludzie to robia i maja dobre
efekty

;)
Pozdrawiam
Pawel

Maciej Pilichowski
17 Wrz 2004, 07:06

dobry analizor morfologiczny znajdziemy tez u tworcow Translatica'i.
W kazdym razie - szkoda, ze wywiazala sie dyskusja "quasi-filozoficzna", a
nikt nie przytoczyl jakis przykadow algorytmow, rozwian.
Ja nie jestem ekspertem - ale mozna to robic, ludzie to robia i maja dobre
efekty



? Skoro piszesz o Translatice to po co pytasz -- to jest zespol
b.Polengu i znajdziesz na ich stronie dosc krotkie, ale naprawde
wartosciowe dokumenty.

milego dnia zycze
hej

Pawe
17 Wrz 2004, 07:11
apropos trenowania - pewnie jest to dobry pomysl, ale skad program "wie", ze
dany wyraz z korpusu, to akurat pewna forma innego?.. okreslasz jakas "miare
podobiensta" wyrazow i np. "robilem" i "robic" sa bardzo podobne i uznawane
przez algorytm za rozne formy tego samego slowa ?..
Jesli tak, to co z "zrobic" i "robic" - w slowniku sa to dwa wyrazy
(pierwszy jest forma dokonana od drugiego), ale moze to nie jest problem...

BTW uczenia - robilem maly projekcik na PW, gdzie program mial analizowac
czesci zdania. z braku czasu wybralem z kolega metode indukcji regul
decyzyjnych. wejsciowymi danymi byly wyrazy ze zdan z przyisanymi
wlasciwosciami czesci mowy i na podstawie kilku wyrazow "sasiadujacych"
okreslana byla czesc zdania. wynik byl zadowalajacy, a najwiekszy problemem
byl zbior trenujacy, ktory musielismy recznie klepac.
Sa jakies proby podejscia do problemu analizy skladni zdania taki wlasnie
"samouczacymi sie" metodami ?..

Pozdrawiam serdecznie
Paweł







| Hmmm. Analizujemy pewne zdanie i chcemy dla kazdego z wyrazow podac jego
| forme podstawowa (slownikowa)

Zalezy jakie masz moce przerobowe. Mozesz albo zagladac do slownika
albo majac duzy korpus trenowac program do sprowadzania formy
odmienionej do podstawowej.

| oraz wlasnie okreslic jego "paramentry"
| (przypadek, rodzaj, liczbe, itd.) w formie "wejsciowej", w zdaniu, ktore
| analizujemy.

Niedokladnie to przez ww. metody. Dokladniej to przez parsowanie
zdania. Dlaczego? Bo niektore formy wygladaja tak samo w roznych
odmianach.

| No wlasnie. Jak rozpoznawac, czy sa to rzeczowniki, nazwy wlasne, czy moze
| pewne "zlozenia" rzeczownikow (np. samochodorower - glupie, ale w tekstach
| zdarzaja sie podobne konstrukcje), czy wlasnie czasowniki (np.
| odrzeczownikowe formy, jak "zipowac", "kamerowac" ) czasownikow, ktorych
| nie
| znajdziemy w slowniku.

Przecwiczyc program, tak aby na podstawie budowy wyrazu wiedzial co to
jest. W koncu Ty nie znasz wyrazu "magmerkowac" ale nie przypuscisz,
ze to przyslowek, prawda?

| No i sie zastanawiam, jak sie rozwiazuje tego typu problemy?..

Tak w ogole o wiele latwiej Ci pojdzie, jesli bedziesz mial duzy
korpus tekstu. Jak przestane przysypiac ze zmeczenia, to mysle nad

sieci /wskazane przeze mnie/ -- probowalem robic to manualnie, ale po
miesiacu padlem :-D

milego dnia zycze
hej

--
Maciej "MACiAS" Pilichowski
http://bantu.fm.interia.pl/

              M A R G O T   --  http://www.margot.cad.pl/
    automatyczny tłumacz (wczesna wersja rozwojowa) angielsko-polski



Pawe
17 Wrz 2004, 07:14
coz, chcialem poszerzyc zasob wiedzy, wierzac, na pl.sci.ai, ktos mnie
oswieci ;)

Pozdrawiam







| dobry analizor morfologiczny znajdziemy tez u tworcow Translatica'i.
| W kazdym razie - szkoda, ze wywiazala sie dyskusja "quasi-filozoficzna", a
| nikt nie przytoczyl jakis przykadow algorytmow, rozwian.
| Ja nie jestem ekspertem - ale mozna to robic, ludzie to robia i maja dobre
| efekty

? Skoro piszesz o Translatice to po co pytasz -- to jest zespol
b.Polengu i znajdziesz na ich stronie dosc krotkie, ale naprawde
wartosciowe dokumenty.

milego dnia zycze
hej


Pawe
17 Wrz 2004, 07:18
moze troche z innej beczki, ale wiem ze sie zajmujesz maszynowym
przetwarzeniem jezyka.
Zajmowal sie ktos w Polsce probami automatycznej konstrukcji sieci
semantycznej/ontologii jezyka naturalnego (polskiego ;) ?..
Jak np. projekt MindNet


| dobry analizor morfologiczny znajdziemy tez u tworcow Translatica'i.
| W kazdym razie - szkoda, ze wywiazala sie dyskusja "quasi-filozoficzna", a
| nikt nie przytoczyl jakis przykadow algorytmow, rozwian.
| Ja nie jestem ekspertem - ale mozna to robic, ludzie to robia i maja dobre
| efekty

? Skoro piszesz o Translatice to po co pytasz -- to jest zespol
b.Polengu i znajdziesz na ich stronie dosc krotkie, ale naprawde
wartosciowe dokumenty.

milego dnia zycze
hej


Maciej Pilichowski
17 Wrz 2004, 07:28

apropos trenowania - pewnie jest to dobry pomysl, ale skad program "wie", ze
dany wyraz z korpusu, to akurat pewna forma innego?.. okreslasz jakas "miare
podobiensta" wyrazow i np. "robilem" i "robic" sa bardzo podobne i uznawane
przez algorytm za rozne formy tego samego slowa ?..



Nie wiem na pewno jak to zrobic, bo jeszcze nie robilem, ale to mnie
czeka, wiec moge na razie tylko zgadywac. Przetwarzasz jakis np.
milionow slow, zeby je program pogrupowal /wg budowy/. Pozniej Ty
oceniasz to, program sobie zapisuje pozytywy i jeszcze raz przesiewa
baze. Itd.
Odnosniki do materialow jak sie porownuje wyrazy znajdziesz na stronie
PolEngu wlasnie.

Sa jakies proby podejscia do problemu analizy skladni zdania taki wlasnie
"samouczacymi sie" metodami ?..



Cudow nie warto chyba oczekiwac -- mozg ludzki jest potezniejszy od
komputerow, a mimo to dzieciom z powietrza wiedza jezykowa sie nie
bierze. IMHO nauczyciel przy AI-NLP to koniecznosc.

Co do projektu, o ktory pytasz, to spytaj na grupie, eeee, chwila,

link, zaraz sobie zobacze, co w MS daja :-)

milego dnia zycze
hej

Electronic Dyl
17 Wrz 2004, 19:20

Na Google na hasło: analiza morfologiczna na pierwszej stronie są odrazu
chyba ze dwie prace dyplomowe. Czy wyczerpałeś możliwości googlowe?

[..] Nie staramy sie tu nasladowac procesow percepcyjnych
ludzkiego mozgu. Pewnie lepiej nawalaby sie do tego siec
neuronowa ;)
Co do zastosowan: przede wszystkim systemy wyszukiwawcze.
polskie wyszukiwarki "cierpia" na wrazliwosc "morfologiczna".
dla jezyka angielkiego za to google swietnie sobie z tym
radzi. Inne zastosowanie: na politechnice warszawskiej
postaje szereg systemow NLP, gdzie analizotor morfologiczny
jest I stopniem analizatora. to nic, ze niektore wyrazy moga
byc wieloznaczne, o tym juz pisalem.
dobry analizor morfologiczny znajdziemy tez u tworcow
Translatica'i.



Analizator morfologiczny - zgoda może mieć zastosowanie. Zainteresowałeś się
(piszesz też, że nie jesteś specjalistą) tymi problemami. Moje zdanie jest
takie, że za pomocą takiego analizotora zrobimy napewno jakąś aproksymację.
Napewno taki analizator pomoże w niektórych sprawach. Ale w pewnym miejscu
jego użyteczność się kończy. Zwróć uwagę, że podejście takie to bardzo typowe
podejście mechaniczne przy przetwarzaniu napisów. I idąc taką drogą ścieżka
urwie się w pewnym momencie. Nie odbieraj tego co piszę w taki sposób, że nie
należy się tym zajmować. Wprost przeciwnie koniec ścieżki powinnismy poznać
bo taki cel też może być bardzo interesujący.

Nasze "komputerki" są już na tyle dobre, że "trzymanie" całego słownika w
pamięci to żaden problem. Opracowanie cząstek słowotwórczych na przykład dla
50 tys słów to żaden problem. Zgromadzenie wszystkich słów w najróżniejszych
odmianach, formach, czasach, to też żaden problem. Co chcę powiedzieć ? -
Chce powiedzieć, że takie podejście cały czas będzie generować aproksymację i
zawsze będzie czegoś brakować.

Twoje pytanie - w pierwszym poście o najbardziej wydajny algorytm analizy
morfologicznej ?, - do dyspozycji masz tylko algorytmy deterministyczne!, - a
więc musisz zgromadzić albo wszystkie formy słownikowe, albo podać algorytmy
transformacji dla słów, zwrotów aby móc je badać, ustalać czym są. Lub mieć
to i to w jakichś proporcjach. Dla słów wieloznaczych dodatkowo musisz
analizować kontekst i to może być już trudne a nawet niewykonalne w 100%. Nie
ma innych dróg dla metod mechanicznego przetwarzania napisów.

Pozdrawiam
Edyl.

PS
Nie przejmuj się, ale czasem powstają jakieś zbędne dyskusje, najczęściej o
niczym, ale to taki urok tego i innych FOR z okolicy.

Andrzej Lewandowski
17 Wrz 2004, 23:21



Analizator morfologiczny - zgoda może mieć zastosowanie. Zainteresowałeś się
(piszesz też, że nie jesteś specjalistą) tymi problemami. Moje zdanie jest
takie, że za pomocą takiego analizotora zrobimy napewno jakąś aproksymację.
Napewno taki analizator pomoże w niektórych sprawach. Ale w pewnym miejscu
jego użyteczność się kończy. Zwróć uwagę, że podejście takie to bardzo typowe
podejście mechaniczne przy przetwarzaniu napisów. I idąc taką drogą ścieżka
urwie się w pewnym momencie. Nie odbieraj tego co piszę w taki sposób, że nie
należy się tym zajmować. Wprost przeciwnie koniec ścieżki powinnismy poznać
bo taki cel też może być bardzo interesujący.

Nasze "komputerki" są już na tyle dobre, że "trzymanie" całego słownika w
pamięci to żaden problem. Opracowanie cząstek słowotwórczych na przykład dla
50 tys słów to żaden problem. Zgromadzenie wszystkich słów w najróżniejszych
odmianach, formach, czasach, to też żaden problem. Co chcę powiedzieć ? -
Chce powiedzieć, że takie podejście cały czas będzie generować aproksymację i
zawsze będzie czegoś brakować.

Twoje pytanie - w pierwszym poście o najbardziej wydajny algorytm analizy
morfologicznej ?, - do dyspozycji masz tylko algorytmy deterministyczne!, - a
więc musisz zgromadzić albo wszystkie formy słownikowe, albo podać algorytmy
transformacji dla słów, zwrotów aby móc je badać, ustalać czym są. Lub mieć
to i to w jakichś proporcjach. Dla słów wieloznaczych dodatkowo musisz
analizować kontekst i to może być już trudne a nawet niewykonalne w 100%. Nie
ma innych dróg dla metod mechanicznego przetwarzania napisów.

Pozdrawiam
Edyl.




chodzi?.

A.L.

Pawe
18 Wrz 2004, 08:40
[...] tak apropos "komputerków" i "mechanicznego przetwarzania
(informacji)" - człowiek też maszyna (tyle, że biologiczna), a z czytaniem
nie ma problemów, choć nie raz zdarza się, że jeden człowiek, nie rozumie
drugiego (choć komunikują się w tym samym, ojczystym języku) :)))

Pozdrawiam!
Paweł

Electronic Dyl
18 Wrz 2004, 14:51

Pytałeś w poście inicjującym:

Witam.
Jaka jest najwydajniejsza metoda analizy czesci mowy
(w szczegolnosci dla jezyka polskiego). Jaka jest jej
"skutecznosc" ? Metody statystyczne maja chyba w
wiekszosci < 100% poprawnosci.
...



A teraz piszesz:

[...] tak apropos "komputerków" i "mechanicznego przetwarzania
(informacji)" - człowiek też maszyna (tyle, że biologiczna), a
z czytaniem nie ma problemów, choć nie raz zdarza się, że jeden
człowiek, nie rozumie drugiego (choć komunikują się w tym samym,
ojczystym języku) :)))

Pozdrawiam!
Paweł



Nie podałeś kryterium wydajności. W domyśle może to być miara, jakaś funkcja f
(koszt,szybkość). Ale w grę wchodzi jeszcze koszt i szybkość wytworzenia
narzędzi do analizy dla wybranej metody. Moje zdanie jest takie, że dobrze
jest zauważać ten szczegół. Na przykład opracowywanie takich czy innych
narzędzi przez kilka lat powoduje utratę sensu pracy.

Stąd sugerowałem CI może trochę nie bezpośrednio - co przyznaję - kierownie
się na metody (czasem określane metodami siłowymi) słownikowe. Dla części
mowy, które są, - mogą być wieloznaczne, nazwy własne  - jest potrzeba
wyszczególnienia wszystkich możliwości oraz posiadanie algorytmu badajacego
kontekst i tu zaczyna być problem. Dlatego, że od badania kontekstu nie
uciekniesz !

Obojętnie jak postąpisz nie uzyskasz zawsze 100% skuteczności. Zresztą jak
Sam to zauważasz, Człowiek też nie ma 100% skutecznosci.

Mówiąc o "naszych komputerkach" i ich pamięciach przekazałem CI informację,
że koszt maszyn i pamięci na dzisiaj to już nie problem. Można spokojnie
projektować algorytmy przetwarzania bardzo dużych zbiorów bezpośrednio w
pamięci operacyjnej - co oczywiście jest naszybszym procesem obliczeniowym.
Ten fakt rzutuje na to o co pytasz: "... najwydajniejsza metoda ...". Ale ja
za każdym razem nie mogę dawać obszernych komentarzy do prostych tekstów.

Nie spodziewaj się, że Ktoś da CI "gotowca" lub napisze "Przegląd analiz
morfoficznych z oceną skuteczności". Sam wyraziłeś zdanie, że pragniesz
rozmawiasz i oczekujesz rozmowy z dużą powagą, więc to czynię. Zauważyłem, że
aktualne trendy w metodach analizy tekstu nie koniecznie prowadzą do celu
prostą drogą. Zauważyłem, że umożliwiają one jakąś aproksymację wyznaczonego
celu.

Na zakończenie dodam tu jeszcze, że jeśli JA miałbym projektować algorytm dla
translacji dwu języków to użyłbym maksymalnie metod siłowych bo pamięć jest
tania. Użyłby też tyle ile można też metod siłowych dla badania kontekstu. A
dla reszty - no cóż albo godzimy się na skuteczność 9x% albo musimy brnąć
dalej i tu już zaczyna być potrzebna funkcja miary "przystawania do
konstektu", - to co "robią neurony".

Pozdrawiam
Edyl.

Maciek
19 Wrz 2004, 12:13
Ludzie!!!!!!!!!!!!!!!!!!!!!!!!

Przestancie wypisywac te wszystkie bzdety o sieciach neuronowych i
sztucznej inteligencji. I o tym, ze kto rozwiaze ten problem ten
znajdzie kamien filozoficzny. Co za bzdury? Przeciez pytanie bylo o
POS-Tagging.

Nie mylic tego z semanting albo syntactic parsing.

Nie wymyslajcie na nowo kola, tylko sprawdzcie literature na tema Part
of Speech Tagging. Za duzo macie chyba czasu panowie. Konkretniej,
konkretniej.

Problem tagowania i rozstrzygania dwuznacznych czesci mowy jest juz
dobrze przebadany, dla wielu jezykow. Skutecznosc dla angielskiego to
ok 95%. Dla jezyka polskiego ok 80% (patrz Instytut Podstaw
Informatyki PAN).

Przyklad taggera dla jezyka angielskiego, dostepnego w wersji trial
online:

http://www.comp.lancs.ac.uk/computing/research/ucrel/claws/trial.html

grupa dyskusyjna po angielsku dotyczaca POS-tagging:

http://directory.google.com/Top/Science/Social_Sciences/Linguistics/C...

analiza regresji, bazowe funkcje adaptacyjne
Jakim programem analizować?
Oprogramowanie do analizy sekwencji
analiza obrazow
  • oxygen permeable membrane
  • mini gry do pobrania na komputer darmowe
  • bioderka i pieluszkowanie
  • nE5en n cE8E2EEF2EDFBECE8 E2E8E4E5EE F4EEF2EE nE5en E8EDF6E5eEBEEEFE5E4E8FF
  • idz do podstrony 150
  • mamusie styczniowo lutowe 2010 cz iii 4560
  • ksazka tel
  • strona;34600
  • konwerter tele 2x
  • Archiwum wiadomości z for internetowych ^^ Start