
Skriveni obrasci otkrivaju pravo značenje knjige
Statistička metoda koja odabire najznačajnije riječi u knjizi bi mogla pomoći znanstvenicima da dešifriraju drevne tekstove – ili čak poruke od izvanzemaljaca. Ljudima je lako prepoznati riječi koje sažimaju temu teksta – na primjer da je "kit" ključna riječ u Moby Dicku – ali ovo je težak zadatak za računala.
Sada su Marcelo Montemurro, biolog sustava na Sveučilištu u Manchesteru u Ujedinjenom Kraljevstvu, i njegovi kolege razvili metodu za prepoznavanje važnosti riječi, zasnovanu na grani matematike koja se zove teorija informacija. "Čini se da ono što zovemo semantikom ili značenjem ima svoj trag i na razini statistike riječi," kaže Montemurro.
Jednostavno brojanje učestalosti riječi u tekstu nije dovoljno jer vezne riječi poput "za" i "u" daju krivu sliku. Važne riječi su često nagomilane u stavcima i poglavljima koji se bave temama na koje se one odnose, ali to je tek približni vodič, kaže Montemurro.
Za opširniju analizu, tim je izračunao "entropiju" svake riječi, mjeru njene ravnomjerne raspoređenosti, kako u izvornom tekstu tako i u izmiješanoj verziji u kojoj su se riječi pojavile u slučajnom nizu. Iz razlike između dviju entropija, pomnožene s frekvencijom riječi, tim je generirao "vrijednost informacije" za tu riječ u tekstu.
Vezne riječi su dosta ravnomjerno raspodijeljene i u izmiješanom tekstu i u izvorniku, tako da je njihova vrijednost informacije mala. Bitne riječi imaju veliku vrijednost jer imaju tendenciju grupirati se u izvorniku i relativno su uobičajene. Kada je tim primijenio tehniku na knjigu "Porijeklo vrsta", među 10 najvažnijih riječi bile su: vrsta, raznovrsnost, hibridi, oblici, otoci, odabir i rod.
"Upravo u tom području će se ova metoda najizravnije primjenjivati," kaže Marcelo Magnasco sa Sveučilišta Rockefeller u New Yorku. "Kada gledate genom, to je u stvari izvanzemaljski jezik." » Potraži više...