Kako Se Razkrivajo Skrivnosti Voynichevega Rokopisa: Preiskava - Alternativni Pogled

2024 Avtor: Keith Bush | [email protected]. Nazadnje spremenjeno: 2023-12-16 14:48

Kaj stoji za senzacionalnimi novicami o rokopisu Voynicha in o ruskih znanstvenikih, ali je mogoče iz besedila natančno določiti jezik, kako ustrezni matematiki delajo na "področju" jezikoslovja.

Ruski mediji so 19. aprila širili novice o "epohalnem" odkritju ruskih matematikov: znanstveniki, ki so uporabljali novo metodo, niso samo dokazali smiselnosti znamenitega "Voynichevega rokopisa", temveč so lahko tudi ugotovili, da je bil napisan v dveh jezikih, z izjemo črk za samoglasnike.

Voynichev rokopis je srednjeveški ilustrirani rokopis, ki ga je leta 1912 kupil starinar Wilfred Voynich. Ustvarjeno v 15. stoletju (na podlagi radiokarbonske analize pergamenta - vendar večina učenjakov trenutno besedila samega ne šteje za poznejšo ponarejanje), je napisano v neznanem jeziku z neznano abecedo. Sodeč po ilustracijah je besedilo sestavljeno iz tematskih blokov: botaničnega, astronomskega, farmakološkega in drugih. Zaradi zapletenosti dekodiranja besedila je Voynichov rokopis postal "sveti gral" za kriptografe in predmet številnih študij, vključno s tistimi, ki uporabljajo metode velikih podatkov.

Novica o rokopisu je bila poročana kot nekaj senzacionalnega. To je takoj vzbudilo nekaj suma. »Pred tem so vsi poskusi dešifriranja edinstvenega dokumenta in celo samo razumevanja, ali gre za smiselno besedilo, spodleteli. 600 let neuporabnih prizadevanj!.. Kriptografi Cie in NSA, superračunalniki in celo doktorji "okultnih znanosti" so podpisali svojo popolno nemoč. Najnovejša objava kriptologa Gordona Rugga z univerze Keele v Veliki Britaniji se glasi: »Rokopis Voynich je lažen. Tako "zapleteno besedilo" je enostavno sestaviti za vsakogar, ki pozna preproste metode kopiranja, "piše v članku.

Prvič, smiselnost besedila je bila prepoznana že v sedemdesetih letih in večkrat potrjena v študijah iz leta 2010, o čemer so dovolj podrobno pisali celo v domačih medijih. Drugič, odkritje, predloženo novicam, je bilo predstavljeno samo v obliki inštitutskega pretiska, in ne v članku v mednarodni recenzirani reviji (preprint je bil objavljen tudi leta 2016).

Te nenavadnosti pri predstavitvi gradiva so nas prisilile, da smo pojasnila najprej poiskali pri avtorju študije, nato pa še po neodvisnih strokovnjakih - jezikoslovcih, ki delajo s statističnimi in matematičnimi metodami ter z dekodiranjem starodavnih pisav.

Formulo je enostavno napisati, numerično analizo pa je zelo drago

Promocijski video:

Najprej na kratko o bistvu študije. Avtorji pretiska, matematiki z Moskovskega fizikalno-tehnološkega inštituta in Inštituta za uporabno matematiko Ruske akademije znanosti, se zanašajo na svoja dela, v skladu s katerimi je "frekvenčna porazdelitev besedilnih simbolov stabilna značilnost ne avtorja ne predmeta besedila, temveč jezika". To pomeni, da lahko z uporabo nabora z uporabo matematičnih orodij določite, v katerem jeziku je napisan, ker ima vsak jezik svoj značilen "profil" (porazdelitev eksponenta Hurst). Nadalje so na podlagi teh metod znanstveniki ugotovili, da je besedilo rokopisa napisano v mešanici več jezikov. Hkrati so mu dodali napačne presledke in odstranili simbole, ki označujejo samoglasnike.

Vodilni avtor študije Yuri Orlov (IPM RAS in MIPT) je poudaril, da Voynichov rokopis sploh ni glavni cilj njihovega dela. "'Senzacionalni' rokopis je le ilustracija matematične metode prepoznavanja jezikov iz besedila - ki je v resnici problem strojnega učenja," je dejal Orlov.

Sam rokopis nam absolutno ni zanimiv. Znanost se posebej sklicuje na statistiko jezikov. Preko njega lahko razumemo, v katerem jeziku je napisan ta rokopis. Toda ne tisto, kar je tam zapisano, to je pomembna točka. - Jurij Orlov. MIPT in Inštitut za uporabno matematiko po imenu M. V. Keldysh

Glede jezikovne metode, uporabljene v delu, Orlov ugotavlja, da je sama analiza pogostosti kombinacij črk v besedilih dobro znana. Kazalnik Hurst pa je jezikoslovcem slabo znan, saj ga je težko izračunati niti v matematičnem smislu. Formulo je enostavno napisati, numerična analiza pa je zelo draga. Za to je superračunalnik, ki se nahaja na Inštitutu po imenu M. V. Keldysh, poudarja matematik.

Izbira indoevropskih jezikov za analizo je razložena z dejstvom, da so si vsi zelo podobni, pravi Orlov. Kazalniki, ki so jih razvili matematiki, omogočajo enostavno razlikovanje jezikov v isti jezikovni skupini, ne pa tudi med družinami. Seveda je teoretično mogoče opraviti enako delo z drugimi skupinami (Ural, Altaj ali druge), vendar je vrednost analize v njeni popolnosti, je prepričan Orlov. V primeru indoevropskih jezikov ni težko vnesti korpusa besedil za vsak jezik, težje pa je to storiti z drugimi družinami.

Ko se je vrnil k Voynichevemu rokopisu, je Orlov navedel, da je s sodelavci navedel pet dokazov (logaritemski profil frekvenčnega razvrščanja črk v besedilu v enem in več jezikih, porazdelitev eksponenta Hurst, spektralni portret matrike pogojnih verjetnosti in drugo) hipoteze o mešanici jezikov v rokopisu in izbrisu črke za samoglasnike. Natančno se distancirajo od "klepetalnice okoli rokopisa", a so predstavili edinstven rezultat - odprto metodo, statistično analizo z oceno zanesljivosti, ki jo je mogoče neodvisno preveriti.

Sklep zmanjšuje dejstvo, da ne razumemo, iz katerega materiala so izvlekli in na čem - preverili svojo formulo

Že sama predpostavka, da je besedilo Voynichevega rokopisa brez črk za samoglasnike, z nepravilno razmaknjenimi presledki, je lepa in dobra, ugotavlja jezikoslovka Evgenia Korovina, ki se ukvarja z matematično statistiko jezika (Inštitut za lingvistiko Ruske akademije znanosti). Prej nihče ni postavljal takšne hipoteze. Ona na primer lepo pojasni, zakaj je črk manj, kot bi pričakovali za evropsko besedilo. A težava je v tem, da avtorji študije niti niso navedli, katera besedila v različnih jezikih so primerjali in kolikšen je bil obseg teh testov. V pretisku je omenjeno ogromno jezikov. Zato študija ni ponovljiva: če vzamete poljubna besedila v istih jezikih, ni dejstvo, da se bodo pojavili enaki vzorci.

Maria Molina, strokovnjakinja za korpusne metode pri preučevanju starih jezikov (Inštitut za jezikoslovje RAN), se strinja s Korovino. Nove metode obdelave jezikovnih podatkov po njenem mnenju pomagajo pridobiti informacije o tem, kaj je bilo prej za raziskovalce jezika zaprto. Vendar pa premalo dobro pripravljen vhodni material pogosto diskreditira tudi najboljše tehnike obdelave podatkov.

Zaključek zmanjšuje dejstvo, da ne razumemo, na katerem materialu so risali in na čem so preverjali svojo formulo. Za svoje gradivo zagotovo vem, da gre za majhno metodološko napako - in dobim kritično različne številke. - Maria Molina. Inštitut za lingvistiko RAN

"Garbage in - garbage out", - dodaja Molina (GIGO je načelo v računalništvu, kar pomeni, da bodo napačni vhodni podatki povzročili napačne rezultate, tudi če je algoritem sam pravilen, - opomba Indicator. Ru).

Statistične metode so še vedno namigi na rezultate in ne rezultati

Albert Davletshin (uslužbenec Centra za jezikovne primerjalne študije Inštituta za primerjalne študije Ruske državne humanitarne univerze, ki preučuje majevske in polinezijske jezike) je govoril še bolj ostro. Zakaj to počnejo, če avtorji pretiska ne bi razvozlali Voynichevega rokopisa? In nadalje, če govorimo konkretno o dekodiranju neznanega pisanja, se zastavlja vprašanje za vprašanjem: »Ni začetnih podatkov o pisanju - kakšne vrste črke? Kako se dobijo različni prepisi? Koliko znakov? Kaj je osnova obstoječih predpostavk o naravi pisanja? Kakšna je dolžina besede, ločene s presledki in brez presledkov? Kaj pomenijo presledki? Kako velik je slovar? Kakšno je razmerje med podpisi in risbami?

Sprva se izkaže, da je besedilo dansko in samo dansko (in to je zgodovinsko nemogoče, o čemer v delu ni niti besede). Potem se izkaže, da je besedilo v dveh neznanih jezikih (preverjanje na tej stopnji se izkaže za nemogoče in je prevzeto po veri). Poleg tega obstaja veliko konzervativnih načinov, kako pokazati, da sta dve (veliki) strani napisani z eno črko, vendar v različnih jezikih, ne da bi se zatekli k zapletenim matematičnim modelom. Nazadnje, če iz besedila odstranimo samoglasnike, koliko to potrjujejo standardne, že dolgo znane metode (na primer Sukhotin, Shevoroshkina in Ventris)?"

Davletshin kritizira tudi neobčutljivost za filologijo in zgodovino, značilno za tovrstne raziskave:

Kar vidim v besedilu: pogosto obstajajo ljudje, ki želijo vzeti vir X in pozabiti, da je vir in obstaja v nekem zgodovinskem, tudi jezikovnem kontekstu, in v njem nekako nekaj prešteti. Zanimiva je hipoteza, da je v rokopisu več jezikov. Ampak nekako bi to lahko pokazal človeško. Statistične metode so še vedno namigi na rezultate in ne rezultati. -Albert Davletshin. Center za jezikovne primerjalne študije IVKA RSUH

Ni merila za ločevanje zanimivih rezultatov od groznih

Bolj uravnoteženo stališče je zavzel Georgy Starostin, strokovnjak za primerjalno zgodovinsko jezikoslovje (RSUH). Bolj ga je zanimalo, kako koristne so nove matematične metode za reševanje problemov, s katerimi se soočajo jezikoslovci. »Model, predstavljen v članku, daje čuden vtis. Po eni strani se zdi, da spada v kategorijo "slepih" in analizira besedilne podatke brez predhodnih presoj o strukturi abecede (na primer, digrafe, kot je angleški ch, sh, je treba obravnavati kot kombinaciji dveh črk, čeprav je to dejansko ena zvok). Po drugi strani pa se iz primerjanih nizov vržejo samoglasniki, ki po besedah avtorjev besedila vsebujejo manj informacij in raje dodajajo šum. Na splošno je testna baza očitno zelo majhna, v toliko jezikih je nemogoče govoriti o nečem temeljnem."

Rezultati primerjave indoevropskega in uralskega jezika, predstavljeni v primerjalni tabeli 3 v članku, Starostinu ne vlivajo posebnega optimizma. Nekateri kazalniki stopnje bližine jezikov so dobro zajeti (na primer znotrajgermanske ali znotrajromanske povezave), nekateri slabo (na primer metodologija ne identificira več indoevropske družine). Glavna stvar je, da ni merila za ločevanje zanimivih rezultatov od groznih. V najboljšem primeru metoda omogoča ločevanje majhnih jezikovnih skupin (čeprav tudi tu ne deluje med tesno sorodnimi finskimi in estonskimi), vendar je vse te skupine mogoče brez nje zanesljivo prepoznati.

Tabela 3 iz pretiska, ki predstavlja rezultate primerjave indoevropskega in uralskega jezika. Enaka barva v tabeli. Ugotovljene so tri skupine jezikov, ki so si parno blizu (v smislu norme L1 porazdelitve urejenih frekvenc v besedilih brez samoglasnika). Nekateri nepričakovano tesni jezikovni pari so označeni z rdečo, na primer nemščina / madžarščina, angleščina / estonščina, latinščina / baskovščina in grščina / finščina. Avtorji pretiskov: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Končno je zanimiva ideja določiti genetske značilnosti jezika s porazdelitvijo eksponenta Hurst in morda celo pripeljati do neke znanstvene točke. Toda to bo zahtevalo obdelavo velikega števila besedil v različnih jezikih. Takoj se pojavi težava: številni jeziki so nenapisani in kako pravilno je primerjati abecedne snemalne sisteme s fonetičnimi transkripcijami, ostaja nejasno. Starostin je prepričan, da bo od te ideje zelo malo praktičnega smisla. V najboljšem primeru se lahko resnično uporablja za incidente, kot je rokopis Voynich, ko obstaja hipoteza, da je neki jezik s standardno abecedno pisavo šifriran v skladu z nekaterimi načeli (na primer z izbrisom samoglasnikov itd.). Vendar je takih incidentov na svetu zelo malo.

Povzetek

Kaj je na koncu? Razprava o raziskavah IPM in MIPT je razkrila globok razkol med jezikovno skupnostjo (tudi tistimi, ki uporabljajo statistične metode) in "tujimi" glede jezikoslovcev, ki so se odločili, da bodo svoja matematična orodja uporabili za jezikovno gradivo.

Dejstvo, da matematiki ne želijo sodelovati z jezikoslovci, ne povzroča samo hudih napak, ki se nato preselijo v medije (na primer baskovski jezik v pretprintu se imenuje indoevropski, obstaja stavek "samoglasniške črke"). Lepota modelov in računska moč superračunalnikov je dejansko razvrednotena zaradi napak na vstopnem mestu. Tudi z željo in odprtostjo stikov s kolegi iz druge discipline bi se tem napakam zlahka izognili.

Oglejte si sam Voynichev rokopis tukaj.