From 3c4e6dbd5b21cf4c5f3351495cadf44d92dbdb2c Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tanja=20Samard=C5=BEi=C4=87?= <tanja.samardzic@uzh.ch>
Date: Tue, 18 Apr 2023 11:00:53 +0200
Subject: [PATCH] fix terms

---
 README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/README.md b/README.md
index b03725c..7d9fb6d 100644
--- a/README.md
+++ b/README.md
@@ -22,7 +22,7 @@ U računarskoj obradi i analizi tekst se posmatra kao **niska simbola** *T* gde
 <img src="figures/Text_basics.png" alt="data types" width="600"/>
 
 
-Segmentacija teksta se naziva **tokenizacija** i može se uporediti sa segmentacijom slike na piksele ili sa segmentacijom zvuka na kratke okvire (engl. *frames*). Niska simbola je, dakle, niska **tokena**, koji su jedinice obrade teksta na sličan način kao pikseli u obradi slike i kratki okviri u obradi zvuka. Svako ograničeno polje u ilustraciji gore je po jedan token, sadržaj polja je simbol ili član skupa *V* ili element alfabeta (ova tri izraza su sinonimi).  
+Segmentacija teksta se naziva **tokenizacija** i može se uporediti sa segmentacijom slike na piksele ili sa segmentacijom zvuka na prozore (engl. *frames*). Niska simbola je, dakle, niska **tokena**, koji su jedinice obrade teksta na sličan način kao pikseli u obradi slike i prozori u obradi zvuka. Svako ograničeno polje u ilustraciji gore je po jedan token, sadržaj polja je simbol ili član skupa *V* ili element alfabeta (ova tri izraza su sinonimi).  
 
 Za razliku od slike i zvuka, segmentaciji teksta se obično pristupa sa manje opreza. Definisanje alfabeta se često uzima kao nešto trivijalno; podrazumeva se da je alfabet skup **reči** i da se tekst jednostavno deli na reči. Podrazumevanje da su reči jasno razgraničeni tokeni je dosta problematična zabluda na koju lingvisti poprilično bezuspešno upozoravaju već duže vreme. Ovaj klip na engleskom objašnjava u čemu je problem. 
 <br>