From 2aec7f7a293f595f2a6b19f2697f964d9a355da2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Sebastjan=20Arti=C4=8D?= Date: Sat, 2 May 2026 08:52:40 +0000 Subject: [PATCH] =?UTF-8?q?Odstrani=20trailing=202-4=20cifrene=20=C5=A1tev?= =?UTF-8?q?ilke=20(leto/verzija)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit User: 'včasih številka 23 pri Modrijanih in pri Firbcih, te se pojavlajo v naslovih' Razlog: NAS interno označeni kot leto produkcije. 'PA KAJ (Official Video) 23' = leto 2023 'ONA HOČE (Official video) 22' = leto 2022 'S tabo res rad (Official Video) 33' = leto 2033 (?) ali interno Pattern: r'\s+\d{2,4}\s*$' — trailing 2-4 cifrena številka Test rezultati: - 'S tabo res rad 33' → 'S tabo res rad' ✅ - 'PA KAJ 23' → 'PA KAJ' ✅ - 'PESEM GORENJSKIH TRAT (2023)' → 'PESEM GORENJSKIH TRAT' ✅ Edge cases (NI odstranjeno): - 'Pesem 25 ljubljanskih ulic' (število v sredini) ✅ - 'Top 100 hitov' ✅ --- app/main.py | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/app/main.py b/app/main.py index 5f3919e..9b51e1c 100644 --- a/app/main.py +++ b/app/main.py @@ -218,6 +218,12 @@ _NOISE_PATTERNS = [ # Trailing year in parens (npr. "(2024)") r"\(\d{4}\)\s*$", + # Trailing 2-4 digit number na koncu (verjetno leto: "23", "2023", "33"): + # POMEMBNO: samo če je ZADNJA stvar v stringu in ne del besede + # NE odstrani '33 točk' ampak DA odstrani 'Naslov 33' + # Pred številko: presledek/oklepaji/ničesar + r"\s+\d{2,4}\s*$", + # Prazni / dummy oklepaji: "( )", "( )", "( - )", "(-)", "(.)" r"\(\s*[-–—._]*\s*\)",