Odstrani trailing 2-4 cifrene številke (leto/verzija)

User: 'včasih številka 23 pri Modrijanih in pri Firbcih, te se pojavlajo
v naslovih'

Razlog: NAS interno označeni kot leto produkcije.
'PA KAJ (Official Video) 23' = leto 2023
'ONA HOČE (Official video) 22' = leto 2022
'S tabo res rad (Official Video) 33' = leto 2033 (?) ali interno

Pattern: r'\s+\d{2,4}\s*$' — trailing 2-4 cifrena številka

Test rezultati:
- 'S tabo res rad 33' → 'S tabo res rad' 
- 'PA KAJ 23' → 'PA KAJ' 
- 'PESEM GORENJSKIH TRAT (2023)' → 'PESEM GORENJSKIH TRAT' 

Edge cases (NI odstranjeno):
- 'Pesem 25 ljubljanskih ulic' (število v sredini) 
- 'Top 100 hitov' 
This commit is contained in:
Sebastjan Artič 2026-05-02 08:52:40 +00:00
parent 4e2c690bc5
commit 2aec7f7a29

View File

@ -218,6 +218,12 @@ _NOISE_PATTERNS = [
# Trailing year in parens (npr. "(2024)") # Trailing year in parens (npr. "(2024)")
r"\(\d{4}\)\s*$", r"\(\d{4}\)\s*$",
# Trailing 2-4 digit number na koncu (verjetno leto: "23", "2023", "33"):
# POMEMBNO: samo če je ZADNJA stvar v stringu in ne del besede
# NE odstrani '33 točk' ampak DA odstrani 'Naslov 33'
# Pred številko: presledek/oklepaji/ničesar
r"\s+\d{2,4}\s*$",
# Prazni / dummy oklepaji: "( )", "( )", "( - )", "(-)", "(.)" # Prazni / dummy oklepaji: "( )", "( )", "( - )", "(-)", "(.)"
r"\(\s*[-–—._]*\s*\)", r"\(\s*[-–—._]*\s*\)",