Odstrani trailing 2-4 cifrene številke (leto/verzija)
User: 'včasih številka 23 pri Modrijanih in pri Firbcih, te se pojavlajo
v naslovih'
Razlog: NAS interno označeni kot leto produkcije.
'PA KAJ (Official Video) 23' = leto 2023
'ONA HOČE (Official video) 22' = leto 2022
'S tabo res rad (Official Video) 33' = leto 2033 (?) ali interno
Pattern: r'\s+\d{2,4}\s*$' — trailing 2-4 cifrena številka
Test rezultati:
- 'S tabo res rad 33' → 'S tabo res rad' ✅
- 'PA KAJ 23' → 'PA KAJ' ✅
- 'PESEM GORENJSKIH TRAT (2023)' → 'PESEM GORENJSKIH TRAT' ✅
Edge cases (NI odstranjeno):
- 'Pesem 25 ljubljanskih ulic' (število v sredini) ✅
- 'Top 100 hitov' ✅
This commit is contained in:
parent
4e2c690bc5
commit
2aec7f7a29
@ -218,6 +218,12 @@ _NOISE_PATTERNS = [
|
||||
# Trailing year in parens (npr. "(2024)")
|
||||
r"\(\d{4}\)\s*$",
|
||||
|
||||
# Trailing 2-4 digit number na koncu (verjetno leto: "23", "2023", "33"):
|
||||
# POMEMBNO: samo če je ZADNJA stvar v stringu in ne del besede
|
||||
# NE odstrani '33 točk' ampak DA odstrani 'Naslov 33'
|
||||
# Pred številko: presledek/oklepaji/ničesar
|
||||
r"\s+\d{2,4}\s*$",
|
||||
|
||||
# Prazni / dummy oklepaji: "( )", "( )", "( - )", "(-)", "(.)"
|
||||
r"\(\s*[-–—._]*\s*\)",
|
||||
|
||||
|
||||
Loading…
Reference in New Issue
Block a user