diff --git a/app/main.py b/app/main.py index 0017668..5f3919e 100644 --- a/app/main.py +++ b/app/main.py @@ -217,6 +217,23 @@ _NOISE_PATTERNS = [ # Trailing year in parens (npr. "(2024)") r"\(\d{4}\)\s*$", + + # Prazni / dummy oklepaji: "( )", "( )", "( - )", "(-)", "(.)" + r"\(\s*[-–—._]*\s*\)", + + # Catch-all: oklepaji z "video"/"audio"/"version"/"mix"/"edit"/"remix" + # (široko match — če oklepaji vsebujejo te besede, so verjetno noise) + r"\([^)]*\b(?:video|audio|version|mix|edit|remix|cover|live|hd|hq|4k|8k|remaster(?:ed)?|extended|clean|explicit|radio|lyric[s]?|official|offizielles?|musik)\b[^)]*\)", + + # Catch-all: oglati oklepaji z noise besedami + r"\[[^\]]*\b(?:video|audio|version|mix|edit|remix|cover|live|hd|hq|4k|official|musik)\b[^\]]*\]", + + # Avtor/feat. v oklepajih: "(prod. by X)", "(feat. Y)", "(ft. Z)" + r"\(\s*(?:prod\.?(?:uced)?\s+by|feat\.?(?:uring)?|ft\.?)\s+[^)]+\)", + + # Trailing številke ki označujejo verzije: "33" na koncu (npr. "Modrijani - X 33") + # POZOR: zelo previdno, ker so lahko legit (npr. del naslova) + # — Ne dodam splošnega trailing številk pattern-a, ker bi razbil legitime ] def parse_artist_title(filename_or_title):