Spaces:

DataOperation
/

MUSINSA_Gen_Synonym

Running

App Files Files Community

DataOperation commited on Nov 10, 2025

Commit

055962d

verified ·

1 Parent(s): f8e4295

1110수정ver일본어탭-로마자 (#10)

Browse files

- 1110수정ver일본어탭-로마자 (085e5d8942789440f16915f42b05fa82b150a417)

Files changed (2) hide show

app.py +121 -18
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -288,6 +288,11 @@ jp_common_rules = """
 東国製薬(동국제약):ヒガシコクセイヤク(히가시코쿠세이야쿠-한자의 일본발음)トンクック製薬(통쿡쿠제약)
 """
 def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, model="gpt-4o-mini", api_key=None, temperature=0.3, sleep_sec=1):
     jp_main = jp_syn = eng_syn = comment = ""
@@ -299,8 +304,109 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
         import re
         is_japanese_input = bool(re.search(r'[\u3040-\u309F\u30A0-\u30FF]', word)) and not has_jp_notation
-                # 카테고리별 프롬프트
         prompts = {
             "브랜드": f"""너는 한국어/일본어/영어 패션 브랜드 동의어 전문가야. '{word}'라는 브랜드 이름의 동의어를 최대한 정확하게 찾아서 정리해줘.
 {"⚠️ 중요: 입력에 '일문 표기'가 포함되어 있습니다. 이 일문 표기를 참고하여 동의어를 생성해주세요." if has_jp_notation else ""}
@@ -316,7 +422,6 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
     f"(의미 번역 금지, 실제 브랜드의 음차 표기만 허용)"
 }
 - 동의어(일문): 브랜드 관련 일본어 동의어, 없으면 비워두기, 중복 제거, ex.마르디 메크르디 - 마르디 매크르디,마르디 (Typing 변경 관점)
 {f"  * 참고: 제공된 일문 표기를 동의어 생성 시 참고하되, 동의어에 포함시키지 마세요" if has_jp_notation else ""}
 - 동의어(영문): '{word.split('(')[0].strip() if has_jp_notation else word}'의 영어 공식명 기반 최대 3개
@@ -334,7 +439,6 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
 동의어(영문): word1|word2|word3
 생성 이유: (대표키워드와 동의어를 이렇게 정한 간단한 이유 1문장)""",
             "카테고리": f"""너는 한국어/일본어/영어 패션 카테고리 동의어 전문가야. '{word}' 카테고리 관련 동의어를 최대한 정확하게 찾아서 정리해줘.
 {"⚠️ 중요: 입력에 '일문 표기'가 포함되어 있습니다. 이 일문 표기를 참고하여 동의어를 생성해주세요." if has_jp_notation else ""}
 {"⚠️ 중요: 입력이 일본어입니다. 대표키워드(일문)는 '{word}'를 그대로 사용하고, 동의어만 생성해주세요." if is_japanese_input else ""}
@@ -436,18 +540,12 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
 생성 이유: (대표키워드와 동의어를 이렇게 정한 간단한 이유 1문장)"""
         }
         prompt = prompts.get(category, f"'{word}' 단어의 동의어를 찾아 대표키워드, 일본어 동의어, 영어 동의어를 알려줘.")
         # 공식 영문명이 있으면 프롬프트 수정
         if official_eng:
             prompt += f" 영어 동의어는 반드시 '{official_eng}' 공식 영문명을 기준으로 정확히 3개까지만 제시해줘."
-        # try:
-        #     response = openai.chat.completions.create(
-        #         model="gpt-5-mini",
-        #         messages=[{"role": "user", "content": prompt}]
-        #     )
         try:
             completion = generate_with_model(
                 model_choice=model,
@@ -457,33 +555,30 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
             )
             time.sleep(sleep_sec)
             for line in completion.splitlines():
                 if line.startswith("대표키워드(일문):"):
                     raw_main = line.split(":", 1)[1].strip()
-                    # | 로 구분된 경우 첫 번째 값만 사용
                     jp_main = raw_main.split("|")[0].strip()
                 elif line.startswith("동의어(일문):"):
                     jp_syn = line.split(":", 1)[1].strip()
                 elif line.startswith("동의어(영문):"):
                     raw_eng = line.split(":", 1)[1].strip()
-                    # ✅ 영문 동의어 후처리: 소문자 변환 + 공백 제거
                     eng_list = [x.strip().lower().replace(" ", "") for x in raw_eng.split("|") if x.strip()]
                     eng_syn = "|".join(eng_list)
                 elif line.lower().startswith("생성 이유") or line.lower().startswith("comment"):
                     comment = line.split(":", 1)[1].strip()
-            # ✅ 중복 제거 로직 추가
             if jp_main and jp_syn:
                 jp_main_norm = normalize_word(jp_main)
                 jp_syn_list = [x.strip() for x in jp_syn.split("|") if x.strip()]
-                # 대표키워드와 중복 제거 + 동의어 내부 중복 제거
                 jp_syn_list = [x for x in jp_syn_list if normalize_word(x) != jp_main_norm]
-                jp_syn_list = list(dict.fromkeys(jp_syn_list))  # 순서 유지하며 중복 제거
                 jp_syn = "|".join(jp_syn_list)
             if eng_syn:
                 eng_syn_list = [x.strip().lower().replace(" ", "") for x in eng_syn.split("|") if x.strip()]
-                eng_syn_list = list(dict.fromkeys(eng_syn_list))  # 중복 제거
                 eng_syn = "|".join(eng_syn_list)
         except Exception as e:
@@ -494,19 +589,27 @@ def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, m
         if not text:
             return ""
         text = text.strip()
-        # なし, N/A, None, - 등을 빈 문자열로 처리
         if text.lower() in ["なし", "n/a", "none", "-", "없음"]:
             return ""
         return text
-    # ✅ 항상 4개 반환 (비정상일 때도 안전)
     return (
         clean_none_value(jp_main),
         clean_none_value(jp_syn),
         clean_none_value(eng_syn),
         clean_none_value(comment)
     )
 # -------------------------------
 # GPT 기반 한국어 동의어 조회 (공식 영문명 지원)

 東国製薬(동국제약):ヒガシコクセイヤク(히가시코쿠세이야쿠-한자의 일본발음)トンクック製薬(통쿡쿠제약)
 """
+# 상단 import 섹션에 추가
+from hangul_romanize import Transliter
+from hangul_romanize.rule import academic
 def get_jp_synonyms_formatted(category, word, official_eng=None, use_gpt=True, model="gpt-4o-mini", api_key=None, temperature=0.3, sleep_sec=1):
     jp_main = jp_syn = eng_syn = comment = ""
         import re
         is_japanese_input = bool(re.search(r'[\u3040-\u309F\u30A0-\u30FF]', word)) and not has_jp_notation
+        # ========================================
+        # 🆕 신규 로직: 국문만 입력 + 브랜드일 시 표준 로마자 변환!
+        # ========================================
+        if not has_jp_notation and not is_japanese_input and category == "브랜드":
+            try:
+                # Step 1: 한글 → 표준 로마자 변환
+                transliter = Transliter(academic)
+                romanized = transliter.translit(word)
+                # 각 단어별 첫 글자 대문자 변환
+                romanized_title = ' '.join([w.capitalize() for w in romanized.split()])
+                # Step 2: 표준 로마자 기반 프롬프트
+                prompt = f"""너는 일본어 가타카나 변환 전문가야.
+브랜드명(한글): {word}
+로마자 표기: {romanized_title}
+위 로마자 발음을 정확히 기준으로:
+1. 일본어 가타카나 대표키워드 1개 생성 (로마자 발음 그대로!)
+2. 발음 변형 동의어 생성 (히라가나, 장음/촉음 변형 등)
+3. 영문 동의어는 '{romanized_title}' 기준 소문자/공백제거 변형만
+{jp_common_rules}
+⚠️ 중요 규칙:
+- 대표키워드: {word}
+- 대표키워드(일문)는 '{romanized_title}' 발음을 정확히 따를 것
+- 의미 번역 절대 금지, 음차 표기만!
+- 동의어에는 대표키워드와 동일한 단어 포함 금지
+- 동의어 목록 내 중복 제거
+출력 형식:
+대표키워드: {word}
+대표키워드(일문): [가타카나]
+동의어(일문): [가타카나1|가타카나2]
+동의어(영문): [eng1|eng2]
+생성 이유: {romanized_title} 표준 로마자 철자 기반 생성"""
+                result = generate_with_model(
+                    model_choice=model,
+                    api_key=api_key,
+                    prompt=prompt,
+                    temperature=temperature
+                )
+                time.sleep(sleep_sec)
+                # 파싱
+                for line in result.splitlines():
+                    if line.startswith("대표키워드(일문):"):
+                        raw_main = line.split(":", 1)[1].strip()
+                        jp_main = raw_main.split("|")[0].strip()
+                    elif line.startswith("동의어(일문):"):
+                        jp_syn = line.split(":", 1)[1].strip()
+                    elif line.startswith("동의어(영문):"):
+                        raw_eng = line.split(":", 1)[1].strip()
+                        eng_list = [x.strip().lower().replace(" ", "") for x in raw_eng.split("|") if x.strip()]
+                        eng_syn = "|".join(eng_list)
+                    elif line.lower().startswith("생성 이유"):
+                        comment = line.split(":", 1)[1].strip()
+                # 로마자 정보 추가
+                comment = f"🔤 {romanized_title} → {comment}" if comment else f"🔤 로마자 기반: {romanized_title}"
+                # ✅ 중복 제거
+                if jp_main and jp_syn:
+                    jp_main_norm = normalize_word(jp_main)
+                    jp_syn_list = [x.strip() for x in jp_syn.split("|") if x.strip()]
+                    jp_syn_list = [x for x in jp_syn_list if normalize_word(x) != jp_main_norm]
+                    jp_syn_list = list(dict.fromkeys(jp_syn_list))
+                    jp_syn = "|".join(jp_syn_list)
+                if eng_syn:
+                    eng_syn_list = [x.strip().lower().replace(" ", "") for x in eng_syn.split("|") if x.strip()]
+                    eng_syn_list = list(dict.fromkeys(eng_syn_list))
+                    eng_syn = "|".join(eng_syn_list)
+                # ✅ なし, N/A 처리
+                def clean_none_value(text):
+                    if not text:
+                        return ""
+                    text = text.strip()
+                    if text.lower() in ["なし", "n/a", "none", "-", "없음"]:
+                        return ""
+                    return text
+                return (
+                    clean_none_value(jp_main),
+                    clean_none_value(jp_syn),
+                    clean_none_value(eng_syn),
+                    clean_none_value(comment)
+                )
+            except Exception as e:
+                comment = f"⚠️ 로마자 변환 실패: {str(e)}"
+                # 실패하면 기존 로직으로 폴백
+        # ========================================
+        # 기존 로직 (일문 입력, 국문+일문, 카테고리/색상/속성/일반)
+        # ========================================
+        # 카테고리별 프롬프트
         prompts = {
             "브랜드": f"""너는 한국어/일본어/영어 패션 브랜드 동의어 전문가야. '{word}'라는 브랜드 이름의 동의어를 최대한 정확하게 찾아서 정리해줘.
 {"⚠️ 중요: 입력에 '일문 표기'가 포함되어 있습니다. 이 일문 표기를 참고하여 동의어를 생성해주세요." if has_jp_notation else ""}
     f"(의미 번역 금지, 실제 브랜드의 음차 표기만 허용)"
 }
 - 동의어(일문): 브랜드 관련 일본어 동의어, 없으면 비워두기, 중복 제거, ex.마르디 메크르디 - 마르디 매크르디,마르디 (Typing 변경 관점)
 {f"  * 참고: 제공된 일문 표기를 동의어 생성 시 참고하되, 동의어에 포함시키지 마세요" if has_jp_notation else ""}
 - 동의어(영문): '{word.split('(')[0].strip() if has_jp_notation else word}'의 영어 공식명 기반 최대 3개
 동의어(영문): word1|word2|word3
 생성 이유: (대표키워드와 동의어를 이렇게 정한 간단한 이유 1문장)""",
             "카테고리": f"""너는 한국어/일본어/영어 패션 카테고리 동의어 전문가야. '{word}' 카테고리 관련 동의어를 최대한 정확하게 찾아서 정리해줘.
 {"⚠️ 중요: 입력에 '일문 표기'가 포함되어 있습니다. 이 일문 표기를 참고하여 동의어를 생성해주세요." if has_jp_notation else ""}
 {"⚠️ 중요: 입력이 일본어입니다. 대표키워드(일문)는 '{word}'를 그대로 사용하고, 동의어만 생성해주세요." if is_japanese_input else ""}
 생성 이유: (대표키워드와 동의어를 이렇게 정한 간단한 이유 1문장)"""
         }
         prompt = prompts.get(category, f"'{word}' 단어의 동의어를 찾아 대표키워드, 일본어 동의어, 영어 동의어를 알려줘.")
         # 공식 영문명이 있으면 프롬프트 수정
         if official_eng:
             prompt += f" 영어 동의어는 반드시 '{official_eng}' 공식 영문명을 기준으로 정확히 3개까지만 제시해줘."
         try:
             completion = generate_with_model(
                 model_choice=model,
             )
             time.sleep(sleep_sec)
             for line in completion.splitlines():
                 if line.startswith("대표키워드(일문):"):
                     raw_main = line.split(":", 1)[1].strip()
                     jp_main = raw_main.split("|")[0].strip()
                 elif line.startswith("동의어(일문):"):
                     jp_syn = line.split(":", 1)[1].strip()
                 elif line.startswith("동의어(영문):"):
                     raw_eng = line.split(":", 1)[1].strip()
                     eng_list = [x.strip().lower().replace(" ", "") for x in raw_eng.split("|") if x.strip()]
                     eng_syn = "|".join(eng_list)
                 elif line.lower().startswith("생성 이유") or line.lower().startswith("comment"):
                     comment = line.split(":", 1)[1].strip()
+            # ✅ 중복 제거 로직
             if jp_main and jp_syn:
                 jp_main_norm = normalize_word(jp_main)
                 jp_syn_list = [x.strip() for x in jp_syn.split("|") if x.strip()]
                 jp_syn_list = [x for x in jp_syn_list if normalize_word(x) != jp_main_norm]
+                jp_syn_list = list(dict.fromkeys(jp_syn_list))
                 jp_syn = "|".join(jp_syn_list)
             if eng_syn:
                 eng_syn_list = [x.strip().lower().replace(" ", "") for x in eng_syn.split("|") if x.strip()]
+                eng_syn_list = list(dict.fromkeys(eng_syn_list))
                 eng_syn = "|".join(eng_syn_list)
         except Exception as e:
         if not text:
             return ""
         text = text.strip()
         if text.lower() in ["なし", "n/a", "none", "-", "없음"]:
             return ""
         return text
     return (
         clean_none_value(jp_main),
         clean_none_value(jp_syn),
         clean_none_value(eng_syn),
         clean_none_value(comment)
     )
+```
+## 3. 테스트
+수정 후 테스트해보세요:
+```
+입력: "아크네스튜디오" (분류: 브랜드)
+예상 결과:
+- 로마자: Akeuneseutyudio
+- 일문: アクネスタジオ
+- Comment: 🔤 Akeuneseutyudio → ...
 # -------------------------------
 # GPT 기반 한국어 동의어 조회 (공식 영문명 지원)

requirements.txt CHANGED Viewed

@@ -7,4 +7,6 @@ openpyxl
 jaconv
 pykakasi
 rapidfuzz
-huggingface_hub

 jaconv
 pykakasi
 rapidfuzz
+huggingface_hub
+korean-romanizer
+hangul-romanize