Skip to content

feat(korean-persona): Nemotron-Personas-Korea 기반 한국어 퍼소나 주입 (3 skills, Codex 호환)#9

Open
hongsw wants to merge 1 commit into
revfactory:mainfrom
hongsw:feat/korean-persona-injection
Open

feat(korean-persona): Nemotron-Personas-Korea 기반 한국어 퍼소나 주입 (3 skills, Codex 호환)#9
hongsw wants to merge 1 commit into
revfactory:mainfrom
hongsw:feat/korean-persona-injection

Conversation

@hongsw
Copy link
Copy Markdown

@hongsw hongsw commented Apr 27, 2026

Closes #8

Summary

  • 3개 신규 스킬로 임의 도메인 에이전트 팀에 한국어 페르소나(NVIDIA Nemotron-Personas-Korea, 100만 행, CC BY 4.0)를 런타임 동적 매핑
  • 기존 skills/harness/ 비침습 (description 기반 트리거 분기, 변경 없음)
  • 산출물: 한국어 voice·존댓말·산업 어휘가 입혀진 .claude/agents/{name}.md (또는 $CODEX_HOME/agents/) + 출처 attribution(CC BY 4.0) 자동 삽입
  • Codex CLI 호환 — SKILL.md 포맷이 양 런타임 동일, 한 줄 설치 스크립트로 양쪽 배포

변경 내용 (코드만)

신규 스킬 (skills/, 비침습):

  • korean-persona-search/ — Parquet predicate pushdown 다축 필터 + 다양성 샘플링. scripts/download.py(HF 캐시), scripts/search.py(검색). references/{schema,filter-cookbook}.md.
  • korean-voice-adapter/ — 합쇼/해요 매트릭스, 한국 직장 문화, 13개 산업 어휘 사전. references/{honorifics,workplace-culture,industry-tone}.md.
  • korean-persona-harness/ — 메타 오케스트레이터(서브 에이전트 5인 파이프라인: 시나리오 분석가 → 퍼소나 큐레이터 → 화법 어댑터 → 에이전트 빌더 → 다양성 QA). references/agents/ 5개 sub-agent 프롬프트. Phase 6에서 Claude Code/Codex 런타임 자동 감지로 출력 경로 분기.

설치 스크립트:

  • scripts/install-korean-persona.sh--target {codex|claude-code|both}, --from-github, --dry-run. Codex skill-installer 통합. --help로 옵션 확인.

의존성: huggingface_hub, pyarrow — lazy import, 누락 시 명확한 설치 안내.

라이선스: 데이터셋 CC BY 4.0 → 생성 에이전트 정의 하단에 uuid + attribution 자동 삽입.

범위 외 (이 PR에서 제외)

본 PR은 코드만 다룹니다. README / docs/ / CHANGELOG.md / 비교 테스트 산출물(_workspace/comparison_test/)은 별도 PR(또는 머지 후 본가 문서 흐름)에서 다루는 편이 적절하다고 판단해 분리했습니다. 검증·정성 비교 결과는 코멘트로 첨부 가능합니다.

Test plan

  • search.py 합성 5행 데이터셋으로 8개 케이스(필터/다양성/persona-types/빈 결과/의존성 누락 안내) 통과
  • bash -n scripts/install-korean-persona.sh 통과, --help 정상
  • python -m py_compile skills/korean-persona-search/scripts/{download,search}.py 통과
  • 기존 skills/harness/ 무변경 (git diff upstream/main..HEAD -- skills/harness 비어있음)
  • 모든 SKILL.md frontmatter 유효, 깨진 cross-reference 없음
  • 양 스킬의 description 키워드로 트리거 분기 (한국어 페르소나 단서 → 새 스킬, 그 외 → 기존)
  • (사용자 환경에서 권장) 실제 데이터셋 다운로드 후 e2e 시나리오 1회

영향

  • 사용자가 한국어/한국 시장 시나리오에서 명시적 트리거 시에만 새 스킬 활성화
  • 일반 도메인 사용자는 기존 동작 그대로
  • 의존성·캐시는 첫 사용 시점에만 안내 출력

🤖 Generated with Claude Code

@hongsw
Copy link
Copy Markdown
Author

hongsw commented May 1, 2026

@revfactory 안녕하세요 시간이 괜찮으시면 리뷰 부탁드립니다 ^^

문서는 빼고 feat만 정리 해서 올리겠습니다.

ps. 저는 활용했더니 성과가 좋아서 공유도 했습니다. https://news.hada.io/topic?id=28956

…, Codex 호환)

NVIDIA Nemotron-Personas-Korea(100만 행, CC BY 4.0) 합성 페르소나를 런타임
동적 매핑하여 한국 업무 매너·존댓말 레벨·산업 어휘가 살아있는 에이전트
정의를 생성한다. 기존 `skills/harness/`는 비침습 (description 기반 트리거
분기, 변경 없음).

신규 스킬 (3):
- skills/korean-persona-search/  — Parquet predicate pushdown 다축 필터
  + 다양성 샘플링. download.py(HF 캐시), search.py(검색).
  의존성: huggingface_hub, pyarrow (lazy import + 누락 시 안내).
- skills/korean-voice-adapter/   — 합쇼체/해요체 매트릭스, 한국 직장 문화
  (보고/회의/세대/지역), 13개 산업 어휘 사전.
- skills/korean-persona-harness/ — 메타 오케스트레이터 (서브 에이전트 5인
  파이프라인: 시나리오 분석가 → 퍼소나 큐레이터 → 화법 어댑터 →
  에이전트 빌더 → 다양성 QA). Phase 6에서 Claude Code/Codex 런타임 자동
  감지로 출력 경로 분기.

설치 스크립트:
- scripts/install-korean-persona.sh — `--target {codex|claude-code|both}`
  로컬 복사 또는 Codex `skill-installer`로 GitHub 직접 설치
  (`--from-github OWNER/REPO`). dry-run 지원.

산출물:
- `.claude/agents/{name}.md` (Claude Code) 또는 `$CODEX_HOME/agents/{name}.md`
  (Codex) — 한국어 voice + 출처 attribution(uuid + CC BY 4.0).

검증:
- search.py 합성 5행 데이터셋으로 8개 케이스(필터/다양성/persona-types/빈
  결과) 모두 통과.
- 기존 `harness/` 디렉토리 무변경.
- 두 스킬 description은 트리거 분기되도록 구분 (한국어/한국 문화 명시).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
@hongsw hongsw force-pushed the feat/korean-persona-injection branch from a47b116 to 4aa51c5 Compare May 1, 2026 08:43
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[proposal] 한국어 퍼소나 데이터셋 기반 에이전트 생성 보강 (Nemotron-Personas-Korea)

1 participant