Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

문장마다 끊어서 보이게 하는 법 #395

Closed
xu2k opened this issue Nov 15, 2024 · 4 comments
Closed

문장마다 끊어서 보이게 하는 법 #395

xu2k opened this issue Nov 15, 2024 · 4 comments
Assignees
Labels
enhancement New feature or request

Comments

@xu2k
Copy link

xu2k commented Nov 15, 2024

Which OS are you using?

  • OS: [e.g. iOS or Windows.. If you are using Google Colab, just Colab.]
    캡처
    개발자님 다름이 아니라 이런식으로 여러 문장이 같이 보이는 현상이 있는데

문장마다 끊어져서 보이게 할 수는 없나요?
타임라인의 문제 같은데..

@xu2k xu2k added the bug Something isn't working label Nov 15, 2024
@jhj0517 jhj0517 added enhancement New feature or request and removed bug Something isn't working labels Nov 15, 2024
@jhj0517
Copy link
Owner

jhj0517 commented Nov 15, 2024

안녕하세요! #328 과 같은 내용의 이슈입니다!

Whisper 모델 자체에는 이러한 세그먼트 (받아쓰기를 진행할 문장 단위) 길이를 조절할 수 있는 파라미터 같은 것이 없기 때문에 이러한 것을 하기 위해선 다소의 방법론이 요구 되는데요,

  1. VAD 를 활용하기 ( 목소리 감지 필터 )
    • Minimum Silence Duration (ms) 를 좀 줄여서 문장을 서로 분리하도록 "유도" 하는 것을 시도해 볼 수 있습니다.
  2. large-v3 모델을 사용하기. 경험 상 large-v3가 다른 모델보다 세그먼트를 더 세세하게 나누었습니다. ( 단 오디오에 조금의 소음이라도 있거나 깨끗하지 않을 경우 환각 현상을 일으킬 확률이 높음 )

혹은, #328 에서 논의 중인 max_line_width 변수를 추가하여 자막에서 아예 단어 수를 제한 해버리는 방법이 있습니다.
해당 기능은 아직 개발 중에 있습니다.

해당 문제에 대해선 #328 에서 주시하고 있기 때문에, 이 이슈는 닫도록 하겠습니다!
뭔가 문제가 있거나 더 추가할 사항이 있다면 언제든지 다시 열어주세요!

@jhj0517 jhj0517 closed this as completed Nov 15, 2024
@xu2k
Copy link
Author

xu2k commented Nov 15, 2024

그렇군요..

https://colab.research.google.com/drive/1qeTSvi7Bt_5RMm88ipW4fkcsMOKlDDss?usp=sharing#scrollTo=IuL5nGTIWYTY

제가 이 코랩을 썼을때는 뭔가 끊어지는 기능이 있는 느낌이었어서요
혹시 나중에 시간이 많이 남으시면 한번 확인 해주시면 감사하겠습니다 ㅠㅠ

@xu2k
Copy link
Author

xu2k commented Nov 15, 2024

https://github.com/KryptoST/SRTranslatorGUI

아니면 번역기 사용중에 줄 바꿈이 된건지 아.. 진짜 모르겠네요

이런거 소스를 뜯어볼 능력이 없어서 ㅠㅠ

@jhj0517
Copy link
Owner

jhj0517 commented Nov 15, 2024

아니면 번역기 사용중에 줄 바꿈이 된건지

아뇨 아마 보여주신 코랩의 앱에서 VAD가 구현된 방식이 이 프로젝트의 것과 약간 다른 것 같습니다.
나중에 시간이 날 때 살펴보도록 하겠습니다. 올려주셔서 감사합니다!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants