나는 기사를 연구하는 데 많은 시간을 보내고, 기차역까지 걸어가는 동안 또는 일반적으로 언제든지 기사의 주제를 생각합니다.
어느 날 저녁 내 작업에서 1.5 마일을 걸어가는 동안 "내가 말하고 싶은 것을 녹음 할 수 있다면 그것을 자동으로 텍스트 파일로 옮겨서 편집하고 나중에 포맷 할 수 있다면 좋을 것"이라고 생각했습니다. .
오랫동안 음성 인식 및 받아쓰기에 사용할 수있는 여러 가지 옵션을 살펴 보았습니다. Linux의 받아쓰기 소프트웨어를 사용하여 마이크를 통해 직접 녹음하고, 파일을 MP3 또는 WAV 형식으로 녹음하고, 명령 줄을 통해 파일을 변환하고, Chrome을 사용하여 변환하는 방법 Android 애플리케이션.
이 기사는 고된 노동을 한 후에 나의 발견을 강조한다.
Linux 옵션
리눅스에서 받아쓰기 및 음성 인식 소프트웨어를 찾으려는 시도는 쉽지 않으며 사용 가능한 옵션이 그렇게 영리하지 않습니다.
이 위키피디아 페이지에는 CMU 스핑크스, 줄리어스, 사이먼 등 잠재적 인 옵션 목록이 있습니다.
지금은 데비안 테스팅을 기반으로하는 SparkyLinux를 사용하고 있으며 리포지토리에서 사용할 수있는 유일한 음성 인식 패키지는 스핑크스입니다.
필자가 시도한 네이티브 리눅스 프로그램은 WAV 파일을 텍스트로 변환하는 데 사용되는 PocketSphinx와 마이크에서 바로 녹음 할 수있는 Python 응용 프로그램 인 Freespeech-VR입니다.
또한 VoiceNote II 및 Dictanote를 비롯한 몇 가지 Chrome 앱을 사용해 보았습니다.
마침내 나는 "받아쓰기와 이메일"과 "토크 앤 톡 받아쓰기"안드로이드 애플 리케이션을 시도했다.
자유 의사 표현 - VR
Freespeech-VR은 표준 리포지토리에서 사용할 수 없습니다. 여기에서 파일을 다운로드했습니다.
zip 파일의 내용을 다운로드하고 압축을 푼 다음 터미널을 열고 파일을 압축 해제 한 폴더로 이동했습니다. 다음 명령을 입력하여 freespeech-vr을 엽니 다.
sudo python freespeech-vr
나는 꽤 괜찮은 마이크와 상당히 맑은 남쪽의 영어 억양이있는 헤드폰 한 쌍을 가지고있다.
다음 텍스트가 freespeech-vr 창에 나타납니다.
결과의 개 개에 오신 것을 환영합니다 오늘 관리 테스트 방법을 확인했습니다 테스트해야 할 때 텍스트 할 때 시스템 방식을 사용합니다 음성 나는 그 사람에게만 존재 했습니다만 머물기를 원하고 그 뜻대로 시스템으로 황금 한 마리의 닭을 의미합니다 그 다음에 내 이름이 다음에 전화 할 때 내 이름이 전화 곧이 경우 전화가 손 - 스핑크스가 스핑크스가됩니다. 전화가 공유되지 않습니다. 훈련 된 및 도구 말하기 사용 끝나면 사용 된 파일 마지막 a 이야기 A 그리고에 의해 사용하여 그것은 매우 성공했을 때이 리눅스는 당신이 피하는가했다
나는 이것이 개 단위체 웹 사이트가 아니라고 말하고 싶습니다. 그리고 황금색 닭들과 아무런 관련이 없다고 말하고 싶습니다. 실제로 음성 인식 소프트웨어를 사용하는 과정을 설명하려고했습니다.
나는 다양한 피치와 속도를 포함하여 몇 번 소프트웨어를 시도했지만 정확도가 떨어졌습니다.
PocketSphinx
PocketSphinx는 WAV 파일을 가져 와서 명령 줄을 사용하여 텍스트로 변환 할 수 있습니다. PocketSphinx는 데비안 리포지토리를 통해 구할 수 있으며 대부분의 배포판에서 사용할 수 있어야합니다.
PocketSphinx에서 발견 한 주요 문제점은 음성 인식, 언어 파일, 사전 및 시스템 교육 방법에 대한 학위가 필요하다는 것입니다.
PocketSphinx를 설치 한 후 CMU Sphinx 웹 사이트로 이동하여 최대한 많은 정보를 읽어야합니다. 또한 다음 모델 파일을 다운로드해야합니다.
- 미국 영어 일반 언어 모델
(영어가 모국어가 아닌 사람에게 적합한 언어 모델을 선택하십시오.)
PocketSphinx와 Sphinx에 대한 문서는 일반적으로 평신도에게 이해하기 어렵지만 사전 파일을 만들면 가능한 단어 목록을 제공하고 언어 모델에 잠재적 인 발음 목록이 있습니다.
PocketSphinx를 테스트하기 위해 필자는 "The Devils Advocate"의 알 파치노 (Al Pacino)의 스 니펫과 "Morgan Freeman"의 스 니펫을 사용했습니다. 이것의 요지는 다른 목소리를 시도하는 것이었고, Morgan Freeman만큼 이야기를 분명히 말할 수있는 사람은 아무도 없었으며 아무도 Al Pacino와 같은 선을 전달하지 않습니다.
PocketSphinx가 작동하려면 WAV 파일이 필요하며 특정 형식이어야합니다. 파일이 MP3 형식 인 경우 ffmpeg 명령을 사용하여 WAV 형식으로 변환합니다.
ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 출력 파일 이름 .wav
PocketSphinx를 실행하려면 다음 명령을 사용하십시오.
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log
pocketsphinx_continuous는 WAV 파일을 받아 텍스트로 변환합니다.
위의 명령에서 pocketsphinx는 "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic"이라는 사전 파일을 언어 모델 "cmusphinx-5.0-en-us.lm"과 함께 사용하도록합니다. 텍스트로 변환되는 파일을 voice2.wav라고합니다 (내 목소리로 녹음 한 것입니다). 마지막으로 2>는 voice2.log라는 파일에 반드시 필요한 것은 아닌 자세한 정보를 모두 출력합니다. 실제 테스트 결과는 터미널 창에 표시됩니다.
내 목소리를 사용한 결과는 다음과 같습니다.
다음주에 잘 오신 것을 환영합니다. 이번 주에 어떤 인식 소프트웨어에 관한 주제입니까?
결과는 freespeech-vr만큼 끔찍하지는 않지만 여전히 유용하지는 않습니다. 나는 알 파치노 (Al Pacino)와 함께 PocketSphinx를 사용해 보았지만 결과는 전혀 없었다.
마침내 나는 영화 "Bruce Almighty"의 Morgan Freeman 목소리를 사용 해보았으며 결과는 다음과 같습니다.
000000000 : 우리가 그녀에게000000001 : 그 모든 힘든 예 오늘은 바로 지금 예, 이것은 우리가 살아 왔던 것입니다.000000002 : 약간의 야구 시합에서 열쇠이거나 생활에서해야 할 일을 알고있는 엘리베이터에서000000003 : 복구 할 대상은 무엇입니까?000000004 : 그들은 그것을 쓰지 않았다.000000005 : 그들은 나에게있어000000006 : 규칙을 준수해야합니다.000000007 : 나는 너를 기다리고 있었다.000000008 : 그리고 그는 그림이 살인자 크리스마스 파티 였다는 것을 여기에서 알게되었습니다.000000009 : O를 쓰는 방법 중 하나가되었습니다. 엉덩이는 항상 몇 명은 입을 줄 알았는데.000000010 : 그 문제를 좋아하지 않을 것 같아요. 그 순간에 우리는 당신이 내가 세계에 있다고 생각하는 모든 것이 집이 될 것이라고 생각하지 않았습니다. 나는 그것을 보았습니다.000000011 : 그것을 가진 아버지000000012 :이게 뭐야?000000013 : 주어진 것입니까?000000014 : 많이 떨어지지 않는 모든 것들000000015 : 가을의 오른쪽000000016 : 저를 위해서만 잘 잡으세요.000000017 : 나도 그렇게 생각하면 불행 해. 그게 전부가 될거야. 그게 전부가 아니야. 우리는 내가하는 것과 다르다.
내 테스트는 거의 과학적으로 간주 될 수 없으며 PocketSphinx 개발자는 소프트웨어를 올바르게 사용하지 않는다고 말할 수 있습니다. 더 나은 사전과 언어 파일을 만드는 데 사용할 수있는 음성 훈련이라는 기술도 있습니다.
필자의 최우선 의견은 일상적인 일상적인 사용에는 너무 어렵다는 것입니다.
VoiceNote II
VoiceNote II는 Google 보이스 인식 API를 사용하는 Chrome 앱입니다.
Chrome 또는 Chromium 브라우저를 사용하는 경우 웹 스토어를 통해 VoiceNote II를 설치할 수 있습니다.
VoiceNote II의 아이콘은 창의 맨 아래에서 언어를 설정해야하는 이상한 방식으로 배치되며 편집 버튼도 맨 아래에 있지만 녹음 버튼은 오른쪽 상단에 있습니다.
가장 먼저해야 할 일은 언어를 선택하는 것입니다.이 작업은 세계 아이콘을 클릭하여 수행 할 수 있습니다.
녹음을 시작하려면 마이크 아이콘을 클릭하고 마이크에 말하기 시작하십시오. 최고의 결과를 얻으려면 소프트웨어가 유지할 수있는 기회가 될 수 있도록 중요하게 느꼈습니다.
결과는 다음과 같이 훌륭하지 않았습니다.
안녕하세요. 연결을 환영합니다. Go-Travels.com 오늘의 컨버전에 대한 기사를 텍스트 변환 dunelm farrell recession 2008로 변환하고 2014debian 또는 rpm 패키지를 표시하는 음성 텍스트 애드온을 찾은 가장 좋은 방법을 지원했습니다. 음성을 선택하여 텍스트를 연다. vs edinburgh에서 선택한 프랑스어 독일어 당신이 바다에서 영국 kingdomstart에서 시간을 잡아라 microphonewhat 당신이 텍스트를 텍스트 파일로 쓰는 것을 끝냈습니다 잘 그것은 잉글랜드 남부에서 아주 표준적인 영어 억양입니다.하지만이 토런트에 텍스트를 보러 갈 것입니다 실제 문서와 함께 당신은 makethank에 대한 실수를 볼 수 있습니다.
딕트 노트
Dictanote는 받아쓰기 목적으로 사용될 수있는 더 많은 Chrome 앱으로 더 직관적 인 것으로 나타 났지만 결과는 VoiceNote II보다 좋지 않습니다.
나는 당신이 새로운 문서를 만들지 못하도록하는 Dictanote의 데모 버전만을 사용했으나 이미 편집기에있는 텍스트에 대해 이야기 할 수있게 해줍니다. 음성 인식을 테스트 할 수 있었지만 결과는 VoiceNote II보다 우수하지 않았으므로 프로 버전에 가입하지 않았습니다.
받아쓰기 및 메일
"Dictation And Mail"은 기본 Google 음성 인식 API를 사용하는 Android 애플리케이션입니다.
"받아쓰기와 메일"의 결과는 지금까지 시도한 다른 프로그램보다 훨씬 뛰어났습니다.
안녕하세요. Linux의 삶에 오신 것을 환영합니다. 오늘, 우리는 소리를 텍스트로 변환하는 것에 대해 이야기합니다.
"받아쓰기와 메일"을 사용하는 속임수는 천천히 말하고 발음 할 수 있습니다.
대화가 끝나면 결과를 이메일로 보내실 수 있습니다.
말하기와 말하기 받아쓰기
내가 시도한 다른 안드로이드 애플리케이션은 "Talk and Talk Dictation"이었다.
이 응용 프로그램을위한 인터페이스는 최고의 무리 였고 음성 인식은 실제로 잘 작동했습니다. 받아쓰기를 녹음 한 후 이메일을 포함한 다양한 방법으로 결과를 공유 할 수있었습니다.
Linux Go-Travels.com에 오신 것을 환영합니다. 오늘 우리는 연설을 텍스트로 변환하는 것에 대해 이야기하고 있습니다.
위의 텍스트를 보면 알 수 있듯이 얻을 수있는만큼 분명합니다. 천천히 말하기가 핵심입니다.
개요
네이티브 리눅스는 음성 인식 및 특히 받아쓰기와 관련하여 어떤 방향으로 나아가고 있습니다. Google Voice API를 사용하지만 아직 저장소에 나열되지 않은 일부 애플리케이션이 있습니다.
ChromeOS 애플리케이션은 조금 나아졌지만 Android 휴대 전화를 사용하여 최고의 결과를 얻었습니다. 어쩌면 전화가 더 좋은 마이크를 가지고 있기 때문에 음성 인식 소프트웨어가 전환 가능성이 더 큽니다.
음성 인식이 실제로 사용 가능 해지려면 더 적은 설정만으로 더욱 직관적이어야합니다. 이해하기 쉽도록 언어 모델과 사전을 뒤적 거리지 않아도됩니다.
그러나 모두가 다른 목소리를 가지고 있으며 한 나라의 지역에서 지역으로의 방언이 너무 많아 전 세계에서 사용되는 수백 가지 언어에 대해 걱정하지 않으므로 음성 인식의 전체 기술이 매우 까다로운 데 감사드립니다.
따라서 필자의 분석은 음성 인식 소프트웨어가 아직 개발 중이다.