Die Programme der automatischen Erkennung Audio- und Videodateien in den Text - Für welche Arten von Audioaufnahmen funktionieren sie gut?

Wann die Programme der automatischen Erkennung zu benutzen?

Nach der Qualität der Aufnahme (in Bezug auf die Erkennung) können Audiodateien in drei Gruppen aufgeteilt werden:

Die Gruppe 1. In der Tonaufnahme spricht der Lautsprecher (oder jeder andere Redner, wie der Interviewer) gut gelieferte Stimme.

Die Gruppe 2. Die Tonaufnahme des Rundtisches oder des Disputes, wo mehrere Menschen gleichzeitig sprechen, unterbrechen einander, werfen die fragmentarischen Phrasen.

Die Gruppe 3. Die Audiodatei enthält eine kaum wahrnehmbare Rede. Die Gründe für eine kaum erkennbaren Rede können viele sein, zum Beispiel, die Aufnahme der Rede vom entfernten Mikrofon oder die sehr starke Quelle des Lärms in der Nähe und so weiter.

 

Jede andere Tonaufnahme ist entweder Teil einer der Gruppen oder besteht aus Fragmenten aus diesen Gruppen. Zum Beispiel, die Audioaufnahme kann qualitative Fragmente (erste Gruppe) und überlappende Fragmente (zweite Gruppe) und kaum hörbare Fragmente (dritte Gruppe) enthalten. Alle Audiodateien aus der 1. Gruppe sind sehr qualitativ in den Text mit dem Programm der automatischen Erkennung entschlüsselt. Seien Sie sicher, dass Sie qualitativ entschlüsselten Text erhalten, möglicherweise mit einer kleinen Anzahl von Fehlern. Selbst wenn die Audiodatei mehreren Rednern enthält, aber Sie sagen, ohne einander zu unterbrechen, wird die Erkennung qualitativ sein. Hier ist die Hauptsache, dass die Stimmen einander nicht unterbrechen. (die Zeichnung 1)

 



Die Zeichnung 1. Sprecher unterbrechen einander nicht.

 

Wenn die Audioaufnahme besteht aus den überlagerten Stimmen (d. h. alle sprechen gleichzeitig, unterbrechen sich gegenseitig), so diese Audioaufnahme unterliegt automatischen Erkennung nicht. (Die Zeichnung 2) Es sei bemerkt, dass dem Entschlüssler wird es auch schwierig sein, mit solcher Audioaufnahme zu arbeiten, auf die Erkennung solcher Audioaufnahme geht es sehr viel Zeit.

 


Die Zeichnung 2. Die Sagenden unterbrechen einander (alle sagen gleichzeitig)

Das gleiche kann man für Audioaufnahme sagen, die Rede vom entfernten Mikrofon aufgezeichnet ist, d.h. es ist schwierig, die Rede des sagenden Menschen zu unterscheiden. In diesen Fällen ist die Programme der automatischen Erkennung sehr wahrscheinlich nicht helfen, auch wenn eine Person spricht. Und dem Entschlüssler ist es schwierig, solche Aufnahme, wie auch den vorhergehenden Fall zu entziffern. (Die Zeichnung 3)

 

Die Zeichnung 3. Die Rede des Sagenden ist kaum hörbar.

Endlich, die letzte Variante, wenn die Audioaufnahme aus den Fragmenten aus allen drei Gruppen besteht, d.h. audio- enthält sowohl normal, als auch auferlegt und die kaum erkennbaren Fragmente. In diesem Fall werden die Fragmente verschieden entziffert. Fragmente von Audioaufnahmen, die in der 1. Gruppe eingehen, werden von der Programme der automatischen Erkennung normal entziffert und andere Fragmenten möglicherweise nicht korrekt. (Die Zeichnung 4)

 



 

Die Zeichnung 4. Die Aufnahme besteht aus den abgesonderten Fragmenten.

Auf dieser Zeichnung Audioaufnahme besteht aus den abgesonderten Fragmenten. Die Fragmente I, III und V haben die „schlechten“ Grundstücke nicht und deshalb wird das Programm der automatischen Erkennung den korrekten Text ausgeben. Und die Fragmente II und IV werden wahrscheinlich nicht korrekt entziffert. Und in diesem Fall wird die Benutzung des Programmes der automatischen Erkennung die Arbeit des Entschlüsslers erleichtert. (Wenn Sie einen speziellen Editor Voicedocs verwenden).

 

Aus dieser kurzen Analyse kann man folgern, dass in einigen Fällen (Zeichnung 1 und 2) das Programm der automatischen Erkennung von Audio/Video im Text, dem Person helfen kann, Zeit und Geld zu sparen.

 

Einfach muss man im Voraus wissen, wenn man dieses mächtige Instrument benutzen soll.

Im nächsten Artikel werden wir darüber sprechen, wie die Aufnahme der Veranstaltung führen, damit das Programm der Erkennung den schnellen und qualitativen Text hat.