Cloud Speech-to-Text

Durch maschinelles Lernen unterstützte Umwandlung von Sprache in Text für kurz- und langformatige Audioinhalte

Dokumentation für dieses Produkt ansehen

Leistungsstarke Spracherkennung

Mit Google Cloud Speech-to-Text können Entwickler Audio in Text umwandeln. Dabei kommen leistungsstarke Modelle neuronaler Netze in einer einfach zu bedienenden API zum Einsatz. Diese API erkennt 120 Sprachen und Sprachvarianten und unterstützt damit Nutzer auf der ganzen Welt. So können Sie zum Beispiel die Sprachsteuerung nutzen, Sprachaufzeichnungen aus Callcentern transkribieren und vieles mehr. Dank der Technologie von Google für maschinelles Lernen können Audioinhalte in Echtzeit oder in aufgezeichneter Form verarbeitet werden.

Sprache in Text umwandeln

Wählen Sie eine Sprache aus und klicken Sie auf "Start now", um etwas aufzuzeichnen.

Durch maschinelles Lernen unterstützt

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung sind beeindruckend treffsicher. Cloud Speech-to-Text wird im Lauf der Zeit immer besser. Dies liegt daran, dass Google die interne Spracherkennungstechnologie, die auch in Google-Produkten verwendet wird, kontinuierlich optimiert.

Erkennt 120 Sprachen und Sprachvarianten

Mit Cloud Speech-to-Text können Sie Nutzer auf der ganzen Welt unterstützen, weil 120 Sprachen und Sprachvarianten erkannt werden. Außerdem können Sie in allen Sprachen unangemessene Inhalte in Textergebnissen herausfiltern.

Erkennt automatisch die gesprochene Sprache

Mit Cloud Speech-to-Text lassen sich sprachliche Äußerungen in bis zu vier Sprachen erkennen. Dies kann für Anwendungsfälle wie Sprachsuche (z. B. "Wie ist die Temperatur in Barcelona?") und Befehle (z. B. "Lautstärke erhöhen") verwendet werden.

Erzeugt Texttranskriptionen kurz- und langformatiger Audioinhalte in Echtzeit

Cloud Speech-to-Text kann Textergebnisse streamen, sobald diese in Audiostreams erkannt werden bzw. während der Nutzer noch spricht. Außerdem ist Cloud Speech-to-Text in der Lage, erkannten Text aus Audioinhalten zurückzugeben, die in einer Datei gespeichert sind. Sowohl kurz- als auch langformatige Audioinhalte können analysiert werden.

Transkribiert automatisch Eigennamen und kontextabhängige Formatierung

Cloud Speech-to-Text kommt gut mit gesprochener Sprache zurecht und kann sogar Eigennamen (z. B. Sundar Pichai) korrekt transkribieren sowie bestimmte Elemente wie Datumsangaben oder Telefonnummern entsprechend formatieren. Google unterstützt mehr als zehnmal so viele Eigennamen wie Stichworte im umfangreichen Oxford English Dictionary enthalten sind.

Auswahl vorkonfigurierter Modelle passend für Ihren Anwendungsfall

Cloud Speech-to-Text beinhaltet mehrere vorkonfigurierte Spracherkennungsmodelle, die Sie für Ihren jeweiligen Anwendungsfall (z. B. Sprachbefehle) optimieren können. Unser vordefiniertes Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Es nutzt ML-Technologien, die auch bei der Untertitelung in YouTube eingesetzt werden.

Modell	Beschreibung
command_and_search	Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche
phone_call	Optimal für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet)
video	Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise sind die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardpreis.
default	Optimal für Audiodaten, die zu keinem spezifischen Audiomodell gehören, zum Beispiel langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet sind.

Vorteile von Cloud Speech-to-Text

Durch maschinelles Lernen unterstützte Umwandlung von Sprache in Text

Automatische Spracherkennung: Die automatische Spracherkennung wird von einem neuronalen Deep-Learning-Netz unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular: Erkennt 120 Sprachen und Sprachvarianten mit einem umfassenden Vokabular.
Formulierungshinweise: Die Spracherkennung kann auf einen bestimmten Kontext zugeschnitten werden, indem Wörter und Formulierungen bereitgestellt werden, die wahrscheinlich gesprochen werden. Dies ist besonders nützlich für das Hinzufügen von benutzerdefinierten Wörtern und Namen zum Vokabular und in Anwendungsfällen mit Sprachsteuerung.
Unterstützung von Echtzeitstreaming und aufgezeichneten Audioinhalten: Die Audioeingabe kann vom Mikrofon in einer Anwendung gestreamt oder als zuvor aufgezeichnete Audiodatei verschickt werden (inline oder über Google Cloud Storage). Es werden verschiedene Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Sprache automatisch erkennen ^BETA: Wenn Sie Szenarien mit mehreren Sprachen unterstützen müssen, können Sie jetzt zwei bis vier Sprachcodes angeben. Cloud Speech-to-Text erkennt dann die richtige gesprochene Sprache und stellt das Transkript bereit.

Unterdrückung von Nebengeräuschen: Verarbeitet Audioinhalte mit Nebengeräuschen aus verschiedensten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalte herausfiltern: Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Automatische Zeichensetzung ^BETA: Satzzeichen wie Kommas, Fragezeichen und Punkte werden dank maschinellem Lernen korrekt gesetzt.
Modellauswahl ^BETA: Sie haben die Wahl zwischen vier vorkonfigurierten Modellen für Standardaufgaben, Sprachbefehle und -suche, Telefonanrufe und Videotranskription.
Sprecherbestimmung ^BETA: Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.
Multikanal-Erkennung ^BETA: Bei Aufzeichnungen mit mehreren Teilnehmern (z. B. Telefonanrufe mit zwei Kanälen oder Videokonferenzen mit vier Kanälen) erkennt Cloud Speech-to-Text jeden Kanal einzeln und annotiert die Transkripte, damit sie der ursprünglichen, realen Reihenfolge entsprechen.

Cloud Speech-to-Text API – Preise

Leistungsstarke Spracherkennung

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeitetem Audioinhalt abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Funktion	Standardmodelle (alle Modelle bis auf erweiterte Telefonanrufe und Video)		Premiummodelle* (erweiterte Telefonanrufe, Video)
	0 bis 60 Minuten	Über 60 bis 1 Million Minuten	0 bis 60 Minuten	Über 60 bis 1 Million Minuten
Spracherkennung (ohne Daten-Logging – Standard)	Kostenlos	0,006 $/15 Sekunden**	Kostenlos	0,009 $/15 Sekunden**
Spracherkennung (mit optionalem Daten-Logging)	Kostenlos	0,004 $/15 Sekunden**	Kostenlos	0,006 $/15 Sekunden**

Diese Preise gelten für Anwendungen auf privaten Systemen (z. B. Smartphones, Tablets, Laptops, Computer). Kontaktieren Sie uns (nur auf Englisch verfügbar), um eine Genehmigung und Preisinformationen für die Nutzung der Speech-to-Text API auf eingebetteten Geräten zu erhalten (z. B. Fahrzeuge, Fernsehgeräte, Haushaltsgeräte oder Lautsprecher).

^* Diese Modelle sind momentan nur auf US-amerikanischem Englisch verfügbar.

^** Jede Anfrage wird auf den nächsten 15-Sekunden-Schritt aufgerundet. Wenn Sie zum Beispiel drei separate Anfragen (Standardmodell) mit jeweils 7 Sekunden Audio senden, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf den nächsten 15-Sekunden-Schritt erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.

Ein auf dieser Seite erwähntes Produkt oder eine Funktion befindet sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

Kostenlos testen

Apr	MAY	Jun
	29
2018	2019	2020

Leistungsstarke Spracherkennung

Durch maschinelles Lernen unterstützt

Erkennt 120 Sprachen und Sprachvarianten

Erkennt automatisch die gesprochene Sprache

Erzeugt Texttranskriptionen kurz- und langformatiger Audioinhalte in Echtzeit

Transkribiert automatisch Eigennamen und kontextabhängige Formatierung

Auswahl vorkonfigurierter Modelle passend für Ihren Anwendungsfall

Feedback geben zu...