Bedste tale-til-tekst-software: Diktere resultater

Stemmegenkendelsessoftware bliver bedre hele tiden. På trods af sit ry for ikke at arbejde helt, kan moderne værktøjer gøre et anstændigt stykke arbejde med at oversætte din stemme til tekst til diktering og indtastning af kommandoer. Vi kiggede på nogle af mulighederne for at give dig dette overblik over den bedste tale-til-tekst-software. Vores favorit er Dragon NaturallySpeaking, men der er masser af gratis (eller i det mindste billigere) muligheder også.

Hvis du vil diktere, mens du gør andre ting, er tale-til-tekst perfekt. Du kan f.eks. Skrive en tale til arbejde mens du laver mad. De fleste mennesker taler hurtigere, end de skriver, så det kan gøre dem mere produktive, forudsat at softwaren er nøjagtig. For dem med en fysisk funktionsnedsættelse kan det være deres eneste måde at bruge en computer på, hvilket gør nøjagtigheden desto vigtigere.

Kilometertal kan variere afhængigt af dit sprog eller accent. De af os fra mere afsidesliggende dele af verden finder måske, at vores accenter er mindre tilbøjelige til at blive genkendt end andre. Amerikanere er bedre tilgodeset end for eksempel folk fra Skotland. Forskellige sprog udgør forskellige udfordringer for computertolkningssystemer. Vi vil fokusere på engelsk i vores test, men kan muligvis kaste ind uddrag af andre sprog for at se, hvad der sker.

Til vores test er det vigtigste, vi kigger på, nøjagtighed. Vi læser et fast sæt tekst til hvert værktøj for at sammenligne, hvordan det håndteres. Vi vil også se på kommandogenkendelse, hvor det er relevant.

Det store spørgsmål, vi ønskede at stille, var, om stemmegenkendelsessoftware er flyttet fra at være en lejlighedsvis nyttig nyhed til noget, der tilbyder et rimeligt, eller endda overlegent, alternativ til at skrive.

Vores mikrofon er et standard headset, intet smarte. Vi foretager det meste af vores test på den samme pc og bruger en iPad og Android-telefon til at se på tilbud fra Apple og Google. Vores Mac mini kunne ikke genkende mikrofonindgangen, så den er som standard ude.

vinduer-tale-genkendelse-listening

Windows talegenkendelse

Windows talegenkendelse er indbygget i Windows. Alt hvad du skal gøre for at konfigurere det er at søge efter “talegenkendelse” i Windows-søgefeltet og derefter klikke gennem installationsguiden. Du skal gentage et par sætninger højt. Når du er færdig, byder det straks på at forbedre sig selv ved at bladre gennem dine e-mails og dokumenter. Nej tak, fellas.

vinduer-tale-genkendelse-setup

Du har måske bekymringer for at aktivere talegenkendelse på Windows i betragtning af dens registrering af privatlivets fred. I så fald er vores artikel om Windows 10-privatlivsindstillinger værd at tjekke ud.

Ved at gå videre anbefaler Windows kraftigt, at vi tager en stemmekommandoervejledning. Selvom vi bruger Windows 10 underligt, kan vi kun vælge Windows 7 eller 8.1. Vejledningen er en video, der går igennem kommandolisten, og vores siger helt klart Windows 10 øverst, så vi sprang over for at prøve det.

Vi startede med en succes og åbnede søgevinduet som beregnet. Forsøg på at tilføje en ny linje til et dokument gav os et “hvad var det?” besked dog. Det var det samme med det andet forsøg. Det tredje forsøg åbnede et nyt dokument, og det fjerde forsøgte at vælge alle numrene i vores dokument, så det var ikke særlig nyttigt.

At sige ”gå til sætningens start” tog os til starten af ​​vores indtastede sætning. “Gå til slutningen af ​​sætningen” fungerede også. Begge tog dog længere tid end at ramme nøglen til hjemmet eller slutningen.

Clippy kan tale, men kan det danse?

Vores pc kæmpede så meget, som vi var på det tidspunkt. Vores i5-7600 testsystem oplevede foruroligende ydelsesdip, når vi brugte talegenkendelse, og vi havde problemer med at bladre mellem dokumenter og browserfane på en måde, der mindede os om den gamle Microsoft-favorit, Clippy.

vinduer-tale-genkendelse-hvad

Windows talegenkendelse slukkes hurtigt, i stedet for at tage 45 sekunder at indlæse en animation af sig selv, der kører i afstanden, så tak for små barmhjertighed. Det er også bedst, at Microsoft talegenkendelse ikke giver os et ansigt til stans. Skærme er ikke så holdbare, som de plejede at være.

Da det ofte gjorde den forkerte ting, når vi fortolker vores kommandoer i stedet for intet, regner vi os heldige, at det ikke gjorde noget alvorligt, mens vi brugte det. Potentialet for en arbejdsrelateret katastrofe er der dog. Det fortsatte med at fungere, efter at vi også satte vores mikrofon ned.

Det er rimeligt at sige, at vi havde blandet succes med Windows-talegenkendelse. Det er imponerende, når det fungerer, men får det forkert for ofte at bruge det regelmæssigt. Det kan være nyttigt for fysisk handicappede, men der er bedre muligheder.

Siri tale til tekst

Efter at have været svigtet af Microsoft, troede vi, at Apple ikke ville skuffe os; det er trods alt drevet af Nuance, det samme firma bag Dragon. Det gjorde dog ved at nægte at genkende vores mikrofonindgang, så i stedet for at se på Apples desktop tale til tekst, besluttede vi at teste Siri på iPad.

Siri er den højeste profilerede tjeneste med sin iPhone-inkantation, der populariserer konceptet for tale til tekst og bryder rekorder for den teknologi, der er mest vist i søjler.

Apples enheder ser altid godt ud og er rettet mod brugervenlighed. Vi var ivrige efter at se, om det ville oversætte til funktionel talegenkendelsessoftware. Lad os se, hvordan Siri gik under vores test.

  Bedste Cloud IaaS (infrastruktur-som-en-tjeneste) til File Hosting 2023

æble-bølgeform

Efter lanceringen af ​​Notes-appen beskæftigede vi os med diktat, som indebærer, at input sendes til skyen, så Apple kan behandle. Hvis du er interesseret i privatlivets fred ved dette, skal du læse vores artikel om de bedste cloud-privacy-love.

Brug af skyen gør det muligt at smide en masse computerkræfter på at fortolke, hvad du siger. Du tror måske, at denne tilgang ville være langsom, men den er overraskende hurtig. Der er en mærkbar forsinkelse, men den er ikke lang og fungerer stadig hurtigere end at skrive.

æble-tastatur

Brug af iPad talegenkendelse er enkel. Du skal bare klikke på mikrofonen, når tastaturet er synligt, hvilket er, hvordan de fleste apps, der bruger et tastatur, gør det.

Hvad Dickens?

Apple gjorde et anstændigt job, men det havde stadig problemer med Dickens. De fleste ord i vores prøve stykke blev gengivet nøjagtigt, men der var stadig den underlige klanger, såsom “Oliver var hensynsløs med Missouri.”

Det lykkedes bedre med enkle sætninger, og det meste af det, vi sagde, blev hørt korrekt, så længe vi holdt os til et grundlæggende ordforråd. Dog faldt det lejlighedsvise ord.

Ved internetsøgning er det ofte hurtigere at spørge Siri end at skrive, især på mindre enheder med svage tastaturer.

æble-resultater

Vi testede det næste gang med et par udenlandske ord og stednavne. Det håndterede “konnichi wa”, men kunne ikke genkende navnene på K-pop-bandmedlemmer. Det er stadig til Apples kredit, at vi følte os sikre nok til at give det et skud.

Generelt klarer Siri sig godt med enkle sætninger, og det er godt nok til at bruge, når du vil søge efter noget i en fart. Som dets brugere vil være opmærksomme på, gør den dog masser af fejl og er ret begrænset. Det er stadig en god indsats fra Apple.

Google Dokumenter Stemmetype

Google Docs Voice Typing er gratis og tilgængelig, uanset hvor Chrome er. Det kræver ikke opsætning og kan aktiveres fra værktøjsmenuen i ethvert dokument.

google-voice-typebestemmelse-mic

Fra og med vores Dickens-test fandt vi, at “Oliver Twist” undertiden var “Oliver” og andre gange “overalt.” Mange ord blev sprunget over, og resultaterne var fulde af fejl. Google Docs Voice Typing slår sig automatisk fra og stoppede på et tidspunkt med at svare, på trods af at den var tændt, så vi var nødt til at gentage et afsnit.

google-voice-typebestemmelse-oliver

Efter at have fået dårlige resultater i vores diktatests, prøvede vi at give kommandoer og klarede os bedre. Vi skiftede mellem kursiv og fed skrift, tilføjede tegnsætning og dikterede ord, som alle blev genkendt.

Stadig er Google Docs Stemmetype let at bruge, selvom dens nøjagtighed overlader noget at ønske. Det ser ud til at gøre det bedre, hvis du imidlertid taler højt og tydeligt.

Når tingene holdes langsomt og enkelt, bliver det mere rigtigt, men det er ikke nøjagtigt nok til at være meget mere end en gimmick. Hvis du skulle diktere håndfri i et stykke tid, kan du gøre det og rette fejlene bagefter, men der vil være mange af dem.

google-voice-typning-side

Googles stemmegenkendelse fungerer bedre på mobil end desktop

Skuffet over sin desktop-ydelse besluttede vi at give Google endnu en chance. Denne gang brugte vi Gmail på Android og overraskede meget bedre. Nøjagtigheden var tæt på 100 procent for diktering og tekst, men Dickens-testene så den falde markant. Generelt set fandt vi dog, at Android-versionen fungerede meget bedre end den desktop.

Der er helt klart potentiale i Googles teknologi. Android gav os bedre resultater, og hvis du er villig til at tolerere de mange fejl, kan det være et nyttigt alternativ til dets tastatur.

Speechnotes

Speechnotes er en browser-baseret tale-til-tekst-tjeneste, der giver dig mulighed for at diktere i din browser. Det kræver ikke opsætning ud over at give det tilladelse til at bruge din mikrofon, så du kan komme direkte til at diktere.

Det kunne ikke være enklere at bruge. Der er et stort område til at skrive tekst og en stor mikrofon til at klikke på, når du vil starte og stoppe med at diktere.

Til vores første test forsøgte vi at ramme den med rap, og den gjorde det så godt, som det kunne forventes i betragtning af kvaliteten på vores rim. Det blev sketchier, da vi testede tegnsætning. Hele stoppesteder, kommaer og spørgsmålstegn fungerede det meste af tiden, men kolonerne blev “kodoner” eller “Kyle Long”, som vi aldrig har hørt om.

speechnotes-rap

Emoji-kommandoerne bragte smil til vores ansigter såvel som til vores skærme, men strejf og bindestrek gengivet som ”undgå Hartford.”

Vores Dickens-test vendte tilbage, ”Oliver Twist var desperat efter sult og morgenmad med elendighed,” hvilket i det mindste var i historiens ånd. Mr. Bumble ville blive yderligere rasende over at finde sig selv beskrevet som en “alfa-mor”, dog især mens vi havde valgt engelsk engelsk.

speechnotes-oliver

Vi prøvede at indstille det til amerikansk engelsk og tale i vores bedste amerikanske accent for kun at opdage, at “mor” blev “bombe”. Det var håbløst. I frygt for, at det kunne være vores diktion, vendte vi os til James Earl Jones. En optagelse af en ikonisk scene fra en bestemt film kunne ikke registrere korrekt. Vi prøvede at råbe ind i mikrofonen. Det hjalp heller ikke.

Hold det simpelt

Vi gjorde det bedre, da vi brugte enkle sætninger. Det gjorde et anstændigt job med at få tingene rigtige, selvom der stadig var fejl.

Du kan bruge Speechnotes til at lave et groft udkast, forudsat at tingene holdes enkle, og du taler langsomt. Der ville dog være ganske mange fejl at rette op, hvilket giver os indtryk af en opvaskemaskine, der ikke fungerer, medmindre du vasker pladerne, før du lægger dem i.

  Hvad er netneutralitet, og hvorfor er det vigtigt?

Speechnotes fungerer i enhver browser, så længe browseren er Chrome. Du kan eksportere til .doc- eller .txt-format eller uploade det til Google Drev.

Transcribe

Transkriberen fokuserer på filbaseret lyd, så hvis du vil optage et .mp3 og transkribere det senere, er det værktøjet for dig. Vi tester dog ikke det. Vi ser bare på dens dikteringsevne.

Den hævder, at dens dikteringsfunktion giver dig mulighed for at arbejde to til tre gange hurtigere end at skrive. For at det skal være sandt, er det nødvendigt at oversætte din tale til tekst nøjagtigt. Som dets eget websted påpeger, er det stadig en rørdrøm at gøre det med fuldstændig nøjagtighed.

Det giver dig en uges gratis service, hvorefter den opkræver $ 20 pr. År. Det vil ikke bryde banken og have en løbende debitering snarere end et heftigt engangsgebyr, antyder, at virksomheden er overbevist om, at den holder dig som kunde. Abonnementet betyder også, at du altid kan drage fordel af den seneste version af dens software.

transskribere-main-skærm

Men som en betalt tjeneste er onus på Transcribe til at levere. Da konkurrenterne stort set ikke leverer noget i vejen for hård konkurrence, er baren dog ikke blevet sat højt. Lad os finde ud af, om Transcrib kan rydde det.

Efter tilmelding fik vi en kort rundvisning med en pop-up, der forklarede et par værktøjer og kontroller. Derefter gik vi mod diktatknappen, ivrige efter at se, hvad Transkribere ville gøre af vores vandrende.

Vi begyndte med Oliver. Som sædvanligt fik vi cirka 50 procent nøjagtighed, idet den ulige sætning blev fortolket perfekt, og andre kom tilbage til os som “gå videre til mesteren, bison og skeen i hånden,” som brød trolldommen noget. Oliver blev også omdøbt til “overalt” på et tidspunkt.

transskribere-oliver

Transkribes ydelse forbedret med enkle sætninger. Det startede med at få otte på hinanden følgende sætninger 100 procent korrekte. Den første fejl opstod, da vi blev over selvtillid og begyndte at slå ord ud med hastighed, men det fik tingene rigtigt, da vi gik tilbage og gentog os langsomt.

transskribere-simple-sætninger

Et rimeligt job med at være nyttig

Sammenlignet med Windows, Speechnotes og Google er Transcribe langt fremme og det kanter forbi Siri i pålidelighed. Det kan stadig ikke styre “Oliver Twist”, men gør et godt stykke arbejde med at gengive enkle sætninger. Det forstod ikke vores franskmænd, men kan næppe bebrejdes det, som få franske folk heller gør.

Hvis du ikke kan skrive eller har det så dårligt, at du laver en fejl eller to hver sætning, kan du opleve, at Transcribe forbedrer din produktivitet. Det kan også være nyttigt til optagelse af møder eller samtaler i situationer, hvor du kun har brug for uslebne notater eller er glade for at gå tilbage og rette fejl senere.

Transkriberen er browserbaseret, men diktat fungerer kun i Chrome. Du kan dog eksportere til .doc, så du ikke er bundet til tjenesten.

Dragon NaturallySpeaking

Vi kiggede på Dragon NaturallySpeaking sidst, som er den dyreste på denne liste. Vi testede den billigste version, Home, på vores pc. Den hævder, at den “fanger dine tanker så hurtigt som du kan tale dem.” Efter at have været skuffet over den anden software, håbede vi, at det gjorde det, men var skeptiske.

Opsætning er en prøvelse, med akavede downloadlink og et serienummer, der skal indtastes i fem forskellige felter uden at give brugerne mulighed for at indsætte det hele på én gang. Når vi kiggede på installationsmulighederne, fandt vi flere tilgængelige engelske moduler. Du kan vælge fra australske, canadiske, britiske, amerikanske, indiske eller sydøstasiatiske, hvilket er imponerende, men du vil måske deaktivere dem, du ikke ønsker, da de spiser over 200 MB plads hver.

Det blev dog forvirrende, når vi valgte vores region og accent. Hvis vi valgte USA som vores region, kunne vi vælge mellem alle tilgængelige accenter, men da vi valgte Storbritannien, kunne vi ikke vælge spanske eller pakistanske accenter. Med vores region indstillet til Indien, Australien eller New Zealand kunne vi overhovedet ikke vælge vores accent.

Rejsende, der indstiller deres område til deres placering uden at kontrollere omhyggeligt, er måske ikke klar over, at de kan indstille Dragon til deres accent, der ser ud som en bommert fra et anvendelighedsperspektiv.

Under antagelse af, at vores britiske accent var “standard”, fortsatte vi. Der var avancerede muligheder for at vælge vores ordforrådstype, men kun store var tilgængelige. Du kan også vælge den lydakustiske model, men den tilbyder kun en tidligere version af standard BestMatch V.

Gå ind i dragen

Drage-NaturallySpeaking-Logo

Ved opstart fik vi muligheden for at starte i prøvefunktion, på trods af at vi ikke fandt et gratis prøvelink på webstedet eller aktiverede produktet, som vi valgte.

Det bad os om at læse noget tekst for at bekræfte, at vores mikrofon fungerede. Dragon var så selvsikker, det skar os halvvejs igennem og lod os gå videre til selvstudiet. “Gå igennem disse progressive simuleringer, og du lærer vigtige færdigheder effektivt!” det annoncerede.

Selvstudierne så klodsede ud, men var bedre, når det kom til indhold. Vores første chance for at teste Dragon’s talegenkendelse kom, da den bad os om at slukke mikrofonen med vores stemme. Det tog to forsøg. Den første tutorial-diktatest tog to forsøg, før vi også hørte os, men problemet forsvandt uden for tutorial, så det er ikke så alvorligt.

  De fem værste skyfejl siden 2011

Fra det tidspunkt og frem, fik det alt godt, inklusive nogle komplekse tegnsætning og numerisk input. Da vi kun sagde, hvad det fortalte os om, forbeholdt vi dog vores dom.

Vejledningen giver dig råd om, hvordan du taler, når du bruger applikationen, som er velkommen og vil hjælpe med at forbedre brugernes chancer for at blive forstået. Det lærer dig også at bruge den “korrekte” menu, når den laver fejl.

På et tidspunkt syntes en pop-up at fortælle os, hvad vi sagde, ikke var genkendelig. Vi spekulerede på, om det virkelig var vores skyld. En anden pop-up tilbød at installere en browserudvidelse til os. Nogle kan synes, at disse pop-ups er nyttige, andre kan betragte dem som irriterende.

Brug af Dragon NaturallySpeaking

Efter at have hoppet gennem alle disse bøjler, er Dragon en leg at bruge. Dens menulinje sidder øverst på skærmen og har en stor rød mikrofon til at klikke på, når du vil tænde den. Visuelt lader Dragon ikke dig starte med at sige “mikrofon til.” Du skal klikke for at begynde.

speechtotext-dragen-bar

Menulinjen er godt designet og giver dig adgang til mange nyttige funktioner. Dragon giver dig mulighed for at vælge brugerprofiler, hvilket er nyttigt, hvis du har personer med forskellige accenter, der bruger den samme maskine. Det kan analysere dit ordforråd ved at se på brugervalgte dokumenter, hvilket betyder, at du kan træne det med data, der afspejler din personlige sprogbrug.

Der er flere lydkalibreringsindstillinger og en funktion, der giver dig mulighed for at træne specifikke sætninger. Du kan også se en genkendelseshistorie for at se, om der er noget, Dragon ofte går galt i.

Den har også en række hjælpefunktioner. Der er en præstationsassistent og flere muligheder for hjælp og support. Hjemmesiden indeholder et væld af dokumentation, men det ser ud til at være spredt. Brugervejledningslinket, vi så, dækkede ikke meget ud over installationen. Der er nyttige kommandoguider til Professional og Legal-versionerne, men vi kunne ikke finde en til Startside.

Der er også en vidensbase, så hvis du har brug for support, er der en masse muligheder. Når vi gennemser dette lærte vi, at kun en bruger pr. Maskine er tilladt, så det er dyrt at drage fordel af funktionen til flere profiler.

Menuen “korrekt” er nyttig og giver dig en liste over alternative fortolkninger til det, du sagde. De er anført, så du kan vælge dem efter nummer, hvis du ser den du ønsker.

Efter at have været imponeret over dens funktioner, men skuffet over de mindre anvendelighedsproblemer under opsætningen, begyndte vi vores “Oliver Twist” -diktatestest og spekulerer på, om Dragon ville retfærdiggøre dens pris.

Fem minutter senere havde vi vores svar. Dragon dræber kæber, når det kommer til dens centrale træk ved at genkende, hvad du siger. Se på vores diktat testresultater.

speechtotext-dragon-diktat

Det er 200 ord fra det 19. århundredes prosa gengivet med tre fejl. “Rebel” blev “rabel”, “perle” blev “bille”, og det havde ingen chance med “Mr. Limbkins.” Den skitserede tegnsætning er ned til os, og hvad der alligevel er en perle?

Vi kender mennesker, der ikke er så gode til at fortolke tale. Det var så godt, at vi var nødt til at ty til “Mary Poppins” for at få en morsom fejl ud af det, med “supercalifragilisticexpialidocious”, der blev “super Californien, der fortæller at lukke ud.”

Dragon inkluderer et praktisk “læringscenter”, der viser dig kommandoer, der er relevante for hvad du laver. Det er en dejlig måde at lære om softwaren, især når man starter. Grundlæggende diktat er imidlertid enkelt og kan bruges uden hjælp.

speechtotext-dragon-learning-center

Den bedste tale-til-tekst-software?

Til ”$ 150},

Dommen

Vi havde det sjovt at teste disse værktøjer og afsløre deres begrænsninger. Der var mange underholdende fejl. Komedieforfattere med forfatterblok kunne gøre det værre end at diktere nogle af disse applikationer og se, hvilke sjove linjer der materialiseres.

Vores første indtryk, når vi kiggede på de gratis muligheder, var, at denne teknologi er imponerende, når den fungerer, men er nødt til at blive mere pålidelige for at realisere sit potentiale.

Ser man på Dragon ændrede det. Det er på et andet niveau end de andre for nøjagtighed. Forskellen var nat og dag, og vi kan se os selv bruge Dragon i scenarier, hvor ingen af ​​de andre værktøjer ville være levedygtige.

De mobile indstillinger er værd at bruge til søgning, så længe du er parat til at gå til det virtuelle tastatur ved de mange lejligheder, de ikke fungerer.

Transcrib gør et anstændigt forsøg på nøjagtighed, men er ikke godt nok, og til professionelt brug betragter vi Dragon værd at pengene for den ekstra ydelse.

Mens vi har haft det sjovt, har denne artikel delvis været en øvelse for at se, hvorfor disse tjenester ikke bruges mere udbredt. De gratis muligheder, skønt ikke uden fortjeneste, lader meget tilbage at ønske. Der er stadig ingen skade ved at prøve dem, og hvem ved, kan du opleve, at de genkender alt, hvad du siger.

Den bedste stemmegenkendelsessoftware

Hvis du er villig til at betale $ 150 for Dragon, ændrer ting sig fuldstændigt. Forhåbentlig filtreres dens teknologi ned til de gratis tilbud. Det kan være en spilskifte og ændre den måde, vi interagerer med vores enheder for evigt.

Science fiction-drømmen om, at vores computere reagerer på vores ord, kan være tættere, end vi tror, ​​selvom du i de fleste tilfælde har brug for en høj tolerance for fejl.

Hvis du har nogle anbefalinger til andre tjenester, så fortæl os det. Vi ville være interesseret i at høre, hvordan du gjorde det med dem. Det kan være, at folk med forskellige stemmer har forskellige oplevelser, så køb dig rundt, hvis du ikke kan lide vores anbefalinger. Tak for at have læst.

Kim Martin
Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me