Οι περισσότεροι άνθρωποι συσχετίζουν τον Αμερικανικό νόμο με αναπηρίες με φυσικές αλλαγές υποδομής που πρέπει να γίνουν σε κτίρια ή άλλους χώρους, αλλά καθώς ο ορισμός της αναπηρίας διευρύνεται, οι άνθρωποι συνειδητοποιούν ότι το «προσβάσιμο» ισχύει και για πράγματα όπως ιστότοποι και αναγνώριση φωνής.
Σε αυτή την περίπτωση, ο τεχνολογικός κολοσσός Google καταβάλλει προσπάθειες για τη βελτίωση του λογισμικού αναγνώρισης φωνής με το Project Euphonia. Το Project Euphonia είναι μια πρωτοβουλία για την καταγραφή δειγμάτων φωνής από εθελοντές και την ανάλυσή τους ώστε άτομα με ALS, νευρολογικές διαταραχές και άλλες δυσκολίες στην ομιλία να μπορούν να χρησιμοποιήσουν τις έξυπνες συσκευές τους με την ευκολία ενός «τυπικού» ατόμου.
Γιατί ήμουν εθελοντής
Ένα παράλυτο αριστερό φωνητικό κορδόνι και ασύμμετρη γλώσσα λόγω όγκου στον εγκέφαλο είχε ως αποτέλεσμα την ομιλία μου να δυσφορεί. Η ασαφής ομιλία μου και η αδύναμη φωνή μου δυσκολεύουν τους φίλους και την οικογένεια να με καταλάβουν ή να με ακούσουν-ιδιαίτερα σε ένα γεμάτο χώρο. Αυτό με έκανε βασικό υποψήφιο για το Project Euphonia, οπότε προσφέρθηκα εθελοντικά μόλις το διάβασα. Ηχογραφώντας δείγματα σε έναν υποτυπώδη ιστότοπο, επανέλαβα 4.500 φράσεις από το «Πώς θα φτάσω στο Mountain View, California;» έως το «Αναπαραγωγή τραγουδιών από την Cardi B».
Εκτός από την εκπλήρωση των κριτηρίων του Project Euphonia, προσφέρθηκα εθελοντικά επειδή πρωτογνώρισα στο κορυφαίο πρόγραμμα αναγνώρισης φωνής Dragon Naturally Talk το 1997-και απέτυχε θεαματικά. Με τα χρόνια, έχω δοκιμάσει ανάλογα προγράμματα στο Assistive Technology Lab στο Boston’s Children's Hospital, καθώς και ενημερωμένες εκδόσεις του Δράκων, και παρόλο που αυτό το λογισμικό έχει κάνει μεγάλα βήματα, εξακολουθεί να δυσκολεύεται να εντοπίσει τη φωνή μου.
Αυτό είναι προβληματικό για δύο λόγους: Είμαι συγγραφέας με έλλειψη λεπτών κινητικών δεξιοτήτων, οπότε πληκτρολογώ με το ένα χέρι ή αργά με δύο αν είμαι κουρασμένος. Με τρία αυτο-δημοσιευμένα βιβλία με ποιήματα, απομνημονεύματα και μια συλλογή αδημοσίευτων συνδεδεμένων ιστοριών με το όνομά μου, ανατριχιάζω όταν σκέφτομαι πόσο περισσότερα θα μπορούσα να είχα βγάλει αν η δακτυλογράφηση δεν ήταν μια τόσο επίπονη σωματικά εργασία.
Ο άλλος λόγος για τον οποίο η αναγνώριση φωνής κάτω από το επίπεδο δημιουργεί ένα εμπόδιο για μένα είναι ο πολλαπλασιασμός προϊόντων με δυνατότητα φωνής σε σπίτια και τηλέφωνα. Απλώς χρησιμοποιώντας την ιστορία μου, αν μπορούσα να έχω πρόσβαση σε υπολογιστές και έξυπνες συσκευές με τον τρόπο που προοριζόταν να χρησιμοποιηθούν, θα μου έδινε περισσότερο ελεύθερο χρόνο, θα μου επέτρεπε να ολοκληρώσω πλήρως τις εργασίες και ενδεχομένως να μεταμορφώσω τον τρόπο που ζω.
Project Euphonia: Πώς λειτουργεί;
Λοιπόν, πώς λειτουργεί το Euphonia; Μετά τη λήψη μιας πρότυπης εφαρμογής με ένα εξατομικευμένο μοντέλο αναγνώρισης ομιλίας στο τηλέφωνό μου, τοποθέτησα το τηλέφωνο δίπλα στο φορητό υπολογιστή μου και το υπαγόρευσα. καθώς το έκανα αυτό, παρακολούθησα όλα όσα είπα να εμφανίζονται στο Google Doc στο φορητό υπολογιστή μου. Το έκανα για μερικούς μήνες, καταγράφοντας φράσεις από ένα μυθιστόρημα που έγραφα και διόρθωνα τυχόν ανακρίβειες για την Google χρησιμοποιώντας την εφαρμογή.
Μετά από αρκετούς μήνες χωρίς εγγραφή φράσεων, τελείωσα το πρώτο προσχέδιο ενός μυθιστορήματος - 20.000 λέξεις - χρησιμοποιώντας την εφαρμογή. Αυτό δεν σημαίνει ότι είναι άψογο. για κάθε ώρα που γράφω, πρέπει να επιστρέψω και να περάσω μια ώρα κάνοντας μικρές διορθώσεις. Αλλά δεν με πειράζει γιατί η Euphonia βρίσκεται σε βήτα στάδιο και αντί για αργά 100 λέξεις την ημέρα, παράγω 500 λέξεις την ημέρα.
Στη συνέχεια, υπάρχει το γεγονός ότι το Euphonia δεν σχεδιάστηκε για επεξεργασία κειμένου - είναι περισσότερο για δηλωτικές εντολές - και το στυλ γραφής μου είναι αυτό που λένε "παντελόνι" (πετάξτε στο κάθισμα του παντελονιού σας), οπότε έχω πολλές παύσεις γιατί δεν ξέρω πώς θα τελειώσει μια πρόταση - ξέρεις, όπως ο Μάικλ Σκοτ. Όταν ξέρω τι θέλω να πω, όμως, όπως σε κείμενα, μηνύματα ηλεκτρονικού ταχυδρομείου ή δίνοντας οδηγίες στον βοηθό μου, είναι μακράν η πιο ακριβής αναγνώριση ομιλίας που έχω χρησιμοποιήσει ποτέ.
Όταν ιδρύματα όπως η Google δίνουν φωνή στα άτομα με ειδικές ανάγκες στο σχεδιασμό της αρχιτεκτονικής του μέλλοντος, αφήνοντάς τα να παραμείνουν μόνοι τους αντί να προσπαθούν να τα μετατρέψουν σε κάτι «φυσιολογικό», μου δίνει ελπίδα ότι στην εποχή της τεχνητής νοημοσύνης θα επικρατήσει ο ανθρωπισμός.
Εάν θέλετε να επισκεφτείτε τον ιστότοπο του Project Euphonia ή να έχετε προβλήματα ομιλίας και θέλετε να συνεισφέρετε σε ένα δείγμα φωνής, μπορείτε να μεταβείτε σε αυτόν τον σύνδεσμο: https://sites.research.google/euphonia/about/