Τα τελευταία χρόνια, οι υπολογιστές έχουν γίνει εξαιρετικά καλοί στην αναγνώριση ομιλίας και εικόνες. Σκεφτείτε το λογισμικό υπαγόρευσης για τα περισσότερα κινητά τηλέφωνα, ή των αλγορίθμων που εντοπίζουν αυτόματα ανθρώπους σε φωτογραφίες που έχουν αναρτηθεί στο Facebook.
Αλλά η αναγνώριση των φυσικών ήχων - όπως τα πλήθη να φωνάζουν ένα όνομα ή κύματα που σκάνε - έχει μείνει πίσω. Αυτό συμβαίνει γιατί τα περισσότερα αυτοματοποιημένα συστήματα αναγνώρισης, είτε στην επεξεργασία ήχου ή στις οπτικές πληροφορίες, είναι το αποτέλεσμα της μηχανικής μάθησης, όπου η έρευνα σε υπολογιστές για μοτίβα απαιτούν τεράστιες συλλογές δεδομένων εκπαίδευσης. Συνήθως, τα δεδομένα εκπαίδευσης είναι το νούμερο ένα δημιούργημα με το χέρι, το οποίο είναι απαγορευτικά ακριβό για όλους, αλλά είναι και στην πρώτη γραμμή ζήτησης.
Η αναγνώριση του ήχου μπορεί να γίνει πραγματικότητα, όμως, χάρη στους ερευνητές στο Επιστήμης Υπολογιστών του MIT και Εργαστήριο Τεχνητής Νοημοσύνης (CSAIL). Στο συνέδριο Νευρωνικά Πληροφοριακών Συστημάτων Επεξεργασίας την επόμενη εβδομάδα, θα παρουσιάσει ένα ηχητικό σύστημα αναγνώρισης που ξεπερνά τους προκατόχους του, αλλά δεν απαιτούν κατασκευασμένα δεδομένα κατά τη διάρκεια της μάθησης.
Αντ 'αυτού, οι ερευνητές εκπαίδευσαν το σύστημα σε βίντεο. Πρώτον, τα υπάρχοντα συστήματα όρασης υπολογιστών αναγνωρίζουν σκηνές και αντικείμενα, κατηγοριοποιούν τις εικόνες στο βίντεο. Το νέο σύστημα, στη συνέχεια βρίσκει συσχετίσεις μεταξύ αυτών των οπτικών υλικών τις χωρίζει σε κατηγορίες και φυσικούς ήχους.
Αλλά η αναγνώριση των φυσικών ήχων - όπως τα πλήθη να φωνάζουν ένα όνομα ή κύματα που σκάνε - έχει μείνει πίσω. Αυτό συμβαίνει γιατί τα περισσότερα αυτοματοποιημένα συστήματα αναγνώρισης, είτε στην επεξεργασία ήχου ή στις οπτικές πληροφορίες, είναι το αποτέλεσμα της μηχανικής μάθησης, όπου η έρευνα σε υπολογιστές για μοτίβα απαιτούν τεράστιες συλλογές δεδομένων εκπαίδευσης. Συνήθως, τα δεδομένα εκπαίδευσης είναι το νούμερο ένα δημιούργημα με το χέρι, το οποίο είναι απαγορευτικά ακριβό για όλους, αλλά είναι και στην πρώτη γραμμή ζήτησης.
Η αναγνώριση του ήχου μπορεί να γίνει πραγματικότητα, όμως, χάρη στους ερευνητές στο Επιστήμης Υπολογιστών του MIT και Εργαστήριο Τεχνητής Νοημοσύνης (CSAIL). Στο συνέδριο Νευρωνικά Πληροφοριακών Συστημάτων Επεξεργασίας την επόμενη εβδομάδα, θα παρουσιάσει ένα ηχητικό σύστημα αναγνώρισης που ξεπερνά τους προκατόχους του, αλλά δεν απαιτούν κατασκευασμένα δεδομένα κατά τη διάρκεια της μάθησης.
Αντ 'αυτού, οι ερευνητές εκπαίδευσαν το σύστημα σε βίντεο. Πρώτον, τα υπάρχοντα συστήματα όρασης υπολογιστών αναγνωρίζουν σκηνές και αντικείμενα, κατηγοριοποιούν τις εικόνες στο βίντεο. Το νέο σύστημα, στη συνέχεια βρίσκει συσχετίσεις μεταξύ αυτών των οπτικών υλικών τις χωρίζει σε κατηγορίες και φυσικούς ήχους.
Οι ερευνητές εξέτασαν το σύστημά τους σε δύο τυπικές βάσεις δεδομένων με ηχογραφήσεις, και ήταν μεταξύ 13 και 15 τοις εκατό πιο ακριβή από ό, τι το καλύτερο σε επιδόσεις προηγούμενο σύστημα. Σε ένα σύνολο δεδομένων με 10 διαφορετικές κατηγορίες ήχων, θα μπορούσε να κατηγοριοποιήσει ήχους με 92 τοις εκατό ακρίβεια, και σε ένα σύνολο δεδομένων με 50 κατηγορίες που πραγματοποιήθηκε με 74 τοις εκατό ακρίβεια. Σε αυτά τα ίδια σύνολα δεδομένων, οι άνθρωποι είναι 96 τοις εκατό και 81 τοις εκατό πιο ακριβής, αντίστοιχα.
Δείτε ζωντανά τα αποτελέσματα της έρευνας
Πηγή:ΜΙΤ
Δημοσίευση σχολίου