Ήχος και Εφαρμογές

Μέχρι σήμερα, η βιομηχανία των υπολογιστών δεν έχει επιδείξει ιδιαίτερα μεγάλο ενδιαφέρον για τον ήχο στις εφαρμογές πολυμέσων. Αυτό οφείλεται κυρίως στην εστίαση των προσπαθειών στην εισαγωγή του video αλλά και στη δυσκολία καθορισμού της χρησιμότητας του ήχου σε επαγγελματικές εφαρμογές (business applications). Σαν αποτέλεσμα, ο ήχος στα πολυμέσα περιορίζεται στις ψυχαγωγικές και εκπαιδευτικές εφαρμογές.

Παρ’ όλα αυτά, είναι φανερό ότι ο ήχος, κατάλληλα συνδυασμένος με τα άλλα είδη πληροφορίας, μπορεί να κάνει μια εφαρμογή πολυμέσων πιο αποτελεσματική. Ιδιαίτερα σε εκπαιδευτικές εφαρμογές και περίπτερα πληροφοριών (information kiosks) η αφήγηση και ο σχολιασμός των όσων παρουσιάζονται στην οθόνη βοηθά στην μετάδοση του μηνύματος ενώ η κατάλληλη ηχητικά υπόκρουση καθιστά την παρακολούθηση της εφαρμογής πιο ευχάριστη. Το μοναδικό χαρακτηριστικό του ήχου να γίνεται αντιληπτός χωρίς να έχουμε την προσοχή μας εστιασμένη, καθιστά τα ηχητικά σήματα αναντικατάστατα στην απόσπαση της προσοχής του χρήστη.

Υπάρχουν ορισμένες κατηγορίες εφαρμογών όπου ο ήχος αποτελεί την καρδιά του συστήματος. Εφαρμογές που έχουν ως αντικείμενο την μουσική ή ακόμα εφαρμογές που προορίζονται για ανθρώπους με προβλήματα όρασης κάνουν εκτενή και αποτελεσματική χρήση του ήχου.

Με την πρόοδο της τεχνολογίας, το ενδιαφέρον για την εφαρμογή της αναγνώρισης και σύνθεσης ομιλίας σε επαγγελματικές εφαρμογές μεγαλώνει. Ήδη έχουν εμφανιστεί τα πρώτα δείγματα συστημάτων χειρισμού ενός υπολογιστή με προφορικές εντολές  και υπαγόρευσης κειμένου στον υπολογιστή.

Σύλληψη (capture) και Συμπίεση

Ένας ψηφιοποιητής ήχου (sound digitiser) χρησιμοποιείται για τη σύλληψη σε ψηφιακή μορφή αναλογικού σήματος ήχου από κασέτες, δίσκους, και δίσκους CD. Εναλλακτικά, η μουσική μπορεί να ηχογραφηθεί μέσω μικροφώνου συνδεδεμένου στον υπολογιστή ή να συντεθεί μέσω μουσικών οργάνων που επικοινωνούν με τον υπολογιστή διαμέσου ενός MIDI interface.

Μουσική και υπολογιστές

Κάθε ήχος μπορεί να αποθηκευτεί στον υπολογιστή ως ψηφιοποιημένο ηχητικό σήμα. Αυτό το σήμα μπορεί να είναι συμπιεσμένο ή ασυμπίεστο. Σε κάθε όμως περίπτωση δεν περιέχει καμία σημασιολογική πληροφορία για τον ήχο που περιγράφει. Αυτή η μορφή αναπαράστασης του ήχου είναι το αντίστοιχο της χαρτογραφικής απεικόνισης των εικόνων. Σε αναλογία με τα γραφικά, υπάρχει για τη μουσική το πρότυπο MIDI (Musical Instrument Digital Interface).

Το πρότυπο αυτό αναπτύχθηκε στη αρχή της δεκαετίας του 80. Το MIDI καθορίζει πως κωδικοποιούνται τα διάφορα στοιχεία μιας μουσικής παρτιτούρας καθώς και τα όργανα που συμμετέχουν. Υπάρχει η δυνατότητα χρησιμοποίησης 127 οργάνων και ηχητικών εφέ. Το MIDI περιέχει και πρότυπα για την επικοινωνία μουσικών οργάνων με υπολογιστή. Ένας υπολογιστής με MIDI interface μπορεί να χειριστεί συσκευές που ακολουθούν αυτό το πρότυπο όπως ηλεκτρονικά synthesizers. Στις πιο πολλές κάρτες ήχου που προσφέρουν MIDI, η σύνθεση των ήχων των οργάνων γίνεται συνήθως με FM σύνθεση που δεν δίνει καλά αποτελέσματα. Σε πολλές όμως περιπτώσεις, περιέχουν αποθηκευμένα σε μνήμη ROM δείγματα πραγματικών οργάνων με αποτέλεσμα η μουσική MIDI να μοιάζει αρκετά με πραγματική.

Τα πλεονεκτήματα και μειονεκτήματα του MIDI έναντι της ψηφιοποιημένης μουσικής είναι ανάλογα με αυτά των εικόνων έναντι των γραφικών. Υπάρχει μεγαλύτερη ευελιξία στην επεξεργασία της μουσικής MIDI ενώ απαιτείται και σημαντικά μικρότερος αποθηκευτικός χώρος. Από την άλλη πλευρά, υπάρχει υπολογιστικό κόστος για να μετατραπεί η συμβολική αναπαράσταση MIDI σε ακουστή κυματομορφή. Επίσης, το αποτέλεσμα εξαρτάται από τη συσκευή εξόδου και συνήθως είναι υποδεέστερο της ψηφιοποιημένης μουσικής.

Ομιλία και υπολογιστές

Η εκμετάλλευση της ομιλίας σε εφαρμογές υπολογιστών αναμένεται να είναι πολύ σημαντικότερη σε σχέση με τη μουσική. Αρκετές εταιρείες όπως η Apple η Microsoft και η Creative Labs παρέχουν λογισμικό και κάρτες ήχου που κάνουν χρήση της ομιλίας. Για παράδειγμα, το Windows Sound System της Microsoft αποτελείται από μια κάρτα ήχου 16bit, μικρόφωνο, ακουστικά και λογισμικό που στοχεύει σε επαγγελματικές εφαρμογές (business applications). Το λογισμικό πακέτο περιλαμβάνει εργαλεία αναγνώρισης φωνής για τον προφορικό έλεγχο του συστήματος, σύνθεση φωνής και δυνατότητα εισαγωγής ηχητικών αντικειμένων σε εφαρμογές που υποστηρίζουν το πρότυπο OLE.

Ένα άλλο χαρακτηριστικό παράδειγμα που υποδηλώνει το μέλλον αυτής της τεχνολογίας είναι το Personal Dictation System της IBM που έχει ενσωματωθεί στο λειτουργικό της σύστημα OS/2. Υποστηρίζει υπαγόρευση 70 έως 100 λέξεων το λεπτό ενώ το σύστημα χρησιμοποιείται για το προφορικό χειρισμό του συστήματος OS/2 και των εφαρμογών του.

Η τεχνολογία αναγνώρισης ομιλίας, έχει προχωρήσει σημαντικά. Τυπικές επιδόσεις των σημερινών εργαλείων αναγνώρισης ομιλίας είναι 30000 λέξεις για σύστημα εκπαιδευμένο σε συγκεκριμένο ομιλητή και όταν οι λέξεις προφέρονται καθαρά και με μικρές παύσεις ανάμεσα τους. Αντίθετα, αν ο λόγος είναι συνεχής και ο ομιλητής άγνωστος, το λεξιλόγιο των συστημάτων πέφτει στις 400 λέξεις. Αν και αυτές οι επιδόσεις δίνουν σημαντικές πρακτικές εφαρμογές, χρειάζεται ακόμα δουλειά για να μπορούν τα συστήματα αυτά να δουλεύουν αποτελεσματικά στις μη ιδανικές συνθήκες της καθημερινής εργασίας σε ένα γραφείο.Συμπίεση

Ο ήχος είναι γενικά δύσκολο να συμπιεστεί γιατί η ακοή είναι πιο ευαίσθητη στις αλλοιώσεις του ήχου σε σχέση με την όραση. Εξαιτίας του ενδιαφέροντος για συμπίεση του ήχου στην τηλεφωνία, έχουν αναπτυχθεί πολλές τεχνικές αποτελεσματικής κωδικοποίησης της ομιλίας. Στην μουσική τα πράγματα είναι πιο δύσκολα γιατί και οι απαιτήσεις ποιότητας είναι μεγαλύτερες και το εύρος ζώνης της είναι σημαντικά μεγαλύτερο από αυτό της ανθρώπινης φωνής.

Στον παρακάτω πίνακα παρουσιάζονται οι συχνότητες δειγματοληψίας και το μήκος της λέξης κατά την κβαντοποίηση για διάφορα πρότυπα συμπίεσης ήχου. Εκτός από την κατάλληλη επιλογή αυτών των παραμέτρων ανάλογα με τις απαιτήσεις της εφαρμογής, περαιτέρω συμπίεση μπορεί να επιτευχθεί με αφαίρεση των σιωπηλών τμημάτων και με καλύτερες μεθόδους κωδικοποίησης όπως: μη γραμμική PCM όπως λογαριθμική ή μ-law, διαφορική PCM και προσαρμοστική διαφορική PCM.

Συχνότητα Δειγματοληψίας

(kHz)

Κβαντοποίηση

(bits)

Τεχνική Κωδικοποίησης

Ποιότητα

44.1

16

PCM

Hi-fi

37.8

8

ADPCM

Hi-fi

37.8

8

ADPCM

FM μετάδοση (μουσική)

18.9

ADPCM

AM μετάδοση (ομιλία)

8

8

PCM

Τηλεφωνική

Πίνακας 5-2. Ηχητική ποιότητα και μέθοδος ψηφιοποίησης

Πρότυπα

Οπτικοακουστική Τηλεφωνία (Audiovisual Telephony)

Η οικογένεια προτύπων H.320 που δημοσιεύτηκαν από την ITU-TS και καλύπτουν εφαρμογές teleconferencing και videophony αποτελούν τη βάση επικοινωνίας μεταξύ συσκευών διαφορετικών κατασκευαστών. Το πρότυπο υποστηρίζει τόσο τηλεπικοινωνιακά δίκτυα όσο και δίκτυα υπολογιστών. Στην οικογένεια αυτή περιλαμβάνονται και τη σειρά προτύπων ITU-G για συμπίεση ήχου. Τα χαρακτηριστικά αυτών των προτύπων φαίνονται στον επόμενο πίνακα.

Πρότυπο

Περιγραφή

G.711

PCM συχνοτήτων φωνής

G.722

ADPCM με συχνότητα 7kHz και απαιτούμενο εύρος ζώνης 64Kbits/s

G.728

CELP[1][1] κωδικοποίηση που απαιτεί 16Kbits/s

Πίνακας 5-3. Πρότυπα για κωδικοποίηση ήχου

Τα πρότυπα MPEG

Η ομάδα Moving Pictures Experts Group (MPEG) του ISO/IEC αναπτύσσει πρότυπα για video και ήχο από το 1988. Το πρότυπο που προέκυψε από την πρώτη φάση είναι το MPEG-1 ενώ η έρευνα συνεχίζεται στο MPEG-2. Για κάποιο χρονικό διάστημα υπήρχε σε εξέλιξη το MPEG-3 αλλά εγκαταλείφθηκε και ένα τμήμα του ενσωματώθηκε στο MPEG-2.

Κάθε ένα από αυτά στοχεύει σε εφαρμογές με διαφορετικές απαιτήσεις ποιότητας και εύρους ζώνης και εκτός από τεχνικές συμπίεσης κινούμενης εικόνας περιέχει και ένα κομμάτι που αναφέρεται στην συμπίεση του ήχου. Οι τεχνικές συμπίεσης ήχου δεν περιορίζονται στη φωνή αλλά είναι σχεδιασμένες για τη γενικότερη περίπτωση της μουσικής.

Στη συνέχεια θα περιγράψουμε σε συντομία τα βασικά χαρακτηριστικά του ηχητικού κομματιού του MPEG-1 ενώ στην επόμενη ενότητα θα επεκταθούμε και στη κινούμενη εικόνα.

MPEG-1

Με δυο λόγια θα μπορούσαμε να περιγράψουμε το MPEG-1 ως εξής:

 

Το ηχητικό κομμάτι του MPEG-1 δεν αποτελεί έναν αλγόριθμο συμπίεσης, αλλά μια οικογένεια τριών διαφορετικών τεχνικών κωδικοποίησης και συμπίεσης ήχου. Αυτές οι οικογένειες ονομάζονται MPEG-Audio Layer-1, Layer-2, Layer-3.

Και οι τρεις αυτές τεχνικές στηρίζονται στην ίδια αρχή: η συμπίεση γίνεται συνδυάζοντας ένα είδος κωδικοποίησης μετασχηματισμού και sub-band division. Οι διαφορές αυτών των τριών στρωμάτων  εντοπίζονται στο τελικό στάδιο της κβαντοποίησης.

Τα βασικά βήματα που ακολουθούνται είναι:

  • Χωρισμός του φάσματος σε 32 τμήματα (sub-bands)
    • Εφαρμόζεται στο σήμα ένας ταχύς μετασχηματισμός Fourier (Fast Fourier Transform)
    • Ένα ψύχο-ακουστικό μοντέλο εφαρμόζεται στο μετασχηματισμένο σήμα για να υπολογιστεί το ελάχιστο επίπεδο θορύβου που γίνεται αντιληπτό από το μέσο ακροατή

To MPEG-1 προβλέπει δύο ηχητικά κανάλια. Αυτά μπορούν να απλά (μονοφωνικά), διπλά (δύο μονοφωνικά κανάλια), απλά στερεοφωνικά (ένα κανάλι μεταφέρει το αριστερό ηχητικό σήμα και το άλλο το δεξί) ή από κοινού στερεοφωνικά (joint stereo, το ένα κανάλι μεταφέρει το άθροισμα και το άλλο τη διαφορά των σημάτων). Το πρότυπο χρησιμοποιεί 16bits για την κωδικοποίηση των δειγμάτων ενώ η συχνότητα δειγματοληψίας είναι 44.1kHz, 48kHz ή 32kHz.

Οι επιδόσεις κάθε στρώματος είναι:

  • MPEG-Audio Layer-1: επιτρέπει την κατασκευή πολύ απλών κωδικοποιητών και αποκωδικοποιητών θυσιάζοντας βέβαια ένα μέρος της ποιότητας. Ως αποτέλεσμα, η ηχητική ποιότητα είναι μέτρια ενώ το bandwidth που απαιτείται είναι αυξημένο: 192 ή 256Kbps ανά κανάλι.
    • MPEG-Audio Layer-2: ο αλγόριθμος αυτή της κατηγορίας έχει βελτιστοποιηθεί για ένα εύρος ζώνης 96 ή 128Kbps ανά μονοφωνικό κανάλι. Η ποιότητα είναι εφάμιλλη του CD.
    • MPEG-Audio Layer-3: έχει την καλύτερη επίδοση από τα τρία στρώματα. Η ποιότητα του είναι  υποδεέστερη αλλά πολύ κοντά σε αυτή του CD. Το βασικό του πλεονέκτημα είναι ότι απαιτεί μόνο 64Kbps. Σε σύγκριση με MPEG-Audio Layer-2 στα 64Kbps λειτουργεί πολύ καλύτερα.

Να σημειωθεί ότι αυτά τα στρώμα έχουν προς τα πίσω συμβατότητα, δηλαδή μια συσκευή MPEG-Audio Layer-3 αποκωδικοποιεί και δεδομένα κωδικοποιημένα κατά MPEG-Audio Layer-1 ή 2.

 
 
MPEG-2

To MPEG-2 βρίσκεται ακόμα σε εξέλιξη. Στόχος του είναι η μετάδοση ψηφιακής τηλεόρασης και video telephony μέσω οπτικών ινών, δορυφορικών καναλιών, ISDN και άλλων δικτύων. Το bandwidth που απαιτεί βρίσκεται στα 3-10 Mbits/s. Βασική επέκταση που επιφέρει στο MPEG-2 είναι η εισαγωγή διακριτών surround-sound καναλιών καθώς και μερικών καναλιών χαμηλής ταχύτητας για σχολιασμό η υποστήριξη πολλών γλωσσών.

ΗΧΟΣ ΣΤΟ ΔΙΚΤΥΟ

Πρόλογος

Η εργασία αυτή πραγματεύεται τον ήχο στο διαδίκτυο (internet). Aν και η μετάδοση του ήχου δεν είναι καινούργια υπόθεση η εφαρμογή νέων τεχνολογιών ώστε το διαδίκτυο να αποτελέσει το νέο μέσο μετάδοσης φωνής και μουσικής παρουσιάζει μεγάλο ενδιαφέρον. Καθώς με την μείωση της τιμής των αποθηκευτικών μέσων, την αύξηση της χωρητικότητας των καναλιών του διαδικτύου και την εξάπλωση των οικιακών υπολογιστών σε ολόκληρο τον κόσμο βρισκόμαστε μπροστά στο ξεκίνημα μιας επανάστασης στο χώρο της μετάδοσης του ήχου. Από τη στιγμή που η μετάδοση ήχου ή μουσικής μέσω του διαδικτύου θα γίνει φθηνότερη συνολικά, από τους τρόπους με τους οποίους σήμερα μεταδίδεται και διανέμεται, κάτι που δεν μοιάζει ιδιαίτερα μακρινό τότε σχεδόν ολόκληρη η μουσική παραγωγή και γενικότερα προϊόντα που σχετίζονται με τον ήχο θα περνούν μέσα από το δίκτυο. Στην εργασία αυτή προσπάθησα να κάνω μία εισαγωγή στις νέες αυτές τεχνολογίες παραθέτοντας ταυτόχρονα τη σημερινή κατάσταση που επικρατεί.

Έτσι το πρώτο μέρος της εργασίας είναι αφιερωμένο στους τρόπους παρουσίασης και κωδικοποίησης των ηχητικών σημάτων όπως σήμερα συναντιούνται στο δίκτυο αλλά και της τεχνολογίας που χρησιμοποιούν οι εταιρείες για να μεταδώσουν ή να διανείμουν ήχο. Παρουσιάζονται επίσης αναλυτικότερα κάποιοι κωδικοποιητές και οι επιδόσεις τους.

Στο δεύτερο μέρος της εργασίας παρουσιάζονται τα πλέον διαδεδομένα πρωτόκολλα επικοινωνίας που χρησιμοποιούνται αλλά και η τεχνολογία του ΙP Multicast που παρουσιάζει ιδιαίτερο ενδιαφέρον για ζωντανές μεταδόσεις γεγονότων στο δίκτυο. Ακόμη δίνονται πληροφορίες για κάποιες εμπορικές εφαρμογές που κυκλοφορούν.

Στο τελευταίο κομμάτι της εργασίας δίνονται πληροφορίες σχετικές με την τηλεφωνία μέσω διαδικτύου που κάνει δειλά την εμφάνισή της και τις προοπτικές της. Ακόμη παρουσιάζεται η κατάσταση στην οποία βρίσκεται η τεχνολογία μετάδοσης ήχου ζωντανά, στην Ελλάδα αλλά και η «σκοτεινή» πλευρά της μετάδοσης του ήχου μέσω δικτύου.

 Θα πρέπει τέλος να ομολογήσω ότι παρόλη την ενασχόληση με την τεχνολογία της μετάδοσης ήχου μέσω δικτύου και τις δοκιμές που έκανα σε εφαρμογές που την υλοποιούν κατά την συγγραφή της εργασίας χρησιμοποίησα για συντροφιά συμβατική συσκευή ραδιοφώνου!!!

Εισαγωγή και σύνδεση με το παρελθόν

Σήμερα το ραδιόφωνο είναι μια απλή, πανταχού παρούσα συσκευή, κομμάτι της καθημερινής ζωής που μεταδίδει νέα και ψυχαγωγία σε δισεκατομμύρια ανθρώπους. Το ραδιόφωνο στα πρώτα του βήματα ήταν δυσμετακίνητο και ενοχλητικό ενώ χαρακτηριζόταν από χαμηλή πιστότητα και μη αξιόπιστη μετάδοση.

Κατά πολλούς τρόπους ο ζωντανός ήχος στο δίκτυο ακολουθεί τα βήματα του προδρόμου του. Παρόλο τον ενθουσιασμό και την υπομονή μας, το νέο μέσο συναντά εμπόδια, έχει χαμηλή πιστότητα, δεν προσφέρει ασφαλώς μεταφέρσιμο περιεχόμενο και σίγουρα έχει πολύ δρόμο να διανύσει μέχρι να μπορέσει να ανταγωνιστεί τον πρόδρομο του και να μας προσφέρει το μεγάλο του πλεονέκτημα την διαδραστικότητα.

Ο ζωντανός ήχος στο δίκτυο έχει απέραντο ρεπερτόριο εφαρμογών. Η ελκυστικότητα και η ζωντάνια που προσφέρει στις σελίδες του δικτύου, είναι κάτι που σιγά σιγά συναντάμε παντού στον παγκόσμιο ιστό.  Το δίκτυο δεν περιορίζεται πλέον σε κείμενα και γραφικά μόνο. Η αίσθηση μόνο κειμένου και η βουβή εικόνα αλλάζει γρήγορα. Νέες τεχνολογίες έχουν φέρει ήχο, βίντεο και κίνηση στο συντηρητικό κόσμο του δικτύου. Παρόλα' αυτά υπάρχουν μερικοί ενοχλητικοί παράγοντες που μας εμποδίζουν ακόμη να απολαύσουμε καλής ποιότητας πολυμέσα στο δίκτυο.

Ένας από τους πλέον ενοχλητικούς παράγοντες με τον οποίο ο κόσμος του δικτύου έζησε μέχρι τώρα είναι η τεράστια καθυστέρηση για να «κατεβάσει» κανείς τα μεγάλα αρχεία ήχου. Από τη στιγμή που τα αρχεία ήχου έχουν ένα λόγο μεταφοράς 5:1 μέσω συνδέσεων dial-up θα πρέπει να περιμένεις τουλάχιστον 5 λεπτά για να ακούσεις 1 λεπτό ήχου. Πιθανόν για ένα λεπτό να μην ακούγεται παράλογο αν όμως κάποιος θέλει να ακούσει ένα αρχείο 20 λεπτών θα πρέπει να περιμένει πριν ξεκινήσει να το ακούει 100 λεπτά!!! Φανταστείτε τον άσκοπο φόρτο του δικτύου και των νεύρων όταν ξαφνικά ανακαλύπτεις ότι το αρχείο αυτό δεν σε ενδιαφέρει. Ακόμη ο αποθηκευτικός χώρος που απαιτείται είναι τεράστιος. Τέλος αν συμβεί οτιδήποτε στο αρχείο κατά τη διάρκεια του «κατεβάσματος»  ολόκληρο το αρχείο είναι άχρηστο.

Ευτυχώς τα παραπάνω προβλήματα έρχεται να λύσει η τεχνολογία του «streaming audio», η οποία μεταδίδει τον ήχο συνεχόμενα και μπορεί να δώσει την ηχητική εμπειρία που περιμένουν οι περισσότεροι άνθρωποι. Η τεχνολογία του streaming ανταποκρίνεται πολύ περισσότερο στις ανάγκες των χρηστών απ' ότι προηγούμενες τεχνολογίες αφού προσφέρει μια αίσθηση αμεσότητας στους χρήστες ενώ δίνει και ένα δυνατό όπλο στα χέρια των επαγγελματιών του δικτύου αφού μπορεί να προσελκύσει το ενδιαφέρον των χρηστών στις σελίδες τους περισσότερο χρόνο. Μια άλλη ενδιαφέρουσα χρήση της τεχνολογίας «streaming» είναι οι τηλεφωνικές υπηρεσίες μέσω δικτύου. Το τηλέφωνο μέσω δικτύου δίνει τη δυνατότητα στους χρήστες να κάνουν αμέτρητες υπεραστικές και διεθνής συνδιαλέξεις με κόστος, το κόστος μιας δικτυακής σύνδεσης.

Πως λειτουργεί η τεχνολογία του «Streaming Audio»;

Για να καταλάβει κανείς πως λειτουργεί η τεχνολογία του streaming audio βοηθάει να γνωρίζει τα εξής :

Τύπους του streaming audio

Κωδικοποίηση ήχου

Πρωτόκολλα  χρησιμοποιούμενα για το streaming audio

Τύποι του streaming audio

On - demand   : Αποθηκευμένα αρχεία ήχου που λαμβάνονται από τους χρήστες.

Live                 : Μετάδοση γεγονότων καθώς αυτά συμβαίνουν

Υπάρχουν επίσης συγγενικοί τύποι μετάδοσης ήχου όπως pseudo-streaming audio (Apple Quicktime, Midi-streaming) και εφαρμογές που συνδυάζουν ήχο και κινούμενη εικόνα.

 

Κωδικοποίηση ήχου

Τα αρχεία ήχου είναι πολύ μεγάλα. Για να μεταφέρεις τέτοια αρχεία ακόμη και μέσω σύνδεσης Τ1 απαιτείται τα αρχεία να είναι συμπιεσμένα. Έτσι είναι απαραίτητο ο ήχος πριν τη μετάδοσή του να κωδικοποιείται και να συμπιέζεται.

Codecs (Κωδικοποιητές / Αποκωδικοποιητές)

Κάθε εταιρεία χρησιμοποιεί δικούς της τρόπους συμπίεσης και αποσυμπίεσης. Τα προγράμματα κωδικοποίησης παίρνουν ένα αρχικό αρχείο(.wav,.au,.snd,.aiff) και μειώνουν το μέγεθος του πετώντας κάποια πληροφορία που εκείνα θεωρούν άχρηστη ή μη ζωτικής σημασίας για το τελικό αποτέλεσμα. Το συμπιεσμένο αρχείο που παράγουν είναι πολύ μικρότερο σε μέγεθος και χαμηλότερης ποιότητας ήχου σε σχέση με το αρχικό. Επίσης το αρχείο ήχου δίνεται σε μια μορφή (format) ανάλογα με τον προμηθευτή του αντίστοιχου προγράμματος. Τα προγράμματα κωδικοποίησης επιτρέπουν τον έλεγχο της ποιότητας του ήχου που θα παράγουμε. Φυσικά όσο καλύτερη είναι η ποιότητα του ήχου και όσο μεγαλύτερη η συχνότητα δειγματοληψίας τόσο μεγαλύτερο θα είναι το μέγεθος του τελικού αρχείου.

Όλα τα προϊόντα του streaming audio απαιτούν ένα κωδικοποιητή (encoder) και ένα αποκωδικοποιητή (player). Ο κωδικοποιητής ταυτόχρονα εκτελεί και χρέη server, δηλαδή συμπιέζει τα πακέτα ήχου ώστε να ταιριάζουν στο εύρος ζώνης του δικτύου με το οποίο είναι συνδεδεμένοι οι χρήστες. Ο αποκωδικοποιητής αποσυμπιέζει τα πακέτα ήχου και με τη βοήθεια της κάρτας ήχου του υπολογιστή μας ακούμε το μεταδιδόμενο σήμα.

Συμπίεση δεδομένων ήχου

Τεχνικές για τη μείωση ψηφιακών δεδομένων ήχου πρωτοχρησιμοποιήθηκαν στα πρώτα ψηφιακά συστήματα τηλεφωνίας στη δεκαετία του 60. Αρχικά τα συστήματα αυτά προσέφεραν μικρή μείωση στον όγκο των δεδομένων, στην καλύτερη περίπτωση 2:1. Πρόσφατα, αποδοτικότεροι αλγόριθμοι επιτρέπουν μεγαλύτερη μείωση δεδομένων παράγοντας εξόδους σημάτων που διαφέρουν από τα αρχικά σήματα αν τα εξετάσει κανείς bit προς bit αλλά αισθητικά ακούγονται το ίδιο με τα αρχικά σήματα τουλάχιστον για τη μεγάλη πλειοψηφία των ακροατών. Αυτή η προσέγγιση υιοθετήθηκε και για τον ήχο στο δίκτυο. Οι αλγόριθμοι δεν είναι διαφανείς, αλλά με μεγάλη επιτυχία διατηρούν ικανοποιητική ποιότητα ήχου ενώ ταυτόχρονα μειώνουν σε μεγάλο βαθμό το λόγο των δεδομένων.

Αν αναρωτιέστε γιατί κλασσικές μέθοδοι συμπίεσης αρχείων δεν χρησιμοποιούνται για τον ήχο η απάντηση είναι, ότι αυτές οι μέθοδοι συμπίεσης αναλύουν τα δεδομένα από μια οπτική καθαρά στατιστική και τα αποσυμπιεσμένα δεδομένα δεν διαφέρουν καθόλου από τα αρχικά. Πρέπει να μην χάνονται καθόλου δεδομένα και να υπάρχει απόλυτη πιστότητα ανάμεσα στα δεδομένα εισόδου και εξόδου. Οι σημερινοί αλγόριθμοι ψηφιακού ήχου που πετούν κομμάτι των δεδομένων (lossy) και ειδικότερα οι perceptual αλγόριθμοι σχεδιάστηκαν αποκλειστικά για αρχεία ήχου και μειώνουν τα δεδομένα βασισμένοι μόνο στο πως θα ακούγεται από το ανθρώπινο αυτί τελικά το σήμα. Εκμεταλλεύονται την αδυναμία του ανθρώπινου αυτιού να αντιληφθεί κάποια απώλεια από το αρχικό σήμα και έτσι μειώνουν σημαντικά το μέγεθος των ψηφιακών σημάτων ήχου.

Η διαδικασία εκτελείται σε δύο στάδια. Αρχικά αναλογικό σήμα ήχου μετατρέπεται σε δεδομένα με λέξη 16-bit χρησιμοποιώντας μία από τις συνηθισμένες συχνότητες δειγματοληψίας των 32, 44.1 ή 48kHz. Τα στερεοφωνικά σήματα συνήθως συνενώνονται δημιουργώντας ένα όγκο δεδομένων από 500 ως 750 ΚΒ/δευτερόλεπτο. Τότε σε δεύτερο στάδιο αλγόριθμοι συμπίεσης δεδομένων εφαρμόζονται και ο λόγος των δεδομένων μειώνεται κατά ένα παράγοντα της τάξης του 50:1 ή και περισσότερο.

Perceptual κωδικοποίηση

Αυτοί οι αλγόριθμοι στηρίζονται στην ψυχοακουστική που εξετάζει την ανθρώπινη αίσθηση της ακοής. Ένα βασικό αξίωμα της ψυχοακουστικής είναι η φασματική επικάλυψη (spectral masking), κατά την οποία η παρουσία ενός ηχητικού σήματος επικαλύπτει την αίσθηση κάποιου άλλου, τα σήματα που επικαλύπτονται είναι κυρίως μικρής ισχύος σε γειτονικές συχνότητες.

Χρησιμοποιώντας την επεξεργασία ψηφιακού σήματος στο επίπεδο της συχνότητας, οι perceptual κωδικοποιητές εξαφανίζουν «άχρηστα» κομμάτια από το ηχητικό σήμα που επικαλύπτονται από άλλα, πιο δυνατά, έτσι μειώνονται οι απαιτήσεις για μεγάλο εύρος ζώνης. Ο κωδικοποιητής μπορεί να μειώσει ακόμη περισσότερο το μέγεθος του σήματος μειώνοντας επιλεκτικά ακόμη και τα μη επικαλυπτόμενα σήματα. Φυσικά όσο περισσότερο μειώνουμε την ανάλυση του ψηφιακού ηχητικού σήματος τόσο αυξάνονται ο θόρυβος και οι παραμορφώσεις. Αλλά όσο οι αλγόριθμοι κρατούν αυτές τις δυσμορφίες κάτω από το κατώφλι επικαλύψεων παραμένουν ανεπαίσθητες.

Πληροφορίες με αριθμούς

Ο ρυθμός δεδομένων ενός ψηφιακού σήματος ήχου είναι το αποτέλεσμα της συχνότητας δειγματοληψίας πολλαπλασιασμένο με τον αριθμό των bits που χρησιμοποιούνται για την παρουσίαση του σήματος επί τον αριθμό των καναλιών του ήχου. Για παράδειγμα ο ήχος του κλασσικού CD χρησιμοποιεί μια συχνότητα δειγματοληψίας 44.1kHz με 16-bit παρουσίαση και δύο κανάλια (stereo) το οποίο παράγει ένα ρυθμό δεδομένων 1.4Mbit/δευτερόλεπτο. Για να μειωθεί αυτό το γινόμενο τουλάχιστον ένας από τούς παράγοντες θα πρέπει να μειωθεί.

Μειώνοντας τη συχνότητα δειγματοληψίας θα χάσουμε τις υψηλές συχνότητες του ήχου, έτσι σε αυτό τον τομέα δεν υπάρχουν πολλά που μπορούμε να κάνουμε χωρίς να επηρεαστεί η πιστότητα του σήματος. Τα δύο κανάλια μπορούν να γίνουν ένα χωρίς όμως αυτό να είναι πάντοτε επιθυμητό. Τέλος ο παράγοντας του αριθμού των bits παρουσίασης ο οποίος επηρεάζει τη δυναμική περιοχή (θόρυβος, παραμορφώσεις) μπορεί να αλλαχθεί. Έξυπνοι κωδικοποιητές που χρησιμοποιούν perceptual αλγορίθμους έχουν το μεγάλο μέρος του κέρδους τους σε bits από αυτή την περιοχή. Οι πιο διαδεδομένοι τρόποι κωδικοποίησης και συμπίεσης ηχητικών σημάτων στο δίκτυο –χωρίς να είναι οι μοναδικοί- είναι σήμερα οι εξής :

  • MPEG-2 Audio layer 3
  • Dolby’s AC-3

Ας δούμε όμως συνοπτικά τα χαρακτηριστικά και τις προδιαγραφές που χρησιμοποιούνται για την αποθήκευση, παρουσίαση και την ανταλλαγή δεδομένων ήχου και μουσικής.

Αudio Code Number 3 - Dolby Digital (Surround)

Πρόκειται για κωδικοποίηση ήχου που αναπτύχθηκε από τα εργαστήρια της Dolby και χρησιμοποιείται σήμερα ευρέως από την κινηματογραφική βιομηχανία στις ταινίες και υιοθετείται στους ψηφιακούς δίσκους εικόνας (DVD) αλλά και από την τηλεόραση υψηλής ευκρίνειας (HDTV) στις Η.Π.Α. Αυτή η υιοθέτηση θα κάνει τους δίσκους / τηλεόραση ασύμβατα με αυτά της Ευρώπης που για την ανταλλαγή ήχου έχει υιοθετήσει την κωδικοποίηση MPEG-2.

Χαρακτηριστικά :

Η κωδικοποίηση AC-3 μπορεί να συμπυκνώσει 6 ξεχωριστά κανάλια ήχου σε χώρο λιγότερο από αυτόν που απαιτεί ένα μόνο κανάλι σε ένα CD. Tα 6 κανάλια που περιλαμβάνει δημιουργούν πραγματική αίσθηση του χώρου για τον ήχο αφού είναι χωρισμένα σε δεξί, αριστερό, κεντρικό, δύο κανάλια ήχου surround και ένα κανάλι εξαιρετικά για τις χαμηλές συχνότητες (Low Frequency Effects Channel) που βοηθάει στη μεγιστοποίηση της ακρόασης ήχων όπως εκρήξεις, συγκρούσεις κ.τ.λ. Η χρήση subwoofer μας βοηθάει στην καλύτερη ακρόαση των ήχων του τελευταίου καναλιού. Τα πέντε βασικά κανάλια είναι πλήρους εύρους ζώνης ακουστικών συχνοτήτων (3Hz έως 20.000 Hz) ενώ το έκτο κανάλι περιορίζεται στις συχνότητες (3 Hz έως 120 Hz). Όλες οι γνωστές συχνότητες δειγματοληψίας υποστηρίζονται (32, 44.1, και 48 Hz) και ένα ενδιαφέρον χαρακτηριστικό της συγκεκριμένης κωδικοποίησης είναι ότι επιτρέπει την επικάλυψη ήχων σε ένα κανάλι με θόρυβο, από ήχους άλλου καναλιού. Οι ρυθμοί δεδομένων που απαιτεί ποικίλουν από 32 kb/δευτερόλεπτο για ένα κανάλι ως 640kb/δευτερόλεπτο. Αξίζει να αναφέρουμε ότι τη συγκεκριμένη κωδικοποίηση χρησιμοποιεί το δημοφιλέστερο στον κόσμο του δικτύου πρόγραμμα μεταφοράς ήχου σε πραγματικό χρόνο το Real Audio –που στην τελευταία του έκδοση ονομάζεται Real Media.

MPEG-2 Audio layer III

Πριν μιλήσουμε για το Audio layer III είναι χρήσιμο να γνωρίζουμε μερικά πράγματα για το MPEG. Πρόκειται για μια επιτροπή που εργάζεται πάνω στην τυποποίηση των τρόπων κωδικοποίησης και παρουσίασης κινούμενης εικόνας και ήχου. Τα αποτελέσματα της επιτροπής αυτής καταλήγουν σε τυποποιήσεις από εθνικούς και διεθνείς οργανισμούς τυποποίησης. Υπάρχουν αυτή τη στιγμή τα συμπεράσματα MPEG-1 και MPEG-2 ενώ αναμένεται το MPEG-4. Ας περάσουμε όμως στον ήχο που μας ενδιαφέρει. Το MPEG-1 μπορεί να κωδικοποιήσει μόνο δύο κανάλια ήχου και έτσι για το δίκτυο που δεν διαθέτει μεγάλο εύρος ζώνης χρησιμοποιούνται κυρίως τεχνολογίες MPEG-2. Το MPEG-2 για τον ήχο χωρίζεται σε τρία επίπεδα ανάλογα με το bitrate που πρόκειται να έχουμε. Κάθε επίπεδο δεν είναι καλύτερο από το προηγούμενό του. Απλώς είναι πιο πολύπλοκο. Έτσι και τα τρία επίπεδα του MPEG-2 είναι ορισμένα ώστε να κάνουν την καλύτερη εκμετάλλευση του bitrate που έχουν στη διάθεσή τους. Όσο προχωράμε στα επίπεδα τόσο πιο περίπλοκος γίνεται ο κωδικοποιητής και τόσο καλύτερη εκμετάλλευση του bitrate γίνεται. Ο παρακάτω πίνακας μας δείχνει τα αποτελέσματα τεστ σύγκρισης των τριών επιπέδων με κλίμακα από το 1 έως το 5.

Επίπεδο

bitrate

Συμπίεση

Ελάχιστη καθυστέρηση

Ποιότητα 64 kbit

Ι

192 kbit

4:1

19ms

---

ΙΙ

128kbit

6:1

35ms

2.1 ως 2.6

ΙΙΙ

64kbit

12:1

59ms

3.6 ως 3.8

Αυτή τη στιγμή το αγαπημένο της βιομηχανίας είναι το επίπεδο ΙΙ αφού όταν σχεδίαζαν τους εξοπλισμούς τους δεν είχε ακόμη οριστικοποιηθεί το επίπεδο ΙΙΙ. Όμως σιγά σιγά το επίπεδο ΙΙΙ κερδίζει τη θέση του και ο κυριότερος χώρος εξάπλωσής του είναι το διαδίκτυο. Για δοσμένη ποιότητα ήχου το MPEG layer III απαιτεί το μικρότερο bitrate ή αλλιώς για δοσμένο bitrate πετυχαίνει την υψηλότερη ποιότητα ήχου. Χρησιμοποιώντας το MPEG layer III μπορείς να συρρικνώσεις τα αρχικά δεδομένα ήχου από ένα CD κατά ένα παράγοντα της τάξης του 12 χωρίς να χάσεις ουσιαστικά σε ποιότητα ήχου. Κάποια παραδείγματα της απόδοσης του MPEG-2 layer III είναι τα εξής :

Ποιότητα ήχου

Εύρος

mode

Bitrate

Λόγος

«Ήχος τηλεφώνου»

2.5 kHz

mono

8 kbps

96:1

«Καλύτερος από shortwave»

4.5 kHz

mono

16 kbps

48:1

«Καλύτερος από AM radio»

7.5 kHz

mono

32 kbps

24:1

«Σχεδόν FM radio»

11 kHz

stereo

56...64kbps

26...24:1

«Ποιότητα σχεδόν-CD»

15 kHz

stereo

96 kbps

16:1

«Ποιότητα CD»

> 15 kHz

stereo

112..128 kbps

14..12:1

       Αρκετές από τις εταιρείες που δραστηριοποιούνται στο χώρο του δικτύου χρησιμοποιούν κωδικοποιητές επιπέδου ΙΙΙ χωρίς πάντοτε να υλοποιούν όλες τις δυνατότητες που προσφέρει κάτι που έχει σαν αποτέλεσμα να μην επιτυγχάνονται τα νούμερα και οι ποιότητες που αναφέρονται πιο πάνω. Μερικές από αυτές είναι η Microsoft, η Macromedia κ.α. Στο δίκτυο αυτή τη στιγμή υπάρχουν διαθέσιμοι δωρεάν αποκωδικοποιητές αλλά πωλούνται και κωδικοποιητές για MPEG-2 Audio layer III.

AAC (Advanced Audio Codec)

To AAC είναι ένας αλγόριθμος κωδικοποίησης ήχου πραγματικό αριστούργημα αφού μπορεί να δώσει εξαιρετικά υψηλής ποιότητας ήχο σε bitrate 64Kb/δευτερόλεπτο/κανάλι. Επιτρέπει την κωδικοποίηση έως και 48 καναλιών ήχου και έως και 16 καναλιών χαμηλής συχνότητας για εφέ, ενώ μπορεί να υποστηρίξει πολλές γλώσσες ταυτόχρονα, φωνή πάνω από προγράμματα ήχου και όλα αυτά ενσωματωμένα σε ένα stream.

Το AAC έχει τρεις διαφορετικές όψεις. Την «κύρια»,την «χαμηλής πολυπλοκότητας» και την  «κλιμακούμενης συχνότητας δειγματοληψίας». Η «κύρια» όψη και απευθύνεται σε εφαρμογές που η υπολογιστική ισχύς και η μνήμη δεν είναι περιορισμένα. Η «χαμηλής πολυπλοκότητας» σε εφαρμογές που ισχύς και μνήμη είναι σε μεγάλη ζήτηση, ενώ η τελευταία είναι έτσι φτιαγμένη ώστε οι αποκωδικοποιητές να έχουν ελάχιστες απαιτήσεις σε μνήμη αλλά και ισχύ. Υποκειμενικά τεστ που έγιναν με καλά εκπαιδευμένους ακροατές έδειξαν ότι η συγκεκριμένη κωδικοποίηση δίνει καλύτερη ποιότητα ήχου από οποιαδήποτε άλλη κωδικοποίηση με το μισό μόνο bitrate. H υπολογιστική ισχύς που απαιτείται είναι περίπου 20% ενός επεξεργαστή Ρentium133MHz για δύο κανάλια κωδικοποιημένα με συχνότητα δειγματοληψίας 48κΗz με «χαμηλή πολυπλοκότητα». To ΑΑC θα είναι κομμάτι του MPEG-4 και αναμένεται να κυριαρχήσει στο χώρο του δικτύου. Αυτή τη στιγμή μόνο η εταιρεία ΑΤ&Τ έχει παρουσιάσει στο δίκτυο ένα κωδικοποιητή που φαίνεται ότι έχει ενσωματώσει τους αλγορίθμους της κωδικοποίησης ΑΑC.

IP Multicast και MBONE

Για να μπορέσει το δίκτυο να γίνει βιώσιμο μέσο μεταφοράς ήχου σε πραγματικό χρόνο χρειάζεται ένα τρόπο ώστε να εξυπηρετεί μεγάλο κοινό. Το IP Multicast είναι ένα σύνολο από εργαλεία που ασχολούνται με το κόστος σε εύρος ζώνης δικτύου, τη διαθεσιμότητα κάποιου περιεχομένου, τα προβλήματα ποιότητας που αντιμετωπίζουν όλες οι εφαρμογές σε πραγματικό χρόνο, καθώς και τη μετάδοση σε μεγάλη κλίμακα

 Αντί κάθε φορά να παράγουμε αντίτυπα του αρχείου που θέλουμε να μεταδώσουμε για κάποιον που το ζητάει, το IP Multicast μεταδίδει την ίδια πληροφορία μία φορά μόνο σε πολλούς χρήστες. Όταν ένας ακροατής θέλει να ακούσει κάτι οι routers βρίσκουν τον πλησιέστερο κόμβο που διαθέτει την πληροφορία και την αντιγράφουν, κάνοντας το μοντέλο κλιμακωτό. Το IP Multicast μπορεί να χρησιμοποιηθεί από οποιοδήποτε είδος δικτύου που υποστηρίζει IP συμπεριλαμβανομένων και των εξής : ATM, frame relay, dial up, ακόμη και δορυφορικών συνδέσεων. Η τεχνολογία του IP Multicast αναπτύχθηκε στα τέλη της δεκαετίας του 80 και σήμερα υποστηρίζεται σχεδόν από όλους τους κατασκευαστές δικτύων και η χρήση του συνεχώς αυξάνεται.

Η αξιοπιστία είναι ένα πρόβλημα με το multicast επειδή δεν υπάρχει απαραίτητα ένας διπλός δρόμος ανάμεσα στον εξυπηρετητή και τους χρήστες ώστε να υποστηρίζεται η επαναμετάδοση των χαμένων πακέτων. Ακόμη και αν υπάρχει, μια πλημμύρα από χαμένα πακέτα μπορεί να δημιουργήσει τέτοιο φόρτο δικτύου που να ακυρώνει τα κέρδη σε εύρος ζώνης. Για το λόγο αυτό δεν μπορεί προφανώς να χρησιμοποιείται το πρωτόκολλο TCP/IP.

Ανάμεσα στα πρωτόκολλα μεταφοράς που αναπτύχθηκαν για το IP Multicast, το RTP είναι αυτό που χρησιμοποιείται για μεταφορά εφαρμογών πολυμέσων σε πραγματικό χρόνο. Το πρωτόκολλο αυτό θα το εξετάσουμε αναλυτικότερα αργότερα.

Ασφαλώς τίποτε από τα παραπάνω δεν λύνει το πρόβλημα της αξιοπιστίας. Θα μπορούσαμε να δεχτούμε την απώλεια των πακέτων και να αφήσουμε στον αποκωδικοποιητή να επικαλύψει τα κομμάτια του ήχου που λείπουν αλλά αυτό δεν είναι δυνατό. Δυστυχώς με τη μείωση του όγκου της πληροφορίας στον κωδικοποιητή τα μεταφερόμενα δεδομένα περιέχουν μέσα τους μεγάλα ποσά πληροφορίας και η απώλεια τους είναι αδύνατο να αντισταθμιστεί. Η χωρίς διακοπές μεταφορά ηχητικών σημάτων απαιτεί ένα αξιόπιστο μέσο μεταφοράς. Παρ’ όλα αυτά οι υπάρχουσες τεχνικές όπως αυτές της επανάληψης στο επίπεδο της συχνότητας μαζί με την τεχνική του packet interleaving λειτουργούν σχετικά καλά όταν η απώλεια δεδομένων είναι σχετικά μικρή δεν έχουμε υψηλές απαιτήσεις από τις υπηρεσίες.

Ένας άλλος τρόπος αντιμετώπισης του προβλήματος είναι να μεταδίδουμε επιπλέον πληροφορία για να έχουμε ευκολότερη διόρθωση λαθών. Η επιπλέον πληροφορία βελτιώνει την απόδοση ικανοποιητικά και συνδυασμένη με packet interleaving μπορεί να είναι μια καλή στρατηγική αλλά απαιτεί μεγαλύτερο εύρος ζώνης για δεδομένη ποιότητα. Το γεγονός αυτό είναι ασύμφορο σε συνδέσεις με modem αφού εκεί χρειαζόμαστε απεγνωσμένα και το τελευταίο bit.

Άλλος τρόπος υλοποίησης θα μπορούσε να είναι η δέσμευση και εγγύηση του απαραίτητου εύρους ζώνης δικτύου ώστε τα πακέτα να φτάνουν σίγουρα. Η διασφάλιση της μεταφοράς μέσω δικτύου γίνεται με τη βοήθεια του Πρωτοκόλλου Κράτησης (εξασφάλισης) Μέσου RSVP (Resourse Reservation Protocol) που επιτρέπει στους ακροατές να ζητούν μια συγκεκριμένη ποιότητα υπηρεσιών για δοσμένη ροή δεδομένων. Το RSVP εξετάζουμε μαζί με τα υπόλοιπα πρωτόκολλα.

Τέλος μπορούμε όταν έχουμε επικοινωνία μεταξύ εξυπηρετητή και χρήστη να πετύχουμε multicast που θα επαναμεταδίδει τα χαμένα πακέτα. Στην απλούστερη υλοποίησή του ο χρήστης θα ζητά να επαναμεταδοθούν τα χαμένα πακέτα και να τα λαμβάνει σε διπλανό κανάλι. Παρ’ όλα αυτά αν αρκετοί χρήστες δεν λαμβάνουν όλα τα πακέτα τότε ο server θα πλημμυρίζει από αιτήσεις επαναμετάδοσης και καταλήγουμε να χρειαζόμαστε τόσο εύρος ζώνης όσο στις περιπτώσεις απλής μετάδοσης ανά χρήστη (unicast).Αρκετές έξυπνες ιδέες έχουν προταθεί ώστε να ξεπεραστεί το εμπόδιο αυτό δεν είναι όμως ακόμη ξεκάθαρο αν θα βρει τη θέση του στο δίκτυο.

Το IP Multicast αν και βρίσκεται σε ανοδική πορεία δεν αναμένεται πλήρης ανάπτυξή του πριν περάσουν κάποια χρόνια. Οι μεγάλες εταιρείες Cisco και Bay Networks που κυριαρχούν στο χώρο του δικτυακού εξοπλισμού αυτή τη στιγμή υποστηρίζουν στα προϊόντα τους κάποιες εκδόσεις για βασικό IP Multicast και RSVP. Αλλά οι βασικοί providers του κυρίως δικτύου (backbone) είναι ακόμη επιφυλακτικοί στο να το επιτρέψουν αφού πρόκειται για σημαντική αλλαγή και οι συνέπειες για το διαδίκτυο δεν μπορούν να προβλεφθούν. Ένα επιπλέον εμπόδιο στην καθολική χρήση του είναι η έλλειψη ενσωματωμένης τεχνολογίας ώστε τερματικά που είναι συνδεδεμένα με modems να μπορούν να λαμβάνουν το σήμα μετά από μετατροπή αφού προφανώς δεν διαθέτουν το εύρος ενός τοπικού δικτύου που θα λαμβάνει από το server. Για να γίνει η μετατροπή από multicast σε unicast απαιτούνται είτε τελευταίας τεχνολογίας modems είτε η μετατροπή να γίνεται μέσω software που είναι δύσκολο να υλοποιηθεί. Παρ’ όλα τα προβλήματα υπάρχουν κόμβοι που υποστηρίζουν την τεχνολογία αυτή. Μάλιστα ιδιαίτερο ενδιαφέρον παρουσιάζει το πείραμα ΜΒΟΝΕ. Το ΜΒΟΝΕ είναι ένα εικονικό δίκτυο. Ουσιαστικά βρίσκεται πάνω από κομμάτια του πραγματικού διαδικτύου που επιτρέπουν τη δρομολόγηση πακέτων για multicast καθώς αυτή η λειτουργία δεν υποστηρίζεται από όλους τους εμπορικούς δρομολογητές. Το ΜΒΟΝΕ αποτελείται από νησίδες, που υποστηρίζουν άμεσο multicast -τοπικά δίκτυα Ethernet- και είναι συνδεδεμένες μεταξύ τους με απ’ άκρο εις άκρο συνδέσεις που ονομάζονται «tunnels». Αυτή τη στιγμή υπάρχει ένας σχετικά μικρός αριθμός κόμβων που συμμετέχει στο ΜΒΟΝΕ αλλά διαρκώς οι νέοι κόμβοι που το υποστηρίζουν αυξάνονται. Υπάρχει μάλιστα on-line χάρτης στο δίκτυο που περιέχει όλα τα σημεία που συμμετέχουν.

Αν ποτέ ο ήχος στο δίκτυο φτάσει το επίπεδο αποδοχής του συμβατικού ραδιοφώνου σίγουρα θα χρειαστεί ένα διαφορετικό μέσο μεταφοράς που δεν θα είναι αναγκασμένο να υπακούει στους περιορισμούς του σημερινού διαδικτύου. Ούτως ή άλλως το internet δεν σχεδιάστηκε για να μεταφέρει ζωντανό ήχο οπότε θα πρέπει μη μπορώντας να κάνουμε αλλιώς να πάμε με τα αναξιόπιστα πακέτα του !

Πρωτόκολλα για μεταφορά σε πραγματικό χρόνο

Πριν περάσουμε στην παράθεση των πρωτοκόλλων για μεταφορά σε πραγματικό χρόνο έχει ενδιαφέρον να δούμε γιατί όταν πρόκειται για τέτοιες μεταδόσεις, από τα πρωτόκολλα επιπέδου μεταφοράς (Internet Transmission protocols) προτιμάται το UDP (User Datagram Protocol) έναντι του TCP (Transmission Control Protocol).

Οι περισσότερες ανταλλαγές αρχείων στο δίκτυο χρησιμοποιούν το TCP ώστε να διασφαλίζεται η παράδοση ακόμη και του τελευταίου bit. Όταν όμως έρχεται η ώρα να μεταδοθούν πολυμέσα, το TCP δημιουργεί ανεπιθύμητες καθυστερήσεις καθώς προσπαθεί να παραδίδει τα πακέτα με τη σειρά που ξεκίνησαν και χωρίς το παραμικρό λάθος. Το UDP από την άλλη εγκαταλείπει την διόρθωση λαθών που κάνει το TCP και επιτρέπει να αποβάλλονται τα πακέτα που έρχονται καθυστερημένα ή χαλασμένα. Παρόλη την προοπτική λαθών και χαμένων πακέτων το UDP λειτουργεί καλύτερα με τον ήχο αφού αν ένα κομμάτι λείπει δεν θα το ακούσεις αλλά το κύμα το πακέτων ήχου θα συνεχίσει να έρχεται.

Ένα μεγάλο μειονέκτημα του πρωτοκόλλου UDP είναι ότι πολλά δίκτυα έχουν προστατευτικά επίπεδα (firewalls) που δεν επιτρέπουν τη διέλευση πακέτων με περιεχόμενο UDP. Έτσι κάποιοι χρήστες δεν θα μπορούν να έχουν πρόσβαση στο περιεχόμενο και όχι μόνο αυτό αλλά το δίκτυο θα έχει επιβαρυνθεί χωρίς λόγο, μέχρι τα πακέτα να φτάσουν από το server στο firewall όπου και θα σταματήσουν.

Γνωρίζοντας ότι η τεχνολογία μετάδοσης σε πραγματικό χρόνο είναι σχετικά πρόσφατη είναι απόλυτα φυσιολογικό να μην έχουν οριστικοποιηθεί ακόμη τα πρότυπα που αφορούν σε αυτή. Παρ` όλα αυτά έχουν γίνει αρκετές προσπάθειες τυποποίησης. Πιο κάτω αναφέρουμε πληροφορίες για τα απαραίτητα και ευρέως χρησιμοποιούμενα πρωτόκολλα.

Πρωτόκολλο μεταφοράς πραγματικού χρόνου

(RTP Real-time Transfer Protocol) -RFC 1889-

Το RTP προσφέρει από άκρη σε άκρη λειτουργίες δικτύου μεταφοράς κατάλληλες για εφαρμογές που μεταδίδουν δεδομένα πραγματικού χρόνου, όπως ήχο, εικόνα ή δεδομένα προσομοίωσης μέσω multicast ή unicast δικτυακών υπηρεσιών. Το πρωτόκολλο υποστηρίζει τη χρήση μεταφραστών και μικτών επιπέδου RTP. Οι υπηρεσίες του RTP περιλαμβάνουν προσδιορισμό του τύπου του φορτίου, αρίθμηση της ακολουθίας, χρονικό χαρακτηρισμό και έλεγχο παραλαβής.

Οι εφαρμογές χρησιμοποιούν το RTP πάνω από το πρωτόκολλο UDP ώστε να εκμεταλλευθούν τις υπηρεσίες πολύπλεξης και ελέγχου λαθών μέσω checksum. Και τα δύο πρωτόκολλα συνεισφέρουν στη λειτουργικότητα του πρωτοκόλλου μεταφοράς. Το RTP υποστηρίζει μεταφορά δεδομένων σε πολλαπλούς προορισμούς χρησιμοποιώντας multicast αν προσφέρεται από το υπάρχον δίκτυο.

Θα πρέπει να σημειωθεί ότι το RTP δεν προσφέρει κανένα μηχανισμό χρονικής εξασφάλισης της αποστολής ούτε κάποια άλλη εγγύηση ποιότητας υπηρεσιών παρά στηρίζεται σε υπηρεσίες προσφερόμενες από χαμηλότερου επίπεδου πρωτόκολλα δικτύων υπολογιστών. Δεν εγγυάται παράδοση των πακέτων ούτε μπορεί να αποτρέψει εκτός σειράς παράδοση ενώ ούτε στηρίζεται στην αξιοπιστία του υποκειμένου πρωτοκόλλου. Τα νούμερα της αλληλουχίας που περιλαμβάνονται στο RTP επιτρέπουν στον παραλήπτη να επανασυνθέσει την αλληλουχία των πακέτων του αποστολέα.

Το RTP αποτελείται από δυο στενά συνδεδεμένα μέρη:

  • Το πρωτόκολλο μεταφοράς πραγματικού χρόνου (RTP),για τη μεταφορά δεδομένων με χαρακτηριστικά πραγματικού χρόνου.
  • Το πρωτόκολλο ελέγχου μεταφοράς πραγματικού χρόνου (RTCP), για την παρακολούθηση της ποιότητας της υπηρεσίας και την διαβίβαση πληροφοριών για τους συμμετέχοντες ή τα περιεχόμενα σε μια συνεχιζόμενη σύνοδο(session).

RTSP (Real -Time Streaming Protocol)

H ανάπτυξη των εφαρμογών σε πραγματικό χρόνο στο δίκτυο είχε εξαντλήσει τις περιορισμένες δυνατότητες του HTTP σε αυτή την περιοχή και γίνονται προσπάθειες να τυποποιηθούν λειτουργίες όπως η έναρξη και η παύση της μετάδοσης σε πραγματικό χρόνο, ο συγχρονισμός πολλαπλών μορφών δεδομένων και η ανάπτυξη άλλων ελέγχων. Η κύρια εργασία έχει ενσωματωθεί στο πρωτόκολλο RTSP που αναπτύσσεται κυρίως από την Progressive Networks και τη Netscape μαζί με άλλες 40 περίπου εταιρείες. Αυτή τη στιγμή το RTSP βρίσκεται σε επίπεδο πρότασης (draft).

Το RTSP δανείζεται αρκετά στοιχεία από το HTTP και κυρίως προσφέρει υπηρεσίες επιπέδου HTTP για μεταφορά σε πραγματικό χρόνο δεδομένων. Όμως το RTSP διαφέρει ριζικά από το HTTP στο ότι η μεταφορά δεδομένων γίνεται εκτός ζώνης από κάποιο άλλο πρωτόκολλο. Ακόμη το RTSP μπορεί να ενσωματώσει μηχανισμούς ασφαλείας και αναγνώρισης ταυτότητας.

Το πρωτόκολλο RTSP εγκαθιστά καi ελέγχει είτε ένα είτε αρκετά χρονοχρονισμένα κύματα (streams) από μέσα όπως ήχος ή βίντεο. Το πρωτόκολλο δεν μεταφέρει τα συνεχόμενα πακέτα από μόνο του, παρόλο που παρεμβολές στα κύματα πακέτων με πακέτα ελέγχου είναι δυνατές. Με άλλα λόγια το RTSP λειτουργεί σαν ένα «τηλεκοντρόλ δικτύου» για servers πολυμέσων.

Δεν υπάρχει καμία έννοια RTSP σύνδεσης. Αντίθετα ο server διατηρεί μια σύνοδο καθορισμένη από ένα identifier. Μια σύνοδος RTSP δεν είναι με κανένα τρόπο όμοια με μια σύνδεση επιπέδου μεταφοράς όπως μια TCP σύνδεση. Κατά τη διάρκεια μιας συνόδου RTSP ένας client RTSP μπορεί να ανοίξει και να κλείσει πολλές αξιόπιστες συνδέσεις μεταφοράς με ένα server και να κάνει RTSP αιτήσεις (requests).Εναλλακτικά μπορεί να χρησιμοποιήσει ένα πρωτόκολλο μεταφοράς χωρίς σύνδεση όπως το UDP.

ASF (Active Streaming Format)

Από τη λίστα των υποστηρικτών του RTSP είναι σημαντική η απουσία της Microsoft, που έχει αναπτύξει ένα ανταγωνιστικό πρωτόκολλο, το ASF και το έχει ενσωματώσει στη δική της πλατφόρμα για μεταφορά δεδομένων σε πραγματικό χρόνο το NetShow. Παρ’ όλο που προσφέρει σχεδόν τις ίδιες δυνατότητες με το RTSP αναφέρεται πιο σεμνά όχι σαν πρωτόκολλο αλλά σαν τύπος αρχείου (file format) και θεωρείται κομμάτι της συνολικής στρατηγικής των ActiveX. Ουσιαστικά πρόκειται για τρόπο δημιουργίας αρχείων που περιέχουν πολλαπλά αντικείμενα (ήχο, εικόνα κ.τ.λ.) ώστε να αποστέλλονται ενοποιημένα μέσα από τα frames του δικτύου. Δεν υποκαθιστά το MPEG αντίθετα frames παραγόμενα από MPEG κωδικοποιητές μπορούν να ενσωματωθούν στα frames τoυ ASF. Καθώς το ASF χρησιμοποιείται σαν file format μπορεί να μεταφερθεί πάνω από χαμηλότερου επιπέδου πρωτόκολλα μεταφοράς περιλαμβανομένων των TCP/IP, UDP/IP, και το RTP. Ακόμη και ακροατές που βρίσκονται πίσω από firewalls που μπλοκάρουν όλα τα UDP πακέτα μπορούν μέσω HTTP να λάβουν τα σήματα.

RSVP (Resourse Reservation Protocol)

Το πρωτόκολλο αυτό διασφαλίζει τη μεταφορά μέσω ενός δικτύου και επιτρέπει στους χρήστες να ζητούν συγκεκριμένης ποιότητας υπηρεσίες για δεδομένη ροή πληροφοριών.

Οι ακροατές μπορούν να προσδιορίζουν τι εύρος ζώνης θα χρειασθούν και τη μέγιστη καθυστέρηση που μπορούν να ανεχθούν και όλες οι συσκευές που εμπλέκονται κρατούν το εύρος για τη ροή αυτή. Ένας χρήστης είτε θα εξυπηρετηθεί είτε θα ενημερωθεί ότι δεν υπάρχει διαθέσιμο κανάλι. Ένα μεγάλο μειονέκτημα είναι ότι όλοι όσοι εμπλέκονται ανάμεσα στον προμηθευτή και τον ακροατή θα πρέπει να υποστηρίζουν το RSVP. Όλοι οι μεσάζοντες θα πρέπει να δεσμεύσουν πηγές όπως εύρος ζώνης δικτύου, υπολογιστική ισχύ και μνήμη ώστε να ικανοποιηθεί η αίτηση. Το RSVP λειτουργεί πάνω από IP, καταλαμβάνοντας τη θέση του επιπέδου μεταφοράς αλλά προσφέρει και υπηρεσίες επιπέδου συνόδου. Το RSVP αναδεικνύει   σημαντικά ερωτήματα για χρέωση του εύρους που χρησιμοποιείται. Αυτή τη στιγμή οι providers δεσμεύονται για εύρος πάνω από τις δυνατότητες τους και οι χρήστες αντιμετωπίζουν καθυστερήσεις. Είναι αμφίβολο αν θα μπορέσει ποτέ να υποστηριχθεί σε μεγάλη κλίμακα το RSVP αφού δεν είναι ξεκάθαρο αν οι routers μπορούν να αντεπεξέλθουν τέτοια χρήση.

Προϊόντα που προσφέρουν τεχνολογίες ήχου στο διαδίκτυο.

Αναφέραμε και πιο πάνω ότι η τεχνολογία του streaming audio συναντάται σε δύο κύριες μορφές On-demand και Live. Κάποιες από τις εφαρμογές που παρουσιάζονται εξυπηρετούν και τους δύο τύπους ενώ άλλες επικεντρώνονται σε έναν από τους δύο τύπους .

Real Media 5.0

Ανάμεσα στις λύσεις που κυκλοφορούν στο δίκτυο ξεχωριστή θέση καταλαμβάνει το προϊόν της Progressive Networks Real Μedia. Αυτή τη στιγμή το προϊόν βρίσκεται στην έκδοση 5.0 και είναι μια ολοκληρωμένη λύση για μετάδοση μέσω δικτύου τόσο ήχου που κυρίως μας ενδιαφέρει αλλά και κινούμενης εικόνας (video), κειμένου και οποιουδήποτε είδους αρχείου που θέλουμε να μεταφερθεί σε πραγματικό χρόνο. Το εξαιρετικό πλεονέκτημα που διαθέτει το προϊόν έναντι των άλλων είναι ότι έχει κυριαρχήσει στο διαδίκτυο (internet) εδώ και καιρό και άρα ήδη υπάρχει μια μεγάλη εγκατεστημένη βάση με αρχεία που παράγει ο κωδικοποιητής του.

       Θα πρέπει να τονιστεί ότι τη μεγάλη του επιτυχία οφείλει στο γεγονός ότι η εταιρεία ενώ πουλά τον κωδικοποιητή δίνει δωρεάν σε όλους τους χρήστες του δικτύου τον αποκωδικοποιητή (player). Έτσι ενώ όλοι έχουν τη δυνατότητα να ακούσουν ότι υπάρχει στο δίκτυο, αν δεν αγοράσουν το πρόγραμμα κωδικοποίησης και εξυπηρέτησης χρηστών (server) δεν έχουν την δυνατότητα να παράγουν και να μεταδώσουν ζωντανά περιεχόμενο (ήχο, εικόνα κ.τ.λ.). Μάλιστα και οι υπόλοιπες εταιρείες που δραστηριοποιούνται στον ίδιο επιχειρηματικό χώρο χρησιμοποιούν την ίδια πολιτική. Ας δούμε όμως το προϊόν από κοντά.

       Η πλατφόρμα Real Media μπορεί να μεταδώσει σε πραγματικό χρόνο οποιοδήποτε τύπο δεδομένων όπως αρχεία ήχου, κινούμενης εικόνας, MIDI, κείμενο, εικόνες, animation και παρουσιάσεις. Η μετάδοση μπορεί να περιλαμβάνει είτε ένα είτε και όλα τα παραπάνω είδη δεδομένων συγχρονισμένα. Δουλεύει απευθείας με όλα τα ευρέως γνωστά λειτουργικά συστήματα και επιτρέπει τον έλεγχο των πακέτων και από τις δύο πλευρές δηλαδή τόσο από αυτόν που μεταδίδει όσο και από αυτόν που λαμβάνει. Επιτρέπει τη μείωση των λαθών, την συνεννόηση για την σύνδεση(bandwidth negotiation), την ζωντανή μετάδοση και τον έλεγχο της και τέλος την πολλαπλή μετάδοση(multicast).

Ουσιαστικά η ολοκληρωμένη πλατφόρμα Real Media αναπτύχθηκε βαθμιαία μέσα από το σύστημα του Real Audio. Το Real Audio έκανε την εμφάνισή του το 1994 και από τότε μέχρι σήμερα γνώρισε μεγάλη επιτυχία και διάδοση στο διαδίκτυο. Αρχικά μετέδιδε κανείς μόνο ήχο ενώ σιγά σιγά εισήχθηκαν στην τεχνολογία του και τα υπόλοιπα είδη (εικόνες κ.τ.λ.).

Ένα νέο εξαιρετικό χαρακτηριστικό της πλατφόρμας Real Media είναι ότι μπορεί κανείς να μεταδίδει το περιεχόμενο που θέλει χωρίς να είναι υποχρεωμένος να μετατρέψει τα δεδομένα του στη μορφή (format) που παράγει ο κωδικοποιητής της εταιρείας. Το σύστημα λειτουργεί με τη λογική πελάτη – εξυπηρετητή (client-server) και διαθέτει μια ανοιχτή αρχιτεκτονική για όλους τους τύπους δεδομένων. Ένα plug-in προστίθεται στον εξυπηρετητή ή την εφαρμογή για τους χρήστες και επεξηγεί πως να διαβαστούν τα εκάστοτε δεδομένα. Ένα άλλο plug –in επιτρέπει να χρησιμοποιηθούν τα δεδομένα.

H πλατφόρμα επιτρέπει να μεταδώσει κάποιος το περιεχόμενό που θέλει, στην περίπτωσή μας τον ήχο με τη βοήθεια οποιουδήποτε πρωτοκόλλου για το δίκτυο όπως TCP/IP, UDP/IP, UDP resent ή HTTP. Οι εξυπηρετητές δίνουν τη δυνατότητα για μετάδοση σε ένα ή περισσότερους πελάτες ταυτόχρονα (unicast,multicast) ενώ υποστηρίζουν  αμέτρητο αριθμό ταυτόχρονων συνδέσεων. H πλατφόρμα χρησιμοποιεί και κάποιους τρόπους ώστε ακόμη και χρήστες που βρίσκονται πίσω από firewalls να μπορούν να λαμβάνουν το περιεχόμενο

Περίπου 500.000 χρήστες κάθε εβδομάδα επισκέπτονται το site της Real Media για να «κατεβάσουν» για πρώτη φορά ή να αναβαθμίσουν το πρόγραμμα τους (player). Είναι μάλιστα χαρακτηριστικό ότι σχεδόν όλοι οι ραδιοφωνικοί σταθμοί που μεταδίδουν περιεχόμενο χρησιμοποιούν software της εταιρείας. Ακόμη ανταγωνιστές υποστηρίζουν την μορφή (format) των αρχείων που παράγει ο κωδικοποιητής. Το ίδιο ακριβώς κάνει και η Progressive Networks αφού υποστηρίζει σχεδόν όλα τα υπόλοιπα format ήχου που κυκλοφορούν στο δίκτυο.

Microsoft’s Netshow 2.0

Ένας ισχυρός ανταγωνιστής της Progressive Networks είναι ο γίγαντας Microsoft. H εταιρεία αυτή πρόσφατα μπήκε στο χώρο της τεχνολογίας του streaming audio όμως το μέγεθος της και η ενασχόλησή της με πλήθος εφαρμογών πληροφορικής την κάνουν ένα σημαντικό παράγοντα της αγοράς. Παρότι κατέχει ένα μικρό μέρος (περίπου 15%) της εταιρείας Progressive Networks και έχει δικαιώματα χρήσης των προηγούμενων προιόντων της Progressive Networks αποφάσισε να λανσάρει το δικό της προϊόν σε συνεργασία με την εταιρεία Liquid Audio. Ας δούμε όμως το προϊόν της από κοντά.

Το πρωτόκολλο που χρησιμοποιεί το Netshow για να μεταφέρει το περιεχόμενο που θέλουμε είναι το ASF. Παρότι το αρχεία του τύπου ASF μπορούν να μεταφερθούν από οποιονδήποτε web server, το Netshow βελτιστοποιεί τη μεταφορά τους ενώ περιέχει και εργαλεία για την μετατροπή όλων των γνωστών file formats σε ASF format. Υποστηρίζει και αυτό όλα τα πρωτόκολλα μεταφοράς και διαθέτει εύχρηστο interface.

AT&T’s a2bmusic

Η πρώτη σοβαρή προσπάθεια να διανέμεται μέσω δικτύου μουσική συγκροτημάτων έγινε από την εταιρεία N2K. Όμως κυρίως πρωτοεμφανιζόμενα μουσικά σχήματα χρησιμοποιούν τον τρόπο αυτό διανομής αφού δεν υπάρχει καμία δυνατότητα χρέωσης. Αυτή τη στιγμή το site της N2K διανέμει τόσο δωρεάν κομμάτια αλλά και αποστέλλει CD’s παντού στον κόσμο αφού πρώτα χρεώσει πιστωτικές κάρτες μέσω δικτύου. Η AT&T όμως έχει να παρουσιάσει ένα ολοκληρωμένο σύστημα διανομής μουσικής. Είναι ουσιαστικά η πρώτη εταιρεία που εμφανίζει κωδικοποιητή που πετυχαίνει αποτελέσματα κοντά σε αυτά του AAC. Με ένα σύστημα ελέγχου των αποκωδικοποιητών, εισαγωγής «υδατογραφήματος» (watermark) κατά τη διάρκεια της συμπίεσης των δεδομένων και κρυπτογράφησης ευελπιστούν να απαλλάξουν το δίκτυο από την πειρατεία που παρατηρείται στις μέρες μας. Ήδη κάποια albums συγκεκριμένων συγκροτημάτων μπορούν να αγορασθούν ηλεκτρονικά και να παιχθούν ελεγχόμενες φορές από τον αποκωδικοποιητή της ΑΤ&Τ που λέγεται a2bmusic. H πρόταση που κάνει η ΑΤ&Τ είναι να μην διανέμεται όπως σήμερα με τα CD η αρχική ηχογράφηση αλλά μόνο κωδικοποιημένα τραγούδια που θα φέρουν την υπογραφή του αγοραστή με τέτοιο τρόπο που να μην μπορεί να αφαιρεθεί.

Τηλεφωνία μέσω δικτύου

Εδώ και σχεδόν δύο χρόνια εταιρείες έχουν παρουσιάσει προϊόντα που επιτρέπουν τηλεφωνήματα μέσω του διαδικτύου. Αυτή η τεχνολογία παρουσιάστηκε και υπερτονίστηκε από τον τύπο από τη μία μεριά για τις νέες προοπτικές που ανοίγει και από την άλλη για τους κινδύνους που δημιουργεί για φόρτο του δικτύου. Το πλέον ενδιαφέρον στοιχείο της τεχνολογίας αυτής είναι η τεράστια μείωση κόστους των υπεραστικών τηλεφωνικών συνδιαλέξεων μέσω του διαδικτύου.

Η εφαρμογή της τεχνολογίας αυτής έγινε δυνατή με την εμφάνιση τεχνολογίας πολύπλεξης σε modem στις Η.Π.Α. στα μέσα της δεκαετίας του 80. Η φωνή μετατρέπεται σε ψηφιακά δεδομένα κόβεται σε πακέτα και στέλνεται στον προορισμό της μέσω του διαδικτύου. Δυστυχώς η τεχνολογία δεν λειτουργεί τέλεια ακόμη, έχοντας σαν αποτέλεσμα καθυστερήσεις μετάδοσης και διακοπτόμενο ήχο. Τα πρώτα προϊόντα που παρουσιάστηκαν είχαν δυνατότητες μόνο half duplex ενώ σήμερα οι εταιρείες προσφέρουν υπηρεσίες πραγματικού χρόνου full duplex.

Διαφορετικοί τρόποι υλοποίησης τηλεφωνίας πάνω από το δίκτυο έχουν χρησιμοποιηθεί από τις εταιρείες. Η πλέον διαδεδομένη που υποστηρίζεται από τις εταιρείες Vocaltec, Camelot, Quaterdeck και Electric Magic απαιτεί να συνδεθεί κανείς μέσω software σε ένα IRC server ώστε να εξασφαλίσει σύνδεση με άλλους που χρησιμοποιούν το ίδιο software. Όταν επιλεγεί ο συνομιλητής τότε μπορεί να ξεκινήσει η συνομιλία. Ο δεύτερος τρόπος υλοποίησης που υποστηρίζεται από την Itel προσφέρει απευθείας σύνδεση μέσω e-mail ή IP χωρίς τη μεσολάβηση του IRC. Απαιτεί όμως και αυτός να είναι κανείς εκ των προτέρων συνδεδεμένος στο δίκτυο.

Τα εμπόδια που συναντά η τηλεφωνία μέσω του διαδικτύου είναι και τεχνολογικά αλλά και νομικά. Από τεχνολογικής πλευράς είναι φανερό ότι όσο καλά και να είναι αυτά τα συστήματα δεν μπορούν σε καμία περίπτωση να προσφέρουν την ποιότητα υπηρεσιών που δίνει το παραδοσιακό τηλέφωνο. Ανεξάρτητα από τρόπους κωδικοποίησης του σήματος και συμπίεσης του η ποιότητα εξαρτάται σε πολύ μεγάλο βαθμό από το φόρτο του δικτύου. Και είναι σίγουρο ότι η εξάπλωση τέτοιων υπηρεσιών μάλλον θα επιβαρύνει την ήδη άσχημη κατάσταση του δικτύου παρά θα την ωφελήσει. Ένα ακόμη τεχνολογικό εμπόδιο είναι η ασυμβατότητα ανάμεσα στα προϊόντα υποστήριξης της υπηρεσίας δημιουργώντας σημαντικό πρόβλημα αφού οι χρήστες μπορούν να επικοινωνήσουν μόνο με κατόχους του ίδιου προγράμματος.

Όσο για τη νομιμότητα της τηλεφωνίας στο δίκτυο τόσο στις Η.Π.Α. όσο και στην Ευρώπη το θέμα παρακολουθείται στενά. Ακόμη εθνικοί οργανισμοί τηλεπικοινωνιών δεν βλέπουν με ιδιαίτερα καλό μάτι τέτοιες τεχνολογίες αφού βάζουν σε κίνδυνο την κερδοφορία τους που προέρχεται από υπεραστικές κλήσεις. Για τους οργανισμούς αυτούς η τεχνολογία αυτή θεωρείται μακροπρόθεσμος κίνδυνος αφού θεωρείται δύσκολο πελάτες συνηθισμένοι σε καλύτερου επιπέδου υπηρεσίες να τις εγκαταλείψουν. Τέλος τέτοιες υπηρεσίες βρίσκονται αντιμέτωπες με κανονισμούς των providers αφού δημιουργούν συμφόρηση στο δίκτυο.

Η σκοτεινή πλευρά του δικτύου

Δυστυχώς ένα από τα μεγαλύτερα εμπόδια που συναντά η τεχνολογία της κωδικοποίησης του ήχου και μεταφοράς του μέσω δικτύου είναι ένα σκοτεινό κομμάτι του διαδικτύου : οι πειρατές. Η ύπαρξη κωδικοποιητών MPEG-2 Audio layer III που μπορούν εύκολα να αποκτηθούν γέμισε το δίκτυο με εμπορικά παράνομα κομμάτια μουσικής αφού έχοντας ένας μόνο χρήστης το αυθεντικό CD μπορεί να το κωδικοποιήσει, να παράγει ένα αρχείο.mp3 και να το στείλει ή να δώσει τη δυνατότητα να το κατεβάσει ο οποιοσδήποτε. Είναι μάλιστα χαρακτηριστικό ότι ένα τραγούδι διάρκειας 5 λεπτών που καταλαμβάνει σε ένα CD χώρο περίπου 50 MB παράγει αρχείο.mp3 περίπου 4.5 ΜΒ. Δυστυχώς το πλημμύρισμα του δικτύου με τέτοια αρχεία έχει φοβίσει τις εταιρείες δίσκων αφού κινδυνεύουν να χάσουν τον έλεγχο των προιόντων τους και μαζί με αυτόν και τα κέρδη τους. Παρόλο που έγινα προσπάθειες να χτυπηθούν πειρατές του χώρου κλείνοντας μεγάλα sites που προμήθευαν δίσκους τα αποτελέσματα δεν ήταν ικανοποιητικά. Ο φόβος ότι καθετί που βγαίνει στο δίκτυο για να πουληθεί θα γίνεται αντικείμενο υποκλοπής έχει αποτρέψει μέχρι τώρα την πώληση από το δίκτυο κωδικοποιημένης μουσικής. Η σοβαρή προσπάθεια της ΑΤ&Τ θα πρέπει να δούμε τι αποτελέσματα θα έχει. Καθώς με το δίκτυο υπάρχει κίνδυνος να κατάρρευση η βιομηχανία παραγωγής μουσικής.



[1][1] CELP (Code Excited Linear Prediction): ένα είδος διανυσματικής κβαντοποίησης που χρησιμοποιείται στο US Federal Standard για συμπίεση ήχου μέχρι τα 4.8Kbps (ποιότητα τηλεφωνική)