SUNETUL
Sunetul este probabil cel mai elocvent element al unui proiect multimedia, fie cã este o voce explicând o diagramã, un fundal muzical sau diverse efecte speciale sonore. O aplicatie complexã fãrã sunet este la ora actualã la fel de stranie ca si un televizor alb-negru. O parte audio de calitate poate constitui diferenta între o prezentare sau un proiect multimedia de calitate si unul mai putin reusit si din aceste considerente prezentul capitol va trata în detaliu cele mai importante aspecte ale sunetului pe PC, adicã înregistrare, procesare, redare si includere în aplicatiile multimedia.
Atunci când o parte mobilã a unui dispozitiv (de exemplu membrana unui difuzor) se miscã, se genereazã unde de presiune, propagându-se într-un mod similar cu undele care se produc pe suprafata apei aruncând o piatrã într-un lac. Diferentele de presiune sunt transformate de cãtre urechea umanã în impulsuri electrice prelucrate ulterior de creier si percepute de noi si sunete variind în amplitudine (presiunea undelor), frecventã si tonalitate.
Toate aceste caracteristici ale sunetului pot fi percepute si cu o singurã ureche, pentru localizarea spatialã a sunetelor este însã nevoie de ambele urechi. Pentru sunete provenite din lateral, creierul foloseste diferentele de timp si intensitate percepute de cele douã urechi si calculeazã pozitia sunetului. Când surse sonore identice sunt amplasate în stânga si în dreapta, creierul interpreteazã sunetul ca venind din spatiul gol dintre cele douã surse pentru cã fiecare ureche receptioneazã acelasi semnal. Sunetul stereofonic nu este de fapt decât duplicarea unei surse sonore pentru douã difuzoare - stânga si dreapta, diversele efecte stereofonice suprapunându-se peste semnale si creând astfel impresia cã sunetul "se miscã".
În mod uzual gama de frecvente ce poate fi perceputã de o ureche umanã normalã este de 20 Hz - 20 kHz, cu abateri în functie de intensitatea sonorã conform cu graficul din figura 4.1. Restul intervalului de frecvente este împãrtit în infrasunete (sunete cu frecventa mai micã de 20 Hz, care nu pot fi auzite, dar pot fi simtite fizic de cãtre organism, fiind în unele cazuri chiar dãunãtoare sãnãtãtii) si ultrasunete (sunete cu frecventa mai mare de 20 kHz). Dupã cum se poate vedea si din grafic, sensibilitatea maximã a urechii este între 1 si 5 kHz, scãzând destul de rapid pentru frecvente prea mici sau prea mari.
Volumul (intensitatea) unui sunet este mãsurat în decibeli (dB), constituind diferenta între intensitatea respectivului sunet si o valoare de referintã (0 dB) pe o scalã logaritmicã. Dacã puterea sunetului este mãritã de patru ori, cresterea este doar de 6 dB, iar pentru o mãrire de o sutã de ori cresterea este de 20 dB. A fost aleasã o scalã logaritmicã si nu una liniarã deoarece si caracteristica urechii umane este una logaritmicã, lucru demonstrabil prin perceptia intervalelor muzicale. De exemplu, intervalul dintre 100 si 200 Hz este perceput ca o octavã, la fel ca si intervalul între 1000 si 2000 Hz.
Puterea sonorã, mãsuratã în Wati
(W) este o caracteristicã a generatoarelor de sunete, fie ele voce umanã,
instrumente muzicale sau aparate electronice audio.
Dacã intensitatea si frecventa unui sunet sunt niste mãrimi fizice clare si mãsurabile, nu acelasi lucru se poate spune despre tonalitate ("pitch" în limba englezã) care este o caracteristicã complexã si subiectivã a sunetului, depinzând de frecventã si intensitate, dar si de forma undei sonore. Pe CD-ul atasat, în capitolul dedicat sunetului, pot fi gãsite câteva exemple sonore în care pentru o aceeasi frecventã se modificã forma undei sonore si intensitatea ei, rezultând o modificare a tonalitãtii.
Sunetul poate fi în unele cazuri mai mult simtit decât auzit. De exemplu, studiile au arãtat cã omul nu mai este în stare sã se concentreze la locul de muncã dacã sunetele de acolo depãsesc pragul de 90 dB, iar daca nivelul sonor este mai mare de 80 dB nu se poate face înteles dacã vorbeste la telefon. În aceeasi notã, niste studii de peste ocean au arãtat cã un generator de zgomot la 45 dB instalat într-o casã nu este bãgat în seamã de cãtre vecini. Dacã însã se creste volumul sonor la 50 - 60 dB, vecinii încep sã se sesizeze, sau, la 70 dB , sã cheme politia.
MIDI (Musical Instrument Digital Interface) este un standard de comunicatie dezvoltat la începutul anilor '80 pentru a permite interconectarea mai multor instrumente electronice (sintetizatoare, generatoare etc.) între ele si/sau cu placa de sunet a PC-ul. Standardul MIDI contine un protocol de comunicatie ce poate transfera între diversele instrumente sau calculatoare note, secvente de note, partituri întregi, împreunã cu informatii asupra instrumentului ce va reda aceste note. Datele MIDI nu sunt sunete digitizate, ci doar o reprezentare electronicã a unei partituri, si din acest motiv sunetul MIDI depinde fundamental de posibilitãtile tehnice de redare a sistemului disponibil (PC sau instrument electronic). Un fisier MIDI este o însiruire temporalã de comenzi corespunzând unei actiuni muzicale (de exemplu apãsãrii unei clape sau a unei pedale de pian). Când fisierul MIDI este redat de cãtre sistemul audio (sintetizator sau PC) comenzile respective se concretizeazã într-o secventã de sunete aidoma partiturii incluse în fisier.
În contrast cu datele de tip MIDI, datele digital audio constituie reprezentarea realã a sunetului, stocatã în formã numericã. Datele digitale reprezintã amplitudinea momentanã a unui sunet prelevatã periodic din semnalul analogic original. Pentru cã nu este dependent de platforma de calcul folositã, sunetul digital audio are aceleasi caracteristici de fiecare datã când este redat. Evident, aceastã fidelitate implicã un mare dezavantaj: volum mare de informatie si implicit fisiere audio de mãrimi respectabile, direct proportionale calitãtii sonore. Standardul digital audio este folosit pentru CD-urile muzicale uzuale.
Standardul MIDI dispune de câteva avantaje fatã de digital audio, contracarate însã de douã mari dezavantaje. Iatã întâi avantajele:
fisierele MIDI sunt mult mai mici decât fisierele digital audio, mãrimea unui fisier fiind independentã de calitatea redãrii. În general, fisierele MIDI sunt de 200 - 1000 de ori mai mici decât fisierele digital audio de calitate ridicatã. Din aceste considerente, MIDI necesitã mai putinã memorie RAM, spatiu pe disc si putere de calcul. În plus, micile fisiere MIDI pot fi incorporate în pagini Web, consumând mult mai putin timp pentru încãrcare;
în unele cazuri MIDI poate suna chiar mai bine decât un echivalent digital audio în cazul în care sursa de sunet MIDI (PC sau sintetizator) este de calitate ridicatã;
lungimea unei bucãti muzicale MIDI poate fi modificatã foarte simplu prin varierea vitezei de redare (tempo) fãrã a se pierde din calitatea audio. Datele MIDI sunt editabile complet, pânã la nivelul de notã. Cel mai mic detaliu al unei compozitii MIDI poate fi manipulat (de cele mai multe ori cu o acuratete de sub o milisecundã) în feluri imposibil de conceput în cazul digital audio.
Iar acum dezavantajele:
deoarece datele MIDI reprezintã instrumente muzicale si nu sunete propriu-zise, redarea unui fisier MIDI va fi indenticã cu cea obtinutã la creare numai dacã echipamentul folosit este identic.
cu MIDI este aproape imposibilã redarea vocii umane (sau sintetizate), cu toate eforturile si progresele înregistrate în acest domeniu.
În esentã, cel mai important avantaj al datelor digital audio este consistenta redãrii în aproape orice situatie, adicã implicit cel mai mare dezavantaj al datelor MIDI! Cu digital audio, creatorul unui proiect multimedia poate fi aproape sigur cã partea sonorã a proiectului sãu va suna pe calculatorul unui utilizator la fel de bine ca si pe propriul lui calculator, la creare. Din aceste motive nu este de mirare cã standardul digital audio este mult mai rãspândit în lumea Multimedia. În plus, mai existã douã motive suplimentare, deloc de neglijat, ce înclinã balanta în defavoarea MIDI:
o gamã din ce în ce mai extinsã de aplicatii si de functii ale sistemelor de calcul permit folosirea datelor digital audio (inclusiv pentru Internet);
înregistrarea, editarea si folosirea datelor digital audio nu necesitã pregãtire în domeniul teoriei muzicale; lucrul cu MIDI implicã în mod uzual câteva cunostinte de bazã în ceea ce priveste partiturile, notatiile muzicale, octave, game etc.
În sintezã, MIDI se foloseste uzual în urmãtoarele cazuri:
nu aveti destulã memorie RAM, spatiu pe disc, putere de calcul sau vitezã de comunicatie (pentru aplicatiile care implicã lucrul în retea - inclusiv Internet) pentru a folosi digital audio;
dispuneti de o parte hardware MIDI de calitate superioarã sau stiti cã aceasta este disponibilã pe calculatoarele unde va rula aplicatia;
nu aveti nevoie de voci umane (dialoguri).
Digital audio se foloseste atunci când:
nu stiti cu ce parte hardware de redare veti lucra;
nu aveti cunostinte de teorie muzicalã;
aveti resursele necesare redãrii în bune calitãti a sunetului digital;
aveti nevoie de voci.
Tehnica digital audio se referã la convertirea unui semnal analogic cu frecventa cuprinsã în spectrul sonor, într-o succesiune de date numerice numite semnal audio digital. Prima problemã care se pune este legatã de aflarea respectivelor date numerice sau, cu alte cuvinte, cum se converteste un semnal continuu într-un semnal numeric. Digitizarea foloseste douã procedee: esantionare temporalã si cuantizare a amplitudinii pentru a coda numeric valoarea unui semnal analogic.
Timpul, asa cum este perceput de cãtre oameni, pare a avea o curgere continuã, la fel ca miscarea acelor unui ceasornic. Un ceas electronic oferã deasemenea informatii asupra timpului, doar ca aceste informatii sunt discrete, sau mai bine zis esantionate. În mod similar un semnal muzical variazã continuu în timp si poate fi înregistrat si ulterior redat fie continuu (analogic) sau discret (digital). Esantionarea temporalã discretã este procesul cheie al oricãrui sistem audio digital, permitând conversia analog-digitalã si ulterioara prelucrare digitalã a semnalului convertit.
Din cele expuse pânã acum se întrevede însã o întrebare cât se poate de logicã: dacã un sistem digital lucreazã cu esantioane discrete, ce se întãmplã între esantioane? Nu se pierde oare informatia dintre douã esantioane consecutive? Rãspunsul, poate surprinzãtor, este negativ, deci în conditii normale, între intrarea unui sistem de digitizare si iesirea sa nu existã pierderi de informatie. Pentru a ilustra practic fenomenul, se poate apela la o analogie destul de reusitã.
Un aparat de filmat clasic, cu cadre succesive de imagine imprimate pe peliculã de celuloid, filmeazã rotile unei cãrute în miscare. Imaginea este reprodusã corect si privitorul poate vedea toate detaliile miscãrii rotii dacã aceasta parcurge un drum fãrã gropi. Dacã însã apar gropi, la trecerea prin acestea, imaginea rotii cãrutei tinde sã piardã din cursivitate, adicã aparatul de filmat nu mai reuseste sã tinã pasul cu miscarea prea rapidã a rotii. Remediul este simplu: se mãreste viteza cu care bobina de film trece prin fata obiectivului de filmare, mãrind astfel numãrul de cadre de film pe secunda, sau, translatat în domeniul audio, frecventa de esantionare. Alt remediu, mai "gospodãresc" si mai ancorat în realitate, ar fi astuparea gropilor si prevenirea astfel a miscãrilor bruste ce nu pot fi capturate pe peliculã. Deci, în termeni de semnale audio, ar fi vorba de conditionarea semnalului de intrare, în sensul micsorãrii frecventei sale.
Din acest mic exemplu se poate deduce cã un semnal digitizat reproduce exact semnalul sursã analogic dacã frecventa de esantionare este îndeajuns de ridicatã si/sau dacã semnalul este corect conditionat. Suedezul Nyquist a demonstrat matematic cã un semnal cu o bandã limitatã poate fi esantionat fãrã pierderi cu conditia ca frecventa de esantionare sã fie cel putin dublã fatã de cea mai mare frecventã a semnalului. Aceastã conditie se numeste teorema de esantionare sau criteriul Nyquist.
Odatã semnalul esantionat, este nevoie ca esantioanele prelevate sã fie cuantizate, adicã valoarea amplitudinii lor sã fie exprimatã numeric în sistemul de numeratie binar. În baza de numeratie doi, cu un bit se pot reprezenta douã valori numerice (0 si 1), adicã 21 = 2. Cu doi biti se pot crea patru combinatii (002 = 010, 012 = 110, 102 = 210, 112 = 310), adicã 22 = 4 s.a.m.d. Deci, cu cât este mai mare numãrul de biti, cu atât pot fi exprimate mai multe valori numerice distincte într-un anumit interval. Dacã acest interval este chiar amplitudinea unui esantion prelevat, atunci, acest esantion poate fi exprimat numeric (în binar) cu atât mai exact cu cât sunt folositi mai multi biti. Numãrul de biti al unui sistem de digitizare este numit rezolutie si este, pe lângã frecventa de esantionare un factor decisiv la înregistrarea semnalelor audio în format digital.
Înregistrarea si prelucrarea sunetului Digital Audio
Practic, trecerea de la un semnal analogic, fie el voce, efect acustico-muzical sau muzicã, înseamnã folosirea unei surse analogice de redare, cuplarea ei la placa de sunet a PC-ului si înregistrarea ei la anumiti parametri într-un fisier audio. În capitolul 3 a fost descrisã functionarea si conectarea plãcii de sunet la echipamente audio de intrare si de iesire.
Pentru o înregistrare în bune conditii a unei surse sonore analogice, trebuie tinut seama de douã aspecte foarte importante:
stabilirea unui compromis între calitatea sonorã si resursele hardware disponibile (memorie RAM si spatiu pe harddisk) si
reglarea unui nivel de înregistrare optim care sã garanteze o înregistrare clarã a sunetului.
Recapitulând, rata de esantionare determinã cât de înalte vor fi sunetele digitizate (care este frecventa maximã), iar rezolutia determinã acuratetea digitizãrii acelorasi sunete. Mai multi biti înseamnã deci înregistrãri mai aproape de original.
Înregistrãrile stereo sunt mai apropape de realitate pentru simplul fapt cã oamenii au douã urechi. ªi înregistrãrile mono pot fi satisfãcãtoare, dar sunã oarceum "plat" si lipsite de viatã fatã de cele stereo. Un canal în plus, adicã sunet stereo, înseamnã însã de douã ori mai multã informatie si, implicit, de douã ori mai mult spatiu ocupat pe disc.
CD-urile muzicale de pe piatã sunt esantionate la 44,1 kHz, cu o rezolutie
de 16 biti, oferind astfel o gamã de frecvente de 22 kHz, adicã
teoretic toate frecventele audibile de cãtre urechea umanã. Evident
existã si puritani ai sunetului care afirmã cã 22 kHz nu
sunt suficienti si cã sunetul de pe CD nu înregistreazã
fidel toate armonicile semnalului original, mai ales în cazul muzicii
simfonice. Casetele si casetofoanele DAT (Digital Audio Tape) folosite în
mod curent în studiourile de înregistrare dispun pe lângã
posibilitatea de a înregistra la 44,1 kHz, si o frecventã superioarã
de esantionare de 48 kHz. Mergând mai departe, studiourile digitale de
înregistrare actuale pot folosi chiar frecvente superioare de 88,2 si
96 kHz pentru înregistrarea în conditii superioare si cu zgomot
minim a sunetului. Oricum, revenind
la subiectul cãrtii, în lumea multimedia standardul de calitate
maximã este 44,1 kHz, 16 biti.
Formula pentru determinarea mãrimii (în bytes) a unui fisier continând date digital audio este pentru o înregistrare monofonicã:
frecventa de esantionare * durata în secunde a înregistrãrii * (numãrul de biti de rezolutie/8)
La digitizarea semnalelor audio, este important ca placa de sunet sã primeascã la intrare un nivel optim al semnalului, nici prea mare dar nici prea mic. Dacã nivelul este prea mare, sunetul va fi digitizat gâtuit sau cu pocnituri în momentele în care nivelul sonor depãseste un maxim admis. Pentru un volum de înregistrare prea mic, zgomotul de fond asociat sursei analogice, indiferent dacã este vorba de un microfon sau de un casetofon, poate deveni supãrãtor, mai ales dacã semnalul digitizat este ulterior si prelucrat.
Majoritatea programelor utilitare dispun de niste indicatoare de nivel mai mult sau mai putin precise. În general, nivelul zero (teoretic corespunzãtor nivelului de 0 dB) marcheazã si limita pânã la care trebuie sã ajungã semnalul de intrare. În cazul în care programul nu dispune de o scalã gradatã pentru nivelul audio de intrare, este foarte probabil ca el sã dispunã de o scalã coloratã, pe care semnalul este reprezentat cu rosu dacã depãseste nivelul optim de înregistrare.
Pentru înregistrãri de bunã calitate, semnalul de intrare nu trebuie sã depãseascã valoarea de -3 dB decât eventual pentru o scurtã duratã. Orice depãsire a acestei valori poate introduce distorsiuni, audibile sau nu. Volumul de intrare poate fi variat fie de la sursa analogicã (volumul de iesire), fie din computer prin limitarea volumului de intrare, facilitate permisã de orice program si chiar de sistemul Windows. La ajustarea volumului audio trebuie pãstrat totusi un balans între cele douã reglaje amintite anterior. Astfel, nu este recomandat ca sursa audio sã debiteze un volum prea mare iar volumul de intrare al plãcii de sunet sã fie apropiat de zero sau invers. Cele douã reglaje trebuie sã fie pozitionate undeva în zona medianã si oricum sã nu difere prea mult din punct de vedere procentual.
Înregistrarea sunetului se va concretiza, dupã stabilirea tuturor parametrilor abordati în paragrafele anterioare, într-un fisier în care datele sunt organizate dupã un anumit format propriu respectivului tip de fisier. Pentru sistemul Windows, formatul de fisier cel mai rãspândit este WAV, care însã poate fi de mai multe tipuri, depinzând de modalitatea de stocare si codare a informatiei. Metoda clasicã de stocare este cea folositã si pentru stocarea datelor muzicale pe CD-urile audio obisnuite, si anume Linear Pulse Code Modulation. În acest format, pe un CD clasic (650 MB) încap 76 de minute de muzicã stereofonicã (douã canale). Aceastã limitã de 76 de minute se spune cã a fost impusã de proiectantii initiali ai sistemului Compact Disc, companiile Philips si Sony, pentru a putea cuprinde integral simfonia a noua a lui Beethoven.
Între timp tehnologia a mai evoluat si datoritã progreselor fãcute de unitãtile de citire si scriere a CD-urilor, durata maximã a unui CD audio a crescut la 80 de minute (720 MB). În rândurile ce urmeazã sunt prezentate pe scurt câteva dintre cele mai folosite formate audio împreunã cu o scurtã descriere si cu extensia fisierului.
Windows PCM (WAV): tip de fisier în care datele sunt organizate conform specificatiilor RIFF. Semnalul este codat PCM si nu este compresat.
Microsoft ADPCM (WAV): format adoptat de Microsoft în care datele sunt compresate adaptiv (ADPCM = Adaptive Delta Pulse Code Modulation) la 4 biti per canal. La încãrcarea fisierului, cei 4 biti sunt expandati la 16, refãcându-se astfel semnalul original. Acest format este folosit la redarea datelor audio ale formatului CD-I (CD Interactive), un format folosit de Philips la începutul anilor 90 ce permite o redare întretesutã a sunetului cu imagini grafice sau video pentru a asigura sincronizarea. Formatul CD-I nu mai este folosit la ora actualã, formatul de fisier însã a supravietuit.
Sound Blaster Voice File (VOC): format dezvoltat de firma Creative, producãtoarea plãcilor de sunet Soundblaster. Formatul suportã doar o rezolutie de 8 biti, mono pânã la 44,1 Khz, iar stereo pânã la 22 kHz, fiind conceput pentru stocarea informatiilor vocale.
Next/Sun PCM(AU,SND): formate mai vechi proprii sistemelor de calcul Next si Sun, care însã pot apãrea si în Windows. Reprezentarea datelor este tot de tip PCM, compresia fiind de la 16 la 8 biti.
Real Audio (RA,RAM): format conceput pentru un flux continuu de date audio cu o ratã constantã, adoptat de firma Real pentru transmisiile de date audio prin Internet. Dispune de diverse rate de transfer (12 kbps, 24 kbps, 36 kbps etc.) în format mono sau stereo. Folosit de majoritatea posturilor de radio ce emit în direct pe Internet.
MPEG Layer I & II (MPx): fisiere codate dupã considerente psihoacustice ce la ora actualã oferã un maxim de comprimare la o calitate bunã a sunetului. Mai multe amãnunte pot fi gãsite în paragraful "Codarea psihoacusticã".
Odatã înregistrat sunetul pe calculator într-un anumit format, se poate trece la editarea lui pentru a-l face sã corespundã cererilor proiectului Multimedia. Editarea poate fi fãcutã cu unul din multele utilitare disponibile în acest sens. Toate aceste utilitare vor afisa sunetul grafic pe ecran ca un semnal complex, cu variatii de amplitudine si frecventã. În figura de mai jos este ilustratã reprezentarea graficã a cuvântului "multimedia". Asupra sunetului se pot în aceastã ipostazã opera modificãri, atât în ceea ce priveste caracteristicile lui, cât si asupra succesiunii, ca la un editor de texte, marcând, inserând, stergând sau copiind bucãti din semnal. Operatiile uzuale ce se efectueazã asupra sunetului sunt descrise în paragrafele urmãtoare, mentinându-se în majoritatea cazurilor termenii originali din limba englezã deoarece acesti termeni se regãsesc si în meniurile utilitarelor pentru editarea sunetului.
Montaj: în vremurile pre-PC, montajul (colajul) sonor se fãcea cu magnetofoane foarte precise, tãindu-se si ulterior lipindu-se portiuni de bandã în ordinea doritã. Pe PC, montajul se desfãsoarã aidoma lucrului cu textul într-un editor dedicat.Operatiile de bazã sunt tot marcatul, tãiatul, editatul, inseratul, copiatul, eliminarea blancurilor etc. In imaginea de mai jos se poate vedea reprezentarea graficã a cuvântului"multimedia". Un clic pe butonul din stanga va reda sunetul.
Ajustarea volumului: la folosirea mai multor fisiere într-un proiect, este bine ca acestea sã fie aduse la un nivel comun al volumului audio. Volumul nu trebuie ridicat prea mult, în caz contrar rezultând deteriorarea datelor audio concretizatã în distorsiuni audio. În mod uzual, amplificarea este specificatã ca parametru procentual. O amplificare cu 10 procente înseamnã specificarea valorii de 110%. Atenuarea are loc pentru procente mai mici de 100%.
Filtrare: utilitarele dispun în majoritatea cazurilor de egalizatoare digitale, cu care, la fel ca în cazul celor reale, se pot schimba caracteristicile de tonalitate ale unei selectii sau ale unui întreg fisier. Egalizatorul dispune de regula de 5-10 benzi de frecventã reprezentate sub forma unor butoane liniare a cãror pozitie atenueazã sau amplificã frecventele respective.
Dithering: metodã de reducere a erorilor de cuantizare, erori
percepute de ureche ca si fragmentare a sunetului mai ales în pasajele
cu nivel sonor redus. La trecerea de la 16 la 8 biti aceste erori se suprapun
peste semnalul muzical util. Erorile de cuantizare sunt eliminate prin adãugarea
în respectivele pasaje a unui zgomot controlat care poate fi perceput
ca un usor "fâsâit" dar care îmbunãtãteste
substantial calitatea sonorã a semnalului cuantizat pe mai putini biti.
Efecte: adãugarea de ecou, reverberatii, întârzieri
si alte efecte din aceeasi clasã este posibilã cu mai toate utilitarele.
De asemenea mai este posibilã distorsionarea intentionatã a semnalului
sonor în scopul obtinerii unor tonalitãti deosebite. Toate aceste
efecte au cel putin doi - trei parametri, deci utilizarea lor pentru obtinerea
rezultatelor dorite este o operatie ce se bazeazã pe încercãri
repetate în care functia UNDO îsi dovedeste din plin utilitatea.
Fade In si Fade Out: majoritatea utilitarelor dispun de aceastã facilitate de a varia gradat volumul. Amplificarea initialã si cea finalã sunt exprimate în procente, ele putând varia de la clasicele valori de 0 si respectiv 100% în functie de necesitãti. Un Fade In complet se obtine selectând amplificarea initialã 0 si cea finalã 100%. Pentru Fade Out, valorile sunt inversate.
Reverse: functie ce întoarce pe dos (temporal) sunetul. Poate fi folositã la generarea mesajelor subliminale dar si în scopuri mult mai constructive.
Resampling: pentru economisierea de spatiu pe disc, existã posibilitatea schimbãrii frecventei de esantionare si a rezolutiei cu care este reprezentat sunetul. Cu cât acesti doi parametri sunt mai mici, cu atât fisierul este mai mic.
Time Stretching: aceastã functie permite modificarea lungimii
temporale a sunetului fãrã a modifica si tonalitatea. Functia
poate fi foarte utilã, dar trebuie avut grijã la parametri, deoarece
o alterare cu mai mult de câteva procente a selectiei poate compromite
calitatea ei audio
Normalizare: aceastã functie cautã portiunea semnalului
cu cea mai mare amplitudine si calculeazã un factor de amplificare astfel
încât respectiva portiune sã ocupe toti bitii dati de rezolutia
fisierului (4, 8 sau 16 biti). Ulterior se amplificã semnalul cu factorul
de amplificare calculat. Normalizarea se face si ea corespunzãtor unui
parametru procentual. Dacã acesta este de 100%, amplificarea este setatã
asa cum s-a specificat înainte. Dacã parametrul este mai mic de
100%, amplificarea se face la respectivul procent din amplificarea maximã.
Uzual, o normalizare de 80% duce la rezultatele cele mai bune.
DC Bias Adjust: forma de undã înregistratã este centratã pe linia orizontalã ce reprezintã valoarea de 0 volti. Deplasarea în sus sau în jos fatã de linie se numeste offset si poate apãrea la înregistrare datoritã calitãtii slabe a echipamentelor folosite. Se recomandã efectuarea acestei operatii înainte de efectuarea altor transformãri asupra formei de undã .
Considerente
psihoacustice de compresie a sunetului
Adãugate la considerentele acustice de la începutul acestui capitol, cele psihoacustice dezbãtute în acest paragraf sunt de o importantã crescândã având în vedere cã pe ele se bazeazã majoritatea metodelor moderne de codare si comprimare a sunetului.
Douã fenomene fundamentale ce guverneazã auzul uman sunt pragul de audibilitatea si mascarea, exemplificate grafic în figura 4.10
Pragul de audibilitate este o curbã care respectã caracteristica de frecventã a urechii umane si reprezintã nivelul sonor minim la care urechea poate percepe un sunet cu o anumitã frecventã. Asadar, pragul de audibilitate variazã cu frecventa, si din aceste motive un sunet de 20 Hz va trebui sã fie mai intens cu circa 70 dB decât un sunet de 1 kHz pentru a putea fi auzit.
Mascarea în amplitudine apare când un sunet creste pragul de audibilitate în vecinãtatea sa. Când mai multe sunete de frecvente apropiate sunt emise simultan, mascarea se manifestã prin faptul cã doar cel mai puternic sunet va fi audibil, în vreme ce restul vor rãmâne sub pragul de mascare si implicit nu vor putea fi auzite. Cu alte cuvinte, prezenta fizicã a unui sunet nu garanteazã cã acest sunet va fi si auzit.
Mascare poate fi si de naturã temporalã, adicã poate apãrea atât în cazul în care sunetul mai puternic apare înainte de sunetul mai slab (postmascare), cât si dacã sunetul puternic apare la putin timp dupã sunetul mai slab (premascare).
Necesitãtile de comprimare a sunetului au dus la aparitia unor tehnici superioare de compresie care se bazeazã exact pe psihoacusticã. Astfel de tehnici efectueazã modificãri ireversibile asupra semnalului odatã cu codarea sa, în sensul eliminãrii din semnalul audio tocmai a acelor componente care oricum nu s-ar auzi, conform celor expuse anterior. Din semnal vor fi eliminate, dupã efectuarea unor calcule statistice, sunetele aflate sub pragul de audibilitate si sunetele mascate.
Standardul de compresie de tip psihoacustic a fost dezvoltat de un grup de lucru numit Motion Picture Expert Group (MPEG) si se bazeazã pe trei scheme de codare si compresie. Ele se numesc MPEG - Audio nivelul 1, nivelul 2 si nivelul 3. Complexitatea algoritmilor creste cu numãrul nivelelor si de aceea nivelul 3 este cel mai complex. Compresia audio MPEG este o compresie cu pierdere de informatie, dar calitatea sonorã obtinutã dupã comprimare este foarte apropiatã de cea originalã, în unele cazuri diferentele nefiind audibile.
Codarea MPEG se poate face cu diverse rate (mãsurate în kbps - kilobiti per secundã), de la 64 kbps si pânã la 192 sau 256 kbps. Cu cât este mai mare rata, cu atât codarea este mai precisã. Un sondaj realizat de o revistã germanã a arãtat cã bucãti muzicale codate la o ratã de 256 kbps nu au putut fi deosebite de original.
Standardul MPEG se concretizeazã în fisiere cu extensia MP3, tip de fisiere care la ora actualã reprezintã un procent important din datele care sunt vehiculate pe Internet. Redarea acestor fisiere poate fi fãcutã din majoritatea aplicatiilor Multimedia, dar si cu ajutorul unor programe (Player-e) de sine stãtãtoare cum ar fi Winamp, Sonique etc. Generarea fisierelor MP3 se realizeazã cu asa numite Encoder-e, programe specializate care realizeazã conversia din fisiere WAV sau direct de pe CD. Un dezavantaj al fisierelor MP3 constã în imposibilitatea editãrii lor, asa cum de exemplu se editeazã un fisier WAV, din cauza codãrii. Existã însã solutia editãrii fisierului în format WAV si ulterior convertirea sa în MP3 cu un program de tip Encoder.
Un minut de muzicã stereofonicã în format MP3 codatã cu o ratã de 128 kbps ocupã pe harddisk 1 MB, adicã mult mai putin în comparatie cu fisierul echivalent în format WAV si asta la o calitate foarte putin diferitã de a originalului. De cele mai multe ori nu calitatea codãrii fisierelor MP3 face ca muzica în acest format sã sune mai putin bine dacât un CD clasic, ci lantul de redare, adicã placa de sunet si restul de dispozitive fac ca sunetul sã aibã de suferit.
Odatã stãpânitã tehnica înregistrãrii sau a generãrii sunetelor pe PC, se poate porni la includerea sunetului în aplicatia multimedia. Iatã în cele ce urmeazã o succesiune de etape în acest sens:
1. Decideti-vã asupra tipului de sunete ce doriti sã le folositi (de exemplu muzicã de fond, efecte speciale, dialoguri vorbite etc). Stabiliti când anume vor apãrea aceste elemente în cadrul proiectului sau a aplicatiei;
2. Alegeti între Digital Audio si MIDI, conform criteriilor enuntate anterior în acest capitol;
3. Procurati sau creati materialul sonor;
4. Editati sunetele pentru a corespunde cerintelor (duratã, mãrime fisier, calitate);
5. Verificati sincronizarea sunetului cu lalte componente cum ar fi imagini video. Acest proces s-ar putea sã implice repetarea pasilor 1 - 4 pânã când sincronizarea este satisfãcãtoare.