With the release of its ninth edition in fifty years, this handbook is a standard work of reference in the field of prof
1,200 220 188MB
German Pages 1706 [1682] Year 2023
Table of contents :
Gesamtübersicht
Vorwort
Die Herausgeber
Verzeichnis der Autoren
Inhalt
Band 1
1 Grundlagen der Akustik
2 Schallquellen
3 Schallwahrnehmung
4 Mikrofone und Lautsprecher
5 Tonaufnahme und Tonwiedergabe
6 Klanggestaltung
7 Analoge Tonsignalspeicherung
8 Analoge Tonregieanlagen
9 Analoge Tonstudiomesstechnik
10 Beschallung
11 Arbeitssicherheit und Gesundheitsschutz
Band 2
12 Grundlagen der digitalen Tontechnik
13 Audiocodierung
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
15 Digitale Tonsignalspeicherung
16 Digitale Betriebstechnik
17 Rundfunksysteme
18 Film- und Fernsehton
19 Qualitätssicherung
Fachwörter und Abkürzungen Englisch - Deutsch
Sachregister
Handbuch der Tonstudiotechnik
Handbuch der Tonstudiotechnik Band 1 9., aktualisierte und erweiterte Auflage Herausgegeben von Michael Dickreiter, Volker Dittel, Wolfgang Hoeg und Martin Wöhr
Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.
ISBN 978-3-11-075970-9 e-ISBN (PDF) 978-3-11-075992-1 e-ISBN (EPUB) 978-3-11-076008-8 Library of Congress Control Number: 2022935904 Bibliographic information published by the Deutsche Nationalbibliothek The Deutsche Nationalbibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data are available on the internet at http://dnb.dnb.de. © 2023 Walter de Gruyter GmbH, Berlin/Boston. Satz: Michael Peschke, Berlin Druck und Bindung: CPI books GmbH, Leck www.degruyter.com
Gesamtübersicht Band 1 Vorwort VII Die Herausgeber XI Verzeichnis der Autoren XIII Inhalt XIX 1 Grundlagen der Akustik 1 2 Schallquellen 67 3 Schallwahrnehmung 117 4 Mikrofone und Lautsprecher 139 5 Tonaufnahme und Tonwiedergabe 231 6 Klanggestaltung 427 7 Analoge Tonsignalspeicherung 483 8 Analoge Tonregieanlagen 553 9 Analoge Tonstudiomesstechnik 639 10 Beschallung 685 11 Arbeitssicherheit und Gesundheitsschutz 743
Band 2 Inhalt VII 12 Grundlagen der digitalen Tontechnik 785 13 Audiocodierung 837 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung 929 15 Digitale Tonsignalspeicherung 969 16 Digitale Betriebstechnik 1067 17 Rundfunksysteme 1229 18 Film- und Fernsehton 1407 19 Qualitätssicherung 1511 Fachwörter und Abkürzungen Englisch - Deutsch 1591 Sachregister 1619
Vorwort In einem Buch nachzuschlagen, welches mit Kenntnis und Sorgfalt entstand, hebt dieses aus der Menge loser und breit gestreuter Fachartikel heraus. So lässt sich die Arbeit von zahlreichen Autorinnen und Autoren, Bearbeitern und Verlagsmitarbeitern und -mitarbeiterinnen zusammenfassen, die an der vorliegenden 9. Auflage des Handbuchs der Tonstudiotechnik mitgewirkt haben. Seit seiner Erstausgabe im Jahr 1976 ist „der Dickreiter“ der Klassiker unter den Fachbüchern für die professionelle Audiotechnik. Einst hervorgegangen aus einer Loseblattsammlung der Schule für Rundfunktechnik (srt) in Nürnberg, entwickelte sich daraus rasch ein Standardwerk für Generationen von Studierenden und Anwendern in der Audiobranche. Bereits ab der 2. Auflage übernahm der K. G. Saur Verlag, München, den Druck und Vertrieb des gesammelten Wissens. Die frühen Auflagen waren geprägt von der analogen Tonstudiotechnik, vom Mikrofon bis zum Mischpult, vom Verstärker bis zum Lautsprecher. Ende der 1970er Jahre wurde der Ton zunehmend digitaler. Erste innovative professionelle Geräte kamen auf den Markt. Forschung, Wissenschaft und Unternehmergeist nahmen sich der neuen Themenvielfalt an. Es war die Ära der sich rasant entwickelnden digitalen Signalverarbeitung, die die Audiowelt revolutionierte. Arbeitsabläufe und Berufsbilder veränderten sich, vernetzte Systeme ließen Ton, Bild und Text näher aneinanderrücken. Die Verbreitungswege der Medienunternehmen, wie auch die Menge der Medieninhalte nahmen drastisch zu. An den Schnittstellen analog-digital-analog wurde das Zusammenspiel alter und neuer Technologien komplexer. Eine 5. Neuauflage des Handbuchs der Tonstudiotechnik folgte dieser Entwicklung, im Jahr 1990 entstand die erste zweibändige Ausgabe. Die nach wie vor geltenden Grundlagen sowie neuestes Wissen wurden damals in bewährter Weise und verständlicher Form zusammengefügt und umfassend erläutert. Die digitale Tontechnik fand ihren ersten Auftritt im Fachbuch. Achtzehn Jahre sollte es dauern, bis eine 7., vollständig neu bearbeitete und wesentlich erweiterte Auflage des Handbuchs der Tonstudiotechnik erschien. Die Neuausrichtung einer sich mehr und mehr verzweigenden, nahezu grenzenlos mobilen digitalen Medienwelt erweiterte sprungartig die technischen und gestalterischen Möglichkeiten. Zahlreiche tradierte Abläufe und Qualitätsparameter standen auf dem Prüfstein, neue internationale Standards entwickelten sich. Es wurde Zeit, dem Anwender im Tonstudio wieder ein kompetentes Nachschlagewerk in die Hand zu geben, welches auf dem neuesten Stand der Technik war. Auf den Weg gebracht wurde das Projekt von den damaligen Hörfunkbetriebsleitern der öffentlich-rechtlichen Rundfunkanstalten in Deutschland. Die Realisierung übernahm das Bearbeiterteam Martin Wöhr (Leitung), Michael Dickreiter, Volker Dittel und Wolfgang Hoeg. Herausgegeben wurden die zwei Bände von der ARD.ZDF medienakademie (ehemals srt), die Veröffentlichung betreute weiterhin der K. G. Saur Verlag (2008). Danach schien die Fortschreibung des Standardwerks wegen sich ändernder Rahmenbedingungen zu Ende zu gehen. Der inzwischen mit dem De Gruyter Verlag, Berlin, fusionierte K. G. Saur Verlag war es schließlich, der fünf Jahre später die Bearbeiter ermunterte, die Tradition und inhaltliche Qualität des Klassikers Handbuch der Tonstudiotechnik weiterzuführen und gleichzeitig auch die verantwortungsvolle Aufgabe als Herausgeber zu übernehmen. Mit https://doi.org/10.1515/9783110759921-201
VIII
Vorwort
der 8. Auflage (2013) folgte das Team diesem Ansinnen und brachte die tontechnische Themenvielfalt auf den damals neuesten Stand. Heute, mehr als 40 Jahre nach dem Erscheinen der 1. Auflage, erleben die Tonschaffenden einen Paradigmenwechsel. Die analoge Audiowelt wandelt sich in IT-gesteuerte Prozesse. Metadaten, Giga- und Terabyte sowie die Gesetze des Internets sind jetzt das Maß der Dinge, auch im Tonstudio. Eine Vielzahl von Formaten und internationalen Standards regelt heute den enormen Datenfluss in einer global vernetzten Medienwelt. Mikrofone und Lautsprecher sind als „Relikte“ die letzten verbleibenden, aber dennoch wichtigen analogen Säulen in einem modernen digitalen Studio. Sie sind Grund genug, die nach wie vor geltenden physikalischen und akustischen Gesetze der Audiotechnik nicht in den Hintergrund zu rücken. Die Neuauflage zeigt nicht nur eine Fortschreibung bewährter Methoden und Erkenntnisse auf. Sie beleuchtet auch, wie technische Prozesse in der Studiotechnik beginnen, sich neu aufzustellen, wobei die Beständigkeit des Fortschritts ungewiss ist. Die Innovationszyklen werden zunehmend kürzer. Im vorliegenden 1. Band der 9. Auflage finden sich die Kapitel mit den physikalisch-technischen Grundlagen des Schalls und des Hörens. Sie sind die Wissensbasis für das Folgende. Insbesondere Kapitel 4 und 5, die sich mit der Aufnahme- und Wiedergabetechnik sowie mit der heutigen Mehrkanaltechnik befassen, sind sorgfältig und ausführlich überarbeitet. Die Kapitel zur analogen Tonsignalspeicherung und Studiotechnik sind in weiten Bereichen aus der 8. Auflage übernommen und dem modernen Stand der Technik angepasst; hinzugekommen sind Erkenntnisse zur Langzeitlagerung von Speichermedien. Auch Kapitel 6, welches die Klanggestaltung zum Thema hat und Kapitel 10, Beschallung, wurden nach jüngsten, praxisnahen Erfahrungen weitergeschrieben. Im Kapitel 11, Arbeitssicherheit und Gesundheitsschutz, wird dem Umstand Rechnung getragen, dass die Verästelungen von Vorschriften, Schutzmaßnahmen und betrieblichen Verantwortlichkeiten sich auf alle Anwender in den tontechnischen Berufen verteilen und von allgemeinem Interesse sind. Der 2. Band widmet sich ausschließlich der digitalen Audiotechnik. Die Grundlagen der digitalen Signalverarbeitung sowie die aktuellen Formate und Verfahren der Audiocodierung sind, wie auch die Studioprozesse, praxisorientiert beschrieben. Das Kapitel der digitalen Signalspeicherung ist durch Informationen zur Restaurierung historischer Tonaufzeichnungen ergänzt. Auch das differenzierte Mastering und die derzeitigen digitalen Verbreitungswege von Audioinhalten wurden aktualisiert, einschließlich der Mehrkanalübertragung im Rundfunk und ergänzt mit Erkenntnissen zum Downmix und zur Programmlautheit. Ein Unterkapitel widmet sich überdies dem wichtigen Thema zur barrierefreien Kommunikation. Die heutige, IT-basierte Betriebstechnik im Hörrundfunk ist in einem neuen Kapitel ausführlich behandelt. Insbesondere die mehrschichtigen Audionetzwerke, die IT-Sicherheit und die Übertragungswege in Datennetzen der Tonstudiotechnik sind umfangreich dargestellt. Die digitalen Rundfunksysteme sowie der Film- und Fernsehton sind umfassend auf den neuesten Stand gebracht. Die Komplexität der modernen Tonstudiotechnik erfordert einen breit gefächerten Wissensstand beim Anwender. Deshalb finden sich in den Kapiteln gelegentlich Begriffe und deren Erklärungen verteilt an mehreren Stellen, wenn sie dort dem besseren Sachverständnis der Zusammenhänge dienen. Dies erhöht die Lesbarkeit, ohne zu viel auf Querverweise hindeuten zu müssen. Die unterstützenden zahlreichen Abbildungen im Text fördern zudem
Vorwort
IX
vorteilhaft das Verständnis beim Lesen. Die ausführlichen Angaben zu Standards und Literatur am Ende eines jeden Kapitels, die alphabetische Auflistung und Erläuterung häufig verwendeter Fachwörter und Abkürzungen (Englisch-Deutsch) sowie ein ausführliches Sachregister, runden die Nutzung des Buchs für den Leser ab. Die Herausgeber danken allen beteiligten Fachautoren aus Forschung, Lehre, Indus trie und Praxis für ihre neuen Beiträge, wie auch für ihre fachkundige Aktualisierung früherer Manuskripte. Einige Autoren aus der 7. und 8. Auflage konnten an dem neuen Werk leider nicht mehr mitarbeiten. Ihnen sei für die Verwendung ihrer früheren Beiträge herzlich gedankt. Dem Verband Deutscher Tonmeister (VDT) wird für die Vermittlung neuer Autoren gedankt, deren Expertise für das Gelingen des Fachbuchs wichtig war. Unser Dank geht schließlich an die Mitarbeiterinnen und Mitarbeiter des De Gruyter Verlags, die uns mit Geduld und Verständnis stets hilfreich zur Seite standen. Er gilt auch Michael Peschke, der mit gewohnter Sorgfalt das neue Layout erstellte sowie Arnd Rüttger für die neuen Abbildungen. Den Leserinnen und Lesern wünschen wir, sie mögen in diesem Handbuch nachhaltige Antworten auf alle Fragen finden, die sich in ihrem Berufsumfeld der Audiotechnik ergeben. Martin Wöhr, im Dezember 2022
Die Herausgeber Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; Studium an der Musikhochschule in Detmold mit dem Abschluss Dipl.-Tonmeister, danach Aufbau eines Studiengangs zum Toningenieur an der Universidad Austral in Chile, anschließend Studium der Musikwissenschaft mit den Nebenfächern Physik und Psychologie an der Universität Heidelberg, Promotion zum Dr. phil., von 1972 bis 2002 Dozent und Fachautor an dem zentralen Aus- und Fortbildungsinstitut der öffentlich-rechtlichen Rundfunkanstalten in Nürnberg – früher srt, heute ARD.ZDF medienakademie, Lehrbeauftragter an der Universität Heidelberg; Mitglied VDT. Buchveröffentlichungen, u. a.: Musikinstrumente, Moderne Instrumente, historische Instrumente, Klangakustik (7. Aufl. 2007), Partiturlesen, (6. Aufl. 2010, auch in Englisch, Japanisch, Chinesisch), MikrofonAufnahme, Aufnahmeräume, Instrumente, Mikrofone, Stereo- und Surroundaufnahme (4. Aufl. 2011). Dittel, Volker, Dipl.-Ing.; Studium der Elektrischen Nachrichtentechnik an der RWTH Aachen, Studienschwerpunkte Halbleitertechnik und Technische Akustik, von 1967 bis 2006 Mitarbeiter des Westdeutschen Rundfunks, Köln, in den Bereichen Hörfunktechnik, Systementwicklung und Schulung, Leiter der Fachabteilung Audiosystemtechnik, Mitglied VDT. Tätigkeitsfelder: Automatisierung von Sendeabläufen, programmbegleitende Systeme für Hörfunk und Fernsehen, digitale Aufzeichnungs-, Produktions- und Sendeeinrichtungen, Qualitätssicherung, langjähriger Vorsitzender des ARD-Arbeitskreises Audiosystemtechnik (AKAS), Lehrauftrag an der Fakultät Informations-, Medien- und Elektrotechnik der Fachhochschule Köln für Rundfunk- und Fernsehtechnik, Autor naturwissenschaftlicher Sendungen über Fernseh- und Satellitentechnik für die Dritten Programme der ARD und Mitautor der zu diesen Sendungen veröffentlichten Begleitbücher. Hoeg, Wolfgang, Dipl.-Ing.; Studium der Nachrichtentechnik/Elektroakustik an der Technischen Hochschule Dresden mit Nebenfach Tonmeister, postgrad. Studium der Automatisierungstechnik. Seit 1959 tätig in Forschung und Entwicklung im Rundfunk- und Fernsehtechnischen Zentralamt (RFZ) der Deutschen Post, ab 1991 im Forschungsinstitut (FI) der Deutschen Telekom, bis 1999 Leiter der Abt. Audiosysteme bei der Deutschen Telekom Berkom Berlin; Mitglied VDT, Fellow Member AES. Tätigkeitsfelder u. a. Psychoakustik, Tonstudiotechnologie, Tonanlagentechnik, Rundfunk-Stereofonie und Mehrkanalton, Beschallungstechnik sowie Digitaler Rundfunk (DAB), Mitarbeit internationale Standardisierung (OIRT, EBU, ITU-R, Eureka147/DAB); Lehrauftrag für Tonmeisterausbildung an der Hochschule für Musik Hanns Eisler Berlin, zahlreiche Fachpublikationen, Mitautor/Herausgeber von Fachbüchern zu Stereofonie, Akustik und Digital Audio Broadcasting. Wöhr, Martin, Dipl.-Ing. (FH); Studium der Nachrichten- und Hochfrequenztechnik an der FH München sowie Studium der Musik am Richard-Strauß-Konservatorium und an der staatl. Musikhochschule, beide in München; von 1968 bis 2005 tätig beim Bayerischen Rundfunk, Hörfunk, München, zunächst als TonmeisterTechnik, ab 1990 Leiter der Abteilung Studioproduktion und Betrieb, von 2005 - 2009 Geschäftsführer des Bildungswerks des Verbandes Deutscher Tonmeister (VDT); Mitglied VDT und Fellow Member AES. Beschäftigt als Tonmeister-Technik überwiegend in der Musikproduktion für Rundfunk und Tonträgerindustrie, Mitarbeit bei Rundfunkprojekten des Instituts für Rundfunktechnik (IRT), ab 1990 Mitarbeit in Arbeitsgruppen und Gremien der ARD und EBU, maßgebliche Mitarbeit bei der Einführung der Mehrkanalübertragung im Hörfunk in der ARD, mehrere Veröffentlichungen in Fachzeitschriften.
https://doi.org/10.1515/9783110759921-202
Verzeichnis der Autoren a Campo, Markus, Dr.-Ing. Elektrotechnik; Studium und Promotion an der RWTH Aachen; seit 1997 freiberufliche Tätigkeit; Berater und Gutachter im Bereich Informationssicherheit; ISO 27001 Lead Auditor; ISO 27001 Lead Implementer; öffentlich bestellter und vereidigter Sachverständiger. Autor des Kapitels 16.4 Arasin, Peter, Dipl.-Ing.; Sennheiser electronic, Wedemark, Ruhestand seit 2018; Produktmanager,1985-1998; Produkttrainer 1998-2018; Veröffentlichungen zur Funkmikrofontechnik, u. a. „The Sennheiser Sound Academy Wireless Handbook”. Autor der Kapitel 4.3, 4.5.2 Baumgartner, Hannah, Dipl.-Ing. Hörtechnik & Audiologie (MSc), Mediengestalterin Bild & Ton; Wissenschaftliche Mitarbeiterin Fraunhofer IDMT, Oldenburg; Mitglied VDT. Autorin des Kapitels 17.7 Bock, Stefan, Tonmeister; Geschäftsführer der msm-studios, München, GmbH & Co.KG; Mitglied VDT, AES Autor des Kapitels 15.2 Camerer, Florian, Ing.-Nachrichtentechnik; Tonmeister ORF-Fernsehen; Seminartätigkeit zu den Themen Surround-Sound und Lautheit; 10 Jahre Ton für Dokumentarfilme; seit 25 Jahren Nachbearbeitung für Neujahrskonzert; Mitglied AES, VdT, ÖTMV, Chairman EBU-Gruppe PLOUD seit 2008. Autor der Kapitel 5.6.5, 19.2, 19.4, 19.6 Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1, 2, 3, 4, 5.3, 5.6.1, 5.6.2, 5.6.3.7, 7, 8, 9 Erk, Alexander, Dipl.-Inf. (FH); ARD-Frequenzmanagement, ARD/Bayerischer Rundfunk, München. Autor des Kapitels 17.5 Färber, Nikolaus, Dr.-Ing.; Abteilungsleiter Embedded Audio, Fraunhofer IIS, Erlangen, seit 2003; Post-Doc in der Multimedia Systems Group, Stanford University, USA, 2000 – 2001; Senior Researcher Speech Processing bei Ericsson Eurolab, Nürnberg, 2001 – 2003; Leiter der 3GPP Video Codec Ad-Hoc Group zur Einführung von H.264/AVC, 2004-2005; Technischer Leiter der Internet Streaming Media Alliance (ISMA), 2004-2008; Sprecher der Open Source Software (OSS) Compliance Beauftragten am Fraunhofer IIS, seit 2021. Autor des Kapitels 17.4 Feiten, Bernhard, Dr.-Ing. Elektrotechnik; Design und Entwicklung Digitaler Musikinstrumente, msye, Berlin; Wissenschaftlicher Assistent in Fachgebieten Kommunikationstechnik und Computermusik an der Technischen Universität Berlin, 1984 – 1995; Projektleiter und Senior-Expert für Audio- / VideoStreaming und Quality of Experience bei Deutsche Telekom, 1996 – 2021; Entwicklung der App „Eternal Machine“, Entwicklung der Standards ITU Rec. BS 1387 und ITU P.1201, P.1203, P.1204; Entwicklung der App „MsyChords“. Autor der Kapitel 12.5, 12.6 Fuchs, Harald, Dipl. Ing.; Abteilungsleiter Mediensysteme und Anwendungen, Fraunhofer IIS, Erlangen. Autor der Kapitel 5.5.2, 13.2.5, 13.4.6 Genuit, Klaus, Prof. Dr.-Ing.; Geschäftsführer, HEAD acoustics GmbH, Herzogenrath; Lehrtätigkeit RWTH Aachen, Psychoakustik und Sound-Engineering; Mitglied AES, DEGA, VDE, VDI, ASA, JAES und JSAE. Autor des Kapitels 4.2.4.6 https://doi.org/10.1515/9783110759921-203
XIV
Verzeichnis der Autoren
Goeres-Petry, Jürgen, Dipl.Ing. Ton- und Bildtechnik, MBA; Programmmanager Deutschlandradio Köln/Berlin; Tonmeister Badisches Staatstheater Karlsruhe, Hessischer Rundfunk, Frankfurt, Deutschlandradio; Mitglied VDT. Autor der Kapitel 3.1, 11.2 Graubner, Maxim, Dipl.-Ing. ETiT, Nachrichten- und Kommunikationstechnik; Stabsstelle Technische Projekte im Ressort Hörfunksysteme der Hörfunkproduktion des Hessischen Rundfunks, Frankfurt; ARD-Hörfunksternpunkt 2016-2020; Trainer bei der ARD.ZDF-Medienakademie für Audio over IP und IT für die Medienproduktion seit 2015. Mitglied VDT, AES, EBU-ACIP. Autor des Kapitels 16.5.6 Graul, Wolfram, Dipl.-Tonmeister; Cheftonmeister und Abteilungsleiter Musikproduktionen, Bayerischer Rundfunk, München, im Ruhestand; Lehrauftrag Tonmeister, UdK, Berlin, 2010-2020. Autor des Kapitels 5.6.3 Grewe, Yannik, Master of Engineering – Audiovisuelle Medien, Ton; Senior Engineer für Next Generation Audio, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Bauer Studios, Ludwigsburg, 2011; Wissenschaftliche Hilfskraft, Fraunhofer IIS, 2013, Toningenieur, Schwerpunkt 3D-Audio, Next Generation Audio und MPEG-H Audio, Fraunhofer IIS, 2015-2020; Mitglied VDT, AES. Autor der Kapitel 5.5.1.1, 5.5.2 Grill, Bernhard, Prof. Dr.-Ing., Elektrotechnik; Institutsleiter am Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen, seit 2016; Honorarprofessor an der Friedrich-Alexander-Universität ErlangenNürnberg (FAU); Mitentwicklung von mp3 und AAC; Deutscher Zukunftspreis des Bundespräsidenten für die Entwicklung von mp3, (gms. mit Karlheinz Brandenburg, Harald Popp), 2000; Mitarbeit bei den ISO-Standardisierungen seit 1988. Autor des Kapitels 13 Herla, Siegbert, Dipl.-Ing.; Ruhestand seit 2013; Leiter des Arbeitsbereichs Tonstudiotechnik und Tonsignalspeicherung am Institut für Rundfunktechnik (IRT), 1983 – 1996; danach Fachreferent der Sachgebiete Aufzeichnung, Archive und Produktionssysteme Fernsehen am Institut für Rundfunktechnik (IRT); Mitarbeit in nationalen und internationalen Rundfunk- und Standardisierungsgremien, Vortragstätigkeit bei ARD/ ZDF-Akademie, Hochschulen und nationalen und internationalen Tagungen; Veröffentlichungen zur Aufzeichnung und Archivierung. Autor des Kapitels 15.1 Hildebrand, Andreas, Dipl.-Ing. Informatik; Senior Produktmanager für RAVENNA, AoIP Evangelist, ALC NetworX, München, seit 2008; Entwicklungsleiter RadioROC bei gtc Film- und Fernsehstudiotechnik, Hamburg, ab 1990; Projektleiter Einführung Nachrichtenverteilsystem bei CNN-SI (Atlanta) für Nexus Informatics, München, ab 1996 ; Produktmanagement DigaSystem bei DAVID GmbH, München ab 1997; Autor der Kapitel 16.3.1, 16.3.6, 16.3.7 Hoeg, Wolfgang, Dipl.-Ing.; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1.3.5, 1.4.2, 8.1, 10,2, 13.5 bis 13.9, 17.2, 17.6, 17.7, 19.1, 19.5, 19.7, 19.8 Kratschmer, Michael, Dipl.-Ing.; Gruppenleiter Audio Metadaten, Fraunhofer-Institut für Integrierte Schaltungen (IIS), Erlangen; Editor des MPEG-D DRC Standards, Mitarbeit in internationalen Standardisierungsgremien (MPEG, SMPTE, ITU-R). Autor der Kapitel 13.2.4, 13.2.5
Verzeichnis der Autoren
XV
Kühn, Manfred, Dr.-Ing.; im Ruhestand; Entwicklungsingenieur, Labor- und Abteilungsleiter, DP Rundfunkund Fernsehtechnisches Zentralamt, 1973 - 1989; Wissenschaftlicher Mitarbeiter DBP, Forschungs- und Technologiezentrum, ab 1991; Gruppenleiter Rundfunk und Breitbandkabel der Telekom, ab 1999; Abteilungsleiter Broadcast Networks & Services der T-Systems Media & Broadcast. Mitarbeit in der OIRT, 1985-1988; Mitarbeit bei der MPEG-Standardisierung (ISO MPEG WG 12), 1991-1993; Mitarbeit bei der DVBStandardisierung im Europäischen DVB-Projekt, Mitglied in der Kammer der Technik, bis 1990; Mitglied FKTG. Autor des Kapitels 17.2.5 Lauterbach, Thomas, Prof. Dr. rer. nat., Dipl.-Phys Univ.; Professor, Technische Hochschule Georg Simon Ohm, Nürnberg; DAB-Entwicklung (Vorausentwicklung, Robert Bosch GmbH), 1992 – 1997. Mitautor der Kapitel 17.1 bis 17.3 Lott, Frank, Dipl.-Ing. Nachrichtentechnik (FH); Hauptabteilungsleiter HA Planung in der Produktions- und Technikdirektion des Bayerischen Rundfunks in München; Referent des technischen Direktors des BR, Leitung Hauptabteilung Produktion und Sendung, Vorsitz Verwaltungsrat und Beirat der ARGE RBT; Mitglied VDT. Autor des Kapitels 16.1 Lutzky, Manfred, Dipl.-Ing. Elektrotechnik; Abteilungsleiter Audio für Kommunikationssysteme, Fraunhofer IIS, Erlangen; Fraunhofer Preisträger für Entwicklung von AAC-ELD. Autor der Kapitel 13.4.10, 13.5 Maempel, Hans-Joachim, Dr. phil., Dipl.-Tonmeister; Leiter der Abteilung Akustik und Musiktechnologie | Studiotechnik und IT, Staatliches Institut für Musikforschung, Berlin; Wissenschaftlicher Mitarbeiter am Fachgebiet Audiokommunikation der TU Berlin 2006-2012; Vorstandsmitglied des VDT 2005-2009, Mitglied VDT. Autor der Kapitel 5.6.4, 6 Maniak, Stephan, Dr. habil., Dr.-Ing., Dipl.-Ing.; Software-Projektleiter bei CGI Deutschland in Bochum, tätig als wissenschaftlicher Mitarbeiter, Visiting Professor und Lehrbeauftragter in Forschung und Lehre in den Bereichen Elektrotechnik und Informatik. Autor des Kapitels 15.3 Meltzer, Stefan, Dipl.-Ing.; Chief Business Development Manager, Fraunhofer IIS, Erlangen. Autor der Kapitel 13.4.7.3, 13.4.7.4, 13.4.8.4 Mielke, Ingmar, B.Eng. Elektrotechnik; ARGE Rundfunk-Betriebstechnik, Nürnberg. Autor des Kapitels 19.3 Nettingsmeier, Jörn, Meister für Veranstaltungstechnik, Studium der Schulmusik, Folkwang Universität der Künste Essen und Universität, Duisburg-Essen; Freischaffender Tonmeister; Technischer Leiter und Live Sound Designer, Amsterdam; Vorstandsmitglied VDT, Mitglied AES. Autor des Kapitels 5.5.3.2 Neuendorf, Max, Dipl.-Ing. Elektro- und Informationstechnik an der TU München; Produktmanager und Gruppenleiter der Gruppe Audio- und Sprachcodierung, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Projektleiter verschiedener ISO-Standards, u. a. ISO/IEC 23003-3 (MPEG-D USAC) und ISO/IEC 23008-3 (MPEG-H 3D Audio). Autor des Kapitels 13.4.5
XVI
Verzeichnis der Autoren
Nipkow, Lasse, Dipl. El. Ing. HTL, Zürich; Geschäftsführer, Silent Work GmbH, Zürich; Toningenieur, Hochschule der Künste (ZHdK), Zürich; Dozent für Elektrotechnik, Mikrofonierungstechnik und 3D-Audio, SAE Zürich; Wissenschaftlicher Mitarbeiter an der Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, 1998 – 2018; Mitglied VDT (Referatsleitung Musik- und Wortproduktion) und AES (Vorstandsmitglied, Schweiz). Autor der Kapitel 5.4.3, 5.4.5.3, 5.5.6.2, 5.5.6.3 Otto, Helmut, Datentechniker, im Ruhestand seit 2022; VIAVI Solutions Deutschland GmbH, Eningen, 1999-2021; Seminarleiter Netzwerktechnik, Referent bei der ARD-ZDF Medienakademie in Nürnberg und Technischen Akademie, Ostfildern. Autor der Kapitel 16.3.4, 16.3.5 Prosch, Markus, Dipl.-Inf.; Senior Engineer, Fraunhofer IIS, Erlangen; Mitglied WorldDAB Technical Committee; ehemals Chairman Arbeitsgruppen zur Standardisierung MOT und DAB+. Autor der Kapitel 17.1, 17.2, 17.5 Reykers, Heinz Peter, Dipl.-Ing.; Gehobener Ingenieur im WDR, Köln; Trainingspartner der ARD.ZDF medienakademie; Veröffentlichungen zum Mehrkanalton im Hörfunk; Mitglied VDT. Autor der Kapitel 13.4.9, 16 Romahn, Götz, Dr.-Ing., Dipl.-Ing. Nachrichtentechnik, Tonmeister, im Ruhestand; Forschung in den Bereichen Akustik und Telekommunikation; Hauptabteilungsleiter bei RIAS-Berlin/Deutschlandradio; Lehrbeauftragter an der Technischen Universität Berlin; Veröffentlichungen zu Akustik und Telekommunikation. Autor der Kapitel 12.1 bis 12.4, 14.1 Schmidt, Sven, Dipl.- Ing. (FH) Umwelttechnik/Umweltmesstechnik; Sicherheitsingenieur Hessischer Rundfunk, Frankfurt; Fachkraft für Arbeitssicherheit gemäß ASiG, seit 2009. Autor des Kapitels 11.1 Schnell, Markus, Dipl.-Ing.; Gruppenleiter Low Delay Audiocoding, Fraunhofer IIS, Erlangen; Entwicklungsleiter MPEG4 AAC-ELD, 2006-2008; Standardisierung 3GPP EVS, 2008-2014; Entwicklungsleiter LC3 / LC3plus, 2016-2020; Entwicklungsleiter LC3 / LC3plus, 2016-2020. Autor der Kapitel 13.4.10, 13.5, 13.6.3 Slavik, Karl Michael, Ing. Nachrichtentechnik und Elektronik (HTL), Dipl. Päd. für berufsbildende Schulen; Aus- und Weiterbildung in Österreich, Deutschland, England, USA; Audio-, Video und IT-Techniker, seit 1981; Toningenieur und Projektleiter beim Österreichischen Rundfunk 1999–2005, Inhaber ARTECAST Medienund Informationstechnik KG, Wien, seit 2005; Dolby Broadcast Senior Engineer & Consultant, seit 2006; Gastdozent an der ARD-ZDF-Medienakademie und an der Universität Wien; Mitarbeit in internationalen Gremien (EBU); Veröffentlichungen zur Audio- und Videotechnik. Autor des Kapitels 18 Spikofski, Gerhard, Dipl.-Ing. Elektrotechnik; im Ruhestand; Wissenschaftlicher Mitarbeiter am Institut für Rundfunktechnik (IRT), Audiosystemtechnik, 1980-2013; Projektleiter Entwicklung eines nationalen Konzepts für Lautstärke-Messung und Management für ARD und ZDF, 2000-2005; Mitarbeit in nationalen und internationalen Audiostandardisierungsgremien; Mitglied VDT. Autor des Kapitels 5.5.5.1
Verzeichnis der Autoren
XVII
Steuck, Ralf, Dipl.-Ing.; Messtechnik und Planung HF beim Norddeutschen Rundfunk; Projektleitung des ersten digitalen Funkhauses, Schwerin, 1996; Veröffentlichungen zur analogen und digitalen Tonstudiotechnik. Autor des Kapitels 14.2 Theile, Günther, Dr.-Ing.; Leiter des Sachgebiets Audiosystemtechnik am Institut für Rundfunktechnik (IRT), München, im Ruhestand; Forschungen, Entwicklungen und Veröffentlichungen zur Aufnahme- und Wiedergabetechnik, virtuellen Akustik und Datenreduktion. Mitglied VDT, AES, DEGA. Autor der Kapitel 5.1, 5.2, 5.4, 5.4.3, 5.5.3, 5.5.4 Vogt, Paul, Dipl. Ing. (FH), Nachrichten- und Kommunikationstechnik; Systemingenieur, Bayerischer Rundfunk, München; ab 2007 Audiomessingenieur, später Projektingenieur, heute Technolgieentwicklung. Autor der Kapitel 16.2.1 bis 16.2.13 Wallaszkovits, Nadja, Dr., Diplom Tonmeisterin (SAE); Professorin, Staatliche Akademie der bildenden Künste, Stuttgart; Leiterin der Audiotechnik im Phonogrammarchiv der Österr. Akademie der Wissenschaften, 2005-2020; Mitglied AES, Past President, Chair Standard group SC-03-06, Mitglied IASA, Vice Chair Technical Committee. Autorin des Kapitels 7.3 Wöhr, Martin, Dipl.-Ing (FH), Tonmeister; siehe Verzeichnis der Herausgeber. Autor des Kapitels 16.2.14 Zink, Alexander, Dipl.-Ing., MBA; Chief Business Development Manager Digital Radio & Broadcast Applications, Fraunhofer IIS, Erlangen; Aktives Mitglied von WorldDAB, Vice-Chairman DRM Consortium (Digital Radio Mondiale); seit 2008 Co-Präsident DRM Association; seit 2009 Liaison Officer und Technical Liaison Officer für Fraunhofer bei der ABU - Asia-Pacific Broadcasting Union; Verleihung des Joseph-vonFraunhofer-Preises zum Thema Digitalradio, 2016. Autor der Kapitel 17.2, 17.2.6, 17.5 Zuleeg, Ralf; Abgeschlossene Berufsausbildung, 40 Jahre praktische Beschallungserfahrung; 1995 Eintritt bei d&b Audiotechnik AG, seit 2005 d&b audiotechnik GmbH & Co.,Kg., seit 2012 Immersive Audio, Abteilungsleiter Soundscape Enablement. Autor des Kapitels 10
Nachstehende Autoren haben in früheren Auflagen mitgewirkt, ihre Beiträge sind teilweise in die aktuelle Auflage eingeflossen: Nikolaus Büttner, Ernst Dohlus, Klaus Hackbart, Christian Hartmann, Klaus M. Heidrich, Roger Heimann, Gernot Meyer-Schwarzenberger, Klemens Nicklaus, Michael Schäfer, Thomas Schierbaum, Bernhard Schullan, Henrik Schulze und Gerhard Stoll.
Inhalt Vorwort VII Die Herausgeber XI Verzeichnis der Autoren XIII 1 Grundlagen der Akustik 1 1.1 Schallschwingungen 1 1.1.1 Typen von Schallschwingungen 1 1.1.2 Eigenschaften von Schwingungen 4 1.1.2.1 Einfache Schwingungen 4 1.1.2.2 Überlagerung von Schwingungen 5 1.1.2.3 Zusammengesetzte Schwingungen 6 1.2 Schallfelder 7 1.2.1 Schallausbreitung in Luft 9 1.2.1.1 Kugelwelle und ebene Welle 12 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz 13 1.2.1.3 Schalldruckpegel 15 1.2.1.4 Schallleistung und Schallintensität 16 1.2.2 Schallausbreitung im Raum 17 1.2.2.1 Schallreflexion 18 1.2.2.2 Schallbeugung 21 1.2.2.3 Schallbrechung 22 1.2.2.4 Schallabsorption 23 1.2.2.5 Schalldämmung 29 1.3 Raumakustik 30 1.3.1 Zeitlicher Aufbau des Schallfelds 30 1.3.2 Begriffe der Hörakustik 32 1.3.3 Direktschall und erste Reflexionen 33 1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß 35 1.3.4 Hall 35 1.3.4.1 Nachhallzeit 36 1.3.4.2 Hallradius und Hallabstand 40 1.3.5 Diffusität 43 1.4 Akustik von Aufnahmestudios 44 1.4.1 Störgeräuschpegel 44 1.4.2 Raumakustik von Aufnahmestudios und Regieräumen 45 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik 47 1.4.2.2 Schallkabinen 49
XX
Inhalt
1.4.3 Akustik von Regieräumen 50 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume 50 1.4.4 Akustik großer Aufnahmestudios und Konzertsäle 51 Historische Konzertsäle, Opernhäuser und Kirchen 53 1.5 Konzertsäle des 18. Jahrhunderts 53 1.5.1 1.5.2 Konzertsäle des 19. Jahrhunderts 55 1.5.3 Konzertsäle des 20. Jahrhunderts 57 1.5.4 Opernhäuser und Theater 60 1.5.5 Kirchen 62 Standards 64 Literatur 64 2 Schallquellen 67 2.1 Menschliche Stimme 67 2.1.1 Akustische Eigenschaften 67 2.1.1.1 Sprachspektrum 69 2.1.1.2 Sprachschallpegel 71 2.1.1.3 Singstimme 71 2.1.2 Gerichtete Schallabstrahlung 72 2.1.3 Sprachverständlichkeit 73 2.2 Musikinstrumente 74 2.2.1 Akustische Eigenschaften 74 2.2.1.1 Klangeinsatz 77 2.2.1.2 Quasistationärer Klangabschnitt 77 2.2.1.3 Ausklingvorgang 80 2.2.1.4 Musikalische Dynamik 81 2.2.1.5 Stimmung der Instrumente 82 Akustische Instrumente 84 2.2.2 2.2.2.1 Streichinstrumente 85 2.2.2.2 Holzblasinstrumente 87 2.2.2.3 Blechblasinstrumente 93 2.2.2.4 Klavier und Cembalo 94 2.2.2.5 Orgel 95 Akustische Gitarre und E-Gitarre 96 2.2.2.6 2.2.2.7 Schlaginstrumente 98 2.2.3 Schallabstrahlung 99 2.2.3.1 Streichinstrumente 99 2.2.3.2 Holzblasinstrumente 102 2.2.3.3 Blechblasinstrumente 103 2.2.3.4 Konzertflügel 104 2.2.3.5 Kirchen- und Konzertorgel 105 2.2.4 Elektronische Instrumente 105 2.2.4.1 Historische Entwicklung 106 2.2.4.2 Elektronische Klangerzeugung 107
Inhalt
Verfahren der elektronischen Klangveränderung 109 2.2.4.3 2.2.4.4 Klangsteuerung durch MIDI 111 2.2.4.5 Keyboards und Rhythmusgeräte 114 Standards 115 Literatur 115 3 Schallwahrnehmung 117 3.1 Das Gehör 117 3.1.1 Außenohr 117 3.1.2 Mittelohr 118 3.1.3 Innenohr 118 3.2 Schallereignis und Hörereignis 120 3.3 Eigenschaften der Schallwahrnehmung 121 3.3.1 Lautstärkepegel und Lautheit 121 3.3.2 Anpassung und Maskierung 125 3.3.3 Tonhöhe 126 3.3.4 Nichtlineare Verzerrungen 127 3.3.5 Rauheit und Schärfe 127 3.3.6 Subjektive Tondauer 128 3.3.7 Hörbarkeit von Phasenänderungen 128 3.3.8 Psychoakustisches Modell 129 3.4 Räumliches Hören natürlicher Schallquellen 129 3.4.1 Wahrnehmung der Richtung 131 3.4.1.1 Horizontale Ebene 131 3.4.1.2 Vertikale Ebene 133 3.4.2 Wahrnehmung der Entfernung 134 3.4.2.1 Im-Kopf-Lokalisierung 135 Standards 136 Literatur 136 Mikrofone und Lautsprecher 139 4 Physikalische Prinzipien der Schallwandler 139 4.1 4.2 Mikrofone 142 4.2.1 Eigenschaften von Mikrofonen 144 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit 144 4.2.1.2 Übertragungsbereich 144 4.2.1.3 Frequenzgang 145 4.2.1.4 Störpegel 149 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze 151 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz 151 4.2.1.7 Richtcharakteristik 151 4.2.1.8 Bauformen von Mikrofonen 156 4.2.1.9 Wind- und Poppstörungen 166 Störungen durch Körperschall 168 4.2.1.10
XXI
XXII
Inhalt
4.2.2 Kondensatormikrofone 169 4.2.2.1 Spannungsversorgung 169 4.2.2.2 Mikrofon-Vorverstärker mit analogem Ausgang 171 Mikrofon-Vorverstärker mit digitalem Ausgang 173 4.2.2.3 4.2.2.4 Druckempfänger 177 4.2.2.5 Druckgradientenempfänger 178 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik 180 4.2.2.7 Stereomikrofone 181 4.2.3 Dynamische Mikrofone 184 4.2.3.1 Tauchspulmikrofon 185 Bändchenmikrofon 187 4.2.3.2 4.2.4 Spezialmikrofone 188 4.2.4.1 Kardioidebenenmikrofon 188 4.2.4.2 Grenzflächenmikrofon 189 4.2.4.3 Großmembran- und Röhrenmikrofon 191 4.2.4.4 Lavalier-Mikrofon 192 4.2.4.5 Kontaktmikrofon 193 4.2.4.6 Kunstkopf-Mikrofon 193 4.2.5 Mikrofonständer 199 4.3 Einrichtungen für drahtlose Mikrofone 200 4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 201 4.3.1.1 Sender 201 4.3.1.2 Frequenzzuteilung 206 4.3.1.3 Stromversorgung 208 4.3.1.4 Antennen und Wellenausbreitung 208 4.3.1.5 Empfänger 210 4.3.1.6 Diversity-Empfang 211 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung 212 4.3.2 4.4 Lautsprecher 215 4.4.1 Bauformen 216 Dynamische Lautsprecher 216 4.4.1.1 Elektrostatischer Lautsprecher 221 4.4.1.2 Akustischer Kurzschluss und Lautsprecherboxen 222 4.4.1.3 4.4.1.4 Regielautsprecher 224 4.5 Kopfhörer 224 4.5.1 Bauformen von Kopfhörern 225 4.5.2 Einrichtungen für drahtlose Kopfhörer 226 Standards 229 Literatur 229 Tonaufnahme und Tonwiedergabe 231 5 5.1 Prinzipien der räumlichen Tonübertragung 231 5.1.1 Lautsprecher-Stereofonie 232 5.1.2 Synthese des umgebenden Schallfelds 233
Inhalt
XXIII
Binaurale Reproduktion der Ohrsignale 234 5.1.3 5.2 Stereofonie 235 5.2.1 Phantomschallquellen 235 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen 236 Phantomschallquellen bei Zeitdifferenzen 238 5.2.1.2 Phantomschallquellen beim Zusammenwirken von Pegel- und 5.2.1.3 Laufzeitdifferenzen 239 5.2.1.4 Seitliche Phantomschallquellen 240 5.2.1.5 Stereohörzonen 243 5.2.2 Aufnahmewinkel eines Stereomikrofons 245 5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen 246 5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen 247 5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen 248 5.2.2.4 Berechnungswerkzeuge 249 5.2.3 Theorien zur Lokalisierung von Phantomschallquellen 251 5.2.3.1 Summenlokalisierung 251 5.2.3.2 Assoziationsmodell 252 5.2.4 Räumliche stereofone Abbildung 254 5.2.4.1 Prinzipien der Zweikanal-Stereofonie 255 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie 257 5.2.5 Begriffe zur stereofonen Richtungsabbildung 259 5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren 260 5.3 Zweikanal-Stereofonie 262 5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren 262 5.3.2 Intensitätsstereofonie 267 5.3.2.1 XY-Mikrofonverfahren 268 5.3.2.2 MS-Mikrofonverfahren 271 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren 272 5.3.2.4 Praktischer Einsatz von Stereomikrofonen 273 5.3.3 Laufzeitstereofonie 274 5.3.3.1 Klein-AB 275 5.3.3.2 Groß-AB 277 5.3.3.3 Decca-Tree 278 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie 278 5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie 280 5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz 282 5.3.4.2 ORTF-, EBS- und NOS-Verfahren 283 5.3.4.3 Kugelflächenmikrofon 284 5.3.4.4 Andere Trennkörper 287 5.3.5 Stützmikrofonverfahren 288 5.3.5.1 Monostützmikrofone 290 5.3.5.2 Stereostützmikrofone 291 Verzögerte und raumbezogene Stützmikrofone 291 5.3.5.3 5.3.6 Einzelmikrofonverfahren 293
XXIV
Inhalt
5.3.7 Überwachung der Stereosignale 294 5.3.8 Monokompatibilität 297 5.4 Mehrkanal-Stereofonie 299 5.4.1 Mehrkanal-Standard 299 5.4.1.1 3/2-Lautsprecheranordnung 299 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme 301 5.4.1.3 Tieftonwiedergabe 302 5.4.2 Stereofonie in den Sektoren L-C und C-R 304 5.4.2.1 Doppel-Stereoverfahren 305 5.4.2.2 Mehrfach-AB-Verfahren 307 5.4.2.3 Decca-Tree 308 5.4.2.4 OCT-Verfahren 310 5.4.3 Einsatz der Surround-Kanäle 314 5.4.3.1 Surround Sound-Hauptmikrofone 317 5.4.3.2 Raummikrofone 323 5.4.3.3 Reportage und Dokumentation 326 5.4.4 Verwendung von Delay 327 5.4.4.1 Delay bei Einsatz von Hauptmikrofonen 328 5.4.4.2 Delay-Plan 330 5.4.4.3 Digitale Signalverarbeitung 331 5.4.5 Einsatz von Höhenlautsprechern 331 5.4.5.1 Nutzen der Höhenlautsprecher 334 5.4.5.2 Anwendung der Höhenlautsprecher 335 5.4.5.3 Höhenlautsprecher für immersiven Sound 338 5.5 Verfahren der räumlichen Tonübertragung 343 Kanalbasierte Verfahren 343 5.5.1 Nomenklatur und Notation 343 5.5.1.1 Objektbasierte Verfahren 346 5.5.2 5.5.2.1 Grundprinzipien von objektbasierten Verfahren 346 5.5.2.2 Die Aufgaben des Renderers 347 Personalisierung und Interaktion 349 5.5.2.3 5.5.2.4 Metadaten 349 Universelle Übertragung 351 5.5.2.5 Flexible Wiedergabemöglichkeiten 352 5.5.2.6 5.5.3 Schallfeldsynthese 353 5.5.3.1 Wellenfeldsynthese 354 5.5.3.2 Ambisonics 364 5.5.4 Kopfhörerwiedergabe 369 Phantomschallquellen im Kopf 371 5.5.4.1 5.5.4.2 Entzerrung der Kopfhörer 371 5.5.5 Binaurale Verfahren 374 Kopfbezogene Übertragung 374 5.5.5.1 5.5.5.2 Praktische Anwendung 377 5.5.5.3 Lautsprecherwiedergabe 377
Inhalt
5.5.6 Binauralisierung 378 5.5.6.1 Binaurale Raumsynthese 378 5.5.6.2 Externalisierung 380 5.5.6.3 Werkzeuge für Binauralisierung 381 Gestaltung des Klangbilds 383 5.6 Grundsätze klanglicher Gestaltung 384 5.6.1 5.6.2 Klangliche Aspekte von Wortproduktionen 387 5.6.2.1 Sprachaufnahmen 389 5.5.2.2 Gesprächsrunden 392 5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik 393 5.6.3.1 Aufnahmeräume 394 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis 396 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds 401 5.5.3.4 Wiedergabedynamik 402 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie 402 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe 403 5.6.3.7 Historischer Rückblick 404 5.6.4 Klangliche Aspekte bei der Produktion populärer Musik 405 5.6.4.1 Rahmenbedingungen 406 5.6.4.2 Ziele der Klangbildgestaltung 407 5.6.4.3 Mittel der Klangbildgestaltung 408 5.6.4.4 Psychologische Prinzipien 408 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung 409 5.6.4.6 Alltagsbefunde zur Klangbildgestaltung 411 5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen 413 5.6.5.1 Unterhaltung und Show 414 5.6.5.2 Oper 416 5.6.5.3 Sport 417 5.6.5.4 Reportage, Magazin und Dokumentation 418 5.6.5.5 Spielfilm 419 5.6.5.6 Fernsehspiel und Sitcom 420 Standards 420 Literatur 421 6 Klanggestaltung 427 Abbildungsrichtung und Abbildungsbreite 427 6.1 6.1.1 Panorama-Potentiometer und Balanceregler 428 6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer 433 Dynamik und Lautheit 435 6.2 6.2.1 Kompressor und Limiter 435 6.2.1.1 Statisches Verhalten 436 6.2.1.2 Dynamisches Verhalten 438 6.2.1.3 Erweiterte Anwendungen 440
XXV
XXVI
Inhalt
6.2.2 Expander und Gate 442 6.2.2.1 Statisches Verhalten 442 6.2.2.2 Dynamisches Verhalten 444 Erweiterte Anwendungen 444 6.2.2.3 Kombinierte Regelverstärker 444 6.2.3 6.3 Klangfarbe 446 6.3.1 Klassische Filter 446 6.3.1.1 Hochpassfilter 447 6.3.1.2 Tiefpassfilter 448 6.3.1.3 Bandpassfilter 449 6.3.1.4 Bandsperre 449 6.3.1.5 Spezialfilter 450 6.3.2 Equalizer 451 6.3.2.1 Glockenfilter 452 6.3.2.2 Schelf-Filter 453 6.3.3 Verzerrer 454 6.3.4 Enhancer 455 6.4 Tonhöhe und Tondauer 456 6.4.1 Pitch Shifting 456 6.4.2 Time Stretching 457 6.5 Raumeindruck 458 6.5.1 Analoge Hallerzeugung 459 6.5.1.1 Hallplatte 459 6.5.1.2 Hallfolie 460 6.5.1.3 Hallfeder 460 Digitaler algorithmischer Hall 461 6.5.2 Digitaler Faltungshall 463 6.5.3 Komplexe Klangveränderungen 464 6.6 6.6.1 Tremolo und Vibrato 464 6.6.2 Wah-Wah 464 6.6.3 Verzögerungseffekte 465 6.6.4 Phaser 468 6.6.5 Ringmodulator 469 6.6.6 Leslie-Kabinett 470 6.6.7 Vocoder 470 6.6.8 Kombinierte und neue Audiobearbeitungsmittel 472 6.7 Klangästhetische Aspekte 473 Zusammenhang von Reiz- und Wahrnehmungsmerkmalen 473 6.7.1 Klang und Bedeutung 474 6.7.2 6.7.3 Medienästhetische Ideale 475 6.7.4 Die Aufmerksamkeit des Hörers 476 Literatur 477
Inhalt
Analoge Tonsignalspeicherung 483 7 7.1 Magnetische Tonsignalspeicherung 484 7.1.1 Grundlagen des Magnetismus 484 7.1.1.1 Magnetisches Feld 484 Magnetische Induktion 486 7.1.1.2 7.1.1.3 Hysteresisschleife 487 7.1.2 Aufzeichnung mit Magnetton 488 7.1.2.1 Prinzip 489 7.1.2.2 Magnettonbänder 490 7.1.2.3 Aufzeichnungsvorgang 493 7.1.2.4 Elektroakustische Eigenschaften von Magnetbändern 497 7.1.2.5 Wiedergabevorgang 505 7.1.2.6 Entzerrung des Frequenzgangs 506 7.1.2.7 Löschvorgang 511 7.1.3 Systeme zur Rauschverminderung 512 7.1.3.1 Telcom-Verfahren 513 7.1.3.2 Dolby-Verfahren 516 7.1.4 Bandschnitt und Kennbänder 518 7.1.5 Studio-Magnettonanlagen 519 7.1.5.1 Studio-Magnettonlaufwerke 520 7.1.5.2 Magnettonköpfe 523 7.1.5.3 Mehrspur-Magnettonanlagen 524 7.1.5.4 Aufzeichnung von Mono- und Stereosignalen 525 7.2 Mechanische Schallspeicherung 527 7.2.1 Aufzeichnungsverfahren 527 7.2.1.1 Mono- und Stereoaufzeichnung 528 7.2.1.2 Lichtbandbreite 530 7.2.1.3 Schneidkennlinien 530 7.2.2 Schallplattenherstellung 532 7.2.2.1 Lackplatten-Schneidverfahren 532 7.2.2.2 DMM-Schneidverfahren 533 7.2.3 Wiedergabe 533 7.2.3.1 Abtastsysteme 534 7.2.3.2 Tonarm 536 7.2.3.3 Geometrische Abtastverzerrungen 537 7.2.3.4 Laufwerk 539 7.2.3.5 Verstärker 540 7.3 Langzeitlagerung und Datenerhalt von Tonträgern 540 7.3.1 Umgebungseinflüsse 541 7.3.2 Notfallplanung und Katastrophenschutz 548 Standards 550 Literatur 551
XXVII
XXVIII
8 8.1
Inhalt
Analoge Tonregieanlagen 553 Historische Entwicklung von der analogen bis zur digitalen Technik von Tonmischpulten 554 Aufbau einer Tonregieanlage 559 8.2 Leitungsführung und Anpassung 562 8.3 8.3.1 Symmetrie und Erdfreiheit 563 8.3.2 Schirmung 565 8.3.3 Kabellänge und Kabelführung 565 8.3.4 Zusammenschaltung 567 8.3.5 Erdung 568 8.3.6 Anpassung 570 8.4 Leitungsverbindungen 572 8.4.1 Klinkensteckverbindungen 573 8.4.2 Koppelfelder 575 8.4.2.1 Komplexe Koppelfelder 579 8.4.3 Kabelsteckverbindungen 581 8.4.4 Schalter 582 8.5 Mikrofonverstärker 584 8.5.1 Verstärkungseinstellung 586 8.5.2 Frequenzgang 586 8.5.3 Störpegel und Aussteuerungsfestigkeit 588 8.5.4 Mikrofon-Trennverteiler 589 8.5.5 Kommandoverstärker 589 8.6 Anschluss externer Geräte 589 8.6.1 Brummstörungen 590 Brummstörungen bei Verwendung eines Netz-Trenntransformators 591 8.6.1.1 Brummstörungen durch Masseschleifen 592 8.6.1.2 Brummstörungen durch Mehrfacherdung 592 8.6.1.3 8.6.2 DI-Box 593 8.7 Pegelsteller 595 VCA- und Motorpegelsteller 595 8.7.1 8.7.2 Überblendregler 598 Elektronische Blender 598 8.7.3 Richtungsbeeinflussung bei Intensitätsstereofonie 599 8.8 Panorama-Potentiometer oder Pan-Pot 601 8.8.1 8.8.2 Richtungsmischer 602 8.9 Knotenpunkte 605 Knotenpunkte mit Spannungsanpassung 605 8.9.1 Knotenpunkte mit Stromanpassung 606 8.9.2 8.9.2.1 Universalverstärker als Knotenpunktverstärker 608 8.10 Hilfssummen 610 Schaltungen für künstliche Verhallung 613 8.10.1 8.10.2 Schaltungen für Ausspielwege 615
Inhalt
Spezial- und Universalverstärker 616 8.11 8.11.1 Spannungsverstärker 616 8.11.1.1 Aufholverstärker 618 8.11.1.2 Trenn- und Verteilerverstärker 618 8.11.2 Universalverstärker 620 8.11.2.1 Pegelverstärker 621 8.11.2.2 Knotenpunktverstärker 621 8.11.2.3 Trennverstärker 622 8.11.3 Anpassverstärker 623 8.11.4 Leistungsverstärker 624 8.12 Einrichtungen für die akustische Signalüberwachung 624 8.12.1 Einrichtungen und Kontrollpunkte für Abhören 625 8.12.1.1 Abhöreinheit 626 8.12.2 Vorhören, Solo, Mute 631 8.12.3 Mithören 632 8.12.4 Pegeltongenerator 633 8.13 Tonregieanlagen in Kassettentechnik 633 Standards 638 Literatur 638 9 Analoge Tonstudiomesstechnik 639 9.1 Verstärkung und Dämpfung 639 9.1.1 Betriebsgrößen 641 9.1.2 Ein- und Ausgangsscheinwiderstand 642 9.1.3 Symmetrie 642 9.2 Verzerrungen 643 9.2.1 Lineare Verzerrungen 644 9.2.2 Nichtlineare Verzerrungen 646 9.2.2.1 Messverfahren 648 9.3 Störspannungen 652 9.3.1 Unbewertete Störspannungen 652 Bewertete Störspannungen 653 9.3.2 Systemrauschen und Betriebskennlinie 654 9.3.3 9.3.4 Tief- und Hochfrequenzfestigkeit, Knackstörungen 656 9.4 Stereoparameter 656 Pegeldifferenz zwischen Stereokanälen 656 9.4.1 9.4.2 Phasendifferenz zwischen Stereokanälen 657 9.4.3 Übersprechen 659 9.5 Schalldruckpegel 659 9.5.1 Bewertete Schalldruckpegel 660 9.5.2 Lautstärkepegel und Lautheit 661 9.6 Messungen an Mikrofonen 662 9.6.1 Feld-Übertragungsfaktor und Feld-Übertragungsmaß 663 9.6.2 Frequenzgang 663
XXIX
XXX
Inhalt
9.6.3 Gerichteter Schallempfang 664 9.6.3.1 Richtungsfaktor, Richtungsmaß und Richtcharakteristik 664 9.6.3.2 Bündelungsfaktor, Bündelungsgrad und Bündelungsmaß 664 Grenzschalldruck und Klirrfaktor 665 9.6.4 9.6.5 Ersatzgeräuschpegel 666 9.7 Messungen an Lautsprechersystemen 666 9.7.1 Analoge Messmethoden 666 9.7.1.1 Übertragungsmaß und Frequenzgang 666 9.7.1.2 Scheinwiderstand 668 9.7.1.3 Richtcharakteristik 668 9.7.1.4 Kennschalldruckpegel 669 9.7.2 Digitale Messmethoden: MLS-Messungen 669 9.8 Messungen und Einstellungen an Magnettonanlagen 670 9.8.1 Einstellungen und Prüfungen 670 9.8.1.1 Mechanische Funktionen 670 9.8.1.2 Entmagnetisierung 671 9.8.1.3 Wiedergabekanal 672 9.8.1.4 Aufnahmekanal 673 9.9 Messungen an Plattenspielern 675 9.10 Pegel und Pegelmaße 676 9.10.1 Pegel 676 9.10.2 Relativer und absoluter Spannungspegel 677 9.10.3 Funkhauspegel 678 9.10.4 Rechnen mit Pegeln 680 9.10.4.1 Verstärkung und Dämpfung von Pegeln 680 Addition von Spannungen und Pegeln 681 9.10.4.2 9.10.4.3 Pegeldiagramme 683 Standards 683 Literatur 684 10 Beschallung 685 10.1 Raumakustik im Zusammenwirken mit Beschallungsanlagen 686 10.1.1 Reflexionen 686 Erste Reflexionen 686 10.1.2 10.1.3 Fokussierung 687 10.1.4 Stehende Wellen 687 10.1.5 Raumresonanzen 688 10.1.6 Nachhall 688 10.1.7 Hallradius 689 10.2 Grundlegende Beschallungskonzepte 690 10.2.1 Von der zentralen zur dezentralen Beschallung 690 10.2.1.1 Zentrale Beschallung 690 10.2.1.2 Dezentrale Beschallung 691 10.2.2 Überwindung des Hallradius und Nutzung des Diffusfelds 693
Inhalt
10.2.3 Lautsprecherpositionen 694 10.2.3.1 Frontale Beschallung mit horizontaler Position 694 10.2.3.2 Frontalbeschallung mit vertikaler Position 696 10.2.3.3 Einsatz von Delay-Lautsprechern 696 Bühnenrandbeschallung, Nahfeld 698 10.2.3.4 Einsatz und Positionierung von Subwoofer 699 10.2.3.5 10.2.3.6 Centercluster 701 10.3 Richtungsbezogene, objektbasierte Beschallung 701 10.3.1 Lokalisation 702 10.3.2 Verfahren der richtungsbezogenen Beschallung 703 10.3.2.1 Laufzeit- oder Deltastereophonie 703 10.3.2.2 Wellenfeldsynthese 704 10.3.2.3 Vector Based Amplitude Panning 705 10.3.3 Aufbau einer objektbasierten Beschallungsanlage 707 10.3.3.1 Signalfluss und Steuerung 707 10.3.3.2 Frontal- und Surround- und Höhenlautsprecher 708 10.3.4 Vorteile und Grenzen der objektbasierten Beschallung 708 10.4 Künstliche Nachhallsysteme 709 10.4.1 Regenerative Systeme 709 10.4.2 Faltungs- oder Convolver-Systeme 711 10.4.3 Kombinierte Systeme 712 10.5 Beschallungsausrüstung 713 10.5.1 Lautsprecher 713 10.5.1.1 Kennschalldruckpegel und Wirkungsgrad 713 10.5.1.2 Nennleistung 714 10.5.1.3 Spitzenschalldruck 714 10.5.1.4 Frequenzgang 715 10.5.1.5 Phasenlage 716 10.5.1.6 Richtwirkung 716 10.5.1.7 Abstrahlwinkel 718 10.5.1.8 Methoden für Richtwirkung von Lautsprechern 720 10.5.1.9 Arrays 723 10.5.1.10 Line Arrays 725 10.5.1.11 Monitorbeschallung 727 10.5.1.12 In Ear Monitoring 728 10.5.2 Mischpulte 728 10.5.2.1 FOH, Front Of House 728 10.5.2.2 Monitormischpulte 729 10.5.3 Equalizer 729 10.5.3.1 Parametrischer Equalizer 730 10.5.3.2 Grafischer Equalizer 731 10.5.4 Effekte 732 10.5.4.1 Hall 732 10.5.4.2 Delay-Echo 732
XXXI
XXXII
Inhalt
10.5.4.3 Delay-Signallaufzeit 732 10.5.4.4 Kompressor, Limiter, Noise Gate 732 10.5.5 Mikrofone 733 Rückkopplungsempfindlichkeit bei Mikrofonen 733 10.5.5.1 Bühnentauglichkeit und Grenzschalldruck 734 10.5.5.2 10.5.6 Controller 734 10.5.6.1 Frequenzgangkorrektur 734 10.5.6.2 Phasenkorrektur, Alignment 734 10.5.6.3 Schutzschaltung 735 10.5.7 Verstärker 735 Dimensionierung von Verstärkern 735 10.5.7.1 10.5.7.2 Rückwärtsdämpfung 736 10.5.8 Kabel, Querschnitte 737 10.6 Strukturierte Inbetriebnahme 737 10.6.1 Systemanpassung 737 10.6.2 Delayanpassung 738 10.6.3 Raumentzerrung und Hauptequalizer 738 10.6.4 Sonderfall Open Air Beschallung 739 10.7 100 V-Technik 739 10.8 Planungs- und Simulationssoftware für Beschallungsanlagen 740 Literatur 742 11 Arbeitssicherheit und Gesundheitsschutz 743 11.1 Arbeitssicherheit 743 11.1.1 Allgemeines 743 11.1.1.1 Das duale System im Arbeitsschutz 743 11.1.1.2 Staatliche Institutionen im Arbeitsschutz 744 Berufsgenossenschaftlicher Arbeitsschutz 744 11.1.1.3 11.1.1.4 Einfluss der EU 745 11.1.2 Richtlinien und Regelwerke 746 EG-Richtlinie 2003/10/EG „Lärm“ 746 11.1.2.1 11.1.2.2 Sicherheitsvorschriften für Produktionsstätten 746 Das Arbeitsschutzgesetz 748 11.1.2.3 Die Betriebssicherheitsverordnung 748 11.1.2.4 11.1.2.5 Die Musterversammlungsstättenverordnung 748 11.1.2.6 Berufsgenossenschaftliche Vorschriften und Regeln 749 11.1.3 Verantwortlichkeiten 749 Arten der Verantwortung 750 11.1.4 11.1.5 Gefährdungsbeurteilung 753 11.2 Gesundheitsschutz 755 11.2.1 Gehörgefährdung durch elektroakustische Beschallung 755 11.2.2 Hörschädigungen 757 11.2.2.1 Gehörschaden aus arbeitsmedizinischer Sicht 757 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung 758
Inhalt
Fehlender Lautheitsausgleich 758 11.2.2.3 11.2.2.4 Stapediusreflex 759 11.2.2.5 Gehörschäden und Musik 759 11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5 760 11.2.3.1 Verkehrssicherungspflicht 760 Schutzmaßnahmen und Information 761 11.2.3.2 11.2.3.3 DIN-Anhang 762 11.2.4 Messung der Schallimmission 763 11.2.4.1 Konsequenz der DIN 15905-5 765 11.2.4.2 Die Praxis für Veranstaltungen 765 11.2.4.3 Probleme der Norm DIN-15905-5 766 11.2.5 Elektrische Sicherheit 767 11.2.5.1 Produktionsstätten beim Hörfunk 768 11.2.5.2 Kabelverlegung 769 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen 769 11.2.5.4 Gefahren des elektrischen Stroms 769 11.2.5.5 Schutz vor einem elektrischen Schlag 771 11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen 776 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen 776 11.2.7 Verhalten bei Stromunfällen 780 Standards 781 Literatur 782
XXXIII
1 Grundlagen der Akustik
Michael Dickreiter, Wolfgang Hoeg (1.3.5 und 1.4.2)
Der Begriff Schall bezeichnet hörbare mechanische Schwingungen, Wellen und Felder eines elastischen Mediums. Die Akustik ist die Wissenschaft, die sich mit diesen Phänomenen befasst, also nicht nur auf den Bereich des Hörbaren beschränkt ist. Nur in einem Medium aus schwingungsfähiger Materie können sich Schallwellen ausbreiten, das kann Luft (Luftschall), Wasser (Wasserschall) oder ein Festkörper (Körperschall) sein. Vielfach wird Schall als Körperschall erzeugt und dem Ohr oder Mikrofon durch das Medium Luft als Luftschall übermittelt. Liegen diese Schallwellen im Hörbereich, haben sie also Frequenzen zwischen 16 Hz und 20 kHz, so spricht man von Hörschall, liegen ihre Frequenzen unter 16 Hz, spricht man von Infraschall, liegen sie über 20 kHz bis 1 GHz = 1.000 MHz, von Ultraschall. Bei Frequenzen über 1 GHz spricht man von Hyperschall. Schall im alltäglichen Sinn ist nur der hörbare Schall, sog. Hörschall. Eine Schallschwingung wird von einem einzelnen Teilchen eines elastischen Mediums, z. B. einem Luftmolekül, ausgeführt. Hierbei werden zwei Energieformen periodisch abwechselnd ineinander umgewandelt, meist potentielle Energie in kinetische Energie und umgekehrt. Die Schwingungslehre beschreibt die Gesetzmäßigkeiten (Kap. 1.1). Eine Schallwelle ist die Gesamtheit schwingender Teilchen, die sich in einem elastischen Medium mit einer (Saite, Stab), zwei (Platte) oder drei Dimensionen (Körper, Luftraum) von einer Schallquelle ausgehend ausbreiten. Schallwellen transportieren Energie, nicht Materie (Kap. 1.2). Ein Schallfeld ist ein räumlich ausgedehntes Gebiet, in dem sich Schallwellen ausbreiten und sich in komplexer Weise überlagern. Ein Schallfeld in einem geschlossenen Raum mit der Gesamtheit der Phänomene wird durch die Raumakustik beschrieben (Kap. 1.3 ff.). In Kapitel 2 werden Schallquellen, eingeschränkt auf die Akustik von Musikinstrumenten und der menschlichen Stimme, dargestellt, in Kapitel 3 die Phänomene der Schallwahrnehmung durch das Gehör. [Meyer, 2015, [Reuter, 2014], [Weinzierl, 2014] Die Akustik gehört damit zu den wichtigsten Grundlagen der klassischen wie auch der modernen Audiotechnologie. Akustik beschreibt zunächst physikalische und subjektive Phänomene der analogen Technik, sie wird jedoch zunehmend von Lösungen und Anwendungen der digitalen Audiotechnik unterstützt.
1.1 Schallschwingungen 1.1.1 Typen von Schallschwingungen Zur Bezeichnung der verschiedenen Typen von Schallschwingungen oder Schallformen kann man sich entweder der physikalisch-akustischen Begriffe oder der ästhetisch-musikpsychologischen Begriffe bedienen; eine Vermischung beider Begriffsfamilien führt zu Missverständnissen, da gleiche Wörter in verschiedenen Bedeutungen verwendet werden.
https://doi.org/10.1515/9783110759921-001
2
1 Grundlagen der Akustik
In der Akustik unterscheidet man verschiedene Arten von Schallformen, Grundbegriffe sind in [DIN 1320] definiert. Die folgenden Schallformen sind aus einzelnen, diskreten, oder in der Realität endlich vielen sinusförmigen Komponenten zusammengesetzt (Tab. 1/1): Ton oder reiner Ton: Sinusförmige Schallschwingung im Hörbereich. Die in der Musik übliche Bestimmung des Begriffs Ton weicht von derjenigen in der Akustik ab; in der Musik wird das Schallereignis, das einer einzelnen Note entspricht, Ton genannt. In der Terminologie der Akustik wäre dies ein Klang, der meist zusätzlich Geräuschanteile enthält. Tongemisch: Aus Tönen beliebiger Frequenzen zusammengesetzter Schall. Einfacher oder harmonischer Klang: Hörschall, der aus einem Grundton und einer Reihe von Obertönen besteht, deren Frequenzen ganzzahlige Vielfache dieses Grundtons sind. In der Begriffssprache der Musik entspricht dies weitgehend dem Ton im Sinn einer Note. Mehrfacher Klang oder Klanggemisch: Hörschall, der aus mehreren einfachen Klängen zusammengesetzt ist. Eine exakte musikpsychologische Bestimmung der Begriffe „Ton“ und „Klang“ ist im Gegensatz zur physikalisch-akustischen Definition nicht möglich. Der Ton eines Musikinstruments, z. B. einer Violine, kann sich auf eine einzelne gespielte Note oder auf den Klangcharakter aller Töne, also auf den Klangcharakter des Instruments überhaupt beziehen. Ein Klang kann im engeren Sinn ein Akkord sein, aber auch der Klangcharakter eines Instruments, z. B. „Hörnerklang“, oder auch des ganzen Orchesters. Ein Ton oder ein Klang kann physikalisch-akustisch gesprochen Anteile eines einfachen oder mehrfachen Klangs, eines Schallimpulses und von Rauschen enthalten. Die Begriffe Ton und Klang sind als musikalisch-psychologische und ästhetische Begriffe also nicht genau definierbar; man könnte sie allenfalls als sinnvoll durchstrukturierte, gewollte Schallereignisse bezeichnen, die die Elemente der Musik bilden. Das Gegenteil eines sinnvoll durchstrukturierten Schallereignisses ist Lärm, er stört, belästigt, verursacht Ärger. Auch dem Lärm entsprechen nicht bestimmte physikalische Eigenschaften eines Schallereignisses. Denn auch ein einzelner Sinuston oder sogar Musik können Lärm sein, wenn sie als störend empfunden werden; hierbei ist also die Einstellung des Hörers zum jeweiligen Schallereignis bestimmend. Tab. 1/1 fasst die terminologischen Entsprechungen in Akustik und Musik zusammen. Da die musikpsychologischen Begriffe nicht objektiv und eindeutig definierbar sind, werden bei der Beschreibung der Schallformen nachfolgend möglichst physikalisch-akustische Begriffe verwendet. Tab. 1/1. Begriffliche Entsprechungen von Ton und Klang in Akustik und Musik. Begriffe in der Akustik
Begriffe in der Musik
Ton, Sinuston, reiner Ton, einfacher Ton Tongemisch Klang, harmonischer Klang Klanggemisch, mehrfacher Klang
Ton, in der Musik selten Klang, in der Musik selten Ton Klang, Zusammenklang, Akkord
Eine zweite Gruppe von Schallformen ist in komplexer Weise aus theoretisch unendlich vielen, dicht nebeneinander liegenden Komponenten zusammengesetzt, diese Schallformen sind als Höreindruck geräuschhaft:
1.1 Schallschwingungen
3
Schallimpuls: Einmaliges Schallereignis von kurzer Dauer. Tonimpuls: Ton von kurzer Dauer. Rauschen: Fortdauerndes Schallsignal statistischer Natur, zusammengesetzt aus unendlich vielen, mit ihrer Frequenz unendlich nahe beieinander liegenden Tönen mit unterschiedlichen Amplituden und Phasenlagen, das als kontinuierliches Frequenzspektrum dargestellt werden kann, besondere Formen sind das „Weiße Rauschen“ und das „Rosa Rauschen“: Weißes Rauschen: Fortdauerndes Schallsignal, das theoretisch aus unendlich vielen, in ihrer Frequenz unendlich dicht nebeneinander liegenden sinusförmigen Schwingungen besteht. Theoretisch ist der Frequenzbereich bei Weißem Rauschen nach oben hin nicht begrenzt, wodurch Weißes Rauschen aus unendlich vielen Schwingungskomponenten mit in ihrer Summe unendlich hoher Leistung bestehen würde. Praktisch erstreckt sich aber das Frequenzband des Weißen Rauschens von 0 Hz aufwärts nicht bis ins Unendliche, sondern ist mehr oder weniger bei hohen Frequenzen begrenzt, z. B. bei der Obergrenze hörbaren Schalls, also bei der Hörgrenze mit 16 bis 20 kHz, oder mit steigender Frequenz zunehmend durch das Übertragungssystem bedämpft. Die sinusförmigen Komponenten, also Töne im physikalischen Sinn, haben nur statistisch betrachtet gleiche Amplituden, d. h., ihre Amplituden sind nicht in jedem Augenblick gleich, sondern nur im statistischen Mittel über einen längeren Zeitraum; ihre Phasenwinkel sind ebenfalls statistisch und voneinander unabhängig verteilt. Es ist deshalb nicht möglich, aus Weißem Rauschen ein schmalbandiges Rauschen oder gar einen Sinuston mit konstanter Amplitude herauszufiltern. In der subjektiven Wahrnehmung als Hörereignis ist Weißes Rauschen am ehesten dem Laut „sch“ vergleichbar, tiefe Frequenzen scheinen zu fehlen, mit steigender Tonhöhe werden die Komponenten zunehmend lauter. Das Gehör fasst nämlich, vereinfacht gesagt, nicht gleich breite Frequenzbänder zu einem Lautstärkeeindruck zusammen, sondern Frequenzbänder mit Grenzfrequenzen, die gleiche Intervalle, also gleiche Frequenzverhältnisse bilden; z. B. nimmt das Gehör die Summe aller Schwingungen zwischen 100 und 110 Hz ebenso laut wahr wie die Summe aller Schwingungen zwischen 1 und 1,1 kHz. Weißes Rauschen ist ein für verschiedene Messungen geeignetes Signal, die statistischen Eigenschaften von Musik oder Sprache jedoch kann es bei Messungen nicht simulieren. Die Bezeichnung Weißes Rauschen entspricht in seiner Frequenzzusammensetzung dem weißen Licht, das ebenfalls aus allen sichtbaren Wellenlängen mit gleicher Amplitude zusammengesetzt ist, Entsprechendes gilt für das Rosa Rauschen. Rosa Rauschen: Beim Rosa Rauschen nimmt die Amplitude pro Frequenzverdopplung um den Faktor = 0,7071 ab, der Pegel also um 3 dB. Es handelt sich um ein Rauschen, dessen spektrale Leistungsdichte umgekehrt proportional der Frequenz ist, man spricht auch von 1/f-Rauschen. Beim Weißen Rauschen bleibt die Leistung in einem absoluten Frequenzband konstant, z. B. in einem Band von 100 Hz Breite, bei Rosa Rauschen bleibt sie in einem relativen Frequenzband, also einem bestimmten Intervall konstant, z. B. in einem Terzbereich mit dem Frequenzverhältnis 5:4 von oberer zu unterer Frequenz. Rosa Rauschen entspricht in seiner statistischen Frequenz-Amplitudenverteilung im Gegensatz zu Weißem Rauschen gut dem von Musik und Sprache. Geräusch: Schallsignal, das meistens Anteile von Rauschen, Ton- und Klanggemischen enthält und oft ein nicht zweckbestimmtes Schallereignis darstellt. Lärm, akustisch meist geräuschhafter Schall großer Intensität, ist in der Wahrnehmung eines Hörers lästiger, störender bis die Gesundheit gefährdender Schall; er kann also durchaus auch Musik sein.
4
1 Grundlagen der Akustik
1.1.2 Eigenschaften von Schwingungen Vorgänge, deren Verhalten nach bestimmten, periodischen Zeitabschnitten stets wieder den gleichen Zustand erreicht, werden als Schwingungen bezeichnet [Magnus, 2008], [Müller, 2003]. 1.1.2.1 Einfache Schwingungen Lässt sich die Zeitabhängigkeit eines Vorgangs durch eine Sinus- oder Cosinusfunktion beschreiben, so heißt dieser Vorgang Sinusschwingung, harmonische oder einfache Schwingung, die dazugehörige physikalische Größe heißt Sinusgröße, z. B. Sinusspannung. Abb. 1/1 zeigt eine sinusförmige Schwingung. Zu ihrer Beschreibung werden die folgenden Begriffe verwendet [DIN 1311]: Amplitude: Der maximale Augenblickswert â, also der Scheitelwert einer Sinusgröße a, heißt Amplitude. Periodendauer: Der Zeitabschnitt, nach welchem eine Schwingung sich periodisch wiederholt, heißt Periodendauer T. Frequenz: Der Kehrwert der Periodendauer T heißt Frequenz f. Sie gibt an, wie viele Schwingungsperioden auf eine Sekunde entfallen. Die Einheit ist Hertz, abgekürzt Hz mit der Dimension 1/s. Kreisfrequenz: Der 2π-fache Wert der Frequenz heißt Kreisfrequenz ω. Phasenwinkel: Das Argument der Sinus- oder Cosinusfunktion heißt Phasenwinkel φ; er stellt eine lineare Funktion der Zeit dar: φ = ω ⋅ t. Der Phasenwinkel tritt bei der Darstellung einer Sinusschwingung durch Projektion der Drehung eines Zeigers als Winkel zwischen Zeiger und Projektionsachse in Erscheinung. Der Phasenwinkel für t = 0 heißt Nullphasenwinkel φ0 (Abb. 1/2).
Abb. 1/1. Begriffe bei sinusförmigen Schwingungen.
Die mathematische Darstellung einer einfachen Schwingung lautet: a = â ⋅ cos ωt a = Augenblickswert der Amplitude der Sinusschwingung [m] a = â ⋅ cos 2πft â = Spitzenwert der Amplitude [m] a = â ⋅ cos 2πt/T t = Zeit [s] ω = 2πf T = Periodendauer, Umlaufdauer des Zeigers [s] f = 1/T ω = Kreisfrequenz, Frequenz [Hz, 1/s]
1.1 Schallschwingungen
5
Anstelle des Cosinus kann auch der Sinus stehen; dies hat auf den Schwingungsverlauf selbst keinen Einfluss, sondern nur auf die Werte zum Zeitpunkt t = 0. Cosinus- und Sinusschwingungen haben zum Zeitpunkt t = 0 eine gegenseitige Phasendifferenz von 90°, die Sinusfunktion hat im Zeitpunkt t = 0 den Wert a = 0, die Cosinusfunktion den Wert a = â. Bei einer ungedämpften einfachen oder harmonischen Schwingung ist die rückstellende Kraft – also die Kraft, die das schwingende Element zum Nullpunkt zurückzieht – proportional zur Auslenkung, verdoppelt sich die Auslenkung, verdoppelt sich auch die rückstellende Kraft.
Abb. 1/2. Einfache Schwingung als Projektion eines rotierenden Zeigers.
Sinusverwandte Schwingungen sind Schwingungen, bei denen die Amplitude â sich verglichen mit der Periodendauer T nur langsam mit der Zeit ändert und/oder bei denen der Phasenwinkel innerhalb einer Periodendauer nur wenig von der linearen Zunahme mit der Zeit abweicht. Solche sinusverwandten Schwingungen sind z. B. gedämpfte Schwingungen, bei denen die Amplitude mit der Zeit abnimmt, oder Schwebungen, deren Amplitude und Frequenz sich langsam mit der Zeit periodisch ändern, sowie amplitudenmodulierte Schwingungen, die eine periodische Änderung der Amplituden ohne Frequenzschwankungen kennzeichnet. 1.1.2.2 Überlagerung von Schwingungen Die Überlagerung von zwei einfachen oder harmonischen Schwingungen gleicher Frequenz ergibt wieder eine einfache oder harmonische Schwingung derselben Frequenz, deren Amplitude und Phase von den Amplituden der beiden sich überlagernden Schwingungen und ihrer Phasendifferenz abhängen. Abb. 1/3 zeigt drei Fälle einer solchen Überlagerung. Weichen die Frequenzen der beiden Schwingungen ein wenig voneinander ab und sind ihre Amplituden â gleich groß, so entsteht eine Schwingung, deren Amplitude sich zwischen den Werten 0 und 2â periodisch ändert. Diese Schwingung nennt man vollkommene Schwebung, bei ungleichen Amplituden unvollkommene Schwebung (Abb. 1/4). Die Frequenz der Schwebung schwankt ebenfalls geringfügig periodisch, bei der sehr ähnlichen amplitudenmodulierten Schwingung mit dem Modulationsgrad 1 bleibt die Frequenz hingegen konstant.
6
1 Grundlagen der Akustik
Weichen die Frequenzen der beiden sich überlagernden Schwingungen erheblich voneinander ab, so ergibt sich keine harmonische Schwingung mehr.
Abb. 1/3. Überlagerung zweier Schwingungen a1 und a2 mit gleicher Amplitude und Frequenz sowie mit beliebiger Phasendifferenz, z. B. 72° (a), ohne Phasendifferenz (b) und mit 180° Phasendifferenz (c), a1 ……, a2 -----, a1 + a2 _____.
Abb. 1/4. Durch Überlagerung zweier Schwingungen mit gleicher Amplitude und geringem Frequenzunterschied entstehende sog. vollkommene Schwebung.
1.1.2.3 Zusammengesetzte Schwingungen Jede auch noch so unregelmäßig verlaufende, aber periodische Schwingung lässt sich in sinusförmige Teilschwingungen zerlegen. Diesen Vorgang nennt man harmonische Analyse oder Fourier-Analyse. Sie umfasst das Ermitteln der Frequenzen der einzelnen Teilschwingungen und die Bestimmung ihrer Amplituden. Das Ergebnis einer harmonischen Analyse ergibt ein sog. Amplitudenspektrum oder einfach Spektrum. Dies ist die grafische
1.2 Schallfelder
7
Darstellung der Gesamtheit aller Teilschwingungen eines Signals mit den dazugehörigen Amplitudenwerten. Die Frequenzen der einzelnen Teilschwingungen sind immer ganzzahlige Vielfache einer Grundschwingung, deren Frequenz mit der Frequenz der zu analysierenden Schwingung übereinstimmt (Abb. 1/5). Ein solches Spektrum besteht also aus einzelnen Linien, man spricht von Linienspektrum. Das Amplitudenspektrum genügt allerdings nicht, um den Zeitverlauf der periodischen Schwingung vollständig zu beschreiben; hierzu ist zusätzlich die Angabe der Nullphasenwinkel aller Teilschwingungen in einem Phasenspektrum erforderlich. Für viele praktische Zwecke, wie Erkenntnisse über die Klangfarbe eines musikalischen Klangs oder über die Zusammensetzung und Störwirkung eines Störgeräuschs, kann auf das Phasenspektrum jedoch verzichtet werden. Alle periodischen Vorgänge haben Linienspektren; sie setzen sich aus ganzzahligen Vielfachen einer Grundfrequenz f zusammen. Sie errechnet sich aus der Periodendauer T der zu analysierenden Schwingung: f = l/T. Je größer die Periodendauer T wird, umso tiefer liegt also die Grundfrequenz f und umso näher beisammen liegen die Vielfachen dieser Grundfrequenz. Lässt man im Gedankenexperiment die Periode beispielsweise einer Rechteckschwingung immer länger, schließlich unendlich lang werden, so kommt man zur sog. Sprungfunktion (Abb. 1/6a), einem einmaligen Vorgang, der sinngemäß eine extrem tiefe Grundfrequenz, eigentlich 0 Hz, und eigentlich unendlich dicht beieinander liegenden Teilschwingungen entsprechen. Somit haben Einzelvorgänge so dicht liegende Komponenten, dass ein kontinuierliches Spektrum entsteht, das durch die Einhüllende der eigentlich unendlich vielen Komponenten gekennzeichnet ist, nämlich durch eine sog. Spektralfunktion. Dies gilt sinngemäß allgemein für nichtperiodische Signale, z. B. Rauschen oder Geräusche, die als eine Folge von Einzelereignissen aufgefasst werden können, Die Spektralfunktion wird durch die Leistungsdichte, d. h., durch die Leistung pro relativer oder absoluter Bandbreiteneinheit beschrieben und grafisch dargestellt. In der Praxis liegen die Teilschwingungen umso weniger dicht und die Grundfrequenz umso weiter von 0 Hz entfernt, wie der Übertragungsbereich des Systems oben begrenzt ist. Abb. 1/5 zeigt einige Beispiele periodischer Schwingungen und ihrer Teiltonspektren, Abb. 1/6 einiger nichtperiodischer Vorgänge mit ihren Spektralfunktionen.
1.2 Schallfelder Wenn eine Schallquelle das sie umgebende Medium, z. B. Luft, zum Mitschwingen anregt, so entsteht um die Schallquelle eine sich ausbreitende Schallwelle, ein Schallfeld. Ohne Medium, also im Vakuum, wird kein Schallfeld erzeugt. Jede Schallwelle ist verbunden mit räumlichen und zeitlichen Schwankungen von Dichte und Druck des Mediums sowie mit Schwankungen der Geschwindigkeit der um ihre Ruhelage pendelnden Teilchen. Im sog. freien Schallfeld kann sich der Schall völlig ungehindert in alle Richtungen ausbreiten, er trifft nicht auf Hindernisse; er erreicht den Hörer oder das Mikrofon nur auf direktem Weg, daher auch Direktschall genannt.
8
1 Grundlagen der Akustik
Abb. 1/5. Einige Schwingungsverläufe mit den dazugehörigen Amplitudenspektren; die Spektren sind nach der 12. Harmonischen abgeschnitten, setzen sich aber bei b, c und d theoretisch bis ins Unendliche fort; die Amplituden der Teilschwingungen sind etwa dreimal vergrößert gezeichnet. Die Spektren gelten nur für den eingeschwungenen Zustand. Bei b, c und d entsteht noch eine Teilschwingung mit der Frequenz 0, d. h., eine Gleichkomponente, z. B. eine Gleichspannung.
Im sog. diffusen Schallfeld wird der Schall vielfach an den Wänden und Gegenständen eines Raums reflektiert, gebeugt, zerstreut oder gebündelt; im diffusen Schallfeld sind eigentlich viele verschiedene freie Schallfelder einander überlagert. Die Schallenergie ist im diffusen Schallfeld im Gegensatz zum freien Schallfeld im Idealfall gleichmäßig über den ganzen Raum verteilt, eine Vorzugsrichtung der Schallausbreitung gibt es nicht. Zur vollständigen Beschreibung eines komplexen Schallfelds ist die Angabe von Druck und der Bewegungsgeschwindigkeit der Teilchen, der sog. Schnelle, erforderlich; die Angabe des Drucks enthält keine Information über die Bewegungsrichtung der Teilchen, die Schnelle gibt keine Auskunft über die treibende Kraft dieser Bewegung. [Fasold, 2003], [Kuttruff, 2004], [Veit, 2005], [Hentschel, 2009], [Lerch, 2009], [Möser, 2009]
1.2 Schallfelder
9
Abb. 1/6. Spektralfunktionen einiger einmaliger Vorgänge, a. Spektralfunktion der Sprungfunktion, z. B. Einschalten einer Gleichspannung, b. Spektralfunktion eines Rechteckimpulses, c. Spektralfunktion einer plötzlich einsetzenden bzw. eingeschalteten Sinusschwingung, d. Spektralfunktion eines sehr kurzen Knacks, genannt auch Nadelimpuls, Stoßfunktion oder Dirac-Stoß, e. Spektralfunktion eines Knalls.
1.2.1 Schallausbreitung in Luft Die Schallquelle bringt in ihrer unmittelbaren Umgebung die Luftteilchen zum Schwingen; diese übertragen bei Zusammenstößen die Schwingungen weiter auf die ihnen benachbarten Teilchen usw., so dass sich die Schwingung der Schallquelle als Schallwelle über das Medium ausbreitet. Dabei schwingen die Teilchen um ihre Ruhelage herum in der Ausbreitungsrichtung der Schallwelle, es handelt sich um eine sog. Longitudinalwelle. Sie ändern dabei periodisch ihre Bewegungsgeschwindigkeit und ihre Bewegungsrichtung. Durch ihre Auslenkung aus der Ruhelage verursachen sie periodische Schwankungen der Dichte und
10
1 Grundlagen der Akustik
damit Druckschwankungen. Abb. 1/7 macht anhand der Auslenkung der Luftteilchen die Ausbreitung einer Schallwelle anschaulich.
Abb. 1/7. Schematische Darstellung der Ausbreitung einer Schallwelle in Luft in 15 aufeinander folgenden Zeitpunkten.
Die Ausbreitungsgeschwindigkeit der Schallwelle in Luft wird als Schallgeschwindigkeit c [m/s] bezeichnet. Sie hängt von der Temperatur ab, was sich z. B. auf die Stimmung der Blasinstrumente und der Orgel auswirkt. Bei 10 °C beträgt die Schallgeschwindigkeit etwa 338 m/s, pro 1 °C nimmt sie um 0,6 m/s zu und beträgt demnach bei 20 °C etwa 344 m/s und bei 30 °C etwa 350 m/s. Einen vernachlässigbaren Einfluss auf die Schallgeschwindigkeit haben der stationäre Luftdruck, die Feuchtigkeit und der Gehalt an Kohlendioxyd unter in der Praxis auftretenden Bedingungen. Wenn sich eine Schwingung in einem Medium als Welle ausbreitet, treten zu einem bestimmten Zeitpunkt in jeweils gleichen Abständen in der Ausbreitungsrichtung immer wieder dieselben Schwingungszustände oder Phasen auf, z. B. die größte Bewegungsgeschwindigkeit oder die größte Dichte der Luftmoleküle. Diesen Abstand bezeichnet man als Wellenlänge λ (Abb. 1/8). Betrachtet man z. B. den Schalldruckverlauf an einer Stelle im zeitlichen Ablauf, so kann dasselbe Schwingungsbild beobachtet werden wie bei der Betrachtung entlang einer Welle in einem bestimmten Zeitpunkt. Beim Zeitbild der Schwingung ergibt sich aus dem zeitlichen Abstand zweier gleicher Schwingungszustände die Dauer einer Schwingungsbewegung als Periodendauer T. Die Anzahl der Schwingungen pro Sekunde heißt Frequenz f. 1 f = T
f = Frequenz [Hz] T = Periodendauer [s]
Zwischen der Schallgeschwindigkeit c, der Wellenlänge λ und der Frequenz f eines Tons besteht die Beziehung:
1.2 Schallfelder
c λ = f
11
λ = Wellenlänge [m] c = Schallgeschwindigkeit [m/s] f = Frequenz [Hz, 1/s]
Abb. 1/8. Periodendauer und Wellenlänge einer Schwingung.
Tab. 1/2 gibt für Luftschall einige Wellenlängen und die dazugehörigen Frequenzen an. Tab. 1/2. Frequenz und Wellenlänge in Luft. Frequenz f
Wellenlänge λ
16 Hz 20 Hz 100 Hz 1.000 Hz = 1 kHz 10.000 Hz = 10 kHz 16.000 Hz = 16 kHz 20.000 Hz = 20 kHz
21,2 m 17 m 3,4 m 0,34 m 0,034 m 0,021 m 0,017 m
Die Zeit, die eine Schallwelle benötigt, um eine bestimmte Strecke zurückzulegen, wird als Laufzeit t bezeichnet. Sie errechnet sich aus der Beziehung: d t = c
t = Laufzeit [s] d = Distanz, die die Schallwelle zurücklegt c = Schallgeschwindigkeit, 344 m/s bei 20 °C
Für eine Distanz von 34 m ist die Laufzeit t also 0,1 s = 100 ms, für 1 m rund 3 ms; ein Echo ist hörbar, wenn reflektierter Schall 50 ms entsprechend 17 m Schallumweg nach dem Primärschall eintrifft.
12
1 Grundlagen der Akustik
Während die Luftteilchen einer Schallwelle stets in der Ausbreitungsrichtung dieser Welle schwingen, also Longitudinalschwingungen ausführen, gibt es bei Festkörpern bzw. Flüssigkeiten neben der Longitudinalwelle, die hier als Dichtewelle auftritt, mehrere andere Wellenformen: Oberflächenwellen, Biegewellen, Torsionswellen, Transversal- oder Schubwellen und Dehnwellen (Abb. 1/9). Die Schallgeschwindigkeit von Körperschall ist im Allgemeinen wesentlich höher als die des Luftschalls, sie liegt bei einigen tausend m/s, und damit sind auch die Wellenlängen wesentlich größer als bei Luftschall.
Abb. 1/9. Wellenformen in Festkörpern.
Mit den Vorgängen bei der Schallausbreitung in Wasser befasst sich die Hydroakustik. Wie in Luft gibt es im Wasser Longitudinalwellen, die sich allerdings mit einer viel höheren Schallgeschwindigkeit ausbreiten, nämlich mit ca. 1.440 m/s bei 10 °C Wassertemperatur. Die Dämpfung der Schallwellen in Wasser ist besonders gering, weshalb sie sich über sehr große Entfernungen ausbreiten können. Da elektromagnetische Wellen unter Wasser sehr stark bedämpft werden, nimmt Wasserschall hier bei der sog. Sonar-Ortung die Funktion des Radars ein, z. B. bei der Messung der Wassertiefe (Echolot), beim Erfassen von Fischschwärmen u. a. 1.2.1.1 Kugelwelle und ebene Welle Da sich die Schallwelle in Luft geradlinig nach allen Richtungen ausbreitet, liegen die Punkte gleicher Phasen, also z. B. gleichen Drucks, auf konzentrischen Kugelflächen um eine allseitig
1.2 Schallfelder
13
gleichmäßig abstrahlende punkt- oder kugelförmige Schallquelle. Mit zunehmendem Abstand von der Schallquelle nähern sich die Flächenelemente dieser Kugelschalen immer mehr ebenen Flächenelementen, die Kugelwelle nimmt also mit wachsender Entfernung zur Schallquelle allmählich die akustischen Eigenschaften einer ebenen Welle an. Bei Kugelwellen sind alle Schallfeldgrößen auf Kugelschalen um die Schallquelle konstant, während sie bei ebenen Wellen in Ebenen senkrecht zur Ausbreitungsrichtung konstant sind (Abb. 1/10).
Abb. 1/10. Kugelwelle und ebene Welle.
In der ebenen Welle sind Druck und Schnelle stets in Phase. Wo also der Druck seinen größten Wert erreicht, ist auch die Bewegungsgeschwindigkeit der Teilchen am größten. In der Kugelwelle sind Druck und Schnelle in Abhängigkeit von der Frequenz und dem Abstand zur Schallquelle gegeneinander in der Phase versetzt. 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz Der Schalldruck ist der durch die Schallschwingung hervorgerufene Wechseldruck. Die Druckschwankungen der Schallwelle überlagern sich dem atmosphärischen Gleichdruck. Akustische Berechnungen werden häufig mit dem Schalldruck durchgeführt, da er durch eine einzige Zahlenangabe definiert – eine sog. skalare Größe – und somit mathematisch relativ einfach zu verwenden ist. Der Schalldruck wird in Pascal (Pa) oder Newton/m2 (1 N/m2 = 1 Pa), früher bevorzugt in μbar (1 μbar = 0,1 Pa), angegeben. Die im Hörschall üblicherweise vorkommenden Schalldruckwerte liegen zwischen p0, dem geringsten bei 1 kHz wahrnehmbaren Schalldruck von 2 ⋅ 10-5 Pa, und dem Schalldruck der Schmerzgrenze von etwa 1,5 ⋅ 102 Pa. Ein mäßig lauter Ton hat einen Schalldruck von etwa 0,1 Pa. Der normale atmosphärische Luftdruck beträgt etwa 1.000 Hektopascal bzw. 105 Pa entsprechend 1 bar; der durchschnittliche Schalldruck ist damit nur der millionste Teil des Atmosphärendrucks. Die momentane Geschwindigkeit, mit der ein schwingendes Teilchen um seinen Ruhepunkt schwingt, ist die Schallschnelle, eine sog. vektorielle Größe, die zusätzlich zu einem Zahlenwert durch eine Richtungsangabe definiert ist. Man benutzt den Ausdruck Schnelle an Stelle von Geschwindigkeit, um Verwechslungen mit der Ausbreitungsgeschwindigkeit der Schallwelle c zu vermeiden. Die Schallschnelle der Teilchen, die in einer Schallwelle schwingen, ist sehr gering. Sie beträgt im Mittel z. B. bei einem Schalldruck von 0,1 Pa in Luft nur 0,25 mm/s.
14
1 Grundlagen der Akustik
Schalldruck und Schallschnelle werden meist als Effektivwert angegeben, dem quadratischen Mittelwert einer Wechselgröße. Bei sinusförmigen Schwingungen ist der Effektivwert gleich dem Spitzenwert dividiert durch √2, also etwa das 0,7-fache des Spitzenwerts. Bei anderen Schwingungsformen nimmt der Effektivwert andere Werte an. Schalldruck p und Schallschnelle v haben im Fernfeld einer Schallquelle, also im annähernd ebenen Schallfeld, einen analogen Verlauf; sie sind bei gleichbleibender Amplitude der Frequenz f direkt und dem Abstand von der Schallquelle r umgekehrt proportional, bei konstanter Schallleistung und somit annähernd konstanter Lautstärke sind Schalldruck und Schallschnelle nur zur Entfernung umgekehrt proportional; für die Augenblickswerte gilt: p ~ v
p = Schalldruck [N/m²] f = Frequenz [Hz] r = Abstand der Schallquelle [m] t = Zeit [s] λ = Wellenlänge [m] v = Schallschnelle [m/s]
Während sich der Wert des Schalldrucks im Nahfeld der Schallquelle wie im Fernfeld verhält, steigt die Schallschnelle im Nahfeld in komplexer Weise viel stärker an als der Schalldruck; das ist bei Mikrofonen, die auf die Schallschnelle (Bändchenmikrofone) oder die Schalldruckdifferenz – auch Schalldruckgradient genannt – reagieren (Druckgradientenmikrofone), zu beachten, man spricht hierbei vom Nahbesprechungseffekt (siehe Kap. 4.2.1). Der Anstieg der Schnelle an einem bestimmten Punkt im Nahfeld ist von der Frequenz abhängig: je tiefer die Frequenz, umso stärker ist der Anstieg, der durch Schnelle- und Druckgradientenwandler als Anhebung tiefer Frequenzen wirksam wird, sofern er nicht elektrisch ausgeglichen wird. Weiterhin ist bei gegebener Frequenz der Anstieg des Druckgradienten bzw. der Schnelle vom Abstand zur Schallquelle abhängig. Tab. 1/3 gibt für verschiedene Frequenzen an, bei welchem „kritischen Abstand“ von der Schallquelle eine Pegelerhöhung um 3 dB gegenüber hohen Frequenzen eintritt. Tab. 1/3. Kritische Schallquellenabstände für verschiedene Frequenzen bzw. Töne. Frequenz
musikalischer Ton
kritischer Abstand von der Schallquelle
16,25 Hz 32,50 Hz 65 Hz 130 Hz 260 Hz 520 Hz
C“ C‘ C c c‘ c“
6,4 m 3,2 m 1,6 m 0,8 m 0,4 m 0,2 m
Der Quotient aus Schalldruck und Schallschnelle ist in der ebenen Welle stets und an jedem Raumpunkt konstant, er wird als Schallkennimpedanz Z0 bezeichnet, früher als Schallwellenwiderstand.
1.2 Schallfelder
15
p = Schalldruck [Pa] v = Schallschnelle [m/s] Z0 = Schallkennimpedanz der ebenen Welle [Ns/m3]
Die Schallkennimpedanz der ebenen Welle Z0 errechnet sich aus der Dichte und der Schallgeschwindigkeit. Bei Normaldruck und 20 °C ist die Schallkennimpedanz der Luft Z0 = 408 Ns/m3, in Wasser z. B. 1,48 ⋅ 106 Ns/m3. Im Nahfeld einer Schallquelle, d. h., in einer Kugelwelle, ist die Schallkennimpedanz nicht mehr überall konstant, die in diesem Fall als spezifische Schallkennimpedanz bezeichnete Größe ist eine komplexe Größe mit Wirk- und Blindanteil. 1.2.1.3 Schalldruckpegel Um die auftretenden großen Unterschiede des Schalldrucks besser erfassen zu können, verwendet man zur Kennzeichnung des Schalldrucks im Allgemeinen den absoluten Schalldruckpegel L, auch kurz Schallpegel genannt. Ein Vorteil der Verwendung des Pegelmaßes ist, dass es besser dem menschlichen Lautstärkeempfinden entspricht. Der Schallpegel ist das 20-fache logarithmierte Verhältnis des Schalldrucks zu einem vereinbarten Bezugsschalldruck p0. Maßeinheit ist das dB [DIN 5493], siehe zum Pegelmaß auch Kap. 9.10. Lp = absoluter Schalldruckpegel [dB] p = Schalldruck [Pa] p0 = Bezugsschalldruck = 2 ⋅ 10-5 Pa Die Größe p0 ist ein genormter Bezugsschalldruck [DIN 45630], der etwa der Hörschwelle entspricht. Die Hörschwelle liegt für 1 kHz bei 4 dB, für 2 kHz bei - 4 dB; die Schmerzgrenze ist für 1 kHz bei 130 dB, für 2 kHz bei 120 dB. Der Bereich mittlerer Lautstärken entspricht einem Schallpegel von ungefähr 60 bis 80 dB.
Abb. 1/11. Bewertungskurven zur Messung des bewerteten Schallpegels.
Verwendet man als Bezugsschalldruck einen beliebigen, frei gewählten Druck, so handelt es sich um den sog. relativen Schalldruckpegel. Da das Gehör den Schalldruck in Abhängigkeit von der Frequenz unterschiedlich bewertet, hat man für Messungen auch einen sog. bewerteten Schalldruckpegel oder bewerteten Schallpegel eingeführt, der entsprechend den Eigenschaften des Gehörs insbesondere Frequenzen zwischen 500 und 5.000 Hz bei der
16
1 Grundlagen der Akustik
Messung berücksichtigt. Je nach der Lautstärke wird dabei eines der drei genormten Filter nach [DIN EN 62672] entsprechend den Bewertungskurven A, B oder C der Messung zugrunde gelegt (Abb. 1/11). Das Filter A gilt für kleine Schallpegel, es ergibt die niedrigsten und damit meist günstigsten Messwerte auch für größere Schallpegel und wird deshalb gerne, aber ungerechtfertigt, auch für diese verwendet. Die zeitliche Bewertung des Schalls spielt dabei eine große Rolle, deshalb wird im Allgemeinen mit der schnellen und definierten Bewertung I (Impuls) gemessen. Für Näheres zur Lautstärke und zum Schalldruckpegel siehe Kap. 3.3.1. Der bewertete Schallpegel ist nur grob ein Maß für die empfundene Lautstärke. Wie laut man subjektiv ein Schallereignis empfindet, beschreiben der Lautstärkepegel und die Lautheit genauer, siehe Kap. 3.3.1. 1.2.1.4 Schallleistung und Schallintensität Während die mathematische Beschreibung des Schallfelds am einfachsten mit Hilfe des Schalldrucks oder Schalldruckpegels erfolgt, verwendet man zur Beschreibung der Schallquelle in erster Linie die Energiegrößen Schallleistung und – wie auch zur Beschreibung des Energiegehalts eines Schallfelds – die Schallintensität. Die Schallintensität I ist die Schallleistung, die durch eine Flächeneinheit, die senkrecht zur Ausbreitungsrichtung der Schallwelle steht, hindurchströmt. Die Einheit ist also W/m2. Die Schallintensität I einer ebenen Welle ist gleich dem Produkt aus effektivem Schalldruck und effektiver Schallschnelle: I = p eff = I = p eff ⋅ v eff v eff = Z0 = =
Schallintensität [W/m²] effektiver Schalldruck [Pa] effektive Schallschnelle [m/s] Schallkennimpedanz der ebenen Welle [Ns/m3] 408 Ns/m³ unter Normalbedingungen in Luft
Für Normalbedingungen im Raum gilt also
Die gesamte Schallleistung einer Schallquelle ergibt sich als Summe aller Schallintensitäten, die auf Flächenelementen, die zur Ausbreitungsrichtung senkrecht stehen. Diese Flächenelemente liegen auf der Oberfläche einer die Schallquelle einhüllenden Kugel, in deren Mittelpunkt die Schallquelle strahlt. Damit ergibt sich im freien Schallfeld für die Schallintensität im Abstand r von einer kugelförmig nach allen Seiten gleichmäßig abstrahlenden Schallquelle in Abhängigkeit von der Schallleistung P die Beziehung:
I = gesamte Schallintensität [W] im Abstand r von der Schallquelle r = Abstand von der Schallquelle [m] P = Schallleistung [W]
1.2 Schallfelder
17
Die akustische Leistung von Schallquellen ist, gemessen an den Größenordnungen von mechanischen Leistungen und Wärmeleistungen, sehr gering (Tab. 1/4). Während der Wert des Schalldruckpegels vom Abstand des Messpunkts zur Schallquelle abhängig ist, ist der Schallleistungspegel davon unabhängig, denn er beschreibt die Eigenschaften der Schallquelle selbst. Tab. 1/4. Schallleistungen einiger Schallquellen. Schallquelle
Schallleistung P
Schallleistungspegel LP
Unterhaltungssprache menschliche Stimme (Höchstwert) einzelne Musikinstrumente Presslufthammer Orgel, Pauke Orchester Alarmsirene
0,000 001 bis 0,000 01 W 0,001 bis 0,01 W bis 0,3 W 1W bis 10 W bis 100 W 1.000 W
60 bis 70 dB 90 bis 100 dB 115 dB 120 dB 130 dB 140 dB 150 dB
So wie der Schalldruck auch im dB-Maß als Schalldruckpegel L angegeben wird, so kann auch die Schallleistung als Schallleistungspegel Lp und die Schallintensität als Schallintensitätspegel LI in dB angegeben werden. Als Bezugswert ist für die Schallleistung 1 pW = 10-12 W und für die Schallintensität 1 pW/m2 = 10-12 W/m2 gebräuchlich [DIN 1320].
1.2.2 Schallausbreitung im Raum Ein freies Schallfeld in einem Raum existiert praktisch nur in eigens dafür hergerichteten sog. „schalltoten“, besser reflexionsarmen Räumen, im Freien angenähert auch z. B. über einer schneebedeckten Fläche oder einer Sandfläche. In Räumen stellen sich der ungehinderten, geradlinigen Schallausbreitung immer Hindernisse entgegen, vor allem die Raumbegrenzungen, aber auch Gegenstände im Raum, die die Schallausbreitung beeinflussen; diese Einflüsse sind stets frequenzabhängig: –– Die totale oder teilweise Reflexion der Schallwelle an Flächen bewirkt eine Änderung der Ausbreitungsrichtung je nach Größe der Fläche entweder im gesamten Frequenzbereich bei großen Flächen oder nur im Bereich höherer Frequenzen bei kleineren Flächen. Nach innen gekrümmte sog. konkave Flächen (Hohlspiegel) führen zu einer Schallbündelung oder Schallstreuung, je nach Abstand der Schallquelle zur Fläche, nach außen gekrümmte, sog. konvexe Flächen (Streuspiegel) stets zu einer Schallstreuung. –– Die Beugung der Schallwelle an Hindernissen im Schallweg bewirkt eine Änderung der geradlinigen Ausbreitungsrichtung besonders im Bereich tieferer Frequenzen oder ein völliges Umgehen von Hindernissen. –– Die Brechung der Schallwelle spielt in der Raumakustik keine Rolle. –– Die totale oder teilweise Absorption der Schallwelle bewirkt, dass der Schallwelle Energie entzogen wird, wodurch sie geschwächt oder vernichtet wird, in der Regel ist die Absorption frequenzabhängig.
18
1 Grundlagen der Akustik
1.2.2.1 Schallreflexion Für die Betrachtung der Schallreflexion eignet sich die Darstellung der Schallausbreitung als Schallstrahl analog der Lichtausbreitung. Es gelten dabei die aus der Optik bekannten Gesetze der Reflexion an ebenen Spiegeln bzw. an Streu- und Hohlspiegeln. Bedingung für die Gültigkeit der Gesetze ist, dass der Durchmesser der reflektierenden Fläche mindestens einige Wellenlängen der reflektierten Schallwelle misst. Schallreflexion an ebenen Flächen Trifft ein Schallstrahl auf eine hinreichend große ebene Fläche (Abb. 1/12), so wird er unter demselben Winkel (α‘ in Abb. 1/12) reflektiert, unter dem er auf die Fläche trifft (α). Einfallender und reflektierter Strahl liegen dabei in einer Ebene, die senkrecht auf der reflektierenden Fläche steht. Durch entsprechende Ausrichtung der reflektierenden Fläche kann der Schallstrahl in jede gewünschte Richtung gelenkt werden, was bei der raumakustischen Gestaltung Anwendung findet. Trifft ein Schallstrahl auf eine rechtwinklige Ecke, so wird er zweimal so reflektiert, dass er parallel zum einfallenden Strahl zurückkehrt (Abb. 1/12).
Abb. 1/12. Schallreflexion an einer ebenen Fläche und an einer rechtwinkligen Ecke, je zwei Beispiele.
Zwischen parallelen, reflektierenden Wänden kann es zu sog. stehenden Wellen kommen: Eine senkrecht auftreffende Schallwelle wird hier immer wieder mit ihrer eigenen Reflexion überlagert. Dadurch können sich an gewissen Punkten die Schallwellen ganz oder teilweise gegenseitig auslöschen, an anderen Punkten verstärken. Im Gegensatz zur fortschreitenden Welle gibt es also ortsfeste Auslöschungen und Maxima, die bei Aufnahmen, z. B. bei tiefen Orgeltönen, und bei Messungen eine erhebliche Störung darstellen. Bedingung für das Zustandekommen stehender Wellen ist, dass der Wandabstand gleich der halben Wellen-
1.2 Schallfelder
19
länge oder einem ganzzahligen Vielfachen davon ist. Umgekehrt gibt es für jeden Abstand eine Schallwelle mit entsprechender Frequenz und damit eine stehende Welle. Abb. 1/13 zeigt die Druckverteilung in stehenden Wellen; bei vollständiger Reflexion ist der Schall in den Druckknoten ausgelöscht, in den Druckbäuchen verdoppelt. Eine stehende Welle kann bei einem bestimmten Wandabstand also immer nur für eine Frequenz und deren harmonische Obertöne auftreten. Ferner entsteht eine stehende Welle nur bei einem Dauerton. In der Praxis treten stehende Wellen als sog. Raummoden oder Raumresonanzen besonders in kleineren Räumen auf; sie kennzeichnen neben den wenig verzögerten Reflexionen Kleinräumigkeit, die typische „Wohnzimmerakustik“. Bei der Aufnahme können solche Resonanzen durch oft nur geringfügiges Verschieben des Mikrofons unschädlich gemacht werden.
Abb. 1/13. Druckverteilung in stehenden Wellen zwischen zwei parallelen Wänden.
Bei impulsartigem Schall entsteht zwischen parallelen Wänden ein Flatterecho, da das Signal dauernd hin und her reflektiert wird. Bei größerem Wandabstand ist dabei die schnelle Abfolge einzelner Echos wahrnehmbar, bei kleinerem Wandabstand von weniger als etwa 8 m wird die Abfolge der Echos so rasch, dass ein sog. Klangecho entsteht: Der Schallimpuls erhält eine Art Nachhall, der indes nur eine bestimmte Tonhöhe hat, die vom Wandabstand und dem Standort des Hörers abhängt. Schallreflexion an gekrümmten Flächen Trifft eine Schallwelle auf eine nach innen gewölbte, eine konkave Fläche, so müssen je nach dem Abstand zwischen Schallquelle und reflektierender Hohlfläche vier verschiedene Situationen unterschieden werden: 1. Der Abstand der Schallquelle zur reflektierenden Fläche ist größer als der halbe Krümmungsradius r/2 der Fläche, jedoch kleiner als der Radius r: Der gesamte reflektierte Schall wird in einem Punkt, der außerhalb des Krümmungsradius liegt, gesammelt (Abb. 1/14). 2. Der Abstand der Schallquelle zur reflektierenden Fläche ist gleich dem halben Krümmungsradius r/2 der Fläche: Die auseinanderlaufenden Schallstrahlen verlaufen nach der Reflexion parallel (Abb. 1/15).
20
1 Grundlagen der Akustik
Abb. 1/14. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der halbe Krümmungsradius r/2.
Abb. 1/15. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche gleich dem halben Krümmungsradius r/2.
3. Der Abstand Schallquelle zur reflektierenden Fläche ist kleiner als der halbe Krümmungsradius r/2 der Fläche: Die Schallstrahlen streben nach der Reflexion auseinander, die Anordnung zerstreut den Schall (Abb. 1/16).
Abb. 1/16. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zur reflektierenden Fläche kleiner als der halbe Krümmungsradius r/2.
4. Der Abstand Schallquelle zur reflektierenden Fläche ist größer als der Krümmungsradius r: In diesem Fall ergibt sich eine noch stärker zerstreuende Wirkung (Abb. 1/17).
1.2 Schallfelder
21
Abb. 1/17. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der Krümmungsradius r.
Solche gewölbten Flächen sind vor allem die Gewölbe alter Kirchen und anderer historischer Gebäude. Es ist in jedem einzelnen Fall zu prüfen, inwieweit ein Gewölbe eine den Schall zerstreuende oder sammelnde Wirkung hat. Die Fokussierung einer Schallwelle kann bei Darbietungen und Aufnahmen zu einer unerwünschten Heraushebung einzelner Schallquellen aus einem größeren Schallkörper führen, die besonders auch deshalb als störend empfunden wird, weil die Schallquelle im Gewölbe selbst lokalisiert wird. Demgegenüber erhöht die Schallstreuung die im Allgemeinen erwünschte Diffusität eines Raums (siehe Kap. 1.3.5) und führt damit zu einer gleichmäßigeren Schallerfüllung des Raums. Nach außen gewölbte, sog. konvexe Flächen, haben unabhängig vom Abstand der Schallquelle zur Fläche bzw. zum Hörer eine den Schall zerstreuende Wirkung. 1.2.2.2 Schallbeugung Ist die Ausdehnung eines Gegenstands, auf den eine sinusförmige Schallwelle bei ihrer Ausbreitung trifft, in der Größenordnung der Wellenlänge des Schalls oder kleiner, so wird dieses Hindernis von der Schallwelle so umgangen, als ob es nicht vorhanden wäre (Abb. 1/18). Da die Wellenlänge des Hörschalls zwischen etwa 20 m und 2 cm (siehe Tab. 1/2) liegt, wird es im Allgemeinen in einer aus vielen Teilfrequenzen zusammengesetzten Schallwelle relativ tieffrequente Anteile geben, die um das Hindernis herumgebeugt werden; höherfrequente Anteile hingegen werden von dem Hindernis reflektiert, gelangen also nicht hinter das Hindernis, wo nun ein Schallschatten entsteht. Damit wirkt ein Hindernis, das sich zwischen Schallquelle und Hörer oder Mikrofon befindet, wie ein Höhenfilter, ein komplex zusammengesetzter Klang wird dumpfer, es wird linear verzerrt. An einer Kante wird eine Schallwelle in den Schallschatten hineingebeugt, und zwar umso stärker, je tiefer die Frequenz ist. Einfluss der Wellenlänge Um den Schall reflektieren zu können, muss eine Fläche mindestens einen Durchmesser haben, der mehreren Wellenlängen der zu reflektierenden Schallwelle entspricht. Ist die Ausdehnung geringer, so wird der Schall um das Hindernis herum gebeugt. Selbst wenn der Durchmesser des Hindernisses der doppelten Wellenlänge entspricht, wird der Schall noch fast vollständig
22
1 Grundlagen der Akustik
herumgebeugt. Erst bei rund 5-facher Ausdehnung erscheint ein deutlicher Schallschatten. Abb. 1/18 zeigt an einigen Beispielen die Schallschattenbildung durch einen Zylinder.
Abb. 1/18. Schallbeugung an einem Zylinder für verschiedene Verhältnisse von Wellenlänge λ zum Durchmesser des Zylinders d.
Wenn eine Schallwelle nicht mehr um das Hindernis herumgebeugt wird, wirkt das Hindernis als Reflektor. Die Bedingungen für das Zustandekommen einer vollständigen Reflexion hängen von verschiedenen Faktoren ab: Der Wirkungsbereich eines Reflektors reicht zu umso tieferen Frequenzen hinab, je größer die reflektierende Fläche ist, je kleiner ihr Abstand zur Schallquelle ist, je kleiner ihr Abstand zum Hörer ist und je steiler die Schallwelle auf den Reflektor trifft. Für die tiefste noch reflektierte Frequenz fu gilt: fu = tiefste reflektierte Frequenz [Hz] c = Schallgeschwindigkeit [m/s] d = Durchmesser des Reflektors [m] α = Einfallswinkel des Schallstrahls [°] a1 = Entfernung Reflektor – Schallquelle [m] a2 = Entfernung Reflektor – Hörer [m] 1.2.2.3 Schallbrechung Unter Brechung versteht man die Richtungsänderung des Schallstrahls beim Übergang zu einem Medium mit einer anderen Schallgeschwindigkeit. In der Raumakustik spielt die Schallbrechung praktisch keine Rolle. Im Freien, wo der Schall weit größere Strecken zurücklegen kann, kommt es aber durch Temperaturunterschiede einzelner Luftschichten zu Schallbrechungen, da die Schallgeschwindigkeit von der Temperatur abhängt. Liegt z. B.
1.2 Schallfelder
23
eine wärmere Luftschicht über einer kälteren wie bei einer Inversionswetterlage, wird der Schall zur Erde hin gebeugt, es entstehen deutlich hörbare Überreichweiten des Schalls; das ist typisch für Föhnwetterlagen oder für den frühen Morgen, wenn die Sonne erst die oberen Luftschichten erwärmt hat. Bei umgekehrter Schichtung, also im Normalfall, wird der Schall von der Erde weg nach oben gebeugt, der akustische Horizont liegt deshalb höher als der optische Horizont. 1.2.2.4 Schallabsorption Bereits bei der Schallausbreitung in Luft, besonders aber beim Auftreffen auf Hindernisse wird dem Schall durch Absorption Energie entzogen [Fuchs, 2010]. Als Maß für die Absorption wird der Absorptionsgrad α angegeben. Er ist eine Zahl zwischen 1 für totale Absorption und 0 für fehlende Absorption, d. h., totale Reflexion; er kann auch in % angegeben werden. Der Absorptionsgrad α ist gleich dem Verhältnis von absorbierter Energie zu auftreffender Energie; bei der absorbierten Energie ist die durch die Wand hindurchgehende Energie eingeschlossen. Das Verhältnis der Schallleistungen oder Schallintensitäten führt zu demselben Ergebnis. Die Bestimmung des Absorptionsgrads erfolgt im Hallraum [DIN EN ISO 354] oder im sog. Kundtschen Rohr. Absorptionsgradwerte über 1 findet man gelegentlich angegeben, sie tragen der Tatsache Rechnung, dass die wirksame Fläche eines Absorbers etwas größer ist als seine geometrische Fläche. Die Gesamtabsorption einer Wand oder eines Raums, das sog. Absorptionsvermögen A, ergibt sich als Produkt von Absorptionsgrad α und der absorbierenden Fläche S. A ist also gleich der äquivalenten Absorptionsfläche mit a = 1, auch äquivalente Absorptionsfläche oder „Fläche offenes Fenster“ genannt. A = α ⋅ S
A = Absorptionsvermögen [m²] α = Absorptionsgrad [dimensionslos] S = absorbierende Fläche [m²]
Bei unterschiedlichen Materialien mit verschiedenen Absorptionsgraden ergibt sich A als Summe der Teilabsorptionsvermögen: A = α1 ⋅ S1 + α2 ⋅ S2 + … Eine wesentliche Eigenschaft eines Absorbers ist die Frequenzabhängigkeit seines Absorptionsgrads, die sich einerseits aus den Materialeigenschaften, andererseits aus der konstruktiven Anordnung wie dem Wandabstand, einer Abdeckung usw. ergibt. Man unterscheidet im Hinblick auf die spektrale Wirksamkeit Höhenabsorber, Mittenabsorber und Tiefenabsorber. Die wichtigsten Funktionsprinzipien der Schallabsorption sind Reibung und mitschwingende Massen: Reibung durch Luftbewegung in Poren: Durch die Bewegung der schwingenden Luftteilchen in offenporigen Materialien wie Faserstoffen oder offenporigen Schäumen wird Schallenergie durch Reibung entzogen und in Wärmeenergie umgewandelt. Die Absorption ist bei höheren Frequenzen in einem breiten Frequenzbereich wirksam.
24
1 Grundlagen der Akustik
Reibung von durch Resonanz verstärkter Luftbewegung in Helmholtz-Resonatoren: Die Luftbewegung wird im Hals der Hohlraum-Resonatoren durch Resonanz verstärkt; dadurch wird die Reibung und damit die Absorption vergrößert. Diese Absorber sind nur in einem schmalen Frequenzband um die Resonanzfrequenz wirksam. Anregung von Platten zum Mitschwingen: Dem Schallfeld wird dadurch Energie entzogen, dass Platten, die verglichen mit Luft ein sehr hohes spezifisches Gewicht haben, zum Mitschwingen angeregt werden, in ihrer Bewegung aber durch federnde Unterlagen und innere Reibung gedämpft werden. Die Absorption ist schmalbandig, kann aber durch Kombination verschiedener Elemente und Materialien breitbandig gestaltet werden. Die Absorber müssen an der Decke und auf mindestens zwei zueinander senkrecht stehenden Wandflächen angeordnet werden und sollten anteilmäßig zur Größe der jeweiligen Raumbegrenzungsfläche verteilt werden. Der dabei auf den Boden entfallende Anteil der Absorber wird zusätzlich an der Decke angeordnet. Die genaue Lage der Absorber richtet sich danach, welche Flächenanteile für nützliche Schallreflexionen, z. B. Deckenspiegel in Konferenzräumen und Konzertsälen, benötigt werden bzw. wo schädliche Reflexionen unterdrückt werden müssen. Die Absorptionsgrade häufig anzutreffender Wandoberflächen zeigt Tab. 1/5. Tab. 1/5. Absorptionsgrade α verschiedener Materialien bei Wandoberflächen. Absorptionsgrade α bei verschiedenen Frequenzen Material
125 Hz
250 Hz
500 Hz
1.000 Hz
2.000 Hz
4.000 Hz
Beton, unverputzt Putz auf Mauerwerk Teppich, mittlere Dicke Akustikplatte, 2 cm dick auf Wand aufgeklebt Akustikplatte, 2 cm dick mit 2 cm Wandabstand Vorhänge
0,01 0,02 0,05 0,05
0,01 0,02 0,08 0,15
0,02 0,03 0,20 0,55
0,02 0,04 0,30 0,90
0,02 0,05 0,35 1,0
0,03 0,05 0,40 1,0
0,10
0,20
0,85
1,0
1,0
1,0
0,05
0,10
0,25
0,30
0,40
0,50
Die Absorption durch die Luft selbst macht sich nur im Bereich hoher Frequenzen von etwa 5 kHz an bemerkbar und nimmt mit steigender Frequenz zu, wodurch die Nachhallzeit insbesondere größerer Räume bei hohen Frequenzen weitgehend durch die Luftabsorption bestimmt wird. Höhenabsorber Höhenabsorber absorbieren hauptsächlich im Bereich hoher Frequenzen. Meist handelt es sich dabei um sog. poröse Absorber, zu denen in erster Linie Faserstoffe zählen, also z. B. Vorhänge, Teppiche, Polstermöbel, Platten aus Stein- und Glaswolle. Bei diesen Absorbern strömt die Luft bei ihrer Schwingungsbewegung in den zahlreichen Poren und Kanälen des Materials hin und her. Die dabei durch die Reibung erzeugte Wärmeenergie wird der Schallenergie entzogen, ist aber so gering, dass sie nicht zu einer messbaren Temperaturerhöhung des Absorbers führt.
1.2 Schallfelder
25
Da die Absorptionswirkung eines Materials mit der Schallschnelle im Absorber ansteigt, ist ein Absorber dann am wirksamsten, wenn er sich im Bereich eines Schnellemaximums der Schallwelle befindet, in einem Schnellenullpunkt ist er praktisch nicht wirksam. Eine an einer harten Wand reflektierte Welle hat aber an der Reflexionsfläche einen Schnellenullpunkt, im Abstand von 1/4 Wellenlänge von der Wand ein Schnellemaximum. Deshalb ist die Absorption zu tieferen Frequenzen hin umso wirksamer, je dicker die poröse Schicht ist oder/und je größer ihr Abstand zur Wand ist (Abb. 1/19). Die Verbesserung der Absorption bei einem Lattenunterbau zeigt Abb. 1/20.
Abb. 1/19. Einfluss der Wellenlänge λ, der Absorptionsdicke d und des Abstands Absorber – Wand a auf die Absorption.
Abb. 1/20. Verlauf des Absorptionsgrades α handelsüblicher Akustikplatten, a. direkt auf die Wand gesetzt, b. auf Lattenrost, 2,2 cm vor der Wand befestigt.
Oft haben Schallabsorber für hohe Frequenzen aus optischen und akustischen Gründen Abdeckungen aus Holz, Metall o. a., die mit einer großen Zahl von Öffnungen versehen sind. Die Abdeckungen bewirken eine Ausdehnung der Absorption nach tieferen Frequenzen hin,
26
1 Grundlagen der Akustik
während Schall höherer Frequenzen etwas weniger absorbiert wird. Tab. 1/5 nennt für Akustikplatten und Vorhänge die Absorptionsgrade dieser Höhenabsorber. Ein universeller, bei Bedarf leicht anzubringender Höhenabsorber ist ein frei hängender Vorhang aus nicht zu leichtem Stoff. Der Vorhang absorbiert wirksam bei Wellenlängen unterhalb des vierfachen Abstands von Wand zu Vorhang. Daraus lässt sich die Formel für die untere Grenzfrequenz fu ableiten, oberhalb der die Absorption einsetzt; Falten ergeben einen gleitenden Übergang von nicht absorbierten tiefen Frequenzen zu absorbierten höheren Frequenzen und einen gleichmäßigeren Frequenzgang der Absorption. fu = untere Grenzfrequenz [Hz] d = Abstand zwischen Wand und Vorhang [cm] Auch Publikum hat eine starke Absorptionswirkung. Damit kann es die Akustik eines Raums erheblich beeinflussen. Die Absorption wirkt bereits von 200 bis 500 Hz an aufwärts und erreicht für höhere Frequenzen Werte, die denen von Akustikplatten vergleichbar sind (Abb. 1/21). Bei einer Ausstattung mit Polsterstühlen ist der Unterschied in der Akustik von besetztem und unbesetztem Saal bei akustisch optimierter Bestuhlung nicht groß, bei Verwendung von Holzstühlen oder Bänken hingegen kann sich die Akustik durch das Publikum grundlegend verändern; dies trifft insbesondere für Kirchen zu, vor allem, wenn sie relativ klein sind. [Kath, 1964, 1965], [Meyer, E, 1965], [Mommertz, 1993], [Eggenschwiler, 1999]
Abb. 1/21. Absorptionswirkung von Publikum, a. Personen auf Holzstühlen, b. Polsterstühle ohne Personen, c. Polsterstühle mit Personen.
1.2 Schallfelder
27
In wenig bedämpften Räumen mit viel Publikum bestimmt die Absorption des Publikums weitgehend die Nachhallzeit, so dass in solchen Räumen in erster Linie das Raumvolumen pro Hörer, die sog. Volumenkennzahl K von Räumen, die Nachhallzeit bestimmt: Bei K = 8 bis 10 m3 ergibt sich eine Nachhallzeit von etwa 2 s, ein sehr guter Wert für Räume für Musikaufführungen mit Orchester, bei K = 6 bis 7 m3 liegt sie bei etwa 1,5 s, für Kammermusik der geringste akzeptable Wert, für das gesprochene Wort aber ein günstiger Wert (siehe Tab. 1/12). Mittenabsorber Durch konstruktive Maßnahmen an Höhenabsorbern, wie vergrößerter Wandabstand, größere Schichtdicke und perforierte Abdeckung des Absorbers, wird ein Höhenabsorber auch im mittleren Frequenzbereich um 500 Hz wirksam. Seltener werden spezielle Mittenabsorber, sog. Lochabsorber, verwendet, gelochte oder geschlitzte Platten vor einem Hohlraum, dessen Begrenzungsflächen teilweise mit Fasermaterial belegt sein können. Man bezeichnet solche Konstruktionen als Helmholtz-Resonatoren, da sie als schwingungsfähiges, lufterfülltes Hohlraumsystem mit einer Eigenfrequenz, bei der die Absorption am stärksten ist, wirken. Die Lage der Frequenz größter Absorption kann durch die Konstruktion gewählt werden. Abb. 1/22 zeigt den typischen Absorptionsverlauf eines Mittenabsorbers nach Helmholtz. Diese Resonatoren wirken relativ schmalbandig; die absorbierende Auskleidung des Hohlraums macht die Absorption breitbandiger.
Abb. 1/22. Typischer Absorptionsverlauf eines Helmholtz-Mittenabsorbers.
Die Resonanzfrequenz von Helmholtz-Resonatoren errechnet sich wie folgt und ist damit in weiten Bereichen beeinflussbar. c S ≈ 54 ⋅ f = V ⋅L S 2π ⋅ V ⋅L
f = Resonanzfrequenz [Hz] c = Schallgeschwindigkeit [m/s] S = Fläche des Resonatorhalses [m2] V = Volumen des Resonators [m3] L = Länge des Resonatorhalses [m]
28
1 Grundlagen der Akustik
Ein Beispiel für einen Helmholz-Resonator ist das fahrende Anto mit leicht geöffneter Scheibe; die zu beobachtende starke Tieftonresonanz kann durch Veränderung der Fensteröffnung – S in der Formel – beeinflusst werden. Ein anderes Beispiel ist eine angeblasene Flasche. Tiefenabsorber Tiefenabsorber bestehen meist aus Sperrholzplatten, die auf einem Lattenrahmen möglichst luftdicht vor eine Wand montiert werden. Der Zwischenraum zwischen Sperrholz und Wand wird mit schalldämpfenden Faserstoffen ausgefüllt. Die Schallwelle bringt die Platte zum Schwingen, durch innere Reibung der Platte und durch die Dämpfung der bewegten Luft im Fasermaterial wird dieser Schwingung Energie entzogen. Tiefenabsorber sind wie Mittenabsorber Resonanzsysteme, die Resonanzfrequenz nimmt mit zunehmendem Flächengewicht der schwingenden Platte und mit größer werdendem Wandabstand ab. Die Resonanzfrequenz wird zwischen etwa 70 und 300 Hz gelegt, je nach den jeweiligen raumakustischen Anforderungen (Abb. 1/23). Durch aufgesetzte Gewichte kann die Resonanzfrequenz verändert bzw. noch korrigiert werden. So können etwa die Holzkassetten einer Decke unterschiedlich abgestimmt werden; damit kann die Gesamtabsorption auf einen breiten Frequenzbereich ausgedehnt werden. Ein besonders hohes Flächengewicht haben Metallplatten, sie können damit besonders Platz sparend eingesetzt werden, z. B. in Übertragungswagen.
Abb. 1/23. Typischer Absorptionsverlauf eines Tiefenabsorbers, a. Plattenabsorber, b. nicht hinterpolsterte Platte.
Bei Platten, die frei im Raum schwingen wie aufgehängte Decken, Fenster und Türen sinkt die Resonanzfrequenz wegen der fehlenden Federwirkung, die sonst durch das eingeschlossene Luftpolster entsteht, so tief ab, dass sich ein gleichmäßiger Verlauf der Absorptionskurve einstellt (Abb. 1/23b). Besetzte oder unbesetzte Saalbestuhlung kann je nach Konstruktion der Stuhllehnen auch als Tiefenabsorber wirken, der bei etwa 130 bis 170 Hz eine Pegelabsenkung von 15 bis 20 dB bewirkt, nachdem der Schall eine Bestuhlung von 20 bis 25 m überstrichen hat.
1.2 Schallfelder
29
1.2.2.5 Schalldämmung Als Schalldämmung bezeichnet man die Fähigkeit von Baumaterialien, den Durchgang von Schall durch Wände und Decken eines Raums zu hemmen. Ein Maß für die Schalldämmung ist das Schallisolationsmaß [DIN 1320] oder Schalldämmmaß R [DIN 4109]. Darunter versteht man das in dB angegebene Verhältnis der auf eine Wand auftreffenden Schallintensität I1 oder des Schalldrucks p1 zur gesamten durchgelassenen Schallintensität I2 bzw. zum gesamten durchgelassenen Schalldruck p2. R = Schalldämmmaß [dB] I1 = auf die Wand auftreffende Schallintensität [W/m²] I p I = durch die Wand hindurchgehende Schallintensität [W/m²] R = 10 ⋅ log 1 = 20 ⋅ log 1 2 I p 2 2 p = auf die Wand auftreffender Schalldruck [Pa] 1 p2 = durch die Wand hindurchgehender Schalldruck [Pa] Die Schalldämmmaße sind frequenzabhängig, sie steigen meist mit der Frequenz erheblich an. Um dennoch mit einer einzigen Zahl das Schalldämmverhalten von Wänden, Decken usw. angeben zu können, wird in [DIN 4109] das Luftschallschutzmaß LSM definiert. Der Wert des LSM, angegeben in dB, gibt an, wie sich die gemessene Schalldämmung zu der in [DIN 4109] angegebenen Bezugskurve im Mittel verhält. LSM = 0 dB bedeutet, dass die Schalldämmanforderungen nach [DIN 4109] erfüllt sind; Wände zwischen Wohnungen sollen LSM = 0 dB haben. Tab. 1/6 nennt die Schalldämmmaße diverser Materialien. Gute Schalldämmung gegen Luftschall ergeben luftdichte, schwere und harte Materialien wie Stein und Holz. Das Schalldämmmaß hängt in erster Linie von der Masse einer Trennwand ab. Aus diesem Grunde sind die meist sehr leichten Akustikplatten und andere Absorber schlechte Dämmstoffe. Eine wesentliche Verbesserung der Schalldämmung ergeben zweioder mehrschalige Konstruktionen. Körperschall, der durch das Mitschwingen von Konstruktionsteilen weitergeleitet wird, wird durch schallweiche, elastische Zwischenteile wie Gummi oder Kork gedämpft. Eine häufig störende Form des Körperschalls ist der Trittschall. Er wird als Körperschall durch elastische Schichten bedämpft, also durch den sog. schwimmenden Estrich, eine harte Platte auf einer elastischen Schicht, und auch durch Teppichboden. Als Luftschall kann Trittschall z. B. durch abgehängte Decken vermindert werden. Tab. 1/6. Schalldämmmaße verschiedener Materialien Material, Dicke Blocksteine, 25 cm Kalksandstein, 12 cm, 20 cm Beton, 12 cm, 20 cm Gipsplatten, 6 cm, 10 cm Holzspanplatten, 1 cm, 4 cm Backsteinwand, 11 cm, verputzt leichte Zimmertür schalldämmende Spezialtür doppelt verglaste Fenster Regiefenster
Schalldämmmaß 49 bis 54 dB 46 bis 50 dB, 50 bis 55 dB 47 bis 52 dB, 53 bis 59 dB 30 bis 34 dB, 36 bis 40 dB 17 bis 20 dB, 26 bis 30 dB 44 bis 48 dB 10 bis 20 dB 35 bis 45 dB 30 bis 40 dB bis 65 dB
30
1 Grundlagen der Akustik
1.3 Raumakustik Die Raumakustik befasst sich mit den akustischen Erscheinungen und Bedingungen in geschlossenen Räumen. Hierbei spielt der subjektive Höreindruck stets eine entscheidende Rolle, er muss immer in die Betrachtungen einbezogen werden [Meyer, 2004], [Hentschel, 2009], [Beranek, 2010]. Für die raumakustische Planung stehen heute komplexe, aber auch vereinfachende Computerprogramme zur Verfügung, die mittlerweile sehr gute Voraussagen über die zu erwartende Raumakustik ermöglichen.
1.3.1 Zeitlicher Aufbau des Schallfelds Strahlt eine Schallquelle in einem Raum allseitig einen Schallimpuls ab, so wird dieser von den Raumbegrenzungsflächen und von den Gegenständen im Raum in Abhängigkeit vom Material und geometrischer Form und Größe der Gegenstände reflektiert, absorbiert oder gebeugt, auch zerstreut oder gebündelt. Dadurch treffen am Ort eines Hörers nach dem Direktschall, der auf dem kürzesten Weg den Hörer erreicht, zunächst einige einzelne Reflexionen, die sog. ersten Reflexionen ein, deren Verzögerung, Stärke und Einfallsrichtung für das Hörereignis von großer Bedeutung sind. Die Folge der Reflexionen verdichtet sich rasch und bildet den Nachhall, der daher mit einer Verzögerung gegenüber dem Direktschall einsetzt (Abb. 1/24). Dauer und Stärke des Nachhalls sind im Allgemeinen überall im Raum gleich, zumindest ähnlich. Die Gesamtheit des reflektierten Schalls stellt das im Idealfall gleichmäßig den Raum erfüllende diffuse Schallfeld dar, das dadurch gekennzeichnet ist, dass es keine Vorzugsrichtung der Schallausbreitung enthält. Das diffuse Schallfeld baut sich umso schneller auf, je kleiner der Raum ist, d. h., je häufiger der Schall pro Zeiteinheit reflektiert und gebeugt wird. Wenn ein Raum viele Streukörper wie Säulen usw. aufweist, bzw. Wände und Decke eines Raums nicht eben, sondern strukturiert sind, ist die Gleichmäßigkeit des Diffusschallfelds am größten. Dabei müssen die streuenden Flächen und Körper in ihren Abmessungen groß gegenüber der Wellenlänge des zu reflektierenden Schalls sein, um wirksam zu sein. Eine z. B. in Form von Kassetten strukturierte Wand kann daher gleichzeitig für tiefe Frequenzen wie eine große, ebene Fläche wirken, während der Schall bei höheren Frequenzen diffus gestreut wird. Hohlflächen wirken im Allgemeinen Schall sammelnd und beeinträchtigen die Diffusität des Schallfelds. Ein gleichmäßig über den Raum verteiltes, wirklich diffuses Schallfeld kann sich nur bei breitbandigem, impulshaltigem Schall, z. B. Sprache, Musik oder Rauschen, aufbauen. Besteht dagegen der Schall aus sinusförmigen Dauertönen oder stationärem, schmalbandigem Rauschen, so bilden sich auch in schiefwinkligen Räumen, auch bei strukturierten Raumbegrenzungsflächen, stehende Wellen, deren Druckmaxima und -minima sich ortsfest an bestimmten Raumpunkten befinden und beim Abschreiten des Raums leicht zu lokalisieren sind. Stehende Wellen oder Raummoden treten umso mehr und stärker auf, je kleiner ein Raum und je tiefer die Frequenz ist. Wenn sie bei der Aufnahme stören, kann oft durch eine kleine Verschiebung des Mikrofons aus dem Druckmaximum oder -minimum Abhilfe geschaffen werden.
1.3 Raumakustik
31
Abb. 1/24. Zeitliche Folge der Reflexionen in einem Raum bei Impulsschall.
Bei andauernden Schallsignalen, nicht nur bei Rauschen und Sinustönen z. B., sondern vielfach auch bei Musik, ergibt sich ein anderer zeitlicher Aufbau des diffusen Schallfelds. Der Schalldruck steigt bei Einschalten der Schallquelle zunächst auf seinen endgültigen Wert an und bildet dabei den sog. Anhall, der einen Klangeinsatz weich oder hart wirken lässt; kurzer Anhall macht den Klangeinsatz prägnant bis hart, langer Anhall weich bis verschwommen. Nach Abschalten der Schallquelle schließt sich wie bei Impulsschall der abklingende Nachhall an (Abb. 1/25).
Abb. 1/25. Zeitlicher Auf- und Abbau des Schalldrucks im diffusen Schallfeld bei Dauerschall.
Zur akustischen Raumgestaltung gehören vor allem die folgenden Aufgaben: Gute Abstrahlmöglichkeit der Schallquellen, geeignete Lenkung des Direktschalls und eine optimale Gestaltung der Verzögerungen der ersten Reflexionen (siehe Kap. 1.2.2 und 1.3.3), optimale Gestaltung der Nachhallzeit und ihrer Frequenzabhängigkeit einschließlich der Realisierung
32
1 Grundlagen der Akustik
einer guten Diffusität des Nachhalls, d. h., eine gleichmäßige Verteilung der Hallenergiedichte im Raum (siehe Kap. 1.3.4) und eine Vermeidung von Raummoden.
1.3.2 Begriffe der Hörakustik Die Akustik eines Raums und ihre Qualität ergibt sich aus dem komplexen Zusammenwirken der geometrischen Form des Raums und seiner Einrichtung, der akustischen Wirksamkeit der Oberflächen und den Eigenschaften des abgestrahlten Schalls als objektive Faktoren auf der einen Seite und der subjektiven, bewertenden Wahrnehmung das Raumschalls durch den Hörer mit seinen Erfahrungen, Erwartungen und Anforderungen auf der anderen Seite. Einen Zusammenhang zwischen den objektiven und subjektiven Faktoren herzustellen, ist ein wesentliches Ziel der raumakustischen Forschung. Diese Zusammenhänge sind inzwischen soweit bekannt, dass die exakte akustische Planung eines Saals zu einem guten Ergebnis führt, sofern nicht Kompromisse durch divergierende, unerfüllbare Anforderungen insbesondere im Hinblick auf sehr unterschiedliche Nutzungen geschlossen werden müssen. Seit dem 19. Jahrhundert wurden die auch aus heutiger Sicht besten Säle gebaut, deren Konzeption zunächst mehr auf Erfahrungen der Architekten als auf genauem akustischem Wissen beruhte. Um die subjektiven Aspekte der Raumakustik erfassen zu können, mussten Begriffe definiert werden, die einerseits physikalisch begründet sind, andererseits die subjektive Bewertung des Höreindrucks erfassen. Die folgenden übergreifenden Begriffe werden für die Hörakustik eines Raums verwendet [Kuhl, 1977], [Lehmann, 1980], Tab. 1/7 fasst sie zusammen. Die Hörsamkeit ist ganz allgemein die Eignung eines Raums für bestimmte Schalldarbietungen. Gute Hörsamkeit für Sprachdarbietungen besagt z. B., dass ohne Benutzung elektroakustischer Verstärkung eine gute Sprachverständlichkeit an allen Plätzen des Raums gewährleistet ist. Die Durchsichtigkeit kennzeichnet bei Musikdarbietungen trotz zusätzlichem Raumschall als Zeitdurchsichtigkeit die Unterscheidbarkeit zeitlich aufeinanderfolgender Töne und als Registerdurchsichtigkeit die Unterscheidbarkeit gleichzeitig gespielter Instrumente oder Instrumentengruppen oder deren Register oder Tonhöhenbereiche. Die Durchsichtigkeit bezeichnet also die Klarheit einer Musikdarbietung, sie ist vergleichbar der Wortverständlichkeit bei Sprachdarbietung. Schallreflexionen, die bei Musik bis spätestens 80 ms nach dem Direktschall eintreffen, erhöhen die Durchsichtigkeit und die Empfindung der Räumlichkeit, spätere Reflexionen mindern die Durchsichtigkeit und erhöhen die Halligkeit. Für Sprache ist diese Zeitgrenze bei 50 ms anzusetzen. Der Raumeindruck ist die Hörempfindung, die man in einem teilweise oder ganz umschlossenen Raum beim Erklingen eines Schallereignisses von dem Raum hat. Der Raumeindruck hat die Komponenten: –– die Empfindung, im gleichen Raum wie die Schallquelle zu sein, nicht, wie z. B. bei Zweikanal-Stereowiedergabe, durch ein Fenster in den Aufnahmeraum hineinzuhören, –– die Empfindung der Größe, insbesondere Breite und Tiefe, des Raums,
1.3 Raumakustik
33
–– die Empfindung der Halligkeit, d. h., die Tatsache, dass außer dem Direktschall Diffusschall vorhanden ist, der nicht als Wiederholung des Direktschalls, d. h., als Echo wahrgenommen wird, die Empfindung der Räumlichkeit, d. h., die Wahrnehmung, dass der Raum eine größere Ausdehnung hat als die Schallquelle. Im Gegensatz zum Hall ist das Echo eine einmalige Wiederholung eines Schallereignisses; es gibt dem Hörer über die Entfernung einer weiter entfernten Wand Auskunft. Zu weiteren Begriffen und Parametern zur Beschreibung und subjektiven Beurteilung der Qualität von Hörereignissen in Räumen siehe auch Kap. 19.7.3. Tab. 1/7. Begriffe der Hörakustik und ihre Bedeutung. Begriff
Unterbegriffe
Kurzdefinition
Hörsamkeit
1. Sprachhörsamkeit, 2. Musikhörsamkeit
Oberbegriff für die akustische Eignung eines Raums für Sprachdarbietung (1.) bzw. Musikdarbietung (2.)
Durchsichtigkeit
1. Zeitdurchsichtigkeit, 2. Registerdurchsichtigkeit
Klarheit einer akustischen Darbietung durch Unterscheidbarkeit aufeinander folgender (1) bzw. gleichzeitiger (2) Schallereignisse
Raumeindruck
1. Einbezogensein des Hörers, 2. Raumgröße, 3. Halligkeit, 4. Räumlichkeit, 5. Echo
Empfindung von Größe und Ausgestaltung eines Raums
akustisches Gleich- 1. Gleichgewicht der gewicht Lautstärken, 2. Gleichgewicht der Dynamik, 3. Gleichgewicht der Klangfarben
Mischung der einzelnen Schallquellen
1.3.3 Direktschall und erste Reflexionen Die ausreichende Versorgung der Hörer mit Direktschall ist eine Grundbedingung für gute Hörsamkeit in Räumen für Sprach- und Musikdarbietung. Optische Sichtverbindung gewährleistet noch nicht die notwendige Direktschallversorgung; der Anteil an Direktschall im Schallfeld muss denjenigen an Diffusschall übertreffen oder die ersten, weniger als 50 bis 80 ms verzögerten Reflexionen müssen in ihrer Gesamtheit stark genug sein, um ein klares Klangbild vor dem akustischen Hintergrund des Diffusfelds zu zeichnen. Die Stärke und Verzögerung der ersten Reflexionen beeinflusst das Hörereignis in verschiedener Weise: Alle Reflexionen erhöhen die Lautstärke des Direktschalls, die Deutlich-
34
1 Grundlagen der Akustik
keit steigt aber nur dann, wenn sie um weniger als 50 ms entsprechend 17 m Umweg der Schallwelle verzögert sind. Frühe Reflexionen mit einer Verzögerung von 0,8 bis etwa 20 ms entsprechend 0,3 bis 7 m Umweg verursachen bei der Tonaufnahme gleichzeitig eine unangenehme Klangfärbung, die durch Summierungen und Auslöschungen zwischen Direktschall und Reflexionen entsteht; sie stören also bei Tonaufnahmen und sind möglichst zu unterdrücken. Dies betrifft Reflexionen mit einem Umweg von weniger als 7 m. Reflexionen mit einer Laufzeitdifferenz von 20 bis 50 ms entsprechend 7 bis 17 m Umweg bestimmen die empfundene Raumgröße; ein Raum erscheint umso größer, je mehr die ersten Reflexionen verzögert sind, umso kleiner und enger, je früher sie eintreffen. Außer der Verzögerung haben Richtung und Stärke der ersten Reflexionen erheblichen Einfluss: seitlich einfallender Schall wird deutlicher gehört und hat sich für das Hörereignis als wesentlich günstiger erwiesen als von oben oder von hinten einfallender Schall. Die Reflexionen an den Seitenwänden vergrößern die Räumlichkeit einer Darbietung, d. h., die Empfindung, dass z. B. ein Soloinstrument auf der Bühne für den Hörer akustisch nicht punktförmig, sondern ausgedehnt erscheint. Ein Maß hierfür ist der Seitenschallpegel LF, Lateral Fraction, nach Barron und Marshall [Barron, 1981]. Weniger wahrnehmbar sind Reflexionen, die aus derselben Richtung wie der Direktschall kommen. Der Pegel einer Reflexion darf bei Sprache bis zu 10 dB über dem des Direktschalls liegen, ohne dass sie die Lokalisierung des Direktschalls stört. Je größer die Verzögerung ist, umso eher werden die Reflexionen wahrgenommen. Deutliche Einzelreflexionen mit einer Verzögerung von mehr als 50 ms werden als störendes Echo wahrgenommen. Der Einfluss von ersten Reflexionen, d. h., ihr positiver oder negativer Beitrag zur Hörsamkeit bei Musikdarbietungen, hängt zudem in starkem Maße von der Art und dem Stil der Musik ab. Zur Beurteilung der Reflexionen in einem Raum werden sog. Reflektogramme aufgenommen, auch Echogramme oder Impulsantworten eines Raums genannt. Dabei wird der Schalldruck in Abhängigkeit von der Zeit nach einer Impulsanregung, z. B. durch einen Pistolenschuss, dargestellt. Störende Einzelreflexionen können so leicht identifiziert werden. Abb. 1/26 zeigt Reflektogramme eines Raums mit guter (a) und schlechter (b) Hörsamkeit. Solche Reflektogramme können auch bei akustischen Raummodellen, die z. B. im Maßstab 1:10 hergestellt werden, gewonnen werden.
a b Abb. 1/26. Reflektogramme von Räumen unterschiedlicher Hörsamkeit (Zeitraster 10 ms), a. schlechte Hörsamkeit durch starke Einzelreflexion nach Reflexionslücke, b. gute Hörsamkeit durch gleichmäßig abnehmende Reflexionsfolge ohne herausragende Einzelreflexionen.
1.3 Raumakustik
35
Um die Sprachverständlichkeit bzw. die Durchsichtigkeit und den Raumeindruck bei Musikwiedergabe zu verbessern, werden die ersten Reflexionen nach den Gesetzen der Schallreflexion auf die Hörerplätze geleitet (siehe Kap. 1.2.2), wobei auch spezielle freihängende Reflektoren Verwendung finden. Wichtig für eine gute Verständigung der Musiker untereinander sind Deckenreflexionen über der Bühne.
1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß In Zusammenhang mit der Bewertung des Reflektogramms eines Raums wurde der Begriff der Deutlichkeit eingeführt. Die für die Hörsamkeit eines Raums wichtigen Reflexionen treffen innerhalb von 100 bis 200 ms nach dem Direktschall beim Hörer ein. Reflexionen mit einer Verzögerung bis 50 ms erhöhen dabei die Silbenverständlichkeit oder Deutlichkeit der Sprache. Setzt man die Schallenergie, die innerhalb dieser 50 ms eintrifft, zur gesamten eintreffenden Schallenergie ins Verhältnis, so erhält man die Definition der Deutlichkeit in Prozentwerten ausgedrückt. Hohe Deutlichkeit entspricht einer hohen Silbenverständlichkeit, Musik lässt sie aber trocken wirken. Eine Deutlichkeit unter 50 % entspricht einem harten Klangeinsatz, von über 50 % einem weichen. Zwischen der physikalisch definierten Deutlichkeit an einem Ort im Raum und der subjektiv erfassten Durchsichtigkeit lässt sich kein enger Zusammenhang feststellen; deshalb sollte besser von Deutlichkeitsgrad oder 50-msEnergieanteil gesprochen werden. Die Definition des Klarheitsmaßes verfolgt ähnliche Ziele wie der Deutlichkeitsgrad. Danach ist das Klarheitsmaß definiert als 10-facher Logarithmus des Verhältnisses der bis 50 ms (Sprachklarheitsmaß, Deutlichkeitsmaß) bzw. 80 ms (Musikklarheitsmaß, Durchsichtigkeitsmaß) eintreffenden Schallenergie zur gesamten danach eintreffenden Schallenergie. Wenn die Werte positiv sind, ist die Deutlichkeit der Sprache bzw. die Durchsichtigkeit der Musik ausreichend.
1.3.4 Hall Hall als Oberbegriff ist der gesamte diffuse Schall in einem Raum. Wird eine Schallquelle in einem Raum plötzlich eingeschaltet, so baut sich das diffuse Feld erst danach als Anhall auf, es begleitet dann das Schallereignis als Mithall und klingt nach Abschalten der Schallquelle als Nachhall ab. Dabei haben die verschiedenen Schallfeldgrößen einen unterschiedlichen Verlauf (Abb. 1/27). Die Lautstärkeempfindung entspricht am besten dem Schalldruckpegel. Nachhall, die wichtigste Erscheinungsform des Halls, ist das Verschwinden des Schallfelds in einem Raum nach Abschalten der Schallquelle, d. h., das Abklingen des diffusen Schallfelds, das im Idealfall den Raum gleichmäßig erfüllt; in der Hörakustik ist Nachhall das Ausklingen des Hörereignisses nach Abschalten der Schallquelle. Je länger der Nachhall dauert, umso besser verteilt sich der Schall im Allgemeinen auf den gesamten Raum. Die Schallenergie nimmt dann exponentiell ab, der Schalldruckpegel linear. Die Abnahme der Schallenergie erfolgt umso schneller, je größer die Absorption der Raumbegrenzungen ist und je häufiger die Schallstrahlen reflektiert werden, d. h., also je kleiner ein Raum ist.
36
1 Grundlagen der Akustik
Abb. 1/27. Schematische Darstellung des Nachhalls für Schalldruckpegel, Schalldruck und Schallenergiedichte.
Die Schallenergiedichte w des diffusen Schallfelds in einem Raumvolumen von 1 m3 hängt von dem Absorptionsvermögen A und der zugeführten Schallleistung P ab; das Absorptionsvermögen wird durch die Nachhallzeit T erfasst. Die Schallenergiedichte w steigt dabei proportional mit der Nachhallzeit T und sinkt mit zunehmendem Raumvolumen:
P⋅T w= 13,8V
w = Schallenergiedichte [Ws/m³] P = abgestrahlte Schallleistung [W] T = Nachhallzeit [s] V = Raumvolumen [m³]
In der Praxis sind die Werte für die Schallenergiedichte w relativ klein: typische Werte für eine laute Musikdarbietung in einem Konzertsaal liegen im Bereich um 10-4 Ws/m3, denn die Leistung einer Schallquelle (Tab. 1/4) ist sehr gering und verteilt sich zudem auf den ganzen Raum. 1.3.4.1 Nachhallzeit Nach dem Vorschlag des Akustikers Wallace Clement Sabine (1868 – 1919) wird unter der Nachhallzeit T derjenige Zeitabschnitt, gemessen in s, verstanden, innerhalb dessen nach Abschalten einer Schallquelle die Schallenergie in einem Raum auf den millionsten Teil abfällt. Diesem Energieabfall entspricht ein Abfall des Schalldrucks auf 1/1.000 bzw. des Schalldruckpegels um 60 dB (Abb. 1/28). Die Nachhallzeit kann berechnet oder gemessen werden. Für die Berechnung wird am häufigsten die einfache Nachhallformel nach Sabine verwendet; sie wurde von Sabine empirisch gefunden, von Jäger dann auch aus Energiebetrachtungen theoretisch abgeleitet. Die Formel gilt insbesondere für längere Nachhallzeiten. Demnach ist die Nachhallzeit umso länger, je größer das Raumvolumen und je geringer die gesamte Absorption der Raumbegrenzungen ist. Da das Volumen eines Raums mehr zunimmt als seine gesamte Oberfläche, haben größere Räume bei gleicher Beschaffenheit der Begrenzungsflächen längere Nachhallzeiten
1.3 Raumakustik
37
als kleinere Räume. Die Anzahl der Reflexionen einer Schallwelle pro Zeiteinheit sinkt mit der Raumgröße, weil die Wege zwischen den Reflexionen mit der Raumgröße zunehmen. Raumvolumen verlängert also grundsätzlich die Nachhallzeit, eine Grundregel raumakustischer Planung.
Abb. 1/28. Definition der Nachhallzeit durch den Abfall des Schalldruckpegels nach Abschalten der Schallquelle.
T = Nachhallzeit [s V = Raumvolumen [m²] A = gesamtes Absorptionsvermögen [m²]
Da dieser Sabineschen Formel einige Vereinfachungen zu Grunde liegen, hat Eyring 1930 eine genauere Formel abgeleitet. Die Nachhallformel nach Eyring gilt auch bei kürzeren Nachhallzeiten. Die noch genauere Nachhallformel nach Knudsen berücksichtigt zusätzlich die Luftabsorption, wird aber in der Praxis kaum angewendet, da ihr Ergebnis innerhalb der Messtoleranz liegt. Die Messung der Nachhallzeit erfolgte bis 2009 nach [DIN 52216]. Es wurden Nachhallzeiten in dem Frequenzbereich von 125 Hz bis 4,0 kHz in Terz-, d. h. 1/3‑Oktav-Schritten bestimmt, in Ausnahmefällen von 100 Hz bis 6,3 kHz. Seit 2009 wird der neue Standard [DIN EN ISO 3382], Teil 1 für Aufführungsräume, Teil 2 für normale Räume mit komplexen Messverfahren angewendet. Als Schallsignal für die Messung dienen Weißes Rauschen oder Rauschen in Terzbandbreite. Pistolenschüsse werden nur in großen Räumen mit langer Nachhallzeit verwendet. Moderne Messverfahren nutzen spezielle Messsignale, deren Impulsantwort ausgewertet wird. Der Schallpegelverlauf beim Nachhallvorgang wird aufgezeichnet. Zur Auswertung wird die mittlere Steigung der Kurve ermittelt. Dabei wird nur der Bereich zwi-
38
1 Grundlagen der Akustik
schen - 5 und -35 dB ausgewertet [Vorländer, 1994]. Man unterscheidet bei der Nachhallzeit von Zuhörerräumen drei verschiedene Zustände: 1. unbesetzter Zustand, 2. Studiozustand, nur Orchester in üblicher Stärke, 3. besetzter Zustand mit 80 bis 100 % Publikumsbesetzung. Da bei der Darbietung von Musik besonders der Beginn des Abklingvorgangs bestimmend ist für die Wahrnehmung der Raumakustik – das weitere Ausklingen wird meist durch neue Schallereignisse überdeckt –, wurde die sog. Anfangsnachhallzeit gesondert definiert; dabei wird der Pegelbereich der Nachhallkurve zwischen 0 und - 15 dB (Initial Reverberation Time), zwischen 0 und - 20 dB (nach Kürer und Kurze) oder zwischen 0 und - 10 dB (Early Decay Time, EDT, nach Jordan) ausgewertet. Die Dauer des Abklingvorgangs, der bei Abschalten eines Schallereignisses tatsächlich wahrgenommen wird, stimmt nur in Ausnahmefällen mit der Nachhallzeit überein. Deshalb wird als Nachhalldauer die Zeitspanne definiert, innerhalb der ein Nachhallvorgang hörbar ist. Die Nachhalldauer hängt demnach vom Schallpegel der Schallquelle, von deren spektraler Zusammensetzung sowie vom Störgeräusch im Raum ab. Dabei hat der Schallpegel in der Praxis der Tonaufnahme die größte Bedeutung. Die Nachhalldauer nimmt mit dem Schallpegel stark zu. Deshalb wirkt ein Raum umso halliger, je lauter die Schallquelle ist. Bei leisen Stellen ist oft nur wenig Raumhall hörbar. So verändert sich der hörbare Anteil des Raums am Schallereignis ständig mit der Lautstärke: Die Intimität von leisen Stellen in der Musik wird durch den geringeren Raumeindruck unterstützt, laute Stellen erhalten Gewicht durch einen starken Raumeindruck. Die wahrgenommene Raumgröße atmet mit der Musik. Optimale Nachhallzeiten Die von den meisten Mitwirkenden einer Darbietung und vom Publikum bzw. von den Hörern einer entsprechenden Aufnahme in ihrer Mehrheit als optimal empfundene Nachhallzeit hängt von verschiedenen Faktoren ab: an erster Stelle von der Art der Darbietung, bei Musik vom Stil bzw. von der Epoche, aus der die Musik stammt, aber auch vom Tempo und Rhythmus sowie von der Besetzung, ja von der Interpretation eines Musikstücks, weiterhin von der Feinstruktur des Nachhallverlaufs, also von der Verteilung und Stärke der ersten Reflexionen und der Anfangsnachhallzeit, sowie der Frequenzabhängigkeit der Nachhallzeit. Schließlich weckt der optische Eindruck von einem Raum adäquate Erwartungen an den Nachhall, denen die akustische Wahrnehmung nicht widersprechen sollte. Diese vielfältigen Einflüsse haben dazu geführt, dass die Nachhallzeit eines Raums heute als nicht mehr allein entscheidend angesehen wird. Da ein Raum ohnedies im Allgemeinen für mehrere Darbietungsarten genutzt wird, kann es sich bei der optimalen Nachhallzeit nur darum handeln, Richtwerte für den Nachhall im mittleren Frequenzbereich anzugeben, die möglichst nicht unter- oder überschritten werden sollten. Neben physikalischen, hörpsychologischen und darbietungsbezogenen Gesichtspunkten einer optimalen Nachhallzeit hat sich auch gezeigt, dass ein gewisser Zeitgeschmack von Einfluss ist. So wurden in den 1950er Jahren kürzere Nachhallzeiten im Konzertsaal- und Studiobau gewünscht als in den folgenden Jahrzehnten. Für Opernhäuser gelten wegen der erforderlichen Sprachverständlichkeit kürzere Werte als in Konzertsälen. Die Nachhallzeit für Kirchen ist demgegenüber zumindest in historischen Bauwerken länger. Tab. 1/6 gibt Richtwerte für Nachhallzeiten in verschiedenen Räumen mit unterschiedlicher Zweckbestimmung an, detaillierte Angaben hierzu siehe Kap. 1.5, siehe hierzu auch die Tab. 1/11 bis 1/13.
1.3 Raumakustik
39
Bei Räumen für Sprachdarbietungen steht die Sprachverständlichkeit im Vordergrund, die kürzere Nachhallzeiten verlangt. Da aber die Lautstärke am Ort des Hörers mit der Nachhallzeit ansteigt, muss mit steigender Raumgröße auch die Nachhallzeit etwas zunehmen. Für Sprecherräume bei Tonaufnahmen gelten die kürzesten Nachhallzeiten. Bei mittleren und hohen Frequenzen besteht für größere Räume eine relativ hohe Korrelation zwischen der Nachhallzeit T und der Volumenkennzahl K, da hier die Luftabsorption wegen der längeren Schallwege überwiegt. K gibt das Raumvolumen in m3, das auf einen Zuhörerplatz entfällt, an:
T = Nachhallzeit [s] K = Volumenkennzahl [m³/Platz]
Damit kann für eine gegebene Raumgröße die optimale Zuhörerzahl abgeschätzt oder umgekehrt für eine geplante Hörerzahl die optimale Raumgröße bestimmt werden (Tab. 1/8). Tab. 1/8. Richtwerte für optimale Nachhallzeiten. Art des Raums Sprecherstudio Hörspielstudio großes Fernsehstudio Vortragssaal, Theater Opernhaus Konzertsaal, großes Musikstudio Kirche
optimale Nachhallzeit T
Volumenkennzahl K
0,3 s 0,6 s 0,8 s 0,7 bis 1,2 s 1,5 bis 1,8 s 1,8 bis 2,5 s 2,5 bis 3,0 s
3 bis 5 m3/Platz 6 bis 7 m3/Platz 8 bis 10 m3/Platz 10 bis 12 m3/Platz
Frequenzabhängigkeit der Nachhallzeit Eine wesentliche Qualität des Nachhalls bzw. des Klangs eines Raums allgemein ergibt sich aus der Frequenzabhängigkeit der Nachhallzeit bzw. der Veränderung der Klangfarbe des Nachhalls mit der Zeit, die praktisch in allen Räumen gegeben ist; frequenzunabhängigen Nachhall können nur elektronische Hallgeräte liefern, ein solcher Hall kann deshalb unnatürlich wirken. Die Frequenzabhängigkeit der Nachhallzeit führt dazu, dass sich der Nachhall im Verklingen zunehmend dunkler färbt bzw. dass das Diffusfeld gefärbt ist und somit eine allgemeine Klangfärbung der Darbietung zur Folge hat, sofern der Diffusanteil nicht nur klein ist. Diese Klangfärbung wird durch die Frequenzabhängigkeit der Absorber und der Luftabsorption verursacht. Höcker in den Frequenzkurven sind dabei leichter zu hören als Senken. Die Frequenzkurve des Nachhalls ändert ihre Gestalt mit dem Messort in einem Raum in gewissem Umfang, was bei tiefen Frequenzen, z. B. Orgeltönen, zu hörbaren Klangfärbungen führen kann. Bei streifendem Schalleinfall über Bestuhlung und Publikum werden Frequenzen im mittleren und hohen Bereich bedämpft (siehe Kap. 1.2.2.4). Räume mit vorwiegend offen liegenden Steinwänden haben die längste Nachhallzeit im Bereich tiefer Frequenzen, der Klang einer Darbietung wird hier dadurch dumpf. Längere Nachhallzeit im mittleren Frequenzbereich gibt dem Klang eine warme Färbung, schwingungsfähige Raumbegrenzungen wie Holzverkleidungen und Bilder fördern diesen Klang-
40
1 Grundlagen der Akustik
charakter. In Aufnahmestudios und modernen Konzertsälen versucht man, die Frequenzabhängigkeit des Nachhalls relativ gering zu halten. Die Klangfärbung des Nachhalls wird durch das sog. Bassverhältnis oder Bass Ratio BR nach Beranek als Verhältnis der Nachhallzeiten bei tiefen Frequenzen (125 und 250 Hz) zu derjenigen bei mittleren Frequenzen (500 und 1.000 Hz) beschrieben. Allen Räumen ist eine Abnahme der Nachhallzeit mit steigender Frequenz oberhalb von 1 bis 2 kHz gemeinsam; sie wird von der Absorption der Luft verursacht. Dadurch kann die Nachhallzeit 3,1 s bei 5 kHz und 1,2 s bei 10 kHz niemals überschreiten. Ist die Nachhallzeit mit einem einzigen Wert angegeben, so bezieht sich diese Angabe auf 500 oder 1.000 Hz. Abb. 1/29 zeigt die Typen der Nachhallkurven.
Abb. 1/29. Schematische Nachhallkurven mit verschiedenen Frequenzabhängigkeiten: a. Nachhall unnatürlich spitz: nur mit elektronischen Hallgeräten realisierbar, b. Nachhall klangneutral: Aufnahmestudios und moderne Konzertsäle, c. Nachhall mittenbetont und warm: historische Säle mit Holzvertäfelung, d. Nachhall dumpf: große Kirchen mit großen Steinflächen.
Anhall Betrachtet man die Energieverhältnisse beim Aufbau des Raumschallfelds, also beim Anhall, so ist eine Unterscheidung des Höreindrucks nach „hartem“ und „weichem“ Schall einsatz sinnvoll. Harter Schalleinsatz liegt vor, wenn mehr als die Hälfte der gesamten Schallintensität bis spätestens 50 ms nach dem Einsetzen der Schallquelle beim Hörer eintrifft, weicher Schalleinsatz, wenn weniger als die Hälfte erst nach diesem Zeitabschnitt eintrifft. Harter Schalleinsatz ist der Sprachverständlichkeit und Präsenz dienlich, weicher Schalleinsatz fördert ein weiches, rundes Klangbild insbesondere bei Musik, während es bei Sprache zur Undeutlichkeit führt. Auf dieser Unterscheidung beruht auch die Definition des Begriffs der Deutlichkeit (siehe Kap. 1.3.3). 1.3.4.2 Hallradius und Hallabstand In unmittelbarer Nähe einer Schallquelle dominiert auch in halligen Räumen der Direktschall über den Diffusschall. Mit zunehmender Entfernung von der Schallquelle verrin-
1.3 Raumakustik
41
gert sich im Nahbereich einer allseitig abstrahlenden Schallquelle der Schallpegel mit jeder Entfernungsverdopplung um jeweils 6 dB, bei den meisten Schallquellen sind es wegen ihrer gerichteten Schallabstrahlung eher 3 bis 4 dB. Demgegenüber ist der Schallpegel des diffusen Schalls bei längeren Nachhallzeiten im ganzen Raum gleich. Direkter und diffuser Schall überlagern sich. In einem bestimmten Abstand rH von der Schallquelle, dem sog. Hallradius, auch als kritischer Abstand, Grenzradius oder Äquivalententfernung bezeichnet – nicht aber als Hallabstand, sind die Schalldruckpegel von direktem und diffusem Schall gleich groß. Der Gesamtschallpegel in diesem Punkt ist um 3 dB höher als jede der beiden Komponenten (Abb. 1/30). Innerhalb des Hallradius überwiegt der Direktschall mit seiner Richtungsinformation über den Ort der Schallquelle, außerhalb überwiegt der Diffusschall ohne Richtungsinformation.
Abb. 1/30. Überlagerung von Direkt- und Diffusschall und Hallradius rH.
Der Hallradius rH nimmt mit dem Raumvolumen V zu, verringert sich aber mit zunehmender Nachhallzeit T: rH = Hallradius [m] V = rH 0,057 ⋅ V = Raumvolumen [m³] T T = Nachhallzeit [s] In Abb. 1/31 kann der Hallradius rH für verschiedene Raumvolumina V und Nachhallzeiten T abgelesen werden.
42
1 Grundlagen der Akustik
Abb. 1/31. Hallradius rH [m], abhängig vom Raumvolumen V [m3] und der Nachhallzeit T [s].
Die sich aus der Formel bzw. Abb. 1/31 ergebenden Hallradien sind überraschend klein. So beträgt der Hallradius in einem 120 m3 großen Hörspielstudio mit einer Nachhallzeit von 0,35 s, also einem stark gedämpften Raum, etwa 1 m und selbst z. B. in dem 15 680 m3 großen Sendesaal des NDR-Hannover bei einer Nachhallzeit ohne Publikum von 2,1 s nur etwa 5 m. Der Hallradius ist jedoch für allseitig gleiche Schallabstrahlung und allseitig gleichen Schall empfang definiert, Bedingungen, die in der Praxis nur selten erfüllt sind. Musikinstrumente und Lautsprecher zeigen mit steigender Frequenz eine zunehmende Richtwirkung, erfasst durch den Bündelungsgrad γ, die den sog. effektiven Hallradius rH e£f frequenzabhängig vergrößert; der effektive Hallradius gilt nur für Tonaufnahmen mit Mikrofonen ohne Richtwirkung: rHeff = effektiver Hallradius [m] V = Raumvolumen [m³] T = Nachhallzeit [s] γ = Bündelungsgrad der Schallquelle [dimensionslos] Bei Musikinstrumenten ist der Bündelungsgrad γ frequenzabhängig, besonders stark bei Blechblasinstrumenten; bei 10 kHz z. B. kann er auf Werte um 5 ansteigen, d. h., rHeff kann sich um den Faktor √5 ≈ 1,7 erhöhen, im Allgemeinen liegt dieser Faktor bei 1,2 bis 1,5. Auch durch den gerichteten Schallempfang wird der Hallradius vergrößert, bei nierenund achtförmiger Richtcharakteristik um den Faktor 1,7, bei der Superniere um den Faktor 1,9, bei der Hyperniere um den Faktor 2, bei der Keule um einen noch etwas größeren Wert. Mit diesen Werten muss der tatsächliche Hallradius rH ebenfalls noch multipliziert werden. In der Praxis der Tonaufnahme multiplizieren sich also die Korrekturen des Hallradius aus gerichteter Schallabstrahlung und gerichtetem Schallempfang. Der tatsächlich zu berück-
1.3 Raumakustik
43
sichtigende Hallradius z. B. bei Nierenmikrofonen liegt damit um den Faktor 2 bis 5 über dem nach der Formel für rH errechneten Wert. Während der Hallradius den Abstand von der Schallquelle bezeichnet, an dem Direktund Diffusschall gleiche Pegel haben, beschreibt der Hallabstand die Pegeldifferenz von Direkt- zu Diffusschall in einem beliebigen Abstand von der Schallquelle. Im Abstand des Hallradius von der Schallquelle ist der Hallabstand also 0 dB.
1.3.5 Diffusität Diffusität, genauer Schalldiffusität, beschreibt den Grad und die Art der Verteilung von reflektiertem Schall einer Schallquelle in einem Raum und über die Zeit. Der Begriff stellt eine weitere Möglichkeit dar, die akustischen Eigenschaften eines Raums zu beschreiben [Remmers, 2006]. Man unterscheidet dabei zwischen örtlicher oder räumlicher und zeitlicher Diffusität. Die örtliche Diffusität wird als die Gleichmäßigkeit des Schalleinfalls hinsichtlich Schalleinfallsrichtung und Intensität an einem bestimmten Ort definiert. Die zeitliche Diffusität beschreibt die statistische Verteilung des Eintreffens reflektierter Schallsignale am Messort über die Zeit, also den zeitlichen Verlauf eines Reflektogramms. Beide Komponenten nehmen mit der Vielfalt von Reflexionsmöglichkeiten in einem Raum zu. Die Schalldiffusität beschreibt damit die raumakustischen Eigenschaften, die sich ergeben, wenn die Begrenzungsflächen eines Raums und die in ihm enthaltenen Gegenstände nicht nach Art eines Spiegels in nur einer Richtung reflektieren, sondern eben diffus in alle Richtungen. Daraus ergibt sich u. a. auch der Unterschied zwischen dem sog. freien Schallfeld, in dem praktisch keine Reflexionen auftreten, und dem diffusen oder statistischen Schallfeld (siehe Kap. 1.3.1). Bisher gibt es keine mathematische Beschreibung der Diffusität als physikalische Größe und folglich auch keine direkt zugeordnete Maßeinheit. Für eine indirekte Bestimmung von physikalischen Kenngrößen der Diffusität können z. B. folgende Messverfahren angewendet werden: die Konstanz der räumlichen Energiedichteverteilung, die Langzeitmittelung des Betrags des Intensitätsvektors und die zeitliche und räumliche Inkohärenz des Schalldrucks [Remmers, 2006]. In der Raumakustik wird eine hohe Diffusität unter anderem durch konvex gekrümmte oder hinreichend gegliederte Begrenzungsflächen und die damit verbundene diffuse Reflexion des Schalls erreicht. Bewährt haben sich auch Diffusoren, die nach dem Prinzip der λ/2-Transformation wirken, sog. Schroeder-Diffusoren. Dabei handelt es sich z. B. um eine Aneinanderreihung verschieden tiefer, kastenförmiger Hohlräume. Sie sind auch als industrielle Erzeugnisse verfügbar und können ggf. auch nachgerüstet werden. Um ein ausgeglichenes Schallfeld in Hör- oder Aufnahmeräumen sicherzustellen, sollte Diffusität möglichst immer gleichzeitig mit Mitteln zur Reflexion und zur Absorption erreicht werden. Räume mit hoher bzw. ausgeglichener Diffusität führen meist zu einer besseren Hörsamkeit und einem besserem Raumeindruck, sowohl beim natürlichen Hören als auch bei der Schallaufnahme, insbesondere bei den Hauptmikrofonverfahren. Räume mit geringer oder wenig ausgeglichener Diffusität weisen oft raumakustisch störende Eigenschaften auf wie einzelne Eigenresonanzen, Fehllokalisierung durch starke Einzelreflexionen, Flatter echos o. ä.
44
1 Grundlagen der Akustik
1.4 Akustik von Aufnahmestudios Die Akustik der Aufnahmestudios ist sowohl unter bau- als auch unter raumakustischen Gesichtspunkten zu betrachten [Friesecke, 2012]. Bauakustische Probleme sind in erster Linie die Schalldämmung gegen Außengeräusche wie Verkehrs- und Fluglärm, Trittschall, Aufzüge u. a., aber auch die Unterdrückung von Geräuschen der Klimaanlage. Raumakustische Gesichtspunkte sind u. a. die ersten Reflexionen und der Nachhall mit ihren verschiedenen Parametern, aber auch Gesichtspunkte wie etwa die akustische Verständigung der Musiker untereinander. Die Anforderungen an ein Studio bzw. die günstigsten Werte der akustischen Daten eines Studios hängen von seiner Zweckbestimmung ab.
1.4.1 Störgeräuschpegel Im Bereich des Hörfunks bzw. der Wort- und Musikproduktion, der Bearbeitung und Beurteilung von Aufnahmen, werden an die Raumruhe sehr hohe Anforderungen gestellt, die in bauakustischer Hinsicht und im Hinblick auf Klima- und Lichtanlagen einen hohen Aufwand erfordern. Für die höchstzulässigen Störgeräusche sind die Empfindlichkeit des Gehörs, die Lautstärke der Schallquellen, die Abstände der Mikrofone von den Schallquellen, die spek trale Zusammensetzung der akustischen Inhalte, die technische Ausrüstung bei der Aufnahme wie z. B. das Betriebsrauschen und die Anzahl der Mikrofone, der betriebliche Ablauf und andere Faktoren von komplexem Einfluss. Das Rauschen der Mikrofone und Aufzeichnungsanlagen ist heutzutage allerdings so gering. dass es nicht mehr berücksichtigt werden muss. Es ist nicht möglich, die höchstzulässigen Störgeräusche durch einen einzigen Wert anzugeben, da die Empfindlichkeit des Gehörs stark frequenzabhängig ist. Für den Bereich des öffentlich-rechtlichen Rundfunks mussten demnach Grenzkurven definiert werden, die Terz-Schallpegel nach [DIN 45641] im Bereich von 50 Hz bis 10 kHz als Tabelle oder als Grenzkurven (GK) angeben [IRT, 1995]. Neben der Raumnutzung z. B. als Sprecherraum wird auch die zugehörige Programmsparte berücksichtigt, was zu einer Differenzierung der Anforderungen in mehrere verschiedene Grenzkurven geführt hat. Die Störgeräusche dürfen unabhängig von ihrem Pegel keine tonalen oder periodischen Schallstrukturen enthalten, dies gilt für den gesamten Frequenzbereich von 125 Hz bis 20 kHz. Tab. 1/9 gibt zur Orientierung für einige Räume und Programmsparten die höchstzulässigen Grenzkurven GK an, die nicht überschritten werden dürfen, wenn nicht Qualitätsminderungen hingenommen werden können. Die Kurven orientieren sich im unteren Frequenzbereich an den international vor allem in der Klimatechnik verwendeten Noise-Rating-Kurven NR nach [ISO R 1996, überarbeitet 2003]. Diese folgen grob den Kurven gleicher Lautstärkepegel bzw. den Messkurven für den A-bewerteten Schalldruckpegel. Abb. 1/32 zeigt die Grenzkurven.
1.4 Akustik von Aufnahmestudios
45
Tab. 1/9. Beispiele für die Grenzkurven von höchstzulässigen Störgeräuschen [IRT, 1995]. Raum
Programmsparte
Hörfunk-Produktionsstudios
Hörspiel Kammermusik Orchestermusik U-Musik, Popmusik Sprachaufnahmen Tonbearbeitung alle alle
Fernseh- Produktionsstudios Bearbeitungsräume mit Bürocharakter, Redaktionen
Grenzkurve GK
entspricht etwa
GK0 GK0 GK5 GK15 GK10 bis GK15 bis GK20 bis GK25
14 dBA 14 dBA 18 dBA 26 dBA 22 dBA bis 26 dBA bis 30 dBA bis 34 dBA
Abb. 1/32. Grenzkurven GK für höchstzulässige Schalldruckpegel in Studios des Hörfunks und Fernsehens [IRT, 1995].
1.4.2 Raumakustik von Aufnahmestudios und Regieräumen Für die Ausbreitung des Direktschalls und die Bedeutung der ersten Reflexionen gelten zunächst die Ausführungen in Kap. 1.2.3. Abweichend davon müssen die ersten Reflexionen mit besonderer Aufmerksamkeit gemessen, oft zusätzlich unterdrückt oder bedämpft werden. Während die ersten Reflexionen beim Hören im natürlichen Schallfeld nützlich sind, weil sie die Lautstärke und Deutlichkeit erhöhen, können sie bei Mikrofonaufnahmen das Klangbild negativ beeinflussen. Tonaufnahmen aus „trockenen“ Studios, d. h., aus Studios mit kurzer Nachhallzeit, können bei zu starken ersten Reflexionen „topfig“, auch
46
1 Grundlagen der Akustik
unerwartet hallig klingen, Musikaufnahmen aus hinreichend großen Räumen kleinräumig erscheinen. Die Ursache hierfür bilden zu starke oder zu frühe Schallrückwürfe, die, immer auf den Mikrofonort bezogen, gegenüber dem Direktschall eine Laufzeitdifferenz von etwa 15 bis 50 ms aufweisen. Besonders bei Schallaufzeichnungen aus kleinen Studios ist die hörbare Klangfärbung störend, die durch Schallrückwürfe entsteht, deren Laufzeitdifferenzen gegenüber dem Direktschall nur 0,8 ms bis 15 ms betragen. Diese Klangfärbungen bleiben unhörbar, wenn der Schalldruckpegel einer Reflexion mindestens 13 dB unter dem des Direktschalls liegt. Sind zwei derartige Reflexionen vorhanden, so muss diese Pegeldifferenz für jeden der Rückwürfe etwa 15 dB, bei vier Reflexionen etwa 18 dB betragen. Ein Hörspielkomplex umfasst neben dem sog. schalltoten Raum zwei weitere Studios mit unterschiedlichen Nachhallzeiten von etwa 0,4 s und 0,6 s bis maximal 1,0 s. Die Studios können zusätzlich eine gedämpfte Ecke oder Schnecke enthalten, in der die Studionachhallzeit ohne Einfluss bleibt. Wie in allen Studios, in denen nur Wortproduktionen durchgeführt werden, wird die Nachhallzeit nur für Frequenzen über 80 Hz konstant gehalten, da die Sprache für tiefere Frequenzen keine hörbaren Komponenten enthält, Raumresonanzen somit nicht anregt. Sog. schalltote Räume, besser reflexionsarme Räume, für Hörspielzwecke mit einer Nachhallzeit unter 0,2 s werden an der Decke und den Wänden mit Mineralfasermatten belegt. Wenn die Einbautiefe dieser Anordnung etwa 0,3 m beträgt und der Boden mit einem dicken, weichen Teppich bedeckt ist, lässt sich ein nachhallfreier Raum für diese Zwecke ausreichend realisieren. Im Gegensatz zu Hörspielstudios benötigt man für Sprecher- und Interviewstudios keine Mindestraumgrößen. In Räumen mit einem Volumen von 30 m3 und weniger lassen sich einwandfreie Produktionen durchführen, wenn sich Sprecherplätze und Mikrofonorte festlegen lassen. In diesem Fall ist es möglich, durch eine gezielte raumakustische Verkleidung die schädliche Wirkung der ersten Schallreflexionen, die vom Sprechertisch und von Boden, Decke und Wänden ausgehen, zu vermeiden. Kleine Studios liegen dann mit ihrer Nachhallzeit an der Hörbarkeitsgrenze von etwa 0,2 bis 0,3 s; bei tiefen Frequenzen ist die Nachhallzeit i. Allg. etwas länger, weil sie nicht so leicht zu bedämpfen ist wie bei höheren Frequenzen. In großen Musikstudios für klassische Musik sorgen nahe Wandflächen und eine ebene Decke bzw. Reflektoren in optimaler Höhe für den akustischen Kontakt zwischen den Musikern. Durch ein Zusammenrücken des Orchesters lässt sich dieser Kontakt verbessern. Die Nachhallzeit des Studios mit Orchester und Publikum sollte etwa 1,8 bis 2,0 s betragen. Studios für konventionelle unterhaltende Musik oder Soundtracks für Filme mit traditioneller Instrumentalbesetzung sollen die Möglichkeit bieten, einzelne Instrumente und Instrumentengruppen, deren Schalldruckpegel sehr unterschiedlich sein können, gleichzeitig, aber akustisch getrennt aufzuzeichnen. Ein Auseinanderrücken der einzelnen Gruppen, das Vermeiden von Reflexionen sowie eine kurze Nachhallzeit, d. h., geringerer Diffusschallpegel, sind dafür notwendig, aber nicht immer ausreichend. Dämmende bzw. absorbierende Schallwände müssen in diesem Fall die Ausbreitung des direkten Schalls zwischen den Gruppen verhindern bzw. das Mikrofon vor Diffusschall abschirmen. Es kann darüber hinaus sogar erforderlich sein, dass besonders lautstarke oder besonders leise Instrumente
1.4 Akustik von Aufnahmestudios
47
in kleinen, fast völlig geschlossenen, schalldämmenden Kojen gespielt und aufgenommen werden müssen. In Fernsehstudios verzichtet man aus wirtschaftlichen Gründen auf den Einbau von speziellen Tiefenabsorbern. Dicke Mineralfasermatten, mit denen Decke und Wände vollflächig belegt sind, bilden eine ausreichende Absorption. Der sich dabei ergebende Anstieg der Nachhallzeit für Frequenzen unter 125 Hz bleibt unhörbar, da bei Fernseh-Tonproduktionen eine elektrische Absenkung der tiefen Frequenzen üblich ist. Kritisch sind bei Fernsehaufnahmen die Reflexionen an Kulissen, da diese Rückwürfe oft mit einer geringen, den Räumlichkeitseindruck ungünstig beeinflussenden Laufzeitdifferenz auf das Mikrofon treffen. Ein Synchronstudio für Nachvertonungen entspricht etwa einem Hörspielstudio mit einer Nachhallzeit bis 0,4 s. 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik Trotz der Möglichkeit, einer Aufnahme künstlichen Hall aus Hallgeräten bzw. allgemein künstliche Rauminformationen hinzufügen zu können (siehe dazu Kap. 6.5), kann in bestimmten Fällen auch eine Veränderung der Nachhallzeit des Aufnahmeraums selbst sinnvoll sein [Rümer, 1990]. Damit kann in einem Hörspielkomplex u. U. ein Studio eingespart werden. Musikstudios müssen nicht nur aufnahmetechnisch für die Aufnahme geeignet sein, sondern auch für die Musiker und ggf. für das Publikum bestimmte akustische Anforderungen erfüllen; so kann z. B. die Anpassung der Nachhallzeit an die veränderten akustischen Gegebenheiten bei Anwesenheit von Publikum oder an die Musik verschiedener Stilarten wünschenswert sein. Schließlich kann ein Studio oder allgemein ein Hörraum damit multifunktional gestaltet werden. Neben den raumgeometrischen bzw. raumakustischen Maßnahmen zur Variation der Nachhallzeit und Schalllenkung in Hörräumen entstanden im Zuge der Vervollkommnung von Beschallungstechnik und Signalverarbeitung zahlreiche elektronisch gestützte Lösungen zur Nachhallzeitverlängerung in Konzertsälen, Theatern und anderen Hörräumen, insbesondere aber auch in sog. Mehrzwecksälen, die für eine variable Nutzung von Sprechtheater, Oper, Operette und Musical bis zur Sportveranstaltung vorgesehen sind. Sie werden dabei meist in als akustisch unzureichend empfundenen Räumen nachträglich eingebaut und teilweise auch unter der Bezeichnung Acoustic enhancement systems vermarktet. Die meist für Konzertdarbietungen zu kurze Nachhallzeit solcher Räume, die oft in der Größenordnung von etwas über 1 s liegt, kann mit solchen Installationen auf etwa 2 s verdoppelt werden. Dies entspricht einer physikalisch maximal möglichen Erhöhung der Nachhallenergie um 3 dB. In bisher realisierten Anwendungen werden im Wesentlichen zwei verschiedene Lösungsansätze verfolgt, nämlich In-line-Systeme mit synthetischer Erzeugung von Raumsignalen und regenerative oder Feedback-Systeme, die eine zu große Schallabsorption der Raumbegrenzungen durch elektroakustische Verstärkung ausgleichen. In-line Systeme zur synthetischen Erzeugung von Raumsignalen Hierbei werden Signale von ausgewählten Mikrofonen abgegriffen und einer zentralen Bearbeitungseinheit zugeführt, die entweder diskrete Reflexionen unterschiedlicher Intensität
48
1 Grundlagen der Akustik
und Verzögerung erzeugt, welche zu bestimmten Reflexionsfolgen, einem sog. Nachhallschwanz, aufsummiert werden oder die als kompakte Einheit eines elektronischen Nachhallerzeugers ein geeignetes Nachhallsignal generieren. Die so gewonnenen Raumsignale werden dann über eine Vielzahl von Raumlautsprechern, die vorzugsweise im Seiten- und Deckenbereich angeordnet sind, in den Zuhörerbereich abgestrahlt. Solche Systeme, die auch unter der Bezeichnung Ambiofonie-Anlagen bekannt geworden sind, werden in der Regel in Verbindung mit einem Beschallungssystem zur Schallverstärkung eingesetzt, wobei entweder die gleichen, im Bühnenbereich angeordneten Mikrofone zur Signalgewinnung benutzt werden oder zusätzliche im Nahfeld angeordnete Mikrofone. Frühere Lösungen, die bereits ab den 1960er Jahren bekannt wurden, verwenden einfache Verzögerungseinrichtungen auf Magnettonbasis [Franssen, 1964] oder elektronische Verzögerungsgeräte in Verbindung mit einer Delta-Stereofonie-Beschallungsanlage (DSS) [Steinke, 1987] zur Realisierung der erforderlichen Signalverzögerungen. Moderne Lösungen, die erst nach Verfügbarkeit hochwertiger digitaler Nachhallerzeuger entstanden sind und bei denen erstmals auch die Bezeichnung In-line-System verwendet wird, benutzen hingegen zentrale digitale Nachhallgeneratoren auf DSP-Basis wie z. B. in den Systemen LARES (Lexicon Acoustic Reinforcement and Enhancement System) [Griesinger, 1990], ACS (Acoustic Control System), SIAP (System for Improved Acoustic Performance) oder VIVACE. Regenerative oder Feedback-Systeme Eine andere Philosophie wird von den sog. regenerativen Systemen verfolgt, wo versucht wird, die für den Aufbau des Nachhallfelds nachteilige Absorption im Zuhörerbereich mit elektroakustischen Mitteln zu kompensieren und den erforderlichen Raumschallanteil zu erhöhen. Dies geschieht durch die Anordnung von typisch 30 bis100 einzelnen Verstärkerkreisen, jeweils bestehend aus Mikrofon und zugeordnetem Lautsprecher, die an den Begrenzungsflächen des Raums verteilt sind und den an dieser Stelle auftreffenden Schall entweder frequenzselektiv (AR-System) oder breitbandig (MCR-System u. a.) verstärken. Eine frühe Form eines regenerativen Systems wurde bereits in den 1940er Jahren von Vierling in der Berliner Staatsoper eingesetzt, ab den1960er Jahren kamen dann – nach Vorliegen verbesserter hardwaretechnischer Voraussetzungen – verschiedene weitere Systeme auf den Markt, wie das Assisted Resonance (AR) System [Parkin, 1965], später Systeme wie MCR (Multiple-Channel Reverberation), CARMEN (Contrôle Actif de la Réverbération par Murs virtuels à Effet Naturel), CONSTELLATION u. a. Daneben gibt es noch Lösungen, die beide Prinzipien miteinander verbinden, z. B. bei den Systemen VRAS (Variable Room Acoustics System) oder VAP (Virtual Acoustics Prozessing). Auch das Prinzip der Wellenfeldsynthese (WFS) wurde bereits zur Erzeugung eines synthetischen Raumschallfelds eingesetzt (Seebühne Bregenz). Die meisten der genannten Lösungen wurden bereits weltweit erfolgreich in namhaften Veranstaltungsräumen und Theatern installiert. Eine vergleichende Darstellung aktueller Systeme findet sich z. B. in [Kok, 2011]. Alle oben beschriebenen Anordnungen stellen jeweils autarke elektroakustische Systeme dar, die unabhängig von Beschallungslösungen arbeiten und ausschließlich der Erhöhung der Nachhallenergie dienen. Eine Ausnahme bildet hier
1.4 Akustik von Aufnahmestudios
49
das System VIVACE, das ähnlich wie bei dem erwähnten Delta- Stereofonie-Verfahren zusätzlich auch zur Direktschallversorgung eingesetzt werden kann. Die Mehrheit der Systeme benötigt nach sorgfältiger Einmessung und ggf. einer Parameterauswahl für konkrete Nutzungsfälle in der Regel keine durchgängige Bedienung oder Überwachung. Dies erfordert jedoch eine hohe Konstanz und Betriebssicherheit der Anlage, um unangenehme Störungen wie Rückkopplungen oder andere Störeffekte zu vermeiden. Trotzdem muss der Toningenieur bei der Schallaufnahme für ein zusätzlich betriebenes Beschallungssystem oder eine Aufzeichnung oder Übertragung ausreichende Mikrofonabstände zu den Lautsprechern des jeweils installierten Nachhallverstärkungssystems einhalten, um unerwünschte Rückwirkungen wie Klangverfärbungen, unausgeglichene Raumschallanteile oder auch Rückkopplungen zu vermeiden. 1.4.2.2 Schallkabinen Eine kostengünstige und flexible Möglichkeit, akustisch entkoppelte Aufnahmebedingungen für kleine Formationen oder Einzelschallquellen zu realisieren, besteht in der Aufstellung einer oder mehrerer Schallkabinen, auch Aufnahme- Ton-, Gesangs-, Sprecher- oder Studiokabine bzw. Soundbox genannt. Eine solche Kabine, die im Prinzip in jedem ausreichend großen, auch akustisch unbehandelten Raum aufgestellt werden kann, hat eine ausreichende Schallabsorption im Inneren, so dass eine Nachhallzeit zwischen 0,1 und 0,5 s erreicht wird und unerwünschte Eigenresonanzen hinreichend unterdrückt werden. Sie hat eine Schalldämmung über 40 dBA oder je nach Anforderung auch deutlich höher bei mittleren und hohen Frequenzen, so dass weder eine Beeinflussung des aufgenommenen Schalls im Innern noch eine Störung anderer Schallquellen außerhalb der Kabine erfolgt. Die Kabine ist in der Regel aus standardisierten Wand- und Deckenelementen zusammengesetzt, die die erforderlichen akustischen Eigenschaften nach innen und außen realisieren. Eine solche Modulbauweise ermöglicht die Realisierung unterschiedlicher Kabinengrößen, von etwa 1,5 · 1,5 m an aufwärts bis zu einem Vielfachen davon und erlaubt im Bedarfsfall auch eine einfache Demontage und Umsetzung in einen anderen Raum. Die schalldichte Montage erfordert eine akustisch gedämpfte Belüftung, die in der Regel als aktive Versorgung mit Frischluft und Abluftaustritt durch Überdruckkanäle ausgelegt ist. Schalldichte Türen, Leitungsdurchführungen und Fenster für Sichtkontakt sind ebenfalls verfügbar. Die aufnahmetechnischen Anwendungen sind sehr vielfältig, sie reichen von einfachen Sprach- oder Gesangsaufnahmen über Einzelinstrumente bis hin zu kleineren Gruppen. Grundsätzlich ist bei einer Nutzung im Aufnahmebetrieb zu beachten, dass die Abstände zwischen Mikrofonen und Schallquellen größer sind als die Abstände der Mikrofone zu den Begrenzungsflächen der Kabine, um unerwünschte Klangfärbungen oder Reflexionen zu minimieren. Daraus ergeben sich auch die Mindestanforderungen an die Größe der Kabine. Solche Kabinen bzw. Module, die von verschiedenen Herstellern angeboten werden, erfreuen sich vor allem in der Popmusikbranche steigender Beliebtheit wegen der unkomplizierten und flexiblen Installation und des enormen Kostenvorteils gegenüber einem akustisch ausgebauten Studio. Sie eignen sich auch als schalldichte Übungsräume für Instrumente, ebenso als einfache Räume für akustische Messungen der Audiometrie.
50
1 Grundlagen der Akustik
1.4.3 Akustik von Regieräumen Regieräume sollen optimale Bedingungen für die Beurteilung von Aufnahmen bieten. Ihre akustischen Eigenschaften beeinflussen allerdings den Klang der Lautsprecherwiedergabe. Deshalb wird mit gewissem Recht immer wieder gefordert, dem Regieraum die Akustik der typischen häuslichen Abhörsituation zu geben, also die eines durchschnittlichen Wohnraums. Da es nicht möglich ist, einen solchen Raum zu definieren, werden Regieräume akustisch so ausgestattet, dass sie im Vergleich zu durchschnittlichen Wohnräumen reflexionsarm sind, d. h., dass der Raum möglichst wenig Einfluss auf die Schalldarbietung nimmt [Völker, 1992, 1994], [Schneider, 1992], [Spikofski, 1989], [Wollherr, 1983]. Die Anforderungen für Bezugsabhörräume und sog. High-quality-Regieräume sind in nationalen und internationalen Empfehlungen festgelegt, u. a. in [EBU Tech 3276, 1998], [ITU-R BS.1116], ebenso die entsprechenden Tests, im Detail erläutert in Kap. 19.6.1. Nur wichtige Merkmale sind hier zusammengefasst: Die Grundfläche soll für einen Bezugsabhörraum mindestens 40 m2, für einen Regieraum mindestens 30 m2 betragen, das Volumen weniger als 300 m3; erforderlich ist eine geometrische und akustische Symmetrie bezüglich der Achse Lautsprecher – Abhörplatz, die Freiheit von Flatterechos, stehenden Wellen u. a. Die Nachhallzeit universell benutzbarer Regieräume liegt bei etwa 0,3 s, bei Wohnräumen liegt sie um 0,4 s; meist steigt sie unterhalb 125 Hz nach unten an. Längere Nachhallzeiten sind für klassische Musik durchaus geeignet, bei Sprache und rhythmischer Popmusik hingegen machen sie den Raum zu hallig [Wollherr, 1983]. Wichtiger als ein bestimmter Wert der Nachhallzeit ist, dass ihr Frequenzgang um nicht mehr als etwa 10 % für terzbreites Rauschen vom Durchschnittswert abweicht. Die Angaben zur Nachhallzeit haben bei solch kurzen Nachhallzeiten weniger Aussagekraft als bei längeren Nachhallzeiten. Die besten Erkenntnisse liefert hier das Reflektogramm oder die Impulsantwort des Regieaums (siehe Kap. 1.3.3). Darin können einzelne zu starke Reflexionen erkannt und danach im Regieraum gezielt abgedämpft werden. Die absorbierenden Flächen werden im Allgemeinen gleichmäßig auf Wände und Decke verteilt, wobei mit der jeweiligen Anordnung gezielt zu starke Reflexionen besonders im Bereich der Abhörplätze vermieden werden sollen. Beim Abhören mit sog. Nahfeldmonitoren – das sind kleine Lautsprecherboxen, die, unmittelbar auf den Regietisch gestellt, wegen des geringen Abstands den Abhörplatz überwiegend mit Direktschall versorgen – kann der Einfluss des Regieraums minimiert werden; allerdings erfüllen solche Lautsprecher nicht oder nur eingeschränkt die Qualitätsforderungen an Regielautsprecher. Ebenso können sie die Abhörbedingungen beim Hörer nur näherungsweise abbilden, da es bis heute keine allgemeingültigen Anforderungen an einen sog. Heimabhörstandard gibt. Zu den Anforderungen an Regieräume siehe im Einzelnen Kap. 19.6.1. 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume Die Abhörbedingungen in kleinen Abhörräumen, also ganz besonders in Übertragungswagen, sind besonders kritisch. Ursache hierfür sind stehende Wellen, auch Raumresonanzen oder Raummoden genannt (siehe Kap. 1.3.2). Sie kommen zwar in Räumen jeder Größe vor,
1.4 Akustik von Aufnahmestudios
51
jedoch treten sie in kleinen Räumen in dem besonders kritischen Frequenzbereich zwischen 100 und 1.000 Hz auf; denn je größer der Raum ist, umso tiefer liegt der kritische Bereich störender Raumresonanzen. Im Gegensatz zu sich frei ausbreitenden Schallwellen, bei denen der Schallpegel gleichmäßig mit der Entfernung abnimmt, die Klangfarbe also im Raum gleichbleibt, bilden stehende Wellen im Raum ein Muster von Schalldruckminima und -maxima, die zu einer beachtlichen Ortsabhängigkeit der Klangfarbe führen kann, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Es ist in diesem Fall nicht möglich, durch Frequenzgangkorrekturen der Lautsprechersignale Verbesserungen vorzunehmen. Stehende Wellen können nur durch völlige Reflexionsfreiheit bzw. vollständige Absorption der Wände unterbunden werden. Je mehr Schall von den Wänden reflektiert wird, desto ausgeprägter sind die ortsabhängigen Klangfarbenänderungen. Es gelingt heute durch Schichtung unterschiedlicher Absorbermaterialien, auch in Übertragungswagen stehende Wellen oberhalb von 200 Hz weitgehend zu vermeiden und somit die Abhörbedingungen akzeptabel zu gestalten [Fuchs, 2010]. Gelegentlich werden große Tonübertragungswagen mit seitlich erweiterbaren Regiekabinen ausgestattet, deren raumakustische Eigenschaften durchaus denen von stationären Regieräumen nahe kommen.
1.4.4 Akustik großer Aufnahmestudios und Konzertsäle Grundsätzlich sind die akustischen Anforderungen an Konzertsäle und an große Aufnahmestudios, die im Allgemeinen ja zugleich als Konzertsäle genutzt werden, gleich. Im Gegensatz zu Rundfunkstudios sind Konzertsäle jedoch Bestand unterschiedlicher historischer Bauepochen. Die raumakustischen Eigenschaften können von Saal zu Saal deshalb sehr verschieden sein, weil architektur-stilistische Gestaltungselemente, aber auch unterschiedliche akustische und optische Ziele die Raumakustik mitbestimmen [Forsyth, 1992], [Sotiropoulou, 1995], [Weinzierl, 2002], [Meyer, 2004], [Beranek, 2010], [Steinke, 2012]. Die Nachhallzeit von Opernhäusern wird einerseits wegen der notwendigen Wortverständlichkeit kürzer gewählt, andererseits bedingen die traditionellen Bauformen der Opernhäuser große Absorptionsflächen und damit kürzere Nachhallzeiten. Die Nachhallzeiten von Kirchen können außerordentlich verschieden sein, je nach Baustil und Größe [Eggenschwiler, 1999], [Meyer, 2003]. Eine Orientierung über die zweckmäßigen Grenzen, innerhalb derer die Nachhallzeiten im mittleren Frequenzbereich im Allgemeinen liegen, gibt Abb. 1/33 für Konzertsäle und Opernhäuser in Abhängigkeit von ihrer Raumgröße. Bei der Frequenzabhängigkeit der Nachhallzeit ist meist eine Anhebung der Nachhallzeit im Frequenzbereich zwischen 500 und 2.000 Hz zu beobachten. Abb. 1/34 zeigt dies für besetzten und unbesetzten Zustand einiger bekannter Konzertsäle. Interessant ist die Tatsache, dass gute Säle auffallend unterschiedliche Frequenzabhängigkeiten der Nachhallzeit haben. Tab. 1/11 nennt die Daten einiger international als raumakustisch gut anerkannter historischer und moderner Konzertsäle und Opernhäuser nach [Beranek, 2010].
52
1 Grundlagen der Akustik
Abb. 1/33. Zweckmäßige Bereiche der Nachhallzeit bei mittleren Frequenzen für vollbesetzte Konzertsäle und Opernhäuser in Bezug auf die Raumgröße.
Abb. 1/34. Frequenzabhängigkeit der Nachhallzeit bekannter Konzertsäle nach [Sotiropoulou, 1995]. 1. Musikvereinssaal, Wien, unbesetzt, 5. Herkulessaal, München, unbesetzt, 1‘ besetzt 5‘ besetzt 2. alte Philharmonie, Berlin, zerstört, unbesetzt, 6. Laeiszhalle, Hamburg, unbesetzt 2‘ besetzt 7. Royal Festival Hall, London, unbesetzt, 3. Symphony Hall, Boston, unbesetzt 7‘ besetzt 4. Oetkerhalle, Bielefeld, unbesetzt
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
53
Für alle Konzertsäle gilt, unabhängig von ihrer Entstehungszeit, dass auch der hohe Qualitätsstandard moderner Geräte für künstliche Verhallung bei Aufnahmen von klassischer Musik die gute Akustik eines Raums nicht ersetzen kann. Einerseits bestimmt die Raum akustik das Tempo und die Artikulation, allgemein die Interpretation bei der Aufführung von Musik mit, andererseits repräsentiert die übliche und notwendige Aufstellung der Mikrofone im Nahbereich bei vorgesehener elektronischer Verhallung die spezielle Klangfarbe am Aufnahmeort; sie ist Ausgangspunkt für die spezielle Klangfärbung des elektronischen Halls, der natürliche Hall hingegen integriert die Klangabstrahlung der Instrumente in alle Raumrichtungen. Deshalb kann künstlicher Hall dem natürlichen Raumeindruck grundsätzlich nicht gleichwertig sein. Die architektonischen, akustischen und sozialen Anforderungen an Konzertsäle unterliegen wie alle kulturellen Manifestationen einer historischen Entwicklung. So ist es kaum möglich, allgemein zu beschreiben, wie ein guter Konzertsaal klingen und aussehen soll. Nur gemessen an heutigen Anforderungen, erscheinen viele der älteren Säle als ungeeignet oder gar schlecht, während sie zu ihrer Zeit als gut anerkannt waren. Grundsätzlich gehört aber eine „authentische“ Raumakustik zu dem derzeit aktuellen Bemühen um ein authentisches Klangbild.
1.5 Historische Konzertsäle, Opernhäuser und Kirchen Konzertsäle, Opernhäuser und Kirchen haben akustische Eigenschaften, die von den architektonischen Grundsätzen und Stilmerkmalen der Epoche, in der sie erbaut wurden, geprägt sind. [Beranek, 2010], [Dickreiter, 2011], [Forsyth, 1992], [Meyer, 2003] Bis ins 18. Jahrhundert gab es nur wenige Räume, die für Musikaufführungen besonders geplant und ausgestaltet waren. Kirchenmusik wurde in Kirchen aufgeführt, die je nach Stil eine längere oder kürzere Nachhallzeit haben. Kammermusik wurde in kleineren Räumen mit meist stark gedämpfter Raumakustik und Feldmusik im Freien dargeboten. Konzertmusik mit Orchester wurde in den großen Fest- und Tanzsälen, den sog. Redouten, von Schlössern und Residenzen sowie in Ratssälen aufgeführt. Größere Räume speziell für Musikaufführungen in eigens erbauten Konzert- und Opernhäusern entstanden erst im Verlauf des 18. Jahrhunderts, verbunden mit der zunehmenden Beteiligung des Bürgertums an der Musikpflege.
1.5.1 Konzertsäle des 18. Jahrhunderts Der Konzertsaal des 18. Jahrhunderts ist noch kein entwickelter Bautyp mit typischen Merkmalen wie etwa die Barockkirche dieser Zeit. Die ersten eigentlichen Konzertsäle wurden in England errichtet für die Veranstaltung öffentlicher Konzerte für alle Bürger und gegen Eintrittsgeld. Konzerte waren wirtschaftliche Unternehmungen, Komponisten und Musiker waren auf die Akzeptanz ihrer Musik durch das Publikum angewiesen. Kennzeichnend für die Konzertsäle sind relativ kleine Räume mit Grundflächen um 200 bis 40 m2, darin ein dicht gedrängtes Publikum, woraus sich ein geringes Raumvolumen pro Platz und eine bemerkenswert kurze Nachhallzeit von 1 bis 1,5 s ergibt. Einer der wichtigsten Konzertsäle
54
1 Grundlagen der Akustik
in London, dem europäischen Musikzentrum jener Zeit, sind ab 1775 die Hanover Square Rooms mit knapp 1 s Nachhallzeit; auf 240 m2 waren 800 Zuhörer stehend untergebracht, pro Zuhörer standen nur 2 bis 3 m3 Raumvolumen und eine Fläche von knapp 0,5 · 0,5 m zur Verfügung. Wichtige öffentliche Aufführungsorte waren in London und anderswo auch Konzertgärten, Vergnügungsparks mit den unterschiedlichsten Unterhaltungsmöglichkeiten, wo in halboffenen Pavillons oder in geschlossenen Räumen vor sehr zahlreichem Publikum musiziert wurde, z. B. auch Werke wie Orgelkonzerte von Georg Friedrich Händel. Die weitere Entwicklung des Konzertsaalbaus ging zum Ende des 18. Jahrhunderts von England nach Deutschland über. Im deutschsprachigen Raum gab es im 18. Jahrhundert außerhalb des höfischen Musiklebens nur geringe öffentliche musikalische Aktivitäten. Größere Konzertsäle waren weder an den Höfen noch im öffentlichen Bereich erforderlich. Musiziert wurde meist in Räumen, die nicht speziell für Konzerte vorgesehen waren [Weinzierl, 2002]. Unter den Räumen, die als Konzertsäle genutzt wurden, sind herausragende Beispiele diejenigen Säle, in denen Joseph Haydn seine Werke – wie auch in dem genannten Londoner Saal zwischen 1791 und 1795 – aufführte: Der Konzertsaal des Schlosses Esterháza in Ungarn ist ein kleiner Saal für 200 Zuhörer mit einer Nachhallzeit von 1,2 s, bei tiefen Frequenzen auf 2,3 s ansteigend. Dieser Konzertsaal wurde von Haydn 1766 bis 1784 genutzt. Dagegen hatte der Große Saal im österreichischen Eisenstadt, wo Haydn zwischen 1760 und 1765 mit seinem Orchester musizierte, eine Nachhallzeit von 1,7 s, ansteigend auf 2,8 s für tiefe Frequenzen; für die 400 Zuhörer stand ein Volumen von fast 7.000 m3 zur Verfügung, pro Platz also über 17 m3, ein für Konzertsäle ungewöhnlich großes Volumen. [Meyer, 1978] Wohl der berühmteste Konzertsaal, der noch im 18. Jahrhundert entstanden ist, ist das sog. Alte Gewandhaus in Leipzig, das 1781 erbaut und 1894 wieder abgebrochen wurde. Es wurde besonders in der ersten Hälfte des 19. Jahrhunderts ein viel genutzter und auch für diese Zeit typischer Konzertsaal. Mit einer Nachhallzeit von geschätzt 1,3 s und 400, nach einem Umbau 1842 570 Hörerplätzen, bei einem Volumen von rund 5 m3 bzw. später knapp 4 m3 pro Sitzplatz erklang die Musik präsent und relativ laut; die Holzvertäfelung und der Holzfußboden waren gute Tiefenabsorber, so dass eine gleichmäßige Absorption über den gesamten Frequenzbereich angenommen werden kann. Auffällig ist die Anordnung der Sitzreihen parallel zur Saalachse. Dies war nicht typisch, betonte aber die gesellschaftliche Funktion öffentlichen Konzertlebens, da man bei dieser Sitzanordnung während des Konzerts sehen und gesehen werden wollte und konnte. Hier wurden viele der bekanntesten Werke der Klassik aufgeführt, ein herausragender Kapellmeister dieser Zeit war Felix Mendelssohn-Bartholdi (1809 – 1847). Das Alte Gewandhaus stellt den Beginn einer eigentlichen Tradition des Konzertsaalbaus dar. Es wurde 1884 durch das wegen seiner Akustik gerühmte und vielfach kopierte Zweite oder Neue Gewandhaus nach Plänen von Martin Gropius ersetzt. 1943 wurde der berühmte Saal durch Luftangriffe schwer beschädigt, die zunächst geplante Wiederherstellung wurde aufgegeben und an anderer Stelle 1981 ein dritter, wieder Neues Gewandhaus genannte Konzertsaal eröffnet. Der Blick auf die erhaltenen bzw. bekannten Konzertsäle des 18. Jahrhunderts zeigt, dass man von typischen raumakustischen Verhältnissen noch nicht sprechen kann. Typisch war am ehesten der präsente, nicht durch Nachhall überdeckte Klang, der der fein ziselierten
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
55
und durch kleinteilige Phrasierungen geprägten Musik des Spätbarock, der Frühklassik und Klassik sehr gut entspricht.
1.5.2 Konzertsäle des 19. Jahrhunderts Zum Ende des 18. und Beginn des 19. Jahrhunderts zeigen sich als Folge der wachsenden Beteiligung des Bürgertums am Musikleben charakteristische Veränderungen im Konzertleben: Konzerte werden nun von professionellen Gesellschaften und einzelnen Personen, wie Konzertunternehmer, Komponisten oder Künstlern, nach wirtschaftlichen Gesichtspunkten veranstaltet und sind öffentlich zugänglich. Sie ziehen immer mehr Besucher an, zunehmend größere Räume mit entsprechend größeren Orchestern werden erforderlich. Erstmals entsteht ein größerer Bedarf an Räumen speziell für Musikaufführungen. Die Komponisten konzipieren ihre Werke nun nicht mehr für bestimmte Anlässe und Räume, da sie an verschiedenen Orten aufgeführt werden. Damit geht die in früheren Jahrhunderten weitgehend übliche Bindung der Musik an den Aufführungsraum vielfach verloren. Musik soll jetzt beeindrucken, auch im moralischen Sinn wirksam werden, geeignete Mittel hierfür sind auch Masse und Lautstärke, also große Orchester- und vor allem Chorbesetzungen, mit denen sich das Bürgertum nun an Aufführungen beteiligt. Die Oratorien Händels, Haydns, Mendelsohns und vieler anderer, die heute kaum mehr Beachtung finden, und Beethovens 9. Sinfonie tragen viel zur Gründung von Chören und Orchestern bei. Dies architektonisch zu unterstützen, führte vielfach dazu, Konzertsälen einen weihevoll würdigen Ausdruck zu verleihen, sie Kirchen oder Tempeln nachzuempfinden; daher rührt auch der noch heute in Konzertsälen übliche Einbau einer großen Orgel. Der Konzertsaalbau des 19. Jahrhunderts geht in den deutschsprachigen Ländern zunächst keine grundsätzlich neuen Wege. Aus dem Ballsaal, der sog. Redoute, dem häufigsten Aufführungsraum barocker höfischer Musik, wird die Rechteckform mit ebenem Fußboden übernommen, es entsteht der klassische Konzertsaaltyp, der sog. Schuhschachtelsaal. Vor allem im späteren 19. Jahrhundert wird dies der vorherrschende Typ, um die Wende zum 20. Jahrhundert wird er zum Standard. Der Schuhschachtelsaal ist relativ schmal – Breite zu Länge verhalten sich vielfach wie 1 : 2 – und hat eine hohe Decke, eine auf die Seite gestellte Schuhschachtel eben. Dadurch entsteht ein relativ großes Raumvolumen pro Zuhörer. Der Fußboden ist eben, am Ende des Saals befindet sich die erhöhte Bühne mit Orgel, um den Saal läuft eine Galerie, mit nützlichen Schallreflexionen an deren Unterseite. Solche Säle wurden in erster Linie für Orchester- und Chorkonzerte mit einem Publikum von 1.500 bis 2.000 Personen gebaut. Die Säle wurden in allen damals üblichen historisierenden Stilen gestaltet. Der typische Schuhschachtelsaal hat einen vergleichsweise kurzen Nachhall; er fördert einen üppigen, vollen Klang, der genau zur Musik der Zeit passt, oder passt die Musik zu den Räumen? Die für alle Plätze nahen Seitenwände reflektieren den Schall wirksam und erzeugen gering verzögerte, seitliche erste Reflexionen, die die Schallquelle scheinbar vergrößern, also die Raumeindruck betonen. Die Zuhörer sitzen relativ gedrängt und vergleichsweise nah beim Orchester, was der Musik auch Intimität und Präsenz verleiht. Akustische Überlegun-
56
1 Grundlagen der Akustik
gen wurden noch nicht angestellt, Erfahrung aus gebauten Sälen zählte. Die Grundform der Schuhschachtel allein ist allerdings noch keine Garantie für gute Raumakustik. Die wegen ihrer Akustik noch heute als die besten Konzertsäle der Welt geltenden Säle gehören dem Schuhschachteltyp an, sie galten als Vorbilder und wurden vielfach nachgeahmt, nämlich der Große Musikvereinssaal in Wien von 1870 und das Neue Gewandhaus in Leipzig von 1884, das Vorbild war u. a. für das Concertgebouw in Amsterdam von 1888 und beide zusammen für die Symphony Hall in Boston von 1900. Der Große Musikvereinssaal in Wien von Theophil Hansen wurde 1870 für 1.680 Zuhörer eröffnet, er gilt als der beste Konzertsaal der Welt. Bei knapp 9 m3 Volumen pro Sitzplatz liegt die Nachhallzeit etwas über 2 s. Die Wände sind verputzt, durch hohe Fenster unterbrochen und stark gegliedert. Die schallharten Wände fördern einen vollen Bassklang. Die umlaufende Galerie wird von vergoldeten Karyatiden getragen, die Stuckdecke ist reich verziert und ebenfalls vergoldet; daher der Beiname „Goldener Saal“. Der Alte Gewandhaussaal in Leipzig, 1781 für nur 400 Zuhörer erbaut, war trotz seiner kurzen Nachhallzeit von ca. 1,3 s und seiner großen akustischen Direktheit und Intimität bis 1894, bis zu seinem Abriss, ein als gut anerkannter Konzertsaal, auch für die voluminöse Musik der Romantik. Das Neue Gewandhaus, nach Plänen von Martin Gropius erbaut, wurde 1884 eröffnet. Sein kleiner Saal war eine Kopie mit nun 640 Plätzen, sein großer Saal eine proportional vergrößerte annähernde Kopie des Alten Gewandhaussaals für 1.560 Zuhörer. Die Grundfläche bildeten zwei nebeneinander gelegte Quadrate mit 18,9 m Kantenlänge, die Höhe betrug 14,9 m, die klassischen Maße eines Schuhschachtelsaals. Wie im Musikvereinssaal zog sich ringsherum die Galerie, auf der über der Bühne eine Konzertorgel Platz fand. Die Nachhallzeit war mit geschätzt 1,5 s deutlich kürzer als die des Wiener Saals. So bot das Neue Gewandhaus nicht ganz das Klangvolumen des Musikvereinssaals, eignete sich aber möglicherweise besser für die Musik der Klassik. Die Konzertprogramme waren auch mehr als in Wien auf die Musik der Vergangenheit, also auf die Klassik, ausgerichtet. Der dritte berühmte Schuhschachtelsaal auf europäischem Boden ist das Concertgebouw in Amsterdam mit 2.200 Plätzen, von van Gendt erbaut und 1888 eröffnet. Die Nachhallzeit ist mit 2,2 s etwas länger als im Musikvereinssaal, sein Volumen fast doppelt so groß wie das des Neuen Gewandhauses. Wegen der größeren Saalbreite kommen die ersten Reflexionen spät, der Klang ist durchmischter und weniger klar als im Wiener und Leipziger Saal; er eignet sich eher für die monumentalen Werke des späten 19. Jahrhunderts wie etwa die Sinfonien Anton Bruckners und Gustav Mahlers als für die Musik der Klassik. Die akustischen Daten der Konzertsäle, die heute allgemein als die besten angesehen werden, zeigt Tab. 1/11. Die Mehrzahl dieser Säle entstammt dem 19. Jahrhundert. Eine Wissenschaft von der Raumakustik, die als Grundlage der vielen akustisch guten Säle anzusehen wäre, gab es damals noch nicht. Allenfalls herrschte die Vermutung, dass ein optisch schöner Saal auch akustisch gut sein müsse; dazu gehört z. B. die Beachtung ganzzahliger Raumproportionen. Zudem stützte man sich auf bewährte Raumdimensionen und Gestaltungsmittel. Die Forschungen von Sabine, die 1898 zur Nachhallformel führten, konnten erstmals bei der Symphony Hall in Boston, eröffnet 1900, in der Planung mit Beratung durch Sabine berücksichtigt werden.
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
57
1.5.3 Konzertsäle des 20. Jahrhunderts Der Konzertsaalbau ist im 20. Jahrhundert durch die Entwicklung der Wissenschaft von der Akustik und ihrer Anwendung auf die raumakustische Planung geprägt. Die Bestimmung von akustischen Kriterien für die gewünschte raumakustische Qualität wird zunehmend präziser und erreicht nach der Jahrhundertmitte einen bis heute zunehmend weiterentwickelten Wissensstand, der eine relativ zuverlässige Planung ermöglicht. Gute Konzertsäle können jedoch nur verwirklicht werden, wenn nicht Anforderungen gestellt werden z. B. nach zu großen Sälen und nach unvereinbaren Nutzungskonzepten. Schon 1650 hat Athanasius Kircher die Gesetzmäßigkeiten der Ausbreitung von Schall analog zu Lichtstrahlen beschrieben, z. B. auch die Konstruktion eines Flüstergewölbes. Die wichtige Erkenntnis, dass der Publikumsbereich so ansteigen soll, dass jede Person dieselbe Sicht auf die Bühne hat und damit auch optimale Hörbedingungen für Direktschall bestehen – heute als Überhöhungskurve bezeichnet – wurde von John Russell 1838 formuliert. Schon bei den antiken Theatern verwirklicht, ist diese Erkenntnis erst im 20. Jahrhundert wieder in die Planungen eingegangen. Die erste Zusammenfassung akustischen Wissens hat Rayleigh 1878 in „The Theory of Sound“ vorgelegt. Den nächsten wichtigen Schritt in der Forschung machte Wallace Clement Sabine, als er 1898 die Formel für die Nachhallzeit durch Experimente entdeckte und damit dieses Kriterium in die Planungen einbezogen werden konnte. Sabine wendete erstmals für die Planung der Boston Symphony Hall die Nachhallformel für den Zusammenhang zwischen Nachhallzeit, Raumgröße und der Absorption der verwendeten Materialien an; dieser Saal von 1900, der mit seinen vom Leipziger Neuen Gewandhaus abgeleiteten Proportionen ein typischer Schuhschachtelsaal ist, gehört noch heute zu den besten Konzertsälen. Das Spannungsfeld zwischen raumakustischer Planbarkeit und der Schwierigkeit, subjektive Qualitätskriterien in objektive Planungen zu übersetzen, beherrscht die Wissenschaft von der Raumakustik und den Konzertsaalbau des 20. Jahrhunderts. Ein weiteres, wesentliches Merkmal der Konzertsäle des 20. Jahrhunderts ist die Anpassung an größere Zuhörerzahlen, teils um die steigende Nachfrage zu befriedigen, teils aus wirtschaftlichen Gründen. Die Vergrößerung wird erreicht durch eine Verbreiterung der Säle. Die Seitenwandreflexionen können dabei raumakustisch nicht mehr ausreichend genutzt werden, sie werden durch Deckenreflexionen ersetzt, die Decke muss dafür – um Echos zu vermeiden – relativ niedrig bleiben. Gleichzeitig wird aus Gründen des Komforts der Platzbedarf pro Person vergrößert. Dies alles führt zu kürzeren Nachhallzeiten und einem Überwiegen des Direktschalls; es entstehen im Gegensatz zu den Sälen des 19. Jahrhunderts Säle mit einem direkten, klaren Klang mit geringerem Raumeindruck und Räumlichkeit. Gleichzeitig verändert die Musik im 20. Jahrhundert durch rhythmische und harmonische Differenzierung ihre Strukturen so, dass gerade Konzertsäle mit den beschriebenen Eigenschaften erforderlich werden. Die europäischen Konzertsäle der 1920er und 1930er Jahre sind durch die Anwendung des Schallstrahlenmodells der Raumakustik auf die gesamte Raumoberfläche gekennzeichnet. Diese Verwissenschaftlichung der Raumakustik stellt eine Abwendung von der Planungsweise des 19. Jahrhunderts dar, in dem die Erfahrungen akustisch oft nur zufällig gelungener Säle genutzt wurden. Zunächst blieben Berechnungen der Nachhallzeit – obwohl 1898 von Sabine schon entwickelt – außer Acht. Ziel der Planungen war, den gesamten Direktschall
58
1 Grundlagen der Akustik
Tab. 1/11. Daten von als raumakustisch gut anerkannten, internationalen Konzertsälen nach [Beranek, 2010]. vollendet im Jahr
Saal, Stadt
Raumvolumen V
Anzahl VolumenkennPlätze N zahl K = V/N
Nachhallzeit mit Publikum (ohne Publikum)
1781
Altes Gewandhaus, Leipzig
2.130 m3
400
5,5 m3 / Platz
1,3 s, geschätzt
1870
Musikvereinssaal, Wien
15.000 m3
1.680
8,9 m3 / Platz
2,0 s (3,0 s)
1887
Neues Gewandhaus, Leipzig
10.600 m3
1.560
6,8 m3 / Platz
1,5 s, geschätzt
1887
Concertgebouw, Amsterdam
18.780 m3
2.037
9,2 m3 / Platz
2,0 s (2,6 s)
1891
Carnegie Hall, New York
24.270 m3
2.804
8,7 m3 / Platz
1,8 s (2,0 s)
1895
Tonhalle, Zürich
11.400 m3
1.546
7,4 m3 / Platz
2,0 s (3,2 s)
1900
Symphony Hall, Boston
18.750 m3
2.625
7,1 m3 / Platz
1,9 s (2,5 s)
1984
Konzerthaus, neugestalteter Wieder aufbau des Königlichen Schauspielhaus (1821), Berlin
28.000 m³
1.500
10,3 m³ / Platz
2,0 s (2,2 s)
1935
Konzerthaus, Göteborg
11.900 m3
1.286
9,3 m3 / Platz
1,6 s (1,7 s)
1953
Herkulessaal, München
13.590 m3
1.287
10,6 m3 / Platz
1,8 s (2,3 s)
1956
Liederhalle, Stuttgart
16.000 m3
2.000
8,0 m3 / Platz
1,6 s (2, s 1)
1963
Philharmonie, Berlin
21.000 m3
2.218
9,5 m3 / Platz
1,9 s (2, s 2)
1981
Neues Gewandhaus, Leipzig
21.000 m3
1.900
11,0 m3 / Platz
2,0 s (2,2 s)
1987
Kammerphilharmonie, Berlin
11.000 m3
1.138
9,7 m3 / Platz
1,8 s (2,1 s)
1998
Festspielhaus, Baden-Baden
20.100 m3
2.500
8,0 m3 / Platz
1,9 s (2,1 s)
1998
Festspielhaus, Luzern
21.000 m3
1.900
11,0 m3 / Platz
2,0 s (2,2 s)
2017
Elbphilharmonie, Hamburg
23.000 m³
2.100
11 m³ / Platz
2,4 s
2017
Pierre-Boulez-Saal, Berlin
7.600 m³
682
11 m³ / Platz
1,7 s (2,1 s)
20.000 m3
2.000
10 m3 / Platz
2,0 s
durchschnittliche, gerundete Werte von als gut anerkannten Sälen
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
59
durch Spiegelung an Wand- und Deckenoberflächen auf den Publikumsbereich hinzuleiten. Dadurch entstehen die sog. Direktschall-Auditorien des frühen 20. Jahrhunderts. Diese Räume hatten die Grundform halbierter Trichter, gestaltet nach denselben Prinzipien wie die Grammophontrichter jener Zeit, die in einem bedämpften Wohnraum ebenfalls hauptsächlich ein Direktschallfeld erzeugen. Die Salle Pleyel in Paris, 1927 eröffnet, ist der erste Saal dieser Art; charakteristisch für ihn ist die große Deutlichkeit des Klangs, durch die starken Deckenreflexionen ein „monofoner“, wenig räumlicher Klang. Bei den zahlreichen Neubauten nach 1950 werden die inzwischen vertieften wissenschaftlichen Erkenntnisse über Raumakustik umfassend bei Planungen angewendet, sowohl in Bezug auf die Lenkung der den Schall verstärkenden Reflexionen als auch auf die Gestaltung von Nachhallzeit und -farbe sowie die Verteilung des Diffusschalls. Kennzeichnend für diese Säle ist vielfach eine relativ niedrige Decke mit parabelähnlicher Form, ein ansteigender Publikumsbereich und große, freitragende Balkone für die Aufnahme eines zahlreichen Publikums. Nach 1960 setzte sich ein neuer Typ von Konzertsaal durch, der Zentralsaal, vorgeprägt in den antiken runden Amphitheatern mit ansteigenden Publikumsrängen, realisiert aber auch schon 1871 in der Royal Albert Hall in London und Freiluftbauwerken wie der Hollywood Bowl von 1922 für 17.000 Personen. Der Zentralsaal mit ansteigenden Publikumsbereichen um die Bühne bietet jedem Zuhörer größere Nähe zu den Künstlern, einen besseren „Hörblick“. Wie bei allen großen Sälen fehlen auch hier zunächst seitliche Reflexionen, die der Musik Räumlichkeit geben, die Schallquellen also vergrößern und den Hörer mit Klang einhüllen. Bei den Zentralsälen werden diese Reflexionen durch sog. Weinbergtreppen erzeugt. Durch in der Höhe gestaffelte Publikumsteilbereiche entsteht eine gegliederte Landschaft mit einem zeltartigen Dach, die an vielen Plätzen relativ nahe seitliche Reflexionsflächen bietet. Der bekannteste Saal dieses Typs ist die Philharmonie in Berlin von Hans Scharoun, eröffnet 1963, mit 2.218 Sitzplätzen und 1,9 s Nachhallzeit. Bereits 1956 wurde das Weinbergtreppenprinzip im Mozartsaal der Stuttgarter Liederhalle von Abel und Gutbrot durchaus mit Bezug auf die die Stadt umgebenden Weinberge angewandt. Auch die Elbphilharmonie von den Architekten Herzog & de Meuron, 2017 in Hamburg eröffnet, gehört dem Weinbergtypus an [Fuchs, 2018]. Konsequenter noch ist das Prinzip der zentralen Bühne bei der Berliner Kammerphilharmonie nach Plänen von Hans Scharoun verwirklicht, 1987 eröffnet sowie in dem 2017 eröffneten Pierre-Boulez-Saal des Architekten Frank Gehry, als kleiner ovaler Saal ohne Weinbergterrassen. Neu an den Zentralsälen ist die Beachtung der sozialen Komponente des Konzertbesuchs: Die Zuhörer bilden unter sich und mit den Musikern durch engen visuellen Kontakt eine Gemeinschaft. Diese architektonische Konzeption versucht, die Trennung von Bühne und Publikum aufzuheben und die Musik „in den Mittelpunkt“ zu stellen. Nachteilig ist die unausgeglichene Klangbalance seitlich und hinter der Bühne. Abwandlungen des Amphitheatertyps mit seiner zentralen Bühne ergeben fächerförmige Räume, auch mit Weinbergtreppen, verwirklicht z. B. 1985 bei der Philharmonie im Gasteig in München oder einen tulpenförmigen Grundriss wie bei der Kölner Philharmonie von 1986. Neben der Entwicklung des Zentralsaals lässt sich international auch ein Trend zur Rückkehr zum Schuhschachtelsaal des 19. Jahrhunderts beobachten, jetzt geleitet von einem
60
1 Grundlagen der Akustik
umfangreichen Wissen über Raumakustik, nicht aus nostalgischen Gründen. Noch nie wurden so viele neue Konzertsäle gebaut wie in unserer Zeit.
1.5.4 Opernhäuser und Theater Während der Konzertsaal als Bautyp erst im 19. Jahrhundert auf breiter Basis entwickelt wurde, sind Opernhäuser seit dem 17. Jahrhundert eigens für Opernaufführungen nach gesellschaftlichen und musikalischen Bedürfnissen errichtete Bauwerke, die meist mit großem Aufwand erstellt und betrieben wurden. Der Opernbesuch war im Gegensatz zum Theaterbesuch bis ins 19. Jahrhundert ein gesellschaftliches Ereignis ersten Ranges für die höheren sozialen Schichten. Aber bereits im 17. Jahrhundert wurde vor allem in Venedig ein marktwirtschaftlich orientierter Opernbetrieb eingerichtet, der durchaus allen Schichten offenstand. Soziale Veränderungen haben deshalb in der Geschichte der Opernhäuser direkt auf ihre Architektur und Akustik eingewirkt, und natürlich auf die Musik, die sich „verkaufen“ musste. Die Oper entstand in Italien um 1600. Da sie sich zunächst als eine mit zeitgenössischen musikalischen Mitteln gestaltete Wiederbelebung der antiken Tragödie verstand, lag es nahe, auch ihre Aufführungsstätten an dem antiken halbrunden Theater zu orientieren. Der erste Bau dieses Typs war das noch existierende Teatro Olimpico in Vicenza, das im Kleinformat den griechischen und römischen Vorbildern folgt und Ausgangspunkt für die Grundrisse der Opernhäuser bis heute ist. Aus dieser halbrunden Grundform wurden die unterschiedlichen Grundrisse aller historischen Opernhäuser abgeleitet. Die halbrunde Form wurde zu einem U verlängert oder zur Hufeisenform abgewandelt; die dritte, vor allem im 18. Jahrhundert viel verwendete Grundform war die angeschnittene Ellipse. Bereits bei den Opernhäusern des 17. Jahrhunderts werden vor die Wände mehrstöckig Logen gesetzt und das ebene Parkett bestuhlt, um ein möglichst zahlreiches zahlendes Publikum unterbringen zu können, im Parkett die billigen, in den Logen die teureren Plätze. Mehrere Architekten der italienischen Familie GalliBibiena, die zwischen 1700 und 1780 in ganz Europa Opernhäuser bauten, fügten der Opernhaustypologie den glockenförmigen Grundriss hinzu; ein erhaltenes Opernhaus dieses Typs ist das Markgräfliche Opernhaus in Bayreuth. Noch heute ist die Mailänder Oper, das berühmte Teatro alla Scala, von Giuseppe Piermarini erbaut und 1778 eröffnet, das großartigste und eines der größten Opernhäuser überhaupt, gefolgt von San Carlo in Neapel. Mit ursprünglich 2.800, heute 2.300 Plätzen bei 260 Logen in sieben Stockwerken über dem Grundriss einer abgeschnittenen Ellipse hat es ungewöhnliche Ausmaße, auch für heute, besonders aber zur Entstehungszeit. Akustisch allerdings wird es nicht gelobt. Die Hoftheater jener Zeit fassten meist nur 400 bis 500 Personen. Der Klassizismus um 1800 fügte den traditionellen Grundrissen einen weiteren hinzu, den des angeschnittenen Kreises. Obwohl diese Grundformen und manche Details und spezielle Einrichtungen zu ihrer Zeit auch unter dem Gesichtspunkt der Akustik diskutiert wurden – meist mit zweifelhaften Argumenten, sind für die Raumakustik der Barocktheater die sehr wirksame Absorption durch das Publikum und die mit Stoffen ausgekleideten Logen bestimmend; bei einer
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
61
Nachhallzeit um 1 s ist ein klares, direktes und intimes Klangbild typisch, die bevorzugte Holzauskleidung absorbiert besonders den tiefen Frequenzbereich, während sie hohe Komponenten reflektiert. Diese Raumakustik erfüllt die Forderungen der Musik dieser Zeit, sie bietet gute Wortverständlichkeit und macht die feinen Strukturen und Nuancen der Phrasierung hörbar; ein solches Klangbild galt als wünschenswert. Dieser Opernhaustyp und mit ihm seine typische Akustik bleiben im Wesentlichen bis ins späte 19. Jahrhundert auch für Neubauten erhalten, bei traditionellen Opernhausbauten sogar bis ins 20. Jahrhundert. Im 19. Jahrhundert wurden Opernhäuser im traditionellen Stil des italienischen Typs gebaut, wie sie im 17. und 18. Jahrhundert entwickelt worden waren, auch weiterhin mit barocker Innendekoration. Herausragende europäische Opernhausneubauten waren u. a. Covent Garden in London 1858, die Staatsoper in Wien 1868 und die Grand Opéra, heute Opéra Garnier, in Paris 1875. Daneben entstanden Opernhäuser unterschiedlicher Größe, auch in kleinen Residenzstädten, als Zeichen eines aufstrebenden Bürgertums und kunstbeflissener Herrscher vor allem in Europa in großer Zahl. Die Wiener Architekten Fellner und Helmer bauten als spezialisiertes Architekturbüro zwischen 1870 und 1900 europaweit rund 50 Theater und Opernhäuser des barocken Typs. Oper blieb ein gesellschaftliches Ereignis, die Bauwerke waren v. a. dieser Funktion angepasst, nicht den Anforderungen des musikalischen Kunstwerks Oper. Raumakustische Fragen spielten bei der Planung immer noch keine Rolle, man nutzte die Erfahrungen mit immer wieder demselben Bautyp. Ein neuartiger, durchaus revolutionärer Typ eines Opernhauses entstand erst 1876, als Richard Wagner nach seinen Ideen das Festspielhaus – nicht Opernhaus in Bayreuth für die Aufführung seines vier Abende umfassenden Werks „Der Ring des Nibelungen“ entwarf und bauen ließ. Die neue Konzeption ist charakterisiert durch fächerförmige und ansteigende gleich begünstigende Anordnung der Sitzplätze mit guter Sicht von allen Plätzen auf die Bühne – beim traditionellen italienischen Opernhaus blickt ein Großteil des Publikums eben auf das Publikum, einen versenkten und verdeckten Orchestergraben mit Durchmischung der einzelnen Instrumentalklänge zu einem homogenen, im hohen Frequenzbereich gedämpften Gesamtklang, Wagners „mystischer Abgrund“ zwischen Publikum und Bühne. Verglichen mit traditionellen Opernhäusern hat das Haus eine etwas längere Nachhallzeit von 1,6 s, eine Verkleinerung der gesellschaftlich genutzten Pausen- und Zugangsflächen auf ein Mindestmaß – der Besuch sollte ein vorrangig musikalisches Ereignis sein, nicht ein gesellschaftliches. Kennzeichnend ist auch die Schmucklosigkeit des Bauwerks innen und außen, die Verdunklung des Zuschauerraums während der Vorstellung zur Erhöhung der Konzentration auf das musikalische und szenische Geschehen. Auch die Wahl des Standorts in einer Kleinstadt in der Provinz ohne gesellschaftliche und städtische Einbindung unterstreicht den Willen, das musikalische Ereignis in den Vordergrund zu stellen. Wagners Idee eines Festspielhauses ist architektonisch, akustisch, musikalisch und gesellschaftlich ein radikaler Gegenentwurf zum traditionellen Opernhaus des italienischen Typs und zum gesellschaftlichen Ereignis Opernbesuch. Max Littmann hat das Auditorium des Prinzregententheaters in München 1901 mit einigen Änderungen nach diesem Vorbild erbaut, weitere Nachfolgebauten gibt es nicht. Aber einige Elemente von Wagners Entwurf sind heute selbstverständlich: die guten Sichtverhältnisse, die Verdunklung des Zuschauerraums und der längere Nachhall (Tab. 1/12).
62
1 Grundlagen der Akustik
Im 20. Jahrhundert wurden zunächst im Wesentlichen die aus dem 19. Jahrhundert erhaltenen Opernhäuser des italienischen Barocktyps weiter bespielt, und, soweit zerstört, auch wieder in diesem Stil aufgebaut; Modernisierungen betreffen vor allem die technischen Anlagen, die Feuersicherheit und den Komfort. In überraschender Zahl wurden gerade in den letzten Jahrzehnten weltweit auch neue Opernhäuser bzw. Festspielhäuser erbaut. Sie unterscheiden sich aber, abgesehen vom Einbau des Orchestergrabens, nicht in grundsätzlichen Gesichtspunkten vom Konzertsaalbau des 20. Jahrhunderts. Tab. 1/12. Daten von historischen Opernhäusern nach [Beranek, 2010]. vollendet im Jahr
Saal, Stadt
Raumvolumen V
Anzahl Plätze N
Volumenkennzahl K = V/N
Nachhallzeit mit Publikum (ohne Publikum)
1748
Markgräfliches Opernhaus, Bayreuth Teatro alla Scala, Mailand Semperoper, Dresden Festspielhaus, Bayreuth
5.500 m3
450
12,2 m3/Platz
0,9 s, geschätzt
11.652 m3
2.289
5,1 m3/Platz
12.480 m3
1.284
9,7 m3/Platz
10.308 m3
1.800
5,7 m3/Platz
1,2 s (1,2 s) 1,6 s (1,7 s) 1,3 s (1,6 s)
1778 1841 (1985) 1876
Gelegentlich werden in vorhandene Theatersäle nachträglich Einrichtungen zur Verlängerung des Nachhalls eingebaut (siehe Kap. 1.4.2.1), um sie auch für Konzertaufführungen besser nutzbar zu machen.
1.5.5 Kirchen Kirchenräume variieren sowohl in ihrer Größe als auch in ihrer Architektur und Innenausstattung so stark, dass unter dem Aspekt der Akustik eine Unterscheidung nach einzelnen Stilepochen getroffen werden muss. Der Bestand an Kirchengebäuden stammt im Wesentlichen aus der Zeit vom Mittelalter mit Romanik und Gotik über die Renaissance bis zum Ende der Barockzeit, die Kirchen des 19. Jahrhunderts gehen weitgehend historisierend auf frühere Stilepochen zurück. Erst die Kirchen, die im 20. Jahrhundert errichtet wurden, zeigen zumindest teilweise neue architektonische Formen: Die Verständlichkeit des gesprochenen Worts wird zu einem wichtigen Kriterium, das bedeutet weniger Nachhall und größere Nähe. [Eggenschwiler, 1999], [Meyer, 2003] Allen Stilen ist gemeinsam, dass zwischen der Nachhallzeit des besetzten und unbesetzten Kirchenraums ein erheblicher Unterschied besteht. Da in älteren Kirchen meist Holzbänke oder Holzstühle verwendet werden, erhöhen die Besucher die Schallabsorption erheblich bzw. verkürzen die Nachhallzeit; je größer der Kirchenraum ist, umso geringer ist allerdings dieser Einfluss. Bei kleineren Kirchen können Sitzkissen diesen Unterschied etwas
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
63
verringern. Eine statistische Auswertung von 150 Kirchen in der Schweiz ergibt für die verschiedenen Epochen typische Werte der Nachhallzeiten (Tab. 1/13). Abgesehen von den unterschiedlichen Nachhallzeiten auf Grund der sehr unterschiedlichen Volumina der Kircheninnenräume kann man für die Kunststile der Epochen der Gotik, der Renaissance- und Barockzeit typische Nachhallfärbungen feststellen, bedingt durch die Materialien der Ausgestaltung der Räume. Beim älteren Kirchenbau haben Fragen der Akustik – man denkt hier zunächst an die Wortverständlichkeit – keine Bedeutung. Die Kirchen des Mittelalters ragten in ihrer Größe und Höhe weit über die städtische Bebauung hinaus, sie waren Symbole der Macht der Kirche, sollten durch Größe und kunstvolle Ausführung und Ausstattung beeindrucken und ein Zeichen des Gotteslobs sein. Der Kultus als solcher stand im Vordergrund, nicht die Verständlichkeit des Worts. Diese Größe ist der Grund für die generell langen Nachhallzeiten, die ihrerseits Kirchen eine Sonderstellung verleiht. Erst die Reformation rückte das Wort in den Vordergrund. Insbesondere durch die erheblichen Besucherzahlen und den nun erforderlichen Einbau zahlreicher Besucheremporen erreichten evangelische Kirchen weit geringere Nachhallzeiten. Ein gutes Beispiel hierfür ist die Thomaskirche in Leipzig, ein ursprünglich gotisches Bauwerk mit langer Nachhallzeit, besonders im tiefen Frequenzbereich; sie wurde mit hölzernen Emporen ausgestattet, die zusammen mit den zahlreichen Besuchern erst die akustischen Bedingungen für J. S. Bachs Musik schufen, nämlich eine Nachhallzeit um 2 s mit Mittenbetonung. Gotische Kirchenräume sind im Allgemeinen gekennzeichnet durch große Raumvolumina und sehr geringe Schallabsorption besonders bei tiefen, aber auch mittleren Frequenzen, verursacht durch steinerne Oberflächen und fehlende Tiefenabsorber. Dies führt typisch zu einer sehr langen Nachhallzeit von bis zu 12 s mit einem ausgeprägten Maximum bei 100 Hz oder darunter. Der Nachhall hat also eine ausgesprochen dunkle Färbung und auch durch seine lange Dauer eine stark verdeckende Wirkung. Der Hallradius ist relativ groß, bedingt durch die großen Raumvolumina. Romanische Kirchen sind meist kleiner, verhalten sich aber ähnlich, sofern sie eine steinerne Gewölbedecke haben, Holzdecken verringern die Dunkelfärbung des Nachhalls. Tab. 1/13. Statistische Nachhallzeiten aus 150 schweizer Kirchen [Eggenschwiler, 1999], k = katholisch, e = evangelisch-reformiert, b = besetzt mit Publikum, u = unbesetzt, ohne Publikum. Romanik, Gotik (vor 1530)
Renaissance, Barock (1530 bis 1815)
Klassizismus, Historismus (1815 bis 1915)
Gegenwart (nach 1915)
Durchschnittswerte über alle Epochen
3,7 s (k, u) 2,4 s (k, b) 3,1 s (e, u) 1,9 s (e, b)
3,0 s (k, u) 2,3 s (k, b) 2,2 s (e, u) 1,2 s (e, b)
4,1 s (k, u) 2,2 s (k, b) 2,5 s (e, u) 1,4 s (e, b)
3,3 s (k, u) 1,8 s (k, b) 2,6 s (e, u) 1,4 s (e, b)
3,5 s (k, u) 2,1 s (k, b) 2,6 s (e, u) 1,5 s (e, b)
Barocke Kirchen sind gekennzeichnet durch kürzeren Nachhall als gotische Kirchen, ein Maximum der Nachhallzeit im mittleren Frequenzbereich um 500 Hz und klare Höhen,
64
1 Grundlagen der Akustik
verursacht durch zahlreiche, die Tiefen absorbierende Gestaltungselemente aus Holz und Putzflächen. Der Helligkeit des Barockraums entspricht also die Helligkeit der Klangfärbung. Insgesamt zeigen Barockkirchen eine weitaus bessere Eignung für Musikdarbietung oder Tonaufnahmen als romanische oder gotische Kirchen. Renaissancekirchen haben ähnliche akustische Eigenschaften wie Barockkirchen.
Standards [DIN 1311] Schwingungen und schwingungsfähige Systeme, Tl. 1 Grundbegriffe [DIN 1320] Akustik; Begriffe [DIN 4109] Schallschutz im Hochbau; Anforderungen [DIN 5493-2] Logarithmierte Größenverhältnisse, Maße, Pegel und Einheiten [DIN 18041] Hörsamkeit in kleinen bis mittelgroßen Räumen [DIN 45405] Störspannungsmessung in der Tontechnik, zurückgezogen [DIN 45630] Teil l Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall, Teil 2: Normalkurven gleicher Lautstärkepegel [DIN EN ISO 3382-1] Akustik – Messung von Parametern der Raumakustik, Teil 1: Aufführungsräume [DIN EN ISO 3382-2] Akustik – Messung von Parametern der Raumakustik, Teil 2: Nachhallzeit in gewöhnlichen Räumen [DIN EN 61672] Elektroakustik – Schallpegelmesser, Teil 1: Anforderungen [EN ISO 354] Akustik – Messung der Schallabsorption in Hallräumen [BS.1116] ITUR Recommendation BS.1116-,1 Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. 1997 [EBU Tech 3276] EBU Doc. Tech. 3276-E 2nd ed.: Listening conditions for the assessment of sound programme material – monophonic and two-channel stereophonic incl. Supplement 1: Multichannel sound, Geneva, 2004 [ISO 1996] Acoustics – Description, measurement and assessment of environmental noise, 2003, Part 1: Basic quantities and assessment procedures[ ITU-R BS.1116] Methods for the subjective assessment of small impairments in audio systems, 3rd Edition, February 2015
Literatur [Barron, 1981] Barron, M. und Marshall, A. H.: „Spatial impression due to early lateral reflections“, in: Journal Sound and Vibr. 7, 1981, S. 211ff. [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer, New York [Dickreiter, 2011] Dickreiter, M.: Mikrofonaufnahme, 4. Aufl. 2011, Hirzel [Eggenschwiler, 1999] Eggenschwiler, K. und Baschnagel, K.: Aktuelle Aspekte der Kirchenakustik, EMPA (Eidgenössische Materialprüfungs- und Forschungsanstalt), 1999, Dübendorf [Fasold, 2003] Fasold, W. und Veres, E.: Schallschutz und Raumakustik in der Praxis, 2003, Bauwesen [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur
Literatur
65
[Franssen, 1964] Franssen, N. V.: „Sur l’amplification des champs acoustiques“, in: Acoustica 20, 1968, S. 315 ff. [Friesecke, 2012] Friesecke, A.: Studio Akustik – Konzepte für besseren Klang, 3. Aufl. 2012, PPV Medien [Fuchs, 2010] Fuchs, H. V.: Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 3. Aufl. 2010, Springer [Fuchs, 2018] Fuchs, H. V.: „Die Elbphilharmonie im Vergleich mit anderen Konzertsälen von Rang“, in: Forstschritte der Akustik, 44. Jahrestagung der DAGA 2018, S. 1104 ff. [Griesinger, 1991] Griesinger, D.: „Verbesserung der Raumakustik durch zeitvariablen künstlichen Nachhall“, in: Bericht 16. Tonmeistertagung Karlsruhe 1990, S. 451ff., 1991, Saur [Hentschel, 2009] Hentschel, Th.: Praktische Raumakustik: Grundlagen, Konzept und Methoden, 2009, VDM-Verlag [IRT, 1995] Höchstzulässige Schalldruckpegel von Dauergeräuschen in Studios und Bearbeitungsräumen bei Hörfunk und Fernsehen, IRT, Akustische Information 1.11-1/1995 [Kath, 1964] Kath, U. und Kuhl, W.: „Messungen zur Schallabsorption von Personen auf ungepolsterten Stühlen“, in: Acustica 1964, S. 50 ff. [Kath, 1965] Kath, U. und Kuhl, W.: „Messungen der Schallabsorption von Polsterstühlen mit und ohne Personen“, in: Acustica 1965, S. 127 ff [Kok, 2011] Kok, B.: „Technologie- und Marktübersicht: Acoustic enhancement systems“, in: Production Partner 4, 2011, S. 108 ff. [Kuhl, 1977] Kuhl, W.: „In der Raumakustik benutzte hörakustische Termini“, in: Acustica 1977, S. 57 ff. [Kuttruff, 2004] Kuttruff, H.: Akustik, 2004, Hirzel [Kuttruff, 2019] Kuttruff, H.: Room Acoustics, 2019, CRC Press [Lehmann, 1980] Lehmann, P. und Wilkens, H.: „Zusammenhang subjektiver Beurteilungen von Konzertsälen und raumakustischen Kriterien“, in: Acustica 1980, S. 256 ff. Lerch, R, Sessler, G., Wolf , D.: Technische Akustik: Grundlagen und Anwendungen, [Lerch, 2022] 2022, Springer [Magnus, 2008] Magnus, K. und Popp, K.: Schwingungen, 8. Aufl., 2008, Vieweg & Teubner [Meyer, E, 1965] Meyer, E., Kuttruff, H. und Schulte, P.: „Versuche zur Schallausbreitung über Publikum“, in: Acustica 1965, S. 175ff. [Meyer, 1978] Meyer, J.: „Raumakustik und Orchesterklang in den Konzertsälen Joseph Haydns“, in: Acustica 41, 1978, S. 145 ff. [Meyer, 2003] Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J.: Akustik und musikalische Aufführungspraxis, [Meyer, 2015] 6. Aufl., 2015, PPVMedien [Mommertz, 1993] Mommertz, E.: „Einige Messungen zur streifenden Schallausbreitung über Publikum und Gestühl“, in: Acustica 1993, S. 42 ff. Möser, M.: Messtechnik der Akustik, 2009, Springer [Möser, 2009] [Müller, 2003] Müller, G. und Möser, M.: Technische Akustik, 3. Aufl. 2003, Springer [Parkin, 1965] Parkin, P. H. und Morgan, K.: „Assisted Resonance in the Royal Festival Hall, London“, in: Journal Sound & Vibr. 2 (1965) Reichardt, W.: „Definition und Messgrundlagen eines ‚wirksamen Hallabstandes‘ als [Reichardt, 1974] Maß für den Raumeindruck bei Musikdarbietungen“, in: Zeitschr. f. elektr. Informations- und Energietechnik, 1974, S. 225 ff. [Remmers, 2006] Remmers, H. Kappelmann, M. und Blau, M.: „Messung und Bewertung der Diffusität des Schallfeldes in einem Hallraum“, in: 32. Deutsche Jahrestagung für Akustik (DAGA) Braunschweig 2006 [Reuter, 2014] Reuter, Chr., Auhagen, W., Herausgeber: Musikalische Akustik, 2014, Laaber
66
1 Grundlagen der Akustik
[Rümer, 1990] [Schneider, 1992] [Sotiropoulou, 1995] [Spikofski, 1989] [Steinke, 1987] [Steinke, 2012] [Thienhaus, 1962] [Völker, 1992] [Völker, 1994] [Vorländer, 1994] [Weinzierl, 2002] [Weinzierl, 2014] [Wollherr, 1983]
Rümer, C.: „Brauchen wir eine wandelbare Akustik. Konzertsäle und Rundfunkstudios mit veränderbaren Nachhalleigenschaften“, in: Runfunktechn. Mitt. 1990, S. 101 ff. Schneider, R. und Spikofski, G.: „Untersuchungen zur Wahrnehmbarkeit früher Reflexionen und des Nachhalls in Abhörräumen“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 631 ff., 1993, Saur Sotiropoulou, A. G., Hawkes, R. J. und Fleming, D. B.: „Concert Hall Acoustic Evaluations by Ordinary Concert Goers“, in: Acustica 1995, S. 1 ff. Spikofski, G. und Holzkämper, S.: „Wahrnehmbarkeit von Reflexionen in Regieräumen – neue Ergebnisse“, in: Bericht 15. Tonmeistertagung Mainz 1988, S. 463 ff., 1989, Saur Steinke, G., Fels, P., Ahnert, W. und Hoeg, W.: „Das Delta-Stereofonie-System“, in: db-Magazin f. Studiotechnik 1987, H. 1/2 Steinke, G. und Herzog, G.: Der Raum ist das Kleid der Musik, Musik-Aufnahmesäle und Hörspielstudios im Funkhaus Berlin Nalepastrasse sowie weitere Aufführungsund Hörräume. Raumakustische Eigenschaften – Aufnahmetechnologische Bedingungen, Adlershof 2012 Thienhaus, E.: Artikel „Akustik“, in: Die Musik in Geschichte und Gegenwart (MGG), Bd. 11, Sp. 31 ff., 1. Aufl. 1962, Bärenreiter Völker, E.-J.: „Akustik und Abhörqualität in Regieräumen – das leidige Thema“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 612 ff., 1993, Saur Völker, E.-J.: „Regieräume für Musikwiedergabe“, in: Rundfunktechn. Mitt. 1982, S. 112 ff. Vorländer, L. und Bietze, H.: „Comparison of Methods for Measuring Reverberation Time“, in: Acustica 1994, S. 205 ff. Weinzierl, S.: Beethovens Konzerträume. Raumakustik und symphonische Aufführungspraxis an der Schwelle zum modernen Konzertwesen, 2002, Bochinsky Akustische Grundlagen der Musik, 2014, Laaber Wollherr, H.: „Gestaltung des Abhörbereiches in einem Tonübertragungswagen“, in: Rundfunktechn. Mitt. 1983, S. 62 ff.
2 Schallquellen Michael Dickreiter Schallquellen, dazu gehören die menschliche Stimme und Musikinstrumente, sind Energiewandler, die eine zugeführte mechanische oder elektrische Energie in Schallenergie umwandeln. Bei den akustischen Musikinstrumenten und bei der menschlichen Stimme wird mechanische Energie vom Menschen aufgebracht, bei elektronischen Musikinstrumenten, aber auch bei der Kirchenorgel über deren Blasbalg wird die Schallenergie aus elektrischer Energie gewonnen. Weiterhin kann Schall durch Naturkräfte entstehen, z. B. durch Wind und Wasser, oder in der technischen Umwelt, von Maschinen, diese Schallquellen werden hier nicht besprochen. Ein Aspekt ist hierbei die Klangstruktur, hier geht es hauptsächlich um Schwingungen und deren Eigenschaften, ein zweiter Aspekt betrifft die Art und Weise der Schallabstrahlung und damit die von den Schallquellen ausgehenden Schallwellen oder in ihrer Gesamtheit die diese umgebenden Schallfelder. [Meyer, 2015], [Roederer, 1999], [Weinzierl, 2014]
2.1 Menschliche Stimme 2.1.1 Akustische Eigenschaften Die menschliche Stimme ist ein sehr vielseitiger Schallerzeuger [Seidner, 2004]. Sie kann Klänge und Geräusche verschiedenster akustischer Zusammensetzung, anhaltend oder rasch wechselnd, erzeugen. Abb. 2/1 zeigt schematisch das Stimmorgan mit den angeschlossenen Resonanzräumen sowie ein vereinfachendes mechanisches Modell der Stimmlippen oder Stimmbänder und ihrer Schwingungen. Der Luftstrom, der beim Ausatmen aus der Lunge kommt, die sog. Exspirationsluft, erregt bei stimmhaften Lauten erzwungene Schwingungen der Stimmlippen im Kehlkopf; sie werden in den angeschlossenen Resonatoren, dem sog. Ansatzrohr, bestehend aus Mund, Nase, Nasennebenhöhlen und Rachen, modifiziert. Bei stimmlosen Lauten wie z. B. H, P, T, K werden die Hohlräume des Ansatzrohrs nur durch die Luftströmung angeblasen, oder es entstehen Strömungsgeräusche beim Durchströmen von Einengungen des Luftstroms an den Zähnen, der Zunge oder im Rachen; die Stimmlippen schwingen bei geöffnetem Zustand dabei nicht. Für die stimmlosen Zischlaute F, S, SCH und CH sind Strömungsgeräusche charakteristisch, die insbesondere beim S, SCH und F bis in hohe Frequenzbereiche hineinreichen. Beim stimmhaften S und SCH treten zu den Geräuschkomponenten der stimmlosen Form periodische Schwingungen der Stimmlippen hinzu. Die stimmlosen Explosivlaute P, B, T, D, K und G entstehen durch plötzliches Öffnen des durch die Lippen (P, B) oder die Zunge (T, D, K, G) verschlossenen Luftwegs. Dabei entlädt sich der angestaute Überdruck explosionsartig. Bei den stimmhaften Halbvokalen M, N, R und L tritt neben die Klangerzeugung durch die Stimmlippen die Klangerzeugung durch das Anblasen von Hohlräumen. Das R ist durch eine ausgeprägte Amplitudenmodulation gekennzeichnet. Tab. 2/1 fasst die akustischen Eigenschaften der Sprachlaute oder Phoneme als die kleinsten akustischen Bestandteile der Sprache zusammen. https://doi.org/10.1515/9783110759921-002
68
2 Schallquellen
Vokale und Umlaute sind im Gegensatz zu den anderen Sprachlauten Klänge. Bei ihnen erregen die teiltonreichen Stimmlippenschwingungen (Abb. 2/1) in Mund, Nase und Rachen Resonanzen, deren Frequenzlagen insbesondere von der Mund- und Zungenstellung abhängen. Jeder Vokal wird so charakterisiert durch sog. Formanten; das sind Frequenzbereiche, innerhalb derer unabhängig vom Stimmlippengrundton alle Teiltöne in einem bestimmten Frequenzband durch Resonanz verstärkt werden. Die wichtigsten Formantbereiche der Vokale gibt Abb. 2/2 an.
Abb. 2/1. Stimmorgan, vereinfachendes mechanisches Modell der Stimmlippen, Schwingungen der Stimmlippen.
Emotionen, wie Freude, Angst, Wut, prägen sich in der Klangfarbe der Stimme durch unterschiedliche Hervorhebungen der Formanten im Frequenzbereich bis 3,7 kHz aus. Durch Filterung können Emotionen zurückgenommen, aber nicht glaubhaft verstärkt werden [Bisping, 1990], [Legenstein, 2014]. Die Grundfrequenz der Stimmlippenschwingung, die Sprechmelodie, ändert sich bei Sprache dauernd; sie liegt bei Männern zwischen etwa 120 und 160 Hz, bei Frauen und Kindern zwischen etwa 220 und 330 Hz. Tab. 2/1. Akustische Eigenschaften von Sprachlauten. Lautart
akustische Eigenschaften
Vokale: A, E, I, O, U, Umlaute: Ä, Ö, Ü
harmonische Klänge, Grundfrequenz ist die Sprechtonhöhe mit 120 bis 160 Hz bei Männern bzw. 220 bis 330 Hz bei Frauen, Charakterisierung durch Formantgebiete (Abb. 2/2), Komponenten bis etwa 5 kHz harmonische Klänge mit der Grundfrequenz der Sprechtonhöhe, zusätzlich kontinuierliche Spektralanteile durch Strömungsgeräusche an Einengungen des Ansatzrohrs nur geräuschhafte, kontinuierliche Spektren nur geräuschhafte, kontinuierliche Spektren mit Komponenten bis über die obere Hörgrenze, besonders beim S kurzzeitige, impulsartige Vorgänge mit kontinuierlichen Spektren
stimmhafte Konsonanten: L, M, N, R, W u. a. stimmlose Konsonanten: H Zischlaute: F, S, SCH, Z Explosivlaute: P, B, T, D, K, G
2.1 Menschliche Stimme
69
Abb. 2/2. Formantbereiche der Vokale der deutschen Sprache.
2.1.1.1 Sprachspektrum Bei der großen Vielfalt der Sprachlaute mit unterschiedlichsten Spektren ist es sinnvoll, sich auf statistisch ermittelte Durchschnittsspektren der Sprache zu beziehen, nicht auf Einzellaute. Komponenten unter 80 Hz bei männlicher Sprache bzw. 100 Hz bei weiblicher Sprache fallen bei üblichem Abstand des Zuhörers von einem Sprecher unter die Hörschwelle, können also bei der Aufnahme weggefiltert werden, ohne dass klangliche Verfälschungen der Sprache hörbar werden. Bei tiefen Frequenzen ist der absolute Schalldruckpegel annähernd unabhängig von der Sprechstärke, nur der Abstand des Sprechers hat hierauf einen bestimmenden Einfluss. Nimmt man das Spektrum laut gesprochener Sprache als Bezug, sind die tieffrequenten Anteile von im Original leise gesprochener, aber z. B. um 20 dB verstärkter, unnatürlich lauter Sprache um denselben Betrag relativ stärker als bei tatsächlich laut gesprochener Sprache. Normalerweise bei männlicher Sprache unhörbare Komponenten unter 80 Hz erscheinen dabei im Klangbild. Das ist die Ursache der unnatürlichen Klangfärbung, des Dröhnens leise aufgenommener, aber laut wiedergegebener Sprache. Betonte Tiefen unterstützen aber auch den Eindruck besonderer Nähe. Dabei ist männliche Sprache empfindlicher für diesen Effekt als weibliche; für Durchsagen im öffentlichen Bereich oder für Ansagen in lärmerfüllter Umgebung, z. B. Verkehrsdurchsagen im Radio, sind demnach weibliche Stimmen besser geeignet. Die Sprachspektren sind von der Sprechlautstärke
70
2 Schallquellen
abhängig, je lauter gesprochen wird, umso obertonreicher ist das Sprachspektrum (Abb. 2/3 und 2/4). Die statistischen Sprachspektren zeigen charakteristische Maxima: das erste Maximum ist geschlechtsspezifisch und kennzeichnet die Sprechtonhöhe; bei männlichen Sprechern liegt sie um 150 Hz, bei Sprecherinnen um 250 Hz. Weitere Maxima liegen bei Sprecherinnen um 500 Hz und um 1.500 Hz, bei laut sprechenden Männern ebenfalls um 1.500 Hz. Die wesentlichen Komponenten der Sprache beschränken sich auf das Frequenzband von 100 Hz bei Männern bzw. 200 Hz bei Frauen bis 10 kHz; darüber gibt es nur noch Spektralkomponenten von Zischlauten S, SCH, Z und F.
Abb. 2/3. Durchschnittliche Spektren deutscher Sprache von männlichen Sprechern, für leise, mittellaut und für laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
Abb. 2/4. Durchschnittliche Spektren deutscher Sprache von Sprecherinnen, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
2.1 Menschliche Stimme
71
2.1.1.2 Sprachschallpegel Der Sprachschallpegel ist der durch Sprache hervorgerufene Schallpegel in einem gegebenen Abstand vom Sprecher. Da sich Sprache in ihrem Pegel und Spektrum dauernd ändert, ist die Angabe eines gemittelten Spitzenpegels sinnvoll; die Angabe in bewerteten Pegeln (siehe Kap. 1.2.1.3) erleichtert den Vergleich mit Störgeräuschen. Demnach beträgt der Schallpegel in 60 cm Entfernung vor dem Mund eines Sprechers etwa 60 dBA, er erhöht sich bei lauterem Sprechen um 6 dB und erreicht bei unnatürlich lautem Sprechen Werte von etwa 76 dBA bei Männern bzw. 68 dBA bei Frauen. Die Werte liegen bei 30 cm Abstand rund 4 dB höher, bei 120 cm 4 dB niedriger. Die extremen Formen des Sprechens, Murmeln und sehr lautes Sprechen, erweitern die Dynamik nach unten bzw. oben nochmals um etwa 5 dB. Die genannten Werte gelten für die ausgebildete „Mikrofonstimme“, die durch einen gleichmäßigeren Lautstärkeverlauf gekennzeichnet ist als die „Bühnenstimme“. Die Pegelstruktur von Sprache kann als Abfolge von Impulsen gekennzeichnet werden, gebildet durch die einzelnen Phoneme. Das führt zu einem Durchschnittspegel, der um rund 12 dB unterhalb des Spitzenpegels liegt. Dadurch wirkt Sprache leiser als z. B. Popmusik mit derselben Aussteuerung, aber lauter als klassische Musik. Dies ist wichtig für ein Gleichgewicht der Lautstärken von Musik und Sprache z. B. im Sendungsablauf (siehe Kap. 19.4). 2.1.1.3 Singstimme In akustischer Hinsicht sind die Unterschiede zwischen Sprech- und Singstimme nicht so erheblich, wie dies vom Höreindruck her erscheint. Da nur Laute mit harmonischen Spektren eine Tonhöhe besitzen, werden diese im musikalischen Ablauf der Stimmführung besonders hervorgehoben und gedehnt. Während sich die Sprechtonhöhe gleitend und häufig ändert, ist die Singtonhöhe an bestimmte Tonstufen, an die Tonstufen der Tonleiter gebunden. Die Formantbereiche werden besonders bei der weiblichen Stimme der jeweiligen Grundtonhöhe in einem gewissen Rahmen angepasst; im Allgemeinen entsteht daraus eine Verdunklung des Vokalcharakters. Von erheblicher Bedeutung für die Klangfarbe der männlichen Singstimme ist der sog. Singformant zwischen 2,8 und 3 kHz verbunden mit einer generellen Verstärkung höherer Klangkomponenten, der der Stimme ein Durchsetzungsvermögen auch gegen ein lautes Orchester gibt. Dieser Formant tritt bei der Sprache nicht auf. Kennzeichnend für die ausgebildete Stimme ist weiterhin das Vibrato verbunden mit einem Tremolo der Stimme, also Tonhöhen- und Lautstärkeschwankungen. Besondere Betonung und Dehnung der Vokale, Umstimmung der Formanten, Singformant, Vibrato und größere Lautstärke und Dynamik kennzeichnen rein akustisch also im Wesentlichen die Stimme mit besonderer Gesangsausbildung. Dynamik und Höchstpegel der Singstimme hängen selbstverständlich von dem Musikstil und dem jeweiligen Sänger ab. Hohe Frauenstimmen, also Soprane, und hohe Männerstimmen, also Tenöre, erreichen mit 50 bis 60 dB die größten Dynamikwerte, die Spitzenpegel können bei üblichem Mikrofonabstand über 100 dB liegen. Der Tonhöhenbereich einer Singstimme ist ihre Stimmlage. Sopran, Alt, Tenor und Bass sind die Hauptstimmlagen (Abb. 2/5). Die Eignung einer Stimme bzw. eines Gesangssolisten für bestimmte Rollentypen kennzeichnet das Stimmfach, z. B. dramatischer Sopran, Koloratursopran, lyrischer Alt, Heldentenor, jugendlicher Liebhaber, Bassbuffo.
72
2 Schallquellen
Abb. 2/5. Ton- und Frequenzlagen der Singstimmen.
2.1.2 Gerichtete Schallabstrahlung Wie die Musikinstrumente hat auch die menschliche Stimme keine allseitig gleiche Schallabstrahlung, sondern eine frequenzabhängige Schallbündelung, besonders im Frequenzbereich über 2 kHz. Wandert man mit einem Mikrofon um einen Sprecher, so ändert sich also die Klangfarbe der Stimme. Abb. 2/6 zeigt, wie sich die Spektren bei Aufnahme von der Seite und von hinten vom Spektrum bei Aufnahme von vorne unterscheiden.
Abb. 2/6. Unterschiede der Spektren von Gesang bei verschiedenen Aufnahmerichtungen.
Der gewohnte und erwartete Sing- und Sprachklang ergibt sich in der Hauptabstrahlrichtung des Munds. Oft werden aber die von Moderatoren, Rednern oder Reportern benutzten Mikrofone an einer um den Hals gelegten Schnur getragen oder an der Kleidung befestigt vor der Brust getragen (siehe Kap. 4.2.4.4). Solche Mikrofone werden Lavalier-Mikrofone genannt. Dadurch ergeben sich aber am Ort des Mikrofons Klangverfälschungen, hervorgerufen durch die Schallabstrahlung der Brust und die Abstrahleigenschaften des Munds. Neben verstärk-
2.1 Menschliche Stimme
73
ter Tiefen- und verringerter Höhenabstrahlung verursacht eine Anhebung von etwa 6 dB in einem schmalen Frequenzband bei 700 Hz bei Sprechern bzw. etwas darüber bei Sprecherinnen eine Klangfärbung (Abb. 2/7). Wird der Frequenzgang des Mikrofons korrigiert (Abb. 4/39), was bei einigen Lavalier-Mikrofonen geschieht, ist ein Unterschied zwischen Aufnahmen vor dem Mund und der Brust kaum hörbar.
Abb. 2/7. Frequenzgang von Sprache vor der Brust des Sprechers.
2.1.3 Sprachverständlichkeit Unter Sprachverständlichkeit versteht man nicht ein akustisches Merkmal der Sprache, auch wenn sie undeutlich artikuliert wird; es handelt sich vielmehr um Merkmale, die die Sprache bei der Aufnahme, Übertragung oder Wiedergabe hinzugefügt werden, beginnend etwa bei dem Raumhall, bei Nebengeräuschen, Frequenzgangveränderungen bis hin zur Wiedergabe. Die Sprachverständlichkeit ist ein grundlegendes Kriterium für die Beurteilung der Hörsamkeit von Räumen für Sprachdarbietungen (siehe Kap. 1.3.2) und für die Übertragungsqualität in der Tontechnik. Die Silben- oder Phonemverständlichkeit wird ermittelt, weil auch Einzelsilben, z. B. Zahlen, verständlich sein sollen. Sie wird gemessen in % der richtig verstandenen Silben bezogen auf die Gesamtzahl einer Reihe von Prüfsilben. Dabei werden Testsilben ohne Bedeutung verwendet wie z. B. „pus“ oder „fog“. Die Wortverständlichkeit liegt grundsätzlich über der Silbenverständlichkeit, die Satzverständlichkeit über der Wortverständlichkeit. Eine Silbenverständlichkeit von etwa 70 – 90 %, entsprechend einer Satzverständlichkeit von rund 95 %, wird als gute bezeichnet; eine Silbenverständlichkeit von 90 – 95 % ergibt eine Satzverständlichkeit1 von 100 %. Abb. 2/8 zeigt die Silben-, Wort- und Satzverständlichkeit als Beispiel in Abhängigkeit von der oberen Grenzfrequenz der Übertragung und die Wortverständlichkeit in Abhängigkeit vom Störabstand der Übertragung. Auf die Verständlichkeit haben weitere Gegebenheiten Einfluss, in Räumen besonders die Nachhallzeit und ihr Frequenzgang. Der Sprachübertragungsindex erfasst in Prozentangaben die Verständlichkeit, die insbesondere zur Warnung von Personen und die Räumung eines Gebäudes wichtig ist [DIN EN IEC 60268-16].
74
2 Schallquellen
Abb. 2/8. Silben-, Wort- und Satzverständlichkeit, abhängig von der oberen Grenzfrequenz des Übertragungssystems.
Zur Verbesserung der Sprachverständlichkeit gibt es mittlerweile eine große Anzahl von Tools, die automatisiert eine Mischung so umformen, dass das gesprochene Wort hervorgehoben und damit seine Verständlichkeit verbessert wird. Dafür werden verschiedene Technologiebausteine einzeln oder in Kombination genutzt, die Tools gestatten meist mehrere Parameter nach Gehör einzustellen. Wesentlicher Bestandteil der Verfahren ist die Trennung von Sprache und Hintergrund, die leicht möglich ist, wenn die Sprache in der Mitte, am besten in einem eigenen Dialogkanal, aufgenommen wurde. Eine Anhebung des Sprachpegels um etwa 8 dB und eine Anhebung des Frequenzgangs im Sprachkanal ab etwa 4 kHz können die Verständlichkeit erheblich verbessern. Weitere Erläuterungen finden sich in Kap. 17.7.1.3 und 17.7.2.
2.2 Musikinstrumente 2.2.1 Akustische Eigenschaften Für akustische Untersuchungen der Klangeigenschaften von Musikinstrumenten ist es wegen der großen Zahl einzelner Messdaten notwendig, anschauliche Formen der grafischen Darstellung zu finden. Für die Erfassung der Klangeigenschaften müssen zwei Größen angegeben werden: die Frequenzen der Klangkomponenten und ihre Stärke; notwendig ist in bestimmten Fällen auch die Darstellung des zeitlichen Verlaufs dieser Größen. Damit ergibt sich für die vollständige Darstellung eines Schallereignisses eine dreidimensionale bzw. pseudodreidimensionale grafische Darstellung. Entsprechend dem Ziel einer akustischen Veranschaulichung kann aber auch eine der drei Darstellungsebenen herausgegriffen werden (Abb. 2/9). Ein Beispiel einer pseudodreidimensionalen Darstellung zeigt Abb. 2/10.
2.2 Musikinstrumente
75
Die Schallgrößen können entweder linear als Amplitude bzw. Frequenz angegeben werden oder logarithmiert und auf einen Bezugswert bezogen als Pegel oder bei Frequenzen als reines Zahlenverhältnis, d. h., als Intervall; als Intervalle kommen vor allem Terzen mit dem Frequenzverhältnis 5 : 4, Oktaven mit dem Frequenzverhältnis 2 : 1 und Dekaden mit dem Frequenzverhältnis 10 : 1 in Betracht. Die Wahl der jeweiligen Darstellungsweise hängt davon ab, was untersucht oder dargestellt werden soll.
Abb. 2/9. Möglichkeiten der Darstellung eines Klangs bzw. musikalischen Tons.
76
2 Schallquellen
Abb. 2/10. Beispiel für eine pseudodreidimensionale Klangdarstellung, Ausschnitt aus dem Wort MontrEAL.
Die nachfolgend im Einzelnen erläuterten akustischen Eigenschaften der Musikinstrumente werden im Detail in Tab. 2/4 zusammengefasst. [Meyer, 2015], [Roederer, 1999], [Fletcher, 1998], [Dickreiter, 2007], [Howard, 2009], [Terhardt, 1998] Jeder Einzelton eines Instruments kann in zwei oder drei zeitlich aufeinander folgende Abschnitte geteilt werden (Abb. 2/11): –– Klangeinsatz, Einschwingen: Zeitabschnitt, in dem sich der Klang aus der Ruhe bis zu seinem eingeschwungenen Zustand entwickelt, –– Quasistationärer Schwingungszustand: zentraler Zeitabschnitt des Tons, in dem der Klang als weitgehend unveränderlich betrachtet werden kann; auch die stets vorhandenen, für die Klangcharakteristik sehr wichtigen kleinen Schwankungen können noch im Rahmen des quasistationären Zustandes gesehen werden, –– Ausklingen: Zeitabschnitt, in dem der Klang nach dem Ende seiner Anregung bis zur völligen Ruhe ausklingt, vergleichbar dem Nachhall eines Raums.
Abb. 2/11. Zeitliche Abschnitte eines musikalischen Tons.
2.2 Musikinstrumente
77
2.2.1.1 Klangeinsatz Der Klangeinsatz ist ein jeweils einmalig ablaufender Vorgang kurzer Dauer. Kurze Klangeinsätze dauern bis etwa 10 ms, lange Klangeinsätze, wie etwa beim Kontrabass, zwischen 100 und 500 ms; typisch ist eine Dauer von 15 bis 50 ms. Kurzen Klangeinsätzen kann kein Spektrum, das aus einzelnen Linien zusammengesetzt ist, zugeordnet werden, sondern nur eine sog. Spektralfunktion, die Einhüllende einer Unzahl dicht nebeneinander liegender Spektrallinien. Ein solches kontinuierliches Spektrum empfindet man als kurzzeitiges Geräusch, als Knack etwa. Das trifft z. B. auch bei einem plötzlich eingeschalteten Tonsignal zu, bei dem Geräuschanteile entstehen, die als Einschaltknack hörbar werden. Erfolgt der Einschaltvorgang nicht plötzlich, sondern kontinuierlich während eines längeren Zeitabschnitts, so verringern sich auch die Geräuschanteile bzw. der Einschaltknack. Dementsprechend sinkt der Anteil geräuschhafter Komponenten mit der Dauer des Klangeinsatzes. Je größer die Bandbreite eines Resonanzsystems oder eines Filters ist, umso kürzer ist die Einschwingzeit. Man betrachtet das Einschwingen als beendet, wenn die Amplitude den Bereich von ± 10 % ihres Werts im eingeschwungenen Zustand nicht mehr verlässt. Musikinstrumente sind sehr komplexe Schwingungssysteme, bei denen Resonanzen und ihre Wechselwirkungen eine besondere Rolle spielen. Gerade aber Resonanzen verhindern einen raschen, knackenden Klangeinsatz, weshalb die Klangeinsätze der meisten Musikinstrumente weicher als geschaltete Sinustöne klingen. Der spezifische Klangeinsatz prägt einen Instrumentenklang ebenso wie der Teiltonaufbau, die Formanten, Geräuschanteile und Pegelschwankungen. Es herrscht eine sehr große Vielfalt der Natur des Klangeinsatzes: Harte Klangeinsätze von wenigen Millisekunden Dauer z. B. bei Schlaginstrumenten und Zungenpfeifen der Orgel, bilden das eine Extrem, weiche Klangeinsätze von mehr als 0,5 s Dauer z. B. bei den tiefen Lippenpfeifen der Orgel und beim Kontrabass, das andere. Lange, deutlich hörbare Klangeinsätze verdeutlichen einen Melodieverlauf, besonders wenn andere Stimmen gleichzeitig gespielt werden. Wichtig für den Klangcharakter ist auch, in welcher Reihenfolge und mit welcher Stärke die einzelnen Teiltöne einsetzen. Blechblasinstrumente können sog. Vorläuferimpulse haben, die dem Klang, je nach ihrer Länge, Prägnanz verleihen oder als sog. Kiekser störend wirken. 2.2.1.2 Quasistationärer Klangabschnitt Der quasistationäre Klangabschnitt ist bei akustischen Musikinstrumenten praktisch immer, bei elektronischen Musikinstrumenten je nach Art der Klangerzeugung dauernden Veränderungen unterworfen: Durch Überlagerung sich geringfügig in der Frequenz unterscheidender Klangkomponenten oder Töne entstehen Schwebungen, also Pegelschwankungen, so beim Klavier, bei der Orgel, bei Chören und bei mehrfach besetzten Orchesterstimmen. Das Vibrato der Singstimme, der Streichinstrumente und der meisten Blasinstrumente entsteht durch periodische Frequenzschwankungen, verbunden mit Pegelschwankungen. Der Begriff Tremolo wird für reine Pegelschwankungen, entstanden durch dichte Aneinanderreihung kurzer Klänge, verwendet. Zu diesen leicht wahrnehmbaren Schwankungen können geringere oder stärkere unregelmäßige, mikrozeitliche Schwankungen, also Rauheiten (siehe Kap. 3.3.5) hinzukommen, die meist nicht bewusst als solche wahrgenommen werden. Sie entstehen bei der Überla-
78
2 Schallquellen
gerung der harmonischen Komponenten mit Geräuschkomponenten und charakterisieren das sog. Gattungstimbre: es lässt den Hörer erkennen, ob es sich bei einem Instrument um ein Streich-, Holzblas- oder Blechblasinstrument handelt, bevor er noch erkannt hat, ob es sich z. B. um eine Violine oder um ein Violoncello handelt. Tab. 2/2 fasst die wesentlichen Eigenschaften des Spektrums des quasistationären Klang abschnitts zusammen. Das Amplitudenspektrum gibt keine Auskunft über die Phasenlagen der einzelnen Komponenten. Ihr Einfluss kann hörbar sein, wenn auch nicht so bestimmend wie Pegel und Frequenzen der Klangkomponenten. Die Hörbarkeit hängt stark von der jeweiligen Struktur des Spektrums ab; bei Kopfhörerwiedergabe sind Phasenverschiebungen noch am leichtesten zu erkennen. Um 1 kHz nimmt das Gehör Phasenänderungen am deutlichsten wahr. Sie bewirken eine Klangfarbenänderung oder eine Änderung der Klangrauheit. Eine Phasenverschiebung von 10° bis 30° ist im Allgemeinen noch nicht hörbar. Diese Forderung wird von den Geräten der Tonstudiotechnik erfüllt. Tab. 2/2. Eigenschaften von Klangspektren und ihre Bedeutung für die Wahrnehmung und die Tonübertragungstechnik. Eigenschaft des Spektrums
Bedeutung für die Wahrnehmung
Bedeutung für die Tonübertragungstechnik
Frequenzumfang und Teiltonstärke gering
Klang weich, nichtlineare Verzerrungen leicht hörbar
empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen
Frequenzumfang und Teiltonstärke groß
Klang scharf und laut
empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen im obersten Übertragungsbereich
harmonisches Linienspektrum
Tonhöhencharakter deutlich, Klarheit des Klangs
unharmonisches Linienspektrum
Tonhöhencharakter, undeutlich, Klang „unsauber“
kontinuierliches Spektrum, Geräuschspektrum
Klang geräuschhaft
Formanten, resonanzartiges Hervortreten bestimmter Frequenzbereiche
Vokalcharakter, Klang ähnlich z. B. A, O, Ä, kennzeichnend vor allem für Doppelrohrblatt- und Blechblasinstrumente
Teiltonaufbau Die periodischen Schwingungsvorgänge des eingeschwungenen Klangs setzen sich aus dem Grundton und Obertönen zusammen, deren Frequenzen jeweils ein ganzzahliges Vielfaches der Frequenz des Grundtons sind. Spricht man von Teiltönen, Partialtönen oder Harmonischen, so wird die Grundfrequenz mitgezählt, spricht man von Obertönen, so wird die
2.2 Musikinstrumente
79
Grundfrequenz nicht mitgezählt. Naturtöne werden bei Blasinstrumenten die durch das sog. Überblasen erklingenden Töne genannt; sie entsprechen etwa, aber nicht genau, den Teiltönen. Abb. 2/12 zeigt die ersten 16 Teiltöne der Teiltonreihe. Der 7., 11. und 14. Teilton liegt tiefer, der 13. Teilton höher als der entsprechende Ton in der heute üblichen sog. temperierten Stimmung der Instrumente. Die übrigen Töne sind in der sog. reinen Stimmung, sie unterscheiden sich nur geringfügig von den entsprechenden Tönen unserer temperierten Stimmung. Lediglich der 2. Teilton, die Oktave, passt exakt in das heute benutzte System der musikalischen Stimmung, die sog. temperierte Stimmung. Wegen der einfachen, ganzzahligen Frequenzverhältnisse der Teiltöne zueinander verschmelzen diese vollkommen zu einem einheitlichen Klangeindruck. Der Grundton oder 1. Teilton ist keineswegs immer am stärksten, sehr oft, gerade bei lauten Klängen, liegt die größte Intensität bei höheren Teiltönen. Fällt der Grundton in den Bereich sehr tiefer Frequenzen, so ist seine Intensität meist recht gering. In diesem Fall bildet das Gehör, sogar wenn der Grundton völlig fehlt, aus dem Obertonspektrum den Grundton subjektiv nach, er wird dann Residualton genannt. Liegt der 1. Teilton im Bereich hoher Frequenzen, so überwiegt er meist in seiner Intensität über die anderen Teiltöne. Sind die ungeradzahligen Teiltöne stärker als die geradzahligen, so wird der Klang gedeckt bis hohl. Beispiele hierfür sind die Klänge der sog. gedackten Orgelpfeifen und der tiefen Tonlage der Klarinette. Das Hervortreten der geradzahligen Teiltöne, insbesondere des 2., 4., und 8. Teiltons, fördert ein helles, offenes Klangbild.
Abb. 2/12. Teiltonaufbau eines Klangs entsprechend dem Ton C. Die Teiltöne mit Pfeil nach unten klingen tiefer als notiert, mit Pfeil nach oben höher als notiert.
Über den jeweiligen Frequenzumfang des Klangs eines Musikinstruments kann nur eine allgemeine Aussage gemacht werden. Er hängt nicht nur von der Spielweise und dem jeweiligen Instrument ab, sondern insbesondere von der gespielten Dynamikstufe, aber auch von den raumakustischen Verhältnissen. Angaben über Frequenzumfänge haben also stets statistischen Charakter. Unterhalb des 1. Teiltons gibt es keine stationären Schwingungen mehr; nur die Geräuschanteile des Klangs reichen unter die Grundtonfrequenz. Formanten Viele Musikinstrumente haben über ihren ganzen Tonbereich hinweg einen bestimmten, für sie typischen Klangcharakter. Dieser wird einerseits durch die relative Stärke der einzelnen Teiltöne bestimmt, andererseits durch sog. Formanten. Wie es bei den Vokalen von Sprache und Gesang bestimmte feste Frequenzbereiche gibt, in denen die Teiltöne unabhängig von der Lage des Grundtons verstärkt werden, so wird auch die Klangfarbe von Musikin-
80
2 Schallquellen
strumenten durch einen oder mehrere solcher Formantbereiche charakterisiert. Während bei Streichinstrumenten diese Formantbereiche durch Resonanzen des Resonanzkörpers und des darin eingeschlossenen Luftvolumens aus dem Spektrum der schwingenden Saite herausgehoben werden, werden die Formanten bei den Blasinstrumenten bei der Tonbildung im Mundstück erzeugt. Durch die besondere Schwingungsform des Anblasvorgangs entstehen die Formanten bereits bei der Tonerzeugung, nicht erst durch Resonanzen. Hat ein Instrumentenklang zwei Formanten, so bilden deren Maxima ein charakteristisches Intervall, ein einfaches Zahlenverhältnis. Beim Wechsel von einem leisen zu einem lauten Klang springt das Maximum von einem tieferen in einen höheren Formantbereich. Geräuschkomponenten Weiterhin sind Geräuschanteile im stationären Klang eine wesentliche Komponente des Klangcharakters eines Musikinstruments. Sie entstehen bei Streichinstrumenten durch Unregelmäßigkeiten des Bogens beim Streichen der Saite, bei Blasinstrumenten als Strömungsgeräusch beim Anblasen. Bei den Doppelrohrblattinstrumenten Oboe, Englisch Horn und Fagott sinkt mit wachsender Gebrauchsdauer des Rohrblatts der Pegel des Geräuschspek trums. Die Nebengeräusche tragen nicht nur zur Klangcharakteristik bei, sondern erhöhen auch die Lebendigkeit des Klangs. Die Flöte enthält als charakteristische Klangkomponente einen besonders deutlich wahrnehmbaren Geräuschhintergrund. 2.2.1.3 Ausklingvorgang Nach Beendigung der Erregung eines Klangs ist in den Resonanzsystemen des Musikin struments noch Energie gespeichert, die im Ausklingvorgang abgegeben wird. Je weniger ein Resonanzsystem bedämpft ist, desto länger klingt es nach. Meist sind höhere Teiltöne stärker bedämpft, so dass sich beim Ausklingen die Klangfarbe dunkler und weicher färbt. Die längste Nachklingzeit haben Instrumente mit gezupften und geschlagenen Saiten wie Cembalo, Gitarre, Harfe oder Klavier. Da bei diesen Instrumenten eine kontinuierliche Klanganregung fehlt, besteht der ganze Klang nur aus dem Einschwing- und Ausklingvorgang. Die kürzeste Ausklingzeit haben Blasinstrumente, da das schwingende Luftvolumen nur einen geringen Energieinhalt besitzt. Der Nach- oder Abklingvorgang kann durch verschiedene Kenngrößen erfasst werden [DIN 1311]. In der musikalischen Akustik ist eine Definition analog zur Nachhallzeit oder Nachhalldauer (siehe Kap. 1.3.4) als Nachklingzeit bzw. Nachklingdauer besonders anschaulich. Bei Tonaufnahmen kann es bei der langen Nachklingdauer, z. B. des Klaviers mit 20 bis 40 s, des Cembalos und der Zupfinstrumente dadurch zu Problemen kommen, dass einzelne Töne z. B. am Schluss eines Satzes sehr lange nachklingen, wenn sie vom Musiker nicht bewusst abgedämpft werden; oft müssen sie dann durch Blenden beendet werden. Ein anderes Phänomen lange nachklingender Instrumente ist die Tatsache, dass sie sozusagen ihren eigenen Nachhall mitbringen, der den Raumhall überdecken kann. So kann es z. B. bei einer Gesangsaufnahme mit Klavier geschehen, dass der Sänger mit Explosivlauten den Raumhall deutlicher anstößt als das Klavier, er also scheinbar in einem größeren Raum ist als das Klavier. Räume mit viel Hall sind für solche Aufnahmen also weniger geeignet.
2.2 Musikinstrumente
81
2.2.1.4 Musikalische Dynamik Die musikalische Dynamik beschreibt die Stärkegrade, mit denen ein Klang auf einem Musikinstrument oder mit der menschlichen Stimme hervorgebracht wird. Die Stufen der Dynamik tragen traditionell italienische Bezeichnungen (Tab. 2/3), wie auch die Tempo- und Vortragsbezeichnungen. Tab. 2/3. Stufen der musikalischen Dynamik. Abkürzung, italienisch
Dynamikstufe, italienisch
Dynamikstufe, deutsch
ppp pp p mp mf f ff fff
pianissimo possibile pianissimo piano mezzopiano mezzoforte forte fortissimo forte fortissimo
so leise wie möglich sehr leise leise halbleise halblaut laut sehr laut so laut wie möglich
Die einzelnen Dynamikstufen oder -grade sind zwar durch den Pegel des Klangs gegeben, weit wichtiger ist aber ihre jeweils spezifische Klangstruktur. Es ist nämlich nicht möglich, durch einfaches Erhöhen der Abhörlautstärke oder durch Annäherung an die Schallquelle – in beiden Fällen steigt der Pegel an – einem pp-Klang in einen ff-Klang zu verwandeln. Die verschiedenen Dynamikstufen sind wohl mit verschiedenen Pegelabstufungen verbunden, umgekehrt können aber verschiedene Pegelabstufungen allein nicht unterschiedliche Dynamikstufen erzeugen. Aus diesem Grund kann die Dynamik auch in einem bestimmten Rahmen komprimiert werden, ohne dass der musikalische Ablauf deutlich beeinträchtigt wird. Die Abstufung der Dynamik ist eines der wesentlichen musikalischen Gestaltungsmittel. Sie wird durch unterschiedliche Klangerzeugung erreicht. Die dynamischen Grade unterscheiden sich außer in Dauer und Struktur des Einschwingvorgangs hauptsächlich im spektralen Aufbau des quasistationären Klangs. Je höher der dynamische Grad ist, umso mehr Teiltöne werden ausgebildet und umso mehr erhöht sich der Pegel der höheren Teiltöne. Abb. 2/13 zeigt dies am Beispiel verschiedener Klarinettenspektren. Daraus wird deutlich, dass die spektralen Unterschiede der Dynamikstufen bei dem tiefen Ton viel ausgeprägter sind als bei dem hohen Ton. Wegen der geringeren Anzahl von Teiltönen bei hohen Tönen sind hier nicht nur die Spektren der Dynamikstufen relativ ähnlich, überhaupt nähern sich die verschiedenen Instrumente im hohen Tonbereich in ihren Spektren einander an, d. h., sie klingen ähnlicher. Natürlich steigt mit der Stärke eines Klangs auch sein Pegel an, aber dies geschieht auch, wenn man sich einer Schallquelle nähert, wenn man die raumakustischen Gegebenheiten verändert oder bei der Aufnahme den Pegel anhebt. Dies bewirkt aber keine Klangveränderung im Sinne einer Steigerung des Dynamikgrads. Abb. 2/14 gibt einen ungefähren Überblick über die zu erwartenden Dynamikbereiche bei Ausnutzung der spieltechnischen Möglichkeiten, auch über das Verhältnis der Pegel der verschiedenen Instrumente zueinander [Meyer, 1990]. Besonders starke Pegelunterschiede bzw. eine besonders große Dynamik
82
2 Schallquellen
zeigen Klarinette, Horn, Posaune und Pauke. Bei den Tasteninstrumenten haben Klavier und Orgel eine sehr große, das Cembalo oder auch die Blockflöte eine recht geringe Variationsbreite des Pegels.
Abb. 2/13. Spektren der Klarinette in verschiedenen Dynamikstufen, links: tiefer Ton, rechts: hoher Ton.
Streichinstrumente sind durchschnittlich halb so laut wie Holzblasinstrumente, d. h., um etwa 10 dB niedriger im Pegel; Holzblasinstrumente sind ihrerseits 5 bis 10 dB niedriger als Blechblasinstrumente. Die Gesamtdynamik eines Orchesters kann 60 bis 80 dB betragen, in besonderen Fällen 100 dB oder mehr, je nach Besetzung und Stil der Musik sowie je nach ihrer Interpretation. Die Dynamikwerte bei Studioproduktionen sind im Allgemeinen höher als bei Konzerten mit Publikum, weil die Abwesenheit von Saalgeräuschen hier ein besonders ausgeprägtes Pianissimo zulässt. 2.2.1.5 Stimmung der Instrumente Die Stimmung eines Instruments umfasst zwei Festlegungen: –– die Festlegung der absoluten Tonhöhe durch Definition des Kammertons a‘, –– die Festlegung der relativen Tonhöhen der einzelnen Töne zueinander.
2.2 Musikinstrumente
83
Abb. 2/14. Dynamikumfang von Musikinstrumenten, Orchester und Stimme.
Die absolute Tonhöhe wird nach einer Stimmgabel oder einem elektronischen Generator auf Grund eines internationalen Übereinkommens für den Kammer- oder Stimmton, genauer Normalstimmton a‘ eingestimmt [ISO 16] und in eine deutsche Norm übernommen [DIN 1317]. Orchester übernehmen den Stimmton traditionell von der Oboe bzw. dem Klavier oder der Orgel. Seit der Londoner Stimmtonkonferenz 1939 hat der Kammerton bei 20 °C die Frequenz 440 Hz, 1971 wurde diese Empfehlung vom Europarat nochmals bestätigt. Meist wird jedoch höher eingestimmt, z. B. oft auf 442 Hz, aber auch bis 445 Hz oder noch höher. Die Stimmtonhöhe hat in der Vergangenheit verschiedenste Werte angenommen. Sie hing von der Gattung ab: der Opernton in Opernhäusern, der Kammerton in der herrschaftlichen Kammer, der Orgel-, Kirchen-, Chor- oder Cornettton für die Kirche, war aber auch je nach Ort und Zeit unterschiedlich; nach 1800 verschwinden die Unterschiede allmählich. 1788 wurde in Frankreich für a‘ 409 Hz (frühe Pariser Stimmung), 1858 435 Hz (Pariser Stimmung) festgelegt und in den angrenzenden Ländern zunehmend übernommen. Demnach kann es keine einheitlich richtige sog. historische Stimmung geben, im Allgemeinen versteht man heute darunter einen Kammerton von 415 Hz; ein Halbton unterhalb des aktuellen Kammertons mit
84
2 Schallquellen
440 Hz. Der oft diskutierte Charakter einer Tonart ist bei rein akustischer Betrachtung also kaum oder nicht nachvollziehbar. Für die relative Stimmung der einzelnen Töne untereinander, also der Intervalle zwischen den einzelnen Tönen des Tonsystems, gibt es mehrere Möglichkeiten: –– die heute übliche sog. gleichschwebend temperierte Stimmung, –– die reine Stimmung, –– verschiedene historische Stimmungen, insbesondere Barockstimmungen. Gleichschwebend temperierte Stimmung: Temperiert gestimmt, wie man verkürzt sagt, sind alle modernen Instrumente, bei denen der Spieler keinen oder wenig Einfluss auf die Bildung der Tonhöhe hat, wie z. B. das Klavier. Bei dieser Stimmung sind alle Halbtöne gleich groß und haben das Frequenzverhältnis : 1 oder etwa 106 : 100. Für die Größe eines Halbtons bzw. allgemein von Intervallen wurde 1875 von John Ellis als logarithmische Maßeinheit das Centmaß eingeführt; ein Halbton ist dabei mit 100 Cent definiert, eine Oktave mit ihren 12 Halbtonschritten hat also 1.200 Cent. Das Centmaß ist besonders nützlich beim Vergleich verschiedener historischer Stimmungen. Bei der temperierten Stimmung gibt es keine Unterschiede zwischen den Tonarten auf Grund der Stimmung. Reine Stimmung: Instrumente, bei denen der Spieler erst während des Spiels die genaue Tonhöhe frei fixiert, was hauptsächlich bei Streichinstrumenten und Sängern zutrifft, können demgegenüber teilweise in der sog. reinen Stimmung spielen bzw. singen, zumal dann, wenn sie nicht mit temperiert gestimmten Instrumenten zusammenspielen, sondern nur untereinander Intervalle und Akkorde intonieren. Bei dieser Stimmung haben die Intervalle ganzzahlige, einfache Frequenzverhältnisse wie die Teiltöne eines Klangs gemäß Abb. 2/12. Sie vermischen sich beim Zusammenspiel vollständig miteinander, ein besonderes Klangerlebnis. Das Intervall einer Quinte z. B. erscheint zwischen dem 2. und 3. Teilton, hier c“ und g“, das Intervall hat das Zahlenverhältnis 3 : 2 = 1,5. in der temperierten Stimmung hat dieses Zahlenverhältnis den nicht gerade einfachen Wert . Allerdings kann diese Stimmung in der Praxis nur angewendet werden, wenn die Tonhöhe ständig beeinflusst werden kann, also besonders bei Sängern sowie Streich- und Blasinstrumenten. Das Tonsystem der reinen Stimmung ist kein geschlossenes, widerspruchsfreies System. Historische Stimmungen: Bevor sich die gleichschwebend temperierte Stimmung nach 1800 allmählich durchsetzen konnte, waren verschiedene andere temperierte Stimmungen in Gebrauch, die die unterschiedlichsten Kompromisse zwischen reiner und gleichschwebend temperierter Stimmung darstellen: in der Renaissance die sog. mitteltönigen Stimmungen, zwischen 1600 und 1800 die sog. Barockstimmungen, vielfach die Stimmungen Werckmeister-II und -III sowie Kirnberger-III. Sie geben den einzelnen Tonarten unterschiedliche Intervallstrukturen und damit auch einen speziellen, individuellen Klangcharakter [Forss, 2007].
2.2.2 Akustische Instrumente Nachfolgend werden die akustischen Eigenschaften der Musikinstrumente beschrieben. Für Fragen der Instrumentenkunde wird auf die zahlreich vorhandene Literatur verwiesen, z. B.
2.2 Musikinstrumente
85
[Baines, 2010], [Dickreiter, 2007], [Marimovici, 2008]. Tab. 2/4 fasst die wichtigsten akustischen Eigenschaften der Instrumente zusammen. 2.2.2.1 Streichinstrumente Von den verschiedenen Typen der Streichinstrumente, die im Laufe der Geschichte entwickelt und gespielt wurden, sind in der heutigen Musikpraxis v. a. die Violine oder Geige (franz.: violon, ital.: violino, engl.: violin), die Viola oder Bratsche (franz.: alto, ital.: viola, alto, engl.: viola), das Violoncello, oft umgangssprachlich mit Cello abgekürzt, (franz.: violoncelle, ital.: violoncello, engl.: violoncello) und der Kontrabass oder die Violone (franz.: contre basse, basse double, ital.: violone, contrabasso, basso, engl.: double bass) in Gebrauch. Im grundsätzlichen Aufbau gleichen sich diese Instrumente, sie unterscheiden sich aber in ihrer Größe und damit in ihrem Tonbereich. Lediglich der Kontrabass weicht in einigen Konstruktionsmerkmalen vom Typus dieser Instrumente ab. Der Spieler streicht mit dem mit Pferdehaar bespannten Bogen oberhalb des Steges über die Saiten, die er dadurch zum Schwingen erregt. Die Saitenschwingungen werden über den Steg auf den Schall- oder Resonanzkörper übertragen und von diesem umgeformt und abgestrahlt. Das Streichen wird in den Noten mit „col arco“ oder „arco“, das Zupfen mit „pizzicato“, abgekürzt pizz., bezeichnet. Durch einen auf den Steg aufgesetzten Dämpfer, „sordino“, wird die Eigenresonanz des Stegs herabgesetzt, der Klang wird dadurch schwächer und dunkler.
Abb. 2/15. Grundtonbereiche der Streichinstrumente (schwarze Noten), Saitenstimmung (weiße Noten).
Die Tonumfänge der Grundtöne der Instrumente sowie die Stimmung ihrer vier Saiten zeigt Abb. 2/15. Die Violine wird im Violinschlüssel notiert, die Bratsche im Altschlüssel. Kontrabass und Violoncello werden hauptsächlich im Bassschlüssel notiert. Der Kontrabass, der im Orchester gespielt wird, hat noch eine fünfte Saite, er klingt eine Oktave tiefer als notiert. Für Aufführungen der Musik des Barocks werden oft Gamben, insbesondere die Tenorgambe oder Viola da gamba, die etwa in der Tonlage des Violoncellos steht, verwendet. Der Kontrabass, der aus der Familie der Gamben stammt, hat noch Merkmale dieser Instrumente. Violine und Viola Die Violine hat einen relativ unregelmäßigen Teiltonaufbau, der sich bei weniger guten Instrumenten von Ton zu Ton ändert. Ursache hierfür sind die komplizierten Resonanz eigenschaften des Resonanzkörpers, auf die die Materialeigenschaften und die Konstruktion großen Einfluss nehmen. Der Pegel des Grundtons überragt nur im Frequenzbereich oberhalb
86
2 Schallquellen
etwa 640 Hz den Pegel höherer Teiltöne, bei den tiefsten Tönen liegt er sogar bis 25 dB unter dem Pegel des jeweils stärksten Teiltons. Ein wichtiges Qualitätsmerkmal des Violinklangs ist die Ausprägung von Formanten, die der Violine neben dem Vibrato einen gesanglichen, der Stimme verwandten Klangcharakter verleihen. Eine typische Formantlage für die tiefen Töne ist der Bereich um 275 Hz, verursacht von der Hohlraumresonanz des Resonanzkörpers; ein wichtiger zweiter Formant liegt zwischen 500 und 700 Hz. [Cremer, 1998], [Leonhardt, 1997] Gute Instrumente zeigen besonders zwischen 190 und 650 Hz sowie zwischen 1,3 und 4 kHz relativ starke Teiltonbereiche. Weitere Formanten sind zwischen 2,0 und 2,6 kHz sowie zwischen 3 und 4 kHz. Relativ stark sind die Geräuschanteile ausgebildet, die durch das Streichen entstehen. Sie können bis 30 dB stärker als bei Blasinstrumenten sein. Der Geräuschpegel nimmt in demselben Maße zu wie der Gesamtpegel. Der Spieler kann die Klangfarbe und Lautstärke mit der Bogenführung innerhalb bestimmter Grenzen beeinflussen: Die Streichgeschwindigkeit bestimmt vor allem die Lautstärke, der Bogendruck und die Anstrichstelle auf der Saite die Klangfarbe [Meyer, 1992]. Da die Viola im Bau der Violine entspricht und nur unerheblich größer als diese ist, sind ihre Klangeigenschaften auch sehr ähnlich. Sie ist etwas obertonärmer als die Violine. Die Formantbereiche liegen etwas tiefer, nämlich bei etwa 220, 350 und 600 Hz. Ein weiterer Formant um 1,6 kHz gibt der Viola oft einen etwas näselnden Klang. Violoncello und Kontrabass Wie bei der Violine sind die Grundtöne der tiefsten Töne beim Violoncello sehr schwach ausgeprägt, sie liegen oft bis zu 20 dB unter den stärksten Komponenten dieser Klänge. Oberhalb von etwa 3 kHz sind die Teiltöne relativ schwach. Typische Formanten liegen um 240 Hz, zwischen 300 und 500 Hz sowie zwischen 600 und 900 Hz. Manche Instrumente haben bei 1,5 kHz beim Spiel auf der A-Saite einen Formanten, der ähnlich wie bei Viola dem Klang näselnden Charakter verleiht. Andere Instrumente besitzen zwischen 2 und 3 kHz einen Formanten, der den Klang hell färbt. Typisch für den Violoncelloklang ist eine ausgesprochene Senke im Spektrum zwischen 1,0 und 1,2 kHz, also im Bereich des stärksten Violinformanten. Die Einschwingzeit des Violoncelloss liegt bei 60 bis 100 ms. Dadurch spricht bei schnellen Tonfolgen der Grundton oft nicht richtig an, der Klang wird in diesem Fall spitz und geräuschhaft. Auch beim Kontrabass sind die Grundtöne im tiefsten Tonbereich schwach ausgebildet, ihr Pegel ist sogar um etwa 30 dB geringer als derjenige der stärksten Teiltöne. Die wichtigsten Klangkomponenten für die tiefen Kontrabasstöne liegen im Frequenzbereich zwischen 70 und 250 Hz, ein Nebenformant liegt bei 400 Hz. Harmonische Anteile über 1,5 kHz treten kaum auf. Im Bereich der höheren Kontrabasstöne erweitert sich das Spektrum bis etwa 2,5 kHz. Höher als die harmonischen Klanganteile reicht das Geräuschspektrum mit seinem typischen „Sirren“, hervorgerufen durch das Streichen; es tritt vor allem dann hervor, wenn die Kontrabässe allein spielen, da es anderenfalls durch den Klang höherer Instrumente im Gehöreindruck verdeckt wird. Der Einschwingvorgang dauert länger als bei anderen Streichinstrumenten. Deshalb entwickelt der Kontrabass bei schnellen Tonfolgen nicht seine Klangfülle; außerdem treten hierbei die starken Geräuschanteile der Einschwingvorgänge besonders hervor.
2.2 Musikinstrumente
87
2.2.2.2 Holzblasinstrumente Holzblasinstrumente, kurz auch einfach „Holz“ genannt, ist die Sammelbezeichnung für eine Gruppe von Instrumenten des Orchesters, die vor allem Flöte (franz.: flute, ital.: flauto, engl.: flute), Oboe (franz.: hautbois, ital.: oboe, engl.: oboe), Klarinette (franz.: clarinette, ital.: clarinetto, engl.: clarinet), Saxophon (franz. und engl.: Saxophone, ital.: saxofono) und Fagott (franz.: basson, ital.: fagotto, engl.: basson) einschließlich ihrer Sonderformen umfasst. Wohl ist die Mehrzahl dieser Instrumente aus Holz, aber auch entsprechende Konstruktionen aus Metall, besonders Flöte und Saxophon, werden zu den Holzblasinstrumenten gezählt, da sie sich in ihrer Spielweise grundsätzlich von den Blechblasinstrumenten unterscheiden. Der Klang wird entweder durch das Anblasen einer Kante bei Flöten, die Schwingung eines einfachen Rohrblatts bei Klarinette und Saxophon oder eines doppelten Rohrblatts bei Oboe und Fagott als stehende Welle einer Luftsäule erzeugt. Die Tonhöhe wird hauptsächlich durch Schließen oder Öffnen der Grifflöcher verändert, was eine Längenveränderung der schwingenden Luftsäule bewirkt. Außer dem Grundton der schwingenden Luftsäule können auch deren Obertöne angeblasen werden, das Instrument „überbläst“. Da sie nicht wie die Obertöne ideal harmonisch zum Grundton liegen, werden sie zur Unterscheidung Naturtöne genannt. Die Grundtonumfänge der wichtigsten Holzblasinstrumente zeigt Abb. 2/16. [Wackernagel, 2005]
Abb. 2/16. Grundtonumfänge der Holzblasinstrumente.
Flöte Den Klang der Flöte, auch Große Flöte oder Querflöte, charakterisiert ein sehr gleichmäßiger Teiltonaufbau: mit Ausnahme der tiefsten Töne und sehr lauter Töne ist der Grundton am stärksten, was so deutlich sonst bei keinem Orchesterinstrument zutrifft. Die Amplitude der Teiltöne nimmt mit steigender Ordnungszahl stetig ab. Formanten gibt es dabei kaum; wenn solche doch vorhanden sind, kennzeichnen sie nicht den Flötenklang als solchen, sondern den individuellen Klangcharakter des einzelnen Instruments. Die Anblasgeräusche können deutlich hervortreten. Die höchsten Klangkomponenten liegen je nach der Höhe des angeblasenen Tons bei 3 bis 6 kHz. Typisch für den leisen Flötenklang ist eine starke Schwankung in der zeitlichen Pegelfeinstruktur. Von allen Blasinstrumenten benötigt die Flöte die längste Zeit zum Einschwingen. Kennzeichnend dafür sind die sog. Vorläufertöne, kurze Töne im Frequenzbereich zwischen 2 und 4 kHz, die vor dem eigentlichen Ton anklingen und dem Klangeinsatz einen besonderen Charakter verleihen.
88
2 Schallquellen
Tab. 2/4. Übersicht über die Klangeigenschaften der Musikinstrumente. Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Violine
Violinschlüssel
g - etwa c‘‘‘‘ = 196 - 2.100 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 10 kHz
Viola
Bratschenschlüssel, Altschlüssel
c - etwa c‘“ = 130 – 1.050 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz, max. 10 kHz
Violoncello
Bassschlüssel, hohe Stellen im Tenor- bzw. Violinschlüssel
C - etwa c“ = 65 - 520 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz, max. 10 kHz
Kontrabass
Bassschlüssel transponierend, wird eine Oktave höher notiert
E‘ (C) - etwa c‘ = 41 (33) - 260 Hz
große Variabilität, Grundton schwach, Komponenten bis 7 kHz, über 1,5 kHz schwach
Horn in F
Violinschlüssel, H‘ - etwa f‘ auch Bassschlüs= 62 - 700 Hz sel, transponierend, (Instrument in F) wird eine Quinte höher bzw. Quarte tiefer notiert
unterer Tonbereich durch Formanten, oberer durch das Überwiegen des Grundtons gekennzeichnet, Komponenten bis über 5 kHz im ff
Trompete in B
Violinschlüssel, transponierend, wird ein Ganzton höher notiert
e - etwa d‘“ = 164 – 1.175 Hz (Instrument in B)
sehr obertonreich, Komponenten bis 15 kHz im ff, Grundton im ganzen Tonbereich schwach
E - etwa c“ = 82 - 520 Hz (Tenorposaune)
Grundton schwach, obertonreich, Komponenten bis 5 kHz (mf), über 10 kHz im ff
Posaune Altposaune Tenorposaune Bassposaune
Altschlüssel Tenorschlüssel Bassschlüssel
Tuba
Bassschlüssel
etwa B“ - a‘ = 29 - 440 Hz
Grundton schwach, Komponenten nur bis 1,5 - 2 kHz
Klavier, Flügel oder Piano
Violin- und Bassschlüssel
A“ - c‘““ = 27,5 - 4.200 Hz
gleichmäßig abnehmende Obertonamplitude, Grundton überwiegt außer in der tiefen Lage, Komponenten bis über 10 kHz
Cembalo
Violin- und Bassschlüssel
C - f“ (u. a.) = 65 - 1.400 Hz
Grundton schwach, sehr obertonreich, Komponenten bis über 6 kHz
2.2 Musikinstrumente
Quasistationärer Zustand
Einschwingvorgang
Formantbereiche
Geräuschkomponenten
um 400 Hz, 800 – 2..000 Hz, 2.000 – 2.600 Hz, 3.000 – 4.000 Hz
relativ starkes, typisches Anstrichgeräusch, starker Einfluss der Streichart
89
Ausklingvorgang
30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 300 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 40-800 ms beim pizz. 10 ms
um 220, 350, 600 und 1.600 Hz, 3.000 – 3.500 Hz
30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 200 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 50-600 ms beim pizz. 10 ms
um 250 Hz, zwischen 300 und 500 Hz, 600 und 900 Hz, Senke zwischen 1.000 und 1.200 Hz
60-100 ms, bei kurzen Klängen sehr geräuschhaltig, Grundton spricht zuletzt an
beim gestrichenen Ton Abreißen des Klangs, beim pizz. 50-200 ms (pp), bis 1,4 s (ff) beim gestrichenen Ton Abreißen des Klangs, beim pizz. durchschnittlich etwa 1 s, max. 1,6 s
zwischen 70 und 250 Hz, um 400 Hz, um 800 Hz nur in der hohen Lage
relativ starkes, typisches Anstrichgeräusch („Sirren“) mit Komponenten bis 10 kHz
100-200 ms, bei kurzen Tönen sehr geräuschhaltig und näselnd, beim pizz. 15-25 ms
um 340 Hz, 750, 1225,
schwach
20-100 ms, „Vorläuferim- Abreißen des Klangs puls“ mit Komponenten bis 1 kHz
2.000 und 3.500 Hz, nur im unteren Tonbereich
1.200 – 1.500 Hz, 2.000 und 3.000 Hz
20-180 ms, sehr präg nanter Klangeinsatz durch kurzen „Vorläuferimpuls“ mit Komponenten bis 2-3 kHz
480 - 600 Hz, 1.200 Hz
schwacher „Vorläuferimpuls“, 20-40 ms, bei weichem Klangeinsatz etwa 70 ms
210 - 230 Hz
kurzer Klangeinsatz
selten vorhanden
vorhanden, in einzelnen Bereichen mit größerer Amplitude
10-30 ms, sehr geräuschhaltig
20-30 s im tiefen Tonbereich, 5-10 s im hoher Tonbereich, wenn nicht früher abgedämpft wird
500 - 700 Hz, 2.000 – 3.000 Hz
schwach
sehr kurz
ähnlich wie beim Klavier
90
2 Schallquellen
Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Große Flöte
Violinschlüssel
h - etwa c““ = 247-2100 Hz
Grundton überwiegt, mit steigender Obertonfrequenz abnehmende Teiltonintensität, Frequenzbereich bis 3-6 kHz
Kleine Flöte, Piccolo
Violinschlüssel transponierend, wird eine Oktave tiefer notiert
d“ - c‘““ = 587 – 4.200 Hz
wie Große Flöte, jedoch Komponenten bis 10 kHz
Oboe
Violinschlüssel
h(b) - etwa f“ = 247 -1.400 Hz
obertonreich, Grundton schwach, Komponenten bis 9 kHz (mf), über 12 kHz (ff)
Englisch Horn
Violinschlüssel transponierend, wird eine Quinte höher notiert
e (es) - b“ = 165 - 933 Hz
wie Oboe
Klarinette in B (A)
Violinschlüssel transponierend, wird einen Ganzton (kleine Terz) höher notiert
d (eis) - etwa g“‘ = 147 – 1.570 Hz
d-d‘: ungeradzahlige Obertöne schwach, es‘-g“: nur noch 1. Oberton schwach, über g“: gleichmäßiger Obertonaufbau
Bassklarinette in B Violinschlüssel D (Cis) - etwa f‘‘ transpon., eine = 74 - 700 Hz None höher notiert, Bassschl. transponierend, ein Ganzton höher notiert
Grundton stark, ungeradzahlige Obertöne noch schwächer als bei der Klarinette
Fagott
Bassschlüssel (Tenorschlüssel)
B‘ - etwa c“ = 58 - 520 Hz
obertonreich, Komponenten im ff bis über 12 kHz
Kontrafagott
Bassschlüssel transponierend, wird eine Oktave höher notiert
B“ - etwa c‘ = 29 - 260 Hz
obertonreich, Grundton schwach
Pauke
Bassschlüssel
Große Pauke: D - c = 73 - 130 Hz, Kleine Pauke: H - g = 124 - 196 Hz
keine harmonische Struktur, jedoch dominierende Komponenten, die dem Paukenschlag eine bestimmbare Tonhöhe geben
Trommel
in einem Notensystem oder auf moderne Notation auf einer einzelnen Linie
keine bestimmbare Tonhöhe
Becken Triangel
2.2 Musikinstrumente
Quasistationärer Zustand
Einschwingvorgang
91
Ausklingvorgang
Formantbereiche
Geräuschkomponenten
keine typischen Formanten
Geräuschkomponenten mit Tonhöhencharakter, mit dem jeweiligen Grundton identisch
charakteristisch durch Abreißen des Klangs Vorläuferton mit etwa 50 ms und Geräuschanteile, von allen Holzblasinstrumenten am längsten
keine typischen Formanten, gelegentlich Nebenformant bei 3.000 Hz
wie Große Flöte
ähnlich wie Große Flöte
bei 1.100 Hz, bei 2.700 und 4.500 Hz
gering
sehr klar, keine Geräuschanteile, 20 - 40 ms, auch im staccato noch klar
bei 1.000 Hz, bei 2.000 und 4.000 Hz, bei 750 Hz
wie Oboe, im staccato noch kürzer, im ganzen Tonbereich 15 ms
nur im oberen Tonbereich über g“, zwischen 3.000 und 4.000 Hz
klar und prägnant, 1 5- 20 ms, ohne Geräuschanteile, weicher Einsatz etwa 50 ms
keine typischen Formanten
ähnlich wie Klarinette
500 Hz (1.150, 2.000 und im pp besonders im Bereich 3.500 Hz) um 3.000 Hz
klar und prägnant, ohne Geräuschanteile
250 Hz (400 - 500, 800 Hz)
klar, etwa 35 ms
keine Formatstruktur
starke Komponenten bis 1.000 Hz, schwächer bis etwa 4.000 Hz
bis 50 ms, keine harmonischen Komponenten
Komponenten bis 1.500 kHz (Große Tr.), 8.000 Hz (Kleine Tr.)
maximal 50 ms
Komponenten zwischen 800 und 9.500 Hz
etwa 400 ms
Komponenten zwischen 1.000 etwa 200 ms und 17.000 Hz, stark um 13.000 Hz
Geräuschanteile bis 300 ms, 1. Oberton bis 1 s
92
2 Schallquellen
Die Kleine Flöte oder Piccolo steht im Tonumfang etwa eine Oktave höher als die Große Flöte. Ihre Klangeigenschaften entsprechen denjenigen der Großen Flöte. Die harmonischen Klangkomponenten reichen aber bis etwa 10 kHz. Oboe und Englisch Horn Der Klang der Oboe ist sehr hell und offen. Dies bewirken einerseits die stark ausgeprägten Obertöne, die im Mezzoforte-Klang bis etwa 9 kHz, im Fortissimo-Klang bis 12 kHz reichen, andererseits der deutlich ausgeprägte Hauptformant bei 1,1 kHz und die Nebenformanten bei 2,7 und 4,5 kHz. Die Grundtöne sind schwach ausgebildet und liegen etwa 25 dB unter dem Pegel der stärksten Komponenten. Im Bereich der höchsten Obertöne treten die Formanten weitgehend zurück. Der Klang verliert hier deshalb an Eigenart. Piano- und Forte-Klang unterscheiden sich in der Klangfarbe sehr stark. Die Einschwingzeit des Klangs ist sehr kurz, Geräuschanteile treten dabei kaum auf. Deshalb eignet sich die Oboe auch für das Spiel sehr kurzer Töne. Das Englisch Horn (franz.: cor anglais, ital.: corno inglese) ist eine Variante der Oboe mit um eine Quinte tieferen Tonbereich. Als Besonderheit besitzt sie einen birnenförmigen Schallbecher. Die Klangeigenschaften entsprechen denen der Oboe, der Hauptformant liegt etwas tiefer, nämlich bei 1 kHz. Bei 700 Hz liegt ein charakteristischer Nebenformant. Eine weitere Variante der Oboe ist die Oboe d‘amore, sie ist ähnlich wie das Englisch Horn gebaut, ihr Tonbereich beginnt jedoch zwei Ganztöne höher als bei diesem. Klarinette und Saxophon Der Klang der Klarinette ist nicht im ganzen Tonbereich einheitlich, man spricht deshalb von den verschiedenen Registern der Klarinette. Im Tonbereich zwischen d und d‘ bestimmt das Übergewicht der ungeradzahligen Teiltöne den Klang, dieses lässt sich bis zum 15. Teilton verfolgen. Die Pegelunterschiede zu den geradzahligen Teiltönen betragen etwa 25 dB, teilweise sogar bis 40 dB. Oberhalb von gis“ ist der Grundton am stärksten, an ihn schließt sich eine stetig fallende Obertonreihe an (Abb. 2/13). Für dieses höchste Register bildet sich ein Formant zwischen 3 und 4 kHz aus, während bei den tieferen Registern keine charakteristischen Formanten zu finden sind. Kennzeichnend für den Klarinettenklang ist auch der geringe Geräuschanteil, der vor allem im obersten Register die Klarheit und Helligkeit des Klangs fördert. Die Klarinette bietet eine außerordentlich große Dynamik. Mit der Dynamikstufe ändert sich der Teiltonaufbau sehr stark. Während im pp in der eingestrichenen Oktave das Spektrum nur bis etwa 1,5 kHz reicht, enthält es im ff Komponenten bis über 12 kHz. Die Einschwingvorgänge sind wie die der Oboe kurz, prägnant und ohne wesentliche Geräuschanteile. Bei der Bassklarinette treten die ungeradzahligen Teiltöne noch stärker hervor als bei der normalen Klarinette, ihr Klang ist dadurch noch düsterer und hohler. Das Saxophon besitzt wie die Klarinette ein einfaches Rohrblatt, ist aber konisch und aus Metall. Es ist aus der Kombination der Bassklarinette mit der Ophikleide, einem Blechblasinstrument in der Basslage, um 1840 von dem Belgier Adolf Sax entwickelt worden. Das Instrument wird in acht Tonlagen gebaut: Sopranino, Sopran, Alt, Tenor, Bariton, Bass und Kontrabass. Im Klang sind die ersten Obertöne stark ausgebildet. Auf Grund seiner konischen Form werden die geradzahligen Obertöne ebenso stark wie die ungeradzahligen angeregt.
2.2 Musikinstrumente
93
Fagott Der Fagottklang ist wie der Oboenklang sehr obertonreich. Kennzeichnend ist ein scharf ausgeprägter Hauptformant bei 500 Hz, der dem Fagottklang den Vokalcharakter eines „o“ verleiht. Nebenformanten liegen bei 1,15, 2 und 3,5 kHz. Im ff geht das Spektrum bis über 12 kHz hinaus. Der Klangeinsatz ist wie bei der Oboe präzis und kurz, Das Kontrafagott reicht mit seinem Tonumfang eine Oktave tiefer als das Fagott. Seine Grundtonfrequenzen gehen bis etwa 30 Hz hinunter. Der Hauptformant liegt um 250 Hz. 2.2.2.3 Blechblasinstrumente Blechblasinstrumente, Sammelbezeichnung für Trompete (franz.: trompette, ital.: tromba, clarino, engl.: trumpet), Horn (franz.: cor, ital.: corno, engl.: french horn), Posaune (franz., ital., engl.: trombone) und Tuba (alle Sprachen) nebst ihren Nebeninstrumenten besitzen verglichen mit den Holzblasinstrumenten eine sehr lange Resonanzröhre aus Blech, bei der es keine Grifflöcher gibt. Die einzelnen Instrumententypen unterscheiden sich hauptsächlich in der Formgebung dieser Röhre und des Mundstücks. Beim Spiel wird weitgehend von der Naturtonreihe der Röhre Gebrauch gemacht, indem durch verschiedene Lippenspannungen die einzelnen Naturtöne der stehenden Welle im Rohr angeblasen werden. Wegen der recht langen Resonanzröhre sind die Naturtöne weitgehend identisch mit den Teiltönen. Zur Erzeugung der Töne, die zwischen den Naturtönen liegen, kann die Länge des Rohrs und damit der Tonhöhe bei der Trompete, Horn und Tuba durch Ventile oder bei der Posaune ein ausziehbares Rohrstück, einen Zug, um bis zu etwa 40 % verlängert werden. Die Tonumfänge zeigt Abb. 2/17. [Bahnert, 2004] Bei allen Blechblasinstrumenten lassen sich auch die Spektren in zwei Tonbereiche aufteilen: Im unteren Tonbereich kennzeichnet ein Formant den Klang, während im oberen Tonbereich der Grundton am stärksten hervortritt und die Obertöne mit steigender Ordnungszahl relativ gleichmäßig in ihrem Pegel abnehmen. Im unteren Tonbereich ist ein Formant um 340 Hz kennzeichnend
Abb. 2/17. Grundtonumfänge der Blechblasinstrumente.
Horn Während bei leisen Tönen Formanten eine geringe Rolle spielen, gewinnen mit zunehmender Lautstärke noch weitere Formanten bei 750 Hz, 1,25 und 2 kHz an Bedeutung. Im pp reicht das Spektrum etwa bis 1,5 kHz, im ff bis über 5 kHz. Die Geräuschanteile sind sehr gering. Frequenzanteile unter 200 Hz nehmen wenig Einfluss auf den Klangcharakter, da sie schwach ausgeprägt sind. Der Klangeinsatz ist durch einen kurzen Vorläuferimpuls gekennzeichnet,
94
2 Schallquellen
der vorwiegend harmonische Klangkomponenten unter 1 kHz enthält, ein zu stark ausgeprägter Vorläuferimpuls tritt als „Kiekser“ störend in Erscheinung. Verschließt die rechte Hand des Spielers die Stürze teilweise (Halbstopfen), werden die Klangkomponenten um 3 und über 10 kHz formantartig verstärkt, der Klang wirkt eng und wie aus größerer Entfernung, bei stärkerem Verschließen (Vollstopfen) kann der Ton bis um einige Halbtöne erniedrigt werden, wie beim Gebrauch der Ventile. Obwohl Hörner Blechblasinstrumente sind, stehen sie musikalisch den Holzblasinstrumenten sehr nahe, da sie sich besonders gut in den Klang der Holzbläsergruppe einfügen; gelegentlich werden auch diesen zugerechnet. In der Partitur werden sie zwischen Holz- und Blechblasinstrumenten eingeordnet. Trompete Die Trompete ist eines der obertonreichsten Instrumente des Orchesters. Bereits bei geringen Lautstärken reicht ihr Spektrum bis über 5 kHz hinaus, im ff sogar bis an die Hörgrenze. Ein starker Hauptformant liegt bei 1,2 bis 1,5 kHz, Nebenformanten bei 2 und 3 kHz. Der Grundton überwiegt nur bei den höchsten Tönen, wodurch ein gleichmäßig heller Klang gefördert wird. Geräuschanteile sind sehr schwach. Den prägnanten Klangeinsatz der Trompete kennzeichnet wie beim Horn ein Vorläuferimpuls, dessen Spektrum im Bereich zwischen 2 und 3 kHz ein Maximum hat. Durch verschiedene, in die Klangstürze eingesetzte Dämpfer kann der Klang stark verändert werden: Der normale, der konische Dämpfer unterdrückt vor allem die Frequenzen unter 1,5 kHz und hebt Frequenzen über 4 kHz an, der gewölbte Dämpfer unterdrückt die Komponenten über 2,5 kHz. Mit dem Wah-Wah-Dämpfer kann die Klangfarbe durch Verschieben der Formanten während des Spiels variiert werden. Posaune und Tuba Das Posaunenspektrum ist durch einen Formanten zwischen etwa 480 und 600 Hz gekennzeichnet, ein weiterer wichtiger Formant liegt um 1,2 kHz. Darüber nimmt die Amplitude der Teiltöne langsam ab, so dass im mf das Spektrum noch bis 5 kHz reicht. Der Grundton dominiert selten. Beim Einschwingvorgang tritt nur ein schwacher Vorläuferimpuls auf. Das Spektrum der Tuba, Basstuba und Kontrabasstuba reicht nur etwa bis 1,5 kHz, im oberen Tonbereich bis 2 kHz, der Klang ist also obertonarm. Auch die Grundtöne sind schwach ausgebildet. Der Hauptformant liegt zwischen 210 und 250 Hz. Die Einschwingzeit der Töne ist sehr kurz, dadurch kann die Tuba eine sehr prägnante Basslinie spielen. 2.2.2.4 Klavier und Cembalo Der Klavierklang setzt sich aus dem Einschwing- und Ausklingvorgang zusammen, einen quasistationären Zeitabschnitt wie bei Blas- und Streichinstrumenten gibt es nicht. Der Einschwingvorgang dauert sehr kurz, er ist durch die Spielweise bei gleichbleibender Lautstärke nicht zu beeinflussen. Beim Ausklingvorgang überwiegt der Grundton, abgesehen von dem Bereich der tiefen Töne. Der Pegel der Obertöne nimmt mit steigender Ordnungszahl stetig ab. Charakteristische Formanten treten nicht auf. Das Spektrum reicht bis über 10 kHz in den oberen Tonlagen, bis etwa 3 kHz in den unteren Tonlagen. Die Stärke der Obertöne ist von der erzeugten Klangstärke und damit vom Anschlag abhängig. Mit einer Taste des Kla-
2.2 Musikinstrumente
95
viers werden bei der tiefsten Oktave eine, eine Oktave darüber zwei und darüber drei gleich gestimmte Saiten gleichzeitig angeschlagen. Dadurch können Schwebungen, also Amplitudenschwankungen entstehen. Kennzeichnend für den Klavierklang sind auch die ausgeprägten Geräuschanteile beim Einschwingvorgang. Eine weitere Besonderheit ist, dass die Obertöne, besser Naturtöne, nicht streng harmonisch, also nicht exakt ganzzahlige Vielfache der Grundfrequenz sind, sondern jeweils etwas höher liegen, die Obertonreihe ist gespreizt. Dieser Effekt, verursacht durch die relative Dicke der Saiten, tritt besonders bei kleinen In strumenten mit ihren kürzeren Saiten auf und mindert deren Klangqualität. Das Cembalo, wichtigstes Tasteninstrument der Barockzeit, zeichnet sich durch besonders großen Obertonreichtum und besonders langes Ausklingen aus, es wirkt fast wie ein quasistationärer Zustand. Ein Bereich starker Klangentwicklung liegt zwischen 500 und 700 Hz, ein weiterer Bereich zwischen 2 und 3 kHz. Tiefe Klangkomponenten sind schwach. Das Cembalo weist eine außerordentlich hohe zeitliche Klangdichte auf, die es bei gleicher Aussteuerung viel lauter erscheinen lässt als z. B. das Klavier. 2.2.2.5 Orgel Die Orgel ist das größte, bautechnisch komplexeste Musikinstrument. Ihr Platz ist in Kirchen und großen Konzertsälen. Neben der großen Kirchen- bzw. Konzertorgel gibt es kleinere, transportable Instrumente, die sog. Orgelpositive oder einfach Positive. Insbesondere der Klang großer Orgeln ist in einem Maße wandelbar wie sonst bei keinem anderen Instrument. Schallerzeuger sind die Orgelpfeifen, die durch unterschiedliche Bauarten eine breite Palette unterschiedlichster Klänge erzeugen können. Orgeln sind Einzelanfertigungen, die entsprechend ihrer musikalischen Funktion, aber auch, was es sonst bei keinem Instrument gibt, entsprechend der jeweiligen Raumakustik geplant und gebaut sind. Ihre außergewöhnliche Größe und Lautstärke korrespondiert mit der ebenfalls außergewöhnlichen Größe des Kirchen- und Konzertraums. Bei der Aufnahme ist nicht nur zu beachten, dass der Orgelklang in besonderem Maße mit der Erwartung des Raumklangs aus einem großen Raum verbunden ist, sondern dass die Orgel selbst erhebliche räumliche Ausdehnung besitzt. Barocke Orgeln, aber auch moderne Orgeln, die nach dem sog. Werkprinzip der Barockorgeln gebaut sind, sind in einzelne sog. Werke gegliedert; jedem Manual ist dabei eine Gruppe von Registern zugeordnet, die in sich eine ausgewogene, aber von den übrigen Werken der Orgel sich unterscheidende sog. Disposition besitzt. Die einzelnen Werke sind nach traditionellen Regeln angeordnet: Oberhalb des Spieltischs befindet sich das sog. Hauptwerk, darüber und darunter sind zwei kleinere Werke, das Oberwerk und das Brustwerk; das Rückpositiv steht im Rücken des Spielers. Fernwerke sind von der eigentlichen Orgel getrennt im Raum aufgestellt. Das Pedalwerk ist auf die beiden Pedaltürme aufgeteilt, die links und rechts des Hauptwerks stehen. Dessen Pfeifen stehen nicht entsprechend einer chromatischen Tonleiter nebeneinander, sondern wechseln bei jedem Ton die Seite. Dadurch springt eine Melodie zwischen den Pedaltürmen hin und her, ein Effekt, der bei Aufnahmen nicht eingefangen werden sollte; durch größeren Mikrofonabstand oder zwei zusammengemischte Mikrofone ist dies zu vermeiden.
96
2 Schallquellen
2.2.2.6 Akustische Gitarre und E-Gitarre Die Gitarre gibt es heute in einer Typenvielfalt wie sonst nur bei wenigen Instrumenten. Grundsätzlich muss zwischen der akustischen und der Elektro- oder E-Gitarre unterschieden werden. Dazu existiert eine kombinierte Form dieser beiden Typen, nämlich die halbakustische oder Semi-Akustikgitarre. Alle traditionellen Gitarren, die ohne elektrische Tonabnahme und Tonverstärkung arbeiten, gehören zu den Akustikgitarren; der Begriff wurde erst geschaffen, als es notwendig wurde, diese Gitarren von der Gruppe der Elektro-Gitarren zu unterscheiden. Die Konzertgitarre oder Spanische Gitarre ist der klassische Typ der traditionellen akustischen Gitarre; sie ist mit sechs Nylonsaiten bespannt und wird mit den Fingerkuppen gezupft oder geschlagen. Akustik-Gitarren mit Stahlbesaitung, sog. Westerngitarren, werden entweder mit einem Plektrum oder mit den Fingern gezupft oder als Schlaggitarre geschlagen. Schlaggitarren haben neben dem Schallloch eine Schutzplatte. Neben der sechssaitigen Gitarre gibt es auch die voller klingenden zwölfsaitigen Instrumente; die beiden hohen Saiten sind hierbei im Einklang verdoppelt, die vier tiefen in der Oktave. Zwölfsaitige Gitarren haben Stahlbesaitung, weil Nylonsaiten zu weit ausschwingen. Das Schallloch ist der Ort größter Schallabstrahlung sowohl tiefer als auch hoher Frequenzkomponenten. Die Elektro-Gitarre oder E-Gitarre kombiniert akustische Tonerzeugung mit elektrischer Verstärkung und Formung des Tons. Sie verfügt über ein bis drei Tonabnehmer oder Pickups, die die Saitenschwingungen an verschiedenen Stellen abnehmen; der stegnahe Pickup gibt einen spitzeren, der Pickup am Griffbrett gibt einen weicheren Klang. E-Gitarren benötigen Stahlsaiten, weil die Pickups nur auf Metall ansprechen. Die Tonabnehmer sind im Allgemeinen elektromagnetische Wandler, deren Bauweise und Qualität Einfluss auf den Grundklang einer E-Gitarre nimmt. Es werden Einfachspulabnehmer, sog. Single Coil, und Doppelspulabnehmer, sog. Humbucker, verwendet; Single Coil-Pickups sind heller, metallischer im Klang, Humbucker-Pickups mittenbetonter. Die Humbucker-Systeme haben eine bessere Brummunterdrückung. Die verschiedenen Tonabnehmer einer Gitarre können einzeln oder parallel geschaltet werden. An der Gitarre selbst können nur einfache Klangformungen eingestellt werden. Aufwändigere Klangbeeinflussungen werden in separaten Effektgeräten, auch kombiniert mit dem Gitarrenverstärker, realisiert. Die Effektgeräte können auch für die Klangformung von Keyboards verwendet werden (Tab. 2/5). Es gibt die folgenden Grundtypen von E-Gitarren: Solidbody: Eine E-Gitarre benötigt vom Prinzip her keinen Resonanzkörper. Die Solidbody hat keinen schwingungsfähigen Resonanzkörper, sondern nur ein massives Brett (Solid Body) in der Form eines Resonanzkörpers oder in einer anderen Form. Die Solidbody ist die klassische Form der E-Gitarre und E-Baasgitarre. Akustikgitarre mit Pickup: Um die akustische Gitarre in die Musikpraxis der populären Musik trotz ihres schwachen Klangs einbeziehen zu können, wird sie auch mit Pickups versehen.
2.2 Musikinstrumente
97
Semiakustik-Gitarre: Ihr Korpus nimmt konstruktiv eine Zwischenstellung zwischen akustischer Gitarre und Solidody ein. Tab. 2/5. Gitarren-Effekte. Effekt (englisch)
Erläuterung
Chorus
Stimmvervielfachung durch gering zeitverzögerte und in der Tonhöhe versetzte Zumischung desselben Signals, subjektive Intensivierung Kompressor, der eine Tonverlängerung ohne abfallenden Pegel bewirkt Signalverzögerung nichtlineare Verzerrungen mit einstellbaren Eigenschaften einstellbare Filter zeitverzögerte Zumischung desselben Signals mit fester Verzögerung (KammfilterFrequenzgang), Verzögerungszeit schwingend sich verändernd (Vibrato-Effekte) Verhallung mit Hallgerät Lautsprecherkabinett mit rotierenden Lautsprechern, auch elektronisch Abschaltung in Signalpausen Verzerrungen wie ein Röhrenverstärker, d. h., zunehmend mit steigendem Pegel zeitverschobene Zumischung desselben Signals, Frequenzgang einer Kammfilterkurve, auch schwingend einstellbare Anhebung in einem stufenlos einstellbaren Frequenzbereich Klangbeeinflussung durch die Mundresonanz des Musikers bei jedem Ton automatisch durchlaufendes Filter mechanische Zusatzeinrichtung am Gitarrensteg oder elektronisches Effektinstrument Durchlauffilter, das individuell gesteuert wird
Compression, Sustain Delay Distorsion Equalizer, EQ Flanger
Reverb Leslie Noise Gate Over Drive, Tube Screamer Phaser Spectrum Talkbox Touch Wah Vibrato Wah Wah
E-Bass: Die Elektro-Bassgitarre ist in ihrer musikalischen Funktion zunächst ein Ersatz für den gezupften Kontrabass gewesen, bildet aber inzwischen eine Ergänzung der Gitarrenpalette im tiefen Tonbereich. Sie wird mit oder ohne Resonanzkörper gebaut. Doppelhalsgitarre (engl. Double neck guitar): Dieses Instrument vereint zwei Gitarren in einem Instrument; an dem verbreiterten Korpus sind zwei Hälse angebracht. Die Double Neck besteht entweder aus einer sechs- und einer zwölfsaitigen Gitarre oder einer sechssaitigen und einer Bassgitarre. Pedal Steel Gitarre: Von der Solidbody abgeleitetes Instrument mit zwei Hälsen mit jeweils 10 oder 12 Saiten. Die linke Hand führt einen Gleitstahl (steel bar) zur Saitenverkürzung, mit der rechten Hand wird durch Zupfringe gezupft. Mit acht Pedalen ist das auf vier Beinen waagrecht liegende Instrument durch verschiedene Effekte beeinflussbar. Elektro-Hawaiigitarre: Der charakteristische Glissando-Klang der Hawaii-Gitarre entsteht dadurch, dass auf dem Griffbrett ein sog. Kamm die Saiten niederdrückt, der gleitend von
98
2 Schallquellen
Griff zu Griff bewegt wird. Dieser Effekt kennzeichnet auch die Pedal-Steel-Gitarre und ist mit dem Slide-Spiel auch bei anderen Gitarren möglich. Bei der Aufnahme der E-Gitarren kann der Klang entweder vom Gitarrenlautsprecher mit Mikrofon abgenommen oder als elektrisches Signal direkt vom Gitarrenverstärker übernommen werden (Direct Injection). Vielfach werden auch beide Möglichkeiten kombiniert. Für den E-Bass ist die elektrische Direktabnahme üblich. Bei der Direktabnahme und bei der Mikrofonabnahme können Sicherheitsprobleme dadurch entstehen, dass bei gleichzeitiger Berührung fehlerhaft verarbeiteter, Spannung führender Geräteteile der Gitarrenanlage und des geerdeten Mikrofons gefährliche Körperströme fließen können. Durch Verwendung von Trenntransformatoren für die Instrumente oder sog. DI-Boxen können diese Gefahren ausgeschlossen werden (siehe hierzu Kap. 8.6). 2.2.2.7 Schlaginstrumente Schlaginstrumente, Perkussion oder engl. percussion besitzen, anders als Streich- und Blasinstrumente, keinen quasistationären Zeitabschnitt in ihrem Klang. An den Anschlagvorgang schließt sich wie bei Klavier und Cembalo unmittelbar der Ausklingvorgang an. Die meisten Schlaginstrumente werden durch geräuschhafte und unharmonische Schwingungskomponenten gekennzeichnet, damit hat ihr Klang keinen deutlichen Tonhöhencharakter; im gesamten Klang überwiegen meist Geräuschanteile. Für einige Schlaginstrumente sind allerdings quasiharmonische Klangkomponenten im Ausklingvorgang charakteristisch, die einen Tonhöhencharakter erzeugen. Bei der Pauke reicht das Frequenzspektrum des Anschlags bis etwa 4 kHz, die stärksten Komponenten liegen unter 1 kHz; im Ausklingvorgang bewirkt eine Reihe quasiharmonischer Teiltöne, insbesondere der zweite Teilton, dass eine bestimmbare Tonhöhe hörbar wird. Dadurch kann die Pauke eine Bassstimme spielen. So wird sie u. a. in der Barockmusik und teilweise auch in der klassischen Musik als spezifisches Bassinstrument der Blechbläser eingesetzt. Auch die Tom-Toms lassen eine diskrete Tonhöhe erkennen. Große und Kleine Trommel besitzen keine bestimmbare Tonhöhe, sondern nur Geräuschcharakter. Die wichtigsten Frequenzkomponenten liegen bei der Großen Trommel zwischen 100 und 1.500 Hz, bei der Kleinen Trommel zwischen 100 und 8.000 Hz. Auch das Becken hat keine bestimmbare Tonhöhe. Beim Anschlag baut sich der geräuschartige Klang langsam auf, um erst nach etwa 0,4 s seine größte Intensität zu erreichen. Das Spektrum reicht von 0,8 bis 10 kHz, Komponenten außerhalb dieses Frequenzbereichs sind sehr schwach. Einzelne Frequenzbereiche im Spektrum treten hervor. Auch beim Triangel liegen die einzelnen Klangkomponenten so dicht und unharmonisch, dass sich keine bestimmbare Tonhöhe ausbildet. Das Spektrum reicht von 1 bis 17 kHz mit hervortretenden Komponenten zwischen 12 und 14 kHz, damit hat das Triangel unter den Orchesterinstrumenten das nach hohen Frequenzen hin am weitesten reichende Spektrum.
2.2 Musikinstrumente
99
2.2.3 Schallabstrahlung Schallquellen, die klein gegenüber den Wellenlängen des abgestrahlten Schalls sind, strahlen den Schall weitgehend ungerichtet nach allen Seiten ab; größere Schallquellen mit den Dimensionen im Bereich der hörbaren Schallwellen konzentrieren die Schallabstrahlung auf eine oder mehrere Richtungen. Da die Wellenlängen der Spektralkomponenten musikalischer Klänge zwischen etwa 10 m und 2 cm liegen können, bündeln die Instrumente den Schall frequenzabhängig, dabei teilweise auch in sehr komplexer Form. Als grobe Faustregel kann gelten, dass Frequenzen im Bassbereich unter etwa 250 Hz kugelförmig ungerichtet, Frequenzen darüber zunehmend gerichtet abgestrahlt werden. Die gerichtete Schallabstrahlung wirkt sich auf die Klangfarbe und den Schallpegel im Direktfeld mehr oder weniger stark aus, nicht aber im Diffusfeld. Da die Mikrofone aber meist im Direktfeld aufgestellt werden, hat die gerichtete Schallabstrahlung der Instrumente bei Tonaufnahmen größere Bedeutung als beim direkten Hören. Die gerichtete Schallabstrahlung oder Richtcharakteristik der Instrumente macht es möglich, mit dem Mikrofon den Klangcharakter des Instruments bei der Aufnahme mitzubestimmen. Mikrofonstandort und Richtcharakteristik der Instrumente haben einen größeren Einfluss auf die Aufnahme als die die Auswahl des Mikrofons; dies gilt in erster Linie bei relativ geringem Mikrofonabstand und besonders bei der Anwendung des Einzelmikrofonverfahrens (siehe Kap. xxxx). Stark gerichtete Abstrahlung lässt den Klang eines Musikinstruments auch über größere Entfernungen noch präsent erscheinen, sie erhöht damit die Lokalisierbarkeit der Instrumente, verringert aber gleichzeitig die Klangverschmelzung z. B. bei einem Sinfonieorchester. Gerichtete Klangabstrahlung kann den Hallradius erheblich vergrößern, im höheren Frequenzbereich der Blechblasinstrumente durchaus um den Faktor 10, im Schnitt etwa um den Faktor 1,5 bis 2 (siehe Kap. 1.3.4). Die folgenden Darstellungen der gerichteten Klangabstrahlung der Instrumente zeigen die Bereiche, innerhalb derer der Pegel um nicht mehr als 3 dB unter den Maximalwert abfällt. Die dargestellten Bereiche sind, etwas vereinfacht gesagt, also die Bereiche, innerhalb derer eine Klangfarbenänderung praktisch nicht wahrnehmbar ist. Die Betrachtung muss sich dabei auf ausgewählte Frequenzen oder Frequenzbänder beschränken, die einen guten Einblick in das Schallabstrahlungsverhalten geben. [Meyer, 2015], [Albrecht, 2017] 2.2.3.1 Streichinstrumente Die Richtcharakteristiken der Streichinstrumente kommen dadurch zustande, dass Decke und Boden des Korpus, in einzelnen Zonen mit unterschiedlicher Amplitude und Phase schwingen; hinzu kommt die Abstrahlung des im Resonanzkörper eingeschlossenen Luftvolumens über die sog. f-Löcher, das einen Helmholtz-Resonator darstellt (siehe Kap. 1.2.2.4), Da die Form der Instrumente weitgehend standardisiert ist, können allgemein gültige Abstrahleigenschaften festgestellt werden, obwohl auch individuelle Eigenschaften der Holzstruktur und der Ausarbeitung darauf Einfluss nehmen. Grundsätzlich ist die Richtwirkung bei den Streichinstrumenten nicht so ausgeprägt wie bei den Blasinstrumenten; sie ist komplexer und stärker vom Einzelinstrument abhängig. Kleine Veränderungen des Mikrofonstandorts
100
2 Schallquellen
wirken sich nicht so deutlich aus. Der Wahl des Mikrofontyps kommt unter diesen Umständen eine größere Bedeutung zu. Eine Besonderheit, die sich bei Tonaufnahmen auswirken kann, sind die teilweise in schmalen Winkelbereichen wirksamen starken Einbrüche in der Schallabstrahlung. Das wird z. B. deutlich beim Frequenzgang der Geige in Abb. 2/18: Bei der Aufnahme im Nahbereich mit nur einem Mikrofon ist der Frequenzgang sehr stark zerklüftet, fast einer Kammfilterkurve vergleichbar. Bei der Aufnahme mit sechs Mikrofonen, angeordnet in einem größeren Winkelbereich, und anschließender Mischung, also Mittelung der Frequenzgänge, ist der resultierende Frequenzgang deutlich geglättet. Das Diffusfeld in einem Raum bildet in gleicher Weise einen Mittelwert über die Frequenzgänge in den verschiedenen Richtungen und glättet den Frequenzgang. Die stark zerklüftete Frequenzkurve kann zu einer ungewohnten Klangschärfe, einem metallischen Klang führen, der beim natürlichen Hören wegen des hierbei größeren Diffusschallanteils nicht oder weniger in Erscheinung tritt. Für die Praxis ergibt sich daraus, dass ein gewisser Diffusschallanteil vorteilhaft ist; dies lässt sich durch einen eher größeren Mikrofonabstand erreichen. Es zeigt auch, dass für Aufnahmen von Streichinstrumenten eher Räume mit einem gewissen Nachhall gewählt werden sollten. Künstliche Verhallung von Streichinstrumenten bei Nahaufnahmen vermeidet dem einem Kammfilter ähnlichen Frequenzgang nur, wenn ein gesondertes Hallmikrofon in etwas größerer Entfernung in einem nicht zu trockenen Raum aufgestellt wird..
Abb. 2/18. Frequenzkurven eines Violinklangs im Direktfeld, gemessen mit einem Mikrofon in Haupt abstrahlrichtung bzw. mit 6 Mikrofonen mit anschließender Mittelung in anderen Richtungen [Meyer, 1992].
2.2 Musikinstrumente
101
Bis etwa 500 Hz ist die Schallabstrahlung weitgehend kugelförmig. Darüber verengt sie sich allmählich, um zwischen 1 und 1,2 kHz senkrecht zur Decke des Resonanzkörpers eine deutliche Bündelung zu erfahren. Darüber wird der Abstrahlbereich insgesamt wieder breiter, spaltet sich dabei aber wechselnd in einzelne Abstrahlbereiche auf, zwischen denen schmale Zonen geringerer Abstrahlung liegen (Abb. 2/19). Die Abstrahlung etwa senkrecht über der Decke ist die günstigste Richtung für die Aufnahme; zum einen wird in diese Richtung bevorzugt der Schall des Hauptformanten des Instruments abgestrahlt, zum anderen ist in diesem Winkelbereich der Abstand zwischen dem Geräuschpegel des Instruments und seinen harmonischen Komponenten am größten.
Abb. 2/19. Abstrahlcharakteristiken der Violine und Viola, nach [Meyer, 2015].
Abb. 2/20. Abstrahlcharakteristik des Violoncellos, nach [Meyer, 2015].
Allseitig ungerichtet abgestrahlt wird Schall beim Violoncello nur bis etwa 200 Hz wegen der größeren abstrahlenden Flächen. Um 1 kHz wird der Schall bevorzugt nach oben abgestrahlt, für Frequenzen zwischen 2 und 5 kHz teilt sich die Richtwirkung in zwei Zonen, eine zum
102
2 Schallquellen
Boden, eine senkrecht nach oben gerichtet (Abb. 2/20). Gerade dieser Frequenzbereich trägt aber wesentlich zum Klangcharakter dieser Instrumente bei. Bei gleicher Grundtonhöhe wirken die Violoncelli tatsächlich oft schärfer als die Violinen; eine Mikrofonposition über dem Violoncello kann diesen durchaus wünschenswerten Unterschied hervorheben. Schon von Frequenzen um 100 Hz an aufwärts strahlt der Kontrabass den Schall gerichtet ab. Dabei sind für die einzelnen Frequenzbereiche wechselnde Hauptabstrahlrichtungen festzustellen, die sich teilweise auch in zwei getrennte Zonen aufspalten. Sie liegen jedoch in dem Halbraum vor der Decke des Instruments. 2.2.3.2 Holzblasinstrumente Die Holzblasinstrumente strahlen die Klangkomponenten bis rund 1 kHz bevorzugt aus den Grifflöchern ab, also senkrecht zur Schallröhre; mit ansteigender Frequenz neigt sich der Abstrahlbereich zunehmend zur Schallstürze hin. Die höheren harmonischen Komponenten werden schließlich besonders aus der Schallstürze abgestrahlt (Abb. 2/21).
Abb. 2/21. Abstrahlcharakteristik der Oboe und Klarinette, nach [Meyer, 2015].
Die Richtwirkung ist bei den Holzblasinstrumenten so ausgeprägt, dass sie bei Tonaufnahmen eine weit wichtigere Rolle spielt als die Wahl des Mikrofontyps. Es ist möglich, allein durch die Mikrofonaufstellung zwischen einem weichen, vollen Klang vor den Grifflöchern und einem scharfen, engen, aber auch präsenterem Klang vor der Stürze sowie allen Klangcharakteristiken dazwischen zu wählen. Mit zunehmender Entfernung vom Instrument werden diese Unterschiede immer geringer, weil die Abstrahlung aus allen Richtungen durch den Diffusschall zunehmend integriert wird.
2.2 Musikinstrumente
103
Bei der Großen Flöte oder Querflöte verursacht das Zusammenwirken der Schallabstrahlung von Schallstürze, dem Fußstück, und Anblasloch auch schon unter 1 kHz eine Aufspaltung der Schallabstrahlung in einzelne getrennte Zonen. Der Klang aus dem Fußstück wirkt so eng und scharf, dass Mikrofone in diesem Bereich im Allgemeinen nicht aufgestellt werden. Über dem Mundstück ist relativ viel Atemluft hörbar, was z. B. bei Jazzflötisten durchaus erwünscht sein kann. Rund und weich ist der Klang über den Grifflöchern. Beim Fagott ist zu beachten, dass die Stürze nach oben gerichtet ist, hohe Klangkomponenten entsprechend auch nach oben abgestrahlt werden. Über dem Fagott wirkt sein Klang aber u. U. etwas eng. Bei den Saxophonen, mit Ausnahme des Sopransaxophons, fallen die Zonen der Abstrahlung tieferer Klangkomponenten aus den Grifflöchern und höherer Komponenten aus der Stürze im Nahbereich in derselben Richtung zusammen. 2.2.3.3 Blechblasinstrumente Bei Blechblasinstrumenten wird der Schall praktisch ausschließlich von der Schallstürze abgestrahlt. Sie ist wesentlich größer als bei Holzblasinstrumenten und vermag deshalb den Schall verstärkt zu bündeln. Zudem ist die Schallröhre zwischen Mundstück und Stürze völlig geschlossen, von ihr wird also praktisch kein Schall abgestrahlt. Verglichen mit den Holzblasinstrumenten wird der Schall schon bei tieferen Frequenzen gebündelt; bereits bei Frequenzen um 500 Hz ist die Richtwirkung deutlich. Die Richtcharakteristik ist, abgesehen vom Horn, rotationssymmetrisch. Durch die Wahl des Mikrofonstandorts kann wie bei den Holzblasinstrumenten im Direktschallbereich, also innerhalb des Hallradius, in erheblichem Umfang die Klangcharakteristik gewählt werden; auch hier ist der Mikrofonstandort wesentlich wichtiger als der Mikrofontyp (Abb. 2/22). Der Klangcharakter der Instrumente direkt vor der Stürze ist hell bis scharf, aber im Gegensatz zu den Holzblasinstrumenten ist dieser Mikrofonstandort durchaus für die Tonaufnahme zu bevorzugen, da tiefe und mittlere Frequenzkomponenten im Gegensatz zu den Holzblasinstrumenten auch von der Stürze abgestrahlt werden. Die Abstrahleigenschaften des Horns weisen einige Besonderheiten auf, da das Instrument im Gegensatz zur Trompete und Posaune schräg nach hinten und mit der rechten Hand im Schalltrichter gehalten wird. Das führt zu einem typisch diffusen, indirekten Hornklang, der bei den Komponisten auch zu einer entsprechenden musikalischen Verwendung führt; es verbindet klanglich die Gruppe der Holz- mit derjenigen der Blechbläser, oft wird es speziell für Ferneffekte verwendet. Für das Horn im Orchester problematisch ist deshalb das Einzelmikrofonverfahren, da das Mikrofon hierbei im Nahfeld vor die Stürze aufzustellen ist; damit wird die typische Klangcharakteristik im Orchesterklang nicht horngemäß, die Hörner klingen untypisch präsent. Die Abstrahlcharakteristik des Horns ist verglichen etwa mit derjenigen der Posaune, die in derselben Tonlage spielt, relativ komplex. Die Schallbündelung im Bereich hinter dem Spieler beginnt bereits bei etwa 150 Hz.
104
2 Schallquellen
Abb. 2/22. Abstrahlcharakteristik der Blechblasinstrumente ohne Horn, nach [Meyer, 2015].
2.2.3.4 Konzertflügel Die Klangabstrahlung eines Konzertflügels ist sehr komplex, klare Angaben wie bei Blasoder Streichinstrumenten sind nur bedingt möglich; konkrete Empfehlungen für bestimmte Mikrofonstandorte sind im Einzelfall kritisch zu prüfen. Dafür kommt der Balance zwischen Direkt- und Raumschall, also dem Mikrofonabstand, eine besondere Wichtigkeit zu. Der geöffnete Konzertflügel strahlt für das Publikum den Schall insbesondere über die Reflexionen an dem um 45° geöffneten Deckel ab, die hohen Frequenzen am stärksten in dem Winkelbereich von ± 5° um die Mittelachse, ein deutlicher Höhenabfall ergibt sich außerhalb ± 30°, tiefere Frequenzen werden allseitig abgestrahlt. Die wahrgenommene Gesamtlautstärke wird von der Richtung praktisch nicht beeinflusst, ebenso wenig wie von dem geschlossenen Deckel, der allerdings hohe Frequenzen deutlich bedämpft. Im Nahbereich der Mikrofonaufnahme sind die Verhältnisse komplexer, da hier die direkte Abstrahlung der Saiten, die Bodenreflexionen des Resonanzkörpers und mit abnehmendem Abstand zunehmende Anschlagsgeräusche der Hämmer hinzukommen, je nach Position des Mikrofons.
2.2 Musikinstrumente
105
Gerade die Balance zwischen dem Hammergeräusch, das einen deutlichen Anschlag vermittelt, und dem Klang der schwingenden Holzteile ist hier maßgebend. Nimmt man die Unterschiede zwischen einzelnen Instrumenten hinzu, wird die Frage der Schallabstrahlung noch komplexer, so dass in der Praxis die Suche einer optimalen Mikrofonposition sich weniger auf ein theoretisches Vorwissen stützen kann als bei anderen Instrumenten. 2.2.3.5 Kirchen- und Konzertorgel Die Kirchen- und Konzertorgel ist mit ihrer körperlichen Ausdehnung und konstruktiven Gestalt das größte Musikinstrument; die konstruktiven Unterschiede zwischen den verschiedenen Instrumenten und ihre Ausdehnung sind so groß, dass allgemeingültige nützliche Aussagen zur Schallabstrahlung kaum möglich sind. Orgeln sind grundsätzlich angepasste Einzelanfertigungen. Hinzu kommt, dass die einzelnen Orgelpfeifen des Pedals chromatisch Ton für Ton abwechselnd auf die beiden Pedaltürme aufgeteilt sind, was keinen musikalischen, damit hörenswerten Sinn ergibt. Die große Kirchenorgel als Musikinstrument ist konzipiert als komplexes, den Raum klanglich füllendes Instrument, bei dem die örtliche Herkunft des Klangs keine Rolle spielt und auch nicht spielen soll. Ihre Aufgabe erfüllt die Orgel in erster Linie in der klanglichen Ausgestaltung des Gottesdienstes und einer emotionalen Einbindung seiner Besucher. Aus diesem Grund wird auch bei Orgelaufnahmen größter Wert auf die Vermittlung eines eindrucksvollen Raumklangs gelegt, für den die Abstrahlcharakteristik eine untergeordnete Bedeutung hat.
2.2.4 Elektronische Instrumente Elektronische Instrumente und Verfahren sind heute aus der Musikproduktion nicht mehr wegzudenken, sie tragen geradezu den Bereich der Popularmusik, weite Teile der Filmmusik, von Musicals, Tonunterlegungen von Fernsehspielen, Werbung usw. Es handelt sich dabei nicht nur um Musikinstrumente im klassischen Sinn, sondern in hohem Maße um die Musikproduktion und Klangmanipulation in komplexen Verfahren. Ermöglicht hat diese Entwicklung die digitale Tonverarbeitung mit sog. DSPs, digitalen Signalprozessoren oder auch digitalen Sound-Prozessoren, die eine Bearbeitung von Signalen, z. B. auch analogen Audiosignalen, kontinuierlich in Echtzeit ermöglichen. Nicht vergleichbar mit traditionellen akustischen Instrumenten, die nach einer teils Jahrhunderte dauernden Entwicklungsphase weitgehend standardisiert sind und nur in Details noch weiterentwickelt werden, verläuft die Entwicklung bei elektronischen Instrumenten und Verfahren parallel mit der Entwicklung der Digitaltechnik geradezu stürmisch. In kurzen Abständen erscheinen neue Geräte und Softwaretools auf dem Markt und verdrängen die bisherigen. Deshalb werden hier nur grundlegende Verfahren und Begriffe behandelt, beginnend mit einem kurzen Rückblick auf die historische Entwicklung, aus der auch heute noch wichtige Instrumente geblieben sind, zumindest als Vorbild für digitale Lösungen.
106
2 Schallquellen
2.2.4.1 Historische Entwicklung Elektroakustische Instrumente und ihre Musik entwickelten sich einerseits aus dem Wunsch von Komponisten und Musikern, neue Klänge für eine neue Musik zu erzeugen, andererseits einfach aus den neuen Möglichkeiten, die die Elektrotechnik seit den 1920er Jahren schuf, also Tongeneratoren, Verstärker, Filter, Motoren u. a. Schon bald wurden mit Strom betriebene Instrumente entwickelt, darunter 1928 die Ondes Martinot, 1930 das Trautonium (siehe dazu Kap. 2.2.4.3) und 1934 die Hammond-Orgel. Mit der Erfindung des Tonbandgeräts in den 1940er Jahren wurde es möglich, aufgenommene Töne bei der Tongebung abzuspielen wie etwa beim Mellotron und komplexe Klangentwicklungen in kleine Schritte zu zerlegen, um sie dann hintereinander zu bearbeiten und auf mehrspurigen Tonbandgeräten zusammenzuführen. Aus diesen Entwicklungen gingen im Bereich klassischer Musik zwei Strömungen hervor: Die Elektronische Musik, die Klänge synthetisierte und einen Schwerpunkt beim Westdeutschen Rundfunk hatte, und die in Paris entwickelte musique concrète, die sich bevorzugt mit Montagen von aufgenommenen Geräuschen und Klängen befasste. Zu den ersten rein elektronischen Musikinstrumenten gehört das 1930 von Trautwein entwickelte Trautonium, das über ein Bandmanual die Frequenz einer Sägezahnschwingung steuert, und mit dem zweimanualigen Mixturtrautonium von Sala weiterentwickelt wurde; es baut auf subharmonische Schwingungen, die neue ungewöhnliche Klangfarben ermöglichen, sowie auf weiteren den Klang gestaltenden Komponenten. Subharmonische Schwingungen sind Vielfache der Wellenlänge des Grundtons im Gegensatz zu Harmonischen, die Vielfache der Frequenz des Grundtons sind. Salas Instrument erlangte in der Filmmusik zu Hitchcocks Film „Die Vögel“ bleibende Bedeutung, namhafte Komponisten haben für diese Instrumente komponiert, die aber dennoch keine Verbreitung gefunden haben. In der Entwicklung der Popularmusik haben einige historische Klassiker, auch Vintages genannt, größere Bedeutung erlangt und in gewissem Umfang auch behalten: Hammondorgel Die Hammondorgel, auch kurz Hammond, ist eine nach ihrem Erfinder benannte elektromechanische Orgel. 1934 erfunden und in den Vereinigten Staaten von Amerika zunächst als Ersatz für die Pfeifenorgel gedacht, wurde sie über den Einsatz als Unterhaltungsinstrument schnell zum Instrument des Jazz. Als Orgelersatz in amerikanischen Kirchen verwendet, fand sie in die Gospel-Musik Eingang. Von dort breitete sich das Instrument in Rock, Soul, Funk, Reggae u. a. aus. Popularität erlangte sie in den 1960er und 1970er Jahren, als viele Bands das Instrument benutzten, v. a. das ab 1955 produzierte legendäre Modell B-3 mit Lesliet. Aber auch heute noch ist ihr unverwechselbarer Klang bzw. dessen digitale Simulation in der Popularmusik verbreitet. Allen Instrumenten gemeinsam ist der Aufbau mit zwei Manualen und Pedal analog einer einfachen Kirchenorgel. Das Obermanual wird als Swell, das Schwellwerk der Kirchenorgel, das Untermanual als Great, als Hauptwerk der Orgel bezeichnet. Zur Tonerzeugung rotieren metallene Tonräder mit einem gewellten Rand vor elektromagnetischen Tonabnehmern, für jeden Ton der Klaviatur ein Rad mit der Anzahl von Zähnen, die seiner Frequenz entspricht. Auf Grund der Form der Tonräder ergibt sich eine sinusähnliche Schwingung, die durch Filterschaltungen weiter geglättet wird, so dass praktisch eine Sinusform entsteht, die Wiedergabe erfolgt über einen Lautsprecher, meist in Verbindung mit einem Leslie-Kabinett, einem sich drehenden Lautsprechersystem, das durch den
2.2 Musikinstrumente
107
Doppler-Effekt den Klang in der für die Hammondorgel typischen Weise moduliert (siehe auch Kap. 6.6.6). Mellotron Das Mellotron ist ein elektromechanisches Tasteninstrument, das um 1960 erfunden wurde. Es arbeitet mit bespielten Tonbändern. Jeder Taste ist dazu ein eigener Tonbandstreifen zugeordnet, der auf Tastendruck abgespielt wird und z. B. originale Streicher- oder Bläsertöne enthalten kann. Das Mellotron ist ein charakteristisches Instrument des Progressive Rock der I 970er Jahre, es nimmt die Idee des Samplers vorweg. Clavinet Das Clavinet ist ein analoges, elektromechanisches Keyboard, der Klang ähnelt dem eines Cembalos. Es wurde besonders in den 1970er Jahren bei vielen Funk- und Rock-Aufnahmen eingesetzt. Das Instrument folgt dem Prinzip des Clavichords, einem bis ins 18. Jahrhundert verbreiteten Tasteninstrument. Es hat für jeden Ton eine stimmbare Saite, die an einem Ende bedämpft ist. Unter jeder Taste der Klaviatur befindet sich eine Tangente, die beim Drücken der Taste die Saite auf einen kleinen Block schlägt. Die Saite schwingt nun im ungedämpften Teil und wird dort über einen elektromagnetischen Tonabnehmer abgenommen. Nach Loslassen der Taste wird die gesamte Saite wieder bedämpft. Lautstärke und Charakter des Tons können durch die Anschlagstärke beeinflusst werden. Auf Grund der Anschlagsgeräusche entsteht ein charakteristischer Klangeinsatz, der von vielen Spielern erwünscht ist und als wichtiges Element des Klangs aufgefasst wird. Fender Rhodes-Piano und Wurlitzer-E-Piano Wie beim Clavinet werden über eine Klaviatur mechanische Schwingungen erzeugt, beim Fender Rhodes aber von Stäben, elektromagnetisch abgenommen, verstärkt und über Lautsprecher wiedergegeben. Beim Wurlitzer-E-Piano erfolgt die Tongebung durch Metallzungen, die eine Platte eines Kondensators darstellen. Die Instrumente werden nicht mehr hergestellt, fanden jedoch im Jazz, Funk, Pop u. a. der 1960er bis 1980er Jahre Verwendung. Der RhodesKlang ist wegen unharmonischer Oberschwingungen glockenähnlich, das Wurlitzer-Piano ist im Forte hart und durchsetzungsfähig, im Piano eher weich und dem Vibrafon ähnlich. E-Gitarre Die E-Gitarre gehört mit ihrer akustischen Klangerzeugung, aber elektrischen Verstärkung und Klangformung wie Hammondorgel und Clavinet zu den elektromechanischen Instrumenten, den sog. Elektrofonen. Zur E-Gitarre siehe Kap. 2.2.2. 2.2.4.2 Elektronische Klangerzeugung Um das komplexe Feld der modernen elektronischen Instrumente und Verfahren zu verstehen, kann man zwischen Klangsynthese und Klangveränderung oder -manipulation unterscheiden. Synthesemethoden stellen dabei Techniken dar, mit deren Hilfe Klänge elektronisch, d. h. heute, digital erzeugt werden, bei den Methoden der Klangveränderung handelt es sich um Strategien, vorhandene akustisch oder elektronisch erzeugte Klänge zu verän-
108
2 Schallquellen
dern. Für den Musiker ist es allerdings oft unerheblich, wie die Klänge tatsächlich erzeugt werden. Elektronische Klangerzeuger generieren Klänge, meist gesteuert durch eine Klaviatur, ein Keyboard, wie man bei elektronischen Instrumenten sagt, aber auch durch ein digitales Steuersignal, meist im MIDI-Format. Es gibt eine Reihe von Prinzipien zur Klangerzeugung, von denen hier nur die wichtigsten erläutert sind. Die vielfach angewandte subtraktive Synthese geht bereits von vorhandenen Sounds aus, die sie verändert, für den Musiker ist dies allerdings unerheblich. Bei den Verfahren der Klangveränderung im engeren Sinn kommen wieder akustisch bzw. mechanisch erstellte Klänge ins Spiel, die verändert werden. Zur Klangveränderung siehe insbesondere auch Kap. 6 6. Die wichtigsten Prinzipien der Klangerzeugung sind: Additive Synthese: Bei der additiven Synthese oder Fourier-Synthese wird das Klangspek trum aus einem Grundton und den dazu harmonischen Obertönen zusammengesetzt, also aus sinusförmigen Tönen mit Frequenzen, die ein Vielfaches der Grundfrequenz haben. Jedem Einzelton wird Amplitude, Frequenz und Phase zugewiesen; um die Klänge lebendiger zu machen, kann jeder Tonkomponente eine eigene Hüllkurve zugeordnet werden. Diese Synthese folgt dem Fourierschen Prinzip, wonach jede Gestalt einer periodischen Schwingung aus einzelnen Sinuskomponenten zusammengesetzt werden kann (siehe Kap. 1.1.2.3). Subharmonische Klangstrukturen: Natürliche Schallquellen wie akustische Instrumente erzeugen Töne, die in der Regel aus einem Grundton mit Obertönen bestehen, deren Frequenzen ganzzahlige Vielfache der Frequenz des Grundtons sind, sie sind sog. harmonische Teiltöne. Herkömmliche elektronische Klangerzeuger folgen in der Regel diesem Prinzip. Im Gegensatz dazu werden subharmonische Klangstrukturen durch ganzzahlige Frequenzteilungen aus dem Grundton abgeleitet, ihre Frequenzen betragen also 1/2, 1/3, 1/4 usw. der Frequenz des Grundtons und bilden die sog. Untertöne bzw. werden zu sog. subharmonischen Mixturen zusammengesetzt. Subharmonische Klangstrukturen weisen einen sehr eigenen, ungewohnten Klang auf, der so in der traditionellen akustischen Welt nicht vorkommt. Subharmonische Mixturen wurden um 1930 erstmalig von Trautwein mit seinem Mixturtrautonium realisiert, das später von Sala weiterentwickelt wurde. In den 1960er Jahren entstanden in Berlin verschiedene Nachbauten und Weiterentwicklungen solcher Instrumente, darunter das im Unterschied zum Trautonium auf einer normalen Klaviatur spielbare sog. Subharchord [Schreiber, 1964], das als einer der ersten Hybrid-Synthesizer, d. h., teils analog, teils digital arbeitende Klangerzeugung, betrachtet werden kann. Insgesamt hat sich das Prinzip der subharmonischen Klangstrukturen trotz seiner vielfältigen und interessanten Klangmöglichkeiten bisher jedoch nicht breit etablieren können. Physical Modeling: Diese Methode der Klangerzeugung versucht, den physikalischen Vorgang der Klangerzeugung selbst durch Algorithmen zu erfassen, für einen Streicherklang etwa wird die Saitenanregung durch den Bogen, die Schwingung der Saiten und die Funktion des Resonanzkörpers rechnerisch dargestellt. Dies kann von einfach bis sehr aufwändig geschehen. Zu diesem Verfahren wird auch die sog. Karplus-Strong-Synthese gezählt; dieser Algorithmus wird besonders zur Bildung von Klängen von Saiteninstrumenten benutzt. Als Ausgangsmaterial werden kurze Zeitabschnitte eines Geräuschs verwendet, die verändert und in der erforderlichen Anzahl pro Sekunde wieder zu einer periodischen Schwingung zusammengesetzt werden.
2.2 Musikinstrumente
109
Wavetable-Synthese: Man versteht unter dieser Synthese die Klangerzeugung auf der Basis fertiger, digitaler Schwingungsformen, die entweder durch additive oder subtraktive Nachbearbeitung geformt und zu Klängen verarbeitet werden. Diese Schwingungen liegen als fest abgespeicherte Zahlentabellen, sog. wavetables, im ROM-Speicher des Synthesizers vor. Das Verfahren braucht deutlich weniger Rechenleistung als z. B. Granularsynthese oder Physical Modeling. Subtraktive Synthese: Bei der subtraktiven Synthese geht man von sehr obertonreichen Wellenformen aus, z. B. einer sägezahnförmigen Schwingung, die alle Teiltöne enthält (siehe dazu auch Kap. 1.1.1.3). Mit einfacher oder mehrfacher Filterung werden bestimmte Teile des Spektrums entfernt. Das Filter kann von außen zeitabhängig steuerbar sein, damit es durch Modulationen, Hüllkurven o. a. lebendiger, echter wirkt. Dieses Verfahren ist auch analog gut realisierbar und gehört zu den ersten, vielfach angewandten Verfahren, stellt aber eigentlich ein Verfahren der Klangveränderung dar. 2.2.4.3 Verfahren der elektronischen Klangveränderung Eine Vielfalt von Verfahren wird für die Veränderung vorhandener Klänge oder Sounds angewendet, siehe dazu auch Kap. 6.2 bis 6.6: Amplitudenmodulation: Bei der Amplitudenmodulation oder AM z. B. einer Schwingung wird die Amplitude bzw. die Lautstärke periodisch durch eine zweite Schwingung verändert, indem die Schwingungen miteinander multipliziert werden, musikalisch ausgedrückt ist dies ein sog. Tremolo. Erfolgt die Modulation eines Sinustons ebenfalls durch einen Sinuston mit mehr als etwa 20 Hz, so werden mit den zwei Sinustönen mehrere weitere hörbare Teiltöne erzeugt. Dadurch entsteht aus einer Frequenz von z. B. 1 kHz und einer Modulationsfrequenz von 400 Hz ein Spektrum aus der Summe und der Differenz der beiden Frequenzen, also zusätzliche Sinustöne mit 600 und 1,4 kHz. Mit AM werden insbesondere komplexe Spektren verändert bzw. verzerrt. Analog wird eine AM realisiert, indem zwei Signale gemischt und über eine nichtlineare Kennlinie übertragen werden. Überträgt man einen einzelnen Sinuston über eine solche Kennlinie, so entstehen neue Töne mit dessen ganzzahligen Vielfachen. Frequenzmodulation: Bei der Frequenzmodulation oder FM, die analog mit einfachen Mitteln zu realisieren ist, wird eine Schwingung, allg. ein Klang durch eine zweite Schwingung in seiner Tonhöhe periodisch verstimmt, bei wenigen Frequenzänderungen pro Sekunde musikalisch ein Vibrato. Wird bei diesem Verfahren eine Schwingung mit einer Frequenz von mehr als 20 bis 30 Hz verstimmt, entstehen neue hörbare komplexe Schwingungen. Die FM wurde in den 1980er Jahren in der Popmusik zu einer mit Synthesizern häufig benutzten Methode. Sie ist allerdings eine schwer zu kontrollierende und in ihrer Wirkung kaum vorherzusagende Art der Klangveränderung. Phasenmodulation: Die in ihrer klanglichen Wirkung der Frequenzmodulation ähnliche Phasenmodulation oder PM wird bei den digitalen Verfahren der Klangbearbeitung bevorzugt; analog ist PM nur aufwändig zu realisieren. Die zu modulierende Schwingung wird dabei mit derselben Schwingung, deren Phase aber zwischen 0° und 180° schwingt, moduliert. Auch die Ergebnisse dieser Form der Modulation sind nicht einfach vorauszusehen.
110
2 Schallquellen
Granularsynthese: Bei diesem digitalen Verfahren wird eine komplexe Schwingung z B. von einem Instrument in viele sehr kurze Klangabschnitte zerschnitten, die dann über Rechenanweisungen, sog. Algorithmen, in Gestalt, Wiederholungsmustern und Reihenfolge verändert und neu zusammengesetzt werden. Die Granularsynthese ist wohl das radikalste Verfahren der Klangveränderung. Die Zeitabschnitte sind mit Werten unter 50 ms so kurz, dass sie nicht mehr als Impulse empfunden werden, sondern als Klangfarben. Die grains, also die Mikro-Klangabschnitte, können in vielfältigster Weise bearbeitet und verändert werden, wiederholt, gedreht, überlappt, vertauscht usw. Diese Technik eröffnet ungeahnte Möglichkeiten der Klangveränderung, besser Neugestaltung, das Verfahren besitzt ein großes kreatives Potential: Man kann einen Klang z. B. verlängern oder sehr stark aufrauen, ihm ein anderes Spektrum geben oder beliebige Veränderungen der Tonhöhen erstellen. Der resultierende Klang ist zwar abhängig von dem bearbeiteten Klang, jedoch sind die Gestaltungsmöglichkeiten der einzelnen grains so immens, so dass sich neue Klangkombinationen bzw. Klangstrukturen ergeben. Dies macht die Granularsynthese praktisch zu einem Verfahren der Klangerzeugung, nicht nur Klangveränderung. Wave Sequencing: Das Verfahren beruht wie die Granularsynthese auf einem Zerschneiden eines Schwingungsverlaufs und anschließendes Bearbeiten der Zeitabschnitte, diese sind hier jedoch länger. Beim Sampling sind sie lang genug, dass der Klang der gesampelten Schwingung erhalten bleibt. Phase-Vocoder: Der Phase-Vocoder wurde 1965 von Flanagan und Golden entwickelt. Wie der Name schon sagt, ist der Phase-Vocoder eine Art Vocoder (siehe Kap. 6.6.7), d. h., ein Gerät zur Ver- und Entschlüsselung von Stimmen. Phase-Vocoder funktionieren allgemein gesagt wie eine Filterbank, bei der die Filter in Reihe geschaltet sind und jedes Filter einen bestimmten Bereich der Frequenzen herausfiltert und deren Lautstärke ermittelt. Die Daten der Lautstärke und Frequenz der einzelnen Frequenzbänder werden zur Resynthese eines Klangs benutzt. Dadurch wird der Klang wieder neu zusammengesetzt. Man ersetzt einen Klang durch einen anderen, wobei wesentliche Klangeigenschaften und zeitliche Strukturen erhalten bleiben. Filtert man im Vocoder z. B. Sprache und setzt bei der Resynthese an die Stelle der Oszillatoren einen Bläserakkord, so kann man diesen Akkord sprechen oder singen lassen. Der Phase-Vocoder kann auch Übergänge zwischen verschiedenen Klängen erzeugen: eine Stimme kann langsam in einen Flötenton übergehen, das sog. Morphing, oder es kann eine Zeitkompression oder Zeitdehnung erzielt werden, ohne das Spektrum zu verändern, man kann einen Titel beschleunigen, ohne seine Tonhöhen zu verändern. Ringmodulator: Mit der Ringmodulation lassen sich unharmonische Obertonspektren erzeugen, metallische Klänge, siehe Kap. 6.6.5. Transitional Synthesis: Rechnerisch wird durch Interpolieren ein fließender Übergang zwischen zwei ähnlichen Ereignissen gestaltet. Direct Digital Synthesis: Ein Computer rechnet das digitale Material vorhandener Schwingungsformen nach bestimmten Rechenvorschriften um, wodurch neue Klänge entstehen. Composite Synthesis: Bei diesem Verfahren mischt man künstlich erzeugte und natürliche Klänge in Form von Samples zu einem neuen Klang.
2.2 Musikinstrumente
111
2.2.4.4 Klangsteuerung durch MIDI Die Weiterverarbeitung von Klängen zu kompletten Musikstücken oder Titeln kann entweder live erfolgen, d. h., die Interpretation und die Wiedergabe über Lautsprecher sind zeitgleich, oder ein Titel wird produziert, die Wiedergabe erfolgt dann stets von einem Tonspeicher zu einem anderen Zeitpunkt. Für die Aufnahme, Speicherung und Steuerung von elektronischen Musikinstrumenten und die Bearbeitung von elektronischen oder akustischen Klängen werden einige Geräte oder Softwaremodule benutzt, die hier nur kurz definiert werden. Für die digitale Musikproduktion selbst wird auf die Literatur verwiesen, z. B. [Bremm, 2004, 2007], [Conrad, 2012], [Hömberg, 2010]. MIDI MIDI, eine digitale Schnittstelle für MIDI-fähige Musikinstrumente, abgekürzt aus Musical Instrument Digital Interface, ist ein Datenübertragungsprotokoll für die Übermittlung, Aufzeichnung und Wiedergabe von umfassenden Steuerinformationen zur Klangerzeugung bzw. Musikproduktion zwischen Geräten, Keyboards, Instrumenten, Computern, Regiekonsolen u. a. Neben elementaren Befehlen zu einzelnen Tönen wie Tonhöhe, Dauer, Beginn und Ende, Informationen zur Einhüllenden u. a. werden auch weitere komplexe und spezielle Befehle übermittelt. MIDI wurde erstmals 1983 vorgestellt als nicht patentierter Industrie-Standard, heute als Open-Source-Software bezeichnet, was eine schnelle Verbreitung und Akzeptanz auslöste. Die Möglichkeit, MIDI-Daten mit Computern zu bearbeiten, war die Grundlage des sog. Homerecording, also der elektronischen und akustischen Musikproduktion im nicht professionellen Bereich, vor allem durch die Musiker selbst. MIDI ist eine Übereinkunft zwischen Firmen, kein international normierter Standard, sondern ein Industrie-Standard der MIDI Manufactures Association. MIDI beherrscht den Markt der musikalischen Unterhaltungsindustrie. MIDI arbeitet nur mit Steuerfunktionen, es kann keine dem Original klanglich folgende Wiedergabe bieten, diese liefern die gesteuerten Instrumente. MIDI ist also kein Audioformat; insofern kann man einen MIDI-Datensatz mit den Informationen einer Notenpartitur für Klavier vergleichen. Das Format wird von sehr vielen elektronischen Instrumenten und Soundkarten, Drum-Computern, aber auch Effektgeräten jeglicher Art unterstützt, des Weiteren von Lichtanlagen, über Konverter auch von akustischen Instrumenten wie E-Gitarren. Die MIDI-Schnittstelle ist eine serielle Schnittstelle mit einer Übertragungsrate von 31,25 kBaud, also eine relativ langsame Schnittstelle, was bei komplexen Zusammenschaltungen zu hörbaren Verzögerungen führen kann. Mit vier verschiedenen Modes wird die Zuordnung der Stimmen und der MIDI-Kanäle (Channels) festgelegt. Der MIDI-Standard setzt voraus, dass alle MIDI-fähigen Geräte MIDI-Anschlussbuchsen haben, sie entsprechen den 5-poligen Stereo-DIN-Buchsen, sind aber anders beschaltet. In der Regel haben die Geräte drei Buchsen: MIDI-IN für den Datenempfang, MIDI-OUT für den Datenexport und MIDI-THRU (= Through) für die Durchschaltung der Daten. Die Verkabelung erfolgt über MIDI-Kabel, die nach dem MIDI-Standart beschaltet sind. Es gilt die Steckrichtung: OUT nach IN, IN nach OUT, THRU nach IN. Um MIDI-Instrumente mit einem Computer ansteuern zu können, muss der Computer mit einem MIDI-Interface ausgerüstet sein. Moderne Soundkarten haben eine MIDISchnittstelle. MIDI-Files sind komplett arrangierte Songs für Keyboards. MIDI-Files sind
112
2 Schallquellen
quasi Playbacks, sie geben die Instrumente eines Musikstücks komplett wieder mit Schlagzeug, Gitarre, Bass, Keyboard usw. Ein Song im MIDI-Format kann in Tempo, Tonhöhe, In strumente u. a. verändert werden. Jedes einzelne Instrument kann ein- und ausgeschaltet werden. Es hat sich ein Markt für MIDI-Files gebildet. MIDI-Standard 1983 legt die MMA (MIDI Manufacturers Association) die Vorschriften für die MIDI-Hard- und -Software in der MIDI-Spezifikation fest. Um die Einhaltung dieser Spezifikation zu überwachen, wird die Internationale MIDI-Association (IMA) gegründet. 1990 erfolgt die Einigung auf ein Standard-MIDI-File-Format (SMF). Dieser Standard gewährleistet, dass alle abgespeicherten Musikstücke auch auf verschiedene Computertypen geladen und in allen Musikprogrammen bearbeitet werden können. Es gibt bei diesen Files das Format 0, bei dem alle Daten auf einer Spur (Track) zusammengefasst sind, und das Standardformat 1, bei dem die Daten von bis zu 16 Kanälen unabhängig voneinander eine eigene Spur haben. [Stotz, 2019] 1991 wird der General-MIDI-Standard (GM-Standard) vereinbart. Er wird benötigt, wenn man fertige Musikstücke im MIDI-File-Format abspielen oder die MIDI-Files weitergeben will. Er ist mindestens 24-stimmig und gewährleistet, dass die einzelnen Klänge von einem Instrument derselben Art wiedergegeben werden, d. h., ein Klavierpart wird nur von einem Klavierklang gespielt. 127 Instrumente sind Klangnummern zugeordnet. Dazu gibt es weitere 16 Spuren bzw. Kanäle. Nachdem sich das grundlegende Konzept des GM-Standards bewährt hat, kommt es 1994 zu den firmenspezifischen Erweiterungen GS und XG; XG z. B. ist mindestens 32-stimmig, beinhaltet 676 Instrumente, zusätzliche Drum-Sets und ermöglicht flexiblere Effekte z. B. für Hall. GS und XG sind zu GM abwärtskompatibel. MIDI-Komponenten Masterkeyboard: Ein Masterkeyboard ist eine Klaviatur zur Erzeugung von MIDI-Steuerdaten ohne eigene Klangerzeugung. Es kann an beliebige MIDI-fähige Instrumente, z. B. einen Sampler oder Synthesizer zur direkten Klangansteuerung angeschlossen werden oder an einen MIDI-Sequenzer zur Aufzeichnung von MIDI-Befehlen. Professionelle Masterkeyboards verfügen über eine dem Klavier ähnliche mechanische Klaviatur sowie weitere Spielhilfen und Steuerfunktionen. Neben einem MIDI-Ausgang ist u. U. auch ein USB-Ausgang vorhanden. Masterkeyboard-Funktionen haben meist auch Digitalpianos und andere Instrumente mit Keyboard. Sampler: Der Sampler ist ein elektronisches Musikinstrument, das Töne elektronischer oder akustischer Herkunft aufnimmt, digitalisiert und als Samples in einer Audiodatei z. B. auf einer Festplatte speichert. Über ein Masterkeyboard oder eine MIDI-Steuerung können diese Daten über einen Prozessor in jeder gewünschten Tonhöhe wiedergegeben werden. Hardwaresampler sind im Prinzip spezialisierte PCs, Softwaresampler sind Computerprogramme, die zusätzlich mit A/D- und D/A-Wandlern und Soundkarten arbeiten. Professionelle Sampler verfügen über eine größere Zahl klangformender Komponenten wie Filter und Effekte, was sie dann im Prinzip zu Synthesizern macht. Da die Aufnahme und der Schnitt von Samples relativ aufwändig sind, greifen Musiker vielfach auf fertige Sample-Libraries
2.2 Musikinstrumente
113
z. B. auf CD oder im Internet zurück oder sampeln Töne aus vorhandenen Aufnahmen. Sampler ohne Aufnahmemöglichkeit werden als ROM-Sampler oder Rompler bezeichnet. Sequenzer: Der Sequenzer ist ein Computer zur Speicherung, Bearbeitung und Ausgabe von Steuerdaten für Klangerzeuger, z. B. Synthesizer, Sampler oder elektronische Instrumente. Beim MIDI-Sequenzer sind die Steuerdateien als MIDI-Dateien vorhanden und steuern alle wichtigen Eigenschaften eines musikalischen Tons wie Zeitpunkt des Beginns, Dauer, Lautstärke und Zuweisung des Klangerzeugers. Die erklingenden Noten können über ein Masterkeyboard in Echtzeit gespielt oder über einen PC editiert werden. Synthesizer, Workstations und PCs: Die einzelnen Geräte, Instrumente oder Softwareprogramme haben mit jeder Generation immer neue Fähigkeiten erhalten, so dass zwischen den genannten Komponenten die Grenzen immer offener werden. Ein entsprechend ausgestatteter PC kann bei entsprechender Leistungsfähigkeit mit einem Masterkeyboard alle Funktionen für eine Musikproduktion übernehmen. Die digitale Audio-Workstation (DAW, AWS) ist ein spezialisierter Computer, der für andere Aufgaben nicht zur Verfügung steht. Begriffe der Hüllkurvensteuerung: Zu den Begriffen, die bei der Ton- und Klanggestaltung verwendet werden (Tab. 2/6 und Kap. 6), kommen bei elektronischen Instrumenten und Verfahren Begriffe der Steuerung der Hüllkurve (Abb. 2/23) hinzu.
Abb. 2/23. Begriffe der Hüllkurvensteuerung.
114
2 Schallquellen
Tab. 2/6. Einige Begriffe der Klangsteuerung. Abkürzungen
Begriffe englisch
Begriffe deutsch
ADSR
attack-decay-sustain-release, auch: envelope generator band-pass hight-pass low frequency oscillator low-pass voltage controlled wave form
Hüllkurvengenerator (siehe Abb. 2.23)
BP HP LFO LP VCW
Bandpass Hochpass Tieffrequenzgenerator Tiefpass spannungsgesteuerte Schwingungsform
2.2.4.5 Keyboards und Rhythmusgeräte Die genannten Verfahren der Synthese, Bearbeitung und Speicherung werden in autarken Tasteninstrumenten, sog. Keyboards, bzw. Geräten mit besonderen Aufgaben angewendet. Deren Fähigkeiten sind sehr unterschiedlich, es gibt spezialisierte Keyboards mit besonderen Bezeichnungen, von denen nachfolgend einige genannt sind, es gibt universelle Keyboards, die Grenzen sind fließend; auch zwischen professionellen und nicht professionellen Geräten. Zudem werden mit jeder neuen Gerätegeneration neue Features eingeführt. Oft werden die Geräte mit ihrer Typenbezeichnung und/oder dem Hersteller benannt, um Klarheit zu haben. Im einfachsten Fall dienen Keyboards nur der Klangerzeugung mit akustischer Kontrolle über Kopfhörer. Zu selbständigen Instrumenten werden sie mit integriertem oder angeschlossenem Audioverstärker und Lautsprechern. Keyboards werden im Allgemeinen direkt, nicht über Mikrofon aufgenommen (Direct Injection). Um die Sicherheit auch bei fehlerhaften Geräten zu gewährleisten, muss die Verbindung der Geräte mit Erde unterbrochen werden. Entweder werden die Geräte über Trenntransformatoren am 230 V-Netz angeschlossen oder die Leitungen über Trennmodule für Tonsignale, sog. DI-Boxen (siehe Kap. 8.6). Ein Leslie-Kabinett muss immer mit Mikrofon abgenommen werden. Man kann folgende Instrumentengruppen unterscheiden: Elektronische Pianos Aus dem Wunsch, Klaviere oder Flügel elektronisch nachzubilden, wurden zunächst eine Reihe elektromechanischer Instrumente entwickelt, einige davon sind in Kap. 2.2.4.1 genannt. Hybrid-Pianos sind mechanische Klavierinstrumente mit kürzeren Saiten und teils ohne Resonanzkörper, die elektrisch verstärkt werden, teils auch zusätzlich komplette E-Pianos enthalten. Dem Ziel, den Klavierklang nachzubilden, kommen aber erst seit den 1990er Jahren E-Pianos und E-Flügel mit Sampleplayern nach, d. h., es werden real aufgenommene Klavierklänge abgespielt, die Instrumente verfügen in der Regel auch über MIDI-Steuerungen. Stage-Pianos sind Instrumente ohne eingebauten Lautsprecher oder nur einem kleinen Kontrollmonitor. Digital- oder E-Pianos und E-Flügel sind also auf den Klavierklang spezialisierte Keyboards oder Synthesizer. Sie können auch weitere Sounds enthalten, zusätzlich Begleitrhythmen, Begleitautomatik und weitere Funktionen. Piano-Workstations sind sehr umfassend ausgestattete Instrumente.
Literatur
115
E-Orgeln und Sakralorgeln Wie sich das E-Piano aus der Nachahmung des Klavierklangs entwickelt hat, hat die Eoder Digitalorgel ihren Ursprung in der Kirchenorgel. Ein bis drei Manuale, ein Pedal für die Bassstimme, gesampelte Einzelstimmen von Orgelaufnahmen, sog. Register, die zu sog. Dispositionen oder Werken zusammengefügt werden können. Dazu kommen Nachhall und ein breites Spektrum weiterer Klangeffekte. Die kleinsten Varianten aus nur einem Keyboard bestehend, sind die E-Orgel oder Keyboard-Orgel. Heimorgeln, Sakralorgeln und Konzertorgeln sind die leistungsfähigen Varianten. Drum-Computer, Drum Machine, Groovebox und E-Schlagzeug Hierbei handelt es sich um Geräte zur Erzeugung der perkussiven Klänge eines Schlagzeugs und kompletter Rhythmen, entweder analog oder digital aus Samples. Angesteuert werden die Geräte entweder über MIDI oder ein anderes Interface, über eingebaute Pattern-Sequenzer oder Drum-Pads, ein elektronisches Schlagzeug. Der Drum-Computer liefert meist komplette Rhythmusmuster, sog. Styles, die auf bis zu acht Spuren ein akustisches Schlagzeug ersetzen. Ausgelöst wird ein Rhythmus z. B. durch die linke Hand des Keyboarders über eine Einzeltaste oder einen Akkord. Das E-Schlagzeug wird wie ein akustisches Schlagzeug gespielt, erzeugt aber z. B. MIDI-Signale ähnlich der Funktionsweise des Masterkeyboards, die Schlaginstrumente sind hier durch Schlagflächen, sog. Pads ersetzt. Grooveboxen sind umfangreich ausgestattete Kombinationen aus Sampler oder ROM-Sampler, Synthesizer, Sequenzer und Drum-Computer, bis hin zu eigenständigen Geräten zur Musikproduktion.
Standards [DIN 1311] [DIN 1317] [DIN 1320] [DIN 13320] [DIN 45630] [DIN EN 61260l [DIN EN IEC 60268-16] [ISO 16]
Schwingungen und schwingungsfähige Systeme, Tl. 1: Grundbegriffe Norm-Stimmton Akustik; Begriffe Akustik; Spektren und Übertragungskurven,Begriffe, Darstellung Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall Bl. 2: Normalkurven gleicher Lautstärkepegel Eektroakustik — Bandfilter für Oktaven und Bruchteile von Oktaven (IEC 61260) Elektroakustische Geräte, Teil 16: Objektive Bewertung der Sprachverständlichkeit durch den Sprachübertragungsindex Acoustics — Standard tuning frequency (Standard musical pitch)
Literatur [Albrecht, 2017 [Bahnert, 2003] [Baines, 2010]
Albrecht, C.: Der Tonmeister, 2. Aufl., 2017, Schiele & Schön] Bahnert, H., Herzberg, Th. und Schramm, H.: Metallblasinstrumente. Handbuch für Musiker und Instrumentenbauer, 2003, Noetzel Baines, A., Elste, M.: Lexikon der Musikinstrumente, 2010, J. B. Metzler
116
2 Schallquellen
[Bisping, 1990] Bisping, R., van der Velden, U. und Wingartz, P.: „Welche Frequenzbereiche im Stimmspektrum sind für die Übermittlung menschlicher Emotionen von besonderer Bedeutung?“, in: Bericht 16. Tonmeistertagung 1990, S. 329ff., 1991, Saur [Bremm, 2004] Bremm, P.: Das digitale Tonstudio. Praktische Hilfe zur digitalen Tonstudiotechnik, 2004, PPV Medien [Bremm, 2007] Bremm, P.: Das Digitale Tonstudio. Technische Grundlagen der Musikproduktion, mit dem Computer, 2. Auflage, 2007, PPV Medien [Conrad, 2012] Conrad, J.-F.: Recording. Einführung in die Technik der Musikproduktion, 7. Aufl., 2012, PPV Medien [Cremer, 1998] Cremer, L.: Physik der Geige, 1998, Hirzel [Dickreiter, 2007] Dickreiter, M.: Musikinstrumente. Moderne Instrumente, Historische Instrumente. Klangakustik, 7. Aufl. 2007, Bärenreiter [Fletcher, 1998] Fletcher, N. H. und Rossing Th. D.: The Physics of Musical Instruments, 2. Aufl. 1998, Springer [Forss, 2007] Forss, C.-J.: Piano- und Flügelstimmung, 2007, Bochinsky [Hömberg, 2010] Hömberg, M.: Recording Basics, 3. Aufl. 2010, PPV Medien [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal [Legenstein, 2014] LLegenstein, M. M.: Der emotionale Ausdruck der Stimme: Die akustischen Merkmale von Emotionen, 2014, AV Akademieverlag [Leonhardt, 1997] Leonhardt, K.: Geigenbau und Klangfrage, 3. Aufl. 1997, Bochinsky [Marinovici, 2008] Marinovici, C.: Musikinstrumentenkunde. Von der Klassik zur Elektronik, 2008, Leu [Meyer, 1990] Meyer, J.: „Zur Dynamik und Schalleistung von Orchesterinstrumenten“, in: Acustica 1990, S. 277ff. [Meyer, 1992] Meyer, J.: Physikalische Aspekte des Geigenspiels, 2. Aufl., 1992, Respublica [Meyer, 2015] Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, PPV Medien [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Schreiber, 1964] Schreiber, E.: „Ein neuartiger elektronischer Klang- und Geräusch erzeuger“, in: OIRT-Zeitschrift Rundfunk u. Fernsehen, Prag 1964, H.2 [Seidner, 2010] Seidner, W. und Wendler, J.: Die Sängerstimme. Phoniatrische Grundlagen des Gesangs, 2010, Henschel [Stotz, 2019] Stotz, D.: Computergestützte Audio- und Videotechnik. Multimediatechnik in der Anwendung, 3. Aufl. 2019. Springer Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer [Wackernagel, 2005] Wackernagel, B.: Holzblasinstrumente, 2005, Schneider [Weinzierl, 2014] Akustische Grundlagen der Musik, 2014, Laaber
3 Schallwahrnehmung Michael Dickreiter, Jürgen Goeres-Petry (3.1) 3.1 Das Gehör Das Ohr ist sowohl ein Sinnesorgan für die Wahrnehmung von Schall als auch ein Gleichgewichtsorgan. Es gliedert sich physiologisch in das Außenohr, das Mittelohr und das Innenohr. Abb. 3/1 zeigt einen Schnitt, Abb. 3/2 schematisch den Aufbau. Als Gehör umfasst es außer dem physiologischen Organ auch die nervliche Verarbeitung der Sinneseindrücke, dem Schallereignis, und seiner Bewusstwerdung als Hörereignis. [Hartmann, 1998], [Hellbrück, 2004], [Fastl, 2007], [Howard, 2017]
Abb. 3/1. Schnitt durch das menschliche Ohr.
3.1.1 Außenohr Das Außenohr dient der Schallankopplung des Ohrs an das umgebende Schalleld und der Umwandlung der Luftschwingungen in mechanische Schwingungen. Es besteht aus der Ohrmuschel und dem äußeren Gehörgang, dem Ohrkanal. Die zahlreichen Erhebungen und Vertiefungen der Ohrmuschel bilden akustische Resonatoren, die jeweils unterschiedlich bei Schalleinfall aus verschiedenen Richtungen angeregt werden. Hierdurch entstehen richtungsabhängig unterschiedliche Spektren mit spezifischen Minima und Maxima, die vom Gehör zur Bestimmung der Einfallsrichtungen des Schalls genutzt werden. Der äußere Gehörgang ist ein mit Haut ausgekleidetes, knorpeliges Rohr von etwa 3 bis 4 cm Länge und https://doi.org/10.1515/9783110759921-003
118
3 Schallwahrnehmung
5 bis 10 mm Durchmesser. Er ist über das Trommelfell mit dem Mittelohr verbunden; das Trommelfell wandelt wie die Membran eines Mikrofons den Luftschall zur Weiterverarbeitung in mechanische Schwingungen um. Das äußere Ohr enthält außerdem sog. Ohrschmalzdrüsen, die ein hellgelbes Sekret liefern, und Talgdrüsen, die das eigentliche Ohrenschmalz, das Cerumen, produzieren. Das Ohrenschmalz übt eine Schutzfunktion gegenüber äußeren Einflüssen aus und verhindert das Eindringen von Verunreinigungen und Krankheitserregern. Ohrenschmalz kann jedoch die Schallleitung beeinträchtigen und muss gegebenenfalls entfernt werden.
Abb. 3/2. Aufbaus des menschlichen Ohrs.
3.1.2 Mittelohr Zum Mittelohr gehören das Trommelfell, die Gehörknöchelchen, bestehend aus Hammer, Amboss und Steigbügel, das ovale Fenster und die Eustachische Röhre, auch Ohrtrompete oder Paukengang genannt. Die Knöchelchen des Mittelohrs übertragen die Bewegung des Trommelfells auf das ovale Fenster, dieses bildet die Verbindung zwischen Mittel- und Innenohr. Die Knöchelkette wirkt dabei als Drucktransformator bzw. Impedanzwandler. Der auf das ovale Fenster übertragene Druck ist bei kleinerer Membranauslenkung des ovalen Fensters wesentlich größer als der Schalldruck, der auf das Trommelfell einwirkt; umgekehrt wird die Membranauslenkung entsprechend reduziert. Das Mittelohr ist luftgefüllt; über die Eustachische Röhre, die sich beim Schlucken öffnet, findet ständig ein Luftdruckausgleich zwischen Mittelohr und Außenluft statt. Luftdruckdifferenzen zwischen Außen- und Mittelohr, verursacht z. B. durch einen Verschluss der Eustachischen Röhre, drücken auf das Trommelfell und können zu schmerzhaft „geschlossenen Ohren“ führen.
3.1.3 Innenohr Das spiralförmige Innenohr besteht aus der Gehörschnecke, der cochlea, in der der Schall in Nervenimpulse umgesetzt wird, und dem Labyrinth, auch Bogengänge genannt, die unser Gleichgewichtsorgan darstellen. Gehörschnecke und Labyrinth sind ähnlich strukturiert:
3.1 Das Gehör
119
Beide sind mit einer Flüssigkeit gefüllt und besitzen Haarzellen, bei denen feine Härchen in die Flüssigkeit hineinreichen. Hier im Innenohr erfolgt die eigentliche Umwandlung von Körperschall in Nervenimpulse, die zum Gehirn weitergeleitet werden. Das Cortische Organ liegt innerhalb der knöchernen Schnecke, der cochlea, und ist ein mit Endolymphe gefüllter Schlauch. Es ist die Schnittstelle zwischen den akustischmechanischen Schwingungen und den elektrischen Nervensignalen in der Hörschnecke. Der Innenraum der Schnecke wird von drei parallelen Kanälen gebildet, die zur Schneckenform gebogen sind. Diese Kanäle heißen scala tympani oder Paukentreppe, ductus cochlearis oder Schneckengang und scala vestibuli oder Vorhoftreppe. Sie sind teils durch zwei Membranen, die Reissnersche Membran und die Basilarmembran, voneinander getrennt sowie teils durch eine dünne Trennwand (Abb. 3/2). Die Reissnersche Membran liegt zwischen der scala media und der scala vestibuli. Die zweite Trennung erfolgt durch die Basilarmembran. Man kann sich die Basilarmembran als eine über einen weiten Frequenzbereich gestimmte Harfe vorstellen. Die kurzen, straffen Saiten für hohe Töne bis 20 kHz liegen in der Nähe der Fenster am Beginn der cochlea, die langen, weichen Saiten für tiefe Töne bis 16 Hz hinunter liegen nahe dem helikotrema am Ende der cochlea. Die Basilarmembran ist etwa 33 mm lang, am Ovalen Fenster etwa 0,1 mm breit und hart, beim helicotrema am hinteren Ende etwa 0,5 mm breit und weich. Die eigentliche Wandlung von Schall in Nervenimpulse erfolgt im Cortischen Organ, das auf der Basilarmembran sitzt. Es enthält innere und äußere Haarzellen sowie Stützzellen und eine Deckmembran. Durch Wellenbewegungen der Flüssigkeit werden die Haarzellen gebogen und lösen dabei Nervenimpulse aus. Die v-förmig angeordneten sog. Zilien, Flimmerhärchen, auf den äußeren Haarzellen sind Proportional-Rezeptoren und Intensitätsdetektoren, die linienförmig angeordneten Zilien der inneren Haarzellen fungieren dabei als Differential-Rezeptoren und Geschwindigkeitsdetektoren. Die inneren Haarzellen sind die eigentlichen Rezeptoren für die auditive Sinnesübertragung, ca. 95 % aller Hörnervenfasern entspringen dort. Am unteren Ende des Cortischen Organs befindet sich eine Synapse mit einem sensorischen Neuron. Diese schüttet schon im Ruhezustand Neurotransmitter aus, die die Informationen von einer Nervenzelle zur anderen über die Kontaktstelle der Nervenzellen, der Synapse, weitergeben. Wird nun der Haarfortsatz ausgelenkt, vermehrt sich die Menge der Neurotransmitter. Von der Gehörschnecke leitet der Hörnerv schließlich die Signale zum Gehirn, wo die Schallereignisse am Trommelfell als Hörereignisse ins Bewusstsein treten. In der cochlea werden Klänge und Sprache mittels eines der Fourier-Analyse vergleichbaren Prozesses aus der Wanderwelle selektiert, in ihre einzelnen Tonfrequenzen zerlegt (siehe Kap. 1.1.2.3) und an verschiedenen Orten nebeneinander repräsentiert. Bei dieser Zerlegung werden die einzelnen Frequenzkomponenten der Schallwelle so stark verstärkt, dass einzelne Tonhöhen unterschieden werden können; man spricht hier auch von dem cochlearen Verstärker. Grundlage der Verstärkung ist die große Beweglichkeit der äußeren Haarzellen, die Schwingungen mit bis zu 20 kHz folgen können und die Wanderwelle bis 1.000-fach verstärken. Das passive Mitschwingen der Basilarmembran mit ihrer vom runden Fenster zum helicotrema abnehmenden Steife und zunehmenden Masse und die sich ortsspezifisch ausbildenden Schwingungsmaxima der Wanderwelle erklären aber allein nicht die hohe Selektivität der Tonhöhe und den hohen Dynamikumfang der Schallwahrnehmung. Das Schallintensitätsverhältnis beträgt bis zu 1 : 10.000.000 oder 140 dB.
120
3 Schallwahrnehmung
Die äußeren Haarzellen spielen bei diesem Prozess eine ebenso aktive Rolle, vergleichbar einem elektrischen Verstärker; unter Einsatz neuronaler Energiequellen wird dieser Prozess vom Gehirn gesteuert. Die äußeren Haarzellen können sich bei Anregung zusammenziehen oder verlängern, synchron zu den Reizen und damit ortsspezifische Bewegungen ausführen. Diese Auslenkungen der Membran verstärken z. B. bei sehr leisen Tönen das Signal um das 100-fache, wohingegen bei sehr lauten Tönen durch diesen aktiven Prozess die Amplitude der Schwingungen gedämpft wird. Dies schützt die Membran vor mechanischem Zerreißen oder generell vor Überlastung.
3.2 Schallereignis und Hörereignis Eine Schallwelle, die auf das Ohr trifft, ist eindeutig physikalisch definierbar. Ein Sinuston z. B. hat eine eindeutig bestimmbare Frequenz, Dauer, Einfallsrichtung und einen eindeutig bestimmbaren Schalldruckpegel. Dieses Schallereignis trifft als Reiz auf das Ohr, wandert durch das komplizierte mechanische System des Ohrs und wird schließlich als elektrisches Signal, ähnlich einem Digitalsignal, durch die Nervenbahnen, Schaltstellen und Nervenzentren zum Gehirn geleitet. Erst jetzt wird uns der Reiz als Hörereignis, als Empfindung, bewusst. Diese Empfindung kann aber nicht mehr durch die physikalischen Größen des Schallereignisses beschrieben werden, da Empfindungen keine physikalischen Größen sind und somit nicht mit physikalischen Messmethoden unmittelbar erfassbar sind. Wir wissen auch, dass bereits bei der mechanischen Reizweiterleitung im Mittel- und Innenohr die Reizgestalt verändert wird. Ein Sinuston z. B. erhält zusätzliche Obertöne, er wird verzerrt. In den Nervenzellen wird der Reiz in ganz anderer Gestalt, nämlich als Folge von Impulsen weitergeleitet. Eine weitere Komplikation ergibt sich daraus, dass zwar die Größen des Schallereignisses voneinander unabhängig messbar sind, beim Hörereignis hängt aber z. B. die empfundene Tonhöhe des Sinustons zwar hauptsächlich von der Frequenz, aber außerdem auch von der Dauer und dem Schalldruckpegel des Schallereignisses ab. Der Zusammenhang von Schallereignis, dem Reiz, und Hörereignis, der Empfindung, ist also komplex, beide Größen können nicht gleichgesetzt werden. Mit den Zusammenhängen von Reizen und Empfindungen befasst sich die Psychoakustik. Um über das Hörereignis gültige Angaben machen zu können, können nur die Aussagen von Versuchspersonen ausgewertet werden. Diese sind aber zunächst ganz allgemein: ein Hörereignis ist laut oder leise, meist werden sogar Ausdrücke aus anderen Sinnesbereichen verwendet wie hell, dunkel, schwach, spitz usw. Diese Worte sind ungenau. Man möchte den Zusammenhang von Reiz und Empfindung genauer, möglichst durch Kurven angeben. Dies ist tatsächlich möglich, weil eine Versuchsperson ihre Aufmerksamkeit auf einzelne Komponenten des Hörereignisses richten kann. Sie kann z. B. die Lautheit zweier verschieden langer oder hoher Töne vergleichen, weil ein geübtes Gehör in der Lage ist, Tondauer und Tonhöhe bei der Beurteilung der Lautheit weitgehend unberücksichtigt zu lassen. Diese Komponenten der Empfindung, auf die man achten und die man getrennt von den anderen Komponenten beurteilen kann, sind die sog. Empfindungsgrößen, wie z. B. eben Lautheit, Rauigkeit oder Tonhöhe. Sie erhalten wie die Reizgrößen eine Einheit, besser gesagt eine Hilfs- oder Pseudoeinheit, die Lautheit z. B. das Sone. Jede Empfindungsgröße kann nun durch eine Kurve in ihrer Abhängigkeit von jeweils einer Reizgröße beschrieben werden. So kann man die Empfindungsgröße Tonhöhe
3.3 Eigenschaften der Schallwahrnehmung
121
in Abhängigkeit von den Reizgrößen Frequenz, Schalldruckpegel oder Schalldauer angeben. Dabei müssen die jeweils unberücksichtigten Reizgrößen konstant gehalten werden. Betrachten wir am Beispiel der Empfindungsgröße Lautheit, die in erster Linie vom Schalldruckpegel bestimmt wird, wie Empfindungsgrößen definiert und mit Einheiten versehen werden können (Genaueres hierzu siehe unten). Weitere Zuverlässigkeit und Genauigkeit erhalten solche Angaben noch, indem man die Aussagen vieler Versuchspersonen statistisch auswertet. Will man z. B. die Lautheit eines Tons messen, so hält man bei allen Versuchen die Reizkomponenten Frequenz und Dauer konstant, z. B. die Frequenz bei 1.000 Hz und die Dauer bei 1,0 s. Dem Ton mit dem Schalldruckpegel L = 40 dB schreibt man nun für diese Frequenz und Dauer willkürlich die Lautheit S = 1 Sone zu. Nach wiederholter Verdopplung und Halbierung der Lautheit durch Verändern des Schalldruckpegels erhält man die Lautheit des 1.000 Hz-Tons für eine so große Zahl von Schalldruckpegeln, dass man schließlich die Abhängigkeit zwischen Reizgröße L in dB und Empfindungsgröße S in Sone als stetige Kurve angeben kann (siehe Abb. 3/6). Besonders Aussagen über die Verdopplung oder Halbierung einer Empfindungsgröße zu machen, gelingt relativ einfach und zuverlässig. Die unten dargelegten Beziehungen von Reizgrößen und Empfindungsgrößen wurden bei Versuchen in einem objektivierten, wissenschaftlichen Klima meist mit Sinustönen oder Rauschen, gewonnen. Diese Hörbedingungen und Schallereignisse sind andere als wir sie z. B. beim Hören von Musik vorfinden. Denn ein Ton in einem Musikstück hat nicht nur Lautheit, Dauer, Klangfarbe und Tonhöhe, sondern ist auch musikalischer Sinnträger. Er hat eine bestimmte Stellung in der Melodie oder Harmonie, oder er ist Träger eines Wortes und einer Emotion. Weiterhin kann dieser Ton auch Teil eines lästigen Geräuschs sein. Diese verschiedenen Sinnfunktionen, die ein Ton annehmen kann, beeinflussen natürlich die Hörempfindung zusätzlich. Sie sind aber so komplex, dass sie nicht auf dieselbe Weise wie Empfindungsgrößen erfassbar sind. Sie überlagern sich aber den Beziehungen zwischen Reiz und Empfindung.
3.3 Eigenschaften der Schallwahrnehmung 3.3.1 Lautstärkepegel und Lautheit Hörfeld, auch Hörfläche oder Hörbereich, nennt man den Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis ein Hörereignis auslöst. Das Hörfeld ist bei kleinen Schalldruckpegeln durch die Hörschwelle, bei großen Schalldruckpegeln durch die Schmerzschwelle begrenzt. Nur Schallereignisse mit Frequenzen zwischen 16 Hz und 16 kHz, maximal 20 kHz, rufen Hörereignisse hervor. Mit dem Alter verschiebt sich die Hörschwelle vor allem im oberen Frequenzbereich: Im Alter von 60 bis 70 Jahren ist die Hörschwelle bei 2 kHz etwa um 20 dB, bei 8 kHz etwa um 50 dB angehoben, unter 2 kHz gibt es keine einschränkenden Veränderungen; im Alter von 50 bis 60 Jahren ist die Verschiebung der Hörschwelle noch gering [Hesse, 2005]. Als Ursachen für die sog. Altersschwerhörigkeit werden in erster Linie Schäden bei den Haarzellen und in der Hörbahn vermutet. Die altersbedingte Anhebung der Hörschwelle beeinflusst auch die Wahrnehmung der Dynamik bzw. von Pegeldifferenzen (siehe Kap. 3.3.2).
122
3 Schallwahrnehmung
Diese Richtwerte gelten nicht für Personen, die in lärmerfüllter Umgebung arbeiten. Die allgemeine Hörfähigkeit im Alltag wird durch die Altersschwerhörigkeit aber relativ geringfügig beeinträchtigt, da der wichtigste Hörbereich unter 4 kHz liegt (siehe auch Kap. 11.2.1 ff.). Abb. 3/3 zeigt das Hörfeld; eingezeichnet ist außerdem der Bereich, den Sprache und Musik ungefähr einnehmen. Man sieht, dass dieser Bereich allseitig geschützt ist, dass erst größere Beeinträchtigungen des Hörvermögens die Wahrnehmung von Sprache und Musik beeinträchtigen.
Abb. 3/3. Hörfeld mit Sprach- und Musikbereich.
Durchläuft ein Sinuston mit einem konstanten Schalldruckpegel von angenommen 20 dB den gesamten hörbaren Frequenzbereich von 16 Hz bis 20 kHz, so bleibt der Ton keineswegs gleich laut. Er wird vielmehr mit steigender Frequenz zunächst lauter, über etwa 4 kHz wieder leiser. Um diese Feststellung für verschiedene Schalldruckpegel genau zu erfassen, hat man die „Kurven gleicher Lautstärkepegel“ ermittelt (Abb. 3/4). Sie geben in Abhängigkeit von der Frequenz den Schalldruckpegel L an, der die jeweils gleiche Lautstärkeempfindung hervorruft, und beschreiben damit eine der wichtigsten Eigenschaften des menschlichen Gehörs. Man ordnet jeder der Kurven einen bestimmten Lautstärkepegel zu, der in der Hilfseinheit Phon angegeben wird. Für 1 kHz hat man den Schalldruckpegel in dB und den Lautstärkepegel in Phon willkürlich zahlenmäßig gleichgesetzt. Bei der Gewinnung der Kurven gleicher Lautstärkepegel spielen die Bedingungen, unter denen gemessen wird, und die Auswahl der Versuchspersonen durchaus eine Rolle.
3.3 Eigenschaften der Schallwahrnehmung
123
Abb. 3/4. Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld beim Hören mit beiden Ohren nach [DIN 45630, 1971] und [ISO 226, 2003].
124
3 Schallwahrnehmung
Es ist deshalb sinnvoll, die Kurven gleicher Lautstärkepegel zu normen, um für alle Überlegungen, die an diesen Kurven anschließen, eine gemeinsame Basis zu haben. Abb. 3/4a zeigt die nach [DIN 1318] und [DIN 45630], beide zurückgezogen, genormten Kurven, die mit den internationalen ISO-Empfehlungen [R 226] übereinstimmen; 2003 wurde von ISO eine überarbeitete Empfehlung [R 226-2003] herausgegeben, die die Forschungen der letzten Jahrzehnte berücksichtigt und nun im Allgemeinen verwendet wird (Abb. 3/4b). Die Hörschwelle, gestrichelt dargestellt, liegt bei 4 Phon, nicht bei 0 Phon. Der Grund dafür ist, dass als Bezugsschalldruck der runde Wert 20 μN/m2 bzw. 20 μPa international vereinbart wurde. Die DIN- und ISO-Kurven beziehen sich auf Personen mit normalem Gehör zwischen 18 und 25 Jahren beim Hören mit beiden Ohren im freien Schallfeld, also bei Beschallung von vorne im reflexionsarmen Raum. Für andere Schallsignale, z. B. Rauschen, oder für andere Abhörbedingungen, wie z. B. im Diffusfeld (Abb. 3/5), ergeben sich etwas abweichende Normalkurven.
Abb. 3/5. Differenz der Pegel von Schmalbandrauschen gleicher Lautstärke von diffusem und freiem Schallfeld.
Während die Lautstärkepegel von Sinustönen relativ einfach und zuverlässig ermittelt werden können und dafür Phon-Angaben sinnvoll sind, sind die Verfahren zur Feststellung des Lautstärkepegels von Klängen und Geräuschen komplizierter und ergeben je nach angewandtem Verfahren recht unterschiedliche Werte; das früher hierfür verwendete Phon-Maß ist hier nicht mehr sinnvoll anwendbar. Eine erste Annäherung an den Lautstärkepegel komplexer Schallereignisse erbringen in diesem Fall im Allgemeinen die Messungen des A-bewerteten Schalldruckpegels nach [DIN EN 61672], siehe Kap. 9.5.3. Der Lautstärkepegel kann auch auf Grund der psychoakustischen Kenntnisse über das Gehör berechnet werden. Hierfür sind verschiedene Verfahren angegeben worden, die allerdings beträchtliche Abweichungen im ihren Ergebnissen aufweisen. Das Verfahren der Lautstärkeberechnung aus dem Geräuschspektrum nach Zwicker wurde in [DIN 45631] normiert und als ISO-Empfehlung [ISO 532B] international verbreitet. Der Lautstärkepegel eignet sich für den Vergleich der Lautstärkeempfindung gleich lauter Schallereignisse. Er eignet sich aber nicht dafür, verschieden laute Schallereignisse miteinander zu vergleichen. Während nämlich z. B. beim Schalldruckpegel einer Druckverdopplung eine Pegelzunahme von 6 dB entspricht, bedeutet eine Verdopplung der empfundenen Lautstärke in dem praktisch wichtigen Lautstärkebereich über 30 Phon eine Lautstärkepegelzunahme um 10 Phon. Die Lautheit S erfasst deshalb die tatsächlichen Lautstärkeverhältnisse verschiedener Lautstärkepegel LS zueinander; sie wird in sone angegeben. 40 Phon bei
3.3 Eigenschaften der Schallwahrnehmung
125
1 kHz werden definiert als 1 Sone. Dem doppelt so laut empfundenen Wert von 50 Phon entsprechen also 2 Sone. Die Abhängigkeit zwischen sone und Phon gibt Abb. 3/6 an.
Abb. 3/6. Zusammenhang zwischen Lautheit S [Sone] und Lautstärkepegel LS [Phon].
3.3.2 Anpassung und Maskierung Die vielfältigen Phänomene der Anpassung und Maskierung oder Verdeckung sind Maßnahmen des Gehörs, eine nicht mehr verarbeitbare Datenflut für die eigentliche Wahrnehmung zu reduzieren. Denselben Ansatz verfolgt die digitale Tontechnik, indem sie die Datenreduktion, die das Gehör vornimmt, im Prinzip nachahmt, um für die Bearbeitung, Übertragung und Speicherung mit ganz wesentlich reduzierten Datenmengen auszukommen; diese sog. psychoakustisch basierten Audiocodecs werden ausführlich in Kap. 14 behandelt, auch weitere Details zur Psychoakustik insbesondere der Maskierung. Eine wichtige Eigenschaft des menschlichen Gehörs ist die Anpassung, nämlich die Fähigkeit, seine Empfindlichkeit einem bestimmten, gerade herrschenden mittleren Schallpegel anzupassen, ähnlich wie sich das Auge an verschiedene Helligkeitsgrade anpasst. Dadurch werden z B. gleichmäßige Hintergrundgeräusche im Höreindruck stark zurückgedrängt, dadurch kann sich das Gehör aber auch innerhalb bestimmter Grenzen z. B. an verschiedene Wiedergabepegel beim Anhören von Tonproduktionen anpassen, ohne dass dabei ein wesentlicher qualitativer Unterschied besteht. Denn das Gehör bildet sich aus den mannigfaltigen Reizeinwirkungen ein Bezugssystem, Anpassungsniveau genannt, an dem sich die einzelnen Urteile wie laut − leise, aber auch hell − dunkel und hoch -- tief als an einem Mittelwert orientieren. Diese Anpassung hat aber auch zur Folge, dass ein gleichmäßiger Dauerton mit zunehmender Zeitdauer immer leiser erscheint; das Gehör ermüdet und ordnet diesen Dauerschall als unwichtigeres Hintergrundgeräusch ein, eine sehr sinnvolle Funktion des Gehörs. In der Musik kann die Aufmerksamkeit dadurch erhalten werden, dass ein Ton ständig verändert wird, z. B. in seiner Höhe durch ein Vibrato oder in seiner Intensität durch ein Tremolo. Mit der Anpassung verbunden ist eine weitere Erscheinung, die man als Maskierung oder Verdeckung bezeichnet. Ein auf das Gehör einwirkender Reiz setzt gleichzeitig die Emp-
126
3 Schallwahrnehmung
findlichkeit für andere Reize herab. Allgemein gilt, dass Schall höherer Frequenz Schall tieferer Frequenz dann verdeckt, wenn der Frequenzabstand gering ist. Schall tieferer Frequenz verdeckt Schall höherer Frequenz dann, wenn der tieffrequente Schall vergleichsweise große Intensität besitzt. Maskierung oder Verdeckung gibt es nicht nur für gleichzeitige Signale, sondern auch für zeitlich aufeinander folgende Signale. Die Nachverdeckung lässt Signale, die auch bei simultaner Darbietung verdeckt werden, nach Abschalten des verdeckenden Signals eine kürzere Zeit lang unhörbar bleiben. Die Zeitspanne der Nachverdeckung hängt sehr von den Signalarten und -dauern ab; sie liegt im Bereich einiger ms bis einiger 10 ms. Auch eine Vorverdeckung für bis etwa 20 ms voreilende Signale kann beobachtet werden, ein lauter Klangeinsatz kann demnach z. B. ein leises, vorangehendes Störgeräusch verdecken.
3.3.3 Tonhöhe Die Tonhöhenempfindung als Teil des Höreindrucks wird hauptsächlich bestimmt durch die Frequenz einer Schwingung. Bei Sinustönen oder annähernd sinusförmigen Klängen ist dazu der Schallpegel von einem gewissen Einfluss: Bei Frequenzen unter 2 kHz sinkt die empfundene Tonhöhe geringfügig mit zunehmendem Pegel, bei Frequenzen darüber steigt sie mit zunehmendem Pegel. Die Frequenz des Sinustons gibt nun also nicht mehr genau die Tonhöhe an. Man nennt die empfundene, nicht mit der Frequenz übereinstimmende Tonhöhe „spektrale Tonhöhe“. Das Gehör kann bei Sinustönen unterhalb 500 Hz bei Tonfolgen eine Frequenzänderung von etwa 3,5 Hz gerade noch wahrnehmen. Bei Frequenzen über 500 Hz beträgt die hörbare Änderung 0,7 % der sich ändernden Frequenz. Langsamere Schwankungen der Tonhöhe werden Vibrato genannt, schnelle Schwankungen machen einen Ton rau (siehe unten Kap. 3.3.5). Die Fähigkeit, musikalische Töne mit geringem Tonhöhenunterschied zu unterscheiden, verbessert sich deutlich mit der Erfahrung und Übung; dabei zeigt sich, dass das Gehör besondere Fähigkeiten bei solchen Instrumenten oder allgemein Klangfarben entwickelt, die es besonders gut kennt. Bei aus Grundton und Obertönen zusammengesetzten Klängen bestimmt grundsätzlich der Grundton, auch wenn er nur schwach ausgebildet ist, die Tonhöhe. Aber selbst wenn der Grundton und sogar die ersten Obertöne fehlen, wie z. B. bei der Musikwiedergabe mit sehr kleinen Lautsprechern, bildet das Gehör aus den verbleibenden Klangkomponenten einen Tonhöheneindruck, der dem fehlenden Grundton entspricht. Tatsächlich ändert die Unterdrückung einzelner Teiltöne zwar die Schwingungsform, aber nicht die Schwingungsperiode und damit nicht die Frequenz. In diesem Fall bezeichnet man die empfundene Tonhöhe als „virtuelle Tonhöhe“. Weiterhin erzeugt die Verschiebung von Resonanz- und Formanten, wie z. B. beim Wah-Wah-Dämpfer (siehe Kap. 6.2.), bei der Maultrommel, wie auch bei der elektronischen Klangerzeugung beim Flanging und Phasing (siehe Kap. 6.4.), einen bestimmten Tonhöheneindruck, die sog. Formanttonhöhe.
3.3 Eigenschaften der Schallwahrnehmung
127
3.3.4 Nichtlineare Verzerrungen Das Gehör verzerrt die Schwingungsform des Schallereignisses. Ein einzelner Sinuston wird dadurch mit Obertönen versehen, die nur unter besonderen Bedingungen auch direkt hörbar sind. Ein obertonreicher Klang erhält zusätzliche Obertöne, die sich indessen den bereits vorhandenen Obertönen überlagern und damit ebenfalls weitgehend unbemerkt bleiben. Anders als bei Einzeltönen sind die Verzerrungen durch das Gehör bei Tonpaaren u. U. sehr deutlich zu hören. Denn hierbei entstehen nicht nur Obertöne, sondern auch sog. Kombinationstöne, nämlich Summen- und Differenztöne. Wenn f1 und f2 die Frequenzen zweier Sinustöne sind, entstehen Kombinationstöne mit den Frequenzen m ⋅ f2 ± n ⋅ f1, wobei m und n = 1, 2, 3..., insbesondere treten hörbar die Kombinationstöne mit den Frequenzen f2 – f1 und f2 + f1 in Erscheinung; bei geeigneten Versuchsanordnungen kann aber eine viel größere Zahl von Verzerrungsprodukten des Gehörs hörbar gemacht werden. Kombinationstöne sind am deutlichsten bei einem Paar von Sinustönen wahrnehmbar, besonders wenn ihre Frequenzen nahe beisammen liegen, kritisch ist das Intervall der Quinte mit f2 / f1 = 3 : 2. Fast ebenso empfindlich bezüglich der Hörbarkeit von Eigenverzerrungen des Gehörs sind die obertonarmen Klänge einiger Musikinstrumente wie Blockflöten und Hörner bei größeren Lautstärken. Die Kombinationstöne des Gehörs spielen auch eine wichtige Rolle bei der Klassifizierung in angenehme und unangenehme Intervalle, also in Konsonanzen und Dissonanzen. Verzerrungen von Tonsignalen (siehe Kap. 9.2.2) sind dann hörbar, wenn sie größer als die Eigenverzerrungen des Gehörs sind. Die quadratischen Verzerrungen des Gehörs sind den technischen quadratischen Verzerrungen der Übertragungskette vergleichbar; sie betragen rund 0,1 % bei 70 dB Lautstärkepegel und etwa 1 % bei 90 dB. Diese Verzerrungen des Gehörs sind also recht gering. Die Stärke der Verzerrungen bei zwei Sinustönen hängt von deren Stärke und Frequenzabstand ab, ohne dass einfache Abhängigkeiten genannt werden können. Diese irregulären Verzerrungen sind aber wesentlich höher als die quadratischen Verzerrungen. Sie können unter bestimmten Bedingungen weit über 10 % liegen. Diese gehöreigenen Verzerrungen können leicht beobachtet werden z. B. beim zweistimmigen Pfeifen oder Blockflötenspiel.
3.3.5 Rauheit und Schärfe Rauheit und Schärfe eines Klangs sind Begriffe, die sich zur Beschreibung von Klangeigenschaften gut eignen und auch gehörakustisch relativ gut erfasst werden können. Rauheit kennzeichnet Schallereignisse, die eine starke zeitliche Strukturierung besitzen. Während langsame Pegelschwankungen als sog. Tremolo empfunden werden, lassen schnelle Pegelschwankungen vor allem zwischen 20 und 150 Hz einen Ton oder Klang rau erscheinen. Die Rauheit nimmt mit steigender Frequenz zu, bei etwa 70 Schwankungen pro Sekunde ist sie am größten; die messtechnische Einheit ist das Asper. 1 Asper hat ein Sinuston von 1 kHz und 60 dB Schalldruckpegel, der mit 70 Hz und dem höchstmöglichen Modulationsgrad m = 1 moduliert ist; m = 1 bedeutet, dass das modulierende und das modu-
128
3 Schallwahrnehmung
lierte Signal die gleichen Amplituden haben, d. h., dass die Amplitude der resultierenden Schwingung zwischen einem Höchstwert und völliger Auslöschung schwingt. Die Schärfe eines Klangs ist eine wesentliche Komponente der Klangfarbe, die man getrennt beurteilen kann. Sie wird durch die Umhüllende des Spektrums akustisch charakterisiert. Dabei ist es unerheblich, ob das Spektrum geräuschhaft kontinuierlich ist oder aus diskreten, also z. B. harmonischen Komponenten besteht. Bei einem schmalbandigen Klangspektrum steigt die Schärfe mit der Mittenfrequenz des Frequenzbands an, bei nur einseitiger Bandbegrenzung mit der unteren Grenzfrequenz und wesentlich stärker mit der oberen Grenzfrequenz. Außer den Grenzfrequenzen hat die Form der Umhüllenden einen Einfluss auf die Klangschärfe.
3.3.6 Subjektive Tondauer Wird die Dauer von Tonimpulsen und kürzeren Pausen zwischen Tönen subjektiv bewertet, so zeigt sich, dass diese subjektive Dauer bei kürzeren Tönen und Pausen nicht mit der objektiven Dauer übereinstimmt. Einzelne Tonimpulse wirken bei einer objektiven Dauer unter 50 ms länger als sie tatsächlich sind. Ein erstaunlicher Zusammenhang wird jedoch beim Vergleich der subjektiven Dauer von Tonimpulsen mit dazwischen liegenden gleichlangen Pausen offenbar: Während bei einer Dauer über 1 s subjektive und objektive Dauern übereinstimmen, wirken bei kürzerer Dauer die Pausen länger als die Töne, dies auch abhängig von der Frequenz des Tonimpulses. Die Unterschiede von subjektiver und objektiver Dauer sind sehr groß; so wirkt z. B. ein 3,2 kHz-Tonimpuls mit 100 ms Dauer ebenso lang wie eine Pause von 400 ms. Sollen also kurze Töne und die dazwischen liegenden Pausen gleich lang wirken, müssen die Pausen ganz erheblich länger als die Töne sein.
3.3.7 Hörbarkeit von Phasenänderungen Die einzelnen Komponenten eines Spektrums sind durch Frequenz, Pegel und Phasenlage definiert. Ausgehend von der Theorie der Klangfarbe nach Helmholtz war man lange Zeit der Meinung, dass die Phasenlage für die Klangfarbe unbedeutend sei. Tatsächlich hat sie aber einen gewissen, aber relativ komplexen Einfluss darauf. Phasenänderungen werden am deutlichsten bei Kopfhörerwiedergabe, am undeutlichsten bei Lautsprecherwiedergabe in halligen Räumen wahrgenommen. Die Untersuchungen ergeben folgende Zusammenhänge: Die Hörbarkeit von Phasenänderungen in einem harmonischen Klang hängt von seiner Zusammensetzung ab. Die Auswirkungen derselben Phasenänderung werden bei tiefen und bei hohen Frequenzen geringer eingeschätzt als bei mittlerer Frequenzlage; um 1 kHz hat das Gehör die größte Phasenempfindlichkeit. Bei tiefen Tönen werden eher Änderungen als Rauheit wahrgenommen, bei hohen Tönen eher als Änderungen der Tonhöhe und Klangfarbe. Bei kleinen Frequenzabständen der Teiltöne sind Phasenänderungen von 10° bis 30° wahrnehmbar, bei großen Abständen wird die Wahrnehmbarkeit, abhängig vom Pegel, geringer. Die in der analogen Tonstudiotechnik zugelassenen Phasenverschiebungen der Geräte orientieren sich an diesen Erkenntnissen (siehe Kap. 9.4.2).
3.4 Räumliches Hören natürlicher Schallquellen
129
3.3.8 Psychoakustisches Modell Viele der oben beschriebenen Gehöreigenschaften und -parameter werden im Zusammenhang mit modernen, digitalen Übertragungs-, Speicher- und Messverfahren oft in einem sog. psychoakustischen Modell zusammengefasst. Eine solche Verfahrensvorschrift, die eine mathematische Modellierung der physiologischen und hörpsychologischen Zusammenhänge darstellt, beschreibt die funktionellen Grundlagen der entsprechenden Algorithmen zur gehörbasierten Audiosignalverarbeitung. Bestandteile eines solchen Modells können u. a. sein: –– Ruhehörschwellen, Mithörschwellen, Unterschiedshörschwellen, –– simultane Verdeckung, Vor- und Nachverdeckungsschwellen, –– Verfahren zur Lautheitsbestimmung, –– Bestimmung der Tonalität oder Nichttonalität eines Tonsignals, –– spektrale Unterteilung des Audiosignals in sog. Frequenzgruppen Bark- bzw. Mel-Skala), –– Wahrnehmbarkeitsschwellen für Amplituden- und Frequenzmodulation sowie andere Verzerrungsprodukte, –– Redundanz- bzw. Irrelevanzabschätzung bei mehrkanaligen Tonsignalen. Typische Anwendungen sind die verschiedenen gehörbasierten Datenreduktionsverfahren (perceptual coding), wie MPEG-1, -2, -3 (MP3), AAC, siehe Kap. 13.2, oder gehörbasierte Qualitätsmessverfahren, wie PEAQ, siehe Kap. 13.4. Je nach Anwendungsfall und Qualitätsanspruch können die verwendeten Gehörmodelle auch unterschiedlich konfiguriert sein. Auch bei modernen Video-Übertragungs- bzw. Wiedergabeverfahren finden auf der Wahrnehmung aufbauenden visuellen Wahrnehmbarkeitsmodelle Anwendung.
3.4 Räumliches Hören natürlicher Schallquellen Richtungswahrnehmung oder Lokalisierung ist die Zuordnung der vom Gehör zum Bewusstsein gebrachten Hörereignisrichtung zur Schallereignisrichtung. Zusammen mit der Entfernungswahrnehmung bildet sie die räumliche Wahrnehmung des Gehörs. Richtungs- und Entfernungswahrnehmung schließen auch die Wahrnehmung der räumlichen Ausdehnung einer Schallquelle ein. Die sog. Räumlichkeit einer Schallquelle ist nicht ihre tatsächliche Ausdehnung, sondern die Empfindung, dass der Raum um die Schallquelle mit Schall erfüllt ist, die Räumlichkeit nimmt mit der Lautstärke und mit der Stärke seitlicher Reflexionen in einem Raum zu (siehe dazu Kap. 1.3.2). [Blauert, 1996, 1997, 2020] Für die Beschreibung der Hörereignisorte wird ein auf den Kopf des Hörers bezogenes, ein sog. kopfbezogenes Koordinatensystem verwendet (Abb. 3/7). Man unterscheidet dabei die Richtungswahrnehmung in den drei Dimensionen, in der horizontalen Ebene, der vertikalen oder Medianebene und in der Frontalebene. Der einfachste Fall des Richtungshörens ergibt sich bei der Wahrnehmung einer einzigen, in ihrem Frequenzumfang breitbandigen Schallquelle. Schallereignisrichtung und Hörereignisrichtung stimmen hierbei weitgehend überein. Für die drei Ebenen nach Abb. 3/7 gilt:
130
3 Schallwahrnehmung
–– In der Horizontalebene führen Laufzeitunterschiede zwischen den Zeitpunkten des Eintreffens der beiden Ohrsignale und frequenzabhängige Pegelunterschiede, also Klangfarbenunterschiede, zwischen den Ohrsignalen zur Lokalisierung des Hörereignisses. –– In der vertikalen Ebene wird der Erhebungswinkel nur auf Grund spektraler Veränderungen der hier gleichen Ohrsignale gebildet. Auch die Entscheidung, ob eine Schallquelle vor oder hinter dem Hörer lokalisiert wird, beruht auf spektralen Merkmalen. –– In der Frontalebene erzeugen wie in der horizontalen Ebene Laufzeit- und komplexe Klangfarben- bzw. Pegelunterschiede die Hörereignisrichtung.
Abb. 3/7. Kopfbezogenes Koordinatensystem für die Beurteilung der Hörereignisrichtungen.
Bei mehreren Schallquellen aus unterschiedlichen Richtungen und in geschlossenen Räumen treten zusätzliche Effekte der Richtungswahrnehmung auf. Es kommt hierbei darauf an, ob die Schallsignale an den Ohren unähnlich, d. h., nicht oder schwach korreliert, oder ob sie ähnlich, d. h. hoch korreliert sind. Das Gehör kann bei Hörereignissen, die aus deutlich unterschiedlichen Richtungen kommen, die zugehörigen Klangbilder besser trennen und verfolgen, als wenn sie aus derselben Richtung eintreffen. Diese Fähigkeit wird mit „intelligentem Hören“ oder mit Cocktailparty-Effekt nach [Cherry, 1953] bezeichnet. Wichtig für die Fähigkeiten der räumlichen Wahrnehmung sind neben physiologischen und psychologischen Mechanismen auch Lernprozesse und Erfahrungen, was z. B. durch die äußerst differenzierten Hörfähigkeiten Blinder belegt wird. Die elektroakustische Wiedergabe und Wahrnehmung von Klangbildern wird von denselben psychoakustischen Phänomenen beschrieben wie das räumliche Hören im natürlichen Schallfeld, wenn von nur einem Lautsprecher ein Schallsignal abgestrahlt wird. Sollen aber räumlich ausgedehnte Schallfelder, also stereofone Klangbilder, elektroakustisch zu Gehör gebracht werden, treten ganz neue Phänomene auf, in der Hauptsache handelt es sich um sog. Phantomschallquellen. Phantomschallquellen sind Schallwahrnehmungen von Orten, an denen sich keine reale Schallquelle befindet. Es handelt sich um Phänomene, die beim natürlichen Hören praktisch nicht auftreten. Da die Phänomene räumlicher Wiedergabe durch Lautsprecher in engster Verbindung stehen zur stereofonen oder allgemein zur mehrkanaligen Aufnahme und Wiedergabe von Klangbildern, werden sie ausführlich in Kap. 5.1 und 5.2 erläutert.
3.4 Räumliches Hören natürlicher Schallquellen
131
3.4.1 Wahrnehmung der Richtung 3.4.1.1 Horizontale Ebene Die Lokalisierung in der horizontalen Ebene wird durch Unterschiede der Signale an den Ohren ermöglicht, die sich dann ergeben, wenn die Schallquelle aus der Mitte bzw. 0° auswandert. Dabei treten beim natürlichen Hören zwischen den beiden Ohrsignalen stets sog. interaurale Signaldifferenzen auf, sowohl Laufzeitdifferenzen als auch, frequenzabhängig, Pegeldifferenzen. Sie führen aber auch einzeln zur Richtungswahrnehmung, wovon bei der stereofonen Wiedergabe über zwei oder mehr Lautsprecher Gebrauch gemacht wird. Je nach angewendetem Aufnahmeverfahren können die Lautsprechersignale nur Laufzeit- oder nur Pegeldifferenzen oder aber beide gleichzeitig erhalten. Interaurale Laufzeitdifferenzen Interaurale Laufzeitdifferenzen sind beim natürlichen Hören die wichtigsten Merkmale der Ohrsignale für die Lokalisierung. Sie betragen auf Grund des Abstands der Ohren von 17 cm höchstens 0,63 ms. Die geringste noch wahrnehmbare Laufzeitdifferenz von etwa 0,03 ms entspricht einem Schallwegunterschied von nur 1 cm und führt zu einer Auswanderung der Hörereignisrichtung um 3° bis 5° aus der Mitte. Für die interaurale Laufzeitdifferenz gilt bei parallelem Schalleinfall vereinfacht der folgende Zusammenhang (Abb. 3/8): Δt = intraaurale Laufzeitdifferenz [m] Δs = interaurale Wegdifferenz [m] ⋅ c d = interauraler Abstand = 0,17 m = 0,5 ⋅ sin c = Schallgeschwindigkeit = 340 m/s α = Einfallswinkel [°]
Abb. 3/8. Interaurale Wegdifferenzen Δs.
Für die Feststellung der Zeitdifferenzen kann sich das Gehör am Schwingungsverlauf und an der Einhüllenden der Schwingung orientieren. Vor allem für Frequenzen unterhalb von 800 Hz, höchstens aber 1,6 kHz, kann das Gehör dem Schwingungsverlauf direkt Zeit- bzw. Phasendifferenzen entnehmen; deshalb können nur in diesem Frequenzbereich Sinusschwingungen zu einer Lokalisierung führen. Für höhere Frequenzen kann das Gehör nur aus dem Vergleich der Hüllkurven der Signale Zeitdifferenzen entnehmen.
132
3 Schallwahrnehmung
Übliche natürliche Schallereignisse wie Sprache und Musik sind breitbandige, impulshaltige Signale mit stark strukturierten Einhüllenden. Solche Signale werden viel leichter lokalisiert als Sinussignale, die in der Praxis ja kaum vorkommen. Die Laufzeitdifferenz Δt steigt bei komplexen Signalen für den wichtigen vorderen Bereich der Lokalisierung anders als bei Sinussignalen weitgehend linear mit dem Winkel an. Interaurale Pegeldifferenzen Gegenüber interauralen Laufzeitdifferenzen sind die interauralen Differenzen der mittleren Schalldruckpegel von geringerer Bedeutung für die Lokalisierung von Schallquellen. Pegeldifferenzen werden verursacht von Abschattungen durch Kopf und Ohrmuscheln. Das Gehör ist fähig, im gesamten hörbaren Frequenzbereich Pegeldifferenzen zu erkennen und in Richtungsinformationen umzusetzen. Die Ohrsignale werden selektiv in einzelnen Frequenzgruppen verglichen. Unterhalb von etwa 300 Hz entstehen jedoch wegen der Beugungserscheinungen des Schalls um den Kopf praktisch keine Pegeldifferenzen mehr. Über 300 Hz nehmen sie mit der Frequenz zu; allerdings nimmt die Pegeldifferenz sinusförmiger Signale nicht in einfacher Weise mit dem Winkel zu, sondern sehr unregelmäßig. Damit kann hier keine feste Zuordnung zwischen Pegeldifferenz und Schallereignisrichtung bestehen, die für jede Signalart gültig ist; nur definierten Signalen wie Weißem Rauschen oder Sinustönen können feste Werte zugeordnet werden. Die Zusammenhang hängt ganz von der spektralen Zusammensetzung des Signals ab. Für natürliche breitbandige Signale werden die Zusammenhänge einfacher und übersichtlicher, da sich statistische Mittelwerte bilden können. Es ergeben sich Klangfarbenunterschiede, sog. Spektraldifferenzen, zwischen den Ohrsignalen, die zwar nicht bewusst wahrgenommen werden, aber für die Lokalisierung wichtig sind. Hierbei sind jedoch im Gegensatz zur Lokalisierung durch Zeitdifferenzen umfangreiche Lernprozesse Voraussetzung, die auf dem Rückgriff auf die Klangfarbenmuster bei frontalem Schalleinfall beruhen. Auf Grund der komplexen, teilweise auch mehrdeutigen Zusammenhänge zwischen Frequenz bzw. Klangfarbe, Pegel und Einfallswinkel ist eine Schalllokalisierung allein durch Pegelunterschiede u. U. nur beschränkt möglich bzw. kann zu Fehlurteilen führen. Zusammenwirken von interauralen Laufzeit- und Pegeldifferenzen Bei der Schallwahrnehmung wirken stets interaurale Laufzeit- und Pegeldifferenzen zusammen. Für bestimmte Signale lässt sich deshalb angeben, welcher Laufzeitdifferenz welche Pegeldifferenz entspricht; je nach Signalart wurden Werte zwischen 2 μs/dB und 200 μs/ dB ermittelt. Es zeigt sich, dass dieser Wert zusätzlich vom Schalldruckpegel sowie von der Schalleinfallsrichtung abhängt. Die sehr komplexen Zusammenhänge von Laufzeit- und Pegeldifferenzen lassen erkennen, dass das Gehör über zwei weitgehend voneinander unabhängig arbeitende Mechanismen der Lokalisierung verfügt. Der erste Mechanismus wertet interaurale Laufzeitdifferenzen von Trägerschwingungen mit Frequenzen unter 1,6 kHz aus; er bestimmt nur dann die Hörereignisrichtung, wenn Frequenzkomponenten über 1,6 kHz fehlen. Der zweite Mechanismus wertet sowohl Laufzeitdifferenzen der Hüllkurven als auch Pegeldifferenzen aus; er bestimmt die Hörereignisrichtung, sobald Frequenzanteile über 1,6 kHz wesentlicher Bestandteil des Signals sind, also ist er für die Lokalisierung natürlicher Schallquellen wie Musik, Sprache und Geräusche dominierend.
3.4 Räumliches Hören natürlicher Schallquellen
133
Lokalisierungsunschärfe Die Lokalisierungsunschärfe in Blickrichtung erreicht 2° bis 3°, sie nimmt bei seitlichem Schalleinfall auf etwa 4,5° zu. Ein Richtungswechsel von links nach rechts wird nach etwa 150 ms, von vorn nach hinten nach etwa 250 ms wahrgenommen. Impulshaltiger Schall, wie ihn die meisten Schallquellen abgeben, ist schneller und präziser zu lokalisieren als stationärer Schall. Treffen beim Hörer zwei gleiche Schallereignisse kurz nacheinander ein, was z. B. bei Wand- oder Deckenreflexionen in einem Raum zutrifft, so gilt für eine Verzögerung zwischen etwa 1 und 30 ms das sog. Gesetz der ersten Wellenfront oder Precedence-Effekt (nach Wallach, Newman und Rosenzweig, 1949), auch Haas-Effekt (nach Haas, 1951) genannt. Danach bestimmt der zuerst eintreffende Schall den Richtungseindruck, unabhängig davon, aus welcher Richtung der nachfolgende Schall kommt. Dabei darf der Pegel des nachfolgenden Schalls bei Laufzeitdifferenzen zwischen 5 und 30 ms z. B. für Sprache sogar bis 10 dB über dem des Primärschalls liegen, ohne dass dadurch das Gesetz der ersten Wellenfront seine Gültigkeit verliert. Vom Gesetz der ersten Wellenfront, besser als psychoakustisches Phänomen denn als Gesetz zu bezeichnen, profiziert die Beschallungstechnik (siehe dazu Kap. 10) bei der richtungstreuen Beschallung von Publikum; es ermöglicht, die Lautstärke zu erhöhen, ohne die Richtung des Schalleinfalls zu verändern. Auch bei der Schallausbreitung in Räumen oder im Freien spielt dieses Phänomen eine Rolle, indem es dafür sorgt, dass der tatsächliche Ort der Schallquelle auch bei lauteren Reflexionen noch erkannt wird; bei zu lauten Reflexionen kommt es natürlich zu Täuschungen der Lokalisierung, ebenso bei einem Zeitabstand von mehr als 40 bis 50 ms, der dann zur Echobildung führt, d. h., zur Wahrnehmung zweier getrennter Schallereignisse. 3.4.1.2 Vertikale Ebene Auch in der vertikalen Ebene oder Medianebene (Abb. 37) ist eine Lokalisierung der Schallquelle möglich. In dieser Ebene ergeben sich bei Schalleinfall keine Unterschiede zwischen den Signalen an beiden Ohren. Hingegen entstehen Klangfarbenunterschiede bezogen auf die Klangfarbe des aus Blickrichtung eintreffenden Signals, die durch die Form und Beschaffenheit von Kopf und Ohren verursacht, beim Hören aber nicht bewusst wahrgenommen werden. Je nach Einfallsrichtung werden bestimmte, sog. richtungsbestimmende Frequenzbänder angehoben (Abb. 3/9).
Abb. 3/9. Richtungsbestimmende Frequenzbänder bei der Richtungswahrnehmung in der Medianebene nach [Blauert, 1997].
134
3 Schallwahrnehmung
Anhebungen in diesen Frequenzgebieten führen also zu einer entsprechenden Lokalisierung der Hörereignisse. Es wird angenommen, dass jeweils eine spezifische Kombination von spektralen Gipfeln und Einbrüchen die Hörereignisrichtung bestimmt. Eine solche Lokalisierung in der Medianebene kann aber nur zu einer guten Übereinstimmung von Schallereignis- und Hörereignisort führen, wenn das Schallsignal breitbandig ist und wenn das Gehör über Erfahrungen verfügt, wie dieses Signal strukturiert ist; so ist die Lokalisierung in erheblichem Maße von der Art des Schallsignals abhängig, Lerneffekte spielen eine wichtige Rolle, schmalbandige Signale können in der Medianebene nicht lokalisiert werden. Das Richtungshören in der Medianebene gewinnt besondere Bedeutung bei der Schallübertragung mit Kunstkopftechnik (siehe Kap. 5.5.4 und 5.5.5). Die Unschärfe der Lokalisierung des Erhebungswinkels ist wesentlich größer als in der horizontalen Ebene. Für einen unbekannten Sprecher z. B. liegt sie bei etwa 15° bis 20°, für einen bekannten Sprecher bei etwa 10° in Vorwärtsrichtung. Mit zunehmender Erhebung der Schallquelle nimmt die Unschärfe auf etwa den dreifachen Betrag zu.
3.4.2 Wahrnehmung der Entfernung Interaurale Signalunterschiede werden für die Richtungswahrnehmung in der horizontalen Ebene ausgewertet. Die durch die Abschattungen und Beugungserscheinungen an Kopf und Ohr entstehenden Klangfarbenänderungen geben dem Gehör die Möglichkeit, den Erhebungswinkel einer Schallquelle zu bestimmen. Für die Wahrnehmung der Entfernung einer Schallquelle bleiben somit keine einfachen Signalmerkmale für das Gehör auswertbar, vielmehr gibt es mehrere Merkmale des Schallsignals, die in komplexer Weise auf die Entfernungswahrnehmung einwirken. Grundsätzlich sind hierbei die Erfahrung des Gehörs und die Übung, also die Bekanntheit einer Schallquelle von sehr großer Bedeutung. Im Wesentlichen tragen die Lautstärke des Hörereignisses und wieder Veränderungen der Klangfarbe bzw. des Spektrums auf dem Weg zum Ohr zur Bildung der Hörereignisentfernung bei. Der Lautstärkepegel eines Schallereignisses nimmt mit jeder Entfernungsverdopplung bei allseitiger Abstrahlung um 6 dB ab, bei gerichteter Abstrahlung um einen geringeren Wert. Da die meisten Schallquellen wie Musikinstrumente z. B. tiefere Frequenzkomponenten ungerichtet, höhere Frequenzkomponenten aber mit der Frequenz zunehmend gerichtet abstrahlen, ergibt sich i.Allg. mit der Pegelverminderung bei wachsender Entfernung von der Schallquelle auch eine Klangfarbenänderung, da der Anteil tiefer Frequenzkomponenten mehr abnimmt als der hoher; diese Klangfarbenänderung wird noch dadurch verstärkt, dass das Gehör für tiefe Frequenzen umso unempfindlicher wird, je geringer der Schallpegel ist; die Kurven gleicher Lautstärkepegel, Abb. 3/4, zeigen dies. Die Entfernungswahrnehmung auf Grund von Lautstärkepegeln setzt grundsätzlich voraus, dass das Gehör die Lautstärke der Schallquelle in einer bestimmten Entfernung kennt. Der hierfür notwendige Lernprozess kann auf längeren allgemeinen Hörerfahrungen oder auf einem aktuellen Lernprozess beruhen. Voraussetzung für die Entfernungswahrnehmung auf Grund der Lautstärke ist ferner eine gewisse Konstanz der Schallleistung. Die Lautstärke spielt vor allem bei einer Schallquellenentfernung bis etwa 15 m eine Rolle.
3.4 Räumliches Hören natürlicher Schallquellen
135
Die Entfernungswahrnehmung im Freien bei Entfernungen über 3 m zeigt einen typischen Fehler: Das Hörereignis ist näher als das Schallereignis, das Gehör schätzt die Schallquellenentfernung zu gering ein (Abb. 3/10). Der Fehler steigt mit der Schallquellenentfernung an und kann erheblich sein; eine 10 m entfernte Schallquelle scheint nur halb so weit vom Hörer entfernt zu sein. Diese Feststellungen scheinen der Erfahrung zu widersprechen, sie gelten allerdings ohne Zuhilfenahme des Auges und der Gegebenheiten der Hörsituation. Interessant ist, dass Flüstern stets deutlich näher und Schreien deutlich ferner lokalisiert wird als Umgangssprache. Auch dies zeigt den großen Einfluss von Erfahrung und Erwartung. Ein wichtiger Aspekt des Entfernungshörens ist aber auch, dass das Gehör im Allgemeinen nicht gefordert ist, Hörerfahrungen beim Entfernungshören zu sammeln, da das Auge diese Leistung schnell und präzise erbringt. Über das Entfernungshören bei größeren Entfernungen liegen kaum Untersuchungen vor; neben dem Lautstärkepegel ist hier offensichtlich eine Klangfarbenänderung maßgeblich, die durch die Absorption hoher Frequenzkomponenten in der Luft entsteht. Auch bei Entfernungen unter 25 cm sind zusätzlich Merkmale der Klangfarbenveränderung, nun verursacht durch Beugungs- und Abschattungserscheinungen am Kopf, für das Entfernungshören von Einfluss. In geschlossenen Räumen ist eine Abschätzung der Hörereignisentfernung auch auf Grund des Verhältnisses von direktem zu diffusem Schall oder Nachhall möglich, da der Pegel des diffusen Schalls unabhängig von der Schallquellenentfernung konstant bleibt, während der Pegel des direkten Schalls mit zunehmender Entfernung abnimmt. Da neben dem Abstand zur Schallquelle aber auch das Raumvolumen und die Nachhallzeit auf das Verhältnis von direktem zu diffusem Schall Einfluss nehmen, ist die Kenntnis der raumakustischen Verhältnisse, also auch hierbei eine gewisse Hörerfahrung, erforderlich.
Abb. 3/10. Zuordnung von Schallereignis- und Hörereignisentfernung bei einem Sprecher als Schallquelle nach [Bekesy, 1949].
3.4.2.1 Im-Kopf-Lokalisierung Bei der normalen Lokalisierung werden Schallereignisse als Hörereignisse außerhalb des Kopfs lokalisiert. Unter bestimmten Bedingungen können aber Hörereignisse auch im Kopf des Hörenden lokalisiert werden. Solche Bedingungen herrschen bevorzugt bei der Wiedergabe mit Kopfhörern, weshalb sie zunächst auf diese spezielle Wiedergabeart zurückgeführt
136
3 Schallwahrnehmung
wurden. Im-Kopf-Lokalisierung oder -Lokalisiertheit, auch IKL, kann aber z. B. auch bei der Abstrahlung eines Signals über eine Lautsprecheranordnung für Stereowiedergabe auftreten, wenn ein Lautsprecher verpolt wird. Das Gehör wertet nicht nur die momentan eintreffenden Signale aus, sondern vergleicht diese als Reizmuster mit erfahrenen und gespeicherten Reizmustern. Dies zeigt z. B. die wesentlich schärfere Lokalisierung von Sprechern in der Medianebene, wenn deren Stimme bekannt ist. Im-Kopf-Lokalisierung entsteht nur dann, wenn die Schallreize so geartet sind, dass sie nicht einer möglichen natürlichen Schallquelle außerhalb des Kopfs zugeordnet werden können, oder wenn das Reizmuster für das Gehör völlig neuartig ist. Vom Gehör für die Lokalisierung nicht auswertbare Signale werden also für die Wahrnehmung deutlich durch die Im-Kopf-Lokalisierung gekennzeichnet. Das wichtigste Beispiel für Im-KopfLokalisierung ist die Wiedergabe raumbezogener Stereofonie über Kopfhörer. Das Klangbild spannt sich hierbei nicht außerhalb des Kopfs, sondern im Kopf zwischen den Ohren auf. Es wird im Kopf lokalisiert, weil für die jeweilige Einfallsrichtung typische Klangfärbungen der Signale fehlen, eine Tatsache, die den Erfahrungen des Gehörs aus dem Bereich natürlichen Hörens fehlt. Werden diese Klangfarbenunterschiede wie im Kunstkopfverfahren mit einem künstlichen Kopf erzeugt, lokalisiert das Gehör trotz Kopfhörerwiedergabe außerhalb des Kopfs, siehe dazu Kap. 5.5.4.1.
Standards [DIN 1318] Lautstärkepegel; Begriffe, Messverfahren, zurückgezogen [DIN 1320] Akustik; Begriffe [DIN 45500] Bl. 10: Heimstudio-Technik (Hi-Fi); Mindestanforderungen an Kopfhörer, 1999 ersatzlos zurückgezogen [DIN 45630] Bl. 1: Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall [DIN EN 61672] Elektroakustik - Schallpegelmesser [DIN IEC 651] Schallpegelmesser [DIN EN 60 645-1] Audiometer [DIN ISO 226] Akustik - Normalkurven gleicher Lautstärkepegel [DIN ISO 226-2003] Akustik – Normalkurven gleicher Lautstärkepegel [ISO 532 B] Akustik – Verfahren zur Berechnung des Lautstärkepegels
Literatur [Bekesy, 1949] [Blauert, 1996] [Blauert, 1997] [Blauert, 2020]
von Bekesy, G.: „The room illusion and similar auditory phenomena“, in: Amer. Journal of Psychol. 62, 1949, S. 540 ff. Blauert, J.: Spatial Hearing. The Psychophysics of Human Sound Localization, 1996, MIT Press Blauert, J.: Räumliches Hören, 1974, 1. und 2. Nachschrift 1985 und 1997, Ausgabe incl. 1. und 2. Nachschrift, 1997, Hirzel Blauert, J. und Brasch, J., Herausgeber: The Technology of Binaural Understanding (Modern Acoustics and Signal Processing), 2020, Springer
Literatur
137
[Cherry, 1953] Cherry, E.: “Some experiments on the recognition of speech, with one and with two ears“, in: Jour. Acoustical Society of America 25, S. 975 ff. [Fastl, 2007] Fastl, H. und Zwicker, E.: Psychoacoustics. Facts and Models, 3. Aufl., 2007, Springer [Hartmann, 1998] Hartmann, W. M.: Signals, Sound, and Sensation. Modern Acoustics and Signal Processing, 1998, Springer [Hellbrück, 2004] Hellbrück, J. und Ellermeier, W.: Hören. Physiologie, Psychologie, Pathologie, 2. Aufl., 2004, Hogrefe [Hesse, 2005] Hesse, G. und Laubert, A.: „Hörminderung im Alter - Ausprägung und Lokalisation“, in: Deutsches Ärzteblatt 2005, H. 42, S. 2864ff. [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal Press [Jekosch, 2005] Jekosch, U.: Voice and speach quality perception, 2005, Springer [Kalivoda, 1998] Kalivoda, M. und Steiner, J.: Taschenbuch der angewandten Psychoakustik, 1998, Springer [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Spitzer, 2005] Spitzer, M.: Musik im Kopf. Hören, Musizieren, Verstehen und Erleben im neuronalen Netzwerk, 2005, Schattauer [Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer
4 Mikrofone und Lautsprecher Michael Dickreiter Peter Arasin (4.3 und 4.5.2), Klaus Genuit (4.2.4.6) Mikrofone und Lautsprecher sind Systeme, die Schallenergie in elektrische Energie bzw. elektrische Energie in Schallenergie umwandeln, kurz auch Schallwandler oder elektroakustische Wandler genannt. Zur Aufnahme der Schallwellen aus einem Raum und für die Abstrahlung der Schallwellen in einen Raum wird im Allgemeinen eine Membran verwendet, deren Schwingungen dann weiterverarbeitet werden. In der Tonstudiotechnik gehören Mikrofone, Lautsprecher und Kopfhörer zu den Schallwandlern; nach ihrem Wirkungsprinzip gehören aber auch die Tonabnehmer oder Tondosen der Vinyl-Schallplattenabspielgeräte dazu. Reversible Schallwandler können in beiden Wirkungsrichtungen betrieben werden, also als Mikrofon und als Lautsprecher, irreversible Wandler arbeiten nur in einer Richtung. [Lerch, 2009], [Möser, 2009], [Schneider, 2008], [Zollner, 1993]
4.1 Physikalische Prinzipien der Schallwandler Für die Umwandlung von aus dem Schallfeld über eine mitschwingende Membran entnommener mechanischer Energie in elektrische Energie und umgekehrt gibt es mehrere physikalische Prinzipien; sie werden nach der Art der mechanisch-elektrischen bzw. elektrischmechanischen Energiewandlung bezeichnet und eingeteilt in: –– elektromagnetische Wandler, –– elektrodynamische oder dynamische Wandler, –– elektrostatische Wandler und Elektretwandler, –– magnetostriktive Wandler, –– piezoelektrische Wandler. Die verschiedenen Wandlerprinzipien haben gemeinsame Gesetzmäßigkeiten: Bei elektrodynamischen und piezoelektrischen Schallwandlern bleibt die Schwingungsform bei der Wandlung erhalten, es entstehen nur geringe Verzerrungen. Elektromagnetische, magnetostriktive und elektrostatische Schallsender arbeiten da gegen nach quadratischen Kraftgesetzen, die Schwingungen werden deformiert, es entstehen starke Verzerrungen. Um diese zu vermeiden, muss deshalb einer Gleichgröße als Magnetfeld oder Vorspannung hinzugefügt werden, die groß gegenüber der Wechselgröße sein muss; damit wird die Verformung fast unwirksam. Schallwandler, die mit einem magnetischen Feld arbeiten, reagieren auf die Geschwindigkeit der bewegten Membran; Schallwandler, die mit einem elektrischen Feld arbeiten, reagieren auf die Auslenkung der Membran. Die mit einem magnetischen Feld arbeitenden Wandler geben eine frequenzabhängige Signalspannung ab, die durch besondere konstruktive Maßnahmen linearisiert werden muss. Schallwandler, die mit dem elektrischen Feld arbeiten, geben eine frequenzunabhängige Signalspannung ab, sofern ihre Eigenresonanz oberhalb des Übertragungsbereichs liegt. https://doi.org/10.1515/9783110759921-004
140
4 Mikrofone und Lautsprecher
Alle fünf physikalischen Prinzipien werden in technischen Lösungen angewendet, jedes Prinzip bietet einen besonderen Vorteil, der bei spezialisierten Mikrofonen und Lautsprechern genutzt wird. Elektromagnetische Wandler Eine Membran nimmt den Luftschall auf und gibt die Schwingungen an einen Anker weiter, der in einem Luftspalt dicht über einem Permanentmagneten gehalten wird; der Magnet ist mit einer festen Leiterwicklung umgeben. Permanentmagnet und Anker bilden einen ma gnetischen Kreis, der durch einen Luftspalt unterbrochen ist. Bewegt sich die Membran und damit auch der Anker, so wird in die Leiterwicklung wegen des permanenten Magnetfelds eine Spannung induziert, die der Bewegungsgeschwindigkeit der Membran proportional ist. Wird umgekehrt an die Leiterwicklung eine Wechselspannung gelegt, so bewegt sich der Anker mit der Membran analog zu dieser Spannung, der Wandler ist also reversibel. Elektromagnetische Wandler haben einen guten Wirkungsgrad; sie eignen sich deshalb besonders für Miniaturmikrofone, also Ansteck- und Knopflochmikrofone. Elektrodynamische oder dynamische Wandler Der elektrodynamische Wandler arbeitet wie der elektromagnetische Wandler mit einem Permanentmagneten. Die mit Strom durchflossene Leiterwicklung ist hierbei jedoch nicht um den Permanentmagneten gewickelt, sondern bewegt sich im Magnetfeld des Permanentmagneten als Schwingspule frei, aber mechanisch geführt; an die Schwingspule ist die Membran angekoppelt. Dieser Wandler ist ebenfalls reversibel. Vorteilhaft gegenüber dem elektromagnetischen Prinzip ist, dass hierbei kein Wechselmagnetfeld erzeugt wird, das inhomogen ist und damit nichtlineare Verzerrungen erzeugt. Trägt man konstruktiv dafür Sorge, dass die Schwingspule auch bei großen Bewegungsamplituden innerhalb des homogenen Ma gnetfelds bleibt, so lassen sich mit dem elektrodynamischen Wandler besonders verzerrungsarme, robuste Wandler herstellen, auch für sehr große Membranausschläge. Dynamische Mikrofone, also Tauchspul- und Bändchenmikrofone, sowie dynamische Lautsprecher und Kopfhörer arbeiten nach diesem bewährten Prinzip, das Abb. 4/1 in der Anwendung bei einem Lautsprecher und einem Tauchspulmikrofon zeigt.
Abb. 4/1. Elektrodynamischer Wandler, Anwendung als Lautsprecher und Tauchspulmikrofon.
4.1 Physikalische Prinzipien der Schallwandler
141
Elektrostatische Wandler und Elektretwandler Der elektrostatische Wandler arbeitet wie ein Kondensator mit einer festen Platte als Elektrode und einer beweglichen, als Membran wirkenden Gegenelektrode. Dieser Kondensator erhält eine konstante elektrische Vorspannung und damit eine konstante Ladung Q. Schwingungen der Membran führen zu periodischen Änderungen des Elektrodenabstands und somit der Kapazität C dieses Kondensators. Es fließt ein Ausgleichsstrom, der an einem Widerstand, der in den Stromkreis aus Spannungsquelle und Wandler gelegt wird, einen den Bewegungen der Membran proportionalen Spannungsabfall U bewirkt. Die Spannung U ist gleich Q / C, Q ist durch die konstante Vorspannung konstant, also ist der Spannungsabfall U proportional zum Kehrwert der Kapazität, also 1 / C. So gewinnt man direkt aus der Bewegung der Membran eine dazu analoge elektrische Schwingung. Anders als bei dieser sog. Niederfrequenzschaltung können die Änderungen der Kapazität aber auch in einem Schwingkreis die Frequenz einer HF-Schwingung modulieren, aus der durch Demodulation dann die entsprechende NF-Spannung gewonnen wird, man spricht hier von Hochfrequenzschaltung. In der Tonstudiotechnik wird das elektrostatische Wandlerprinzip bei einem der wichtigsten Werkzeuge, dem Kondensatormikrofon, dem klassischen hochwertigen Studiomikrofon, in beiden Schaltungsvarianten angewendet (siehe Kap. 4.2.2), in umgekehrter Wirkungsrichtung bei elektrostatischen Lautsprechern und Kopfhörern. Abb. 4/2 zeigt das elektrostatische Wandlungsprinzip am Beispiel des Kondensatormikrofons in Niederfrequenzschaltung.
Abb. 4/2. Elektrostatischer Wandler, Anwendung als Kondensatormikrofon in Niederfrequenzschaltung.
Zu den elektrostatischen Wandlern gehören auch als besondere Bauform die Elektretmi krone. Auf Grund ihrer kompakten Bauweise, des geringen Preises und der guten Signalqualität werden diese Mikrofone in großen Stückzahlen preiswert hergestellt. Elektretmikro fone stellen Kondensatormikrofone mit einem bei der Herstellung aufgetragenen Elektret dar. Ähnlich wie ein Permanentmagnet ein eingefrorenes magnetisches Feld trägt, trägt ein Elektret ein eingefrorenes elektrisches Feld. Dieses übernimmt die bei Kondensatormikro fonen notwendige Vorspannung und erlaubt damit einen einfacheren Betrieb. Auf Grund
142
4 Mikrofone und Lautsprecher
der hohen Impedanz ist allerdings auch hier eine Spannungsversorgung von z. B 1,5 V für die Impedanzwandlung erforderlich. Nachteilig bei Elektretmikrofonen sind außerdem eine höhere Serienstreuung der Empfindlichkeit, Empfindlichkeitsverluste durch Alterung, Ladungsverluste durch hohe Temperaturen bis hin zum Totalausfall. Zunehmend werden Elektretmikrofone in der extrem miniaturisierten Mikrosystemtechnik, in der sog. MEMS-Technik – MicroElectroMechanical Systems – eingebaut, bei denen die die elektrische Kapazität ändernde Mikromembran direkt auf den Silicium-Wafer geätzt wird. Wenn die Ausleseelektronik mit einem Impedanzwandler, Vorverstärker und einem AnalogDigital-Wandler direkt bei der Membran ausgestattet ist und damit einen digitalen Ausgang besitzt, spricht man auch von einem Digitalmikrofon. Wegen der geringen Abmessungen, der geringen Leistungsaufnahme, der guten Abschirmung gegen Störsignale und der kostengünstigen Produktion werden diese Mikrofone zunehmend in kleinen mobilen Geräten wie Smartphones, Headsets, Hörgeräten oder Kameras eingebaut. Magnetostriktive Wandler Der magnetostriktive Wandler nutzt die Längenänderung, die ferromagnetische Materialien erfahren, wenn sie einem Magnetfeld ausgesetzt werden. Diese sind zwar sehr klein, jedoch mit großen Kräften verbunden. Diese Wandler eignen sich deshalb besonders für die Erzeugung von Unterwasserschall für die Sonarortung, aber auch im Ultraschallbereich. Der Wirkungsgrad dieses ebenfalls reversiblen Wandlers ist hoch. Piezoelektrische Wandler Der piezoelektrische Wandler nutzt den sog. piezoelektrischen Effekt: Danach treten an der Oberfläche bestimmter Kristalle oder polykristalliner Stoffe elektrische Ladungen auf, wenn die Kristalle verformt werden. Umgekehrt können diese Kristalle auch durch elektrische Spannungen verformt werden. Piezoelektrische Mikrofone, kurz Piezomikrofone, werden verwendet als Körperschallmikrofone vor allem bei Saiteninstrumenten, besonders Gitarren; sie werden meist als Pickup oder Tonabnehmer bezeichnet. Weiter wird das Prinzip bei Wasserschallmikrofonen, sog. Hydrophonen als Echolot, sowie in der Medizindiagnostik angewendet.
4.2 Mikrofone Mikrofone wandeln Schallschwingungen in elektrische Wechselspannungen um. Dieser Umwandlungsprozess erfolgt bei Luftschall in zwei Stufen: zunächst wird eine Membran als Schallempfänger von den Schallwellen zu erzwungenen Schwingungen angeregt; diese mechanischen Schwingungen wandelt dann das an den Schallempfänger gekoppelte Wandlersystem des Mikrofons in elektrische Schwingungen um (Abb. 4/3). Das Prinzip der Umwandlung von akustischen in mechanische Schwingungen ist das sog. Empfängerprinzip des Mikrofons, das Prinzip der anschließenden Umwandlung in elektrische Schwingungen ist das Wandlerprinzip des Mikrofons (Abb. 4/3). [Görne, 2004], [Wuttke, 2000]
4.2 Mikrofone
143
Abb. 4/3. Prinzipieller Aufbau eines Mikrofons.
Das Empfängerprinzip eines Mikrofons wird von der Konstruktion der Mikrofonkapsel, der Art des Einbaus der Membran, bei Doppelmembranmikrofonen auch von dem elektrischen Zusammenwirken der beiden Membranen bestimmt. Die hauchdünne Membran ist straff eingespannt, außer bei sog. Bändchenmikrofonen, wo sie frei schwingt. Das Empfängerprinzip bedingt die Richtcharakteristik und das Verhalten im Nahfeld der Schallquelle, es bestimmt den Frequenzgang mit. Man unterscheidet die Empfängerprinzipien und damit die Mikro fone nach der Schallfeldgröße, die die Membran antreibt: –– Beim Druckempfänger bewegt der Schalldruck die Membran, er wirkt nur einseitig auf diese ein, es entsteht eine Kugelrichtcharakteristik. –– Beim Druckgradientenempfänger wird die Membran durch die Druckdifferenz zwischen Membranvorderseite und Membranrückseite bewegt, da der Schalldruck auf beide Membranseiten einwirkt; es können – je nach konstruktiver Gestaltung – verschiedene Richtcharakteristiken erzeugt werden: Nierenrichtcharakteristik, Kardioide genannt, Achterrichtcharakteristik, breite Niere, Superniere, Hyperniere oder Keule sowie alle Übergangsformen dazwischen. Für einen möglichst großen Abstand zwischen Signal- und Störspannung soll die Membranauslenkung möglichst groß sein. Die Schwingungsweite der Membran findet aber ihre Grenze, wenn die Verzerrungen eine gerade noch zulässige Größe erreichen. Bei zu großer Membranauslenkung entstehen Verzerrungen u. a. dadurch, dass die Membran durch ihre Trägheit und Steifigkeit den Schallschwingungen nicht mehr exakt folgen kann. Zwischen diesen beiden Grenzen, große Auslenkung für eine große Ausgangsspannung und möglichst kleine Auslenkung für geringe Verzerrungen, liegt die optimale Membranauslenkung. Dabei führt die Membran immer erzwungene Schwingungen aus und gerät nicht in Resonanz; das wird erreicht durch die Spannung und Masse der Membran und damit die Lage ihrer Eigenresonanz, durch Dämpfungselemente wie Luftpolster u. a. Von den verschiedenen Wandlerprinzipien finden bei Studiomikrofonen das elektrostatische Wandlerprinzip bei Kondensatormikrofonen Anwendung, das elektrodynamische Wandlerprinzip bei dynamischen Mikrofonen, dazu gehören Tauchspul- und Bändchenmi krofone.
144
4 Mikrofone und Lautsprecher
4.2.1 Eigenschaften von Mikrofonen Die Datenblätter der Mikrofonhersteller geben Auskunft über die Qualitätsmerkmale der Mikrofone, insbesondere handelt es sich um die nachfolgend erläuterten Eigenschaften [Wuttke, 1981, 1997]. Darüber hinaus spielen in der Praxis subjektiv bewertete Qualitäten eine nicht zu unterschätzende Rolle, ihr spezifischer Klang, ihre Brillanz, Schärfe, Wärme, Fülle, Mattigkeit u. ä. 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit Die Größe der Spannung, die von einem Mikrofon bezogen auf den einwirkenden Schalldruck abgegeben wird, wird durch den Übertragungsfaktor oder das Übertragungsmaß bzw. die Empfindlichkeit angegeben. Die folgenden Begriffe werden verwendet: Feld-Übertragungsfaktor und Feld-Übertragungsmaß Der Feld-Übertragungsfaktor bei einer bestimmten Frequenz – 1 kHz, wenn nichts anders angegeben ist – ist der Quotient aus der effektiven Ausgangsspannung und dem effektiven Schalldruck am Ort des Mikrofons, wenn dieses aus dem Schallfeld entfernt wird; in der Regel ist das Schallfeld für die Messung eine ebene Welle oder Direktschall, d. h. ein freies Schallfeld, weshalb dieser Faktor oder Koeffizient korrekt oft als Freifeld-Übertragungsfaktor bzw. -Koeffizient bezeichnet wird. Er wird angegeben in mV/Pa. 1 Pa (Pascal) entspricht einem Schalldruckpegel von 94 dB. Je höher der Faktor, desto empfindlicher ist also das Mikrofon. Das Feld-Übertragungsmaß ist der 20-fache Zehnerlogarithmus des Verhältnisses von Feld-Übertragungsfaktor zu einem Bezugsübertragungsfaktor von z. B. 1 V/Pa; er wird in dB angegeben. Feld-Leerlaufübertragungsfaktor und Feld-Betriebsübertragungsfaktor, Empfindlichkeit Man unterscheidet beim Feld-Übertragungsfaktor und -maß Leerlauf- und Betriebsgrößen, je nachdem, ob die Ausgangsspannung des Mikrofons als Leerlaufspannung mit einem sehr hochohmigen Abschlusswiderstand oder als Klemmenspannung unter betriebsmäßigem Abschluss mit Nennabschlussimpedanz (siehe Kap. 4.2.1.6) gemessen wird. Der FeldLeerlaufübertragungsfaktor liegt bei dynamischen Mikrofonen bei etwa 1 bis 2 mV/Pa, bei Kondensatormikrofonen zwischen 10 und 20 mV/Pa. Kondensatormikrofone geben damit einen um rund 10 bis 20 dB höheren Pegel als dynamische Mikrofone ab. 4.2.1.2 Übertragungsbereich Der Übertragungsbereich ist der für Tonaufnahmen nutzbare Frequenzbereich. Für ihn werden die vom Hersteller angegebenen Übertragungseigenschaften eines Mikrofons und deren Toleranzen angegeben. Die Übertragungsbereiche verschiedener Mikrofone können deshalb oft nicht direkt miteinander verglichen werden, weil z. B. unterschiedliche Toleranzen angegeben werden. Ein typischer Übertragungsbereich für Studiomikrofone ist 20 Hz bis 20 kHz, mindestens aber 40 Hz bis 16 kHz. Frequenzen unterhalb des Übertragungsbereichs werden bei Studiomikrofonen durch einen Hochpass weggefiltert, bei 15 Hz soll der Pegelabfall mindestens 12 dB betragen. Auch Frequenzen oberhalb des Übertragungsbereichs müssen
4.2 Mikrofone
145
vom Übertragungsweg ferngehalten werden; durch Demodulationseffekte erzeugen sie Störungen im Hörschallbereich. Oberhalb 40 kHz soll die Dämpfung größer sein als 20 dB. 4.2.1.3 Frequenzgang Der Frequenzgang oder die Frequenzkurve eines Mikrofons ist die grafische Darstellung der Abhängigkeit des Übertragungsmaßes von der Frequenz bei senkrecht auf die Membran auftreffendem Schall, die Messung erfolgt also im freien Schallfeld. Die Toleranzzone ist bei Studiomikrofonen im Allgemeinen mit ± 2 dB angegeben. Die beim Übertragungsmaß angegebene Toleranz bezieht sich auf das Übertragungsmaß bei 1 kHz. Frequenzgang im Direkt- und Diffusfeld Einer der Gründe, warum Mikrofone mit gleichen Frequenzkurven sich klangfarblich unterscheiden können, ist die Tatsache, dass die Bedingungen, unter denen die Frequenzkurve gemessen wird, nämlich bei frontal einfallendem Direktschall, nur bei der Aufnahme im Nahbereich der Instrumente Gültigkeit haben. Sobald das Mikrofon aus dem unmittelbaren Nahbereich der Schallquelle entfernt wird, erhöht sich der Diffusfeldanteil zunehmend. Der Diffusfeldfrequenzgang weicht aber normalerweise vom Direktfeldfrequenzgang ab, u. U. ganz erheblich. Der Diffusfeldfrequenzgang wird in Datenblättern üblicherweise aber leider nicht angegeben, wohl weil er nicht die Linearität des Direktfeldfrequenzgangs haben kann. Er kann zwar durch Mittelung der Richtcharakteristiken für die verschiedenen Messfrequenzen näherungsweise aus den Herstellerdaten ermittelt oder abgeschätzt werden, für den praktischen Anwender ist dies jedoch zu aufwändig. Wenn die verschiedenen Richtcharakteristiken jedoch erheblich voneinander abweichen, so kann daraus auf einen erheblichen Unterschied zwischen Direkt- und Diffusfeldfrequenzgang geschlossen werden. Abb. 4/4 zeigt die Frequenzgänge und die Richtcharakteristiken für verschiedene Frequenzen am Beispiel eines Studiomikrofons mit kleiner Membran. Direkt- und Diffusfeldfrequenzgang stimmen hier gut überein, d. h., dass die Klangfarbe sich mit der Entfernung nicht deutlich ändert. Der Pegel des Diffusfeldfrequenzgangs liegt in diesem Fall um 5 dB unterhalb des Pegels des Direkt- oder Freifeldfrequenzgangs, diese Differenz ist das Bündelungsmaß des Mikro fons (siehe Kap. 4.1.2.7). Auf den Unterschied von Direkt- und Diffusfeldfrequenzgang hat das Empfängerprinzip sowie die Konstruktion der Mikrofonkapsel Einfluss. Druckempfänger haben bei einem Membrandurchmesser um 16 mm, sog. Kleinmem branmikrofone, im Frequenzbereich um 10 kHz eine Anhebung des Übertragungsmaßes um etwa 6dB für Direktschall, der senkrecht auf die Membran trifft. In diesem Frequenzbereich ist die Membranausdehnung in der Größenordnung der Wellenlänge des Schalls; deshalb wird die Schallwelle an der Membran reflektiert, der Schalldruck auf die Membran verdoppelt sich dabei, was der Anhebung von 6 dB entspricht. Dieser Anstieg kann durchaus erwünscht sein, da er eine gewisse Klangpräsenz fördert. Der Diffusfeldfrequenzgang zeigt demgegenüber einen Höhenabfall; Schallwellen kleiner Wellenlänge werden nicht mehr um die Mikrofonkapsel herum gebeugt, das Mikro fon nimmt nicht mehr so viel rückwärtigen und seitlichen Schall auf, es wird für höhere Frequenzen zum Richtmikrofon. Der Höhenabfall wird dadurch reduziert, dass auch beim Diffusschall frontal eintreffende Schallanteile durch Reflexion um 6 dB angehoben werden.
146
4 Mikrofone und Lautsprecher
Abb. 4/4. Mikrofon-Frequenzgänge eines Druckgradientenempfängers für verschiedene Einfallsrichtungen und für Diffusschall. Der 0°-Frequenzgang ist der in Datenblättern der Hersteller angegebene Frequenzgang.
Man linearisiert nun durch Filterung entweder den Direktfeld- oder den Diffusfeldfrequenzgang oder stellt einen Kompromiss her; Studiomikrofone nach dem Druckempfängerprinzip haben also im Allgemeinen entweder –– einen geraden Direktfeldfrequenzgang, man nennt solche Mikrofone „freifeldentzerrt“, –– einen geraden Diffusfeldfrequenzgang, man nennt solche Mikrofone „diffusfeldentzerrt“, –– oder einen Kompromiss zwischen diesen Möglichkeiten. Abb. 4/5 zeigt ein Beispiel mit Diffusfeldentzerrung und damit einen weitgehend geraden Diffusfeldfrequenzgang. Grenzflächenmikrofone sind ebenfalls Druckempfänger (siehe Kap. 4.2.2). Wegen der bündig in eine größere Fläche integrierten Membran sind die Bedingungen für Schallreflexion, die bei üblichen Studiomikrofonen nur bei höheren Frequenzen erfüllt sind, bei diesen Mikrofonen für den gesamten Übertragungsbereich gegeben. Bei Grenzflächenmikro fonen sind also Direkt- und Diffusfeldfrequenzgang weitgehend gleich, was so bei keinem anderen Mikrofontyp zutrifft.
4.2 Mikrofone
147
Bei Druckgradientenempfängern gibt es zwischen Direktfeld- und Diffusfeldfrequenzgang keine physikalisch bedingten Unterschiede. Moderne, hochwertige Studiomikrofone haben deshalb zwischen den beiden Frequenzgängen nur geringe Abweichungen. Abb. 4/4 zeigt dies am Beispiel eines Studiomikrofons; im Gegensatz zum Druckempfänger zeigt hier das Diffusfeld sogar einen geringen Höhenanstieg bei 10 kHz.
Abb. 4/5. Beispiel der Frequenzgänge eines Druckempfängers (Kleinmembran) im Direktfeld und Diffusfeld bei Diffusfeldentzerrung.
Auch Mikrofonständer und -halterungen nehmen auf den Direktfeldfrequenzgang Einfluss. Durch Störungen des Schallfelds können kammfilterartige Störungen des Frequenzgangs von bis zu ± l dB entstehen. Nur die senkrechten Stangen im Bereich des Mikrofons verursachen solche Störungen, durch ausgefahrene waagrechte Ausleger können sie vermieden werden. Frequenzgang bei Nahbesprechung von Druckgradientenempfängern Richtmikrofone mit Nieren- oder Achterrichtcharakteristik oder deren Zwischenformen – Super- und Hypernieren, Keulen – sind sog. Druckgradientenempfänger. Diese Mikrofone haben für Mikrofonstandorte im direkten Nahfeld einer Schallquelle einen anderen Frequenzgang als für weiter entfernte Standorte, nämlich eine Überbetonung tiefer Frequenzen; man nennt diese in der Physik der Schallwellen begründete Erscheinung den Nahbesprechungseffekt eines Mikrofons. Die Tiefenanhebung beim Nahbesprechungseffekt ist umso größer, je tiefer die Frequenz und je kleiner der Mikrofonabstand ist. Die Anhebung setzt etwa da ein, wo der Mikrofonabstand kleiner als die Wellenlänge des auftreffenden Schalls wird. Sie kommt deshalb zustande, weil die Druckdifferenz zwischen Membranvorder- und -rückseite, die die Membran auslenkt, aus zwei Komponenten zusammengesetzt ist: –– die Fernfeldkomponente, das ist der Druckgradient, also die Druckdifferenz zwischen zwei Punkten im Schallfeld, die unabhängig von der Entfernung zur Schallquelle mit fallender Frequenz abnimmt, –– die Nahfeldkomponente, die unabhängig von der Frequenz mit zunehmender Entfernung von der Schallquelle abnimmt.
148
4 Mikrofone und Lautsprecher
Dieser Tiefenabfall der Fernfeldkomponente wird im Mikrofon elektrisch durch die Anhebung tiefer Frequenzen ausgeglichen. Die Nahfeldkomponente ist frequenzlinear, wird nun aber ebenfalls über die Tiefenanhebung der Fernfeldkomponente geführt. Daraus ergibt sich im Nahfeld eine ganz erhebliche Bassanhebung (Abb. 4/6); sie ist prinzipielle nicht vermeidbar.
Abb. 4/6. Fernfeld- und Nahfeldkomponenten des Druckgradienten einer Schallwelle.
Abb. 4/7 zeigt die Anhebung tiefer Frequenzen bei Nahbesprechung bei verschiedenen Mikro fonabständen, bei 54 cm, 10,8 cm und 5,4 cm. Sie ist bei Mikrofonen mit Achterrichtcharakteristik um 6 dB höher als bei Nierenmikrofonen. Nur bei Abständen unter 0,5 bis 1 m spielt der Nahbesprechungseffekt in der Praxis eine zu beachtende Rolle. Richtmikrofone, die für den Einsatz bei geringen Entfernungen vorgesehen sind, müssen die Anhebung tiefer Frequenzen, die durch den Nahbesprechungseffekt verursacht wird, ausgleichen. Sie sind im Allgemeinen bezüglich ihres Frequenzgangs auf eine Entfernung von etwa 10 cm optimiert, genauere Angaben fehlen meist in den Datenblättern der Hersteller. Sie heißen Solisten-, Gesangs- oder Nahbesprechungsmikrofone. Universalmikrofone haben oft einen Sprache/ Musik-Schalter, die Tiefen sind abgesenkt in Schalterstellung „Sprache“, linear ist der Frequenzgang in Stellung „Musik“. Bei sog. Zweiwegmikrofonen gelingt es durch konstruktive Maßnahmen, den Nahbesprechungseffekt geringer zu halten. Nahbesprechungsmikrofone haben für entfernte Schallquellen selbstverständlich eine den Klang färbende Absenkung tiefer Frequenzen, die sie für größere Mikrofonabstände ungeeignet machen; sie eignen sich aber besonders für die Nahbesprechung in lärmerfüllter Umgebung, weil sie den Raumlärm im Bereich tiefer Frequenzen zusätzlich dämpfen.
4.2 Mikrofone
149
Abb. 4/7. Anhebung tiefer Frequenzen durch den Nahbesprechungseffekt.
4.2.1.4 Störpegel Mikrofone geben grundsätzlich auch ohne Einwirkung von Schall eine geringe Spannung ab; sie wird generiert durch kleinste Bewegungen von Ladungsträgern in den Bauelementen des Mikrofons, in Widerständen, Halbleitern usw. Vor allem das sog thermische Rauschen oder Wärmerauschen des hohen Widerstands des Impedanzwandlers des Kondensatormi krofons gibt ein nahezu Weißes Rauschen ab, dessen Stärke von der Umgebungstemperatur und der Größe des Widerstands abhängt. Es handelt sich also um einen auch bei sog. digitalen Mikrofonen unvermeidlichen, in der Physik der Bauelemente des Mikrofons begründeten Störpegel. Er ist keineswegs vernachlässigbar klein, sondern zählt zu den wichtigen Qualitätsparametern eines Mikrofons. Ein Ersatzgeräuschpegel entspricht dem Pegel des Schalldrucks, gemessen in dBSPL (siehe Kap. 9.5) im Raum, in dem sich das Mikrofon befindet. Diese Spannung unbewertet als Störpegel zu behandeln und einen Störpegelabstand etwa zu einem Nutzsignal bei Vollaussteuerung zu definieren, macht keinen Sinn, weil dieses Rauschen zusammen mit dem akustischen Signal auftritt und damit nicht quantitativ, sondern qualitativ nach seiner Störwirkung in der Wahrnehmung durch das Gehör zu beurteilen ist. Dem Gehör bietet sich ein Geräusch, das sich in den aufzunehmenden Schall hineinmischt. Daher muss es auch subjektiv als Geräusch mit einer bestimmten Lautstärke behandelt werden, das unter Berücksichtigung der besonderen Eigenschaften des Gehörs zu erfassen ist; früher hat man deswegen auch den Begriff Ersatzlautstärke benutzt, er wurde anschaulich durch den Begriff Ersatzgeräuschpegel, auch Eigenrauschen, ersetzt. Ein weiterer Begriff hierfür ist der Äquivalentschalldruck bzw. -pegel. Tiefe und sehr hohe Frequenzen nimmt das Gehör weit schwächer wahr als den mittleren Frequenzbereich, wie die Kurven gleicher Lautstärkepegel zeigen (siehe Kap. 3.3.1, besonders Abb. 3/3 und 3/4). Bei Messungen wird das berücksichtigt durch vorgeschaltete Filter, die ein Spiegelbild darstellen zu den Kurven gleicher Lautstärkepegel. Hierfür gibt es verschiedene
150
4 Mikrofone und Lautsprecher
Normen, die sich genau (CCIR-bewertet bis 1991) oder weniger genau (A-bewertet) an die Kurven halten, demnach gibt es auch verschiedene Angaben für Messwerte für die Störpegel von Mikrofonen. Folgende Messwerte werden heute bei Studiomikrofonen angegeben: Ersatzgeräuschpegel bewertet nach CCIR Die Messung erfolgt unter Vorschaltung eines Filters nach [ITU-R BS.468], bis 1991 CCIR 468 – aber immer noch meist so zitiert – bzw. der identischen nationalen, aber zurückgezogenen Norm [DIN 45405] (1983) mit Quasispitzenbewertung (siehe Abb. 9/9). Die zu erwartenden Werte liegen bei etwa 25 dB ± 3 bis 4 dB entsprechend einer sehr leisen Umgebung; sie sollten möglichst niedrig sein. Ersatzgeräuschpegel A-bewertet Die Messung erfolgt unter Vorschaltung eines Filters mit A-Bewertung nach [DIN EN 60268] (2003), früher IEC 268, als Effektivwert (siehe Abb. 9/13)). Die zu erwartenden Werte liegen etwa 10 dB, gelegentlich bis 13 dB [Schneider, 1998] niedriger, also etwa bei 12 bis 15 dB ± 3 bis 4 dB; sie sollten natürlich ebenfalls möglichst niedrig sein. Diese vorteilhaft erscheinenden Werte findet man vielfach bei sog. Musikermikrofonen, also dynamischen Mikrofonen. Geräuschpegelabstand nach CCIR Die absoluten Werte des Ersatzgeräuschpegels, die dem Schalldruckpegel von Störschall entsprechen, sind für den Anwender nicht besonders anschaulich. Deshalb wurde auch ein Geräuschpegelanstand definiert, der sich auf einen Bezugswert des Schalldrucks bezieht; man hat dafür den runden Wert eines auf das Mikrofon einwirkenden Schalldrucks von 1 Pa gewählt [CCIR 468 bzw. ITU-R BS.468], das entspricht einem Schalldruckpegel von 94 dB. Dies ist der Schalldruckpegel eines sehr lauten Schallereignisses, z. B. in einer Diskothek, bei Aufnahmen kommen solche Pegel selten vor. Dieser Wert ergibt also einen sehr hohen Geräuschpegelabstand und ist somit ein „geschönter“ Wert. Bei einem Ersatzgeräuschpegel von z. B. 25 dB liegen die zu erwartenden Werte des Geräuschpegelabstands bei 94 dB − 25 dB = 69 dB. In der Praxis vermindert er sich z. B. um ca. 30 dB, wenn man einen Sprecher in 30 cm Entfernung mit 65 dB als Bezug nimmt. Geräuschpegelabstand A-bewertet Die A-Bewertung des Ersatzgeräuschpegels mit Effektivwertmessung ergibt bereits einen sehr günstig erscheinenden Wert. Zusammen mit dem sehr hohen Bezugswert von 94 dB Schalldruckpegel ergeben sich entsprechend eindrucksvolle Werte für den Geräuschpegelabstand. Hier kommen gleich zwei Maßnahmen zusammen, die die Messwerte als sehr günstig erscheinen lassen. Die zu erwartenden Werte liegen um nun bei 94 dB – 15 dB = 79 dB. Dynamikumfang Gelegentlich findet man Angaben über den Dynamikumfang eines Mikrofons. Dieser ist dann nicht wie der Geräuschpegelabstand auf 94 dB bezogen, sondern auf den Schalldruck, bei dem die Verzerrungen des Mikrofonsignals einen Wert von 0,5 oder 1 % erreichen, das sind Werte im Bereich von 130 bis 150 dB. Dabei entstehen Dynamikumfänge üblicher Studiomikrofone nach CCIR bzw. ITU-R BS.468 von weit über 100 dB, Werte, die keinen Bezug mehr haben zur Praxis.
4.2 Mikrofone
151
Magnetfeldstörfaktor Bei dynamischen Mikrofonen ist der störende Einfluss äußerer Magnetfelder von Interesse. Der Magnetfeldstörfaktor gibt die induzierte Spannung bei 5 μTesla und 50 Hz an. Mikrofone geringer Magnetfeldempfindlichkeit haben 3 bis 5 μV/μT. 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze Anstelle des Klirrfaktors wird bei Mikrofonen derjenige Schalldruck oder Schalldruckpegel angegeben, unterhalb dessen der Hersteller die Einhaltung eines bestimmten Klirrfaktors, meist 0,5 %, gelegentlich aber auch 1 %, bei 1 kHz, garantiert. Man bezeichnet diesen Schalldruck als Grenzschalldruck oder Aussteuerungsgrenze. Für Kondensatormikrofone liegt er zwischen etwa 40 und 200 Pa; dem entspricht ein Schalldruckpegel von 126 bis 140 dB. Dynamische Mikrofone können höchste Schalldrücke von etwa 150 bis 160 dB verarbeiten, ohne dass die Verzerrungen unzulässig ansteigen; deshalb wird bei ihnen oft auf die Angabe eines Grenzschalldrucks verzichtet. Die Verzerrungen entstehen nicht an der Mikrofonkapsel, sondern beim Impedanzwandler/Verstärker, der ja auch für den Ersatzgeräuschpegel verantwortlich ist. Dynamische Mikrofone haben keine elektronische Einheit und zudem eine robustere Membran. 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz Die Ausgangsimpedanz, Innen- der Quellwiderstand eines Kondensatormikrofons, beträgt etwa 40 bis 50 Ώ, bei dynamischen Mikrofonen liegt sie üblicherweise bei 200 bis 600 Ώ; die Angabe wird meist auf 1 kHz bezogen. Kondensatormikrofone haben systembedingt einen spannungsversorgten Impedanzwandler, mit dem die niedrige Impedanz realisiert wird; damit können sie über Mikrofonleitungen von mehreren hundert Metern angeschlossen werden. Dynamische Mikrofone haben keine Elektronik, ihre Spule bzw. ein Übertrager beim Bändchenmikrofon liefert direkt das symmetrische, erdfreie Ausgangssignal, das einen um 10 bis 20 dB niedrigeren Pegel als bei Kondensatormikrofonen hat; entsprechend sind längere Kabel störanfällig. Die Nennabschlussimpedanz eines Mi kro fons ist der elektrische WechselstromAbschlusswiderstand, mit dem das Mikrofon durch die Eingangsimpedanz des Mikrofon verstärkers der Regieanlage mindestens abgeschlossen werden soll; die kleinste zulässigen Abschlussimpedanz ist zugleich die höchst zulässige Belastung. Nur wenn die Nennabschlussimpedanz mindestens 10-mal höher ist als die Ausgangsimpedanz des Mikrofons, wirken sich Frequenzabhängigkeiten der Impedanzen mit Sicherheit nicht auf den Frequenzgang des Mikrofonsignals aus. Die vom Hersteller angegebenen Werte sollten also keinesfalls unterschritten werden. Beim Kondensatormikrofon liegen sie vielfach bei 1 kΩ, also rund dem 20-fachen der Abschlussimpedanz, bei dynamischen Mikrofonen z. B. bei 2 kΩ, empfohlen wird minimal das 5-fache. 4.2.1.7 Richtcharakteristik Der Feld-Übertragungsfaktor oder die Empfindlichkeit von Mikrofonen ist abhängig von der Richtung des eintreffenden Schalls, Mikrofone haben demnach eine sog. Richtcharakteristik, die immer auch von der Frequenz abhängt. Diese Eigenschaft erhalten sie durch ihre
152
4 Mikrofone und Lautsprecher
konstruktive Gestaltung, die Mikrofone mit sehr unterschiedlichen Richtcharakteristiken ermöglichen. Die Konstruktion legt fest, ob ein Mikrofon auf den Schalldruck anspricht und damit weitgehend kugelförmige Richtcharakteristik hat oder ob es auf den Druckgradienten, also auf die Differenz der Schalldrücke, die auf die Vorder- bzw. Rückseite der Mikro fonmembran einwirken, anspricht und damit nieren- oder achterförmige Richtcharakteristik bzw. deren Zwischenformen Super-, Hyperniere und Keule besitzt (siehe Kap. 4.2.1.8). Die Abhängigkeit der Mikrofonspannung bzw. des Mikrofonpegels von der Einfallsrichtung des Schalls wird durch verschiedene Begriffe erfasst, die [DIN 45590] definiert: Richtungsfaktor und Richtungsmaß Der Richtungsfaktor eines Mikrofons für eine bestimmte Frequenz und Richtung ist das Verhältnis des Feld-Übertragungsfaktors für eine ebene Schallwelle, die das Mikrofon aus einer bestimmten Richtung trifft, zu demjenigen aus der Bezugsrichtung (Richtung 0°, Bezugsachse, Symmetrieachse). Er ist dimensionslos. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Er wird in dB angegeben. Richtcharakteristik Erst die grafische Darstellung des Richtungsfaktors oder bevorzugt des Richtungsmaßes für alle Richtungen und einige wichtige Frequenzen, z. B. 125, 250, 500 Hz und 1, 2, 4, 8, 16 kHz, in einem Polarkoordinatensystem macht die Richtwirkung eines Mikrofons als Richtdiagramm für den Anwender anschaulich (Abb. 4/8). Da alle Richtcharakteristiken symmetrisch zur 0°-Richtung liegen, wird das Richtungsmaß vielfach für eine bestimmte Frequenz nur für eine Seite angegeben. Tatsächlich ist die Richtcharakteristik ein Schnitt durch eine dreidimensionale Darstellung, der rotationssymmetrisch zu der senkrecht die Membran schneidenden Achse verläuft. In Abb. 4/8 sind die Richtdiagramme auf Grund des Richtungsfaktors und Richtungsmaßes einander gegenübergestellt. Die Darstellung des Richtungsfaktors lässt die Richtcharakteristik deutlicher erscheinen als die Darstellung des Richtungsmaßes. Tab. 4/1 stellt einige Werte von Richtungsmaß und -faktor gegenüber. Tab. 4/1. Zusammenhang von Richtungsfaktor und Richtungsmaß bei Mikrofonen. Richtungsfaktor
entspricht dem Richtungsmaß
1,0 0,7 0,5 0,3 0,25
0 dB – 3 dB – 6 dB – 10 dB – 12 dB
Mi kro fone mit Richtwirkung werden eingesetzt, um Direktschall bevorzugt aus einer bestimmten Richtung aufzunehmen, den Diffusschall aus anderen Richtungen aber auszublenden. Um diese Eigenschaft mit einem einzigen Zahlenwert ausdrücken zu können,
4.2 Mikrofone
153
werden die Begriffe Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad verwendet, die aber ineinander umgerechnet werden können [DIN 45590].
Abb. 4/8. Richtdiagramme am Beispiel zweier Richtrohrmikrofone: 1. Darstellung des Richtungsmaßes, 2. Darstellung des Richtungsfaktors.
Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad Diese drei Begriffe beziehen sich nur auf die Richtung vorne, also 0°, und erfassen die Richtwirkung eines Mikrofons mit einer einzigen Zahl. Der Bündelungsfaktor gibt an, wievielmal größer der Besprechungsabstand eines Mikrofons mit einer bestimmten Richtcharakteristik gegenüber dem eines Mikrofons mit kugelförmiger Richtcharakteristik sein kann, um das gleiche Verhältnis von Direktschall zu Diffusschall zu erhalten. Das Bündelungsmaß ist der l0‑fache Zehnerlogarithmus des Bündelungsgrads; er wird in dB angegeben. Der Bündelungsgrad schließlich betrachtet das Verhältnis der Schallleistungen, er ist das Quadrat des Bündelungsfaktors; für die praktische Betrachtung ist er am wenigsten anschaulich und nicht mit dem Bündelungsfaktor zu verwechseln. Tab. 4/2 zeigt die Zusammenhänge zwischen den drei Größen der Schallbündelung und wie sie sich auf den Mikrofonabstand bzw. die Ausblendung des Diffusschalls auswirken. Richtcharakteristiken in der Praxis Abb. 4/9 zeigt in räumlicher Darstellung die Hauptformen der Richtcharakteristiken, Abb. 4/10 die Richtdiagramme der Grundformen Kugel, Niere und Acht sowie der Zwischenformen zwischen Niere und Acht, nämlich Superniere, Hyperniere und Keule, es handelt sich um idealisierte Darstellungen, die unberücksichtigt lassen, dass in der Praxis die Richtdiagramme Frequenzabhängigkeiten zeigen. Während Nieren und Achten sowie ihre Zwischenformen noch relativ frequenzunabhängige Richtdiagramme haben, sind Kugeln und Keulen für Direktschall vergleichsweise erheblich frequenzabhängig; die in Abb. 4/10 dargestellten Kurven gelten in dem Frequenzbereich bis 1 kHz.
154
4 Mikrofone und Lautsprecher
Tab. 4/2. Bündelungsfaktor, -maß und -m für Richtmikrofone. Richtcharakteristik
Bündelungsfaktor [dimensionslos] Vervielfachung des Mikrofonabstands um den Faktor, verglichen mit einer Kugel
Bündelungsmaß [dB] Bündelungsgrad Pegel des Direktschalls [dimensionslos] über dem Pegel des Diffusschalls
Kugel breite Niere Niere Superniere Hyperniere Acht
1,0 1,4 1,7 1,9 2,0 1,7
0 dB 3,2 dB 4,8 dB 5,7 dB 6,0 dB 4,8 dB
1,0 2,0 3,0 3,7 4,0 3,0
Für den praktischen Einsatz der Richtmikrofone ist zunächst wichtig, dass die Richtwirkung nur für Direktschall wirksam ist, also nicht über den Hallradius (siehe Kap. 1.2.4) hinaus. Nur im Freien oder in sehr trockenen Räumen kann demnach ein Mikrofon aus größerer Entfernung Störschall aus anderen Richtungen als aus derjenigen der Schallquelle ausblenden. In sehr halligen Räumen können nur Keulen-Richtmikrofone bis zum zwei- bis dreifachen Wert des Hallradius noch diffusen oder störenden Schall ausblenden. Die Ausblendung von Störschall bzw. Nachhall ist umso besser, je näher das Mikrofon an die Schallquelle herangebracht wird.
Abb. 4/9. Hauptformen der Richtcharakteristik in idealisierter pseudo-dreidimensionaler Darstellung.
Das Verhältnis von Direktschall zu Diffusschall ist bei der Mikrofonaufnahme ein wichtiges Kriterium für die Wahl der geeigneten Richtcharakteristik. In relativ halliger Umgebung
4.2 Mikrofone
155
und/oder bei störenden Nebengeräuschen ist es bei Sprachaufnahmen praktisch immer, bei Musikaufnahmen vielfach wünschenswert, möglichst wenig Diffusschall aufzunehmen. Der Mikrofonabstand ist bei Richtmikrofonen für ein bestimmtes Verhältnis von Direkt- zu Diffusschall stets größer als bei ungerichteten Mikrofonen. Dieser Vergrößerungsfaktor ist in Abb. 4/11 für die verschiedenen Richtmikrofone angegeben. Er ist gleich dem Bündelungsfaktor des Mikrofons. Ein weiteres Kriterium für die Mikrofonwahl ist das Maß der Ausblendung bzw. Dämpfung von Schallquellen, die seitlich oder hinter dem Mikrofon sind; Direktschall von solchen Schallquellen wird entsprechend Tab. 4/3 gegenüber dem Schall von vorne gedämpft aufgenommen. Demnach hat die Niere die beste Rückwärtsdämpfung bei nicht allzu großer Seitwärtsdämpfung. Die Acht bietet die beste Seitwärtsdämpfung, ist aber nach hinten ebenso empfindlich wie nach vorne. Super- und Hyperniere stellen als Zwischenformen Kompromisse zwischen diesen beiden Richtcharakteristiken dar: die Superniere verbindet recht gute Rückwärtsdämpfung mit geringerer Seitwärtsdämpfung, bei der Hyperniere ist dies umgekehrt. Somit steht für jede Aufnahmesituation eine zu bevorzugende Richtcharakteristik zur Verfügung.
Abb. 4/10. Richtdiagramme von Mikrofonen (idealisierte Kurven).
156
4 Mikrofone und Lautsprecher
Abb. 4/11. Vergrößerungsfaktoren für die verschiedenen Richtmikrofone bei gleichem Direktschall/ Diffusschall-Verhältnis wie bei einem ungerichteten Mikrofon. Der Faktor ist bei Keulenrichtcharakteristik stark frequenzabhängig: für tiefe Frequenzen liegt er wie bei der Niere bei rund 1,7, bei hohen Frequenzen steigt er bis etwa 3,3.
Tab. 4/3. Spannungs- und Pegelverhältnisse für verschiedene Schalleinfallsrichtungen bei Richtmikrofonen, theoretische Werte. Schalleinfall
von vorne (0°) seitlich (±-90°) von hinten (±180°) beste Eignung für die Aufnahme situation
Spannung, Pegel bezogen auf die Spannung bzw. den Pegel des Schalls von vorne Niere
Superniere
Hyperniere
Acht
100 %, 0 dB 50 %, − 6 dB 0 %, − ∞ dB Schall von hinten soll ausgeblendet werden
100 %, 0 dB 38 %, − 9 dB 25 %, − 12 dB Schall von der Seite und besonders von hinten soll ausgeblendet werden
100 %, 0 dB 25 %, − 12 dB 50 %, − 6 dB Schall besonders von der Seite und von hinten soll ausgeblendet werden
100 %, 0 dB 0 %, − ∞ dB 100 %, 0 dB Schall von der Seite soll ausgeblendet werden, Schall von vorn und hinten soll in gleicher Wiese aufgenommen werden
4.2.1.8 Bauformen von Mikrofonen Im Studiobereich werden Kondensatormikrofone und dynamische Mikrofone eingesetzt, deren konstruktiver und elektrischer Aufbau in Kap. 4.2.1.9 behandelt werden. Auf Grund der gemeinsamen Empfängerprinzipien für Mikrofone ergeben sich auch gemeinsame Kon struktionsmerkmale, bedingt durch die Akustik des Schallempfangs und unabhängig von der Konstruktion des eigentlichen akustisch-elektrischen Wandlers des Mikrofons. Druckempfänger Abb. 4/12 zeigt ein schematisches Schnittbild des Aufbaus der Kapsel eines Druckempfängers. Das Innere der Kapsel ist durch die Membran von dem umgebenden Raum schalldicht getrennt; in der Kapsel herrscht wegen des Druckausgleichs durch eine kleine Öffnung der äußere Luftdruck, die raschen Druckschwankungen des Schalls werden dabei aber nicht ausgeglichen.
4.2 Mikrofone
157
Abb. 4/12. Prinzip des Aufbaus der Kapsel eines Druckempfängers.
Die Membran wird immer dann bewegt, wenn der Druck von außen auf die Membran vom Kapselinnendruck abweicht. Auch von hinten oder von der Seite auf die Kapsel auftreffender Schall verursacht Änderungen des Schalldrucks vor der Membran, wenn die Schallwellen um das Mikrofon gebeugt werden. Druck ist eine sog. skalare Größe, im Gegensatz zu vektoriellen Größen besitzt sie keine Richtungsinformation. Ein Druckempfänger nimmt Schallereignisse aus allen Richtungen in gleicher Weise auf, Druckempfänger haben also eine kugelförmige Richtcharakteristik. Die Richtcharakteristik erfährt durch drei Phänomene Abweichungen von ihrer idealen Form; sie wirken sich nur im Bereich höherer Frequenzen aus (Abb. 4/13): –– Abschattung: Schall, der rückwärtig oder von der Seite auf das Mikrofon trifft, wird durch die Kapsel abgeschattet, –– Auslöschung: Schall, der schräg auf die Membran auftrifft, löscht sich ganz oder teilweise auf der Membran aus, –– Druckstau: Schall, der senkrecht auf die Membran auftrifft, wird reflektiert und erzeugt dabei einen Druckstau, das bedeutet eine Druckverdopplung.
Abb. 4/13. Richtcharakteristik eines Druckempfängers bei verschiedenen Frequenzen.
158
4 Mikrofone und Lautsprecher
Abschattung: Schall wird nur dann um ein Hindernis gebeugt, wenn seine Wellenlänge groß verglichen mit dem Hindernis ist. Ist also die Wellenlänge des auf die Rückseite der Kapsel auftreffenden Schalls kleiner als der Durchmesser der Mikrofonkapsel, so entsteht ein mit steigender Frequenz zunehmender Schallschatten vor der Membran; das führt mit steigender Frequenz zu einer Ausblendung rückwärtigen, i. A. diffusen Schalls. Auslöschung oder Interferenz: Von vorne ankommende Schallwellen treffen senkrecht auf die gesamte Membranoberfläche gleichphasig auf. schräg ankommende Schallwellen hingegen treffen mit unterschiedlichen Phasenlagen auf die einzelnen Membranzonen, was zu einer teilweisen Aufhebung der Membranauslenkung, also zu einer teilweisen Auslöschung des Signals führt. Ist der Membrandurchmesser gleich der Wellenlänge, so wird exakt seitlich auftreffender Schall z. B. ganz ausgelöscht. Man nennt diesen Effekt Interferenz. Solche Auslöschungen engen also die Richtcharakteristik auf Keulenform ein. Bei Richtmikrofonen mit Keulenrichtcharakteristik, den sog. Richtrohrmikrofonen, wird der Interferenzeffekt auf mittlere Frequenzen ausgedehnt (siehe dazu unten). Schallabschattung und Auslöschungen ließen sich dadurch vermeiden, dass der Durchmesser der Membran kleiner gewählt wird als ein Viertel der Wellenlänge der höchsten zu übertragenden Frequenz, also kleiner als etwa 5 mm. Dem entgegen steht jedoch die Forderung nach einer möglichst großen Empfindlichkeit, die ihrerseits mit der Membrangröße zunimmt, so dass eine bestimmte Größe der Membran, das sind für Studiomikrofone etwa 15 mm, nicht unterschritten wird. Bei Miniaturmikrofonen kann man bei entsprechend geringerem Störabstand die Membran bis auf wenige mm verkleinern. Druckstau: Durch die Reflexion der Schallwelle an der Membran verdoppelt sich der Schalldruck auf die Membran und führt zu einem Höhenanstieg des Frequenzgangs um 6 dB, den Druckempfänger mit geradlinigem Diffusfeldfrequenzgang bei Schalleinfall von vorn grundsätzlich aufweisen. Der Höhenanstieg liegt mit seinem Maximum bei Mikrofonen mit einer kleinen Membran von ca. 15 mm Durchmesser um 15 kHz, bei sog. Großmembranmikro fonen mit ca. 30 mm bei 10 kHz. Druckgradientenempfänger Während die Membran des Schalldruckempfängers nur einseitig dem Schalldruck ausgesetzt wird, wirkt beim Druckgradientenempfänger der Schalldruck auf beide Seiten der Membran ein; nur wenn diese Drücke unterschiedlich sind, wird die Membran bewegt. Schall genau von der Seite z. B. bewegt die Membran nicht. Die Schalldruckdifferenz wird Schalldruckgradient oder Druckgradient genannt. Druckgradientenempfänger haben im Gegensatz zu Druckempfängern einen gerichteten Schallempfang; Gerichtete Mikrofone mit Ausnahme der Keule nützen die Eigenschaften dieses Empfängerprinzips. Der Druckgradientenempfänger in seiner einfachsten Form besteht also nur aus einer beidseitig für den Schall zugänglichen Membran. Eine solche Anordnung hat Achterrichtcharakteristik. Denn seitlich eintreffender Schall lässt keine Druckdifferenz an der Membran entstehen, Schall senkrecht von vorn oder hinten hingegen lenkt die Membran maximal aus. Durch Laufzeitglieder zwischen Membranvorderseite und -rückseite für den Schall oder durch Überlagerung von Achter- mit Kugelrichtcharakteristik können jedoch auch Mikrofone nach dem Druckgradientenprinzip mit Richtcharakteristiken in Form von Nieren sowie sog. Super- und Hypernieren konstruiert werden. Bei jedem Schalldruckunterschied an der Membran entsteht eine Luftbe-
4.2 Mikrofone
159
wegung in Richtung des niedrigeren Drucks: die Membran wird also analog zur Schallschnelle bewegt. Damit folgt auch die Spannung, die ein Druckgradientenmikrofon abgibt, proportional der Schallschnelle. Gelegentlich werden deshalb Druckgradientenempfänger vor allem im Ausland auch als Schnelleempfänger, engl. als Velocity Microphones bezeichnet. Bei einer Druckamplitude, die für alle Frequenzen gleich ist, steigen der Druckgradient und damit die Membranauslenkung zunächst mit der Frequenz an. Maximal ausgelenkt wird die Membran dann, wenn die mittlere Wegdifferenz zwischen Membranvorderseite A und -rückseite B einer halben Wellenlänge bzw. einer Phasendifferenz von 180° entspricht. Bei größerer Phasendifferenz wird die Auslenkung wieder geringer; bei 360° wird sie zu 0, um danach erneut anzusteigen (Abb. 4/14). Die mittlere Wegdifferenz ist abhängig von der Konstruktion der Mikrofonkapsel. Ohne zusätzliche Maßnahmen ist die Membranauslenkung also frequenzabhängig, sie hat einen sog. Omega-Gang. Um zu einer Membranauslenkung zu gelangen, die von den tiefsten bis zu den höchsten zu übertragenden Frequenzen in einfacher Weise mit der Frequenz zunimmt, wird die mittlere Wegdifferenz zwischen Membranvorder- und -rückseite so festgelegt, dass sie etwa der halben Wellenlänge der höchsten zu übertragenden Frequenz entspricht. Damit arbeitet das Mikrofon abgesehen von dem obersten Teil des Übertragungsbereichs im ansteigenden Teil der Frequenzkurve nach Abb. 4/14. Oberhalb der Frequenz fÜ wird das Druckgradientenprinzip unwirksam, das Mikrofon wird zu einem Druckempfänger. Um das Ansteigen der Membranauslenkung von tiefen zu hohen Frequenzen zu korrigieren, wird nun eine Dämpfung eingesetzt, deren Wirkung ebenfalls mit der Frequenz zunimmt. Dafür werden nur akustischmechanische Maßnahmen angewendet, nämlich Massehemmung und Reibungshemmung.
Abb. 4/14. Entstehung von Schalldruckdifferenzen Δp1,2,3,4 und Phasendifferenzen φ zwischen zwei Punkten A und B bei vier verschiedenen Frequenzen in ebenen Schallwellen und Frequenzgang des Druckgradienten bzw. der Druckdifferenz Δp zwischen zwei Punkten mit dem Abstand 25 mm im ebenen Schallfeld.
160
4 Mikrofone und Lautsprecher
Massehemmung entsteht dadurch, dass eine bewegte Masse ihrer eigenen Bewegung durch ihre Trägheit Widerstand entgegensetzt. Dieser Widerstand ist umso größer, je schneller die Bewegung erfolgt. Die Masse bildet die bewegte Membran selbst, sie setzt also der Bewegung einen zunehmenden Widerstand entgegen, der mit der Geschwindigkeit und somit mit der Frequenz ansteigt. Reibungshemmung entsteht dadurch, dass – verursacht durch die Membranbewegungen – Luft durch enge Öffnungen der Kapselrückseite strömt. Dabei reiben die Luftmoleküle an den Wänden. Durch diese Reibung wird der Luftströmung und damit der Membranbewegung Widerstand entgegengesetzt. Die Reibung ist umso stärker, je schneller die Luft durch die Öffnungen strömt. Der Einfluss der Reibung auf die Luftbewegung und damit auf die Membran steigt also ebenfalls mit zunehmender Frequenz. Druckgradientenempfänger mit Achterrichtcharakteristik Die Mikrofonkapsel des Druckgradientenempfängers mit Achterrichtcharakteristik besteht aus einer beidseitig für den Schall frei zugänglichen Membran (Abb. 4/15).
Abb. 4/15. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Achterrichtcharakteristik.
Abb. 4/16. Richtcharakteristik eines Druckgradientenempfängers mit Achterrichtcharakteristik bei verschiedenen Frequenzen.
Bei seitlicher Beschallung der Membran entsteht zwischen Membranvorder- und Membranrückseite keine Druckdifferenz, das Mikrofon ist für seitlich auftreffenden Schall unempfindlich. Schall von vorn oder hinten führt dagegen zur größten Membranauslenkung. So
4.2 Mikrofone
161
entsteht die achterförmige Richtcharakteristik (Abb. 4/16). Sie ist über den gesamten Übertragungsbereich hinweg weitgehend unabhängig von der Frequenz. Anders als bei Druckempfängern führt Schall, der auf die Membranrückseite trifft, verglichen mit Schall von vorne zu gegenphasiger Auslenkung. Diese Gegenphasigkeit zwischen Schall von vorne und von hinten ermöglicht das Mikrofonverfahren der MS-Stereoaufnahmetechnik (Kap. 5.3.2.2) und Mikrofone, die in der Richtcharakteristik umschaltbar sind (Kap. 4.2.2.7). Mikrofone, die nur Achterrichtcharakteristik besitzen, gibt es nur wenige auf dem Markt. Meist steht diese Richtcharakteristik bei Mikrofonen zur Verfügung, die über umschaltbare Richtcharakteristiken verfügen. Die Achterrichtcharakteristik ist dann für den praktischen Einsatz vorteilhaft, wenn seitlicher Schall bestmöglich ausgeblendet werden soll oder wenn zwei Sprecher oder Instrumente, die einander gegenüberstehen, mit nur einem Mikrofon aufgenommen werden sollen. Druckgradientenempfänger mit Nierenrichtcharakteristik Nieren- oder Kardioidrichtcharakteristik eines Mikrofons kann auf zwei verschiedene Arten realisiert werden: –– mit einem sog. Laufzeitglied für rückwärtig auf die Membran auftreffenden Schall, –– durch Überlagerung von Kugel- und Achterrichtcharakteristik. Die Konstruktion mit einem Laufzeitglied ist die am meisten angewendete Technik. Abb. 4/17 zeigt das Bauprinzip eines solchen Nierenmikrofons. Dabei ist die Laufzeitdifferenz zwischen Membranvorder- und Membranrückseite von der Schalleinfallsrichtung abhängig.
Abb. 4/17. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied.
Bei Beschallung von vorn, unter 0̊°, hat der Schallanteil, welcher an die Rückseite der Membran gelangt, gegenüber dem auf die Vorderseite auftreffenden Schall eine Verzögerung, die durch die Wegdifferenz 2 1 bestimmt wird. Der so entstandene Druckunterschied führt zur Membranauslenkung (Abb. 4/18a). Bei Beschallung von hinten sind die Laufzeiten zur Membranorderseite und -rückseite etwa gleich. Es entsteht keine Druckdifferenz; dadurch kommt es zu keiner Membranbewegung (Abb. 4/18b). Bei Beschallung aus seitlicher Richtung, ± 90°, ist eine Laufzeitdifferenz vorhanden, die jedoch kleiner ist als die der Beschallungsrichtung 0° (Abb. 4/18c). Wird die Schallquelle von der Richtung 0° zur Rückseite, ± 180°, bewegt, so wird die Laufzeit- bzw. Druckdifferenz und damit die Membranauslenkung zunehmend geringer. So entsteht die nierenförmige Richtcharakteristik (Abb. 4/19).
162
4 Mikrofone und Lautsprecher
Abb. 4/18. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied bei verschiedenen Schalleinfallsrichtungen.
Abb. 4/19. Richtcharakteristik eines Druckgradientenmikrofons mit Nierenrichtcharakteristik bei verschiedenen Frequenzen.
Eine nierenförmige Richtcharakteristik kann auch durch ein weiteres Verfahren erzeugt werden: Die Kugelrichtcharakteristik eines Druckempfängers und die Achterrichtcharakteristik eines Druckgradientenempfängers werden einander überlagert. Dies kann durch Addition der Signale eines eng benachbarten Kugel- und Achtersystems geschehen oder dadurch, dass ein Teil der Membran nur mit der Vorderseite, der andere Teil beidseitig dem Schall ausgesetzt wird. Die Nierenrichtcharakteristik entsteht in beiden Fällen durch Überlagerung der Kugel- und Achterrichtcharakteristik (Abb. 4/20). Durch den Richtfaktor r in Polarkoordinaten ausgedrückt heißt das: –– Richtfaktor der Kugel: rK = 1/2 –– Richtfaktor der Acht: rA = 1/2 ⋅ cos φ –– Richtfaktor der Niere: rN = rK + rA = 1/2 ⋅ (1 + cos φ)
4.2 Mikrofone
163
Abb. 4/20. Nierenrichtcharakteristik als Summe von Kugel- und Achterrichtcharakteristik.
Druckgradientenempfänger mit Super- und Hypernierenrichtcharakteristik Die Richtcharakteristik der Nierenmikrofone kann durch einfache konstruktive Maßnahmen so verändert werden, dass die Ausblendung von seitlich auftreffendem Schall erhöht, zugleich aber von hinten auftreffender Schall weniger gedämpft wird als bei der Niere. Es entstehen damit Richtcharakteristiken, die zwischen Niere und Acht liegen. Diese Zwischenformen können bei der Anwendung eines Laufzeitglieds durch geringere Laufzeiten erreicht werden, bei der Überlagerung von Kugel- und Achterrichtcharakteristik durch einen größeren Anteil der Acht. Bei der Richtcharakteristik der Superniere ergibt seitlicher Schall 38 % bzw. – 9 dB der Spannung bei Schalleinfall von vorne, Schall von hinten 25 % oder – 12 dB; bei der Hyperniere gibt das Mikrofon bei seitlichem Schall 25 % ab bzw. – 12 dB, bei Schall von hinten 50 % oder – 6 dB (Abb. 4/21, Tab. 4/2). Die Nierencharakteristik ist am günstigsten, wenn Schallquellen hinter dem Mikrofon ausgeblendet werden sollen. Die Hyperniere bevorzugt noch etwas stärker den unter 0°, also von vorn einfallenden Schall gegenüber dem Diffusschall, vermag demnach z. B. den Direktschall eines Sprechers oder Solisten noch etwas mehr gegenüber dem Nachhall hervorzuheben. Niere und Acht verhalten sich bezüglich des Diffusschalls gleich, sie nehmen den diffusen Schall um nahezu 5 dB gedämpft auf, die Superniere um fast 6 dB, die Hyperniere schließlich um 6 dB. Denkt man sich den Aufnahmeraum durch eine Fläche in Vergrößerung der Mikrofonmembran in einen vorderen und einen hinteren Halbraum geteilt, so stellt die Superniere den Sonderfall dar, bei dem der Unterschied der aus den beiden Halbräumen aufgenommenen Schallanteile am größten ist. Mit dem Richtmikrofon kann man einen größeren Mikrofonabstand wählen, ohne dass der Direktschallanteil und damit die Durchsichtigkeit und Präsenz leiden: Verglichen mit einem Mikrofon mit Kugelcharakteristik darf der Abstand für Niere und Acht das l,7-fache, für die Superniere das l,9-fache und für die Hyperniere das 2-fache betragen (Abb. 4/11), es
164
4 Mikrofone und Lautsprecher
handelt sich um den Bündelungsfaktor (siehe Kap. 4.2.1.7). Die Schallanteile, die von hinten auf die Super- oder Hyperniere auftreffen, sind wie bei der Acht gegenüber Schallanteilen von vorn um 180° in der Phase gedreht.
Abb. 4/21. Richtcharakteristik, a. Niere, b. Hyperniere, c. Superniere.
Richtrohrmikrofone oder Interferenzempfänger mit Keulenrichtcharakteristik Für den Fernsehton, für Beschallungen oder für Live-Aufnahmen auf der Bühne werden Mikrofone mit möglichst hoher Richtwirkung benötigt. Solche Mikrofone werden durch Anwendung des Interferenzprinzips meist in Zusammenwirkung mit einem Druckgradientenempfänger mit Nieren- oder Supernierencharakteristik verwirklicht. Vor der Membran ist ein Richtelement angeordnet. Das Richtelement besteht aus einem seitlich geschlitzten oder gelochten, vorne offenen Rohr (Abb. 4/22).
4.2 Mikrofone
165
Abb. 4/22. Prinzipieller Aufbau des Interferenzempfängers.
Die Richtwirkung eines solchen Mikrofons kommt dadurch zustande, dass Schallanteile aus Richtung der Rohrlängsachse kommend sich im Rohr gleichphasig addieren; Schallanteile, die aus anderen Richtungen eintreffen, werden in der Phase verschoben überlagert und löschen sich dadurch gegenseitig je nach Phasenlage mehr oder weniger aus. Die akustische Wirkungsweise des Richtrohrs ist also dieselbe wie bei den Auslöschungen von schräg auf die Membran eines Druckempfängers auftreffendem Schall (siehe Kap. 4.2.1.8), jedoch ist beim Richtrohr der Membrandurchmesser akustisch auf die Länge des Richtrohrs ausgedehnt. Die entstehende Keulenrichtcharakteristik und damit die Bündelungsfaktor ist abhängig vom Verhältnis der Länge des Richtelements zur Wellenlänge des aufgenommenen Schalls. Die Richtwirkung nimmt demnach mit der Länge des Richtrohrs und der Frequenz zu. Bei tiefen Frequenzen entspricht sie der Niere bzw. Superniere; mit steigender Frequenz engt sie sich zunehmend ein (Abb. 4/23). Wie die Super- und Hyperniere ist auch bei der Keule rückwärtig einfallender Schall in der Phase gedreht.
Abb. 4/23. Richtcharakteristik eines Druckgradientenempfängers mit Richtrohr.
166
4 Mikrofone und Lautsprecher
Beim praktischen Einsatz der Interferenzempfänger oder meist bezeichnet als Richtrohrmi krofone sind einige Besonderheiten zu beachten: Die Richtwirkung kann sich wie bei allen Richtmikrofonen nur solange auswirken, wie für die Aufnahme noch ausreichend Direktschall zur Verfügung steht; im Fernfeld kann das Mikrofon bei halligen Räumen also keinen Gewinn bringen. Auf Grund des engen Aufnahmebereichs und seiner starken Frequenzabhängigkeit kann der Einsatz bei bewegten Schallquellen vor allem bei geringerem Abstand zu Klangfarbenänderungen, abhängig von den Bewegungen, führen. Richtrohrmi kro fone sollten nur da verwendet werden, wo sie tatsächlich Vorteile zeigen. Superrichtrohrmikrofon Eine erhebliche Verbesserung der Richtwirkung von Richtrohrmikrofonen wird dadurch erzielt, dass dem Richtrohr ein zweites Mikrofonsystem mit Nierencharakteristik hinzugefügt wird, das, nach hinten gerichtet, Schall aufnimmt, der in einer digitalen Signalverarbeitung mit dem Schall des nach vorn gerichteten Systems verrechnet, also subtrahiert wird. So können Diffusschallkomponenten auch im tiefen und mittleren Frequenzbereich, wo das einfache Richtrohr nicht oder wenig wirksam ist, stark unterdrückt werden. Im Ergebnis wird gerade in den Frequenzbereichen, in denen konventionelle Richtrohre unbefriedigende Ergebnisse liefern, das Direktschall-Diffusschallverhältnis erheblich verbessert. Erreicht wird damit in dem genannten Frequenzbereich eine Absenkung des Diffusschallpegels gegenüber einer Kugel um ca. 12 dB; die Hyperniere als die am stärksten den Diffusschall unterdrückende Richtcharakteristik erreicht zum Vergleich einen Wert von ca. 6 dB. [Wittek, 2010] Druckgradientenempfänger als breite Niere Mit der sog. breiten Niere steht eine Richtcharakteristik zur Verfügung, die zwischen Niere und Kugel einzuordnen ist; eine zutreffendere Bezeichnung wäre wohl breite Kugel, denn in der Praxis ist diese Richtcharakteristik eher eine Alternative zur Kugel. Die breite Niere bietet bei weitgehend frequenzunabhängiger Richtcharakteristik (Abb. 4/24) vor allem in klangfarblicher Hinsicht interessante Vorteile: Die Aufnahme tiefer Frequenzen ist besser als bei Nieren, wenngleich nicht ganz so gut wie bei Kugeln als Druckempfänger; andererseits kann sie vorteilhaft eingesetzt werden bei stark tiefenbetontem Nachhall, den sie etwas abmildert. Der Nahbesprechungseffekt ist weniger ausgebildet als bei Nieren. Direkt- und Diffusfeld sind wie bei Nieren klangfarblich sehr ähnlich, weil der Richtfaktor weitgehend unabhängig von der Frequenz ist. Insgesamt ergibt dies einen wärmeren Klang der breiten Nieren. Die Dämpfung nach hinten liegt bei ca. 10 dB, im Vergleich zur Niere ist sie also deutlich geringer, seitlich verhalten sich breite Niere und Niere ganz ähnlich mit einer Dämpfung von rund 6 dB. Als Stützmikrofon muss deshalb der Abstand etwas geringer als bei Nieren gewählt werden. Für das XY-Aufnahmeverfahren ist das Mikrofon nicht geeignet, aber sehr vorteilhaft für das MS-Verfahren. 4.2.1.9 Wind- und Poppstörungen Wenn Wind oder allgemein bewegte Luft auf die Mikrofonmembran trifft, aber auch, wenn ein Mikrofon in ruhender Luft bewegt wird, also z. B. auch bei schnellen Bewegungen der Mikro fonangel, können Luftwirbel bzw. der Winddruck die Membran u. U. erheblich bewegen; das
4.2 Mikrofone
167
führt zu gravierenden Störgeräuschen [Wuttke, 1985/1]. Solche Störungen bezeichnet man als Windstörungen. Wind in diesem Sinne kommt turbulent, also verwirbelt aus allen Richtungen, man kann ein Mikrofon nicht aus dem Wind drehen.
Abb. 4/24. Richtcharakteristik der breiten Niere.
Bei Nahbesprechung dagegen entstehen impulsartige Luftströmungen bei sog. Popplauten, also Explosivlauten wie K, P, und T, die aus einer definierten Richtung kommen als gleichgerichtete, sog. laminare Strömung. Die dadurch verursachten Störungen werden Poppstörungen genannt. Nur bis ca. 10 cm vor dem Mund sind Poppstörungen laminar, bei größeren Entfernungen gehen sie in Turbulenz, also Windstörungen über. Im Bereich laminarer Strömung kann man das Mikrofon aus dem Wind drehen, seine Membran also vorteilhaft parallel zur Windrichtung ausrichten. Schall von Wind- und Poppstörungen hat vor allem im Frequenzbereich bis 100 Hz, abnehmend bis 1 kHz hohe Pegel, aber auch im Infraschallbereich unter 16 Hz. Dies führt zu hohen Auslenkungen der Membran und damit zu hohen Aussteuerungen, die nur teilweise angezeigt werden oder hörbar sind, und damit zu starken Verzerrungen. Übertrager und andere Bauelemente werden übersteuert, in Pegelspitzen wird das Signal auch unterbrochen, man sagt, das Mikrofon wird zugestopft. Ohne Wind- oder Poppschutz sind Druckempfänger wegen der stark gespannten Membran deutlich, um 10 bis 20 dB, unempfindlicher als Druckgradientenempfänger, am empfindlichsten sind ohne Gegenmaßnahmen dynamische Richtmikrofone, da bei ihnen die Membran am weichsten eingespannt ist. Es gibt eine Reihe von wirksamen Gegenmaßnahmen gegen diese Störungen: Die Verwendung eines Windschutzes ist grundsätzlich empfehlenswert oder unerlässlich bei Aufnahmen im Freien, bei Verwendung der Mikrofonangel und bei Nahbesprechung von Mikrofonen. Allgemein sollten die Tiefen durch das Trittschallfilter am Mikrofon bzw. Mikro fonverstärker auf die höchste einstellbare Frequenz eingestellt werden. Die mechanischen Schutzvorrichtungen richten sich bei optimalen Einsatz nach dem Mikrofontyp und der Situ-
168
4 Mikrofone und Lautsprecher
ation: Kondensatormikrofone sind zwar vom Prinzip her unempfindlicher, jedoch verfügen dynamische Mikrofonkapseln grundsätzlich über einen integrierten Wind- und Poppschutz. Zur Verminderung der Störungen werden Wind- und Nahbesprechungsschutzkörbe verwendet (Abb. 4/25). Sie reduzieren die Windgeschwindigkeit und damit die Störungen, wirken dabei auf den Nutzschall verhältnismäßig wenig ein. Die Wirksamkeit eines Schutzkorbs steigt mit seiner Größe, wobei die verwendeten Materialien ebenfalls von Bedeutung sind. In der Praxis können Dämpfungen der Windstörungen um 20 bis 30 dB erreicht werden. Wirksame Windschutzkörbe verändern die Richtcharakteristik und den Frequenzgang der Mikrofone geringfügig. Zwischen Wind- und Nahbesprechungsschutz wird im Allgemeinen nicht unterschieden. Druckmikrofone werden besser durch Vollschaumstoff, gerichtete Mikrofone durch Hohlschaumstoff oder Körbe geschützt. Ein fellartiger sog. Windjammer über einen Korb gezogen ist der wirksamste Schutz. Im Studio sind gegen Poppstörungen sog. Poppschirme am wirksamsten, sie beeinflussen den Klang praktisch nicht, können aber nur in Zusammenhang mit Mikrofonständern eingesetzt werden, also bei statischen Aufnahmesituationen, nicht auf der Bühne. Ein Großmembranmikrofon mit Poppschirm ist schon fast das Sinnbild für Gesangsaufnahmen im Studio.
Abb. 4/25. Verschiedene Ausführungen von Wind- und Poppschutzvorrichtungen.
4.2.1.10 Störungen durch Körperschall Schwingungen, verursacht durch Schritte, schlagende Türen, Verkehrsmittel u. ä. werden über den Fußboden und den Mikrofonständer auf die Mikrofonkapsel übertragen und bewegen den Mikrofonkörper relativ zur Membran. Unabhängig von der genauen Ursache spricht man meist von Trittschall. Hoch gespannte Membranen wie bei der Druckkugel sind weniger empfindlich, sie folgen besser den Bewegungen des Gehäuses. Die Störungen betreffen wie bei Wind den tiefsten Frequenzbereich, daher die Bezeichnung Trittschallfilter für einen Hochpass. Maßnahmen gegen Trittschall sind Mikrofonspinnen, in denen die Mikrofone federnd gehalten werden und Gummifüße an Stativen; der höhenverstellbare Stab des Stativs darf den Boden nicht berühren. Reibgeräusche an der Kleidung und am Mikrofonkabel sind ebenfalls Körperschall. Gegen sie schützt am besten die Verwendung von Druckempfängern; durch die zu diesem Zweck schwere Ausführung des Gehäuses dynamischer Mikrofone verringert sich deren Empfindlichkeit. Die Kabel sollten bei Handmikrofonen stets mit Schlaufen, also entspannt, gehalten werden.
4.2 Mikrofone
169
4.2.2 Kondensatormikrofone Der in der Tonstudiotechnik am meisten eingesetzte Mikrofontyp ist das Kondensatormikro fon oder elektrostatische Mikrofon; es bietet eine Qualität der Schallwandlung und Schallübertragung, die an der Grenze des physikalisch Möglichen arbeitet. Kondensatormikrofone haben einen weitgehend frequenzunabhängigen Übertragungsfaktor und geringe Verzerrungen und Körperschallempfindlichkeit, benötigen aber eine Betriebsspannung zum Erhalt der Ladung des Kondensators und zur Versorgung des Impedanzwandlers und Verstärkers im Mikrofon. Konstruktiv bilden eine schwingungsfähige, vom Luftschall bewegte Membran als eine der Elektroden und eine feste Gegenelektrode zusammen einen Kondensator, dessen Kapazität sich entsprechend den Schwingungen der Membran ändert; denn die Kapazität eines Kondensators hängt u. a. vom Abstand der Kondensatorplatten ab. Die Membran besteht aus einer 1 bis 10 μm starken Metallfolie oder metallbedampften Kunststofffolie. Ihr Abstand von der festen Gegenelektrode beträgt 5 bis 50 μm. Ihr Gewicht bestimmt die Einschwingzeit, sie ist umso kürzer, je leichter die Membran ist. Das Gewicht der Membran von Kondensatormi krofonen liegt bei wenigen mg, was ganz wesentlich die hohe Qualität der Kondensatormi krofone begründet; die Membran dynamischer Mikrofone hingegen wiegt etwa das 20-fache, entsprechend kann sie schnellen Einschwingvorgängen weniger folgen. Eine Variante des Kondensatormikrofons ist das Elektretmikrofon oder dauerpolarisierte Mikrofon, das keine externe Spannungszuführung benötigt, sondern lediglich eine Batterie zur Speisung des mit dem Mikrofon konstruktiv vereinten Impedanzwandlers. Bei diesen Mikrofonen ist die Ladung des Kondensators in Kunststofffolien „eingefroren“, ähnlich wie in einem Dauermagneten der Magnetismus. Elektretmikrofone sind heute beherrschend in allen Bereichen der Sprachkommunikation, sie sind bei relativ guter Klangqualität vornehmlich als Miniaturmikrofone in hohen Stückzahlen preisgünstig als sog. MEMS herzustellen. Im Tonstudiobereich konnten sich Elektretmikrofone nicht durchsetzen. Sie finden da Verwendung, wo aus praktischen Gründen keine Mikrofonspeisespannung zur Verfügung steht und dynamische Mikrofone nicht benutzt werden können oder sollen. 4.2.2.1 Spannungsversorgung Die Kondensatormikrofone werden über zweiadrige, geschirmte Mikrofonkabel an die Mikro fonverstärker der Regieanlage angeschlossen. Die Versorgungsspannung für den Betrieb der Mikrofone wird durch Mehrfachnutzung der Mikrofonleitung, also ohne besondere Versorgungsleitungen bereitgestellt. Zwei verschiedene Speisungsarten sind dabei möglich: Phantom- oder Mittelpunktspeisung und Tonaderspeisung. Beide Speisungsarten haben bestimmte Vor- und Nachteile (Tab. 4.4). Nachdem die beiden Verfahren nach Entwicklung der ersten transistorisierten Mikrofone in den 1960er Jahren zunächst konkurrierend nebeneinanderstanden, hat sich im Tonstudiobereich die Phantomspeisung mit 48 V (P 48) vollkommen durchgesetzt, da sie qualitativ und betrieblich überlegen ist, insbesondere geringere Störanfälligkeit zeigt und kompatibel ist mit dem Anschluss dynamischer Mikrofone. Die Tonaderspeisung hat im Studio keine Bedeutung mehr, wird aber für mobile Tonaufnahmen bei Film und Fernsehen als Tonaderspeisung mit 12 V (T 12) nach [DIN 45595] wegen
170
4 Mikrofone und Lautsprecher
des 12-V-Batteriebetriebs noch verwendet. Röhrenmikrofone (siehe Kap. 4.2.4.3) erfordern zur Erzeugung der benötigten Heiz-, Anoden- und Polarisationsspannungen stets ein eigenes Netzteil über spezielle mehradrige Kabel. Bei der Phantomspeisung nach [IEC 268-15/DIN 45596], seit 2018 [DIN EN IEC 61938], wird die Versorgungsspannung des Mikrofons von 12, 24 oder meist 48 V parallel über die beiden Adern hin und über den Kabelschirm zurück dem Mikrofon zugeführt (Abb. 4/26). Beim Anschluss des Mikrofons wird über die symmetrische Mikrofonleitung eine Brückenschaltung hergestellt: die beiden Adern a und b bilden mit dem Kabelschirm einen Phantomkreis; vier gleichgroße Widerstände stellen den geforderten Brückenabgleich her und sollen bei der 48-V-Versorgung je 6,8 kΩ, bei der 12-V-Versorgung je 680 Ω betragen. [Wuttke, 1998] Tab. 4/4. Phantom- und Tonaderspeisung bei Kondensatormikrofonen. technische Merkmale
Phantomspeisung nach IEC 268-15/DIN 45 596, seit 2018 DIN EN IEC 61938
Tonaderspeisung nach DIN 45 595
Spannungsversorgung
48 V (P 48), meist tolerant für 9 bis 52 V
12 V (T 12), auch 24 V (T 24)
Stromzuführung
gemeinsam über beide Adern, Rückführung über den Kabelschirm
nur über die a-Ader, Rückführung über die b‑Ader des Mikrofonkabels, der Kabelschirm ist frei von Gleichstrom
Symmetrie
nur für symmetrischen Verstärkereingang
für symmetrischen und unsymmetrischen Verstärkereingang
Anschluss dynamischer Mikrofone
ohne besondere Maßnahmen möglich, da keine Gleichspannung zwischen den beiden Adern des Mikrofonkabels liegt
die Speisespannung muss abgeschaltet werden, da sie die Aufnahme verzerren und zur Beschädigung des Mikrofons führen kann
Umpolen der Leitung
zulässig
nicht zulässig
Speisung mehrerer Mikro keine Weiche erforderlich fone aus einer Stromquelle
Speisungsweiche erforderlich
Störspannungen aus der Speisung
überlagern sich nicht der Modulation
überlagern sich direkt der Modulation
Strom maximal
10 mA
10 mA
Spannungszuführung über 2 mal 6,8 kΩ bei 48 V, gepaarte Widerstände 2 mal 680 Ω bei 12 V
2 mal 180 Ω
Die Versorgungsspannung von 48 V liegt also zwischen den Tonadern a bzw. b und dem Kabelschirm, zwischen a und b besteht keine Gleichspannung. Dynamische Mikrofone können deshalb ohne weiteres in symmetrischer Schaltungstechnik angeschlossen werden, ohne dass die Versorgungsspannung abgeschaltet werden muss; unsymmetrische dynamische Mikrofone können nicht angeschlossen werden. Da keine Spannung zwischen den
4.2 Mikrofone
171
Adern liegt, haben auch Schwankungen der Versorgungsspannung keinen Einfluss auf das Tonsignal; eine Restwelligkeit der Phantomspannung ist deshalb unschädlich. Auch Störspannungen, die in den Kabelschirm induziert werden, haben geringen Einfluss. An einem Speisegerät können ohne besondere Entkopplungsmaßnahmen mehrere Mikrofone angeschlossen werden. An die Brückenwiderstände werden bezüglich ihrer Toleranz keine hohen Anforderungen gestellt, ± 0 % sind zulässig. Jedoch sind die Anforderungen an die Gleichheit der Widerstände außerordentlich hoch, um Gleichspannungen zwischen den Adern zu unterbinden. Ist die Gleichheit der Widerstände nicht erfüllt, erhalten die Übertrager von Mikro fon und Regieanlage, soweit vorhanden oder nicht durch Entkoppelungskondensatoren gleichstromgeschützt, eine Gleichspannung, die zu Verzerrungen führt. Die zulässige Größe der Restgleichspannung darf in der Praxis umso größer sein, je größer die Eingangsübertrager dimensioniert sind. Auch wenn am Regiepulteingang Entkoppelungskondensatoren vorhanden sind oder wenn die Eingangsschaltung ohne Übertrager aufgebaut ist, müssen die Widerstände exakt gepaart sein, damit Störungen, die auf den Kabelschirm gelangen, weitgehend unwirksam bleiben und dadurch die besonderen Vorteile der Phantomspeisung erhalten bleiben.
Abb. 4/26. Schaltung der Phantomspeisung.
Bei der Tonaderspeisung nach [DIN 45595] werden für die Zuführung der Versorgungsspannung die beiden Tonadern a und b der Mikrofonleitung benutzt. Damit nimmt der Versorgungsstrom denselben Weg wie der Tonfrequenzstrom. Über zwei gleich große Widerstände von je 180 Ω wird die Tonader a mit dem Pluspol, die Tonader b mit dem Minuspol des Mikro fonnetzgeräts verbunden. Um die auf den Tonadern befindliche konstante Gleichspannung von 12 V vom Eingangsübertrager des nachfolgenden Mikrofonverstärkers fernzuhalten, sind Trennkondensatoren eingefügt. 4.2.2.2 Mikrofon-Vorverstärker mit analogem Ausgang Die mechanischen Schwingungen der Membran des Kondensatormikrofons müssen in elektrische Schwingungen umgewandelt werden. Der Mikrofon-Vorverstärker ist konstruktiv mit dem eigentlichen, dem akustischen Schallempfänger vereint. Er hat die Aufgabe, ein für die
172
4 Mikrofone und Lautsprecher
Weiterleitung geeignetes elektrisches Signal zur Verfügung zu stellen; bei der sog. Niederfrequenzschaltung gehört dazu auch eine Impedanzwandlung, bei der sog. Hochfrequenzschaltung eine Demodulation des über die Membran erzeugten elektrischen Signals. Dafür hat sich weitgehend die sog. Niederfrequenzschaltung durchgesetzt, daneben wird auch die Hochfrequenzschaltung verwendet. Für den Anwender ist dies unwesentlich, es handelt sich um herstellerspezifische Unterschiede. [Wuttke, 2000] Moderne Kondensatormikrofone haben eine transformatorlose oder eisenlose Endstufe, was zu folgenden Vorteilen der Übertragungsqualität gegenüber älteren mit Ausgangstransformator bestückten Verstärkern führt: Die Verzerrungen im tiefen Frequenzbereich sind ebenso gering wie im übrigen Übertragungsbereich; die Ausgangsimpedanz bleibt bis zur oberen Grenze des Übertragungsbereichs konstant; das Mikrofon ist gegenüber äußeren Magnetfeldern unempfindlich; der Amplituden- und Phasenfrequenzgang sowie Verzerrungen sind gegenüber Schaltungen mit Transformator verbessert, schließlich sind solche Verstärkermodule kleiner und leichter. Niederfrequenzschaltung Bei dieser Schaltungsvariante wird die Mikrofonkapsel über einen Widerstand auf eine feste Gleichspannung, die sog. Polarisationsspannung, die zwischen 40 und 200 V liegen kann, aufgeladen. Trifft eine Schallwelle auf die Membran, so ändert sich die Kapazität des Kondensators im Rhythmus der Schallschwingungen. Das führt zu einem entsprechenden Ladungsausgleich und damit zu einer entsprechenden Wechselspannung am Widerstand R (Abb. 4/27). Der Spannungsabfall am Widerstand ist zur Änderung der Kapazität und zur angelegten Gleichspannung proportional.
Abb. 4/27. Prinzipschaltbild des Kondensatormikrofons in Niederfrequenzschaltung.
Die Anordnung stellt eine RC-Schaltung als Hochpass dar, deren untere Grenzfrequenz unterhalb des Frequenzbereichs des Mikrofons, also unter 20 Hz, liegen muss. Bei einer Kondensatorkapazität zwischen 100 und 20 pF muss der Widerstand einen Wert zwischen 80 und 400 MΩ haben. An eine so hochohmige Quelle kann wegen ihrer enormen Störanfälligkeit
4.2 Mikrofone
173
keine längere elektrische Leitung angeschlossen werden; deshalb befindet sich in jedem Kondensatormikrofon ein Mikrofon-Vorverstärker, der in erster Linie den Quellwiderstand herabsetzt, aber auch den Pegel anhebt. Die Speisespannung wird in der professionellen Technik dem Mikrofon über das Mikrofonkabel als Phantomspeisung (siehe Kap. 4.2.2.2) zugeführt und vom Mikrofonverstärker der Tonregieanlage bzw. dem mobilen Aufnahmegerät geliefert. Um Schwingungen im Infraschallbereich vom Verstärker fernzuhalten, verfügt dieser meist über einen Hochpass, der mit wählbarer Grenzfrequenz als schaltbares Trittschallfilter ausgebildet ist. Weiterhin enthält der Vorverstärker meist eine Vordämpfung, die das Mikrofon auch für hohe Schalldrücke geeignet macht. Der elektrische Aufbau des Verstärkers bestimmt die Mikro foneigenschaften wesentlich mit, besonders seinen Geräuschpegel. Hochfrequenzschaltung Bei der Hochfrequenzschaltung werden die Membranschwingungen durch die Verstimmung eines Schwingkreises umgesetzt. Die Kapazität der Mikrofonkapsel steuert hier die Frequenz oder die Phase einer HF-Schwingung. Das Mikrofon enthält dazu einen HF-Generator und einen Demodulator. Für den Anwender ist einem Mikrofon nicht anzusehen, ob es in der HFoder NF-Schaltung arbeitet. Beide Schaltungsarten liefern höchste Qualität. 4.2.2.3 Mikrofon-Vorverstärker mit digitalem Ausgang Mit der allgemeinen Digitalisierung der gesamten Tonstudiotechnik entstand auch eine Nachfrage nach sog. Digitalmikrofonen, die bereits ein digitales Signal liefern. Sie arbeiten mit konventionellen Mikrofonkapseln und einem Impedanzwandler bzw. Verstärker, der auch die Analog-Digitalumsetzung vornimmt. Obwohl führende Mikrofonhersteller eine Palette von digitalen Mikrofonen anbieten, wird in der Studiopraxis eine separate AnalogDigitalwandlung bevorzugt. [Becker-Foss, 2010] Mi kro fone bilden wie Lautsprecher die Schnittstelle zwischen der stets analogen akustischen Welt und der heute weitgehend digitalen Welt der Tonstudiotechnik. Digitale Mikrofone im eigentlichen Sinne kann es demnach nicht geben, korrekt gesagt gibt es nur Mikrofone mit integriertem Analog-Digitalwandler oder A/D-Wandler. Wenn die Baugruppe A/D-Wandler in das Mikrofongehäuse integriert ist, spricht man heute dennoch allgemein von Digitalmikrofonen. Das digitale Ausgangssignal könnte, so wie die ersten sog. Digitalmikro fone, ausschließlich das Tonsignal nach dem üblichen digitalen Signalstandard AES/EBU, S/ PDIF oder USB enthalten. Sinnvoller ist es allerdings, nicht nur die Einstellmöglichkeiten, die bei analogen Mikrofonen üblich sind, wie Vordämpfung, Trittschallfilter, Richtcharakteristik und Phase auch bei Digitalmikrofonen beizubehalten, sondern auch Funktionen, die bisher von der Tonregieanlage wahrgenommen werden, z. B. die des Mikrofonverstärkers und der Regelverstärker sowie weitere Informationen, z. B. über den Mikrofontyp, die Aufnahmesitzung, die Zuordnung zu bestimmten Aufnahmepositionen u. a. in das Mikrofon selbst und seine Softwaresteuerung zu verlegen. Genau dies führt besonders bei Aufnahmen mit vielen Mikrofonen aber zu einer sehr komplizierten Aufnahmesituation, dazu mehr unten. Für das sog. Digitalmikrofon wurde der AES-Standard „Digital interface for microphones“ erarbeitet und im Jahr 2001 als [AES42-2001], 2006 überarbeitet als AES42-2006 veröffentlicht. Der Standard legt die Signalübertragung und Synchronisierung fest, beschreibt die Speisung
174
4 Mikrofone und Lautsprecher
und definiert die Daten zur Fernsteuerung von Mikrofonparametern (Tab. 4/5). Digitale Mikro fone gemäß [AES42-2001] übertragen die Modulation als AES/EBU-Datenstrom. Dieser kann von jedem entsprechenden Studiogerät empfangen und verarbeitet werden. Es bedarf nur einer Stromversorgung für das Mikrofon, die als sog. digitale Phantomspeisung auf die symmetrischen Datenleitungen gegeben wird. Dies erfolgt z. B. mit Hilfe eines Steckernetzteils mit Einspeisung durch einen Zwischenstecker. Der Standard ist offen für die Integration heute typischer Mischpultfunktionen wie Equalizer, Kompressor, Limiter u. a., damit steht die Aufgabenverteilung zwischen Regieanlage und Mikrofonen in Zukunft zur Disposition. Darüber hinaus werden sog. Interfaces angeboten, die neben der Stromversorgung auch die komplette Fernsteuerbarkeit und Synchronisierung der Mikrofone übernehmen. Anzeige und Fernsteuerung erfolgen über PC oder Mac-Rechner, solange Mischpulte oder andere Studiogeräte noch über keine Mikrofoneingänge gemäß AES42 verfügen. Die Rechner können neben der Steuerfunktion für die Mikrofone auch als Harddisc-Recorder verwendet werden. Digitale Mikrofon-Interfaces können zwei- oder acht-kanalig sein und können für einen höheren Kanalbedarf kaskadiert werden. Zur Wahl stehen sowohl komplette digitale Studiomikrofone, bei denen die A/D-Wandlung fest eingebaut ist, als auch Digitalmodule, die mit von analogen Mikrofonen vorhandenen Kapseln zu digitalen Mikrofonen kombiniert werden können. Es gibt demnach drei Möglichkeiten des Einsatzes der Digitaltechnik bei Mikrofonen (Abb. 4/28): –– analoges Mikrofon mit Stage-Box mit A/D-Wandlung, –– digitales Mikrofon mit Interface, –– digitales Mikrofon ohne Interface. Tab. 4/5. Features und Festlegungen nach [AES42-2001]. Feature
Festlegung
abrufbare Informationen Anzeigen
Hersteller, Typ, Seriennummer, Hard- und Software-Version, implementierte Steuerfunktionen, Status u. a. Aussteuerung, individuelle Informationen über den Mikrofonort (z. B. „Stützmikrofon für …“) u. a. Richtcharakteristik, Trittschallfilter, Pegel, Vordämpfung, Mute, Phase, Signallicht, Synchronisationsmodus, auch weitere Funktionen wie Limiter, Kompressor, Delay u. a. zwei Betriebsarten: Mode 1: das Mikrofon ist selbsttaktend und wird durch einen Abtastratenwandler im Empfänger synchronisiert, Mode 2: das Mikrofon wird extern getaktet, synchron zum Studio-Wordclock digitale Phantomspeisung (DPP), 10 V, max. 250 mA XLR-Stecker und -Buchsen
Einstellungen Taktung
Phantomspeisung Anschlüsse
Der eigentliche Schallwandler, also der Schallempfang durch eine Membran und die Umsetzung von deren Schwingungen in ein analoges elektrisches Signal, sind und werden aus heutiger Sicht Bestandteile auch der Digitalmikrofone bleiben; deshalb werden die bisher verwendeten „analogen“ Kapseln auch in den Digitalmikrofonen weiterverwendet oder mit
4.2 Mikrofone
175
abweichender Anschlusstechnik angepasst. Die Kapseltechnik erfüllt auch heute schon höchste Qualitätsansprüche, sie bestimmt die wesentlichen Eigenschaften und Qualitäten eines Mikrofons bezüglich des aufzunehmenden Schalls. Daher bieten Digitalmikrofone gegenüber analogen Mikrofonen zwar in klanglicher Hinsicht keine qualitativen Vorteile, jedoch im Umgang mit großen Dynamikbereichen. Bei A/D-Wandlung im Mikrofon können nämlich notwendige Pegelanpassungen vorteilhaft in der digitalen Ebene vorgenommen werden. Dies ist dann ein mathematischer Prozess, der sich nicht auf die Signalqualität auswirkt, wie es bei analogen Mikrofon-Vorverstärkern der Fall ist oder sein kann. Ein weiterer Vorteil der Digitalmikrofone liegt in einer einfacheren und flexibleren Handhabung, wenn regieseitig die nötigen Voraussetzungen vorhanden sind, da das digitale Mikrofon den A/D-Wandler und den Vorverstärker bereits beinhaltet und diese sonst dem Mikrofon nachgeschalteten Geräte entfallen. Neben der Kostenersparnis kann der geringere Hardwareaufwand besonders bei mobilem Einsatz vorteilhaft, weil Gewicht sparend sein.
Abb. 4/28. Anschlussmöglichkeiten digitaler Mikrofone.
Aus heutiger Sicht werden auch in Zukunft analoge Mikrofone in großem Umfang verwendet werden, das zeigt auch die große, eher zunehmende Beliebtheit „historischer“ Mikrofone, die zuerst einen klanglichen Gestaltungswillen ausdrücken. In Verbindung mit abgesetzten A/D-Wandlern auf der Bühne, den sog. Stage-Boxen, können sie in der digitalen Tonstudiotechnik problemlos beibehalten werden, so dass ein Nebeneinander analoger und digitaler Mikrofone zu erwarten ist. Auf der anderen Seite können mit Hilfe der digitalen Signalbearbeitung Eigenschaften im Mikrofon verwirklicht werden, die analog nicht möglich sind. So
176
4 Mikrofone und Lautsprecher
z. B. eine Limiterfunktion, die automatisch, wirkungsvoll und unhörbar Übersteuerungen durch Popplaute verhindert. Auch wenn in Mischpulten standardmäßig Kompressor- und Limiterfunktionen vorhanden sind, können entsprechende Störungen direkt an der Kapsel als Entstehungsort wirksamer bekämpft werden als weit hinten im Signalfluss, wo in den verschiedenen Schaltungsstufen bereits Sekundärstörungen entstanden sein können. Der Standard AES42 beschreibt zwei Arten der Synchronisation des Mikrofonsignals mit dem Empfänger, also z. B. Mischpult oder einem Mikrofon-Interface: –– Mode 1: Das Mikrofon arbeitet unsynchronisiert mit der Abtastrate seines internen Quarz oszillators und benötigt auf der Empfängerseite einen Abtastratenwandler (Sample-RateConverter). Dieser Modus kann benutzt werden, wenn eine Synchronisation nach Mode 2 nicht möglich ist; Sample-Rate-Converter können die Signalqualität verschlechtern. –– Mode 2: Das Mikrofon wird extern getaktet. Im AES42-Empfänger wird ein Frequenz/Phasenvergleich mit dem Master-Wordclock durchgeführt und ein Steuersignal erzeugt, das über den Fernsteuerdatenstrom zum Mikrofon übertragen wird und dort die Frequenz des internen Quarzoszillators steuert. Für die Datenübertragung wurde der dreipolige XLR-Stecker beibehalten, der somit in der analogen und digitalen Studiotechnik einheitlich verwendet wird. Es wird ein bidirektionales Signal gemäß AES42 übertragen, welches das symmetrische digitale Mikro fonausgangssignal, die Phantom-Stromversorgung und einen Fernsteuerdatenstrom enthält. [Peus, 2001], [Becker-Foss, 2010] Vor- und Nachteile sowie Probleme digitaler und analoger Mikrofone wurden in einem Weißbuch zusammengefasst, hier zitiert nach [Becker-Foss, 2010], das als Fazit aus Sicht der Anbieter erarbeitet wurde: Vorteile digitaler Mikrofone: –– gut einsetzbar, wenn die Mikrofonkabel in starken elektromagnetischen Störfeldern liegen, –– bei heutigen digitalen Systemen mit 24-bit-Schnittstelle ist keine Aussteuerung des Mikrofons am Mikrofonverstärker notwendig, –– diverse Fernsteueroptionen stehen herstellerübergreifend zur Verfügung, so dass z. B. direkt aus der Mischpultoberfläche die Richtcharakteristik steuerbar wird, –– eine Signalisation, z. B. welches Mikrofon gerade aktiv ist, ist möglich, –– hoher Bedienkomfort durch Anzeige von Mikrofontyp, Hersteller und anderer Informationen, –– Individualisierungen von Mikrofonen sind möglich, also ein persönliches Setup, Vorteile analoger Mikrofone: –– viel einfachere Handhabung, bereits der Mikrofontyp sagt dem erfahrenen Tonmeister, welcher Klang zu erwarten ist, –– ein Mikrofonaustausch ist jederzeit möglich, da es keine klanglichen Veränderungen gibt, die im Mikrofon gespeichert sein könnten, –– es gibt kein Delay, es können beliebige analoge Mikrofone verschiedenster Hersteller gleichzeitig betrieben werden, je nach Anwendungsfall und Aufstellungsort kann somit für jedes Instrument das dafür passende Mikrofon verwendet werden,
4.2 Mikrofone
177
–– keine inkompatiblen Softwareversionen der Schnittstelle, keine Softwareupdates der Mikrofonsoftware notwendig, –– die Mikrofonschnittstelle ist mit viel kleinerer elektrischer Leistung genormt, mit Hilfe analoger phantomgespeister Mikrofone, sparsamen Mikrofonverstärkern und energieoptimierten A/D-Wandlern wird erheblich weniger Energie verbraucht als bei digitalen Mikrofonen, damit bessere Eignung für batteriebetriebene und mobile Systeme, –– moderne HF-feste Mikrofone und moderne Mikrofonverstärkerarchitekturen gestatten heute auch bei starken elektromagnetischen Störfeldern eine weitgehend ungestörte Audioübertragung bei analogen Mikrofonen, –– höhere Dynamik als bei digitalen Mikrofonen möglich, AES42 begrenzt die Dynamik durch die 24-bit-Schnittstelle auf etwa 145 dB, analoge Mikrofonverstärker der Spitzenklasse liegen oft über 155 dB, Die auf den ersten Blick verlockende Möglichkeit, gleich beginnend mit dem Mikrofon digital zu arbeiten und viele Features des Mikrofons fernsteuern zu können, führt leider bei umfangreichen, komplexen Systemen schnell zu einer Unübersichtlichkeit. Neue Probleme müssen bedacht werden, etwa: –– Wie wird synchronisiert? –– Wie groß ist die A/D-Wandlerlaufzeit in jedem Mikrofon, stimmen die Laufzeiten überein? –– Gibt es Laufzeiten von Samplerate-Convertern zu berücksichtigen? –– Die Laufzeit digitaler Mikrofone ist nicht mehr nur mit dem Maßband von der Schallquelle aus zu bestimmen. Sie ist generell von Mikrofoneigenschaften und Betriebsarten abhängig. Werden gleichzeitig verschiedene Mikrofone oder auch gleiche Mikrofone mit unterschiedlichen Einstellungen betrieben, muss auf einen Laufzeitausgleich geachtet werden. –– Wo muss mit zusätzlichem Delay die Ausbildung von Kammfiltereffekten verhindert werden? –– Welches Mikrofon hat welche Einstellungen? Allein die Einstellmöglichkeiten nur eines Mikrofons können umfangreiche Erläuterungen erfordern. –– Gibt es Mikrofone, die sich noch Einstellungen von früheren Produktionen gemerkt haben, beispielsweise noch aktivierte Limiter? Wer digitale Mikrofone einsetzt, wird zwar von einfachen Aufgaben entlastet, muss sich aber dennoch mit eventuell viel komplexeren Aufgabenstellungen auseinandersetzen. Wenn man von einfachen Mikrofonierungen absieht, z. B. zwei Mikrofone ohne jede Fernsteuerung, dann kann die Vorbereitung einer Produktion, z. B. Orchesteraufnahme mit digitalen Mikrofonen, erheblich mehr Zeit erfordern. Der Vorteil der ungeheuer vielen Möglichkeiten kann sich schnell in den Nachteil großer Unübersichtlichkeit und vieler Fehlerquellen verwandeln. 4.2.2.4 Druckempfänger Die Kapsel des Druckempfängers ist schalldicht geschlossen, damit keine Schallwellen an die Membranrückseite gelangen können und nur der absolute Druck der Luft Auslenkungen der Membran erzwingt (Abb. 4/29). Ohne weitere Maßnahmen würden deren Amplituden mit
178
4 Mikrofone und Lautsprecher
steigender Frequenz abnehmen. Um nun eine von der Frequenz unabhängige, konstante Auslenkung der Membran und damit auch eine konstante, frequenzunabhängige Ausgangsspannung zu erreichen, nutzt man die ansteigende Flanke einer Resonanzkurve. Man legt deshalb die Eigenresonanz der Kapsel in den Bereich der höchsten zu übertragenden Frequenz. Dies wird erreicht durch eine sehr leichte, stark gespannte Membran und ein kleines im Zwischenraum zur festen Gegenelektrode eingeschlossenes Luftvolumen mit einer sehr geringen mitschwingenden Luftmasse und hoher Rückstellkraft; man sagt, die Membran sei hoch abgestimmt. Im ansteigenden Teil der Resonanzkurve wird so die Membranauslenkung mit steigender Frequenz also zunehmend verstärkt. Um das Luftvolumen zwischen Membran und Gegenelek trode in erforderlichem Maß komprimierbar zu machen, wird die Gegenelektrode noch mit sog. Sacklöchern versehen. Dies macht die Rückstellkraft für den gesamten Frequenzbereich praktisch konstant, damit werden nichtlineare Verzerrungen vermieden, es gibt nur sehr geringe Phasenverzerrungen im gesamten Übertragungsbereich. Die geforderte frequenzunabhängige Membranauslenkung und Ausgangsspannung können sehr exakt erreicht werden (Abb. 4/13). Das Mikrofon ist weitgehend unempfindlich für Körperschall. Bei Auslenkung der Membran mit fester Gegenelektrode wird die Luft auf der Seite zur Gegenelektrode verdichtet bzw. verdünnt, mit wachsender Auslenkung entsteht also eine Bewegungshemmung. Eine interessante Lösung für den Kapselaufbau stellt deshalb die symmetrisch aufgebaute Kapsel mit zwei festen, aber gelochten Gegenelektroden dar, zwischen denen die Mikrofonmembran schwingt. Das sorgt für eine erhöhte Linearität der Schwingungen, und so für eine weitere Reduzierung der ohnehin schon geringen Verzerrungen.
Abb. 4/29. Aufbau der Kapsel des Kondensator-Druckempfängers.
4.2.2.5 Druckgradientenempfänger Bei Druckgradientenempfängern muss der Schall auch die Membranrückseite erreichen können, damit eine Druckdifferenz zwischen Vorder- und Rückseite entstehen kann, die dann die Membran auslenkt. Das kann entweder nach dem Überlagerungsprinzip oder mit einem Laufzeitglied geschehen. Beim Überlagerungsprinzip, das vor allem bei Mikrofonen mit Doppelmembran mit umschaltbarer Richtcharakteristik angewendet wird (siehe auch Kap. 4.2.1.8, Druckgradientenempfänger mit Nierenrichtcharakteristik), werden Teilbereiche der Gegenelektrode mit durchgehenden Bohrungen zur Erzeugung einer Achterrichtcharakteristik, andere Bereiche mit Sacklöchern zur Erzeugung einer Kugelrichtcharakteristik versehen (Abb. 4/30). Da der Druckgradient bereits eine proportional zur Frequenz größer werdende Antriebskraft darstellt (Abb. 4/14), darf die Membran nicht wie beim Druckempfänger hoch abgestimmt sein.
4.2 Mikrofone
179
Sie soll im Übertragungsbereich nur eine frequenzunabhängig wirkende Reibungshemmung besitzen. Praktisch wird die Membranresonanz, die sich aus der Membranmasse und -rückstellkraft ergibt, in die Mitte des Übertragungsbereichs gelegt. Die Resonanz wird durch die Luftreibung in den Vertiefungen und Durchbohrungen der Gegenelektrode so bedämpft, dass sie sich nicht mehr auswirkt.
Abb. 4/30. Prinzipieller Aufbau des KondensatorDruckgradientenempfängers mit Nierenrichtcharak teristik nach dem Überlagerungsprinzip.
Vorherrschend bei Druckgradientenmi kro fonen mit Nierenrichtcharakteristik oder mit Hyper- bzw. Supernierenrichtcharakteristik sind jedoch Konstruktionen, bei denen die Gegenelektrode zu einem Laufzeitglied erweitert und mit Bohrungen, Schlitzen und Hohlräumen versehen wird, die teils als akustische Energiespeicher, als akustische Induktivitäten und Kapazitäten, teils als Reibungswiderstände wirksam sind; dadurch erhält die Gegenelektrode den Charakter eines akustischen Tiefpasses. Im Sperrbereich dieses Tiefpasses, also im oberen Frequenzbereich, über fü in Abb. 4/14, wird die Membran nur noch von dem von vorn auf die Membran treffenden Schall ausgelenkt; das Mikrofon wird damit in diesem hohen Frequenzbereich zum Druckempfänger. Bei der Hyper- und Supernierencharakteristik wird die Laufzeit des Laufzeitglieds kürzer gemacht. Ein Beispiel für die mechanische Ausführung eines Nierenmikrofons mit Laufzeitglied zeigt Abb. 4/31.
Abb. 4/31. Beispiel für den mechanischen Aufbau eines Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik mit einem Laufzeitglied.
180
4 Mikrofone und Lautsprecher
Die Achterrichtcharakteristik erfordert eine beidseitig dem Schall ausgesetzte Membran; die Gegenelektrode darf demnach akustisch nicht wirksam werden. Mikrofone nach diesem Prinzip werden wenig gebaut. Die Achterrichtcharakteristik steht meist nur bei Mikro fonen mit umschaltbarer Richtcharakteristik zur Verfügung (siehe Kap. 4.2.2.7). 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik Kondensatormikrofone mit umschaltbaren Richtcharakteristiken können entweder durch die Kombination zweier Nierenmikrofone als Doppelmembranmikrofon oder durch rein mechanisch wirkende Elemente des Laufzeitglieds realisiert werden. Bei den meisten Herstellern hat sich die Lösung in der Ausführung als Doppelmembranmikrofon durchgesetzt. Umschaltbare Kondensatormikrofone nach dem Doppelmembranprinzip besitzen auf beiden Seiten der teils angebohrten, teils durchbohrten Gegenelektrode eine Membran. Sie vereinen zwei Mikrofonsysteme mit Nierencharakteristik, die in entgegen gesetzten Richtungen ausgerichtet sind, jedes einzelne System arbeitet nach dem Überlagerungsprinzip (Abb. 4/32).
Abb. 4/32. Prinzipieller Aufbau des umschaltbaren Kondensatormikrofons mit Doppelmembran.
Je nachdem, ob beide Membranen elektrisch wirksam werden und mit welcher Polarität sie zusammengeschaltet werden, kann ein solches Mikrofon Kugel-, Nieren- oder Achterrichtcharakteristik erhalten, außerdem alle gewünschten Zwischenformen wie Hyper- und Superniere (Abb. 4/34). Wird nur eine Membran der Kapsel mit einer Spannungsquelle verbunden, so hat die Kapsel Nierencharakteristik (Abb. 4/33, Schalterstellung 3). Werden beide Membranen mit gleich großen Spannungen gleicher Polarität belegt, so ergeben sich zwei entgegengesetzt ausgerichtete Nieren, deren Spannungen sich zu einer Kugelcharakteristik addieren (Abb. 4/33, Schalterstellung 1). Werden beide Membranen mit gleich großen Spannungen entgegengesetzter Polarität belegt (Abb. 4/33, Schalterstellung 2), so ergeben sich auch hierbei zwei Nierencharakteristiken, deren Spannungen sich jetzt jedoch subtrahieren, das Ergebnis ist eine achterförmige Richtcharakteristik. Sie kommt dadurch zustande, dass bei seitlicher Besprechung die beiden erzeugten Spannungen gegenphasig sind und sich somit aufheben, während bei einer Besprechung von vorn oder hinten die volle Empfindlichkeit erhal-
4.2 Mikrofone
181
ten bleibt. Der Umschalter in Abb. 4/33 kann durch ein Potentiometer ersetzt werden. Die Charakteristiken können dann stufenlos ineinander überführt werden. Dieses Potentiometer kann im Mikrofongehäuse oder im Netzanschlussgerät eingebaut sein.
Abb. 4/33. Beschaltung eines Kondensatormikrofons mit Doppelmembran.
Die Kugelcharakteristik des umschaltbaren Kondensatormikrofons mit Doppelmembran, die aus zwei Nierencharakteristiken gewonnen wird, zeigt eine andere Frequenzabhängigkeit der Richtwirkung als die Kugelcharakteristik des Druckempfängers. Der Schallschatten, der bei hohen Frequenzen hinter einem Druckempfänger entsteht und ihn in diesem Frequenzbereich eine der Nieren- bzw. Keulencharakteristik ähnliche Richtcharakteristik verleiht, existiert beim umschaltbaren Druckgradientenempfänger nicht, da beide Membranen wirksam sind. Dieses Mikrofon ist nach dem Umschalten auf „Kugel“ von vorn und hinten für alle Frequenzen gleich empfindlich und geht für hohe Frequenzen eher in Richtung Achterrichtcharakteristik; dieses Phänomen ist bei Mikrofonen mit großer Membran deutlicher, bei kleiner Membran eher gering. Somit kann die Kugelcharakteristik drei verschiedene Frequenzabhängigkeiten aufweisen (Abb. 4/35). 4.2.2.7 Stereomikrofone Bei Aufnahmen in reiner Intensitätsstereofonie werden für das XY- und MS-Mikrofonverfahren Mikrofonanordnungen benötigt, bei denen zwei Richtmikrofone an einem Punkt, in der praktischen Realisierung unmittelbar übereinander angeordnet sind (siehe Kap. 5.3.2 ff.). Eine solche Anordnung kann man entweder mit einem geeigneten Mikrofonhalter und zwei Einzelmikrofonen zusammenstellen oder – für den praktischen Gebrauch einfacher – durch die konstruktive Zusammenfassung zweier Mikrofonsysteme. Solche Stereo- oder Koinzidenzmikrofone vereinen dicht übereinander und gegeneinander drehbar zwei identische Mikrofone mit örtlicher oder ferneinstellbarer Richtcharakteristik. Bei Fernumschaltung sind die Mikrofonsysteme mit einer Doppelmembran aufgebaut, bei örtlicher Umschaltung stehen Mikrofone mit Doppelmembran oder mit Einzelmembran und umschaltbarem Laufzeitglied zur Verfügung.
182
4 Mikrofone und Lautsprecher
Zu den Stereomikrofonen gehören auch Mikrofonpaare mit Trennkörpern (Kap. 5.3.4.4) und der Kunstkopf (Kap. 4.2.4.1), sie werden aber eher als Aufnahmeverfahren gewertet und demnach in Kap. 5 behandelt.
Abb. 4/34. Mögliche Richtcharakteristiken eines Doppelmembran-Mikrofons und ihr Zustandekommen aus der Überlagerung zweier Nierenrichtcharakteristiken.
4.2 Mikrofone
183
Abb. 4/35. Verschiedene Typen der Frequenzabhängigkeit bei Kugelmikrofonen, a. Druckempfänger, b. Druckgradientenempfänger mit kleiner Doppelmembran, c. Druckgradientenempfänger mit großer Doppelmembran.
Mikrofonpaare mit variabler Richtcharakteristik Montiert man ein Mikrofon mit Kugelcharakteristik (Kapsel 1) und eines mit Achterrichtcharakteristik (Kapsel 2) dicht übereinander und summiert deren Signale, so erhält man ein Monomikrofon mit speziellen Eigenschaften: Zunächst kann durch die Einstellung der Pegel und Polarität von der Kugel über die Niere bis zur Acht jede gewünschte Richtcharakteristik einschließlich aller Zwischenformen eingestellt werden (Kugel = Kapsel 1, Niere nach vorn = Kapsel 1 + 2, Niere nach hinten = Kapsel 1 – 2), ebenso wie bei einem Doppelmembranmi krofon. Interessant wird das System aber erst bei Betrachtung der Frequenzgänge: die Kugel hat bis 20 Hz hinab einen ebenen Frequenzgang, die Acht hat unter 50 Hz praktisch kein Signal mehr; nach Addition von Kugel und Acht erhält man also eine Bassabsenkung um 6 dB bei gleichzeitiger Kugelrichtcharakteristik für den tiefsten Frequenzbereich. Ein Mikro fonpaar aus Kugel und Niere hat ebenfalls eine Bassabsenkung um 6 dB bei der Richtcharakteristik einer breiten Niere; diese Kombination wird gelegentlich als Straus-Paket bezeichnet. Die Mikrofone sollen dabei in Reihe geschaltet werden, nicht parallel. Mit einem Mikrofonpaar kann man aber auch weiter differenzierte Mikrofoneigenschaften herstellen: Ein als System auf dem Markt befindliches Produkt teilt die Übertragungsbereiche der beiden Mikrofone in drei Frequenzbereiche, wobei für jeden Bereich eine eigene spezielle Kombination eingestellt werden kann, z. B. eine Kugel für tiefe Frequenzen, eine Niere für mittlere und eine Hyperniere für hohe Frequenzen. Für digitale Mikrofone steht das System auch als App zur Verfügung. Wie bei jeder Differenzierung fordert allerdings auch dieses System eine große Sorgfalt bei der Einstellung und Auswahl und einen hohen Zeitaufwand. Sound Field-Technologie Eine interessante Form eines Koinzidenzmikrofons ist auch das Mehrkapselsystem nach der Sound Field-Technologie nach Gerzon [Farrar, 1979]. Diese Technologie hat unter der Bezeichnung Ambisonics-Mikrofon in jüngster Zeit wieder große Bedeutung erlangt. Es vereint nicht
184
4 Mikrofone und Lautsprecher
nur zwei Mikrofonkapseln wie das Koinzidenzmikrofon, sondern vier Nieren-Kapseln, die in einer festen, berechneten Position an den Ecken eines Tetraeders alle drei Raumebenen erfassen. Die Signale aller Kapseln können zu einem Monosignal, das alle Richtcharakteristiken erhalten und in verschiedene Richtungen ausgerichtet werden kann, summiert werden, aber ebenso zu einem Stereo- oder Surroundsignal. Durch unterschiedliche Pegelanteile und Polungen der einzelnen Mikrofonsignale werden die verschiedenen Richtcharakteristiken gewonnen. Der Anwender bewegt und steuert das Mikrofon elektronisch über eine Steuereinheit vom Regieraum aus, entweder während der Aufnahme oder nach vierkanaliger Aufzeichnung erst bei der Abmischung. Abgesehen von den üblichen Parametern für die Mikrofoncharakteristik stehen zusätzliche Parameter zur Verfügung, die es sonst bei keinem Mikrofonsystem gibt: Mit Azimuth wird das Mikrofon elektronisch und stufenlos um 360 ° in der horizontalen Ebene gedreht, mit Elevation kann es elektronisch vertikal geneigt werden. Dieses komplexe Mikrofonsystem wurde als Ambiophonics-System konkurrierend zur Technik der Quadrophonie in den 1970er Jahren entwickelt. Das Mikrofon wird von verschiedenen Mikrofonmanufakturen angeboten. Unter den in jüngerer Zeit entwickelten Systemen für einhüllende Klangdarstellung, den immersive sound, ist dieses Mikrofon zu einem wichtigen Werkzeug der Tonaufnahme geworden (siehe dazu Kap. 5.5.3.2).
4.2.3 Dynamische Mikrofone Dynamische Mikrofone sind elektrodynamische Wandler (siehe auch Kap. 4.1). Bei ihnen wird in einem durch einen Permanentmagneten erzeugten magnetischen Feld beim Tauchspulmikrofon eine kleine Spule bzw. beim Bändchenmikrofon eine Leiterschleife über eine Membran von den Schallwellen bewegt. Dynamische Mikrofone benötigen keine Speisespannung, sie sind robust und arbeiten auch bei hohen Schalldrücken der Schallquellen verzerrungsarm. Sie sind preisgünstig herzustellen. Verglichen mit Kondensatormikrofonen ist die Feinstruktur des Frequenzgangs bei Tauchspulmikrofonen unregelmäßiger, was aus den Datenblättern wegen der gemittelten Frequenzgänge nicht ersichtlich ist; ebenso ist ein Phasenfrequenzgang unvermeidlich. Wegen der verglichen mit Kondensatormikrofonen wesentlich größeren bewegten Masse aus Membran und Schwingspule ist das Einschwingverhalten beim Tauchspulmikrofon langsamer als bei Kondensatormikrofonen. Bei hohen Qualitätsanforderungen werden deshalb Kondensatormikrofone bevorzugt. Dennoch erreichen dynamische Mikrofone heute einen beachtlichen Qualitätsstandard. Sie werden besonders auf der Bühne im Popmusiksektor wegen ihrer Robustheit und Betriebssicherheit geschätzt. Die Ausgangsspannung an den Klemmen einer Schwingspule oder eines Bändchens ist der Bewegungsgeschwindigkeit der Spule bzw. des Bändchens proportional, während die Spannung, die eine Kondensatorkapsel abgibt, zur Auslenkung der Membran proportional ist. Damit muss die mechanische Konstruktion, vor allem die Lage der Membranresonanz und die Bedämpfung der Membranschwingungen bzw. deren Verstärkung durch Resonanzen des konstruktiven Aufbaus bei dynamischen und Kondensatormikrofonen unterschiedlich gestaltet werden. Bei dynamischen Druckmikrofonen wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt und durch akustische Reibung bedämpft. Zusammen mit der Wirkung
4.2 Mikrofone
185
weiterer Resonatoren von Hohlräumen in der Mikrofonkapsel kann damit die Bewegungsgeschwindigkeit der Membran zum Schalldruck proportional gemacht werden. Dynamische Druckgradientenmi kro fone hingegen erfahren eine mit der Frequenz ansteigende Krafteinwirkung; eine mit der Frequenz zunehmende Dämpfung würde die Ausgangsspannung zu gering werden lassen. Also wird die Membran tief abgestimmt; die Membranresonanz verstärkt die Bewegung im tiefen Bereich und nimmt mit der Frequenz ab, wieder entsteht eine frequenzunabhängige Ausgangsspannung. Für die Praxis bedeutet die tiefe Membranabstimmung, dass Körperschall - Trittschall und Reibgeräusche - und Windgeräusche die Aufnahme erheblich mehr stören als bei höher abgestimmten Membranen; dies gilt vor allem für Bändchenmikrofone. In dieser Hinsicht sind Kondensatormikrofone nach dem Druckempfängerprinzip allen anderen Mikrofonen überlegen; nur diese Mikrofone haben eine hoch abgestimmte Membran. Tab. 4/6 fasst die Membranabstimmung bei den verschiedenen Mikrofonprinzipien zusammen (siehe auch Kap. 4.2.1.8).
Tab. 4/6. Resonanzabstimmung der Membran bei Mikrofonen.
Lage der Membranresonanz im Übertragungsbereich Störungen durch Trittschall, Wind- und Poppgeräusche
Kondensatormikrofone
dynamische Mikrofone
Kugel
Niere, Acht
Kugel
Niere, Acht
am oberen Ende
in der Mitte
in der Mitte
am unteren Ende
gering
mittelmäßig
hoch, sehr hoch beim Bändchenmikrofon
4.2.3.1 Tauchspulmikrofon Am Beispiel eines Tauchspulmikrofons mit Kugelcharakteristik nach dem Druckempfängerprinzip zeigt Abb. 4/36 die Wirkungsweise des dynamischen Mikrofons. An der Membran ist eine Spule befestigt, welche in den Luftspalt eines Topfmagneten eintaucht; dieser besteht aus einem Dauermagneten und einem Topf aus magnetisch leitendem Material (äußere Polplatte) und dem Kernpolschuh. Die Spule ist ohne Körper gewickelt und erhält ihre mechanische Steifigkeit dadurch, dass ihre einzelnen Windungen miteinander verklebt sind. Sie ist meist so bemessen, dass ihre Impedanz bei 1 kHz 200 Ω beträgt. Die Größe der Signalspannung dieses Mikrofons ist abhängig von der magnetischen Induktion, von der Dimensionierung der Spule und von der Geschwindigkeit, mit der die Spule im Magnetfeld bewegt wird. Die beiden erstgenannten Größen werden durch die Konstruktion festgelegt. Um eine frequenzunabhängige Signalspannung zu erhalten, sind besondere konstruktive Maßnahmen erforderlich: Die Geschwindigkeit einer Membran ohne Masse und damit die Signalspannung würde mit der Frequenz ansteigen. Durch die Masse der Membran einschließlich der mitschwingenden Spule wird die Geschwindigkeit bedämpft. Der Einfluss dieser Dämpfung ist so stark, dass die Membrangeschwindigkeit mit steigender Frequenz abnimmt und sogar durch Resonanzen wieder angehoben werden muss. Deshalb wird die Membranresonanz in die Mitte des Übertra-
186
4 Mikrofone und Lautsprecher
gungsbereichs gelegt. Als weitere Resonatoren werden verwendet: das Luftvolumen zwischen dem stets integrierten Windschutzkorb und der Membran, das Luftvolumen zwischen Membran und Magnet, der Innenraum des Topfmagneten und der Innenraum des Gehäuses. Durch die Bemessung der Öffnungen und Kanäle, welche die Resonatoren miteinander verbinden, und durch dämpfende Filzscheiben z. B. werden diese aufeinander abgestimmt.
Abb. 4/36. Tauchspulmikrofon nach dem Druckempfängerprinzip.
Tauchspulmikrofone wurden aber hauptsächlich als Richtmikrofone entwickelt. Sie unterscheiden sich von den ungerichteten Tauchspulmikrofonen durch die tiefe Abstimmung der Membranresonanz und durch die Ausbildung des hinteren Kapselabschlusses als Laufzeitglied. Die Forderung nach tiefer Abstimmung der Membranresonanz ergibt sich daraus, dass die Antriebskraft des Druckgradienten mit fallender Frequenz abnimmt; zum Ausgleich verstärkt die Eigenresonanz der Membran die Bewegungsgeschwindigkeit. Die Membran sollte deshalb auf die tiefste zu übertragende Frequenz abgestimmt sein, was praktisch erhebliche Probleme mit sich bringt, da einerseits die Körperschall- und Windempfindlichkeit sehr groß wird, andererseits die Führung der Spule bei zu weicher Aufhängung nicht präzise genug ist. Deshalb wird die Membranresonanz etwas höher gelegt und die Antriebskraft dadurch gesteigert, dass für tieffrequenten Schall Schalleinlässe mit größerer Verzögerung angebracht werden; akustische Filterelemente sorgen dafür, dass die Verlängerung des Laufzeitglieds nur für tiefe Frequenzen wirksam wird. Dieses Prinzip heißt Variable Distance-Prinzip. Eine konsequente Weiterentwicklung des Variable Distance-Prinzips führt zum ZweiwegTauchspulmikrofon, bei dem, ähnlich wie bei Lautsprecherboxen, für den tieffrequenten und höherfrequenten Schall je ein eigenes Empfänger- und Wandlersystem zugeordnet ist, deren Laufzeitglieder viel besser auf den jeweils zu übertragenden Frequenzbereich abgestimmt werden können. Ein Vorteil dieser Technik ist auch, dass der Nahbesprechungseffekt praktisch unterdrückt wird.
4.2 Mikrofone
187
Magnetische Störfelder, die von Netztransformatoren, Trenntransformatoren oder Motoren kommen können, induzieren in die Spule des Tauchspulmikrofons Störspannungen. Um solche Störungen zu unterdrücken, ist nahe bei der Schwingspule eine feste Kompensationsspule untergebracht, die – mit der Schwingspule in Reihe geschaltet, aber entgegengesetzt gewickelt – magnetische Störfelder kompensiert. kro fone baut auf jahrzehntelanger Erfahrung und EntDie Technologie dieser Mi wicklung; der mechanische Aufbau ist kompliziert, aber ausgereift. Tauchspulmikrofone können sowohl in preiswerter Massenfertigung als auch mit hohem Qualitätsstandard hergestellt werden. 4.2.3.2 Bändchenmikrofon Die Membran des Bändchenmikrofons, eben ein Metallbändchen, ist gleichzeitig der elek trische Leiter, der im Magnetfeld eines starken Permanentmagneten bewegt wird. Eine 2 bis 3 μm dickes und 3 bis 4 mm breites Aluminiumbändchen von etwa 4 cm Länge mit vielen Querfalten ist lose zwischen den Magnetpolen aufgehängt (Abb. 4/37). Seine Eigenfrequenz liegt dabei am unteren Ende des Übertragungsbereichs. Diese Maßnahme und die Masse des Bändchens bewirken die Unabhängigkeit seiner Geschwindigkeit und damit der Ausgangsspannung von der zu übertragenden Frequenz. Die Impedanz dieses Mikrofons wird durch den Widerstand des Bändchens gebildet und beträgt ca. 0,1 Ω. Ein im Mikrofongehäuse untergebrachter Übertrager erhöht die Impedanz auf meist 200 Ω, damit wird gleichzeitig die Ausgangsspannung erhöht. Bändchenmikrofone sind wie Tauchspulmikrofone als Druckgradienten- oder Druckempfänger konstruierbar. Wegen der sehr geringen Masse des Bändchens und seiner weichen Aufhängung zeigt das Mikrofon ein sehr gutes Impulsverhalten. Der Frequenzgang ist vom Prinzip her weitgehend linear, auch in seiner Feinstruktur. Typisch ist eine mehr oder weniger deutliche Höhenanhebung, verursacht durch die Hohlraumresonanz des Topfmagneten. Wegen der tiefen Membranabstimmung sind Bändchenmikrofone gegen Wind-, Popp- und Trittschall sehr empfindlich. Bändchenmikrofone wurden in der Anfangszeit des deutschen Rundfunks ab 1924 verwendet, bis 1931 das von Neumann erfundene Kondensatormikrofon eingeführt wurde. Vor allem aber in den USA blieb das „Bändchen“ das Standardmikrofon bis in die fünfziger Jahre. So sind die meisten der berühmten Bigband-Aufnahmen der 1940er und 1950er Jahre mit Bändchenmikrofonen von RCA entstanden. Ähnlich wie Mikrofone mit Röhren gehört das Bändchenmikrofon zu den Mikrofonen, die nicht wegen messtechnisch optimaler Eigenschaften geschätzt werden, sondern wegen ihres besonderen Klangs. So wird dem Bändchen besondere Klangtransparenz bei weichen Höhen nachgesagt; der Höhenabfall beginnt schon unter 10 kHz. Die geringe Ausgangsspannung des Bändchens führt zu erhöhtem Rauschen, weshalb das Mikrofon vor allem für Aufnahmen im Nahbereich oder für laute Schallquellen, eben z. B. bei einer Big band, geeignet ist. Bändchenmikrofone (ribbon mic) werden vor dem Hintergrund langer Zeit der Entwicklung und Erfahrung noch heute gefertigt und haben wie z. B. Röhrenmikrofone ihren Kreis von Liebhabern.
188
4 Mikrofone und Lautsprecher
Abb. 4/37. Prinzip des Bändchenmikrofons.
4.2.4 Spezialmikrofone Neben den beschriebenen Mi kro fonen gibt es einige Spezialmi kro fone mit besonderen Eigenschaften für besondere Einsatzsituationen, das Sound-Field-Mikrofon wurde bereits als Stereomikrofon beschrieben:
–– das Kardioidebenenmikrofon mit einer speziellen Richtcharakteristik (Kap. 4.2.4.1), –– das Grenzflächenmikrofon als Kugelmikrofon mit speziellen Klangeigenschaften (Kap. 4.2.4.2), –– Großmembranmikrofone und Röhrenmikrofone (Kap. 4.2.4.3), –– Ansteckmikrofone (Kap. 4.2.4.4), –– Kontaktmikrofone (Kap. 4.2.4.5), –– Sound-Field-Mikrofon, außer als Stereomikrofon ein äußerst flexibles Monomikro fon (Kap. 4.2.2.7), –– Kunstkopf-Mikrofon (Kap. 4.2.4.6).
4.2.4.1 Kardioidebenenmikrofon Das Arbeitsprinzip des Richtrohrmikrofons, nämlich die phasen- bzw. zeitverschobene Aufnahme schräg auftreffenden Schalls zur Erzielung einer stark eingeengten Richtwirkung zu nutzen (siehe Kap. 4.2.1.7), wird beim Kardioidebenenmikrofon, kurz auch KEM, nur für von oben und unten eintreffenden Schall umgesetzt. Es entsteht dabei eine Richtcharakteristik, die in der horizontalen Ebene eine Niere darstellt, in der vertikalen Ebene aber eine Keule. Das Mikrofon nimmt also Schall aus einem waagrechten Raumsegment auf, blendet aber Schall von oben und unten stark aus. Realisiert wird diese Richtcharakteristik durch ein sog. Linearray; mehrere Mi kro fone sind auf einer vertikalen Linie übereinander angeordnet. Ihre Signale werden in einem Zusatzgerät verzögert, im Pegel geregelt und addiert. Das KEM ist als feststehendes Rednermi krofon speziell für den Deutschen Bundestag entwickelt worden, wo es sich hervorragend
4.2 Mikrofone
189
bewährt und sozusagen eine öffentliche Präsenz erhalten hat. Es gibt dem Redner seitliche Bewegungsfreiheit ohne Änderungen der Klangfarbe bei gleichzeitig guter Diffusschallausblendung (Abb. 4/38). Andererseits ist durch die scharfe Bündelung in der horizontalen Ebene eine Anpassung des Rednerpults an die Körpergröße des Redners erforderlich; eine Bündelung in der vertikalen Ebene würde die Bewegungsfreiheit des Redners zur Seite hin einschränken, sich aber für jede Körpergröße eignen. Vorteilhaft kann das Mikrofon in denjenigen kritischen Aufnahmesituationen eingesetzt werden, in denen eine breite oder sich bewegende Schallquelle bei maximaler Ausblendung von Schall aus anderen Richtungen aufgenommen werden soll. Neben dem Einsatz am Rednerpult hat es sich bewährt z. B. als Tischmikrofon bei einem oder mehreren Sprechern, als Bühnenrandmikrofon bei gleichzeitiger Beschallung, bei Fernsehproduktionen sowie als Stützmikrofon etwa für den Chor oder eine Instrumentengruppe bei Musikaufnahmen.
Abb. 4/38. Richtcharakteristiken des Kardioidebenenmikrofons.
Eine Weiterentwicklung des Kardioidebenenmikrofons behebt die nachlassende Bündelung bei tiefen Frequenzen und erhöht damit seine Eignung bei Musikaufnahmen. Denn im Gegensatz zu Sprachaufnahmen, wo eine generelle Bassabsenkung ratsam ist, soll hier der Bassbereich nicht bedämpft werden. Erreicht wird die über den gesamten Frequenzbereich nahezu konstante Bündelung durch eine zusätzliche sog. Delta-Mikrofonkapsel hinter dem Lineararray, mit der die Bündelung bei den Tiefen erhöht wird. Die Delta-Kapsel ist für den Einsatz bei Sprachaufnahmen abnehmbar. 4.2.4.2 Grenzflächenmikrofon Das Grenzflächenmikrofon – auch PZM (Pressure Zone Microphone, geschützter Handelsname des Herstellers Crown) oder BLM (Boundary Layer Microphone) genannt – nutzt die besonderen akustischen Bedingungen, die an einer den Schall reflektierenden Grenzfläche herrschen. An oder ganz dicht vor reflektierenden Flächen haben alle Schallwellen, sowohl die des Direktschalls als auch die von ersten Reflexionen und Diffusschall, Druckbäuche, also den maximalen Druck der Schallwelle, und damit einen doppelten Schalldruck oder um 6 dB erhöhten Schallpegel. Aus dieser Tatsache und aus der Ausstattung dieser Mikro fone mit einer kleinen Membran, schließlich aus der Bauweise als Kondensator-Druckemp-
190
4 Mikrofone und Lautsprecher
fänger ergeben sich die besonderen Eigenschaften der Grenzflächenmikrofone. Ihre Richtdiagramme sind weitgehend frequenzunabhängig halbkugelförmig, sowohl für Direkt- als auch für Diffusschall. Bei den ersten Konstruktionen wurde das Mikrofon in geringem Abstand auf die Grenzfläche gerichtet. Durchgesetzt hat sich dann aber eine Konstruktion, bei der das Mikrofon quasi Teil der Grenzfläche selbst ist. Mehr oder weniger flach konstruiert, wird es einfach auf den Boden gelegt oder an einer Wand befestigt. Druckbäuche an Grenzflächen kommen nur dann zustande, wenn die Schallwelle reflektiert wird; dafür muss die Auflagefläche schallhart sein und die Ausdehnung der reflektierenden Fläche muss mindestens die halbe Wellenlänge des reflektierten Schalls besitzen (Tab. 4/7). Die Einbauplatten der Mikrofone sind im Allgemeinen für Frequenzen über 1 kHz ausreichend. Für tiefere Frequenzen muss die Reflexionsfläche dadurch vergrößert werden, dass das Mikrofon auf eine größere Fläche, z. B. auf den Boden, gelegt wird. Unterhalb der in Tab. 4/7 angegebenen Grenzfrequenz liefert das Mikrofon 6 dB Pegel weniger. Auf die Reflexionswirkung der Fläche hat ihre mechanische Oberflächenstruktur Einfluss; je akustisch härter die Oberfläche ist, umso geradliniger ist der Frequenzgang des Mikrofons. Gängige Fußbodenbeläge außer Teppichen und Wandoberflächen dürften im Allgemeinen für Grenzflächenmikrofone geeignet sein, da im kritischen Frequenzbereich über 1 kHz die Einbauplatte des Mikrofons ausreichend reflektiert. Tab. 4/7. Mindestausdehnung der Grenzfläche bei Grenzflächenmikrofonen. untere Grenzfrequenz
notwendiger Durchmesser der Grenzfläche ca.
30 Hz 50 Hz 100 Hz 200 Hz 500 Hz 1.000 Hz
5 m 3 m 1,50 m 0,75 m 0,30 m 0,15 m
Da die Kanten und die Dicke der Einbauplatte das Schallfeld stören, muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen möglichst breiten Frequenzbereich verteilt werden. Aus diesem Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. Auf Grund ihrer Richtcharakteristik einer Halbkugel eignen sich Grenzflächenmikrofone vor allem für Laufzeitstereofonie. Aus dem praktischen Umgang haben sich größere Basisbreiten als bei der AB‑Mikrofontechnik üblich ist, als günstig erwiesen, also das sog. GroßAB-Verfahren (siehe Kap. 5.3.3.2). Die Raumabbildung und die räumliche Durchsichtigkeit dieser Mikrofone sind beeindruckend; sie zeigen ihre Vorteile deshalb bevorzugt in akustisch guten Räumen. Da sie auf Grund der Aufnahmetechnik in Laufzeitstereofonie in größerem Abstand von den Schallquellen aufgelegt werden, eignen sie sich vorwiegend für Aufnahmen
4.2 Mikrofone
191
klassischer Musik. Dabei sind auch unkonventionelle Mikrofonorte, z. B. bei Orgelaufnahmen, zu erwägen. Als Druckempfänger sind Grenzflächenmikrofone wenig empfindlich für Körperschallund Windgeräusche. Trittschall stört deshalb auch bei der Auflage des Mikrofons auf dem Boden meist nicht. Grenzflächenmikrofone auf dem Boden werden leicht übersehen, deshalb haben die Mikrofone trittstabile Schutzkörbe. Zusammenfassend hat das Mikrofon also die folgenden, besonderen Eigenschaften: –– Störabstand: die Verdopplung des Schalldrucks an einer Grenzfläche und damit die Erhöhung der Empfindlichkeit um 6 dB ergibt theoretisch einen vergrößerten Störpegelabstand, der sich bei den Mikrofondaten mit etwa 3 dB niederschlägt. Die Empfindlichkeit für Körperschall ist sehr gering. –– Richtcharakteristik: sie ist für Freifeld- und Diffusschall halbkugelförmig und in idealer Weise frequenzunabhängig, kein anderes Mikrofon hat eine solche Richtcharakteristik. –– Klangfarbe: Direkt- und Diffusschall haben keine unterschiedlichen Klangfarben, was bei üblichen Druckempfängern unvermeidlich ist. –– Aufnahme bewegter Schallquellen: wegen der gleichen Klangfarben von Direkt- und Diffusschall stören Bewegungen von Schallquellen nicht oder wenig, das Mikrofon ist also besonders geeignet bei Aufnahmen im Sprechtheater oder bei Diskussionsrunden mit sich bewegenden Sprechern, vorausgesetzt, der Raum ist dabei nicht zu hallig; ein sich abwendender Gesprächsteilnehmer z. B. erfährt keine starke Klangfarbenänderung durch wechselnde Anteile von Direkt- und Diffusschall. Das Mikrofon wurde zunächst auch als Konferenzmikrofon entwickelt. –– Keine Kammfiltereffekte: die insbesondere bei Stützmikrofonen durch Reflexionen am Fußboden oder bei Tischmikrofonen durch Reflexionen an der Tischoberfläche bzw. am Sprechertisch entstehen, können bei Grenzflächenmikrofonen nicht auftreten. –– Praktischer Einsatz: bei Publikumsveranstaltungen ist die Betriebssicherheit u. U. nicht gegeben, da das Mikrofon, sofern es auf dem Boden liegt, leicht übersehen wird. Vor einer erhöhten Bühne ist das Mikrofon nicht einsetzbar, auf der Bühne fehlt meist der Platz, Wände für eine Platzierung sind als Aufnahmeort meist ungeeignet. 4.2.4.3 Großmembran- und Röhrenmikrofon Kondensatormikrofone sind mit Membranen unterschiedlicher Größe auf dem Markt. Bei Kleinmembranmikrofonen oder einfach Kleinmikrofonen beträgt ihr Durchmesser 12 bis 17 mm, bei Großmembranmikrofonen 28 bis 34 mm. Großmembranmikrofone – oft in sogar historischer Schaltungstechnik der Jahre 1930 bis 1960 mit Elektronenröhren – genießen Ansehen und häufige Verwendung in Verbindung mit einem Poppschirm bei Studioaufnahmen der Singstimme und Einzelinstrumente, nicht jedoch als Hauptmikrofone. Es wird ihnen eine auffällige Präsenz, eingebettet in ein warmes, voluminöses Klangbild, nachgesagt. Neben dem Bestand historischer Mikrofone, sog. vintages, sind Nachfolgemodelle, sog. Retro-Mikrofone, auch mit modernster Technik, weiter in Herstellung und Entwicklung. Der subjektiven Wertschätzung stehen akustische Daten gegenüber, die keinesfalls optimal sind: Bässe werden grundsätzlich durch große Membranen nicht besser aufgenommen, die Richtcharakteristik ist deutlich frequenzabhängig, weil das Mikrofon wegen seiner
192
4 Mikrofone und Lautsprecher
Größe das Schallfeld verändert. Bei tiefen Frequenzen nehmen diese Mikrofone Kugelcharakteristik an, sie nehmen mehr Diffusschall auf, was die Wärme und das Klangvolumen erklären könnte, in den Höhen setzt die Richtwirkung und die durch die Reflexion des Schalls an der Membran bedingte Höhenanhebung früher ein als bei Kleinmikrofonen, was die besondere Präsenz erklären kann. Im Übrigen gibt es für Kleinmikrofone auch aufschiebbare Kugeln, die diesen Mikrofonen einige der Eigenschaften von Großmembranmikrofonen geben. Diese Einwände jedoch sind wenig bedeutend bei Aufnahmen von Gesang im Nahbereich bei statischen Aufnahmesituationen im Studio. Auch die optische Wirkung dieses beeindruckend großen Mikrofons ist durchaus nicht zu unterschätzen. Meist erhält das Mikrofon noch einen Poppschirm gegen den Poppschall der Sänger, was auch noch zu einer auffälligen Optik beiträgt. Die elektrischen Schaltungen des Impedanzwandlers wurden bis 1960 als Röhrenschaltungen realisiert, denen man ähnliche Eigenschaften wie der Großmembran nachsagt. Bei dieser Technologie gibt es vermehrt nichtlineare Verzerrungen mit steigendem Pegel, verursacht durch eine nicht ganz gerade Kennlinie der Verstärkung. Bei der Stimme und z. B. Trompete erhöht dies durch Hinzufügen harmonischer Obertöne die Präsenz, auch entsteht eine geringe Kompressionswirkung, die die Instrumente „druckvoller“ macht. Betrachtet man Großmembranmikrofone und Röhrentechnologie als Mittel der Klanggestaltung, dann haben beide auch in der modernen Tonstudiotechnik ihren Platz und ihre Daseinsberechtigung. 4.2.4.4 Lavalier-Mikrofon Sprecher, die während ihres Vortrags sich oder ihre Hände frei bewegen wollen, werden vorteilhaft mit sog. Lavalier-Mikrofonen ausgestattet, ein Lavalier ist ein veralteter Ausdruck für einen ein Schmuckanhänger. Diese Mikrofone – zumeist Druckempfänger, da diese wegen der hoch abgestimmten, also sehr straff gespannten Membran gegen Reibgeräusche unempfindlicher sind – werden mit einer um den Hals gehenden Schnur oder durch eine Klammer an der Kleidung befestigt und vor der Brust getragen. Ihr Wandlersystem ist gegen Körperschall-Übertragung durch das Gehäuse geschützt. Einige Lavalier-Mikrofone weisen entsprechend ihrer besonderen Verwendung einen speziellen Frequenzgang auf. Das Übertragungsmaß steigt zu hohen Frequenzen hin um 8 bis 10 dB an, weil der Mund die höherfrequenten Schallanteile vorzugsweise in Sprechrichtung und weniger stark zur Brust hin abstrahlt. Außerdem zeigt sich bei männlichen Sprechern bei 700 Hz, bei weiblichen bei etwa 800 Hz, eine resonanzartige Überhöhung im Frequenzgang, die durch vom Brustkorb abgestrahlten Schall zustande kommt (Abb. 2/7) und bei einigen Lavalier-Mikrofonen akustisch oder elektrisch entzerrt wird (Abb. 4/39). Ob ein Mikrofon eine spezielle Lavalier-Entzerrung besitzt oder nicht, kann nicht aus seiner Typenbezeichnung als Ansteck- oder Lavalier-Mi krofon geschlossen werden. Nach Lavalier entzerrte Mikrofone sind nur entsprechend ihrer Zweckbestimmung verwendbar. Optimale Bewegungsfreiheit hat der Vortragende, wenn das Mikrofonsignal drahtlos über einen Taschensender weitergeleitet wird. Lavalier-Mikrofone können als Kondensatormikrofone oder als dynamische Mikrofone ausgeführt sein, im professionellen Bereich wird die Ausführung als hochwertiges Kondensatormikrofon bevorzugt.
4.2 Mikrofone
193
Abb. 4/39. Frequenzgang der Entzerrung des Lavalier-Mikrofons.
Eine weitere Variante eines Nahfeldmikrofons ist das Ohr- oder Nackenbügel-Mikrofon, das mit einem Ohrbügel fixiert, seitlich neben dem Mund positioniert wird und sehr gute Klangqualität bietet; in dieser Position werden auch die gefürchteten Übersteuerungen durch Popplaute vermieden. Für Moderatoren von Radiosendungen empfehlen sich Headsets, eine Kombination von zumeist Elektretmikrofonen mit Ohrbügel und Kopfhörern. Sie garantieren insbesondere einen definierten, auch bei Bewegungen unveränderten Mikro fonabstand, erreichen aber nicht die Klangqualität der Studiomikrofone. 4.2.4.5 Kontaktmikrofon Kontakt- oder Körperschallmikrofone nehmen nur die Schwingungen von schwingenden Festkörpern ab, z. B. Musikinstrumenten, aber keine Luftschwingungen. In der Studiotechnik haben sich Kontaktmikrofone nur bedingt durchsetzen können. Einer der Gründe hierfür ist, dass der Körperschall der Instrumente andere Eigenschaften hat als der abgestrahlte Luftschall, dass die Instrumente also ungewohnt klingen. Sie arbeiten nach dem elektrostatischen Wandlerprinzip mit Elektretsystemen, die als flexible Bänder auf Resonanzflächen aufgeklebt werden, oder nach dem piezoelektrischen Prinzip. Körperschallmikrofone werden bei Bass und Gitarre bevorzugt eingesetzt. Für Aufnahmen beim Fernsehen können sie dann vorteilhaft sein, wenn Mikrofone im Bild nicht sichtbar sein sollen. Vorteilhaft sind sie besonders aber bei schwierigen Beschallungssituationen, da Rückkopplungen ausgeschlossen sind. Hauptsächlich finden diese Schallwandler jedoch als Schwingungsaufnehmer bei der Materialprüfung Anwendung. 4.2.4.6 Kunstkopf-Mikrofon Ein interessanter und wichtiger Spezialfall der zweikanaligen Aufnahmeverfahren stellt die sog. kopfbezogene Stereofonie dar, auch als Kunstkopf-Aufnahmeverfahren bekannt (siehe hierzu ausführlich Kap. 5.5.5.1). Im Prinzip handelt es sich um die verzerrungsfreie Übertragung und Reproduktion von den Schallsignalen an den menschlichen Trommelfellen [Platte, 1975]. Mikrofonsysteme, die die Bedingungen beim natürlichen Hören nachahmen,
194
4 Mikrofone und Lautsprecher
wurden bereits in der Frühzeit der Tonaufnahme entwickelt und seit den 1930er Jahren auch patentiert. Mit dem Hörspiel „Demolition“, einer Gemeinschaftsproduktion von RIAS, WDR und BR nach einem Science-Fiction-Roman von Alfred Bester wurde das Interesse in den 1970er Jahren wieder auf diese Technik gelenkt. Eine wichtige Fähigkeit des menschlichen Hörsystems besteht darin, Unterschiede der Informationen zu verarbeiten, die vom linken und rechten Ohr bereitgestellt werden. Diese binaurale Signalverarbeitung ist die Grundlage für das räumliche Hören, also für die Lokalisierung, Schallquellenauswahl und für die Mustererkennung. Auf Grund des räumlichen Abstands der beiden Ohren entstehen richtungs- und entfernungsabhängig unterschiedliche interaurale Laufzeit- bzw. Phasenbeziehungen. Die Ohrkanaleingänge liegen unsymmetrisch im Cavum Conchae, der trichterförmigen Vertiefung innerhalb der Ohrmuschel; dieses liegt ebenfalls unsymmetrisch innerhalb der Ohrmuschel, diese wiederum liegt unsymmetrisch nach hinten und unten versetzt am Kopf. Diese mehrfachen Asymmetrien der äußeren Geometrie erzeugen auf Grund der Überlagerungen der Schallwellen, verursacht durch Beugungen und Reflexionen, für alle Schalleinfallsrichtungen unterschiedliche Übertragungsfunktionen oder HRTF (Head Related Transfer Function). Daher sind diese für alle Schalleinfallsrichtungen unterschiedlich und ermöglichen so, obwohl nur zwei Empfänger vorhanden sind, dem menschlichen Gehör das dreidimensionale, räumliche Hören. Die von der menschlichen Anatomie vorgegebene Geometrie erzeugt die sog. Außenohrübertragungsfunktion, dargestellt in Abb. 4/40.
Abb. 4/40. Modell zur Beschreibung der Entstehung der Außenohrübertragungsfunktion des Gehörs [Genuit, 1984].
Die Außenübertragungsfunktionen entstehen durch die Überlagerung von direkt einfallenden Schallwellen sowie deren Reflexionen und Beugungen an Ohrmuschel, Kopf, Schulter und Oberkörper, und den akustischen Resonanzen, erzeugt von den Hohlräumen des Cavum Conchae und des Ohrkanals. Die Außenohrübertragungsfunktion ist komplex und abhängig vom Einfallswinkel und im geringen Maß für Distanzen unter 3 m von der Entfernung. Sie wird für Direktschall bestimmt und heißt daher Freifeld-Außenohr-Übertragungsfunktion. Den Betrag von typischen Übertragungsfunktionen beim Menschen gemessen im Ohrkanaleingang für die vier Hauptschalleinfallsrichtungen zeigt Abb. 4/41.
4.2 Mikrofone
195
Abb. 4/41. Betrag der Übertragungsfunktion des Außenohres für Schalleinfall von vorne 1. seitlich zugewandt, 2. hinten, 3. und seitlich abgewandt, 4. gemessen am menschlichen Ohr im Ohrkanaleingang [Genuit, 1984].
Grundsätzlich existieren drei unterschiedliche Arten von Kunstkopfsystemen: –– Systeme für Messungen der akustischen Übertragungseigenschaften von ohrnahen Schallquellen, –– Systeme als Stereomikrofon zur authentischen Tonaufnahme z. B. von Musik, –– Systeme für Messungen der Geräuschqualität von Umweltgeräuschen, von technischen Einrichtungen und der Gestaltung des Sound-Design von Produkten. Als erstes erfolgte 1971 die Vorstellung des KEMAR-Kunstkopfs der Firma Knowles Electronics. Dieses System besaß eine mechanische Nachbildung der Trommelfellimpedanz; das Einsatzgebiet fokussierte sich auf die Messung der Übertragungseigenschaften von ohrnahen Schallquellen, z. B. Hörgeräten, Kopfhörern und mobilen Telefonen; hierbei ist die Wechselwirkung zwischen der Ausgangsimpedanz der Quelle und der Belastungsimpedanz durch Ohrkanal und Trommelfell zu berücksichtigen. Für dieses Spezialfall werden spezielle Kunstkopfmesssysteme mit Ohrkanal und einer Nachbildung der Trommelfellimpedanz verwendet. Im Jahr 1975 stellte die Firma Neumann den ersten kommerziell erhältlichen Kunstkopf KU 80 speziell für den Einsatz für Tonaufnahmen vor der basierend auf den Untersuchungen
196
4 Mikrofone und Lautsprecher
von Kürer, Plenge und Wilkens [Kürer, 1969] entwickelt wurde. Diese Autoren verfolgten noch den Ansatz, die Mikrofonsignale an der Stelle aufzunehmen, wo beim Menschen das Trommelfell liegt. Das bedeutete aber eine zweifache Durchquerung − bei der Aufnahme wie auch bei der Wiedergabe − der Ohrmuschel und des Ohrkanals mit ihren aufgrund der Geometrie bedingten frequenzabhängigen Pegeländerungen. Zusätzlich verursachte die Ankopplung eines Studiomikrofons mit 20 mm Durchmesser an die Ohrkanalnachbildung mit einem Durchmesser von 10 mm eine akustische Tiefpasswirkung oberhalb von 5 kHz. Deshalb wies der KU 80 klangliche Einschränkungen auf, die einer Verbreiterung des Kunstkopfverfahrens im Studiobereich entgegenstanden. In der Wissenschaft hielt sich lange die Annahme, für eine korrekte räumliche und klangliche Abbildung der akustischen Originalsituation bei Wiedergabe über Kopfhörer sei eine genaue Nachbildung der menschlichen Trommelfellimpedanz erforderlich, deren messtechnische Bestimmung wie auch deren Nachbildung nicht einfach ist [Hudde, 1980]. Für ein Kunstkopf-Aufnahmesystem, das nicht für die Bestimmung der Übertragungseigenschaften von ohrnahen Schallquellen eingesetzt werden soll, sondern für die Aufnahme einer akustischen Umwelt, zeigten erste experimentelle Untersuchungen eine Unabhängigkeit der Richtcharakteristik des Kunstkopfmikrofons, die sog. monaurale Übertragungsfunktion, von den Übertragungseigenschaften des Ohrkanals und dem Abschluss mit der Trommelfellimpedanz. Die Freifeldübertragungsfunktion eines Ohrs in Abhängigkeit der Schalleinfallsrichtung ändert sich zwar durch die Eigenschaften des Ohrkanals und dessen Abschluss mit einer Trommelfellimpedanz; bei Bezug der Außenohrübertragungsfunktionen im Freifeld in Abhängigkeit der Schalleinfallsrichtungen auf die Referenzbeschallung von vorne entsteht aber eine monaurale Richtcharakteristik, die unabhängig von Ohrkanal und dessen akustischen Abschluss, dem Trommelfell, ist. Somit konnte ein Kunstkopfaufnahmesystem ohne Nachbildung des Ohrkanals und des Trommelfells konstruiert werden, das aber nicht zur Bestimmung von ohrnahen Schallquellen geeignet ist, 1981 entstand das erste Kunstkopf-Messsystem mit zum menschlichen Gehör vergleichbaren Eigenschaften hinsichtlich Richtcharakteristik, Frequenzübertragungsbereich und Dynamik, das zusätzlich für den Einsatz in der akustischen Messtechnik freifeldentzerrt und kalibrierfähig war [Genuit, 1982]. Der Einsatz erfolgt vornehmlich zur Erfassung und Analyse im Bereich Geräuschqualität und Sound Design. Schallereignisse werden originalgetreu aufgezeichnet und über Kopfhörer beurteilt. So sind einerseits leicht gehörmäßige Vergleiche von verschiedenen Produkten oder die akustischen Auswirkungen von Modifikationen an Produkten möglich. Andererseits lassen sich mithilfe der Signalverarbeitung einzelne Komponenten im Zeit- oder Frequenzbereich manipulieren, um zu erkennen, wie ein gewünschter Sound zu erzielen ist. Das Einsatzgebiet dieser verbesserten Kunstkopfmesstechnik fokussierte sich zunächst auf den Automobilbereich, bald aber auch auf die Bestimmung der Geräuschqualität von Büro- und Haushaltsgeräten. Inzwischen ist die Anwendung ebenso in der Raum- und Bauakustik sowie zur Erfassung der akustischen Umweltbelastung etabliert. Der internationale Standard [ISO 12913] erfordert normativ den Einsatz der binauralen Messtechnik. Natürlich ließ sich dieses Kunstkopfmesssystem auch hervorragend im Studiobereich einsetzen. Anfang der 1980er Jahre führte Neumann das Nachfolgeprodukt KU 81 mit Diffusfeldentzerrung [Theile, 1094] und später den KU 100 mit weiter verbesserten technischen
4.2 Mikrofone
197
Eigenschaften ein. Mit diesem verbesserten Kunstkopf etablierte sich für die Verwendung von Kunstkopfmi kro fonen eine weitere Entzerrungsart: die Diffusfeld-Entzerrung (DF) neben der bislang in der Messtechnik verwendeten Freifeld-Entzerrung (FF). Wenig später kam noch eine weitere Entzerrungsart hinzu [Genuit, 1987]: die richtungsneutrale Entzerrung (ID) (Independent on Direction). Freifeld-Entzerrung bedeutet, der Kunstkopf liefert bei frontalem Schalleinfall von vorne im Freifeld in 3 m Entfernung ein frequenzunabhängiges konstantes Übertragungsmaß vergleichbar mit einem Messmikrofon. Die Freifeld-Entzerrung ist damit sehr genau definiert sowie reproduzierbar und ist damit Grundlage für akustische Messvorschriften. Bei der Diffusfeld-Entzerrung trifft der Schall aus allen Richtungen für alle Frequenzen mit gleichen Pegeln auf das Messobjekt, also ein frequenzunabhängiges kon stantes Übertragungsmaß, vergleichbar zu typischen Studiomikrofonen. Bei der ID-Entzerrung werden nur die richtungsunabhängigen Resonanzen innerhalb der Außenohrübertragungsfunktion entzerrt, im Wesentlichen sind das die Eigenschaften des Ohrkanals und der Cavum Conchae-Höhle. Eine Gegenüberstellung der drei Entzerrungsarten zeigt Abb. 4/42.
Abb. 4/42. Betragsverlauf der Entzerrungsfilter für einen Kunstkopf, 1. Freifeld, Schalleinfall nur von vorne (FF), 2. Diffusfeld, gleichmäßige Beschallung aus allen Richtungen (DF), 3. richtungsneutral, nur Berücksichtigung der Resonanzen (ID).
Alle drei Entzerrungsarten beinhalten die Korrektur des Einflusses durch die Resonanzen von Cavum Conchae und Ohrkanal. Insbesondere die Cavum Conchae-Resonanz mit ca. 15 dB Pegelerhöhung war bei der ersten Kunstkopfgeneration verantwortlich für die deutlich wahrnehmbaren Klangfärbungen, sie werden aber durch alle drei Entzerrungsarten eliminiert, von daher sind die verbleibenden Unterschiede von untergeordneter Bedeutung. Normalerweise werden Kunstkopfaufnahmen über Kopfhörer abgehört. Solange dann bei Aufnahme und Wiedergabe kompatible Entzerrungen eingesetzt, ist die Auswahl derselben irrelevant. Aber es gilt
198
4 Mikrofone und Lautsprecher
auch die Kreuzkompatibilitäten [Theile, 1985] zu berücksichtigen: wie klingt eine Kunstkopfaufnahme bei Wiedergabe über Lautsprecher, wie klingen konventionelle Produktionen über Kopfhörer und wo ergeben sich im Vergleich zu einem Messmikrofon die geringsten Abweichungen, wenn die Kunstkopfsignale nicht nur zum Abhören Verwendung finden, sondern auch zur messtechnischen Analyse wie Schalldruckpegel und psychoakustischen Größen? In der Praxis liegen selten ein reines Freifeld oder Diffusfeld vor. Von daher sind Kompromisse erforderlich. In der Messtechnik hat sich einerseits auf Grund der bestehenden Messvorschriften die Freifeldentzerrung etabliert, bei Messungen, die nicht nach Vorschriften konform ablaufen müssen, die ID-Entzerrung. Im Studiobereich dagegen findet die Diffusfeld-Entzerrung Verwendung. Der diffusfeldentzerrte Kunstkopf als binaurales Aufnahmeverfahren und zusammen mit dem diffusfeldentzerrten Kopfhörer als authentisches Hörerlebnis einer klangeinhüllenden Wiedergabe, einem Immersive Sound, wird in Kap. 5.5.5.1 behandelt. Die Eigenschaft der gehörrichtigen Übertragung von Schallereignissen, bei der Wiedergabe originalgetreue Hörereignisse zu gewährleisten, kann auch von Nachteil sein, wenn die akustische Ausgangssituation nicht optimal ist. Das Zusammenschneiden von Kunstkopfaufnahmen ist deutlich kritischer, da das Gehör geringe Änderungen der akustischen Umwelt wahrnimmt. Bei Musikproduktionen besteht in der Regel der Wunsch, einzelne In strumente hervorzuheben. Studiomikrofone können einer Kunstkopfaufnahme gehörrichtig zugemischt werden [Gierlich, 1989], wenn die Signale von einzelnen Quellen winkel- und entfernungskorrekt mit Filterung der Außenohrübertragungsfunktion versehen werden. Inzwischen ist die virtuelle Auralisierung sehr weit fortgeschritten [Vorländer, 2021], eine beliebige Anzahl von Quellen in Verbindung mit den klanglichen Eigenschaften von Räumen können auch ohne Kunstkopfmikrofon zu einer binauralen Aufnahme kombiniert und komponiert werden. Eine besondere Form der binauralen Aufnahmesysteme sind Ohrkanalmikrofone. Dabei erfolgt die Aufnahme des Schalls mit Miniatur-Mikrofonen im Ohrkanal einer Person. Diese Systeme sind deutlich kostengünstiger und bieten vor allem den Vorteil, an Orten Aufnahmen durchführen zu können, an denen kein Kunstkopf platziert werden kann, z. B. auf dem Fahrersitz eines Kraftfahrzeugs im Verkehr. Auch sind solche Ohrmikrofone unauffällig einsetzbar. Nachteilig sind die in der Regel schlechteren technischen Eigenschaften sowie die fehlende korrekte Entzerrung. Zusätzlich darf die Person mit Ohrkanalmikrofon keine Bewegungen und eigene Geräusche ausführen. Die Wiedergabe von binauralen Signalen erfolgt idealerweise über Kopfhörer, um die eindeutige Zuordnung von linken und rechten Mikrofonsignalen zum linken und rechten Ohr der abhörenden Person zu ermöglichen. Grundsätzlich gibt es einige Parameter, die die perfekte Wiedergabe einschränken: –– Die individuellen Geometrien des Außenohrs sind unterschiedlich und daher mehr oder weniger abweichend zu der Richtcharakteristik des Kunstkopfs. –– Die Kopfhörerübertragungseigenschaften an den Ohren der abhörenden Personen sind ebenfalls individuell unterschiedlich. –– Die technischen Übertragungseigenschaften von unterschiedlichen Kopfhörern variieren sehr stark, hier lässt sich nur mit einer vorgeschalteten Entzerrungseinheit eine vergleichbare, standardisierte und pegelrichtige Wiedergabe gewährleisten, die optional auch eine Individualanpassung zulässt.
4.2 Mikrofone
199
–– Die fehlende Kopfdrehbewegungen erschweren insbesondere die Vorne-Lokalisation, bei der Wiedergabe erzeugen Kopfdrehungen eine Irritation, da sich das gesamte akustische Umfeld sich mitbewegt. Die Wiedergabe über Lautsprecher ist auf Grund der Entzerrung des Kunstkopf-Mikrofons ohne klangliche Einbußen möglich, da jedoch beide Ohren von beiden Lautsprechern beschallt werden, ist die räumliche Klangabbildung nicht vergleichbar zur Kopfhörerwiedergabe. Mit Hilfe von speziellen Kompensationsverfahren, die das Übersprechen verringern, lässt sich eine Verbesserung des räumlichen Abbildes erzielen, allerdings mit der Einschränkung auf eine fixierte Abhörposition. Eine akzeptable Lautsprecherwiedergabe von binauralen Signalen wird auch mit einer vier Lautsprecherwiedergabe erzielt, wobei vor wie auch hinter den abhörenden Personen jeweils zwei stereofone Lautsprecherpaare installiert werden. Eine zusammenfassende Übersicht zur Kunstkopftechnik wurde in einer Mitteilung des Normenausschusses „Psychoakustische Messtechnik“ veröffentlicht [Fedke, 2007].
4.2.5 Mikrofonständer Für die Aufstellung der Mikrofone stehen für jede denkbare Aufnahmesituation geeignete Ständer zur Verfügung (Abb. 4/43); bei ihrem Einsatz ist darauf zu achten, dass Trittschall nicht übertragen wird, d. h., der senkrechte Trägerstab soll niemals auf dem Boden aufstehen. Bei starkem Trittschall empfiehlt sich die Verwendung von Mikrofonspinnen oder mit Gummibändern gefederte Mikrofonhalter.
Abb. 4/43. Verschiedene Mikrofonständer: 1. Mikrofonwinde, 2. Mikrofonboom, 3. Stativ, 4. Tischstativ, 5. Mikrofonangel.
200
4 Mikrofone und Lautsprecher
4 .3 Einrichtungen für drahtlose Mikrofone Oftmals sind Kabelverbindungen zum Mikrofon eine unerwünschte Einschränkung der Aufnahmesituation, besonders bei bewegten Schallquellen wie agierenden Sängern, Schauspielern oder Moderatoren. Drahtlose Mikrofone oder Funkmikrofone gewährleisten die Mobilität der Agierenden auf und hinter der Bühne, im Studio oder bei Außenaufnahmen. Zur Sprachübertragung werden kabellose Mikrofonverbindungen in Kongress- und Seminarräumen benutzt. Die Empfänger für die drahtlosen Mikrofonsignale sind mobil, sie können z. B. in Videokameras oder, am Körper getragen, für sog. In Ear-Monitoring eingesetzt werden. Drahtlose Mikrofone werden auch für die Abnahme von Musikinstrumenten eingesetzt. Sie dürfen Kabelverbindungen qualitativ nicht oder nur unwesentlich unterlegen sein; gefordert wird deshalb bei sehr hoher Übertragungssicherheit in Echtzeit ein Frequenzumfang der Übertragung bis 20 kHz Audiobandbreite und ein Dynamikumfang von 100 dB. Für die Erfüllung dieser Anforderungen sind die Rahmenbedingungen entscheidend. Das Funkfeld wird von einer komplexen Vielfalt verschiedenster Funkdienste parallel genutzt; bei großen Bühnenereignissen können Hunderte von Funkübertragungsfrequenzen belegt sein. Neben den regulär genutzten Frequenzen muss die große Vielzahl ungewollter Störstrahlung beachtet werden; die Hochfrequenzstörleistung von Lichtsteuereffekten z. B. kann die Strahlungsleistung der drahtlosen Mikrofone übertreffen. Die verwendeten Übertragungsfrequenzen müssen dann auf weniger gestörte Bereiche ausweichen. Es hat sich in der Praxis bewährt, die Systeme grundsätzlich redundant zu planen, um bei unerwartet auftretenden Herausforderungen über Reserven zu verfügen, das betrifft vor allem die Anzahl nutzbarer Kanäle und die Feldstärken an den Empfangsantennen. Ein besonderes Merkmal der Funkmikrofontechnik sind die ständigen Veränderungen der Übertragungsbedingungen, wenn bei der Aufnahme oder Übertragung die Mikrofone nicht ortsfest sind. Feldstärkeschwankungen und gegenseitige Beeinflussung der Sender verlangen eine hoher Betriebssicherheit entsprechende Technik und von den Beteiligten Erfahrung. Im Folgenden wird der Weg des Audiosignals durch die Übertragungskette vom Sender über die Antenne, die Wellenausbreitung und den Empfänger dargestellt, es werden praktische Hinweise zur Vermeidung häufiger Fehler gegeben [Arasin, 2012]. Neben Funkmikrofonsystemen in analoger Technik, deren Übertragung im Prinzip wie der analoge UKW-Funk arbeitet und im Folgenden beschrieben wird (Kap. 4.3.1 ff.), wurde eine digitale Übertragungstechnik entwickelt, die die analoge Technik ersetzen und große Vorteile in der Handhabung und Flexibilität bietet (Kap. 4.3.4). Die digitalen Systeme arbeiten mit unkomprimierter digitaler Signalübertragung und bieten störungsfreien Klang sowie große Dynamik. Dank besonders steilflankiger Filter lassen sich dabei die einzelnen Funkfrequenzen im verfügbaren Frequenzband sehr viel enger anordnen als bisher, ohne die Gefahr von Intermodulation.
4.3 Einrichtungen für drahtloseMikrof
201
4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 4.3.1.1 Sender Für die drahtlose Übertragung von Mikrofonsignalen gibt es drei Varianten batteriegetriebener Sender: –– Handsender, die im Mikrofonschaft untergebracht sind, –– Taschensender, die meist mit einem Clip am Gürtel befestigt werden (Bodypack, Beltpack) und über Kabel mit 3,5 mm-Klinken-, Mikrodot-, Mini-XLR- oder LEMO-Stecker mit dem Mikrofon verbunden sind, –– Aufstecksender (Plug On) mit XLR-Buchse und 48 V-Phantomspeisung, die in Verbindung mit jedem analogen Mikrofon betrieben werden können. Die Betriebssicherheit und Studioqualität erfordern –– klangliche Neutralität, –– störsichere Hochfrequenzeigenschaften bei Einhaltung der Zulassungsvorschriften, –– mechanische Stabilität der Sender und der Steckverbindungen, –– ein Stromversorgungskonzept, das die Geräteleistung konstant hält, –– rechnergestützte Kontrolle aller Parameter.
Abb. 4/44. Blockschaltbild eines Taschensenders mit prozessorgesteuerter PLL (Phase-Locked Loop, Taktsynchronisation), Gleichspannungswandler und Infrarotdatenschnittstelle.
Das Blockschaltbild eines Senders zeigt Abb. 4/44. Das Mikrofonsignal wird im Vorverstärker des Senders verstärkt und angepasst sowie zwei Maßnahmen unterzogen, die das Rauschen vermindernden: einer Dynamikkompression durch einen Kompander (Abb. 4/45) und einer Preemphasis. Die Preemphasis hebt wie beim UKW-Rundfunk den Frequenzbereich oberhalb
202
4 Mikrofone und Lautsprecher
von ca. 2 kHz um 6 dB/Oktave an. Damit wird der bei ansteigender Frequenz sich verringernde Rauschabstand kompensiert, weil Musik und Sprache mit zunehmender Frequenz im Pegel abnehmen.
Abb. 4/45. Kompandersystem des Senders und Empfängers.
Abb. 4/46. Preemphasis des Signalfrequenzgangs im Sender und Deemphasis im Empfänger um 6 dB/Oktave zur Rauschverminderung bei hohen Frequenzen.
Die international ähnlichen Einschränkungen der belegten HF-Bandbreite durch die Telekommunikationsbehörden erfordern für die Übertragung zusätzlich eine Kompression der Dynamik. Meistens wird die Eingangsdynamik des Audiosignals um den Faktor 2 komprimiert; ein Signal mit einem Pegel von z. B. 40 dB unter Vollaussteuerung komprimiert der Kompressor also auf 20 dB unter Vollaussteuerung (Abb. 4/46). Im Empfänger wird die kom-
4.3 Einrichtungen für drahtloseMikrof
203
primierte Dynamik dann wieder um den Faktor 2 expandiert, so dass am Empfängerausgang der ursprüngliche Pegel zur Verfügung steht. Ohne dieses Kompandersystem aus Kompressor und Expander kann Studioqualität im Rahmen der Beschränkungen der Zulassungsbehörden nicht erreicht werden. Das durch die Preemphasis linear verzerrte und komprimierte Signal wird in Frequenzmodulation (FM) einer Hochfrequenzträgerschwingung aufgeprägt und von der Senderantenne allseitig ins Funkfeld abgestrahlt. Der Rauschabstand des Übertragungssystems kann statisch bis 120 dB betragen. In der Praxis muss eine Aussteuerungsreserve vorgesehen werden, die Werte verbleiben deshalb meistens im Bereich von 70 bis 90 dB. Akustische Nebengeräusche auf der Bühne oder im Studio, z. B. durch Lüfter, Nebelmaschinen oder das Publikum, bestimmen meist den Geräuschpegelabstand in größerem Maße. Funkmikrofone werden überwiegend im UHF-Bereich von 470 bis 2.480 MHz betrieben. Eine eigene, freie Frequenz ist grundlegende Voraussetzung für ungestörten Betrieb. Zwischen zwei Übertragungsfrequenzen ist ein sog. Selektionsabstand von ca. 400 kHz einzuhalten. Der Sender arbeitet wie der UKW-Rundfunk mit Frequenzmodulation (FM). Die Trägerfrequenz von z. B. 700 MHz wird durch ein Audiosignal ständig nach höheren und niedrigeren Frequenzen um die Mittenfrequenz verschoben. Der Änderungsbetrag, der sog. Hub der Funkfrequenz, übermittelt den Signalpegel, also die Lautstärke. Die Geschwindigkeit der Frequenzänderungen repräsentiert den Schwingungsverlauf des Audiosignals (Abb. 4/47).
Abb. 4/47. Frequenzverhältnisse bei der HF-Übertragung.
Ohne Audiosignal bleibt der Hochfrequenzträger konstant auf seiner Frequenz, es liegt am Empfängerausgang kein Signal an. Die belegte Hochfrequenzbandbreite, der Hub,
204
4 Mikrofone und Lautsprecher
nimmt mit der Lautstärke zu. Die Regulierungsbehörde, in Deutschland die Bundesnetzagentur (BNetzA), legt die maximal zulässige belegte HF-Bandbreite fest, nicht den maximalen Hub. Bei voller Aussteuerung darf maximal nur ± 50 kHz um die Mittenfrequenz moduliert werden. Die BNetzA zertifiziert alle für den Betrieb zugelassenen Sender. Der Bedarf an HF-Bandbreite ist näherungsweise der maximale Hub plus die doppelte Audiobandbreite. Ein Funkmikrofon belegt mit z. B. ± 50 kHz Frequenzhub und 2 mal 20 kHz Audiobandbreite, also 50 + 50 + 2 · 20 = 140 kHz HF-Bandbreite. Ein Funkmikrofon darf nach in Europa harmonisierten Regeln maximal 200 kHz HFBandbreite belegen. An den Grenzen des Bands muss das Funksignal bereits um 60 dB abgefallen sein, also auf 1/1.000 seiner maximalen Leistung. Die diesbezüglichen Vorschriften werden herausgegeben vom Europäischen Institut für Telekommunikationsnormen ETSI in Sophia Antipolis in Frankreich (European Telecommunications Standards Institute) und in Deutschland von der Bundesnetzagentur (BNetzA) überwacht. Die sog. ETSI-Maske definiert das Fenster, in dessen Rahmen das Sendersignal im HF-Spektrum auch bei Vollaussteuerung bleiben muss (Abb. 4/48). Übersteuerungen müssen unterdrückt werden durch einen „harten“ Limiter (Peak Limiter) ab 48 kHz Hub. Der Limiter ist Pflicht für jeden Sender mit dem CE-Zeichen und verhindert wirksam, dass er übermoduliert und damit zu viel Bandbreite im HF-Spektrum belegt.
Abb. 4/48. ETSI-Maske EN 300 zur Definition des HF-Übertragungskanals, fc = Trägerfrequenz (transmitter carrier frequency) = 800 MHz, B = belegte Bandbreite = 200 kHz.
Die einzustellende Vorverstärkung im Sender soll einerseits eine Übersteuerung, andererseits eine Untersteuerung, d. h., eine verrauschte Übertragung, verhindern. Der mittlere Pegel ist deshalb auf ca. 20 dB unter Vollaussteuerung einzustellen. Signale mit hohem Obertonanteil wie Applaus, Becken, Schellenring, Schlüsselbundklirren u. ä. sollten noch vorsichtiger ver-
4.3 Einrichtungen für drahtloseMikrof
205
stärkt werden, weil die Preemphasis die hohen Frequenzen überproportional anhebt und abgeschnittene Pegelspitzen durch den harten Limitereinsatz zu hörbaren Verzerrungen führen. Funkmikrofonsender arbeiten mit HF-Leistungen zwischen 10 und 100 mW. Die abgegebene Leistung wird mit EIRP (Effective Isotropic Radiated Power) bezeichnet, das ist die Leistung, die von einer hypothetischen isotropen Antenne, einer allseitig strahlenden Antenne, ausgestrahlt werden müsste, um dasselbe Signalniveau in Richtung der maximalen Strahlung der jeweiligen Antenne zu erhalten. Die tatsächlich ins Funkfeld abgegebene Leistung liegt jedoch darunter, weil durch den körpernahen Einsatz die Antenne undefiniert verstimmt wird und Strahlungsenergie im Körper in Wärme umgewandelt wird. Dabei können Verluste von 3 bis 20 dB entstehen, also von 50 bis 99 % der HF-Leistung. Hohe Dämpfungen haben selbstverständlich großen Einfluss auf die Reichweite und die Übertragungssicherheit. Ein größerer Abstand zum Körper reduziert die Antennenverstimmung und begünstigt die Abstrahlung erheblich. Schädigungen am menschlichen Körper durch die HF-Einstrahlung sind nicht beobachtet worden; die absorbierten Leistungen liegen deutlich unter den empfohlenen Grenzwerten des Bundesamtes für Strahlenschutz. Mehrere Sender, die eng benachbart zum Einsatz kommen, beeinflussen sich gegenseitig, indem die HF-Felder über die Sendeantennen auf die Endstufen einwirken und dabei neue, unerwünschte Sendefrequenzen erzeugen. Dieser physikalisch bedingte Vorgang wird Intermodulation, abgekürzt IM, genannt und lässt sich auf Grund der dynamischen Feldstärkesituation bei bewegten Verhältnissen z. B. auf der Bühne nicht immer vermeiden. Auch Sender mit einem hohen Intermodulationsabstand, abgekürzt IMA, können betroffen sein. Die möglicherweise auftretenden Störfrequenzen werden per Software vorausberechnet. Besonders kritisch sind die Intermodulationsprodukte dritter Ordnung, weil hier große Störpegel mit doppeltem Hub und Frequenzverdopplung auftreten. Vermeidet man in mehrkanaligen Funkmikrofonsystemen diese Frequenzen mit ausreichendem Sicherheitsabstand, ist die Anlage intermodulationsfrei. Intermodulationsprodukte höherer Ordnung sind im Pegel schwächer und spielen meist eine untergeordnete Rolle. Alle Hersteller haben sog. Frequenzbänke in den Empfängern gespeichert, deren Konfiguration sicheren, intermodulationsfreien Betrieb sicherstellt. Wesentliche Voraussetzung für eine sichere Übertragung ist eine Sichtverbindung zwischen Sende- und Empfangsantenne. Unter guten Bedingungen ist ein Betrieb bis mehrere km Entfernung möglich. Die Sendeantenne hat einen Wirkungsgrad von bis zu 70 %. Bei Hand- und Taschensendern reduziert die Nähe zum Körper grundsätzlich die abgestrahlte HF-Leistung. Die Antenne wird verstimmt, ihr Wirkungsgrad lässt nach, und die abgestrahlte HF-Leistung wird oft zum großen Teil im Körper absorbiert. Zusätzlich werden die Funkwellen auf ihrem Weg zur Empfangsantenne situationsabhängig durch den Körper abgeschattet. Die Sendeleistung kann so u. U. bis 20 dB zurückgehen. Der tatsächlich erreichte Wert wird mit ERP (Effective Radiated Power) bezeichnet. und kann im ungünstigsten Fall zu sehr geringen Reichweiten von im Einzelfall nur 10 m führen. Zusammenfassend gelten die folgenden Faustregeln für die Praxis, damit ist auch ein gleichzeitiger Betrieb mit 100 oder mehr Funkmikrofonen zuverlässig durchführbar: –– Sendeantennen nicht berühren, –– einen Mindestabstand von ca. 5 mm zwischen Haut und Sendeantenne vorsehen, –– ein Mindestabstand von ca. 4 m zu den Empfangsantennen einhalten, damit einzelne Trägerfrequenzen nicht zu stark einfallen.
206
4 Mikrofone und Lautsprecher
4.3.1.2 Frequenzzuteilung Die Bundesnetzagentur (BNetzA) als staatliche Behörde teilt den verschiedenen Nutzergruppen von Funkdiensten bestimmte Frequenzbänder zu. Sie definiert die technischen Parameter von Sendern in Verwaltungsvorschriften. Dazu müssen sowohl eine große Zahl von verschiedenen Nutzergruppen und Diensten auf nationaler Ebene koordiniert als auch internationale Vereinbarungen berücksichtigt werden. Die Bereitstellung von funkübermittelten Internetdiensten in ländlichen Gebieten erforderte eine Neuzuteilung von Funkfrequenzen auch für Funkmikrofone und In-Ear-Monitoring (IEM). Die früher von Funkmikrofonen hauptsächlich genutzten Frequenzbänder zwischen 790 bis 814 MHz und 838 bis 862 MHz sind seit dem 3. 3. 2010 für die Nutzung des drahtlosen breitbandigen Internets freigegeben, für Funkmikrofone stehen sie also nicht mehr zur Verfügung. Für Funkmikrofone werden deshalb andere Frequenzbänder im UHF-Bereich bereitgestellt. Für den professionellen Einsatz bei Funkmikrofonen im gewerblichen und fachmännisch ausgebildeten Einsatz sind verschiedene Frequenzbänder reserviert. Sie werden nur auf Antrag und gegen Gebühr bei gegebener Möglichkeit von der BNetzA befristet zugeteilt. Der Einsatz umfasst professionelle Veranstaltungen wie Theater- und Opernaufführungen, Konzerte und sonstige Einsätze in der Veranstaltungstechnik, den öffentlich-rechtlichen Rundfunk, private Rundfunkprogrammanbieter und Programmproduzenten. Generell muss je nach Ausbaugrad der Nutzung durch das drahtlose Internet mit Störungen gerechnet werden. In den Bereichen 470 – 608 MHz und 614 – 694 MHz ist eine Allgemeinzuteilung von Funkfrequenzen anmeldefrei. Da die Funkfelder der Internetdienste diejenigen der Funkmi krofone an Stärke übertreffen können, ist ein Parallelbetrieb nicht sicher bzw. nur im Einzelfall möglich. Funkmikrofone müssen ggf. auf ungestörte Frequenzen ausweichen. Drahtlose
4.3 Einrichtungen für drahtloseMikrof
207
Mikrofone genießen keinerlei Schutz vor Beeinflussungen gegenüber gleichberechtigten Anwendern im gleichen Einsatzgebiet. Die verschiedenen Betreiber müssen den Einsatz der Mikrofone untereinander selbst koordinieren. Zur Wahl des Frequenzbereichs für die verschiedenen Geräteklassen stehen im Internet aktuelle und umfassende Informationen bereit, die in einem dynamischen Geschehen ständig aktuell gehalten werden, zuerst zu nennen sind die Zuteilungen der Bundesnetzagentur, aber auch die Informationen der Firmen, die entsprechende Geräte vertreiben. Abb. 4/49 und Tab. 4/8 geben einen Überblick über die aktuelle Nutzung (2022) der Frequenzbänder. Tab. 4/8. Frequenzbereiche für Funkmikrofone über 10 mW. Frequenzbereich
EIRP
Allgemeinzuteilung Nr.
befristet bis
174 - 230 MHz 470 - 608 MHz 614 - 694 MHz 823 - 826 MHz
50 mW 50 mW
59/2015 34/2020 anmeldefrei 2/2015
31.12.2025 31.12.2030 31.12.2025
3/2015
31.12.2025
826 – 832 MHz 1785 - 1805 MHz
Handgerät 82 mW Handgerät am Körper getragen 100 mW 100 mW 82 mW
Die Verwendung der Frequenzen in allen Bereichen der Medien, Prozesssteuerungen, der Kommunikation im Allgemeinen ist dynamischen Interessen und Ansprüchen an immer mehr Frequenzbereichen unterworfen, primär durch die Mobilfunkindustrie. Alle Anwender von
Abb. 4/49. Frequenzbereiche für drahtlose Übertragung, Funkmikrofone sind mit dem Symbol „Mikrofon“ gekennzeichnet, VvnömL: Verwaltungsvorschriften für Frequenzzuteilungen im nichtöffentlichen mobilen Landfunk, Stand 6/2022.
208
4 Mikrofone und Lautsprecher
drahtlosen Mikrofonen sind auf freie Frequenzen angewiesen und haben deshalb Organisationen gegründet, um ihre Bedürfnisse den politischen Entscheidungsträgern deutlich zu machen; wichtige Informationen werden von der „Association of Professional Wireless Production Technologies e. V.“ (APWPT) bereitgestellt, hier sind auch die zugelassenen Frequenzen für die wichtigsten Länder weltweit aufgeführt.
4.3.1.3 Stromversorgung In den Sendern werden vielfach zwei Alkaline-Mignon-Batterien in Reihenschaltung verwendet. In geladenem Zustand liefern sie zusammen eine Spannung von 3 bis 3,5 V. Die erforderliche Betriebsspannung von 6 V wird durch einen Spannungswandler erzeugt, der sie unabhängig vom Entladezustand der Batterien stabil hält. So bleiben die wichtigen technischen Daten wie Aussteuerungsbereich, Geräuschspannungsabstand und abgestrahlte Leistung über die gesamte Betriebszeit der Batterien konstant. Der Spannungswandler nutzt den Energievorrat der Batterien optimal aus. Er schaltet sich ab, wenn die Spannung unter ca. 2,2 V, also unter 1,1 V Spannung pro Batterie, der sog. Zellenspannung, abfällt. Typische Betriebszeiten mit einem Batteriesatz sind 6 bis 12 Stunden. Überzogene Stromsparkonzepte, d. h., Sender mit sehr langen Betriebszeiten, bergen die Gefahr von Instabilitäten in kritischen HFSituationen, wenn z. B. mehrere Sender einander sehr nahekommen. Eine Alternative ist der Einsatz von Akkus, im Routineeinsatz sind sie betriebssicherer als Batterien. Ein neuer Akku braucht einige Lade-Entlade-Zyklen, bis er seine volle Leistung erbringt. Danach hält er über ca. 500 Zyklen konstant seine Leistung, bei sorgfältiger Behandlung kann man mit Li-Ionen-Akkus über 800 Zyklen erreichen. Im Laufe weiterer Perioden von Ladung und Entladung verliert ein Akkupack dann allmählich an Kapazität, ab 500 Zyklen rechnet man noch mit einem verbliebenen Energieinhalt von etwa 80 %. Die Langlebigkeit der Akkus wird durch sorgfältigen Umgang erhöht. Im Alltagsbetrieb hat sich bewährt, dass ein Team möglichst immer mit demselben Satz von Funkmikrofonen bzw. Akkus arbeitet; der Ladezustand ist hierbei an den Rhythmus der Einsätze gekoppelt, eine schädliche Überladung findet nur selten statt. Wird ein Drahtlos-Set dagegen von häufig wechselnden Teams benutzt, führt das erfahrungsgemäß zu einem schnellen Verschleiß der Akkus durch häufiges Überladen aus Unsicherheit über den Ladezustand. Digital arbeitende Sender verbrauchen deutlich mehr Leistung und sollten mit leistungsstarken Akkus betrieben werden. Optimal gepflegt werden Akkus durch Schnell-Ladegeräte, die mit Pulsen schonend laden und per Zustandserkennung rechtzeitig die Pulsabstände auf Erhaltungsladung reduzieren. Aber auch mit moderner Ladetechnik kann man überladen, wenn man volle Akkus immer wieder aus Unsicherheit über den Ladezustand nachlädt. Dabei entstehen Kerntemperaturen über 45 °C , die den Akku deutlich schneller altern lassen. 4.3.1.4 Antennen und Wellenausbreitung Antennen sind Anpassglieder zwischen dem Hochfrequenzkabel und dem umgebenden Raum. Es sind zumeist Dipole, elektrisch leitfähige Gebilde in räumlicher Ausdehnung mit zwei freien Enden in den unterschiedlichsten Ausführungsformen. Der Abstand der freien
4.3 Einrichtungen für drahtloseMikrof
209
Enden oder Pole steht stets in Beziehung zur Wellenlänge der zu übertragenden Hochfrequenz, z. B. 1/4 der Wellenlänge, mit λ/4-Antenne bezeichnet. Aus der Lichtgeschwindigkeit c = 299.792.458 m/s und der Frequenz f von z. B. 800 MHz = 800.000.000 Hz errechnet sich dieser Abstand gerundet: λ = c/f = 300.000.000//800.000.000 = 3/8 m = 37,5 cm. Eine λ/4Antenne hat also eine Länge von knapp 10 cm. Für eine genaue Betrachtung müssten weitere Parameter beachtet werden. Die Antennen von Taschensendern haben nur ein Ende, sie scheinen nur einen Pol zu haben. Der zweite Pol wird hier durch das Metallgehäuse des Senders dargestellt, was auch als Gegengewicht bezeichnet wird. Funkmikrofone haben stets abgestimmte Sendeantennen für einen bestimmten Frequenzbereich, angepasst für ein Fenster von ca. ± 2 % der Mittenfrequenz. Eine Taschensenderantenne für z. B. 800 MHz erbringt demnach in einer Bandbreite von 40 MHz, also von 780 bis 820 MHz ihre volle Leistung. Größere Schaltbandbreiten, damit sind die durchstimmbaren Frequenzbereiche gemeint, von 90 MHz und mehr erfordern spezielle Antennenformen, z. B. mit einigen cm Durchmesser oder Wechselkonzepte. An den Bereichsgrenzen fällt die Leistung mit zunehmender Entfernung von der Mittenfrequenz allmählich ab. Falsch abgestimmte Sendeantennen können die zur Verfügung stehende Leistung nicht voll in den Raum abstrahlen. Die HF wird hier ohne Vorzugsrichtung abgestrahlt und breitet sich mit ca. 300 m/μs aus. Allgegenwärtig sind Dämpfungen und Reflektionen der ausgestrahlten Signale, sie sollten das Funkfeld nicht um mehr als ca. 80 dB dämpfen. Der Sender erzeugt ca. 1 V Spannung, davon müssen mindestens noch etwa 100 μV am Empfängereingang ankommen, um im Betrieb noch Reserven bei weiterer Signalschwächung zu haben. Die Feldstärkeanzeige am Empfänger endet oft bei 100 μV bzw. 40 dBμV. Der Vollausschlag sollte im Normalfall überwiegen. Die unmittelbare Umgebung der Sendeantenne hat umfassenden Einfluss bei der körpernahen Abstrahlung und den einwirkenden Verlusten durch Verstimmung, Absorption und Abschattung. Das Auffinden guter Positionen für Taschensender am Körper und Empfängerantennen – stets möglichst mit Sichtverbindung − ist wichtig für die Betriebssicherheit. Ausreichende HF-Pegel bei den Proben können während der Veranstaltung durch zusätzliche Absorptionseffekte durch das Publikums zusätzlich abnehmen. Reichweitentests unter betrieblich schlechten, aber realistischen Bedingungen, z. B. mit von der Hand abgedeckten Sendeantennen, sind im Probebetrieb unerlässlich. Bei großen Veranstaltungen mit 30 Funkmikrofonen und mehr werden die Auftrittsbereiche mit mehreren voll eingeschalteten Sendern abgeschritten, um drop outs zu erkennen und auszuschließen. Den Empfangsantennen kommt eine ebenso große Bedeutung zu. Aufsteckantennen, die direkt über BNC-Stecker an den Eingang des Empfängers angeschlossen werden, sind im Allgemeinen abgesetzten Antennen auf höher gelegenen Standorten unterlegen, weil die Sichtverbindung zu den Sendern fehlt und möglicherweise ein höheres Störstrahlungspotential vorliegt. Richtantennen haben mit ihrer Vorzugsrichtung meist einen Gewinn von ca. 10 dB gegenüber Rundstrahlern und ca. 10 dB Dämpfung für rückwärtig einfallende Signale. Diese Eigenschaft kann zum Abschwächen von Störquellen bei entsprechender Ausrichtung von Vorteil sein. Besonders hohe Sicherheit vermitteln sog. zirkular polarisierte Richtantennen für die Aussendung der Signale beim In-Ear-Monitoring. Antennenverstärker oder Booster kompensieren die Dämpfung von langen HF-Leitungen und von Verteilernetzwerken.
210
4 Mikrofone und Lautsprecher
Die Wellenausbreitung im Frequenzbereich von 470 bis 1.805 MHz ist für körpernahe Sender die beste Wahl; die Funkfelddämpfung nimmt mit steigender Frequenz zu, die Reflektionsfreudigkeit an metallischen Strukturen ebenso. Bei Außenübertragungen sind die unteren Frequenzen wegen oft fehlender reflektierender Flächen um 500 MHz vorteilhaft, in Hallen haben die höheren Frequenzbereiche trotz höherer Funkfelddämpfung wegen stärkerer Reflektionen kaum Nachteile. Abschattungseffekte und die Absorption von Funkwellen im Körper steigen ebenso mit zunehmender Frequenz. Diese machen sich ab ca. 1.000 MHz deutlicher bemerkbar. 4.3.1.5 Empfänger Die HF-Eingangssignale am Empfänger sind großen Schwankungen unterworfen, wenn der Sender bewegt wird. 5 μV ist der kleinste Wert, der einen noch brauchbaren Störpegelabstand liefert, bei geringerer Spannung schaltet meist eine Rauschsperre – Squelch genannt – den NF-Ausgang ab (Mute). Nach oben findet man Werte bis 0,15 V entsprechend 150.000 μV, die bei zu geringem räumlichem Abstand zwischen Sender- und Empfangsantenne auftreten können, wobei das Risiko für Intermodulationsstörungen im Vielkanalbetrieb erhöht wird, besonders wenn gleichzeitig andere Empfänger des Systems mit geringen Pegeln arbeiten müssen. Die Übertragungssicherheit wächst, wenn extreme Werte vermieden werden. Die Antennenstandorte sind stets so zu wählen, dass kein Akteur sich ihnen weniger als ca. 4 m nähern kann. Der menschliche Körper verursacht ca. 20 dB Durchdringungsdämpfung, deshalb sollten Antennen möglichst ausreichend hoch angebracht werden, um eine sog. „Radiosicht“ zu ermöglichen. Im Mittel soll der Bereich von ca. 100 bis 2.000 μV Eingangsspannung nicht verlassen werden. Bei Vielkanalbetrieb sind große Unterschiede zwischen den empfangenen Pegeln die Hauptursache für Intermodulationsstörungen. Den täglichen Routineanforderungen auf der Bühne im Studio oder in der Außenübertragung werden Geräte mit hohem Intermodulationsabstand am besten gerecht. Werte ab 60 dB sind im professionellen Einsatz akzeptabel, hochwertige Empfänger erreichen ca. 86 dB. Der elektromagnetischen Verträglichkeit (EMV) kommt eine ständig wachsende Bedeutung zu. Auf der Bühne, im Studio oder an beliebigen Orten der Außenübertragung trifft der Anwender auf eine hohe Zahl digital arbeitender Hochfrequenzquellen mit starken Störsignalen, die sich besonders in den Empfängern der Funkmikrofone bemerkbar machen können. DVB-T, DVB-H, Fernsehsignalgemische und Lichtwände, die aus Millionen getakteter LEDs mit breitbandigen Störspektren bestehen, erfordern sorgfältige Vorbereitung auf den Einsatz. Optimal sind fachkundige Messungen der HF-Situation während der Planung. Intermodulationsstörungen Intermodulationsstörungen treten auf, wenn gleichzeitig mehrere Sender-Empfänger-Systeme betrieben werden, auch wenn diese im Einzelbetrieb störungsfrei arbeiten. Es können Zwitscher- und Pfeifgeräusche, auch Aussetzer entstehen, die unerklärlich erscheinen. Die Störungen entstehen dadurch, dass die Signale von Sender I auch von Sender II empfangen und gemischt werden. Da die Signalverstärker nicht ideal linear arbeiten und die Filter nicht unendlich steile Flanken haben, kommt es zu Mischprodukten aus den Frequenzen der beteiligten Systeme; es entstehen sog. Intermodulationsverzerrungen (siehe Kap. 9.2.2).
4.3 Einrichtungen für drahtloseMikrof
211
Dabei entstehen bei zwei Systemen mit den Frequenzen f1 und f2 neue Komponenten mit den Frequenzen m · f1 ± n · f2 mit m und n = 1, 2, 3… Während f1 ± f2 z. B. mit 501 MHz ± 500 MHz = 1.001 MHz bzw. 1 MHz ergibt und damit Signale mit Frequenzen, die weitab liegen und nicht stören, ergeben z. B. die Signale mit 2 · 500 MHz - 1 · 501 MHz = 499 MHz ein neues Signal, das dicht bei den Signalen f1 und f2 liegt und damit Störungen, die sog. Intermodulationsstörungen 3. Ordnung, entstehen lässt. Eine zusätzliche Frequenz von 501 MHz entsteht aus 2 · 501 MHz – 500 MHz = 502 MHz. Kommen weitere Systeme hinzu, entstehen immer mehr neue Frequenzen und damit Störungen. Aus diesem Grund ist es ratsam, bei Mehrkanal-Setups die von den Herstellern vorprogrammierten Frequenz-Presets zu benutzen. Diese sind so berechnet. dass intermodulationsfreie Kombinationen zur Verfügung stehen. Müssen aus irgendeinem Grund die Frequenzen doch manuell gesetzt werden, hilft es, zunächst an den Rändern der zur Verfügung stehenden Frequenzbänder zu beginnen und sich nach innen vorzuarbeiten. Diese Maßnahme lässt die Intermodulationen zunächst in der Mitte des Bandes auftauchen. Des Weiteren sollte man immer wiederkehrende, gleiche Frequenzabstände, wie beispielsweise 600, 601, 602, 603 MHz, vermeiden. Sicherheit bietet aber nur eine fachgerechte Berechnung oder die Nutzung der voreingestellten Presets. Hersteller von Funkmikrofonen stellen die dafür notwendige Software als kostenlosen Kundensupport im Internet zur Verfügung. 4.3.1.6 Diversity-Empfang Elektromagnetische Wellen erreichen die Empfangsantennen vielfach auf unterschiedlich langen Wegen mit allen möglichen Phasendifferenzen, denn außer dem direkten Weg erreichen sie die Empfangsantenne auch auf Umwegen über Reflexionen an metallischen Oberflächen. Die sich so überlagernden Reflexionen lassen an der Empfangsantenne durch gegenphasig eintreffende Signale auch Auslöschungen entstehen. Das häufig verwendete True Diversity-Verfahren kann diese Störungen beheben. Dabei werden zwei gleich aufgebaute Empfänger mit jeweils eigenen Antennen in räumlichem Abstand ständig hinsichtlich der HF-Eingangsspannung verglichen. Ein schneller Schalter wechselt bis ca. 1.000-mal pro Sekunde unhörbar zum jeweils stärker einfallenden Signal (Abb. 4/50). Aus Kostengründen eingesetzte Diversity-Verfahren mit nur einem Empfänger und zwei Antennen mit logischem
Abb. 4/50. True-Diversity-Empfang.
212
4 Mikrofone und Lautsprecher
Umschaltverfahren sind dem True-Diversity in der Übertragungssicherheit unterlegen. Der Abstand zwischen den Antennen für True-Diversity beträgt für den besten Nutzen minimal 1/4 der Wellenlänge. Bei weitläufigen Aktionsflächen sind größere Abstände nützlich, um Abschattungsrisiken zu verringern. Freie Frequenzen findet der Betreiber vor Ort am einfachsten durch die Abtastfunktion (Scan Mode) der Empfänger. Geeignete Frequenzkonfigurationen für den Mehrkanaleinsatz sind in vielen Geräten gespeichert. Alle Parameter von Multikanalsystemen werden zur besseren Übersichtlichkeit auf einem Rechnerbildschirm zusammengefasst und ggf. ferngesteuert. Mit der Einbindung in Rechnernetzwerke können die Anzeigeparameter wie NfAussteuerung, HF-Pegel, Senderbatteriezustand und Diversity-Umschaltung, aufgezeichnet und gleichzeitig an vielen Orten überprüft werden (Inspizientenpult, Backstage, Tonregie, Tonassistenz etc.), was die Betriebssicherheit erheblich verbessert und Optimierungen z. B. der Antennenstandorte erleichtert.
4.3.2 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung Der Übergang von der Analog- zur Digitaltechnik in der Tontechnik vollzieht sich seit vielen Jahren schrittweise auch im Bereich drahtloser Mi kro fone. Deutliche Verbesserungen im Klang standen zunächst im Gegensatz zu den Anforderungen der Lizenzierungsbehörden nach ökonomischer Verwendung von Hochfrequenzbandbreite. Die Übertragungssicherheit auf das gleiche Niveau zu bringen, das von der analogen Technik gesetzt worden war, schien schwer lösbar. Anfangs war zuverlässige, digitale Funkmikrofontechnik für den professionellen LiveEinsatz zudem teuer. Die richtigen technischen Lösungen mit Bedienkomfort sind mittlerweile in voller Breite verfügbar. Die digitale Funkstrecke klingt nunmehr fast wie eine kabelgebundene Anwendung und die Bedienung ist für den Toningenieur spürbar vereinfacht worden. Insbesondere die Wahl der passenden Funkfrequenzen und deren Programmierung erfolgt auf einfachste Weise. Alle Parameter sind per App vom Smartphone aus kontrollierbar. Die digitale Übertragung bedingte eine grundlegende Neuentwicklung von Sendern und Empfängern. Das Störrisiko durch Intermodulation und die damit verbundene IM-vermeidende Frequenzkonfiguration sind nicht länger nötig. Ein TV-Kanal von 8 MHz Breite kann effizienter als zuvor von Funkmikrofonen belegt werden. Mit einem Frequenzabstand von jeweils 600 kHz oder 400 kHz je nach Geräteserie darf der Fernsehkanal ohne weiteres mit bis zu 13 bzw. 20 Strecken ausgenutzt werden. Mit Abstrichen bei der Sendeleistung und einem auf 15 kHz reduzierten Frequenzgang wären bis zu 40 Funkmikrofonkanäle in einem TV-Kanal möglich. In der analogen Welt waren 8 Strecken üblich, nur in Sonderfällen darüber mehr. Carrier/Interference Eine besondere Stärke der analogen FM-Übertragung ist die Toleranz gegenüber Störungen im gleichen Übertragungskanal. Es zeigt sich, dass Digitalsysteme empfindlicher sind gegenüber störenden Aussendungen anderer Quellen, die in den Übertragungskanal fallen, z. B. Lichtsteuerungen oder Schaltnetzteile. Wie stark ein Störer im Verhältnis zum Träger der Nutzinformation werden darf, bevor die Audioübertragung zusammenbricht und der Empfänger stattdessen den Störer überträgt, wird mit dem Begriff Capture Ratio erfasst. Dieses
4.3 Einrichtungen für drahtloseMikrof
213
gefürchtete „Umklappen“ ist für die analoge, frequenzmodulierte Übertragung bei etwa 2 dB C/I (Carrier/Interference) zu erwarten. Nimmt der Störpegel weiter zu oder der Nutzträger ab, bricht der Störer in die Übertragung ein, und das Nutzsignal wird unterdrückt. Dieser Effekt erfolgt nicht überraschend, sondern kündigt sich durch einen nachlassenden Rauschabstand S/N des Audio-Nutzsignals an. Bei zunehmender Störfeldstärke wird bei ca. 10 dB C/I in einer unmodulierten Übertragung erhöhtes Rauschen hörbar, mit ca. 5 dB C/I verbleibt etwa 40 dB Rauschabstand. Die digitale Übertragung dagegen hält den Rauschabstand > 100 dB und schaltet bei zunehmender Störfeldstärke übergangslos das Nutzsignal ab. Solche Unterbrechungen sind der größte Störfall; die Wahrscheinlichkeit, dass er eintritt, ist in der digitalen Technik im Live-Betrieb höher und unberechenbarer als bei analoger Übertragungstechnik. Abb. 4/51 veranschaulicht die Unterschiede der Übertragungsverfahren in digital unkomprimierter (a), digital komprimierter (b) und analoger (c) Übertragungstechnik. Der Signal-Störabstand S/N bleibt zunächst für alle Verfahren über einen weiten Feldstärkebereich hoch. Je höher die Datenrate, umso besser muss das Verhältnis von Träger zu Störfeldstärke (C/I) bleiben für eine unterbrechungsfreie Verbindung. Bei analogen Verfahren sinkt der Rauschabstand S/N in der Übertragung ab einem Schwellwert proportional zum sich vermindernden Wert von C/I. Die digitale Übertragung hält den Rauschabstand S/N konstant hoch und bricht ab, sobald die Feldstärke den Schwellwert unterschreitet. Was bei analoger Technik nur ein Aufrauschen erzeugt, führt bei digitaler Technik zu unvorhersehbaren Aussetzern. Mittlerweile ist das sog. error concealment, also die Verdeckung von drop outs deutlich verbessert worden. Ebenso vereinzelt aufgetretene Aussetzer, die mit einer speziellen Raumarchitektur und dem daraus resultierenden Gemisch an Reflexionen zusammenhängen, stellen den Anwender nicht länger vor Schwierigkeiten. Manche Empfänger sind mit einer dritten Anzeige ausgestattet; neben der Aussteuerung und der Feldstärke gibt es den LQI (Link Quality Indicator), der die Aktivität der Fehlerkorrektur angibt und auf Empfangsprobleme hinweist, obwohl die Feldstärkeanzeige ausreichende Pegel ausweist. Die Ursache kann in schädlichen Reflexionen begründet sein. Veränderte Antennenpositionen können helfen. Typische Werte für Rauschen und Störungen, die die Grundlage für den darstellbaren HF-Dynamikbereich bilden, schwanken je nach Belastung der Umgebung mit HF-Störern. In freien Gebieten ist die Empfindlichkeit des Empfängers von ca. 0,5 µV die einzige Grenze. Bei großen Veranstaltungen mit Videowänden von mehreren hundert Quadratmetern, die von Multiplexsignalen gesteuert werden, sind breitbandige Störfeldstärken von 5 µV gemessen worden. Dieser „Störteppich“ erhöht die für einen sicheren Betrieb minimal erforderliche Empfangsfeldstärke. In Abb. 4/51 wäre der entsprechende Minimalpegel für komprimierte Digitalsignale mindestens 10 dB höher, also 16 µV. Der unkomprimierte Modus in der Grafik, hat unter diesen Bedingungen eine untere Grenze von 90 µV. Unterhalb dieser Feldstärke wird die Übertragung stumm geschaltet. Die Mehrwegeempfangssituation der Funkwellen kann Auslöschungen zur Folge haben, so dass eine entsprechende Reserve einzukalkulieren ist. Die Erprobung aller Gegebenheiten vor einer Veranstaltung bleibt unerlässlich.
214
4 Mikrofone und Lautsprecher
Abb. 4/51. Zusammenhang des Nutz-Störspannungsverhältnisses S/N und des Verhältnisses Träger-Störfeldstärke C/I für die Übertragungsverfahren, a. digital unkomprimiert, b. digital komprimiert, c. analog.
Latenz Es ist bekannt, dass digitale Systeme allgemein auf Grund ihrer Komplexität Zeit benötigen, um die Signale zu verarbeiten, dies wird als Latenz bezeichnet. Bisher waren 3 bis 4 ms Latenz bei guter Übertragungssicherheit üblich. Einen großen Anteil verbraucht die Wandlung von analog in digital und zurück. Werte von unter 2 ms sind zum aktuellen Standard geworden, ohne die Betriebssicherheit einzuschränken. Die komplette Übertragungskette hat zusätzliche Latenzen im Mischpult und anderen Elementen der Signalverarbeitung und Übertragung. Für Live-Produktionen können Verzögerungen von ca. 10 ms und höher störend für manchen Künstler sein. Viele Bühnenschaffende haben die Vorteile des drahtlosen Monitorings über Ohrhörer (IEM) erkannt. Diese Technik verzichtet bislang überwiegend auf die Digitalisierung, weil sich die Beiträge zur Latenz kritisch erhöhen. Der Bluetooth Standard kommt für die Signalübertragung drahtloser Mikrofone und in Ear-Monitoring im professionellen Umfeld nicht zum Einsatz kommen, da die Latenzen mit über 30 ms zu lange sind. Fernbedienung per Smartphone-App Alle Smartphones verfügen über eine Schnittstelle nach dem Bluetooth-Standard. Der verwendete Frequenzbereich 2.400 – 2.480 MHz ist weit entfernt von den Nutzfrequenzen der meisten Funkmikrofone (470 – 1.900 MHz) und somit geeignet für die Fernbedienung aller Parameter von Empfänger und im Besonderen der Sender, die kein Display mehr benötigen. Einem Künstler z. B., der mit stummgeschaltetem Sender sich auf die Bühne bewegt, kann vom Pult aus ohne Aufsehen geholfen werden. Künftige Entwicklungen Der Einsatzbereich drahtloser Mikrofone nimmt zu, die grundlegende Ressource freier Frequenzen jedoch nimmt ab. Frequenzeffizienz ist zunehmend gefragt und für die kommenden Jahre deutet sich eine andere Technik an.
4.4 Lautsprecher
215
Mit dem Übergang von Analog auf Digital haben Funkmikrofone einen großen evolutionären Schritt gemacht. Ein weiterer Schritt steht bevor. Breitbandige Technologien, die im Mobilfunk bereits erfolgreich eingesetzt werden, können auch Einzug in die hochwertige Audioübertragung finden. Derzeit verwendet jedes Mikrofon seine eigene Übertragungsfrequenz und jeder Sender benötigt einen eigenen Empfänger. Die Übertragung findet unidirektional statt und ist verbindungslos – d. h. das Mikrofon sendet, sobald es eingeschaltet wird, ohne vorher eine Verbindung zu einer Gegenstelle aufnehmen zu müssen. Dieser Mehrfachzugriff wird Frequency Division Multiple Access (FDMA) genannt, denn jedem Übertragungsweg wird eine Trägerfrequenz zugewiesen. Durch alternative Verfahren, wie das sog. Zeitschlitzverfahren − Time Division Multiple Access (TDMA) − lässt sich ein flexibleres, verbindungsorientiertes, bidirektionales System aufbauen. Alle Mikrofone eines Systems arbeiten auf der gleichen Frequenz, teilen sich jedoch die Zeit. Dadurch entstehen folgende Vorteile: –– Mit der Verwendung eines Breitbandkanals, beispielsweise ein gesamter 8 MHz TVKanals, wird das Problem der Auslöschung durch Mehrwegeempfang drastisch reduziert, weil die Wellenlängen nicht identisch sind. Die Betriebssicherheit des Systems kann dadurch erhöht werden. –– Jedes Gerät ist ein Transceiver (Sender und Empfänger), es besteht eine permanente Kontrolle der Mikrofone auch während einer Darbietung. –– Stationäre Geräte können mehrere Mikrofonsignale gleichzeitig empfangen, es wird nicht mehr ein Empfänger pro Funkstrecke benötigt. –– Drahtlose Kopfhörer sind ebenfalls im selben Kanal möglich. –– Der Quality of Service (QoS) in Form von Latenz, Audioqualität und Übertragungssicherheit kann in einem solchen System dem Bedarf der Künstler angepasst werden. Eine ideale Modulationstechnik für die Breitbandübertragung bietet die OFDM-Technik (Orthogonal Frequency Division Multiplexing). Sie gewährleistet eine effiziente Entzerrung der durch das frequenzselektive Fading entstandenen destruktiven Interferenzen. Die Zulassungsvorschriften sind kein Hindernis für diese Verfahren. In der harmonisierten ETSI-Norm ETSI EN 300 422 ist ein Kapitel zu Wireless Multichannel Audio Systems (WMAS) hinzugefügt worden, dessen neue Messvorschriften von vielen Regulierungsbehörden international bereits umgesetzt wurden.
4.4 Lautsprecher Lautsprecher sind elektroakustische Wandler, die elektrische Schwingungen in Schallwellen umwandeln [DIN EN 60268-5]. Mit dem Begriff Lautsprecher kann sowohl ein einzelnes Lautsprechersystem als auch eine Kombination mehrerer Lautsprechersysteme in einem gemeinsamen Gehäuse gemeint sein. Anordnungen zur Schallwiedergabe sind nur mit akustischen Schallführungen wie Schallwänden, Boxen oder Hörnern bzw. Trichtern qualitativ befriedigend realisierbar. [Stark, 2003], [Görne, 2007], [D’Appollito, 1999]
216
4 Mikrofone und Lautsprecher
Lautsprecher werden nach mehreren Kriterien unterschieden: –– Wandlerprinzip: Man unterscheidet zwischen elektrodynamischen oder dynamischen Lautsprechern – dem wichtigsten Lautsprecherprinzip – und elektrostatischen Lautsprechern, in der Tonstudiotechnik keine Bedeutung haben piezoelektrische und magnetische Lautsprecher. –– Übertragungsbereich: Je nach Übertragungsbereich werden Breitbandlautsprecher, Tieftonlautsprecher, Mitteltonlautsprecher und Hochtonlautsprecher unterschieden, die jeweils ihre konstruktiven Besonderheiten haben. –– Schallabstrahlendes Element: Unterschiedliche Ausführungen der schallabstrahlenden Membran haben Konuslautsprecher, Kalottenlautsprecher, Flächenlautsprecher und Biegewellenlautsprecher. –– Antrieb der den Schall abstrahlenden Membran: Beim dynamischen Lautsprecher, auch elektro-dynamischen Lautsprecher, ist der zentrale Antrieb der steifen Membran (Konus- und Kalottenlautsprecher) oder der biegsamen Membran (Biegewellenlautsprecher) eine stromdurchflossene Tauchspule, die im Feld eines Dauermagneten schwingt. Beim Bändchenlautsprecher wird direkt eine metallische Membran als Bändchen flächig im Magnetfeld beweg, sie wird auch als Magnetostat bezeichnet, weil wie beim Elektrostaten die gesamte Membran angetrieben wird. Beim elektrostatischen Lautsprecher, kurz Elektrostat oder ESL, wird die elektrostatische Anziehungskraft, die zwischen einer straff montierten Membranfolie und einer festen Gegenelektrode unter hoher konstanter Spannung und aufmodulierter Wechselspannung einwirkt, als Antrieb genutzt. –– Leistung und elektroakustische Qualität: Studio- oder Monitorlautsprecher, Beschallungslautsprecher, Kommandolautsprecher u. a. Für weitere umfangreiche Ausführungen zu Lautsprechern wird bezüglich Messungen an Lausprechersystemen auf Kap. 9.7 verwiesen, auf Kap. 10.3.1 in Zusammenhang mit dem Einsatz bei der Beschallung und auf Kap. 19.6.1.5 zur auditiven Kontrolle und dem Abhör standard verwiesen.
4.4.1 Bauformen 4.4.1.1 Dynamische Lautsprecher Dynamische Lautsprecher arbeiten nach dem Prinzip der dynamischen Mikrofone, jedoch in umgekehrter Richtung. Sie sind die am weitesten verbreiteten Wandler zur Wiedergabe von Musik und Sprache. Mit ihnen lassen sich im Gegensatz zu anderen Systemen verhältnismäßig einfach und wirtschaftlich große Schallpegel breitbandig bei relativ geringen Verzerrungen erzeugen. Der Wirkungsgrad ist außerordentlich gering, weil der Lautsprecher nahezu in einem akustischen Kurzschlussbetrieb arbeitet: der Membranschwingung wird ein sehr geringer Luftwiderstand entgegengesetzt. Üblich sind Wirkungsgrade etwa zwischen 0,2 und 2 %, bei sehr hochwertigen Lautsprechern noch weniger, nur als Hornlautsprecher können Werte bis 10 % oder mehr erreicht werden, da hier über ein Schallhorn eine akustische Leistungsanpassung stattfindet. Verständlich, dass solche Werte keinen Eingang in Datenblätter finden. Eine Aussage über die erreichbare Lautstärke macht der Kennschalldruckpegel; er
4.4 Lautsprecher
217
gibt an, welchen Schalldruckpegel 1 W zugeführte elektrische Leistung in 1 m Entfernung vor dem Lautsprecher erzeugt, die Werte werden also in dB oder dBSPL angegeben; typische Werte liegen um 85 bis 95 dB entsprechend der Wirkungsgrade 0,2 bis 2 %. Fälschlicherweise wird der Kennschalldruckpegel oft als Wirkungsgrad bezeichnet. In ihrer Wirkungsweise beruhen dynamische Lautsprecher auf der Kraftwirkung, die ein von Strom durchflossener Leiter im Magnetfeld eines Dauermagneten erfährt. Diese Kraftwirkung wird zur Anregung von Membranen oder anderen zur Schallabstrahlung geeigneten Systemen genutzt. Zur Gruppe der dynamischen Lautsprecher gehören die Konus-, Kalotten-, Horn- und Bändchenlautsprecher sowie verschiedene Flachmembranlautsprecher, dazu gehört der Biegewellenlautsprecher. Konuslautsprecher Abb. 4/52 zeigt den Querschnitt durch einen Konuslautsprecher, der seinen Namen der konisch geformten Membran (10) verdankt. Die konische Form gibt der Membran die erforderliche Steifigkeit. Der Topfmagnet besteht aus dem Permanentmagneten (1), dem Joch (2), der Polplatte (3) und dem Polkern (4). Im Luftspalt, gebildet durch Polkern und Polplatte, befindet sich die auf den Schwingspulenträger (5) gewickelte Schwingspule (6), die von dem tonfrequenten Wechselstrom durchflossen wird. Hierdurch wird in der Spule ein magnetisches Wechselfeld erzeugt, das im Zusammenwirken mit dem permanenten Gleichfeld im
Abb. 4/52. Dynamischer Lautsprecher als Konuslautsprecher, 1 Permanentmagnet, 2 Joch, 3 Polplatte, 4 Polkern, 5 Schwingspulenträger, 6 Schwingspule, 7 Zentriermembran, 8 Staubschutzkalotte, 9 Schutzring, 10 Membran, 11 Sicken, 12 Litzen, 13 Lautsprecherkorb.
Luftspalt eine Bewegung der Schwingspule analog der Wechselspannung in Pfeilrichtung zur Folge hat. Die Schwingspule wird durch die Zentriermembran (7), eine radial steife, axial jedoch sehr weiche und nachgiebige Federmembran, geführt und in der Ruhelage gehalten. Die meist aus dünnem Pappguss, teils aus Kunststoffen oder Aluminium, auch mehrschichtige Membran (10) ist mit dem Schwingspulenträger fest verbunden und am äußeren Rand über konzentrisch verlaufende Sicken (11) oder über einen weichen Balg aus hochelasti-
218
4 Mikrofone und Lautsprecher
schem Material im Lautsprecherkorb (13), der mit großen Durchbrüchen versehen ist, eingespannt. Eine Kalotte zum Staubschutz (8) und der Schutzring (9) verhindern das Eindringen von Fremdkörpern in den Luftspalt. Über die sehr flexiblen Litzen (12) erhält die Schwing spule den Wechselstrom des Tonsignals. Konuslautsprecher eigenen sich als Tief- und Mitteltöner sowie als Breitbandlautsprecher. Der Frequenzbereich des abgestrahlten Schalls ist nach tiefen Frequenzen hin durch die Resonanzfrequenz der Membran begrenzt. Man legt daher diese Resonanzfrequenz, die sog. Eigenresonanz des Lautsprechers, an das untere Ende des Übertragungsbereichs, erreicht wird das u. a. durch eine sehr flexible Membranaufhängung. Bei mittleren und höheren Frequenzen schwingt die Membran nicht mehr in ihrer Gesamtheit. Die Schwingspule regt vielmehr konzentrische Biegeschwingungen an, die vom Membranrand teilweise reflektiert werden, und so bildet sich eine komplexe Schwingungsverteilung aus. Dabei entstehen kreisförmige Knotenlinien zwischen ringförmig und mit unterschiedlichen Phasen schwingenden Zonen mit partiellen Auslöschungen und Überlagerungen; bei sehr hohen Frequenzen schwingt praktisch nur noch die innerste Mem branzone. Dies wirkt sich ungünstig auf den Frequenzgang und die Richtcharakteristik aus. Man begegnet dem durch eine spezielle Formgebung der Membran, der sog. Nawi-Membran (Nicht abwickelbar). Sie weicht mit einem hyperbolischen Querschnitt von der Form eines Konus ab und erhält so eine größere Steifigkeit. Kalottenlautsprecher Der Kalottenlautsprecher ist im Wesentlichen ein Konuslautsprecher ohne Korb und Konusmembran, der Schall wird nur über die Kalotte abgestrahlt (Abb. 4/53. Die Kalotte mit angepressten Sicken (7) ist aus einem hinreichend steifen Material mit hoher innerer Dämpfung hergestellt. Ihr Durchmesser ist in den meisten Fällen kleiner als die zu übertragende Wellenlänge.
Abb. 4/53. Dynamischer Lautsprecher als Kalottenlautsprecher, 1 Ringmagnet, 2 Magnetplatte, 3 Polplatte, 4 Polkern, 5 Schwingspule, 6 Schwingspulenträger, 7 Kalotte mit Sicken, 8 Montageplatte, 9 Zuführungslitze.
Die Kalotte schwingt im gesamten Übertragungsbereich kolbenförmig, Partialschwingungen der Kalotte treten praktisch nicht auf. Die Abstrahlung erfolgt in einem breiten Winkelbereich gleichmäßig und gleichphasig. Kalottenlautsprecher werden deshalb bevorzugt als
4.4 Lautsprecher
219
Hochtonlautsprecher bei einem Kalottendurchmesser von 20 bis 25 mm eingesetzt. Aber auch für den Mitteltonbereich bis hinunter zu 400 Hz eignen sich Kalottenlautsprecher mit etwa 60 mm Durchmesser der Kalotten. Wegen der geringen Abmessungen der schwingenden Membran und der großen Luftspaltlänge sind besonders starke Permanentmagnete zur Erzeugung einer großen Luftspaltinduktion notwendig, um einen den Konuslautsprechern entsprechenden Wirkungsgrad zu erzielen. Kalottenlautsprecher dienen auch als Schallwandler von Hornlautsprechern. Hornlautsprecher Ein Kalottenlautsprecher, der über einen genau definierten, im Querschnitt zunehmenden Schalltrichter, dem Horn, an den umgebenden Raum angekoppelt wird, ist ein Hornlautsprecher, auch einfach Horn. Diese Form der Schallabstrahlung nutzten Blechblasin strumente seit der Zeit der ägyptischen Pharaonen, Megafone u. a.; immer geht es darum, Töne möglichst laut abzustrahlen. Hörner sind akustische Impedanzwandler, die die hohe akustische Impedanz mechanischer Schwingungen, hier des Lautsprechersystems, an die niedrige Impedanz des umgebenden Raums anpassen und damit neben anderen Effekten durch Leistungsanpassung den Wirkungsgrad etwa verzehnfachen. Das Horn transformiert − vereinfacht gesagt − eine kleinere Fläche, die mit größerer Amplitude schwingt, in eine größere Fläche, die mit kleinerer Amplitude schwingt (Abb. 4/54). Die effektivste Form des Trichters ist das Exponentialhorn, eine Schallführung (siehe dazu Kap. 4.4.1.3), deren Querschnittsflächen pro Längeneinheit um einen konstanten Prozentsatz zunehmen. Dies ergibt einen Querschnitt entsprechend einer Exponentialfunktion. Diese Anordnung stellt einen akustischen Hochpass dar mit großer Flankensteilheit; seine untere Grenzfrequenz sinkt mit größer werdender Trichteröffnung. Das bedeutet, dass für tiefe Frequenzen sehr ausgedehnte Hörner notwendig sind, die in Studios und Wohnräumen nicht realisierbar sind; hier können nur Hochtonsysteme als Hornlautsprecher verwendet werden. Mehrere nebeneinander angeordnete Hörner, wie sie bei großen Beschallungen verwendet werden, haben dieselbe Wirkung wie ein einzelnes Horn gleicher Gesamtgröße. Die Aufstellung in einer Raumecke verbessert die Wiedergabe tiefer Frequenzen erheblich. Bei rechteckigen Querschnitten kann das Horn mit akzeptablen Einschränkungen der Klangqualität zu einem sog. Falthorn werden, das in einem Gehäuse Platz findet. Neben dem Exponentialhorn gibt es weitere Hornformen. Eine Variante ist der Hornlautsprecher mit Druckkammer, der Druckkammerlautsprecher, bei dem zwischen einer größeren Membran des Kalottenlautsprechers und dem eigentlichen Horn eine Druckkammer eingefügt wird (Abb. 4/54, 2), die den Wirkungsgrad nochmals erhöht; dieser Lautsprecher eignet sich besonders für Alarm und Ansagen für große Flächen wie Stadions und für Verkehrsflächen wie Flughäfen und Bahnhöfe. Ein großer Vorteil des Hornprinzips ist, dass die Lautsprechermembran infolge der Transformation der Impedanz sehr viel stärker belastet wird und deshalb weniger weit ausschwingt. Somit produziert das Hornsystem geringere lineare Verzerrungen und – ein besonderer Vorteil – wesentlich geringere Intermodulationsverzerrungen. Die systembedingte starke Schallbündelung und Richtwirkung spielt vor allem dort eine Rolle, wo Schall gezielt abgestrahlt werden soll und/oder wo bestimmte Flächen nicht oder nur gering beschallt werden sollen. Bei der professionellen Beschallung großer Flächen von Stadien
220
4 Mikrofone und Lautsprecher
oder Sälen sind Hornlautsprecher unverzichtbar; breitbandige Hörner werden auch als Musikhörner bezeichnet.
Abb. 4/54. Horn eines Hornlaut sprecher, 1 Membran des Kalottenlautsprechers, 2 Druckkammer, 3 Trichterhals, 4 Schalltrichter.
Bändchenlautsprecher Der Bändchenlautsprecher greift das Wandlersystem des Bändchenmikrofons auf (siehe Kap. 4.2.3.2), seine Funktionsweise ist jedoch die umgekehrte Richtung. Anstelle der spulengetriebenen Membran schwingt ein Bändchen im Feld des Dauermagneten und wird als Ganzes angetrieben; man bezeichnet diesen Lautsprechertyp auch als Magnetostat in Anlehnung an den Elektrostaten (s. u.), wo ebenfalls die gesamte Membran angetrieben wird. Das Bändchenmikrofon eignet sich besonders als Hochtonlautsprecher mit Bändchen von z. B. 25 mal 80 mm, als Mitteltöner hat das Bändchen die Maße von z. B. 60 mal 200 mm. Das Bändchen ist senkrecht eingebaut, dadurch entsteht eine Richtcharakteristik, die horizontal breiter, vertikal jedoch schmäler ist; so wird in einem Raum etwas mehr Direktschall erzeugt und Reflexionen an Decke und Boden werden verringert. Der Lautsprecher soll deshalb nicht gekippt aufgestellt werden. Da das Bändchen aus Aluminium eine sehr geringe Impedanz hat, muss ein Anpassverstärker oder Transformator vorgeschaltet werden. Normale Impedanz haben die sog. Folienmagnetostaten, bei denen das Bändchen aus einer Kunststofffolie mit langen aufgeprägten Leiterbahnen besteht. Als Air-Motion-Transformer ist das Bändchen nach Art einer Ziehharmonika gefaltet und kann so bei geringerer Bewegung mehr Luft in Schwingungen versetzen. Biegewellenlautsprecher Im Gegensatz zum Konuslautsprecher, bei dem die Membran, die von einem elektrodynamischen Wandler angetrieben wird, steif sein muss, sind die Membranen von Biegewellenlautsprechern elastisch. Die Anregung in der Mitte der Membran führt zu Biegewellen, die von der Membranmitte nach außen laufen. Diese Wellen verlaufen auf der Membran also wie die Welle auf einer Wasseroberfläche, wenn man einen Stein ins Wasser wirft. Am Rand soll die
4.4 Lautsprecher
221
Membran mit ihrem Wellenwiderstand abgeschlossen werden, damit keine Wellen reflektiert werden. Der Biegewellenlautsprecher hat einen relativ breitbandigen Übertragungsbereich. Ein geringer Wirkungsgrad und bei höheren Pegeln eintretende Verzerrungen wurden diesem Konzept mitunter nachteilig angelastet, spielen aber bei moderneren Entwicklungen keine Rolle mehr. Das Prinzip lässt sich auch anwenden auf große Flächen, die mit mehreren Systemen angeregt werden. 4.4.1.2 Elektrostatischer Lautsprecher Bei elektrostatischen Lautsprechern − abgekürzt ESL − geht die Kraftwirkung von elektrisch entgegengesetzt geladenen Platten oder Membranen aus, die sich bei gleich gepolter Ladung gegenseitig anziehen bzw. bei entgegengesetzter Ladung abstoßen; elektrostatische Lautsprecher stellen also Kondensatoren dar. Die Anordnung besteht aus zwei festen Gitterelektroden (Statoren) und einer beweglichen Membran dazwischen (Abb. 4/55). Die Kraft, die auf die bewegliche Elektrode bzw. Membran ausgeübt wird, ist dem Quadrat der angelegten Spannung direkt und dem Quadrat des Elektrodenabstands umgekehrt proportional. Für den Betrieb ist eine hohe Vorspannung von einigen kV Gleichspannung erforderlich, damit die Tonsignalspannung im Vergleich klein ist. Der Abstand der Elektroden, der zur Vermeidung eines Aufschlagens der Membran relativ groß gewählt werden muss, fordert eine große Signalspannung bis zu einigen 100 V. Nur so ist eine ausreichende Kraftwirkung zu erzeugen. Bei großen Amplituden werden Abstände der Membran zu den beiden Elektroden deutlich ungleich, dadurch entstehen nichtlineare Verzerrungen.
Abb. 4/55. Prinzip des elektrostatischen Lautsprechers.
222
4 Mikrofone und Lautsprecher
Für den Tieftonbereich ist der elektrostatische Lautsprecher weniger geeignet, was der aufwändigen Betriebsschaltung mit der hohen Vorspannung und dem begrenzten Mem branausschlag im tieferen Frequenzbereich zuzuschreiben ist. Bereits im mittleren Frequenzbereich strahlt der Lautsprecher den Schall stark gebündelt ab, was bei der Stereowiedergabe zu sehr begrenzten Hörflächen, sog. Sweet Spots, führt, was durch unterschiedliche Lösungen wie eine gebogene Anordnung oder eine Segmentierung und weitere Entwicklungen verbessert wurde. Der Wirkungsgrad ist sehr gering; so werden für leistungsstarke Lautsprecher erhebliche Membrangrößen notwendig; es wurden Lautsprecher bis 2 m2 Membranfläche konstruiert. Ein weiteres Problem ist die bipolare Schallabstrahlung, also gleichzeitig nach vorn und hinten mit um 180° verschobener Phase, was zu einem akustischen Kurzschluss besonders bei tieferen Frequenzen führt. Wegen der sehr leichten Membran zeigt der Lautsprecher aber ein ausgezeichnetes Impulsverhalten; er kann auch sehr hohe Frequenzen bis 100 kHz wiedergeben. Meist wird der sehr flache Lautsprecher er mit einem Konuslautsprecher in einer Lautsprecherbox für die Bässe kombiniert. Generell konnte sich dieses Prinzip nicht in größerem Umfang durchsetzen, hat aber bei Liebhabern als Elektrostat oder ESL einen gewissen legendären Ruf. 4.4.1.3 Akustischer Kurzschluss und Lautsprecherboxen Bewegt sich die Membran eines Lautsprechers gemäß Abb. 4/56 in Pfeilrichtung, entsteht vor dem Lautsprecher eine Zone mit Überdruck, auf seiner Rückseite eine Zone mit Unterdruck. Ist der Membrandurchmesser klein gegen die Wellenlänge des abzustrahlenden Schalls, so gleichen sich die Zonen von Über- und Unterdruck über den Lautsprecherrand aus. Es entsteht ein sog. akustischer Kurzschluss, der Schall wird vernichtet; dadurch wird bei tiefen Frequenzen praktisch kein Schall mehr abgestrahlt.
Abb. 4/56. Akustischer Kurzschluss (a.) und seine Unterdrückung durch eine Schallwand (b.).
Zur Vermeidung dieses Kurzschlusses ist eine Schallführung erforderlich. In der einfachsten Form besteht sie aus einer Schallwand (Abb. 4/56, b), die bei ausreichender Größe den Druckausgleich verhindert. Die gebräuchlichsten Schallführungen sind hinten offene Gehäuse, die abgeknickte Schallwände darstellen, allseitig geschlossene Gehäuse wie bei Studio- und
4.4 Lautsprecher
223
Hi-Fi-Lautsprecherboxen und Hörner (siehe Kap. 4.4.1.1); zur Verbesserung der Abstrahlung tiefer Frequenzen werden Resonanzboxen oder Bassreflexboxen mit tief liegender Eigenresonanz und Boxen mit abgestimmter akustischer λ/4-Leitung, sog. Transmission-Line-Boxen verwendet. Wird ein Lautsprecher in eine sehr große Wand eingebaut, so sind die zwei Schallfelder auf beiden Membranseiten getrennt; die abgestrahlte Leistung wird bis zur Grenzfrequenz f0 hinab nur von den Eigenschaften des Lautsprechers bestimmt. In der Praxis sind unendliche Schallwände nicht notwendig, da Frequenzen unter 30 Hz nicht abgestrahlt werden müssen. Bei einer Grenzfrequenz f0 von 30 Hz für die Schallabstrahlung sollte die Schallwand bei etwa mittigem Einbau des Lautsprechers eigentlich einen Durchmesser von 6 m haben. Unterhalb der Grenzfrequenz f0 fällt der Frequenzgang mit 6 dB/Oktave ab. Allgemein gilt für die Mindestgröße einer Schallwand: f0 = Grenzfrequenz [Hz] c = Schallgeschwindigkeit = 340 m/s d = kürzester Abstand zwischen Lautsprecher und Schallwandkante [m] Wird der Lautsprecher nicht genau in die Mitte einer Schallwand eingesetzt, so verteilen sich die Frequenzgangeinbrüche. Der Tiefenabfall von 6 dB/Oktave bei nicht ausreichend großer Schallwand kann teilweise durch höhere Lautsprecherleistung in diesem Frequenzbereich ausgeglichen werden. Die Eigenresonanz des Lautsprechers soll dabei möglichst tief liegen. Unterhalb der Lautsprechereigenresonanz fällt der Pegel zusätzlich mit 12 dB/Oktave ab. Für Studiolautsprecher und Hi-Fi-Lautsprecher werden jedoch geschlossene Lautsprecherboxen verwendet. Bei ihnen wird das vom Lautsprecher nach hinten abgestrahlte Schallfeld durch absorbierendes Material vernichtet, akustischer Kurzschluss ist ausgeschlossen. Dafür müssen Gehäuseresonanzen sowie die durch die erhöhte Rückstellkraft des eingeschlossenen Luftvolumens heraufgesetzte Lautsprecherresonanz bedämpft werden. Das zu übertragende Frequenzband wird bei Studiolautsprechern und qualitativ anspruchsvolleren Lautsprecherboxen für den Heimtonbereich auf zwei (Zweiwegebox) oder drei Lautsprecher (Dreiwegebox) aufgeteilt. Damit sind die folgenden Vorteile verbunden: Es können Lautsprechersysteme verwendet werden, die in ihrem Frequenzgang, Wirkungsgrad und Schallbündelungsverhalten auf ein bestimmtes Frequenzband optimiert sind; weiterhin können Klangrauigkeiten und Intermodulationsverzerrungen dadurch wesentlich minimiert werden. Diese Übertragungsfehler kommen in einem Breitbandlautsprecher dadurch zustande, dass hohe und tiefe Frequenzen gleichzeitig von demselben Lautsprechersystem abgestrahlt werden. Zur Abstrahlung der höheren Frequenz bewegt sich die Membran mit kleiner Amplitude, zur Abstrahlung der tieferen Frequenz mit größerer Amplitude; die Gesamtbewegung ist derjenigen einer angeschlagenen Glocke ähnlich. Durch den dabei auftretenden Dopplereffekt wird die höhere Schwingung frequenzmoduliert, der höhere Ton wirkt rau, es entstehen Intermodulationsverzerrungen, die sehr störend wirken können, da Summen- und Differenztöne der Frequenzkomponenten entstehen. Bei Studio- oder Regielautsprechern werden mehrere Lautsprechersysteme kombiniert, ein Tieftöner, ein Mitteltöner und ein oder zwei Hochtöner. Die für die einzelnen Lautsprecher vorgesehenen Frequenzbänder werden bei Studiolautsprechern elektronisch ausgefiltert, verstärkt und den Lautsprechersystemen zugeführt. Der Lautsprechereingang ist für 6 dBu
224
4 Mikrofone und Lautsprecher
ausgelegt. Lautsprecherboxen mit integrierten Verstärkern und Frequenzweichen benötigen eine eigene Stromversorgung, sie werden als Aktivboxen bezeichnet. 4.4.1.4 Regielautsprecher Regielautsprecher, auch Studiolautsprecher, Studiomonitore o. ä. genannt, sind Studio-Abhöreinrichtungen, die aus Lautsprechersystemen in einem Gehäuse einschließlich Verstärkern und Frequenzweichen bestehen und höchste Qualitätsanforderungen erfüllen, insbesondere bezüglich des Frequenzgangs, der Richtcharakteristik, nichtlinearer Verzerrungen u. a. Sie sollten stets den neuesten Stand der Entwicklung repräsentieren. Zur rein messtechnischen Bewertung kommt bei Lautsprechern wie bei Mikrofonen stets auch eine subjektive Bewertung, in die die komplexen messbaren und nicht messbaren Eigenschaften eingehen. Die Anforderungen an Regielautsprecher sind in internationalen Empfehlungen erfasst, zu Details siehe ausführlich Kap. 19.6. Beschallungslautsprecher für die Bühnenbeschallung werden auch Monitorlautsprecher genannt: an sie werden solche Anforderungen nicht gestellt. Für eine hohen Anforderungen entsprechende Abhörsituation genügt es allerdings nicht, die Eigenschaften der Lautsprecher zu definieren, ebenso muss die akustische Umgebung hohen Anforderungen genügen, insbesondere der Abhörraum und seine geometrische Form und seine akustischen Eigenschaften, die Aufstellung der Lautsprecher, der Abhörpegel und weitere Parameter, Details hierzu siehe Kap. 19.6.1.5. Besondere Aufmerksamkeit hinsichtlich der Anordnung der Lautsprecher erfordert die Abhörsituation bei Mehrkanalstereofonie, siehe dazu Kap. 5.4.1.
4.5 Kopfhörer Für die auditive Kontrolle bei Aufnahmen und Übertragungen sind Kopfhörer im Tonstudio bereich verhältnismäßig selten in Verwendung, Ausnahmen sind akustisch ungeeignete, auch lärmbelastete Abhörsituationen bei Außenaufnahmen mit ungeeigneten Abhörräumen. Bei Musikgruppen, die mit Verstärkeranlagen arbeiten, und im Consumerbereich haben sie dagegen weite Verbreitung gefunden. Hinsichtlich ihrer elektroakustischen Eigenschaften stehen gute Kopfhörer Studiolautsprechern nicht nach; hohe Qualität ist bei Kopfhörern mit vergleichsweise geringem Aufwand realisierbar. Ein weiterer Vorteil ist die vollständige Unabhängigkeit beim Abhören mit mehreren Personen von den Eigenschaften des Wiedergaberaums und der Abhörplätze. Damit sind einheitliche Abhörsituationen praktisch nur mit Kopfhörern realisierbar, im Gegensatz zu Lautsprecherwiedergabe auch gleichzeitig für viele Zuhörer. Da hohe Lautstärken problemlos dargeboten werden können, kann eine große Dynamik verwirklicht und auch adäquat gehört werden. Schließlich wird das Hörerlebnis mit Kopfhörern als besonders intensiv empfunden. Diesen Vorteilen stehen eine Reihe von Nachteilen gegenüber, die den Gebrauch im Tonstudio erheblich einschränken: Der Höreindruck bei Kopfhörerwiedergabe unterscheidet sich grundsätzlich von dem bei Lautsprecherwiedergabe. Wird nämlich beiden Ohrhörsystemen dasselbe Signal zugeführt – dies entspricht einem Mono- oder Stereomittensignal – nimmt der Zuhörer bei Kopfhörerwiedergabe den Ort der Schallquelle in der Mitte im Kopf
4.5 Kopfhörer
225
wahr, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei Lautsprecherwiedergabe hingegen wird die Schallquelle im Lautsprecher bzw. bei zweikanaliger Wiedergabe etwas erhoben in der Mitte zwischen den Lautsprechern, also vor dem Zuhörer, lokalisiert, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei reiner Intensitätsstereofonie und Kopfhörerwiedergabe werden die Seitenschallquellen unnatürlich dicht an den beiden Ohren gehört. Kopfhörer- und Lautsprecherwiedergabe unterscheiden sich also deutlich in der Wiedergabe der wahrgenommenen Schallquellenorte. Im Detail wird dazu auf Kap. 5.5.5 verwiesen, ebenda wird hier die Problematik der Frequenzgangs von Kopfhörern und seiner Messung besprochen. Erste Normen für Kopfhörer im Hi-Fi-Sektor (DIN 45500) stammen aus den 1960er Jahren, sind aber nicht mehr zeitgemäß. Sie wurden 1996 durch die IEC 61305-1 bzw. DIN EN 61305, Hi-Fi-Geräte und ‑Anlagen für den Heimgebrauch, ersetzt, die nur noch Verfahren zur Messung und Angabe der Leistungskennwerte enthält, aber keine qualitativen Mindestanforderungen mehr, da die ursprünglich genormten Anforderungen inzwischen auch von einfachen Geräten erfüllt werden können. Für den Studiobereich wurden deshalb neue Standards erarbeitet und in ITU-Empfehlungen [ITU-R BS.708] gefasst. Außer den Anforderungen an den Frequenzgang, der nicht auf das Direkt- oder Freifeld für Schalleinfall von vorne, sondern auf das Diffusfeld, also für gleichzeitig allseitig einfallenden Schall bezogen wird, musste insbesondere das Messverfahren mit Verwendung von Sondenmikrofonen im Gehörgang definiert werden, da der Kopfhörer zusammen mit dem Außenohr eine Einheit darstellt und andere akustische Bedingungen bietet als die Lautsprecherwiedergabe mit offenem Ohr. Es sei darauf hingewiesen, dass die Verwendung des Begriffs Studiokopfhörer o. ä. nicht an die Erfüllung der genannten besonderen Empfehlungen gebunden ist. [Theile, 2015] Kopfbezogene binaurale Übertragung ist ein Tonübertragungssystem, das aufnahmeseitig mit einem Kunstkopf – deshalb auch Kunstkopf-Verfahren genannt – und wiedergabeseitig mit diffusfeldentzerrten Kopfhörern arbeitet. Bei diesem eigenständigen, qualitativ hervorragenden Verfahren kommen ausschließlich Kopfhörer zum Einsatz. Das Verfahren wird in Kap. 5.5.5.1 f. beschrieben.
4.5.1 Bauformen von Kopfhörern Ein Kopfhörer besteht aus zwei elektroakustischen Wandlern, verbunden mit einem zur Anpassung an die individuelle Kopfform verstellbaren Kopfbügel. Die Anordnung wird durch leichtes Anklemmen am Kopf des Zuhörers gehalten. Da es auch spezielle Ausführungen mit nur einem Hörer gibt, wird die beschriebene Bauform normgemäß [DIN 45580] und exakt als sog. Doppelkopfhörer bezeichnet. Als Wandlersysteme finden elektrodynamische Wandler Verwendung, selten magnetische oder elektrostatische. Man unterscheidet zwischen offenen, sog. supraauralen, und geschlossenen, sog. circumauralen Kopfhörern. Bei den offenen oder halboffenen Hörern liegen die Wandler auf den Ohrmuscheln auf, oder die Wandler werden durch sog. Ohrkissen, einer akustisch voll durchlässigen Schaumstoffzwischenlage, in definiertem Abstand zu den Ohrmuscheln
226
4 Mikrofone und Lautsprecher
gehalten. Der Benutzer offener Kopfhörer ist gegen Schall aus dem umgebenden Raum nur wenig abgeschirmt; erst oberhalb 5 kHz wird Fremdschall um etwa 10 dB bedämpft. Der geschlossene Kopfhörer umschließt das gesamte äußere Ohr mit einem kalottenförmigen Gehäuse, das über einem weichen Dichtungsrand am Kopf anliegt. Es wird daher kein Druck auf die Ohrmuscheln ausgeübt. Die typische Schalldämmung geschlossener Kopfhörer gegen Außengeräusche steigt von etwa 5 dB bei 100 Hz auf 40 dB bei 10 kHz. Beim geschlossenen Kopfhörer sind die Wandler sehr definiert über ein vorgegebenes Volumen an das Ohr angekoppelt, während beim offenen Hörer die Systeme mehr oder weniger frei abstrahlen. Geschlossene Kopfhörer verhindern den akustischen Kurzschluss, der bei offenen Hörern durch aufwändigere Konstruktionen ausgeglichen werden muss. Eine Sonderform ist der Ohrhörer, ein sog. In-Ohr-Kopfhörer oder engl. in Ear-Monitor. Das Wandlersystem wird hier in eine Silikon- oder Schaumstoff-Ohrplastik (Otoplastik) eingearbeitet, es wird in den Gehörgang eingeschoben und sollte bei professioneller Verwendung individuell angepasst werden. Das in Ear-Monitoring (IEM), wie das Beschallen bzw. Abhören mit solchen Hörern bezeichnet wird, wird in jüngster Zeit vorwiegend an Stelle konventioneller Kopfhörer bei der der Beschallung der Musiker vor allem bei Live-Beschallungen eingesetzt. In Verbindung mit drahtlosen Übertragungssystemen bietet es große Vorteile im praktischen Betrieb (siehe Kap. 4.5.3). Die weiteste Verbreitung als Wandler bei Kopfhörern haben die elektrodynamischen Systeme gefunden. Ihre Wirkungsweise entspricht derjenigen von dynamischen Lautsprechern (siehe Kap. 4.4.1.1). Sie zeichnen sich durch gute Übertragungseigenschaften aus. Mit sehr kleinen elektrischen Leistungen lassen sich große Lautstärken bei geringen Verzerrungen erzeugen; bereits mit 1 mW elektrischer Leistung kann ein Schalldruck von 1 Pa bzw. 94 dBSPL am Ohr erreicht werden. Elektrostatische Kopfhörersysteme arbeiten nach dem gleichen Prinzip wie elektrostatische Lautsprecher (siehe Kap. 4.4.1.2). Die Übertragungseigenschaften sind ausgezeichnet. Jedoch erfordert die Bereitstellung der notwendigen Kondensatorvorspannung von mehreren hundert Volt, die auch z. B. aus dem niederfrequenten Nutzsignal gewonnen werden kann, gegenüber den anderen Systemen einen erheblich größeren technischen Aufwand und damit auch höhere Kosten.
4.5.2 Einrichtungen für drahtlose Kopfhörer Akteure auf der Bühne oder Backstage, aber vor allem Musiker und Sänger benötigen für das musikalische Zusammenwirken mit ihren Partnern bei hohen Anforderungen an ihre Mobilität eine spezielle Abmischung, den Monitormix, vom Mischpult. Dieser kann über Monitorlautsprecher auf der Bühne realisiert werden, drahtlos in Stereo auf Kopfhörer oder bevorzugt und weitgehend unsichtbar über Ohrhörer in das Ohr. Für die Akteure bei Film, Funk und Fernsehen ist diese Kommunikationsmethode seit vielen Jahrzehnten als „Rückkanal“, „Talk back“ oder auch „Reportercue“ in Mono für ein Ohr im Einsatz. In vielen Musikgenres vor allem bei sich bewegenden Künstlern ist die zuverlässige Funktion der drahtlosen HF-Übertragung überhaupt Bedingung für die Qualität des Zusammenspiels. Die Übertra-
4.5 Kopfhörer
227
gungssituation ist kritischer einzuschätzen als die der Funkmikrofone (siehe hierzu auch Kap. 4.3), weil die Empfänger meistens keinen True Diversity-Empfang haben. Auf Bühnen wird heute die Beschallung mit Bühnen- oder Monitorlautsprechern, die oft schwierige Bedingungen für die Tontechnik und die Musiker darstellen, zunehmend durch das in Ear-Monitoring oder IEM oder Wireless Monitoring ersetzt. Im Gegensatz zu Bühnenlautsprechern treten hier keine Rückkopplungen auf, und die Akteure erhalten ein präzises und konstantes, vom Standort auf der Bühne unabhängiges Hörbild. Zudem ist ein in Ear-Set, das neben den Ohrhörern aus einer Sendestation und einem am Körper zu tragendem Empfänger (Bodypack) besteht, wesentlich leichter zu transportieren und zu installieren ist als eine herkömmliche Monitoranlage aus Lautsprechern. Nachteilig ist die Tatsache, dass der Klangeindruck bei Bewegung oder Drehung nicht entsprechend der Raumsituation mitgeht, was zu Orientierungsschwierigkeiten im Raum führen kann. Mancher Künstler fühlt sich zu sehr vom Publikum entkoppelt und benötigt die Einspielung in seinen Monitormix. Spielt das optische Auftreten der Künstler keine Rolle wie etwa bei Studioaufnahmen, so sind geschlossene kabelgebundene Kopfhörer vorteilhafter. Vielfach wird gleichzeitig zum Ear-Monitoring-Empfänger am Körper in direkter Nähe ein Hand- oder Taschensender des drahtlosen Mikrofons betrieben, eine kritische Situation, die durch den sog. Blockingeffekt gefährdet ist. Der IEM-Empfänger verliert an Empfindlichkeit, und eine akzeptable Qualität der Übertragung mit gutem Störabstand ist auf nur wenige Meter Entfernung zur Ear-Monitoring-Sendeantenne beschränkt. Die Durchführung der Messung des Blocking zeigt Abb. 4/57. Der unmodulierte Sender wird im Pegel so weit angehoben, bis der Störabstand des Empfängers von ca. 20 dB, bedingt durch das geringe Signal des Senders von 1,5 μV auf 10 dB abgesunken ist. Das Pegelverhältnis der beiden Sender gibt den Wert für das Empfängerblocking an: 15 mV : 1,5 μV = 10.000 entsprechend 80 dB. Blocking wird durch einen Frequenzabstand von mindestens 8 MHz zwischen dem Mikrofonsender und der Ear-Monitoring-Strecke weitgehend vermieden. Eine klare Abgrenzung der Systeme gewährleistet sicheren Betrieb.
Abb. 4/57. Messung des Blocking.
228
4 Mikrofone und Lautsprecher
Beim Einsatz von mehr als zwei Kanälen entstehen leicht Intermodulationsstörungen, weil HF-Leistung in die Ausgangsstufen der stationären Sender eindringt und neue Träger mit doppeltem Hub und Audiofrequenzverdopplung entstehen (Birdies). Hier ist ein intermodulationsfreies Frequenzraster nach Herstellerempfehlungen mit Frequenzabstand zu den Funkmikrofonen zu verwenden. Das Ear-Monitoring im Vielkanaleinsatz muss 200 kHz Sicherheitsabstand von Intermodulationsfrequenzen 3. Ordnung einhalten, d. h., die Packungsdichte im UHF-Kanal kann nicht so dicht sein wie bei Funkmikrofonen, die schon ab 50 kHz Abstand zu Intermodulationsprodukten sicher arbeiten. Der Einsatz von Antennen-Combinern unterbindet die IMStörungen und versammelt alle angeschlossenen Sendesignale ohne Leistungseinbußen auf einen Antennenausgang. Der interne Leistungsverlust von 10 dB (90 %) beim Zusammenführen der Einzelsignale wird mit vorgeschalteten Verstärkern kompensiert. Diese sorgen auch dafür, dass keine HF-Leistung rückwärts in die angeschlossen Sender fließt. Störende Signale werden von den Sendern ferngehalten (Abb. 4/58). Sendercombiner sind für bis zu acht Sender in einer Höheneinheit verfügbar. Im Allgemeinen sind Richtantennen und kurze Kabelwege zu empfehlen. Stets sind erhöhte Standorte vorteilhaft. Eine deutliche Verbesserung in schwierigen Übertragungssituationen bieten zirkular polarisierende Antennen. Auf keinen Fall dürfen Empfangsantennenverstärker zum Ausgleich von Leitungsverlusten auf Sendewegen eingesetzt werden, weil die Eingangspegel viel zu hoch sind und besonders mehrere Sendersignale den Verstärker übersteuern und zum Aussenden von Störspektren zwingt.
Abb. 4/58. Funktionsweise des Antennen-Combiners, 4 Sender mit je 20 mW HF-Leistung sind rückwirkungsfrei zusammengeschaltet und arbeiten mit einer gemeinsamen Antenne.
In Ear-Monitoring-Systeme sind stereofon nach dem Verfahren des UKW-Rundfunks ausgelegt. Für den gleichen Störpegelabstand wie im Monobetrieb ist im Stereobetrieb ca. 20 dB mehr Antenneneingangspegel erforderlich. Bei nicht ausreichendem Rauschabstand kann deshalb auch auf Monobetrieb umgeschaltet werden. Komplexe Vielkanalsysteme, die
Literatur
229
an wechselnden Einsatzorten betrieben werden, sind am einfachsten an wechselnde HFUmfelder anzupassen, wenn die Parameter über spezielle Rechnersteuerungen wie auch die Funkmikrofone verwaltet werden.
Standards [AES42-2001] [DIN 45405] [DIN 45590] [DIN 45595] [DIN 45596] DIN EN IEC 61938] [DIN EN 61672] [DIN EN IEC 61938] [DIN EN 60268-5] [DIN IEC 651] [ISO 12913] [ITU-R BS.468-4] [ITU-R BS.708]
AES standard for acoustics – Digital interface for microphones, Audio Engineering Society, 2001, revidierte Ausgabe 2006 Störspannungsmessung in der Tontechnik, zurückgezogen Mikrophone; Begriffe, Formelzeichen, Einheiten Anschluß von Transistormikrofonen mit Tonaderspeisung Mikrofone; Phantomspeisung, ersetzt DIN 45 96 IEC 61 672-2003 bzw. [DIN EN 60268-4] Elektroakustische Geräte – Mikrofone Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Schallpegelmesser Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Elektroakustische Geräte - Teil 5: Lautsprecher Schallpegelmesser Akustik - Soundscape Measurement of audio frequency noise voltage level in sound broadcasting Determination of the electro-acoustical properties of studio monitor headphones
Literatur [D’Appolito, 1999] [Arasin, 2007] [Becker-Foss, 2010] [Farrar, 1979] [Fedke, 2007] [Genuit, 1981] [Genuit, 1984] [Genuit, 1087] [Gierlich, 1989] [Görne, 2004] [Görne, 2007] [Hudde, 1980]
D’Appolito, J.: Lautsprecher-Messtechnik. PC-gestützte Analyse analoger Systeme, 1999, Elektor Arasin, P. und Hoemberg, M.: Funkmikrofone und Wireless Monitoring, Grundlagen, unmittelbare Praxis-Tipps, 2007, Sennheiser-Firmenschrift Becker-Foss, Cl., Stephan Flock, St., Jahne, H., Langen, Ch., Werwein, M., Wittek, H.: White Paper „Digitale Mikrofone und AES42“, Version 2.1, 11. 05. 2010, www.hauptmikrofon.de, Zugriff 30.6.2010 Farrar, K.: „Soundfield microphone“, in: Wireless World 1979, S. 48ff. Fedke, T. et.al.: Kunstkopftechnik - eine Bestandsaufnahme, Acustica Vol. 93, 2007 Genuit, K.: „Optimierung eines Kunstkopf-Aufnahmesystems“, in: Bericht 12. Tonmeistertagung München 1981, S. 218 ff. Genuit, K.: Ein Modell zur Beschreibung der Außenohrübertragungseigenschaften, Diss. 1984, RWTH Aachen Genuit, K.: Verfahren zur Filterung von Schallsignalen, Patent DE 3709397, 1987 Gierlich, H. W., Genuit, K.: „Processing Artificial Head Recordings”, in: J. Audio Eng. Soc., Vol 37, No. 1/2, 1989, S. 34 ff. Görne, Th. und Bergweiler, St.: Monitoring. Lautsprecher in Studio- und HiFi-Technik, 2004, ppv Medien Görne, Th.: Mikrofone in Theorie und Praxis, 2. Aufl. 2007, Elector-Verlag Hudde, H.: „Messung der Trommelfellimpedanz des menschlichen Ohres bis 19 kHz, Diss. 1980, Universität Bochum
230
4 Mikrofone und Lautsprecher
[Kürer, 1969] Kürer, R., Plenge, G., Wilkens, H.: „Correct Spatial Sound Perception Rendered by a Special Two-Channel Recording Method”, 37. AES Convention, New York 1969 [Lerch, 2009] Lerch, R., Sessler, G. und Dietrich Wolf, D.: Technische Akustik. Grundlagen und Anwendungen: Grundlagen und Anwendungen, 2009, Springer [Möser, 2009] Möser, M.: Technische Akustik, 8. Aufl., 2009, Springer [Peus, 2001] Peus, S.: „The digitally interfaced microphone“, preprint 110. AES-Convention Amsterdam 2001 [Platte, 1975] Platte, H.-J., Laws, P., vom Hövel, H.: „Anordnung zur genauen Reproduktion von Ohrsignalen“, in: DAGA 1975 Braunschweig, S. 361 ff. [Schneider, 1998] Schneider: „Eigenrauschen und Dynamikumfang von Mikrofonen und Aufnahmekette“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, Saur, 1999 [Schneider, 2008] Schneider, M.: „Mikrofone“, in: Weinzierl, St.: Handbuch der Audiotechnik, 2008, Springer, S. 313ff. [Stark, 2003] Stark, B.: Lautsprecher-Handbuch. Theorie und Praxis des Boxenbaus, 8. Aufl. 2003, Pflaum [Theile, 1984] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe“, Bericht 13. Tonmeistertagung München 1984, S. 112 ff. [Theile, 1985] Theile, G.: „Beurteilungskriterien für Kopfhörer unter Berücksichtigung verschiedener Anwendungsbereiche“, in: NTG-Fachtagung Hörrundfunk, Mannheim 1985, S. 290 ff. [Theile, 2015] Theile, Günther: „Der Studio-Kopfhörer“, in: VDT-Magazin 2015, H. 2, S. 9 ff. [Vorländer, 1989] Vorländer, M.: „Virtuelle akustische Welten in Forschung und Praxis“, in: Akustik Journal der DEGA 02/2021 [Wittek, 2010] Wittek, H. et alii: „Neuartiges Richtrohrmikrofon-Prinzip mit erhöhter Richtwirkung“, Bericht 26. Tonmeistertagung, 2010 [Wuttke, 1981] Wuttke, J.: „Mikrofondaten und ihre Bedeutung in der Praxis“, in: Bericht 12. Tonmeistertagung, 1981, Saur [Wuttke, 1985/1] Wuttke, J.: „Betriebsverhältnisse von Mikrofonen bei Wind und Popp“, in: Bericht 14. Tonmeistertagung, 1985, Saur [Wuttke, 1985/2] Wuttke, J.: „Kondensatormikrofone mit Kugelcharakteristik“, in: Bericht 13. Tonmeistertagung, 1985, Saur [Wuttke, 1997] Wuttke, J.: „Wie universell kann ein Mikrofon sein“, in: Bericht 19. Tonmeistertagung, 1997, Saur [Wuttke, 1998] Wuttke, J.: „Die 48 V-Phantomspeisung und ihre Geister“, in: Mikrofon Spezial, Sonderheft Studio Magazin 1998 [Wuttke, 2000] Wuttke, J.: Mikrofonaufsätze, 2000, Firmenschrift, Schoeps [Zollner, 1993] Zollner, M. und Zwicker, E.: Elektroakustik, 3. Aufl. Berlin
5 Tonaufnahme und Tonwiedergabe Günther Theile Florian Camerer (5.6.5), Michael Dickreiter (5.3, 5.6.1, 5.6.2, 5.6.3.7), Harald Fuchs und Yannik Grewe (5.5.2), Wolfram Graul (5.6.3), Yannik Grewe (5.5.1.1), Hans-Joachim Maempel (5.6.4), Jörn Nettingsmeier (5.5.3.2), Lasse Nipkow (5.4.5.3, 5.5.6.2, 5.5.6.3) mit Günther Theile (5.4.3), Gerhard Spikofski (5.5.5.1) Bis in die 1990er Jahre war es angemessen und üblich, die Verfahren der damals zweikanaligen Stereofonie getrennt von ihrer Wiedergabe über Lautsprecher oder Kopfhörer zu behandeln. Mit fortschreitender Entwicklung kamen jedoch neue Systeme der Tonübertragung hinzu, die die Frage einer systemgerechten Wiedergabe eng an die Aufnahmetechnik gebunden haben, so dass sie in diesem Kapitel zusammengeführt werden. In Kap. 5.1 werden die Grundprinzipien der räumlichen Übertragung mit der Wiedergabe über Lautsprecher und Kopfhörer dargestellt, Kap. 5.2 behandelt die Phänomene der Lautsprecherwiedergabe und ihren psychoakustischen Aspekten vor allem bei Zwei-, aber auch der Mehrkanal-Stereofonie. Kap. 5.3. beschäftigt sich mit der Aufnahmetechnik für Zweikanal-Stereofonie, Kap. 5.4 für Mehrkanal-Stereofonie in der zweidimensionalen Klangdarstellung, aber auch mit zusätzlichen Höhenlautsprechern; Kap. 5.3 und 5.4 widmen sich also den eingeführten und vielfach bewährten Techniken der Tonübertragung. Kap. 5.5 schließlich erschließt die dreidimensionale, den Hörer reproduzierter Klänge räumlich einhüllende Klangdarstellung – Stichworte immersive sound und 3D – und stellt damit die aktuellen Entwicklungen der Tonübertragungstechnik mit Lautsprechern und der Binauraltechnik mit Kopfhörern systematisch dar.
5.1 Prinzipien der räumlichen Tonübertragung Bei der Tonwiedergabe gibt es für die Darstellung der räumlichen Eigenschaften von Schallquellen, also ihre Platzierung im Raum bezüglich Richtung, Entfernung und Ausdehnung, sowie die Darstellung des Raums und seiner Akustik drei grundsätzlich unterschiedliche Prinzipien: –– Lautsprecher-Stereofonie: Wiedergabe von Mikrofonsignalen aus dem Aufnahmeraum durch Lautsprecher, also die allgemein verbreitete Form der Tonwiedergabe (Kap. 5.2 bis 5.5.2), –– Synthese des umgebenden Schallfelds bei der Wiedergabe: Wellenfeldsynthese (WFS) und Higher-order Ambisonics (HOA) reproduzieren in der Nähe des Hörers das Schallfeld aus dem Aufnahmeraum (Kap. 5.5.3), –– Binaurale Reproduktion der Ohrsignale: Kopfhörerwiedergabe der Ohrsignale aus dem Aufnahmeraum, bekannt als Kunstkopfverfahren (Kap. 5.5.5); Binauralisierung ist die Kopfhörerwiedergabe der Ohrsignale aus dem Lautsprecher-Wiedergaberaum (Kap. 5.5.6). Alle bekannten räumlichen Tonübertragungs- bzw. Tonwiedergabeverfahren lassen sich auf diese drei Methoden zurückführen oder stellen Mischformen daraus dar mit dem Ziel, https://doi.org/10.1515/9783110759921-005
232
5 Tonaufnahme und Tonwiedergabe
bestimmte Vorteile einzelner Methoden – abhängig vom praktischen Anwendungsbereich – zu nutzen bzw. ihre Nachteile zu umgehen.
5.1.1 Lautsprecher-Stereofonie Die Abbildung eines akustischen Geschehens durch Lautsprecher gewinnt mit der Stereotechnik an Durchsichtigkeit, Räumlichkeit und Klangfülle gegenüber der Abbildung mit Monotechnik. Mit Durchsichtigkeit wird die Möglichkeit, eine einzelne Schallquelle bzw. einzelne Schallquellen eines Klangkörpers herauszuhören, also getrennt zu lokalisieren und zu verfolgen, bezeichnet. Außerdem erweitert die Stereofonie die Möglichkeiten, Bewegungsabläufe bei Fernsehtonaufnahmen, Hörspielen und Musikaufnahmen akustisch abzubilden oder rein elektronisch in einer Nachbearbeitung zu erzeugen und Schallquellen mit den Mitteln der Tonregie in gewünschte Positionen zu bringen. Die Vermittlung der Raumillusion wird gegenüber der Monofonie entscheidend verbessert. Stereofonie – der Wortbedeutung nach „räumlicher Schall“ – werden die Übertragungsverfahren genannt, die durch Verwendung von zwei und mehr Übertragungskanälen die räumliche Dimension des Klangbilds übertragen. Zu der räumlichen Dimension gehören die Positionen der Schallquellen im Raum, ihre Ausdehnung und Entfernung, aber auch die Richtungsverteilung der ersten Raumreflexionen und des Nachhalls. Stereofonie beruht auf den Gesetzmäßigkeiten der Lokalisierung in den sich überlagernden Schallfeldern zweier Lautsprecher. Die Richtungsdarstellung erfolgt in der Abbildungsebene zwischen zwei benachbarten Lautsprechern. Die Wahrnehmung des natürlichen Raumeindrucks und der räumlichen Tiefe ist mit der einfachen Zweikanal-Stereofonie, der sog. 2/0-Stereofonie, nicht erreichbar, sondern nur eine perspektivische Darstellung, ähnlich der perspektivischen Darstellung in einem flächigen Bild [Theile, 1980, 1991]. Bei der sog. 3/2-Stereofonie – ein Verfahren mit drei frontalen und zwei seitlichen sog. SurroundLautsprechern – kann mit Hilfe der seitlichen Lautsprecher, der Surround-Kanäle, die Abbildungsebene zwischen den frontalen Lautsprechern zu den Seiten hin vergrößert werden. Daraus ergeben sich Möglichkeiten für die Reproduktion des frühen Seitenschalls zur Darstellung der räumlichen Tiefe sowie des Nachhalls zur Darstellung des Raumeindrucks und der Umhüllung [Theile, 2001/1]. Eine besondere Einschränkung zeigt sich bei der 3/2-Stereofonie für die Darstellung der akustischen Nähe. Wie bei der konventionellen Zweikanal-Stereofonie ist es normalerweise nicht möglich, im Bereich zwischen dem Hörer und den Lautsprechern Hörereignisse abzubilden bzw. zu lokalisieren. Die Entfernung einer Phantomschallquelle zum Hörer kann nicht kleiner sein als diejenige zu den wiedergebenden Lautsprechern. Aus diesem Grund ist die Darstellung einer sehr nahen akustischen Umgebung trotz sehr nah aufgestellter Mikrofone problematisch. Eine überzeugende akustische Einhüllung des Hörers ist oft schwierig und gelingt selten so überzeugend, wie das etwa mit der Kunstkopftechnik möglich ist, z. B. der Applaus in einem Konzertsaal. Ein weiterer Nachteil der Lautsprecherstereofonie betrifft die begrenzte Abhörzone, die sich einerseits aus der geringen Richtungsstabilität der Phantomschallquelle ergibt – der Hörer darf den optimalen Hörplatz nicht verlassen –, andererseits aus der stark platzabhän-
5.1 Prinzipien der räumlichen Tonübertragung
233
gigen Lautstärkebalance der Wiedergabekanäle. Die geringe Stabilität der Richtungsabbildung ist auf die Laufzeitverschiebungen zurückzuführen, die sich von Ort zu Ort ändert. Verschiebungen der Lautstärkebalance machen sich für die Surround-Kanäle besonders schnell bemerkbar, wenn das Pegelverhältnis von direktem zu indirektem Schall betroffen ist. Dieses Problem lässt sich dadurch reduzieren, dass man die Entfernung der Lautsprecher zum Hörer vergrößert. Auf Einzelheiten wird in den Kap. 5.2 bis 5.5 ausführlich eingegangen.
5.1.2 Synthese des umgebenden Schallfelds Neben Lautsprecher-Stereofonie ist die Darstellung virtueller Schallquellen und Räume durch ein akustisch korrektes Schallfeld bei der Wiedergabe in der Umgebung des Hörers möglich. Dieses anspruchsvolle Ziel wird auf zwei ähnlichen Wegen verfolgt, mit der Weiterentwicklung der Ambisonics-Mikrofontechnik [Gerzon, 1975/1], [Fellgett, 1974, 1975], [Craven, 2009] hin zum Higher-order Ambisonics-Verfahren (HOA, siehe Kap. 5.5.3.2) sowie mit der Entwicklung der Wellenfeldsynthese (WFS) [Berkhout, 1993], [Boone, 1995], siehe Kap. 5.5.3.1. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch ist. Die für das Hörereignis wirksamen Ohrsignale entstehen
Abb. 5/1. Vergleich der Ohrsignale einer Phantomschallquelle im überlagerten Schallfeld bei ZweikanalStereofonie mit den Ohrsignalen der virtuellen Schallquelle bei Wellenfeldsynthese bei gleicher Hörereignisrichtung [Theile, 1980/1].
234
5 Tonaufnahme und Tonwiedergabe
also im Gegensatz zur Binauraltechnik auf natürlichem Wege im Schallfeld, nicht nur an den Ohren. Der Hörer kann sich in der gesamten Hörzone wie gewohnt frei bewegen, wobei die virtuellen Schallquellen an ihrem Ort stabil lokalisierbar bleiben und eine natürliche Perspektive wahrgenommen wird. Diese ist mit den Mitteln der Stereofonie nicht möglich [Theile, 2002], [Wittek, 2004]. Abb. 5/1 zeigt eine Phantomschallquelle bei Zweikanal-Stereofonie im Vergleich mit einer virtuellen Schallquelle in einer Wellenfeldsynthese. Die resultierenden Ohrsignalspektren, interauralen Signaldifferenzen und -korrelationen sind völlig unterschiedlich, obwohl in beiden dargestellten Fällen die Hörereignisse bezüglich Klangfarbe, Richtung und Entfernung ähnlich sind. Nur bei idealer Wellenfeldsynthese entspricht das synthetische Wellenfeld-Schallfeld dem einer entsprechenden Realschallquelle, was beim Schallfeld bei Stereofonie nicht zutrifft, Einzelheiten dazu in Kap. 5.5.3.1 sowie in [Wittek, 2007].
5.1.3 Binaurale Reproduktion der Ohrsignale Die ursprüngliche Ausführung dieser Methode ist die bekannte Kunstkopfstereofonie. Dabei wird nicht versucht, am Ort der Wiedergabe ein geeignetes Schallfeld zu reproduzieren, vielmehr werden die Ohrsignale eines künstlichen Kopfs, eines Kunstkopfs, im Aufnahmeraum aufgenommen und grundsätzlich durch Kopfhörer wiedergegeben. Im Idealfall sind die reproduzierten Kunstkopfsignale identisch mit den individuellen Ohrsignalen, die der Hörer im Aufnahmeraum am Ort des Kunstkopfs empfangen würde. Das virtuelle Hörereignis im Kopfhörer entspricht dem realen Schallereignis im Aufnahmeraum. Einzelheiten werden in den Kap. 5.5.5 und 5.5.6 behandelt. Für den praktischen Einsatz dieses Verfahrens gibt es aber leider gravierende Einschränkungen: –– Die Reproduktion der Ohrsignale muss sehr genau erfolgen, Unterschiede des individuellen Außenohrs zum Kunstkopf-Außenohr verursachen bereits Beeinträchtigungen. Auch wirken Eingriffe wie Dynamikeinengung, Lautstärkeeinstellung und Störgeräusche nachteilig auf die Wiedergabe ein. –– Die Ohrsignale müssten fortlaufend an die momentane Kopfhaltung des Hörers angepasst werden − man nennt das head tracking, insbesondere um die korrekte Lokalisierung in der senkrechten Ebene, der sog. Medianebene (siehe Kap. 3.4) sicherzustellen. [Mackensen, 1998]. –– Die Reproduktion der Ohrsignale muss grundsätzlich über Kopfhörer erfolgen. Sog. Transauralisationsverfahren, die für die Lautsprecherwiedergabe vorher eine inverse Filterung der Übertragungsfunktion des Außenohrs durchführen, sind nicht genau genug und schränken die Hörzone auf wenige Zentimeter ein. –– Eine künstlerische Gestaltung des Klangbilds ist nur in sehr engem Rahmen möglich. Das gilt für die klangliche und räumliche Balance z. B. der Instrumente ebenso wie für die Darstellung des Raums und der den Hörer einhüllenden raumakustischen Atmosphäre. Die Abhängigkeit von den Gegebenheiten der Aufführung ist sehr groß und meist nicht praktikabel. –– Ein gelungenes Klangbild für die Kopfhörerwiedergabe stellt die Abbildung eines Hörerplatzes im Aufnahmeraum, z. B. einem Konzertsaal, dar. Bei Lautsprecherwiedergabe in einem Wohnraum widerspricht die optische Wahrnehmung der akustischen Wahrnehmung.
5.2 Stereofonie
235
5.2 Stereofonie Bei der üblichen Stereoanordnung, bei der zwei Lautsprecher mit dem Hörer ein gleichseitiges oder nahezu gleichseitiges Dreieck bilden (Abb. 5/2, siehe auch Abb. 5/1), ergeben sich ganz andere Verhältnisse als beim „natürlichen“ Hören. Sie sind wesentlich komplexer und werfen eine Reihe von Fragen auf. Zunächst werden deshalb nur die Hörphänomene beschrieben, die mit der Bildung der für Stereowiedergabe wesentlichen Phantomschallquellen zusammenhängen, sowie die sich daraus ergebenden Möglichkeiten der Anwendung. Danach wird in Kap. 5.2.3 auf Fragen zu den Ursachen dieser Phänomene der Stereofonie näher eingegangen. Darauf aufbauend werden im folgenden Kap. 5.2.4 die Prinzipien der räumlichen stereofonen Abbildung dargestellt, die Möglichkeiten und Grenzen der konventionellen Zweikanal-Stereofonie einerseits und der Mehrkanal-Stereofonie andererseits. Kap. 5.5.4 geht auf die psychoakustischen Phänomene sowie auf praktische Konsequenzen ein, die mit der Wiedergabe der stereofonen Signale über Kopfhörer zusammenhängen.
5.2.1 Phantomschallquellen Stellt man – wie in Abb. 5/2 dargestellt – zwei Lautsprecher L1 und L2, die gleichzeitig exakt dasselbe Signal abstrahlen, in einem bestimmten Abstand, der Basis b, zueinander auf, so lokalisiert ein Hörer H nicht zwei getrennte Schallquellen bei L1 bzw. L2, sondern nur eine einzige fiktive Schallquelle, eine sog. Phantomschallquelle oder virtuelle Schallquelle in der Mitte der Basis. Sie ist fiktiv oder virtuell, weil an diesem Punkt keine wirkliche Schallquelle existiert, der Ort der Schallquelle also nur in der auditiven Verarbeitung der Ohrsignale durch den Hörer gebildet wird. Erzeugt und verändert man innerhalb bestimmter Grenzen kontinuierlich Pegel- oder/und Laufzeitdifferenzen zwischen den Signalen an L1 und L2, so wandert die fiktive Schallquelle S entlang der Lautsprecherbasis zur Seite, bis sie schließlich in einem der beiden Lautsprecher stehen bleibt. Dieser Effekt ist grundlegend für die stereofone Schallwiedergabe, er macht die Illusion einer räumlichen Schallwiedergabe erst möglich.
Abb. 5/2. Standard-Lautsprecheranordnung in einem gleichschenkligen Dreieck mit dem Hörer für Zweikanal-Stereowiedergabe.
236
5 Tonaufnahme und Tonwiedergabe
Während bei der Lokalisierung einer realen Schallquelle das Schallsignal nur von einem Punkt ausgeht, der Richtungseindruck also aus einem einzigen Schallsignal gewonnen wird, überlagern sich bei der stereofonen Lautsprecherwiedergabe die Signale von zwei Schallquellen bzw. Lautsprechern. Hierbei erhält jedes Ohr von jedem der beiden Lautsprecher einen bestimmten Schallanteil, woraus das Gehör den Richtungseindruck der fiktiven Schallquelle ableitet. Abb. 5/3 zeigt für einige spezielle Fälle schematisch die Signalkonfigurationen an den Ohren des Hörers. Daraus wird ersichtlich, dass sich bei jedem Ohr zwei Signale überlagern, die aber zu einer einzigen Wahrnehmung führen. Voraussetzungen für die einwandfreie Lokalisierbarkeit sind, dass die Lautsprecher von derselben Schallquelle stammende, sog. kohärente Signale ohne Phasenumkehrung abstrahlen, dass die Pegel- und/ oder Laufzeitdifferenzen innerhalb bestimmter Grenzen bleiben und dass sich der Hörer in einer bestimmten geometrischen Position zu den Lautsprechern befindet, nämlich innerhalb der sog. Stereohörfläche oder -hörzone (Abb. 5/9). Je nach angewandtem Aufnahmeverfahren treten Pegel- und Laufzeitdifferenzen zwischen den Lautsprechersignalen L1 und L2 allein oder gleichzeitig auf.
Abb. 5/3. Signalkonfigurationen an den Ohren bei Stereowiedergabe nach Abb. 5/2.
Als erster erkannte und patentierte Alan D. Blumlein 1931 die Möglichkeiten, stereofone Klangbilder auf Grund von Phantomschallquellen zu übertragen. Bereits 1933 wurde ein Konzert stereofon von Philadelphia nach Washington übertragen und über zwei Lautsprecher stereofon wiedergegeben. Die ersten klassischen Versuche zur Abbildung von Phantomschallquellen wurden 1940 von de Boer durchgeführt; danach wurden die Versuche von zahlreichen Autoren unter verschiedenen Versuchsbedingungen fortgeführt [Blauert, 2000]. 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen Strahlen bei einer Wiedergabeanordnung nach Abb. 5/2 die beiden Lautsprecher dasselbe Signal phasengleich ab, so wird bei gleichem Pegel von L1 und L2 eine fiktive Schallquelle S genau in der Mitte der Basis b lokalisiert. Bei Pegeldifferenzen wandert die fiktive Schallquelle auf der Basis seitlich aus, um bei einer Pegeldifferenz von 15 bis 25 dB ganz an dem
5.2 Stereofonie
237
Ort des Lautsprechers mit dem höheren Pegel stehen zu bleiben. Bereits bei nur 12 bis 15 dB Pegeldifferenz befindet sich die fiktive Schallquelle so nahe an diesem Lautsprecher, dass in der Praxis eine Pegeldifferenz von etwa 15 dB zur Lokalisierung „ganz seitlich“ führt. Die Abbildungsrichtungen der Phantomschallquellen, die durch Pegeldifferenzen bedingt sind, sind in relativ geringem Maß von der akustischen Gestalt des Signals und von anderen Bedingungen abhängig. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Pegeldifferenz ΔL zeigt Abb. 5/4. Angegeben sind die Auslenkungen der Phantomschallquelle relativ zur Lautsprecher-Basisbreite. In der Standard-Lautsprecheranordnung auf den Ecken eines gleichseitigen Dreiecks gemäß Abb. 5/2 entsprechen 100 % Auslenkung der Phantomschallquellenrichtung ± 30°. Man erkennt, dass im Bereich um die Mitte der Lautsprecherbasis die Kurven weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 7,5 %/dB zu Grunde gelegt. Die Tatsache, dass die Auslenkungen der Phantomschallquellen relativ zur Basisbreite weitgehend unabhängig vom Basisöffnungswinkel sind, wird im Kap. 5.2.3 näher erläutert. Das ist nicht nur hinsichtlich der Bewegungsfreiheit des Hörers nach vorne und hinten von großer praktischer Bedeutung, sondern auch bei der Mehrkanal-Stereofonie, bei der mit Hilfe des Center-Kanals C die Lautsprecherbasis zwischen L und R in die Sektoren L bis C und C bis R geteilt ist, so dass an Stelle von einer Basis mit Basisöffnungswinkel 60° nebeneinander zweimal eine Basis mit jeweils 30° Basisöffnungswinkel vorhanden ist. In allen Abbildungsbereichen gelten dieselben Gesetzmäßigkeiten.
Abb. 5/4. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Pegeldifferenz ΔL. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], C nach [Brittain, 1956], D nach [Simonson, 1984].
Die Pegeldifferenzen, die zu einer bestimmten Abbildungsrichtung der Phantomschallquelle führen, sind deshalb auch nicht identisch mit den resultierenden Pegeldifferenzen zwischen
238
5 Tonaufnahme und Tonwiedergabe
den beiden Ohren beim „natürlichen“ Hören, wenn sich die reale Schallquelle am Ort der Phantomschallquelle befinden würde (siehe Kap. 5.1 und 5.2.3). Dies gilt sinngemäß auch für Phantomschallquellen bei Zeitdifferenzen, siehe dazu unten. Es ist also möglich, durch reine Pegeldifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür ausschließlich entsprechende Pegeldifferenzen zwischen dem linken und rechten Kanal L und R erzeugt werden, man nennt dieses Aufnahmeverfahren Intensitätsstereofonie (siehe Kap. 5.3.2). 5.2.1.2 Phantomschallquellen bei Zeitdifferenzen Bei der Stereowiedergabe nach Abb. 5/2 führen auch Laufzeitdifferenzen zwischen 0 und etwa 1 ms zwischen identischen Lautsprechersignalen zu Phantomschallquellen auf der Stereobasis. Die Wirkung von Laufzeitdifferenzen zwischen 3 und 30 ms beschreibt das sog. Gesetz der ersten Wellenfront, auch als Haas-Effekt oder Precedence-Effekt bekannt, wonach bei breitbandigen Signalen nur derjenige Lautsprecher als Ort der Schallquelle gehört wird, der das Schallsignal zuerst abstrahlt, auch wenn der andere Lautsprecher einen höheren Pegel hat. Bei Laufzeitdifferenzen von mehr als 30 bis 90 ms – je nach Art des Schallsignals – werden schließlich zwei in ihrer Richtung und zeitlich getrennte Signale gehört. Der Übergang zwischen diesen Zeitbereichen ist gleitend und von der Art des Signals abhängig. Laufzeitdifferenzen im Übergangsbereich können Hörereignisse hervorrufen, die über die ganze Basis ausgedehnt erscheinen. Ab einer Laufzeitdifferenz von etwa 0,6 ms bis hin zu Echos erzeugenden Verzögerungszeit von ca. 40 ms bewirken Kammfiltereffekte am Ohr des Hörers eine Verfärbung des Klangbilds; sie hängen stark von der Art des Schalls und von der Anzahl von Reflexionen in der Aufnahme ab. Abb. 5/5 fasst die verschiedenen Wirkungen der Laufzeitdifferenzen zusammen.
Abb. 5/5. Wirkungen der Zeitverzögerung zwischen identischen Signalen an den Lautsprechern L1 und L2 nach Abb. 5/2.
Anders als bei Phantomschallquellen, die durch Pegeldifferenzen ausgelenkt werden, können Laufzeitdifferenzen die Richtungsstabilität der Phantomschallquelle mit steigender Zeitdifferenz beeinträchtigen; ab etwa 0,5 ms steigt die Unsicherheit der Richtungswahrneh-
5.2 Stereofonie
239
mung an, stark von der Art des Schalls abhängig. Bei Sprache genügen schon verhältnismäßig geringe Laufzeitdifferenzen zwischen den Lautsprechersignalen, bei tiefen sinusförmigen Dauertönen sind vergleichsweise große Laufzeitdifferenzen zur Auslenkung notwendig. Sinusförmige Dauertöne im mittleren Frequenzbereich werden insofern nicht eindeutig abgebildet, weil einer Abbildungsrichtung zwei oder mehr unterschiedliche Phasen- bzw. Laufzeitdifferenzen zuzuordnen sind. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Laufzeitdifferenz Δt zeigt Abb. 5/6. Angegeben sind auch hier die Auslenkungen der Phantomschallquellen relativ zur Lautsprecher-Basisbreite. Man erkennt, dass im inneren Bereich der Lautsprecherbasis die Kurven wie bei Pegeldifferenzen weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 13 %/0,1 ms zu Grunde gelegt. Es ist also möglich, durch reine Laufzeitdifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür auch reine Laufzeitdifferenzen zwischen dem linken und rechten Kanal erzeugt werden, man nennt dieses Aufnahmeverfahren Laufzeitstereofonie (siehe Kap. 5.3.3).
Abb. 5/6. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Laufzeitdifferenz Δt. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], D nach [Simonson, 1984], E nach [Sengpiel].
5.2.1.3 Phantomschallquellen beim Zusammenwirken von Pegel- und Laufzeitdifferenzen Reine Intensitätsstereofonie benutzt nur Pegeldifferenzen zwischen den Lautsprechersignalen, reine Laufzeitstereofonie nur Laufzeitdifferenzen. Es gibt aber auch Aufnahmeverfahren, bei denen Pegel- und Laufzeitdifferenzen gleichzeitig und gleichsinnig auftreten. Dazu gehören alle Verfahren, die mit unterschiedlich ausgerichteten und zugleich distanzierten
240
5 Tonaufnahme und Tonwiedergabe
Richtmikrofonen arbeiten, sowie alle Verfahren, bei denen zwischen ungerichteten Mikrofonen Trennkörper eingefügt werden, den sog. Trennkörperverfahren. Bei diesen sog. gemischten Aufnahmeverfahren wirken Pegel- und Laufzeitdifferenzen gleichgerichtet zusammen. Die Auslenkung der Phantomschallquelle ist bei solchen Bedingungen größer als sie es auf Grund von Pegel- oder Laufzeitdifferenzen allein wäre. Der Frage, in welcher Weise gleichsinnige Laufzeit- und Pegeldifferenzen auf die Abbildungsrichtung der Phantomschallquelle wirken, wird ausführlich im Kap. 5.2.2 im Zusammenhang mit der Bestimmung des Aufnahmewinkels oder -bereichs eines Stereomikrofons nachgegangen. Bezüglich der Lokalisierungsschärfe sind Pegel- und Laufzeitdifferenzen im Bereich kleiner Werte der Auslenkung der Phantomschallquelle gleichwertig. Dagegen gibt es Unterschiede im Bereich größerer Auslenkungen: Eine wachsende Pegeldifferenz führt zu einer Zunahme, eine wachsende Laufzeitdifferenz zu einer Abnahme der Lokalisierungsschärfe. Mikrofonanordnungen der „gemischten“ Aufnahmeverfahren, deren Anteile aus Pegelund Laufzeitdifferenzen ungefähr gleichgewichtig sind, nehmen eine gewisse Sonderstellung ein, offenbar kann die Lokalisierungsschärfe in diesem Fall ein Optimum erreichen. Eine solche Anordnung zweier Mikrofone kann als Äquivalenzmikrofon bezeichnet werden. Gegensinnige Pegel- und Laufzeitdifferenzen können nur begrenzt zu einer Aufhebung der Auslenkungen führen, vielmehr aber zu einer starken Abnahme der Lokalisierungsschärfe. 5.2.1.4 Seitliche Phantomschallquellen Auf Grund praktischer Erfahrungen und Untersuchungen weiß man, dass Phantomschallquellen mit zwei Lautsprechern seitlich vom Hörer äußerst instabil und empfindlich bezüglich des Abhörpunkts sind, auch hinsichtlich des Signalspektrums. Stereofonie funktioniert nur dann in der gewohnten Weise, wenn die zwei an der Bildung der Phantomschallquellen beteiligten Lautsprecher weitgehend symmetrisch zum Hörer, genauer zur Medianebene des Hörers, angeordnet sind. Dreht der Hörer seinen Kopf im Referenzpunkt der Anordnung geringfügig, so verändern sich die Auslenkung der Phantomschallquelle und die Lokalisierungsschärfe nur unwesentlich. Dreht der Hörer seinen Kopf jedoch so weit, dass einer der Lautsprecher hinter der Ohrenachse liegt und einer davor, so werden die Lokalisierungskurven steiler und die Lokalisierungsschärfe geringer. Ein Lautsprecherpaar, das seitlich genau symmetrisch zur Ohrenachse aufgestellt ist, ermöglicht keine stabile Lokalisierung, seitliche Phantomschallquellen werden nicht gebildet. Die Versuchsergebnisse für verschiedene Ausrichtungen eines Lautsprecherpaars, das mit dem Hörer ein gleichseitiges Dreieck bildet, zeigt Abb. 5/7. Testergebnisse für die Lautsprecheranordnung für Surround-Stereofonie nach dem Standard 5.1 im Studio mit einem Lautsprecherabstand zum Hörer von 2,5 m zeigt Abb. 5/8. Die wahrgenommenen Richtungen sind als Funktion der Pegeldifferenzen der Lautsprecherbasis C-L sowie die Lautsprecherbasis L-LS dargestellt.
5.2 Stereofonie
241
Abb. 5/7. Auslenkung der Phantomschallquellen mit ihren Unschärfebereichen bei Pegeldifferenzen in Abhängigkeit von dem Ausrichtungswinkel zum Hörer [Theile, 1976].
Die in Abb. 5/8 eingetragenen Streuungen sind für die Lautsprecherbasis L-LS wesentlich größer als für die Basis C-L. Sie zeigen, dass selbst im Referenzpunkt die Lokalisierung der seitlichen Phantomschallquelle verschwommen und instabil ist. Ferner besteht im Seitenbereich keine ausreichende Richtungsstabilität. Bewegt sich der Hörer nur gering vom Referenzpunkt weg, so führt das zu gravierenden Richtungsverzerrungen, die Lokalisierungskurve ist wesentlich steiler als im Bereich der vorderen Lautsprecher L-C-R, es besteht die Gefahr eines „Lochs an der Seite“. In der Mischung sind die beiden seitlichen Abbildungsbereiche L‑LS und R‑RS nicht so nutzbar wie der vordere Abbildungsbereich L-C-R. Mit Ausnahme von bewegten Schallquellen kann also nicht mit einer Richtungsabbildung von seitlichen Schallquellen gerechnet werden.
242
5 Tonaufnahme und Tonwiedergabe
Abb. 5/8. Wahrnehmung von seitlichen Phantomschallquellen beim SurroundStandard 5.1in Abhängigkeit von deren Pegeldifferenz. 1: Versuchspersonen im Referenzpunkt, 2: ein Sitz links vom Referenzpunkt, 3: ein Sitz vor dem Referenzpunkt [Zieglmeier, 1996].
Eigenschaften und Einsatz der Phantomschallquellen Phantomschallquellen weisen in der Regel eine größere Ausdehnung auf als Realschallquellen. Die Ausdehnung und Unschärfe steigen mit Abnahme des Korrelationsgrads der stereofonen Signale. Frequenzanteile unterhalb von 500 Hz führen zu einer stärkeren Ausdehnung der Phantomschallquelle in diesem Teilbereich, da dort die Lokalisationsreizselektion nicht mehr möglich ist [Silzle, 1990]. Sind mehr als zwei Lautsprecher an der Ausbildung der Phantomschallquelle beteiligt, entsteht eine Phantomschallquelle mit noch größerer Ausdehnung. Die Phantomschallquelle weist geringfügige Klangverfärbungen im Vergleich zu einer Realschallquelle auf, beispielsweise im Vergleich der Lautsprecherwiedergabe einer Sprachaufnahme im Center vorne mit der entsprechenden Phantomschallquelle der Stereoanordnung [Silzle, 1990]. Hörerfahrungen mit weniger trockenen Aufnahmen zeigen, dass die gefundene Klangverfärbung der Phantomschallquelle besonders bei Aufnahmen mit hohem
5.2 Stereofonie
243
Anteil an indirektem, diffusem Schall weit weniger wahrnehmbar ist. Die Klangfarbe wird bei solchen Aufnahmen vorwiegend durch den unkorrelierten Anteil des stereofonen Signals bestimmt. Bereits der Standard ITU-R BS. 775-1 von 1992/1994 definiert neben dem 5.1-Format das 7.1-Format, das mit zwei zusätzlichen Kanälen die Möglichkeiten seitlicher Abbildungen verbessern kann. In jüngerer Zeit sind diverse Mehrkanal-Tonformate etabliert worden, die mit größeren Lautsprecher-Setups eine wesentlich stabilere Abbildung im gesamten oberen Halbraum möglich machen (vergl. Kap. 5.5.1.1). Bei verschiedenen Mischungen ist für bestimmte Einzelquellen die Richtungswahrnehmung von untergeordneter Bedeutung. Besonders die größeren Lautsprecher-Setups erlauben es deshalb, diese Quellen direkt auf die Lautsprecher zu routen, so dass dafür eine maximale Richtungsstabilität und Lokalisationsschärfe sichergestellt sind und zudem die klanglichen Vorteile von Realschallquellen gewonnen werden. 5.2.1.5 Stereohörzonen Bei den bisherigen Ausführungen wurde davon ausgegangen, dass der Hörer sich genau im Referenzpunkt der stereofonen Lautsprecheranordnung gemäß Abb. 5.2 befindet, also mit den Lautsprechern ein gleichschenkliges Dreieck bildet. Dies ist aber in der Praxis selten der Fall. Deshalb ist es wichtig, die Robustheit der Wiedergabeeinrichtung gegenüber Abweichungen vom Bezugshörort zu kennen. Darauf basierend kann man im Rahmen bestimmter Toleranzen die Stereohörflächen oder -hörzonen einer Lautsprecheranordnung festlegen, so dass verschiedene zwei- und mehrkanalige Wiedergabeeinrichtungen diesbezüglich vergleichbar sind. Verlässt der Hörer die Symmetrieachse der Lautsprecheranordnung, entstehen Verzerrungen der Richtungsdarstellung. Diese sog. Abbildungsverzerrungen – angegeben in % – ergeben sich, weil die von den Lautsprechern abgestrahlten Signale mit zusätzlichen Laufzeitdifferenzen beim Hörer eintreffen und damit ein Auswandern der Phantomschallquellen in Richtung des näheren Lautsprechers verursachen. Die resultierende Auslenkung lässt sich den in Abb. 5/6 gezeigten Kurven entnehmen. Bei nur 10 cm seitlicher Abweichung des Hörers aus der Mitte der Standard-Stereoanordnung ergibt sich eine Zeitdifferenz von 0,3 ms und daraus nach Maßgabe des Auslenkungskoeffizienten von 13 %/0,1 ms eine Richtungsverschiebung der Mitten-Phantomschallquelle um 39 %. Für die Standard-Stereoanordnung mit einem Basisöffnungswinke vonl 60° sind dies etwa 12°. Bezieht man diese Auslenkung auf die gesamte Abbildungsbreite, so ergibt sich daraus eine Abbildungsverzerrung, die in diesem Beispiel 20 % beträgt. Die Abbildungsverzerrung bezieht sich auf die Mitten-Phantomschallquelle, hier ist die Wirkung dieser ungewollten Laufzeitdifferenzen am größten. Die Breite der Hörfläche oder Hörzone ist bei der Zweikanal-Stereofonie sehr gering. Sie beträgt 20 cm, wenn eine Abbildungsverzerrung von 20 % zugelassen wird. Zu beachten ist, dass dies im Prinzip unabhängig von der Breite der Lautsprecherbasis gilt. Eine kleinere Lautsprecherbasis führt theoretisch nicht zu einer entsprechend schmäleren Hörzone. Dies scheint der praktischen Erfahrung z. B. mit Nahfeldlautsprechern zu widersprechen; Ursache hierfür ist die Wirkung des reflektierten Schalls im Wiedergaberaum auf die Ausdehnung der Phantomschallquelle. Die Lokalisierungsschärfe ist im Nahfeld der Lautsprecher
244
5 Tonaufnahme und Tonwiedergabe
besonders groß [Barron, 1981] und daher auch die Empfindlichkeit des Gehörs für Abbildungsverzerrungen [Theile, 2001/1], [Herrmann, 1999]. Es ist nicht sinnvoll, die Hörzone mit Hilfe besonders breit strahlender Lautsprecher zu Ungunsten der Lokalisierungsschärfe zu vergrößern, da hierdurch der nun vermehrt reflektierte Schall des Wiedergaberaums die Abbildung des Aufnahmeraums in den meisten Fällen beeinträchtigen wird. Die Mehrkanal-Stereofonie erzielt die gewünschte Verbreiterung der Stereohörfläche bei gleichzeitiger Verbesserung der Lokalisierungsschärfe. Zusätzliche Lautsprecher zwischen L und R bewirken, dass der Abbildungsbereich in stereofone Teilbereiche aufgeteilt wird. Wendet man auf die Teilbereiche den Zusammenhang zwischen Hörzonenbreite und Abbildungsverzerrungen an, so ergeben sich brauchbare Hörzonenbreiten bereits für zwei oder drei Teilbereiche, siehe dazu die Kap. 5.2.2. und 5.4.2. Abb. 5/9 zeigt die Hörzonen für stereofone Wiedergabeanordnungen mit zwei, drei und vier Lautsprechern. Man erkennt, dass die Hörzonenbreite überproportional mit der Lautsprecheranzahl wächst. Da die Hörzonenbreite nicht von der Abbildungsbreite B abhängt, müsste die Lautsprecheranzahl mit B wachsen, wenn das Verhältnis Abbildungsbreite zu Hörzonenbreite etwa konstant sein sollte. Auch aus diesem Grund haben deshalb im Kino mit großer Leinwand Tonsysteme mit beispielsweise fünf Lautsprechern im vorderen Abbildungsbereich ihre Berechtigung. In der Praxis sind die Hörzonen oft etwas breiter, weil der Raumanteil im stereofonen Signal die Ausdehnung der Phantomschallquelle vergrößert. Darüber hinaus bezieht sich der Grenzwert der Abbildungsverzerrung auf den kritischsten Fall der Phantomschallquelle in der Mitte eines stereofonen Teilbereichs. Alle anderen Hörereignisrichtungen, insbesondere diejenigen in der Nähe der Lautsprecher, sind stabiler. Beim 5.1-Mehrkanal-Standard (siehe Kap. 5.4.1) hat sich in der Praxis gezeigt, dass schon ein einziger Center-Lautsprecher die Stabilität der Abbildungen in den beiden stereofonen Teilbereichen ausreichend erhöht. Das gilt auch für bildbezogene Tondarstellungen, da bei normalem Programmmaterial die Toleranzschwelle des Hörers höher liegt, einerseits wegen der Ablenkung durch den Programminhalt, andererseits wegen der assoziativen Verknüpfung von Seh- und Hörereignis mit der Ausdehnung der Quelle.
Abb. 5/9. Hörzonenbreiten für Stereofonie mit zwei, drei oder vier Lautsprechern. Hörzonenbreite im Referenzpunkt etwa 20 cm, 60 cm bzw. 150 cm bei einer zugelassenen Abbildungsverzerrung von 20 %. Die Hörzonenbreiten sind von der Abbildungsbreite B unabhängig.
5.2 Stereofonie
245
Bei der Mehrkanal-Stereofonie entstehen natürlich auch Abbildungsverzerrungen, wenn sich der Hörer vom Referenzpunkt – beispielsweise auf der Symmetrielinie – nach vorn oder hinten bewegt. Speziell in der Konfiguration L-C-R verursachen Laufzeitunterschiede ein Auswandern der Phantomschallquellen in den Teilbereichen L-C bzw. C-R. Diese Abbildungsverzerrungen begrenzen jedoch in der Praxis nicht die Hörflächen nach vorne und hinten, sondern vielmehr beschränken die dabei entstehenden Verschiebungen der Lautstärkebalance zwischen den vorderen Lautsprechern und den Surround-Lautsprechern die Hörfläche. Sie können z. B. besonders die beabsichtigte Wirkung des indirekten Schalls bei Musikaufnahmen beeinträchtigen, siehe dazu auch die Kap. 5.2.4 und 5.4.3. Die Stereo-Standard-Abhörposition sieht bei Zweikanal-Stereofonie ein gleichseitiges Dreieck vor, entsprechend ist der sog. Sweet Spot bei Mehrkanal-Stereofonie definiert (siehe Kap. 5.4.1). In der Praxis der Tonaufnahme beurteilen in der Regel zumindest zwei Personen das Klanggeschehen, Tonmeister und Toningenieur; beide können sich nicht zugleich am optimalen Abhörpunkt befinden. Wie wirkt sich dies auf die Hörzone aus? Sitzen beide hintereinander um den optimalen Platz, so gibt es – auch bei drei Zuhörern – keine Einschränkungen der Beurteilungsfähigkeit. Hingegen ist eine Klangbeurteilung bei Plätzen nebeneinander unbrauchbar. Bei einer Aufnahme in Laufzeitstereofonie mit 40 cm Mikrofonbasis z. B. bewirkt eine Deplatzierung aus der Mitte um nur 5 bis 10 cm bereits eine inakzeptable Verschiebung des Klangbilds. Bei einer Aufnahme in Intensitätsstereofonie ist diese Verschiebung zwar geringer, aber dennoch inakzeptabel. Ein Ausgleich des Abbildungsfehlers bei der Wiedergabe über den Abhörbalancesteller ist nicht zulässig. Bei Mehrkanal-Stereofonie gilt im Prinzip dasselbe, wenn auch der Einfluss der seitlichen Verschiebung deutlich geringer ist; dafür wird aber der Einfluss der Verschiebung vorne/hinten in geringem Umfang wirksam.
5.2.2 Aufnahmewinkel eines Stereomikrofons Stereomikrofone – Mikrofonsysteme, die aus zwei einzelnen Mikrofonen zusammengesetzt sind – erzeugen Pegel- und/oder Laufzeitunterschiede, die die Phantomschallquelle nach Maßgabe der in Kap. 5.2.1 behandelten Lokalisierungskurven seitlich auslenken. Entspricht ein bestimmter Schalleinfallswinkel einer Schallquelle α am Stereomikrofon beispielsweise einer Laufzeitdifferenz von 0,4 ms, so ergibt sich dadurch gemäß Abb. 5/6 eine Auslenkung der Phantomschallquelle um 50 % der Lautsprecherbasisbreite, was in der Standard-Zweikanalanordnung einer Richtungsverschiebung um 15° entspricht, die Phantomschallquelle wird auf der Lautsprecherbasis also halb seitlich abgebildet. Man kann mit dieser Methode für beliebige stereofone Mikrofonanordnungen, die von der Frequenz unabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, Abbildungskurven bestimmen, die den Zusammenhang zwischen dem Schalleinfallswinkel α und der Phantomschallquellenauslenkung direkt beschreiben. Abbildungskurven von Stereomikrofonen, die frequenzabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, z. B. Trennkörper verfahren (dazu Kap. 5.3.4) werden durch Messungen im Experiment mit Testhörern ermittelt.
246
5 Tonaufnahme und Tonwiedergabe
5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen Abb. 5/10 zeigt beispielhaft eine Abbildungskurve eines zweikanaligen Mikrofons; die Schallquellenrichtung α = 20° ergibt hier eine Auslenkung der Phantomschallquelle von 50 % entsprechend einer Abbildungsrichtung von 15° in der konventionellen Zweikanal-Stereoanordnung. Man erkennt, dass nur die Schallquellen aus Richtungen bis maximal ± 45° zwischen dem linken bzw. rechten Lautsprecher abgebildet werden, sie befinden sich innerhalb des sog. Aufnahmewinkels oder Aufnahmebereichs, in diesem Beispiel beträgt er 90°. Innerhalb dieses Bereichs findet eine ausgeglichene Richtungsabbildung statt. Schallquellen, die außerhalb ± 45° liegen, erzeugen zu große Signalunterschiede und erscheinen in den Lautsprechern L bzw. R. Die Lokalisierungskurven für Pegel- bzw. Laufzeitdifferenzen (Abb. 5/4 bzw. 5/6) zeigen in den inneren Bereichen bis zu einer Auslenkung von 75 % einen weitgehend linearen Verlauf. Für diese Bereiche gelten Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms. Diese Linearität findet sich in den Abbildungskurven der Stereomikrofone wieder, siehe Abb. 5/10. Für größere Werte gibt es Übergangsbereiche, die durch eine unsichere Wahrnehmung der Richtung nahe den beiden Lautsprechern gekennzeichnet sind; auch ist dieser Winkelbereich in der Praxis für die Abbildung des stereofonen Klangbilds nicht sehr wichtig. Um für Mikrofonanordnungen zuverlässige und eindeutige Angaben über deren Aufnahmebereich zu machen, wurde deshalb vorgeschlagen, als Aufnahmewinkel 75 % bzw. recording angle 75 % für den Winkelbereich der Lautsprecherbasis von ± 75 % einzuführen [Williams, 1987]. Der Aufnahmewinkel 75 % ist in der Abbildungskurve in Abb. 5/10 eingetragen, er beträgt in diesem Beispiel 60°. Dies ist der Bereich, in dem die einzelnen Schallquellen linear und deutlich lokalisierbar abgebildet werden, der also eine gute Basis für die Planung einer Aufnahme darstellt.
Abb. 5/10. Abbildungskurve und Aufnahmewinkel eines zweikanaligen Stereomikrofons. Schallquellen in den schraffierten Richtungsbereichen werden in den Lautsprechern L bzw. R abgebildet.
5.2 Stereofonie
247
5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen Es besteht im Auslenkungsbereich ± 75 % eine Gleichwertigkeit von Pegel- und Laufzeitdifferenzen gemäß der beiden Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms: 1 dB Pegelunterschied erzeugt demnach etwa dieselbe Auslenkung wie 60 μs Laufzeitdifferenz (Abb. 5/11). Für Auslenkungsbereiche über 75 %, also für die äußeren Flanken der Stereobasis, sind diese Äquivalenzen nicht mehr anwendbar. Tragen die Pegel- und Laufzeitdifferenzen etwa gleich viel zur Abbildungsrichtung bei, so spricht man auch von Äquivalenzmikrofonverfahren. Die Abbildungskurven und Aufnahmewinkel oder -bereiche sind auch für Stereomikrofone bestimmbar, bei denen Pegel- und Laufzeitdifferenzen gleichsinnig zusammenwirken. Eine wichtige Regel lautet: Wird eine Phantomschallquelle auf Grund von Pegeldifferenzen ΔL gebildet und zusätzlich um Laufzeitdifferenzen Δt in gleicher Richtung ausgelenkt, so ist die gesamte Auslenkung etwa gleich der Summe der beiden einzelnen Auslenkungen.
Abb. 5/11. Äquivalenzen von Laufzeit- und Pegeldifferenzen bei der Auslenkung von Phantomschallquellen, zugehöriger Lautsprecherwinkel ± 75 % um die Mitte.
248
5 Tonaufnahme und Tonwiedergabe
Auf dieser Grundlage und in Kenntnis der Mikrofon-Richtcharakteristiken, der daraus resultierenden Pegeldifferenzen, der durch den Abstand zweier Mikrofonkapseln gegebenen Laufzeitdifferenzen sowie der in Kap. 5.2.1 angegebenen Lokalisierungskurven können die Abbildungskurven und Aufnahmewinkel von Stereomikrofonanordnungen bestimmt werden. Prinzipiell existiert eine riesige Anzahl möglicher Kombinationen von Mikrofonanordnungen. Einige davon werden in Kap. 5.3.4 vorgestellt. Für jede Anordnung lässt sich der Aufnahmewinkel bestimmen. Systematisch hat Michael Williams ihn für alle Richtmikrofontypen errechnet mit dem Ergebnis der sog. Williams-Diagramme [Williams, 1987]. Abb. 5/12 zeigt die Zusammenhänge der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nieren. Als Beispiel sind die Werte für die ORTF-Anordnung (siehe Kap. 5.3.4) eingetragen, die Mikrofonbasis beträgt hier 17,5 cm und die Mikrofon-Versatzwinkel ± 55°, der Mikro fon-Öffnungswinkel zweimal 55° = 110°. Man findet im Diagramm einen Aufnahmewinkel von etwa 95°. Der Versatzwinkel ist der Winkel, um den ein Mikrofon aus der Hauptrichtung, der Richtung zur Schallquelle oder zum Zentrum der Schallquelle, ausgeschwenkt wird.
Abb. 5/12. Williams-Diagramme, Zusammenhang von Aufnahmewinkel oder -bereich, Versatzwinkel und Mikrofonbasis für zwei Nierenmikrofone nach Williams [Williams, 1987], die sog. ORTF-Anordnung ist als Beispiel eingetragen, Einstellungen in den schraffierten Flächen sind für Aufnahmen ungeeignet.
5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen Die Kenntnis des Aufnahmewinkels des einzusetzenden Stereomikrofons hat in der Praxis eine große Bedeutung. Das trifft ebenso für Mehrkanal-Aufnahmen zu, denn auch bei Anwendung von dreikanaligen Stereomikrofonen möchte man die Ausdehnung des Klangkörpers oder die Richtungsverteilung der aufzunehmenden Schallquellen mit Hilfe des Aufnahmewinkels optimal abbilden.
5.2 Stereofonie
249
Abb. 5/13. Abbildungskurven für die stereofonen Teilbereiche L-C und C-R eines dreikanaligen Stereomikrofons und resultierender Aufnahmewinkel oder -bereiche.
Wie bereits in Kap. 5.2.1.5 erläutert, ist der vordere Abbildungsbereich in zwei nebeneinander liegende stereofone Teilbereiche L-C und C-R aufgeteilt, so dass die Lokalisierungskurven für Pegel- und Laufzeitdifferenzen (Abb. 5/6 bzw. 5/8) ihre Gültigkeit behalten. Die gesamte Abbildungsebene L-R setzt sich aus dem linken und rechten Bereich zusammen. Die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, jedoch mit dem Vorteil der vergrößerten Stereohörfläche, wie in Kap. 5.2.1 erläutert. Man erkennt in Abb. 5/13, dass die Richtungsübersetzung eines geeigneten dreikanaligen Mikrofons nach Maßgabe der für die Teilbereiche relevanten Abbildungskurven erfolgt, siehe auch Abb. 5/10. Das setzt allerdings voraus, dass die äußeren Mikrofonkapseln L und R einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Dies ist möglich und wird in Kap. 5.4.2 näher erläutert. 5.2.2.4 Berechnungswerkzeuge Ein nützliches Werkzeug zur Berechnung der Abbildungskurven und Abbildungswinkel für beliebige zwei- oder dreikanalige Anordnungen mit Mikrofonen unterschiedlicher Richtcharakteristiken ist der Image Assistant (Abb. 5/14); er wurde von Helmut Wittek entwickelt und in Hörversuchen bestätigt [Wittek, Image Assistant], [Wittek, 2002]. Er ist aktuell im Internet frei verfügbar als „SCHOEPS Image Assistant v3“ als browser-Version und im Apple app store frei verfügbar. Es bietet zusätzlich die Berechnung der vom Schalleinfallswinkel abhängigen Pegel- und Laufzeitdifferenzen zwischen den Kanälen, den Gesamtschallpegel für jede Zweikanal- oder Dreikanal-Mikrofonanordnung in Abhängigkeit von den Richtcharakteristiken Kugel, breite Niere, Niere, Superniere und Acht.
250
5 Tonaufnahme und Tonwiedergabe
Abb. 5/14. Screenshot des Image Assistant 2.1 (www.hauptmikrofon.de). Die Abbildungskurve sowie der Aufnahmewinkel oder -bereiche einer beliebigen zwei- oder dreikanaligen Mikrofonanordnung kann grafisch dargestellt werden, hier ist die ORTF-Anordnung dargestellt [Wittek, Image Assistant].
Grundlage der Berechnung sind die bei der jeweiligen Mikrofonanordnung auftretenden Pegel- und Laufzeitdifferenzen. Aus ihnen wird auf Grund der in Kap. 5.2.1 beschriebenen Gesetzmäßigkeiten die Abbildungskurve ermittelt. Gleichzeitig wird der Aufnahmewinkel und der Aufnahmewinkel 75 % angegeben. Dieses Hilfsmittel hilft nicht nur dem Tonmeister bei der Auswahl und Platzierung der Mikrofone, sondern vermittelt auch die grundlegenden Eigenschaften der verschiedenen Stereomikrofontechniken wie z. B. die Gleichmäßigkeit oder die Stabilität der Abbildung. Außerdem können mit Hilfe des Werts Aufnahmewinkel 75 % verschiedene, im Hinblick auf die Abbildungskurve gleichwertige Anordnungen ermittelt werden. Der Tonmeister kann somit fundierter entscheiden, welche dieser Anordnungen seinem Ziel am nächsten kommen, indem er weitere Qualitätsaspekte berücksichtigt wie Klangfarbe, Stabilität, Abbildungsschärfe und oft auch die physische Größe der Mikrofonanordnung.
5.2 Stereofonie
251
5.2.3 Theorien zur Lokalisierung von Phantomschallquellen Zur Erklärung der Phänomene der Lokalisierung von Phantomschallquellen wurde bisher i. Allg. die sog. Theorie der Summenlokalisierung (Kap. 5.2.3.1) herangezogen. Sie kann einige Phänomene der Wahrnehmung zufriedenstellend erklären, andere Phänomene sind im Rahmen dieser Theorie nicht schlüssig zu interpretieren. Dabei bleibt eine Reihe von Fragen völlig offen; insbesondere ist ihr grundsätzlicher Mangel, dass sie nur für Lautsprecherwiedergabe gilt, für andere Phänomene der Richtungs- und Entfernungswahrnehmung aber keine Erklärungen bietet. 1980 hat Günther Theile [Theile, 1980/1] ein Assoziationsmodell der Wahrnehmung vorgestellt, das eine große Zahl unterschiedlicher Phänomene der Richtungs- und Entfernungswahrnehmung bei Lautsprecher- und Kopfhörerdarbietung sowie beim natürlichen Hören in einheitlich mit einer einzigen Theorie erklären kann (Kap. 5.2.3.2). Theile geht gegenüber früheren Theorien, die mehr an nachrichtentechnischen Modellen orientiert sind, von einem gestaltpsychologischen Ansatz aus, der die Hörerfahrung und Lernprozesse des Hörens zum Ausgangspunkt nimmt. 5.2.3.1 Summenlokalisierung Die Summenlokalisierung geht von der Annahme aus, dass bei der Wahrnehmung von Phantomschallquellen bei Lautsprecherdarbietung aus den Schallfeldüberlagerungen an den beiden Ohren Summensignale resultieren, deren Komponenten das Gehör nicht trennen kann. Es wird vermutet, dass die Signale an den beiden Ohren bei der Lokalisierung einer Phantomschallquelle und bei der Lokalisierung einer entsprechenden realen Schallquelle an demselben Ort gleichwertig sind, obwohl sie nicht identisch sind, wie Abb. 5/1 deutlich zeigt. In der Literatur werden verschiedene Theorien hierzu beschrieben, die jedoch nur einzelne Bereiche der räumlichen Wahrnehmung erfassen, eine allgemein gültige Theorie ist nicht aufgestellt worden [Blauert, 2000]. Ausgehend von Tonimpulsen, die entweder mit einer Pegeldifferenz oder mit einer Zeitdifferenz von zwei Lautsprechern in Stereoanordnung abgestrahlt werden, und den dazugehörigen Reizmustern an den beiden Ohren (Abb. 5/3), liegt zunächst die Vermutung nahe, dass der am Ohr jeweils zuerst eintreffende Impuls bzw. bei gleichzeitigem Eintreffen der lautere Impuls die Richtungswahrnehmung bestimme; demgegenüber konnte in Versuchen gezeigt werden, dass auch die weiteren, später eintreffenden Impulse von Einfluss auf die Richtungswahrnehmung sind. Bei Dauertönen kann eine für die stereofone Übertragung brauchbare Zuordnung von Lautsprecher- und Ohrsignalen nur unter etwa 800 Hz bestehen. Ein wesentlicher Einwand gegen die Summenlokalisierung bezieht sich auf die wahrgenommene Klangfarbe der Phantomschallquellen. Da es an den Ohren zu einer Überlagerung zweier zeitverzögerter Signale kommt, die auf den unterschiedlichen Abstand der beiden Ohren zu jeweils einem Lautsprecher zurückzuführen sind (Abb. 5/3), müssten Phantomschallquellen eigentlich eine Klangfärbung aufweisen, wie sie durch ein Kammfilter erzeugt wird. Abb. 5/1, linkes Bild unten, zeigt den Frequenzgang am linken Ohr, wie er durch die Überlagerung der beiden identischen, gleichzeitig abgestrahlten Lautsprechersignale entsteht. Zu sehen ist ein Pegeleinbruch von mehr als 10 dB bei 2 kHz. Die beiden Ohrsignale
252
5 Tonaufnahme und Tonwiedergabe
sind identisch. Trotz dieser objektiv vorhandenen deutlichen linearen Verzerrung wird eine Klangfärbung kaum wahrgenommen. Dies weist auf Wirkungsmechanismen der Wahrnehmung von Phantomschallquellen hin, die die Theorie der Summenlokalisierung nicht erklären kann. 5.2.3.2 Assoziationsmodell Das Assoziationsmodell von Theile ermöglicht eine weitgehend einheitliche Erklärung aller wichtigen Phänomene des räumlichen Hörens [Theile, 1980/1, 1980/2, 1981/1]. Es macht auch den Einwand der Klangfärbung bei der Wiedergabe von Phantomschallquellen gegenstandslos. Das Modell geht von der Hypothese aus, dass die Wahrnehmung von Ort und Klanggestalt eines Hörereignisses stets durch einen Vergleich mit gespeicherten Mustern erfolgt. Die dabei ablaufende spontane assoziative Mustererkennung ist ein Prozess, der ein eintreffendes akustisches Muster mit einem im Gehirn gespeicherten Muster vergleicht, selbst dann, wenn nur Teile des gespeicherten Musters im eintreffenden akustischen Muster enthalten sind. Dieser Mustervergleich läuft z. B. auch bei einem Telefonat ab, bei dem der Anrufer – wenn bekannt – bereits beim ersten Wort automatisch identifiziert wird. Die räumliche Wahrnehmung resultiert dabei grundsätzlich aus zwei unterschiedlichen, nacheinander ablaufenden Verarbeitungsprozessen: Entsprechend den beiden grundlegenden und getrennten Hörereigniseigenschaften Ort und Gestalt durchläuft ein akustischer Reiz in der ersten Stufe eine Ortsassoziation, in der zweiten Stufe eine Gestaltassoziation. Beide Prozesse bestimmen stets gemeinsam die Hörereigniseigenschaften. Abb. 5/15 zeigt das Prinzip des Assoziationsmodells. Das Assoziationsmodell führt die Lokalisierung auf einen Prozess zur Decodierung eines Lokalisierungsreizes zurück. Ein Lokalisierungsreiz liegt vor, wenn hinreichend breitbandige Ohrsignale sich hinsichtlich der Zeit- und spektralen Merkmale einem einzigen Schallereignisort zuordnen lassen. Im überlagerten Schallfeld sind unter bestimmten Bedingungen gleichzeitig mindestens zwei Lokalisierungsreize unterscheidbar. Sowohl in der Situation bei Phantomschallquellen als auch in Experimenten zur Lateralisation, also der Lokalisierung von Hörereignisorten im Kopf, führen zwei unterschiedliche Lokalisierungsreize zu einem einzigen Hörereignisort.
Abb. 5/15. Assoziationsmodell der Hörwahrnehmung nach [Theile, 1980/1].
Die Funktion des Gehörs bei der Lokalisierung einer Schallquelle kann nur unter Lokalisierungsbedingungen untersucht werden. Das setzt voraus, dass das Schallereignis ein ausrei-
5.2 Stereofonie
253
chend breitbandiges Spektrum aufweist. Der Wahrnehmungsprozess, der zur Lokalisierung führt, ist nur möglich, wenn spektrale Merkmale die Zuordnung der Hörereignisentfernung zulassen. Diese Modellvorstellung kann Erklärungen einiger wichtiger Hörphänomene liefern: Stereofone Lautsprecherwiedergabe Bei stereofoner Lautsprecherwiedergabe treten Hörereignisse auf, die sich ebenso mit entsprechend zugeordneten realen Einzelschallquellen im freien Schallfeld erzeugen lassen. Es ist aber nicht möglich, den in beiden Fällen identischen Hörereignissen entsprechend auch identische Ohrsignale zuzuordnen. Relativ große Unterschiede der Ohrsignalmerkmale hinsichtlich des Spektrums und interauralem Kohärenzgrad führen zu dem Schluss, dass keine Summenlokalisierung stattfindet: Die Phantomschallquelle lässt sich nicht als Ersatzschallquelle auffassen. Vielmehr muss angenommen werden, dass die Schallsignale auf Grund der unterschiedlichen Sendeorte im Gehör zunächst räumlich entschlüsselt werden als Wirkung der Ortsassoziationsstufe. Erst nach erfolgter Decodierung des Orts verschmelzen die Reize als Wirkung der Gestaltassoziationsstufe, weil die Lautsprecher hinreichend ähnliche Signale abstrahlen. Phantomschallquellen und Gesetz der ersten Wellenfront Die Grenze für den Bereich der Gültigkeit des Gesetzes der ersten Wellenfront (siehe Kap. 3.4.1) wird zu kleinen Verzögerungszeiten hin durch den Übergang zur Bildung der Phantomschallquellen definiert. Beide Phänomene lassen sich zurückführen auf die zeitabhängige Bewertung nacheinander eintreffender Reizantworten der Ortsassoziationsstufe an der Gestaltassoziationsstufe. Die Ortsassoziationsstufe wirkt im überlagerten Schallfeld als Filter zur Befreiung der Sendesignale von der räumlichen Information, man kann von einer räumlichen Decodierung sprechen, so dass in der darauffolgenden Gestaltassoziationsstufe nur die Sendesignalbeziehung bewertet wird. Zwei Sendesignale mit Laufzeitdifferenzen führen dazu, dass zwei Lokalisierungsreize nicht zeitgleich eintreffen. Die Gesetzmäßigkeiten für die daraus resultierenden Hörereignisorte, nämlich Phantomschallquellen, und das Gesetz der ersten Wellenfront, lassen sich als „Gesetz des ersten Lokalisierungsreizes“ verstehen. Cocktailparty-Effekt Dieser Effekt besagt, dass ein Nutzsignal, das aus einer bestimmten Richtung eintrifft, von einem Störsignal, das aus einer anderen Richtung eintrifft, bei zweiohrigem Hören weniger stark verdeckt wird als bei einohrigem Hören. Der Effekt ist zurückzuführen auf die Wirkung der Ortsassoziationsstufe: Zwei Schallquellen rufen normalerweise nicht nur zwei verschiedene Ortsassoziationen, sondern zusätzlich zwei verschiedene Gestaltassoziationen hervor. Die resultierenden beiden Hörereignisse treten dann also nach zweistufiger Selektion auf, woraus sich die größtmögliche Auflösung ergibt. Bei einohrigem Hören geht die Selektionswirkung der Ortsassoziationsstufe zumindest teilweise verloren, weil die ortsbestimmenden Reizmuster unvollständig vorliegen. Die gemeinsame Wirkung der beiden Verarbeitungsstufen, die von elementaren Hörerfahrungen geprägt werden, kommt besonders deutlich durch den Cocktailparty-Effekt zum Ausdruck. Er wurde 1953 von C. Cherry erstmals wissenschaftlich beschrieben, nachdem er Konversationen auf Partys monofon aufgenommen hatte und die Sprachverständlichkeit überraschend schlecht war.
254
5 Tonaufnahme und Tonwiedergabe
Lateralisation bei Kopfhörerdarbietung Lateralisation ist die seitliche Verschiebung einer „Schallquelle im Kopf“ bei Kopfhörerwiedergabe. Experimente zur Lateralisierung geben also Aufschlüsse über die Auswertung interauraler Signalunterschiede bei Kopfhörerwiedergabe, bei der die Signale nur jeweils ein Ohr erreichen. Sie geben nur Auskunft über die Funktion der Gestaltassoziationsstufe, weil die beiden Sendesignale unabhängig von der Senderentfernung einzeln entschlüsselt und der Gestaltassoziationsstufe zugeführt werden. Experimente zur Lateralisation lassen deshalb grundsätzlich keine Rückschlüsse zu auf die Funktion des Gehörs bei der Lokalisierung einer Einzelschallquelle. Sie führen vielmehr zu Gesetzmäßigkeiten einer „Phantomschallquelle im Kopf“, siehe auch Kap. 5.5.4.1. Eine „Ersatzschallquelle im Kopf“ gibt es nicht. Die Auswertung unterschiedlicher Ohrsignale, die das Gehör bei der Lokalisierung einer Schallquelle vornimmt, lässt sich prinzipiell nicht mit zwei hinreichend nahe an den Ohren befindlichen Schallquellen untersuchen. Hörversuche mit Kopfhörern sind Hörversuche mit zwei Schallquellen – es sei denn, es werden Kunstkopfsignale dargeboten, in diesem Fall existiert eine Ersatzschallquelle. Das aus dem Assoziationsmodell gewonnene Verständnis der Funktion des Gehörs beim räumlichen Hören hat maßgeblich zu verschiedenen Entwicklungen und Anwendungen im Bereich der stereofonen Aufnahme- und Wiedergabetechnik beigetragen. Dazu gehören die Weiterentwicklung der Kunstkopftechnik (siehe Kap. 5.5.5.), die Diffusfeldentzerrung für Studio-Kopfhörer (siehe Kap. 5.5.4.2), die Entwicklung des Kugelflächenmikrofons (siehe Kap. 5.2.4 und 5.3.4.3), das Konzept der raumbezogenen Stütztechnik (siehe Kap. 5.2.4 und 5.3.5), Konzepte der Verbindung von Wellenfeldsynthese und Stereofonie (siehe Kap. 5.5.3.1).
5.2.4 Räumliche stereofone Abbildung Das Gehör wertet verschiedene Merkmale des Schallfelds zu räumlichen Hörereignismerkmalen aus, dazu gehören neben der Hörereignisrichtung einschließlich ihrer Erhebung die Entfernung, die räumliche Tiefe, der Raumeindruck und die Umhüllung. Der Begriff Raumeindruck umfasst zwei Attribute des Klangbilds: Das erste ist „Räumlichkeit“, eine räumliche Verbreiterung des Hörereignisses, verursacht durch frühe Reflexionen mit einer Verzögerung von 10 bis 80 ms. Das zweite ist „Halligkeit“, eine zeitliche Verwischung des Hörereignisses, verursacht von späten Reflexionen und Nachhall. In Tab. 5/1 ist schematisch dargestellt, welche Bedeutung der Direktschall, die frühen Reflexionen, der Nachhall und der umhüllende Schall für die einzelnen Klangbildattribute besitzen. Der umhüllende Schall kann sowohl umgebenden diffusen Schall, in der Praxis meist „Atmo“ genannt; als auch den hörbar ausklingenden Nachhall enthalten. Siehe auch Kap. 1.2. Die Wirkung des reflektierten Schalls ist in Abb. 5/16 dargestellt. Man erkennt, dass das natürliche Muster der frühen Reflexionen mit einer Verzögerung von 15 bis 50 ms für das räumliche Hören eine besonders wichtige Rolle spielt. Die Attribute Entfernung, räumliche Tiefe, Räumlichkeit − in der Literatur auch apparent source width, scheinbare Quellenausdehnung genannt − sind von diesem Schallanteil beeinflusst. Das Gehör entnimmt den frühen Reflexionen auch die Informationen über die Größe des Raums. Besonders dieser Teil des reflektierten Schalls erfordert für die Aufnahme Kenntnis und Sorgfalt.
5.2 Stereofonie
255
Tab. 5/1. Zusammenhang von Klangbildattributen und Schallfeldtypen. Attribute des Klangbilds
Richtung und Erhebung
Komponenten des Schallfelds Direktschall
frühe, sog. erste Reflexionen
●●
●
Entfernung, Tiefe
●●
Räumlichkeit
●●
Halligkeit
umhüllender Schall
● ●●
Raumeindruck
●●
●●
●
●●
Umhüllung Klangfarbe
Nachhall
● ●●
●●
Abb. 5/16. Zuordnung der Klangbildattribute zum zeitlichen Ablauf des Raumschalls.
Hinzu kommt, dass die Möglichkeiten der räumlichen Darstellung bei Anwendung stereofoner Verfahren mehr oder weniger eingeschränkt sind, besonders bei der Zweikanal-Stereofonie. Die Kenntnis auch darüber ist hilfreich, um das gewünschte Klangbild im gegebenen Rahmen zufriedenstellend realisieren zu können. In den folgenden beiden Kapiteln werden die entsprechenden Eigenschaften der Zwei- und Mehrkanal-Stereofonie erläutert. 5.2.4.1 Prinzipien der Zweikanal-Stereofonie Welche Qualität der stereofonen Darstellung eines räumlichen Klangbilds ist grundsätzlich möglich bei zweikanaliger Lautsprecherwiedergabe, welche stereofonen Lautsprecher signale benötigt das Gehör dazu? Die Antworten lassen sich so zusammenfassen: Entfernung der Phantomschallquelle Die Entfernung der Phantomschallquelle ist gleich der mittleren Entfernung der beiden Stereo-Lautsprecher. Phantomschallquellen außerhalb der stereofonen Lautsprecherbasis sind nicht möglich. Verfahren, welche durch Kompensation der interauralen Übersprechanteile der Lautsprecher die kopfbezogene Reproduktion binauraler Signale anstreben, arbeiten nicht mit Phantomschallquellen.
256
5 Tonaufnahme und Tonwiedergabe
Akustisches Umfeld Alle Schallfeldanteile – Direktschall, frühe Reflexionen und Nachhall – erreichen den Hörer nur aus dem vorderen Abbildungssektor ± 30° und erzeugen nur vor ihm ein stereofones Klangbild. Die räumliche und zeitliche Auflösung des in Abb. 5/16 dargestellten Direktschalls und der frühen Reflexionen zeigt Abb. 5/17. Die im Originalraum vorhandenen Richtungen der frühen Reflexionen sowie die Richtungsdiffusität des Nachhalls sind auf den Abbildungssektor ± 30° zusammengedrängt. Das akustische Umfeld des Hörers ist allein durch den Wiedergaberaum festgelegt und für die Darstellung des Originalraums normalerweise nicht oder nur sehr bedingt geeignet.
Abb. 5/17. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie. Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.
Räumliche Tiefe Die räumliche Perspektive wird lautsprecherbezogen, d. h., in einer Simulationsebene zwischen den Lautsprechern dargestellt, ähnlich der perspektivischen Darstellung auf einem Bild. Die reale Entfernung der stereofonen Abbildungsebene entspricht der realen Entfernung eines Bilds (Abb. 5/18). Im Bild wird räumliche Tiefe durch visuelle räumliche Merkmale dargestellt. In ähnlicher Weise werden Tiefe und Entfernung in der stereofonen Abbildungsebene durch räumliche Merkmale eines Schallfelds dargestellt, v. a. also durch frühe Reflexionen, Nachhall, Lautstärkenverhältnisse und Klangfarbe. Darstellung der räumlichen Perspektive Die Darstellung der räumlichen Perspektive in der Simulationsebene gelingt umso besser, je genauer die interauralen Signaldifferenzen beim natürlichen Hören durch die Unterschiede der Lautsprechersignale nachgebildet werden. Das Gehör erkennt die Beziehungen zwischen linkem und rechtem Lautsprechersignal und wertet sie gemäß seiner Hörerfahrung aus.
5.2 Stereofonie
257
Abb. 5/18. Simulation von räumlicher Tiefe in einer Abbildungsebene. Der Abstand des Bilds kann mit dem Abstand von Stereolautsprechern vor dem Zuhörer verglichen werden.
Zusammenfassend ist somit festzustellen, dass die zweikanalige stereofone Abbildung auf der direkten Auswertung der Beziehungen der Lautsprechersignale durch das Gehör beruht, nicht die resultierenden Unterschiede der Ohrsignale beim Hörer im Wiedergaberaum sind entscheidend. Vielmehr lassen sich die räumlichen Eigenschaften des Klangbilds optimieren, indem sowohl das Hauptmikrofon als auch die Verarbeitung der Stützsignale möglichst natürliche interaurale Signaldifferenzen erzeugen (siehe auch Kap. 5.3.4.3 sowie 5.3.5.3). Besonders die reine Intensitätsstereofonie sowie die gebräuchliche Intensitätsstütztechnik erfüllen diese Forderung ohne unterstützende Signalverarbeitung nicht ausreichend. 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie Durch den Einsatz zusätzlicher Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers wird eine weitere Dimension hinzugefügt, so dass sich das akustische Umfeld des Hörers real gestalten lässt. Die zwei Surround-Kanäle im 3/2-Standardformat ermöglichen es, die Richtungsverteilung von Direktschall und reflektiertem Schall zweidimensional zu reproduzieren. Das in Abb. 5/16 gezeigte Reflexionsmuster wirkt – im Gegensatz zur ZweikanalStereofonie – in der notwendigen Richtungsauflösung, siehe Abb. 5/19. Die dargestellte Richtungsverteilung basiert auf stereofoner Wiedergabe der Reflexionen. Die für die Seiten mangelhafte Stabilität von Phantomschallquellen (siehe Kap. 5.2.1) ist hier nicht störend, weil die von allen Seiten am Surround-Mikrofon eintreffenden Reflexionen ganz unterschiedliche Laufzeitdifferenzen in den Kanälen aufweisen. Der gewünschte Effekt ist in der Hörzone deshalb weitgehend unabhängig vom Hörerplatz. Die stereofone Qualität ändert sich von einem simulierten hin zu einem wirklichen Eindruck räumlicher Tiefe, wenn die seitlichen Reflexionen tatsächlich den Zuhörer von der Seite erreichen. Sie erzeugen eine natürliche raumspezifische interaurale Dekorrelation der beiden Ohrsignale und damit Tiefe und Räumlichkeit. Man weiß aus der Raumakustik von Konzertsälen, dass seitliche Reflexionen besonders wichtig sind. In Vergleich dazu sind
258
5 Tonaufnahme und Tonwiedergabe
frühe Reflexionen aus der Medianebene, in einem Konzertsaal Reflexionen von der Decke, eher schädlich.
Abb. 5/19. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Mehrkanal-Stereofonie 5.1 Surround). Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.
Die Erweiterung um eine zweite Dimension bedeutet, dass die Anzahl der im stereofonen Signal für Zweikanal-Wiedergabe enthaltenen Reflexionen sich nicht erhöht. Vielmehr werden diese Reflexionen nun räumlich verteilt abgebildet, wie in den Abb. 5/16 und 5/19 dargestellt. Das hat Konsequenzen für die Aufnahme. Es ist in Hinblick auf korrekte Abbildung der frühen Reflexionen wichtig, dass die Mikrofon-Konfiguration diese Trennung der Abbildungsrichtungen weitgehend gewährleistet. Geschieht das nicht, so ist die reproduzierte Reflexionsdichte zu hoch, da einzelne Reflexionen mehrfach abgebildet werden. Näheres dazu in Kap. 5.4.3. Bei der Wiedergabe seitlicher Reflexionen werden die Lautsprecher des linken und rechten Surroundkanals LS und RS nicht als solche seitlich wahrgenommen, sondern sie verbessern die Qualität der stereofonen Abbildung vor dem Hörer durch Schaffung von Tiefe − ein alter Wunsch in der Zweikanal-Stereofonie. Der eigentliche stereofone Abbildungsbereich vergrößert sich dadurch nicht. Auch bezüglich der Wirkung des Nachhalls sind die Lautsprecher bei richtiger Handhabung der Aufnahmetechnik (siehe Kap. 5.4) nicht als Schallquellen wahrnehmbar. Ausreichende Dekorrelation des Nachhalls und des umgebenden diffusen
5.2 Stereofonie
259
Schalls in den vier Kanälen L, R, LS und RS ermöglicht im Bereich der Hörzone eine ausgewogene Umhüllung. Insgesamt geht durch das Hinzufügen der Surround-Lautsprecher die Darstellung räumlicher Attribute des Klangbilds von der Qualität einer Simulation in die Qualität einer realen Wahrnehmung über. Der Hörer fühlt sich in das akustische Geschehen einbezogen. Das akustische Umfeld des Hörers ist nicht durch den Wiedergaberaum geprägt, vielmehr kann es bei der Aufnahme durch den Tonmeister gestaltet werden im Sinne einer optimalen Reproduktion räumlicher Attribute oder zur Erzeugung eines neuen künstlichen Raums.
5.2.5 Begriffe zur stereofonen Richtungsabbildung In Tab. 5/2 sind die Begriffe zur stereofonen Richtungsabbildung, so wie sie in Kap. 5.2 eingeführt und erläutert wurden, mit kurzen Definitionen zusammengestellt. Sie gelten übergreifend für Stereofonie bei Lautsprecherwiedergabe, für die Aufnahmetechnik der ZweikanalStereofonie ebenso wie für die Aufnahmetechnik der Mehrkanal-Stereofonie.
Tab. 5/2. Begriffe zur stereofonen Richtungsabbildung.
Lautsprecherwiedergabe
Begriff
Definition
Basisbreite, Lautsprecherbasis
Abstand zwischen zwei Lautsprechern, die zusammen Phantomschallquellen bilden
Basisöffnungswinkel
Winkel, unter dem die zwei Lautsprecher, die Phantomschallquellen bilden, vom Hörort aus erscheinen, bei Zweikanal-Standardanordnung 60°
Zweikanal-Standardan ordnung
Anordnung der Stereolautsprecher in einem gleichseitigen Dreieck mit dem Hörer, Basisöffnungswinkel also 60°
Referenzpunkt, Sweet Spot
Position des Hörers bei der Zweikanal-Standardanordnung, Referenzpunkt und Lautsprecher bilden ein gleichseitiges Dreieck
Abbildungsverzerrungen
Verfälschung der Auslenkung der Phantomschallquellen durch Hörposition außerhalb des Referenzpunkts
Auslenkung der Phantomschallquelle (phantom source shift)
Auslenkung der Phantomschallquelle aus der Mitte in % der halben Basis, Auslenkung bis in den Lautsprecher gleich 100 %, bei gegebenem Basis öffnungswinkel auch in ° angegeben, bei Zweikanal-Standardanordnung 30°
Auslenkungskoeffizient
Auslenkung der Phantomschallquelle aus der Mitte der Lautsprecherbasis in % bei Pegel- oder Laufzeitdifferenzen: – Pegeldifferenzen: 7,5 %/dB, – Laufzeitdifferenzen: 13 %/0,1 ms
260
5 Tonaufnahme und Tonwiedergabe
Mikrofonaufnahme
Stereomikrofon
Mikrofonsystem, das von zwei (Zweikanal-Stereofonie) oder mehr (Mehrkanal-Stereofonie) einzelnen Mikrofonen gebildet wird
Basis, Mikrofonbasis (base)
Abstand zwischen zwei Mikrofonen bzw. Mikrofonkapseln einer Stereomikrofonanordnung
Abbildungskurve (localisation curve)
Zusammenhang zwischen Schalleinfallswinkel am Stereomikrofon und der Auslenkung der Phantomschallquellen
Aufnahmewinkel, Aufnahmewinkel 100 % (recording angle), Aufnahmebereich
gesamter Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schalleinfallsrichtungen gemäß der Abbildungskurve abgebildet werden, Schallquellen außerhalb dieses Bereichs erzeugen Signale in den Lautsprechern L bzw. R
Aufnahmewinkel 75 % (recording angle 75 %)
Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schallquellen im Auslenkungsbereich ± 75 % abgebildet werden
Schalleinfallswinkel (input source angle)
Winkel, unter dem sich eine Schallquelle vom Mono- oder Stereomikrofon aus gesehen befindet, bezogen auf dessen Mittelachse
Versatzwinkel (epsilon), Winkelabweichung der Mikrofon-Mittelachsen von der Mittelachse einer Stereo-Mikrofonanordnung Achsenwinkel, nicht für Achtermikrofone Äquivalenzmikrofon anordnung
Mikrofonanordnung, die Pegel- und Laufzeit differenzen liefert, die gleichsinnig und etwa mit gleichen Beträgen zur Auslenkung der Phantomschallquelle beitragen
5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum, seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber keine Räumlichkeit.
5.2 Stereofonie
261
Tab. 5/3 fasst die Ergebnisse für den Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Auslenkung der Phantomschallquellen, wie in Kap. 5.2 erläutert, zusammen, auch sie gilt für Zwei- und Mehrkanal-Stereofonie in gleicher Weise. Tab. 5/3. Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und der Auslenkung der Phantomschallquellen, Werte teilweise gerundet. Laufzeitdifferenzen für 100 % Auslenkung sind nicht eindeutig definiert, siehe oben Kap. 5.2.1.2. Tab. 5/ Signaldifferenzen für die Auslenkungen
Auslenkungskoeffizienten Pegeldifferenzen Laufzeitdifferenzen Äquivalenz von Pegelund Laufzeitdifferenzen
1 dB bewirkt 7,5 % 0,1 ms bewirkt 13 % 0,06 ms entspr. 1 dB
± 50 %
± 75 %
± 100 %
± 7 dB ± 0,4 ms ± 0,4 ms oder ± 7 dB
± 10 dB ± 0,6 ms ± 0,6 ms oder ± 10 dB
± 15 dB (± 1 ms) ±1 ms oder ± 15 dB
Aus diesen Gesichtspunkten heraus ergeben sich grundsätzliche Zuordnungen zwischen Aufnahmetechniken sowie ihren Klangergebnissen und die bevorzugte Zuordnung zu Programmsparten (Tab. 5/4). Tab. 5/4. Eigenschaften des Klangbilds bei den verschiedenen Mikrofonverfahren bei Stereoaufnahmen und ihre Eignung für verschiedene Programmsparten. Eigenschaften des Klangbilds bei der Wiedergabe
Intensitätsverfahren (MS, XY)
Einzelmikrofon- Laufzeitverfahren verfahren (AB)
gemischte Verfahren nach den WilliamsDiagrammen (z. B. ORTF, EBS, KFM)
Stützmikrofonverfahren
gute Abbildung der Richtung
●
●
●
●
●
●
●
gute Präsenz der Schall quellen gute Tiefenstaffelung der Schallquellen
●
●
guter Raumeindruck
●
●
besonders geeignet für aktuelles und dokumentarisches Wort
●
●
Hörspiel
●
●
populäre Musik
●
●
Jazz
●
●
klassische Musik
●
●
●
●
●
●
262
5 Tonaufnahme und Tonwiedergabe
Natürlich wirken in der Praxis viele weitere Faktoren auf die optimale Mikrofonaufstellung ein, dazu gehört die Akustik des Raums, gewohnte Sitzanordnungen, Sichtprobleme, Lautstärkenbalance, musikalische, künstlerische Erfordernisse u. v. m., aber auch Gesichtspunkte wie Möglichkeiten für Soundchecks bzw. ihr Fehlen, die im Einzelfall die hier angeführten grundsätzlichen Gesichtspunkte relativieren. Jede Aufnahme ist ein hoch komplexes Zusammenwirken unterschiedlichster Bedingungen, die in jedem einzelnen Fall berücksichtigt und gegeneinander abgewogen werden müssen. Ziel einer Aufnahme ist nicht die Erfüllung von aufnahmetechnischen Grundsätzen, sondern die Realisierung des gewünschten Klangbilds. Das kann auf Grund der sehr komplexen Bedingungen bei Aufnahmen auch zu unkonventionellen Lösungen führen, für die es zunächst keine technische Plausibilität zu geben scheint. Die Aufnahmetechnik ist im besonderen Maß der Bereich der Tonstudiotechnik, der kreatives Engagement erlaubt.
5.3 Zweikanal-Stereofonie Bei der Zweikanal-Stereofonie wird das aufgenommene Klangbild zwischen zwei Lautsprechern vor dem Hörer abgebildet. Grundlage für die Beurteilung der im Folgenden erläuterten Aufnahme- und Mikrofonverfahren und ihrer räumlichen Wiedergabe sind festgelegte und damit reproduzierbare Abhörbedingungen. Nur so kann die Gestaltung einer Tonaufnahme und die Kontrolle ihrer Qualität durch Abhören gewährleistet werden. Die Wiedergabe erfordert geeignete, qualitativ hochwertige Studiolautsprecher, einen akustisch geeigneten Abhörraum sowie die Festlegung der Geometrie der Anordnung von Hörer und Lautsprecher. Siehe hierzu Kap. 5.4.1 sowie umfassend Kap. 19.6 und 19.7. Als internationale Empfehlung der EBU sind die Kriterien für die Qualitätskontrolle in EBU R22, „Listening conditions for the assessment of sound programme material“ und wichtige Details in EBU Tech 3276 vereinbart worden. Suppl. 1 zu Tech 3276 legt die Geometrie der Abhörsituation fest: Die zwei Lautsprecher und der optimale Abhörplatz bilden zusammen ein gleichseitiges Dreieck (siehe Abb. 5/2), vom Hörer aus beträgt die Lautsprecherbasis demnach 60°, ihre Breite soll zwischen 2,0 und 4,0 m liegen. Die Lautsprecher sollen mindestens 1,2 m über dem Fußboden aufgestellt oder aufgehängt sein, ihre Achsen sind auf den festgelegten Abhörplatz gerichtet, wobei bei höherer Hängung eine Neigung von 10° in der vertikalen Achse nicht überschritten werden soll. Lautsprecher sollen an einer Wand oder mit einem Abstand von höchstens 1 m vor einer Wand montiert werden. Der Abhörplatz soll mindestens 1,5 m von Wänden entfernt sein. Für die Kontrolle der Kompatibilität einer Aufnahme wird ein Mittenlautsprecher auf der Lautsprecherbasis empfohlen.
5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren Die Zweikanal-Stereofonie – in diesem Kapitel vielfach verkürzt mit Stereofonie bezeichnet – ermöglicht es, den Teilschallquellen eines mit zwei oder mehr Mikrofonen aufgenommenen Klangbilds eine Richtungseinordnung bei der Wiedergabe durch Unterschiede oder Differenzen zwischen dem linken Kanal L und dem rechten Kanal R zuzuweisen; die Schallquellen erscheinen als Real- oder Phantomschallquellen (siehe Kap. 5.2.1) in bzw. zwi-
5.3 Zweikanal-Stereofonie
263
schen den beiden Lautsprechern L und R der Wiedergabeanordnung. Diese Differenzen der Lautsprechersignale können bei der sog. Intensitätsstereofonie ausschließlich durch Pegeldifferenzen, bei der Laufzeitstereofonie ausschließlich durch Laufzeitdifferenzen oder aber durch deren Kombination bei den gemischten Verfahren realisiert werden. Man unterscheidet dabei Aufnahme- und Mikrofonverfahren. Die Aufnahmeverfahren definieren die akustischen Grundlagen für die Verfahren der Tonaufnahme, die Mikrofonverfahren beschäftigen sich mit den Details der Mikrofonwahl und Mikrofonanordnung. Die Mikrofonverfahren legen die Richtcharakteristik, die Ausrichtung und die Anordnung der Mikrofone innerhalb des Aufnahmeverfahrens fest. Tab. 5/5 gibt einen Überblick über die gebräuchlichen Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie und ihre Kombinationsmöglichkeiten; Abb. 5/20 stellt die Prinzipien der Verfahren dar. Man unterscheidet die Hauptmikrofonverfahren von den Einzelmikrofonverfahren. Bei der Laufzeitstereofonie gibt es nur verschiedene Hauptmikrofonverfahren, bei der Intensitätsstereofonie gibt es neben verschiedenen Hauptmikrofonverfahren auch das sog. Einzelmikrofonverfahren. Mit einem Hauptmikrofon versucht man, die gesamte Schallquellenanordnung, z. B. einen Chor, mit einem einzigen Mikrofonsystem für stereofone Aufnahme aufzunehmen, in der Regel besteht es aus zwei zusammengehörigen Einzelmikrofonen. Bei den Einzelmikrofonverfahren wird aus den Signalen mehrerer oder vieler Einzelmikrofone das stereofone Klangbild in der Tonregie durch den Tonmeister erstellt. Tab. 5/5. Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie.
Aufnahmeverfahren
Mikrofonverfahren
Bemerkungen, Erläuterungen
Intensitätsstereofonie: nur Pegeldifferenzen zwischen L und R
Hauptmikrofonverfahren: − XY-Verfahren, − MS-Verfahren Einzelmikrofonverfahren
auch Koinzidenz-Mikrofonverfahren genannt
Stützmikrofonverfahren
Laufzeitstereofonie: nur Laufzeitdifferenzen zwischen L und R
Hauptmikrofonverfahren: − AB-Verfahren
gemischte Stereoverfahren: Kombination aus Intensitäts- und Laufzeitstereofonie, sowohl Pegel- als auch Laufzeitdifferenzen zwischen L und R,
Hauptmikrofonverfahren: − Anordnungen nach den Williams-Diagrammen, − Anordnungen mit Trennkörper
Sonderfall Äquivalenzverfahren: Pegel- und Laufzeitdifferenzen von L und R sind äquivalent
Stützmikrofonverfahren
Stützmikrofonverfahren
auch Poly- oder Multimikrofonie genannt Kombination aus dem XY- oder MS-Verfahren mit dem Einzel mikrofonverfahren
Kombination aus dem AB-Verfahren mit dem Einzelmikrofonverfahren
z. B. ORTF-, EBS-, NOS-Verfahren z. B. Kugelflächenmikrofon, Jecklinscheibe Kombination eines Hauptmikrofon verfahrens mit dem Einzelmikrofonverfahren
264
5 Tonaufnahme und Tonwiedergabe
Das bei reiner Intensitätsstereofonie als Hauptmikrofon verwendete Mikrofonsystem besteht aus zwei einzelnen Mikrofonen, die beim MS-Verfahren dicht übereinander, beim XY-Verfahren meist dicht nebeneinander als Einzelmikrofone oder als komplettes, intergrierendes System, als sog. Koinzidenz-Mikrofon, angeordnet sind, es handelt sich dann um ein sog. Stereomikrofon. Völlig anders konzipiert ist das Einzelmikrofonverfahren bei Intensitätsstereofonie, bei dem im Nahbereich der Teilschallquellen, z. B. bei Einzelinstrumenten, ein Mikrofon aufgestellt wird, dessen Abbildungsrichtung in der Tonregie mit dem sog. Panorama-Potentiometer oder Pan-Pot eingestellt wird; es erzeugt geeignete, von der Position der Schallquelle im Gesamtklangbild definierte Pegeldifferenzen bei der Zumischung in die Kanäle L und R. Schließlich kann eines der Hauptmikrofonverfahren mit dem Einzelmikrofonverfahren kombiniert werden zu dem bei großen Klangkörpern viel angewendetem Hauptmikrofon-Stützmikrofonverfahren oder einfacher Stützmikrofonverfahren; hierbei ergibt die Gewichtung des Hauptmikrofons gegenüber der Gesamtheit der Stützmikrofone wieder unterschiedliche Lösungen der Aufnahmetechnik.
Abb. 5/20. Aufnahmeverfahren der Zweikanal-Stereofonie mit verschiedenen Mikrofonverfahren, Δp = Pegeldifferenzen, Δt = Laufzeitdifferenzen.
Die Laufzeitstereofonie gewinnt das stereofone Klangbild mit dem AB-Mikrofonverfahren ausschließlich aus Laufzeitdifferenzen zwischen den Signalen zweier Einzelmikrofone, die einen Abstand zueinander haben, die sog. Mikrofonbasis. Die geschätzte Qualität dieses Verfahrens ist der gute Raumeindruck, weniger eine exakte Lokalisierbarkeit der Schallquellen. Ein Einzelmikrofonverfahren in reiner Laufzeitstereofonie müsste jedem einzelnen Mikrofon die notwendige Laufzeitdifferenz zwischen L und R zuweisen, was in der Aufnahmepraxis nicht realisiert wird, weil die Wahrnehmung der Richtung bei Laufzeitdifferenzen nicht deutlich ist. In der Praxis wird das AB-Verfahren deshalb vielfach mit Stützmikrofonen in Intensitätsstereofonie ergänzt.
5.3 Zweikanal-Stereofonie
265
Bei den gemischten Stereoaufnahmeverfahren wirken Intensitäts- und Laufzeitdifferenzen zwischen L und R gleichgerichtet zusammen. Die Intensitätsdifferenzen können unabhängig von der Frequenz sein, wie bei den Anordnungen nach den Williams-Diagrammen, z. B. mit dem ORTF-Verfahren, oder abhängig von der Frequenz wie bei den Trennkörperverfahren, z. B. dem Kugelflächenmikrofon. Tragen die Intensitäts- und Laufzeitdifferenzen etwa in gleichem Maß zur Auslenkung der Phantomschallquellen bei, so werden die Verfahren als Äquivalenz-Mikrofonverfahren bezeichnet. Gemeinsam ist allen Hauptmikrofonverfahren, dass die Auswahl des Mikrofontyps, der Aufstellungsort, die Einstellungen der Richtcharakteristiken und die Ausrichtung der Mikro fone sorgfältiger Vorüberlegung und Planung bedürfen, um optimale Ergebnisse zu erhalten; die dazu notwendigen Kenntnisse vermitteln die folgenden Kapitel. Eine Einstellung mit dem Gehör sollte nur in Korrekturen bestehen oder im Vergleich mehrerer Alternativen, die stets möglich sind. Beim Einzelmikrofonverfahren hingegen führt Erfahrung und Wissen über die Eigenschaften der Instrumente und Stimme und eine sorgfältige Abhörkontrolle und Wahl des Mikrofontyps, seines Standorts und seiner Ausrichtung zu einem guten Ergebnis. Sind die Einzelmikrofone Bestandteil des Stützmikrofonverfahrens, so soll zunächst das Hauptmikrofon für sich allein ein optimales Klangbild liefern, erst dann werden die Stütz mikrofone optimiert und zugemischt. Mangelhafte oder ungeeignete Einstellungen des Hauptmikrofons sollten niemals durch Stützmikrofone korrigiert oder verschleiert werden. Die folgenden Begriffe werden für die Beschreibung der Mikrofonverfahren verwendet (siehe dazu auch Tab. 5/2): –– Mikrofonbasis: das ist der Abstand zwischen zwei Mikrofonen, die gemeinsam eine Anordnung nach dem AB- oder den gemischten Aufnahmeverfahren bilden. –– Aufnahmebereich: dies ist der gesamte Winkelbereich um die Mittelachse der Aufnahmeanordnung, der bei der Abhöranordnung durch Real- und Phantomschallquellen in ihrer Richtung korrekt abgebildet wird. –– Aufnahmewinkel oder -bereich: dieser Begriff wird normalerweise mit dem Aufnahmebereich gleichgesetzt, wird aber gelegentlich nur dem halben Aufnahmebereich, von der Mitte bis zu einer Seite, gleichgesetzt. –– Versatzwinkel: dies ist derjenige Winkel, um den ein einzelnes Mikrofon aus der Mittelachse, der Hauptrichtung der Aufnahme, nach außen gerichtet wird, bei einer Stereoanordnung mit zwei Mikrofonen wird der Versatzwinkel vielfach auch durch „±“ auf beide Mikrofone bezogen; er ist stets der halbe Achsenwinkel. –– Achsenwinkel oder Öffnungswinkel: das ist der Winkel zwischen zwei Mikrofonen, die jedes einzeln nach außen, also nach links bzw. rechts, gedreht werden; er wird also zwischen den Achsen, die die Mikrofone bilden, gemessen und ist damit der doppelte Versatzwinkel. Die Feststellungen der folgenden Kapitel zu den Aufnahmewinkeln der einzelnen Mikrofonverfahren sind vorwegnehmend an Beispielen in Tab. 5/6 zusammengeführt; sie beruhen auf den in Kap. 5.2 dargelegten und in Tab. 5/2 zusammengefassten Zusammenhängen zwischen Pegel- und Laufzeitdifferenzen mit der Auslenkung der Phantomschallquellen (siehe Kap. 5.2.2). Die genannten Winkelgrade sind errechnete Werte, die in der Praxis so genau nicht eingehalten werden können und müssen. [Dickreiter, 2011], [Edenhof, 2020], [Hoeg, 1970, 1975], [Pawera, 2004]
266
5 Tonaufnahme und Tonwiedergabe
Tab. 5/6. Mikrofonverfahren und ihre Aufnahmebereiche mach [Wittek, Image Assistant] bei 5 m Abstand zur Schallquelle. Mikrofonverfahren
Mikrofonbasis Richtcharakteristik
Versatzwinkel, halber Achsenwinkel
Aufnahmebereich 75 % 100 %
XY
0 cm
Niere/Niere
45° 60° 75° 90°
142° 108° 84° 66°
180° 146° 116° 92°
Superniere/Superniere
35°
128°
152°
Acht/Acht (Blumlein-Verfahren)
45°
58°
72°
AB
30 cm 40 cm 50 cm 60 cm
Kugel/Kugel
0°
84° 60° 48° 40°
180° 98° 74° 60°
gemischte Verfahren nach den WilliamsDiagrammen Beispiele:
beliebig zwischen etwa 10 und 30 cm 10 cm 20 cm 25 cm 30 cm 17 cm
Niere/Niere, Superniere/Superniere, Hyperniere/Hyperniere Niere/Niere Niere/Niere Niere/Niere Niere/Niere Niere/Niere
69° 50° 45° 25° 55°
70° 66° 60° 64° 68°
100° 100° 90° 100° 102°
20 cm 18 cm
Kugel Kugel
EBS ORTF mit Trennkörper Kugel, Durchmesser
90° 120°
Die verschiedenen Aufnahme- und Mikrofonverfahren zeigen unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch gute Lokalisierbarkeit und Präsenz der Phantomschallquellen aus, während der Raumeindruck, also die Wahrnehmung des Raums, seiner Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren; sie bilden die Aufnahmesituation weitgehend getreu ab. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, stellt aber den Raum kaum dar; das Klangbild muss durch die Tonregie zusammengesetzt werden. Als Mikrofontyp für Hauptmikrofonverfahren werden allgemein Kleinmembranmikrofone mit einem Membrandurchmesser von etwa 1/2“ = 12,7 mm verwendet, da deren Richtcharakteristiken weniger von der Frequenz abhängen, besonders im oberen Frequenzbereich,
5.3 Zweikanal-Stereofonie
267
als die Richtcharakteristiken der Großmembranmikrofone mit einem Membrandurchmesser von etwa 1“ = 25,4 mm. In der Anfangszeit der Aufnahmetechnik standen zunächst nur Großmembranmikrofone zur Verfügung, aufgenommen wurde zunächst monofon in der One point-Technik – Aufnahme mit einem Kugelmikrofon, vielfach dem legendären M 50 von Neumann, dann aber auch als AB-Anordnung mit denselben Mikrofonen. Erst mit dem Aufkommen des Fernsehens entstand der Wunsch nach kleinen, unauffälligen Mikrofonen, das KM 53 aus dem Jahr 1953 von Neumann, ein Kugelmikrofon wie das M 50, war das erste Kleinmembranmikrofon. Großmembranmikrofone haben sich bis heute mit einer Tonabnahme im Nahbereich bewährt, bevorzugt in der Musikproduktion populärer Musik.
5.3.2 Intensitätsstereofonie Bei Intensitätsstereofonie bestehen zwischen den Stereosignalen L und R für die Erzeugung von seitlichen Phantomschallquellen ausschließlich Pegeldifferenzen, keine Laufzeit- bzw. Phasendifferenzen; bei mittigen Phantomschallquellen sind die Pegel von L und R gleich. Aufnahmen in dieser Technik sind daher grundsätzlich monokompatibel. Nach Einführung der Stereofonie in den späten 1950er und frühen 1960er Jahren war die Frage der Kompatibilität eine zentrale Frage der Aufnahmetechnik, da zunächst noch überwiegend Monogeräte in den Haushalten existierten. Damit empfahl sich die Intensitätsstereofonie vor allem im Bereich des öffentlich-rechtlichen Rundfunks als Aufnahmetechnik erster Wahl. Bei der Schallplattenproduktion konnte man mit der neuen Technik hingegen werben. Der allgemein eingeführte Begriff Intensitätsstereofonie ist zwar nicht falsch, aber im Hinblick darauf, dass man stets von Pegeln spricht, etwas verwirrend. Bei der Intensitätsstereofonie gibt es drei Mikrofonverfahren, genauer Hauptmikrofonverfahren [Theile, 1984], [IRT]: –– das Hauptmikrofonverfahren in XY-Technik (Kap. 5.3.2.1), –– das Hauptmikrofonverfahren in MS-Technik (Kap. 5.3.2.2), –– das Einzelmikrofonverfahren (Kap. 5.3.6). –– das Stützmikrofonverfahren als Kombination aus einem der Hauptmikrofonverfahren und dem Einzelmikrofonverfahren (Kap. 5.3.5). Die Genauigkeit der Lokalisierung ist beim Hauptmikrofonverfahren in MS- und XY-Technik gut, sie liegt in der Praxis bei Standard-Lautsprecheranordnung, d. h. 60° Öffnungswinkel zu den Lautsprechern aus der Sicht des Hörers im Bereich von ± 5° auf jeder Seite; damit können einschließlich der Mittenposition bis zu sieben Positionen der Phantomschallquellen auf der gesamten Basis beim Abhören ausreichend unterschieden werden; dazu kommen die zwei Positionen der seitlichen Realschallquellen. Es ergeben sich also maximal neun unterscheidbare Positionen der Schallquellen auf der Lautsprecherbasis. Die Tiefenstaffelung, also die Wahrnehmung der Entfernung, ist weniger deutlich als bei den Hauptmikrofonverfahren der Laufzeit- und gemischten Verfahren; Entfernungen, die kleiner sind als der Abstand der Lautsprecher zum Hörer, können nicht dargestellt werden. Das Einzelmikrofonverfahren bietet durch die getrennte Aufnahme der Schallquellen bei guter Lokalisierbarkeit größere Freiheit bei der Gestaltung des Klangbilds: Die Position
268
5 Tonaufnahme und Tonwiedergabe
der Phantomschallquellen kann unabhängig von ihrer Position im Aufnahmeraum regietechnisch weitgehend frei bestimmt werden. Wichtiger ist aber, dass die Balance der Pegel bzw. Lautstärken der Einzelschallquellen sowie ihre jeweiligen klanglichen Eigenschaften getrennt gewählt und eingestellt werden können, die Abbildung der Raumakustik des Aufnahmeraums ist dabei nur eingeschränkt möglich. Vielfach angewendet, hauptsächlich bei klassischer Musik und großen Klangkörpern, wird das sog. Stützmikrofonverfahren, mit dem die Qualitäten von Hauptmikrofonverfahren in Intensitätsstereofonie XY, MS oder in Laufzeitstereofonie AB und das Einzelmikrofonverfahren kombiniert werden. 5.3.2.1 XY-Mikrofonverfahren Das XY-Mikrofonverfahren verwendet ein Stereomikrofon oder zwei Einzelmikrofone in gleicher Anordnung, dessen bzw. deren Mikrofone dieselbe Richtcharakteristik haben, entweder Niere, Superniere, Hyperniere oder Acht, nicht aber Kugel. Sie liefern direkt die Signale L und R oder I und II, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale X und Y bezeichnet. Ihre Summe M = L + R ergibt ein einwandfreies Monosignal. Die Achsen der Hauptempfindlichkeit der Systeme liegen gekreuzt und symmetrisch zur fiktiven, auf das Zentrum des Klangkörpers gerichteten Mittelachse. Sie schließen den sog. Achsen- oder Öffnungswinkel ein, der Winkel jedes der Mikrofone schließt mit der Mittelachse den Versatzwinkel ein, also den halben Achsenwinkel. Die folgenden Begriffe werden für die Beschreibung der Anordnung der Mikrofone und für den Winkelbereich verwendet, innerhalb dessen eine korrekte Aufnahme stattfindet, dargestellt in Abb. 5/21: –– Mikrofon oder System: I, X oder L ist im Aufblick auf die Schallquellen nach links gerichtet, Mikrofon oder System II, Y oder R nach rechts. –– Achsenwinkel, auch Öffnungswinkel: der Winkel zwischen den Achsen der Mikrofone in XYTechnik, zugleich zwischen den Richtungen maximaler Empfindlichkeit der Mikrofone, in Abb. 5/21 ist das der Winkel δx + δy. –– Versatzwinkel: der halbe Achsenwinkel, also der Winkel zwischen jedem der Mikrofone und der Mittenachse der Anordnung, der Winkel, um den jedes der Mikrofone aus der Mitte versetzt ist, lso in Abb. 5/21 δx bzw. δy. –– Aufnahmewinkel oder Aufnahmebereich: der gesamte Winkelbereich, innerhalb dessen die Schallquellen korrekt auf der Basis zwischen den Lautsprechern abgebildet werden, also φ1 + φ2. Für die Abbildung in einem der Lautsprecher ist eine Pegeldifferenz von mindestens 15 dB erforderlich, angegeben werden auch 18, aber auch 12 dB. Betrachtet man aber Abb. 5/21, so ergibt sich für die Position der Schallquelle ganz rechts bei 135°, dass System I aus dieser Richtung kein Signal aufnimmt, System II gibt einen Pegel von – 6 dB bezogen auf den Maximalpegel des Systems ab; die Pegeldifferenz ist demnach unendlich groß, nicht aber 15 dB, wie für die Abbildung ganz seitlich benötigt würde. Auch eine unendlich große Pegeldifferenz führt zur Abbildung ganz seitlich, also im Lautsprecher L bzw. hier R, aber auch alle Pegeldifferenzen über 15 dB ergeben diesen Abbildungsort, somit wird der ganze Außenbereich im Lautsprecher zusammengefasst, während der Bereich um die Mitte korrekt abgebildet wird. Die Abbildung
5.3 Zweikanal-Stereofonie
269
des Klangbilds wird damit erheblich verzerrt. Um dies zu vermeiden, wird der Aufnahmebereich oder ‑winkel ermittelt und definiert. Stellt man bei der Aufnahme sicher, dass der Aufnahmebereich und die Ausdehnung der Schallquelle übereinstimmen, werden alle Schallquellen durch die Phantomschallquellen bei der Wiedergabe so gut, wie das Verfahren es zulässt, abgebildet. Der Aufnahmebereich definiert also den Winkelbereich, den das Mikrofonverfahren für die korrekte Aufnahme und Abbildung der Phantomschallquellen erfassen muss.
Abb. 5/21. Mikrofonanordnung in XY-Technik aus zwei gekreuzten Nieren mit den Versatzwinkeln φx bzw. φy, dem Achsenwinkel φ = φx + φy, dem Aufnahmebereich oder -winkel 100 %.
Die Auslenkung der Phantomschallquelle der Anordnung nach Abb. 5/21 zeigt Abb. 5/22. Man erkennt, dass die Anordnung einen Aufnahmebereich α von nur 180° besitzt. Der Aufnahmebereich wird ermittelt auf Grund der in Versuchen ermittelten Zusammenhänge für die Abbildung von Phantomschallquellen (siehe Kap. 5.2.2). Für die Position der Phantomschallquelle ganz seitlich auf der Lautsprecherbasis gilt der Aufnahmebereich 100 % − hier also 180°, halb seitlich oder 50 % liegt hier bei 100°; der Aufnahmebereich 75 % bei 142° definiert die Position dreiviertel seitlich, dies ist zugleich der Aufnahmebereich, innerhalb dessen die Phantomschallquellen sicher und korrekt analog der Aufnahmesituation abgebildet werden. In der Praxis der Aufnahme sollte also bevorzugt der Aufnahmebereich 75 % mit der Ausdehnung des Klangkörpers in Übereinstimmung gebracht werden. Tab. 5/7 nennt die Aufnahmebereiche 50 %, 75 % und 100 % für einige Versatzwinkel/Achsenwinkel der XY-Anordnung Niere/Niere, Superniere/Superniere und Acht/Acht. Aufnahmebereich und Versatzwinkel verlaufen entgegengesetzt: Mit kleiner werdendem Versatzwinkel wird der Aufnahmebereich größer. Die Kombination Niere/Niere erlaubt – wie aus Tab. 5/7 ersichtlich – einen Aufnahmebereich 75 % zwischen ca. 65° und ca. 140°. Bei den praxisnahen Aufnahmebereichen von 85° bis 110° ist der Versatzwinkel von ca. ± 75° bis ± 60° allerdings sehr groß, d. h., dass die Mikrofone, weil sie weit nach außen gedreht sind, nicht mehr auf die Schallquelle gerichtet sind und damit vom Schall aus Richtungen getroffen werden, in denen sie bezüglich
270
5 Tonaufnahme und Tonwiedergabe
ihres Frequenzgangs je nach Typ möglicherweise nicht optimal arbeiten. Die Kombination Niere/Niere eignet sich demnach besonders für größere Aufnahmewinkel oder, anders ausgedrückt, für geringere Entfernungen von der Schallquelle.
Abb. 5/22. Abbildungskurve für die XY-Anordnung Niere/Niere mit dem Versatzwinkel ± 45° entsprechend Abb. 5/21 [Wittek, Image Assistant].
Die Kombination Superniere/Superniere erlaubt wie aus Tab. 5/7 ersichtlich kleinere Aufnahmebereiche. Bei den praxisnahen Aufnahmebereichen 75 % von ca. 75° bis 105° ist der Versatzwinkel mit rund ± 60° bis ± 45° zwar kleiner als bei der Kombination Niere/Niere, aber auch hier sind die Mikrofone nicht direkt auf die Schallquelle gerichtet. Tab. 5/7. Zusammenhang von Versatzwinkel und Aufnahmebereich für die Anordnungen Niere/Niere, Superniere/Superniere und Acht/Acht [Wittek, Image Assistant]. Richtcharakteristik Niere/Niere
Superniere/Superniere
Acht/Acht Blumleinverfahren
Versatzwinkel oder Achsenwinkel ± 45° / 90° ± 60° / 120 ± 75° / 150° ± 90° / 180° ± 30° / 60° ± 45° / 90° ± 60° / 120° ± 75° / 150° ± 30° / 60° ± 45° / 90° ± 60° / 120°
Aufnahmebereich 50 % empfohlen: 75 %
100 %
142° 108° 84° 66° 142° 104° 76° 54° 87° 58° 36°
180° 146° 116° 92° 166° 130° 98° 72° 102 72° 46°
100° 76° 56° 44° 108° 76° 52° 38° 66° 42° 24°
5.3 Zweikanal-Stereofonie
271
Die Kombination Acht/Acht erlaubt – wie aus Tab. 5/7 ersichtlich – die kleinsten Aufnahmebereich 75 %, sie bietet also die höchste Richtungsauflösung. Bei den praxisnahen Aufnahmebereichen zwischen ca. 60° und 90° ist der Versatzwinkel mit ± 45° bis ± 30° relativ klein, die Mikrofone sind gut auf die Schallquelle gerichtet. Besonders für kleinere Aufnahmebereiche bzw. für größere Entfernungen von der Schallquelle eignet sich die Kombination Acht/Acht, die in der Praxis zu wenig Beachtung findet, besonders gut. Zwei unter einem Versatzwinkel von ± 45°, also Achsenwinkel 90°, rechtwinklig gekreuzte Achten ergeben einen Aufnahmebereich 100 % von 72°, diese Anordnung heißt Blumlein-Verfahren; es ist ein präzises Verfahren für kleine Aufnahmewinkel 75 % von 58° bzw. größere Entfernungen der Mikrofone von den Schallquellen. Die Befürchtung, diese Anordnung nehme zu viel Diffusschall von hinten auf, ist unbegründet, denn dieser Anteil ist ebenso groß wie bei der Anordnung Niere/Niere. 5.3.2.2 MS-Mikrofonverfahren Das MS-Mikrofonverfahren, engl. Mid/Side-Stereofonie, wurde schon in den frühen 1930er Jahren von Alan Blumlein entwickelt als ein bis heute etabliertes Stereoverfahren für Aufnahme und Übertragung der Stereosignale; heute versteht man aber unter Blumleinverfahren des ebenfalls von Blumlein vorgeschlagene Verfahren in XY-Aufnahmetechnik mit zwei gekreuzten Achten (siehe Kap. 5.3.2.1). Das MS-Verfahren verwendet wie das XY-Mikrofonverfahren ein Stereomikrofon oder eine äquivalente Anordnung aus zwei Einzelmikrofonen. Die Systeme I und II geben aber nicht unmittelbar die Signale L und R ab, sondern die Signale M und S: –– M-Signal, auch Monosignal, Mittensignal, Summensignal, Tonsignal, –– S-Signal, auch Stereosignal, Seitensignal, Differenzsignal, Richtungssignal. Erst durch Summen- und Differenzbildung werden die Signale L und R aus M und S gewonnen. Da die Summe zweier zwar unterschiedlicher Signale L und R, aber mit gleichem Pegel, eine Erhöhung des Gesamtpegels um 3 dB ergibt, muss bei der Addition der Summenpegel um 3 dB bedämpft werden. Die Umsetzung kann durch Übertrager, durch Differentialverstärker oder mit digitaler Verarbeitung erfolgen. Der Zusammenhang zwischen den Signalen M, S, L und R ist also L = M + S R = M – S M = L + R S = L – R
L = linker Kanal R = rechter Kanal M = Mono- oder Mittensignal S = Stereo- oder Seitensignal
Das M-Signal wird von System I, der feststehenden Kapsel eines Stereomikrofons, geliefert, es ist unmittelbar das Monosignal, das also im Gegensatz zum XY-Verfahren von einem einzigen Monomikrofon stammt, das vorteilhaft auf das Zentrum des Klanggeschehens gerichtet ist. Jede einstellbare Richtcharakteristik ist möglich, also Kugel, Nieren, Acht, auch alle Zwischenformen. Das S-Signal stammt von System II, der drehbaren Kapsel eines Stereomikrofons; sie ist stets auf Achterrichtcharakteristik und einen Versatzwinkel von - 90°, mit Blick vom Mik-
272
5 Tonaufnahme und Tonwiedergabe
rofon auf die Schallquelle also nach links, einzustellen. Wenn die positive Seite der Acht nach rechts anstatt nach links ausgerichtet ist, ergibt sich ein Seitentausch. Abb. 5/23 zeigt eine MS-Mikrofonanordnung mit Niere und Acht.
Abb. 5/23. MS-Mikrofonanordnung aus Niere und Acht.
Der Aufnahmebereich hängt vom Pegelverhältnis von M- zum S-Signal ab, er wird also bestimmt von den eingestellten Verstärkungen der Mikrofone und von der Richtcharakteristik des M-Signals. Er kann somit von der Regie aus, auch bei laufender Aufnahme, eingestellt oder verändert werden, wohingegen dies beim XY‑Verfahren stets am Mikrofon selbst durch Veränderung des Versatzwinkels geschehen muss. Der Aufnahmebereich einer MS-Anordnung ist zunächst grundsätzlich der Winkelbereich, innerhalb dessen das M-Signal größer oder gleich groß wie das S-Signal ist. Allerdings heißt das, dass die Ränder des Aufnahmebereichs in dem jeweiligen Lautsprecher zusammengefasst werden, solange die Pegeldifferenz zwischen L und R größer 15 dB ist; deshalb ist der Aufnahmebereich etwas kleiner als es die Schnittstellen von M- und S-Signal vorgeben. Anstatt auf theoretische Überlegungen zu bauen, wird empfohlen, im Bewusstsein dieser Tatsache gehörmäßig in der Regie durch Pegeleinstellung des S-Signals den angemessenen Aufnahmebereich zu bestimmen. Besondere Beachtung bei der Anwendung des Verfahrens muss dem Winkelbereich, bei dem das S-Signal größer als das M-Signal wird, gewidmet werden, in Abb. 5/23 die seitlichen Bereiche außerhalb der Schnittpunkte von M- und S-Signal. Wird M sehr klein gegen S und somit vernachlässigbar, so wird L = + S und R = − S, ein identisches, jedoch verpoltes Signal für L und R, das bei Monobildung M = L + R = + S – S = 0 ausgelöscht wird, also aufnahmetechnisch inakzeptabel ist, da nicht monokompatibel. Zu 0 kann M werden nur bei der Niere bei 180° und bei der Acht bei ± 90°. In der Aufnahmepraxis ist also stets besondere Aufmerksamkeit auf die Bereiche zu richten, in denen das S-Signal größer als das M-Signal ist. Ein besonderer Fall ist die MS-Kombination Acht/Acht, hier wird der rückwärtige Bereich grundsätzlich verpolt abgebildet, also diffus ohne Richtungsinformation, z. B. der Beifall von Publikum, der bei Monowiedergabe dann also teilweise ausgelöscht wird. 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren XY- und MS-Mikrofonverfahren sind unter der Annahme idealer Richtcharakteristiken verlustfrei äquivalent, d. h., sie können in beiden Richtungen nach den obigen Formeln ineinander umgewandelt werden. Jede MS-Anordnung kann grundsätzlich, aber mit praktischen
5.3 Zweikanal-Stereofonie
273
Einschränkungen, in eine gleichwertige XY-Anordnung umgewandelt werden und umgekehrt. Diese Umwandlung wird als Stereomatrix oder Stereoumsetzung bezeichnet. Da M und S nach derselben Beziehung aus L und R gewonnen werden wie L und R aus M und S, kann die Umwandlung in beiden Richtungen mit demselben Gerät, dem Richtungsmischer, auch Stereomatrix, Stereoumsetzer, Differentialübertrager oder Summen-Differenzübertrager genannt, erfolgen; auch die Betriebsrichtung Eingang-Ausgang ist dabei dieselbe. Zu Details zum Richtungsmischer siehe die Kap. 6.1.2 und 8.8.2. Eine schematische Zuordnung von XY- und MS-Richtcharakteristik-Kombinationen ist unter der Annahme idealer Richtcharakteristiken mathematisch schlüssig. Allerdings gibt es eine unüberschaubare Zahl von Kombinationen, da z. B. bei MS nicht nur die Richtcharakteristik des M-Signals, sondern auch das Pegelverhältnis M zu S zu berücksichtigen ist. In der Praxis erhebt sich die Frage nach äquivalenten Richtcharakteristiken indessen kaum, da man es nicht mit idealen Richtcharakteristiken zu tun hat und die Entscheidung für ein Verfahren im Vorfeld getroffen wird. 5.3.2.4 Praktischer Einsatz von Stereomikrofonen Ergänzend zu den obigen grundlegenden Ausführungen werden im Folgenden noch einige praktische Hinweise angefügt, die sowohl für das XY- als auch das MS-Verfahren gelten: Empirische Ermittlung des Aufnahmebereichs Möchte man bei Verwendung reiner Intensitätsstereofonie für eine gegebene Aufnahmesituation in der Praxis den optimalen Aufnahmebereich einstellen, so kann man anstatt die vorhandenen Kenntnisse oder Hilfsmittel zu nutzen, ihn auch in der praktischen Situation empirisch finden, allerdings mit geringerer Genauigkeit, weil die Raumakustik das Ergebnis mehr oder weniger beeinflusst: Man stellt z. B. ein Metronom auf den seitlichsten Punkt der Schallquelle, z. B. eines Chors, und zieht bei einer MS-Anordnung den S-Pegel solange hoch, bis die Pegeldifferenz zwischen L und R 15 dB erreicht, wobei der Korrelationsgrad in jedem Fall positiv bleiben muss. Bei der XY-Anordnung müssen die Mikrofonkapseln symmetrisch nach außen verdreht werden, bis eine Pegeldifferenz von 15 dB erreicht wird. Möchte man umgekehrt den Aufnahmebereich eines Stereomikrofons in der jeweiligen Situa tion ermitteln, geht man unter Hinwendung zum Mikrofon sprechend oder mit einer kleinen Schallquelle, z. B. einem Metronom, den Winkelbereich vor dem Mikrofon ab, beobachtet den Aussteuerungsmesser und bestimmt den Ort links und rechts für das Erreichen einer Pegeldifferenz von 15 dB, auch hier ergibt sich ein brauchbares Ergebnis. Schall aus Richtungen außerhalb des Aufnahmebereichs Bei der Auswahl der Mikrofonanordnung in XY bzw. MS ist auch die Frage wichtig, wie Schallquellen aus dem Bereich außerhalb des Aufnahmebereichs auf der Lautsprecherbasis abgebildet werden. Die MS-Anordnungen Kugel/Acht sowie die XY-Anordnung mit zwei Nieren mit dem Versatzwinkel ± 90° − Achsenwinkel 180° − nehmen Schall von vorne und von hinten mit gleicher Empfindlichkeit auf, der rückwärtige Bereich wird seitenrichtig nach vorne geklappt und den vorderen Schallquellen überlagert. Demgegenüber nehmen die
274
5 Tonaufnahme und Tonwiedergabe
Anordnungen Niere/Acht in MS und zwei Nieren mit Versatzwinkeln unter etwa 60° in XY Schall von hinten deutlich vermindert seitenrichtig auf. Mit besonderer Sorgfalt sind die Kombinationen Acht/Acht in MS und als Blumleinverfahren von XY einzusetzen, da rückwärtige Schallquellen hier mit derselben Empfindlichkeit, aber seitenverkehrt eingeordnet werden. Kritisch sind seitliche Schallquellen: Sie erscheinen, wenn das S-Signal größer als das M-Signal ist, bzw. wenn beim XY-Verfahren zwischen L und R gegenphasige Signale auftreten, nicht oder diffus lokalisierbar als verpolte Signale. Diese Mikrofonanordnungen sind also ungeeignet bei Schallquellen außerhalb des Aufnahmebereichs, auch bedarf der Nachhall hier einer besonderen Aufmerksamkeit. Ausrichtung des Stereomikrofons Stereomikrofone bestehen aus zwei gegeneinander drehbaren, dicht nebeneinander oder auf einer gemeinsamen Achse dicht übereinander montierten Mikrofonkapseln. Alle möglichen Richtcharakteristiken können eingestellt werden. Die feststehende, mit dem Verstärker fest verbundene Kapsel von System I gibt das X- bzw. M-Signal ab; sie ist beim XY-Verfahren bei Blick auf das Klanggeschehen nach links ausgerichtet, beim MS-Verfahren auf die Mitte bzw. auf das Zentrum der Schallquelle, die Ausrichtung des Mikrofons wird durch einen Punkt, eine Leuchtdiode oder das Firmenzeichen markiert. Die drehbare Kapsel von System II gibt das Y- bzw. S-Signal ab; sie ist beim XY-Verfahren spiegelbildlich zum X-System um den Versatzwinkel nach rechts gerichtet. Beim MSVerfahren – System II ist hier stets eine Acht – ist die Kapsel stets mit ihrer positiven Seite nach links, unter – 90̊° zur Achse des M-Signals ausgerichtet; ihre positive Seite ist ebenfalls durch einen Punkt o. ä. markiert. Bei hängendem Mikrofon – drehbare Kapsel unten, Kabelanschluss oben herausgeführt – ändert sich für das M-Signal nichts, das drehbare System II muss wieder nach links nachgeführt werden. Laufzeitdifferenzen zwischen den beiden Mikrofonsystemen des Stereomikrofons und dadurch hervorgerufene Phasendifferenzen zwischen den Stereosignalen können das Klangbild bei hohen Frequenzen insbesondere bei Stereomikrofonen mit großen Membranen, verfälschen. Schräger Schalleinfall ist demnach bei der Ausrichtung des Mikrofons zu vermeiden; eine sorgfältige Ausrichtung ist also nicht nur in der horizontalen Ebene, sondern auch in der vertikalen Ebene zu beachten. Doppel-Stereomikrofone Eine interessante Möglichkeit, ausgedehnte Klangkörper aufzunehmen, ist das Doppelstereoverfahren. Hierbei wird der gesamte Aufnahmebereich in zwei Sektoren aufgeteilt, links bis Mitte und Mitte bis rechts. Diese Sektoren lassen sich dann getrennt regietechnisch bzw. künstlerisch gestalten, hierzu Näheres in Kap. 5.4.2.1.
5.3.3 Laufzeitstereofonie Bei der Wahrnehmung der Richtung beim natürlichen Hören (siehe Kap. 3.4) wertet das Gehör Pegelunterschiede und Laufzeitunterschiede der Signale an den Ohren aus. Die Intensitätsstereofonie nutzt nur die Pegelunterschiede, die Laufzeitstereofonie nur die Laufzeitun-
5.3 Zweikanal-Stereofonie
275
terschiede. Die gemischten Mikrofonverfahren basieren auf der Kombination beider Unterschiede (Kap. 5.3.4). Das Mikrofonverfahren der Laufzeitstereofonie ist das sog. AB-Verfahren. Zwei Mikrofone werden in einem bestimmten Abstand zueinander, der Mikrofonbasis, nebeneinander vor der Schallquelle aufgestellt (Abb. 5/24). Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale A und B bezeichnet.
Abb. 5/24. Prinzip des AB-Mikrofonverfahrens mit der Laufzeitdifferenz Δ l der Schallwege A – P und B – P.
Wenn zwischen einem Punkt P des Klangkörpers und den beiden Mikrofonen A und B eine Wegdifferenz Δl entsteht, ergeben sich Laufzeitdifferenzen zwischen den Mikrofonsignalen, die bei Lautsprecherwiedergabe Phantomschallquellen bilden (siehe Kap. 5.2.1.2). Die geringen Pegeldifferenzen, die sich wegen der unterschiedlichen Wege ergeben, sind in der Praxis bedeutungslos. A und B sind Monomikrofone mit bevorzugt Kugelrichtcharakteristik von Druckempfängern, aber auch parallel ausgerichtete Nieren- oder Achterrichtcharakteristiken sind möglich; beide Mikrofone haben immer die gleiche Richtcharakteristik. Vorteilhafte Eigenschaften des AB-Mikrofonverfahrens sind in erster Linie die Darstellung räumlicher Merkmale einer Aufnahme, soweit dies in Zweikanal-Stereofonie möglich ist, dazu gehört eine gute Tiefenstaffelung der Schallquellen, also eine bessere Unterscheidbarkeit der Entfernungen der Schallquellen und eine bessere Raumdarstellung als bei Intensitätsstereofonie. In der Praxis unterscheidet man zwischen Klein-AB und Groß-AB. Während Klein-AB ein aufnahmetechnisch und in der Theorie einwandfreies, korrektes Klangbild ergibt, ist Groß-AB durch die Theorie nicht gedeckt, findet dennoch durch sein besonderes, beeindruckendes Abbild des Raumklangs vielfach Zustimmung, vor allem in Kombination mit dem Stützmikrofonverfahren. 5.3.3.1 Klein-AB Wie beim Stereomikrofon in XY oder MS der Zusammenhang von Versatzwinkel und Aufnahmebereich Grundlage der Mikrofoneinstellung ist, so ist beim Hauptmikrofon in Klein-ABTechnik der Zusammenhang von Mikrofonbasis und Aufnahmebereich Grundlage der Mikro foneinstellung. Sollen die vorteilhaften Eigenschaften einer Laufzeitmikrofonanordnung genutzt und gleichzeitig eine ausgewogene Richtungsabbildung des Klangkörpers erzielt werden, so müssen demnach die bekannten Gesetzmäßigkeiten des Aufnahmebereichs für Laufzeitstereofonie beachtet werden.
276
5 Tonaufnahme und Tonwiedergabe
In Tab. 5/8 sind die Aufnahmebereiche 50 %, 75 % und 100 % für Werte der Mikrofonbasis zwischen 25 und 40 cm angegeben. Auch bei Laufzeitstereofonie müssen vor allem die 75 % Werte beachtet werden. Für größere Aufnahmewinkel, also gerade den 100 %-Wert, machen komplexe Phänomene eine eindeutige Definition der Abbildungsrichtung gerade im Randbereich nur eingeschränkt möglich. Man sieht, dass die Breite der Mikrofonbasis sehr sensibel auf den Aufnahmebereich einwirkt, schon kleine Änderungen zeigen beachtliche Auswirkungen. Bei Werten unter 25 cm und über 40 cm ist das AB-Mikrofonverfahren, soweit eine korrekte Abbildung der Phantomschallquellen überhaupt erreicht werden soll, ungeeignet. Allgemein beim AB-Verfahren spielen der subjektive Klangeindruck und das Experimentieren allerdings eine wichtigere Rolle als bei Intensitätsstereofonie; z. B. kann die präzise Abbildung der Phantomschallquellen nicht alleiniges Ziel einer Aufnahme sein, insofern kann die Mikrofonbasis auch Werte über 40 cm haben, vielfach werden gerade Werte zwischen 40 und 80 cm oder größer bevorzugt. Bei einer Orgelaufnahme etwa, wo – bedingt durch die Konstruktion des Instruments – die Töne der Pedalregister abwechselnd auf den linken und rechten Pedalturm verteilt sind, ist eine Richtungsinformation nicht primär, vielleicht sogar verwirrend. Hier spielt die Einbeziehung des Raums eine besondere, bevorzugte Rolle, die durch den Aufnahmebereich nicht beschrieben wird. Überhaupt ist die Übertragung der Raumakustik gerade bei klassischer Musik – besonders hier wird AB eingesetzt – ein Qualitätsfaktor, der nicht unterschätzt werden darf. Sollen auch tiefe Frequenzanteile des Raumschalls beeindruckend übertragen werden, ist eine eigentlich korrekte Mikrofonbasis nicht mehr hilfreich. Um die Korrelation von Signal A und B aufzuheben, muss eine Phasendifferenz von 90° entsprechend 1/4 der Wellenlänge für ganz seitliche Schallquellen realisiert werden, Dazu ist für 100 Hz eine Mikrofonbasis von 82 cm erforderlich, für 50 Hz von 165 cm. Eine für eine optimale Wiedergabe des Raumschalls wünschenswerte Phasendifferenz von 90° erfordert hingegen schon bei 33 Hz eine Mikrofonbasis von 2,50 m, eine auch nur annähernd korrekte Abbildung der Phantomschallquellen ist dabei unmöglich. Tab. 5/8. Zusammenhang von Mikrofonbasis und Aufnahmebereich für die Anordnungen Kugel/Kugel bei 5 m Abstand zur Schallquelle [Wittek, Image Assistant]. Mikrofonbasis 25 cm 30 cm 32,5 cm 35 cm 37,5 cm 40 cm
Aufnahmebereich 50 % empfohlen: 75 % 62° 50° 46° 44° 40° 38°
108° 84° 76° 70° 66° 60°
100 % 180° 180° 136° 116° 106° 98°
Gelegentlich wird die Meinung vertreten, der Abstand der Ohren mit 17,5 cm sei eine optimale, „natürliche“ Mikrofonbasis. Dies entspricht einer maximal möglichen Laufzeitdifferenz für seitliche Schallquellen unter ± 90° zur Blickrichtung eintreffenden Schall von 0,5 ms, zu kurz für eine Abbildung der Phantomschallquellen seitlich auf der Lautsprecherbasis. so dass der Ohrabstand keine brauchbare Mikrofonbasis darstellt. Wählt man dennoch
5.3 Zweikanal-Stereofonie
277
eine solche Mikrofonbasis, so müssen wie beim natürlichen Hören zusätzlich zu den Laufzeitdifferenzen auch Pegeldifferenzen hinzukommen, erzeugt durch gerichtete Mikrofone. Das führt dann aber zu den sog. gemischten Stereoverfahren, im Fall des Ohrabstands als Mikrofonbasis zum ORTF- und EBS-Mikrofonverfahren. Diese Verfahren werden unten in Kap. 5.3.4 besprochen. 5.3.3.2 Groß-AB Vielfach werden Kugelmikrofone, im Allgemeinen Druckempfänger, mit relativ großer Mikro fonbasis aufgestellt, z. B. 1,5 bis 3 m, oft auch als Grenzflächenmikrofone. Bei diesem Mikro fonverfahren erzeugen Schallquellen um die Mitte des Aufnahmebereichs vorwiegend Laufzeitdifferenzen, Schallquellen in den Randzonen des Aufnahmebereichs bei vergleichsweise sehr großen Laufzeitdifferenzen zusätzlich Pegeldifferenzen, hervorgerufen durch die unterschiedlichen Entfernungen zu den Mikrofonen. Die Laufzeitdifferenzen führen nur in einem schmalen Bereich um die Mitte zu Phantomschallquellen, dabei wird dieser Bereich bei der Wiedergabe stark gespreizt. Bei einem Mikrofonabstand zur Schallquelle von z. B. 6 m und einer Mikrofonbasis von 2 m wird nur ein Bereich von ca. ± 7° auf der gesamten Lautsprecherbasis abgebildet, die übrigen Schallquellen jeweils außen. So entsteht eine sehr verzerrte, ungleichmäßige Verteilung der Schallquellen auf der Basis, die so nicht akzeptabel ist. Um dem entgegenzuwirken, wird oft ein drittes Mikrofon in der Mitte der Mikrofonbasis aufgestellt. Da dieses Mikrofon auf den linken und rechten Kanal eingemischt wird, entstehen u. U. erhebliche Klangfärbungen durch Kammfiltereffekte. Das Mehrkugelverfahren wird meist mit dem Einzelmikrofonverfahren zum Stützmikrofonverfahren kombiniert, hierbei wird es vor allem die Rauminformationen aufnehmen und den Stützmikrofonen hinzufügen, eigentlich handelt es sich dann um ein Einzelmikrofonverfahren mit Raumstützmikrofonen; in diesem Fall ist die große Mikrofonbasis richtig, Kammfiltereffekte entstehen beim Raumschall nicht. Als Hauptmikrofonverfahren ist Groß-AB also nur geeignet, wenn die Übertragung des Raumschalls eindeutig im Vordergrund steht und der Abstand der ABAnordnung relativ groß ist Für Groß-AB werden oft Grenzflächenmikrofone (siehe Kap. 4.2.2) eingesetzt. Sie benötigen eine akustisch nicht oder wenig absorbierende Auflagefläche mit einer Ausdehnung von mindestens 1,5 m, die der Mikrofonmembran die notwendige akustisch wirksame Ausdehnung verleiht. Meist wird dafür der Fußboden des Aufnahmeraums, evtl. auch seine Wände verwendet. Grenzflächenmikrofone bieten die Übereinstimmung und Linearität von Direktfeld- und Diffusfeldfrequenzgang in idealer Weise. Da sie zudem noch Klangfärbungen durch wenig verzögerte Reflexionen am Boden vermeiden, erfüllen sie besonders gut die Anforderungen der Laufzeitstereofonie, bei der ja in weit höherem Maße Raumschall aufgenommen wird als bei Intensitätsstereofonie. Die Bedingungen zum Einsatz von Grenzflächenmikrofonen sind in der Praxis nicht immer erfüllbar: Oft stehen in angemessener Entfernung nicht genügend große reflektierende Flächen zur Verfügung. Zudem verdecken z. B. Musiker der ersten Reihe diejenigen der zweiten. Bei öffentlichen Veranstaltungen kann das Verhalten des Publikums bei dieser Mikrofontechnik nicht akzeptable Nebengeräusche bedingen. Die auf dem Boden liegenden Mikrofone stellen außerdem bei Anwesenheit von
278
5 Tonaufnahme und Tonwiedergabe
Publikum ein gewisses Risiko für die Betriebssicherheit dar, siehe zu diesem Mikrofontyp ausführlich Kap. 4.2.4.2. 5.3.3.3 Decca-Tree Der sog. Decca-Tree oder das Decca-Dreieck ist eine Stereo-Aufnahmeanordnung, die schon in der Versuchsphase stereofoner Aufnahmetechniken im Jahr 1953 bei Sitzungen der Aufnahmen der Firma Decca empirisch entwickelt und später bei vielen Decca-Aufnahmen eingesetzt wurde, sich aber nicht in die theoretischen Überlegungen zur Mikrofonierung einfügen lässt. In der Anordnung eines Dreiecks oder auf den Kopf gestellten T werden drei Mikrofone, im Allgemeinen Druckkugeln, entsprechend Abb. 5/40 angeordnet. Das Mittenmikrofon C befindet sich typischerweise 1,5 m vor der Mikrofonbasis aus den Mikrofonen L und R mit einem gegenseitigen Abstand von ca. 2,0 m. Minimal sollten die Abstände 1,25 m nicht unterschreiten, eine Standardisierung fand nicht statt. Bevorzugt wurde das System bei großen Orchesteraufnahmen eingesetzt, wo die Anordnung in das Orchester in einer Höhe von 3 bis 4 m hineinragt. Das Decca-System bildet hauptsächlich und deutlich die Positionen links – Mitte – rechts ab und zeichnet sich durch einen beeindruckenden Raumklang aus. Es gilt nicht als abgewandeltes Groß-AB-Verfahren. Das System ist offen für zahlreiche Varianten wie die Verzögerung des Mittenmikrofons, Richtungsregelung der AB-Anordnung und Unterstützung durch Stützmikrofone [Gernemann, 2002/1]. Eine Renaissance erlebt der Decca-Tree als raumbetonte Aufnahmetechnik für Surround Sound-Aufnahmen, wo es direkt die Signale L, R und C liefert (siehe Kap. 5.4.2.3). 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie Ergänzend zu den grundsätzlichen Darlegungen zur Laufzeitstereofonie werden nachfolgend einige Hinweise für den praktischen Einsatz gegeben: Bedeutung der Raumakustik Bei der Mikrofonaufstellung für eine Aufnahme in Laufzeitstereofonie handelt es sich wie beim Aufnahmeverfahren in XY- oder MS-Technik um ein Hauptmikrofonverfahren. Das bedeutet, dass mit nur einem Mikrofonpaar das gesamte Klanggeschehen aufgenommen wird. Die Klangbalance kann hierbei aber nur dann gewahrt werden, wenn der Abstand der Mikrofone zur Schallquelle nicht kleiner ist als dessen Ausdehnung; anderenfalls werden die Abstände zu den Einzelschallquellen zu unterschiedlich. Damit befindet sich das Mikrofonsystem nicht mehr im Nahbereich der Schallquellen mit überwiegend Direktschall, sondern in einem Bereich, in dem Diffusschall einen relativ großen Anteil haben kann, je nach der Akustik, speziell der Nachhallzeit des Raums. Gerade die bei Laufzeitstereofonie vorteilhafte und übliche Verwendung ungerichteter Mikrofone ergibt einen größeren Diffusschallanteil als bei dem XY- bzw. MS-Mikrofonverfahren der Intensitätsstereofonie; deshalb sind parallel ausgerichtete Richtmikrofone durchaus eine bedenkenswerte Möglichkeit. So erhält die Akustik des Aufnahmeraums eine weit größere Bedeutung bei der Laufzeitstereofonie, als ihr bei den Verfahren der Intensitätsstereofonie zukommt: Das AB-Verfahren eignet sich deshalb
5.3 Zweikanal-Stereofonie
279
nur bei akustisch guten Räumen, das Hinzufügen künstlichen Nachhalls sollte sich bei ABAufnahmen also weitgehend erübrigen. Mikrofonauswahl Einer der Vorteile des AB-Mikrofonverfahrens, die gute Wiedergabe des Raumeindrucks des Aufnahmeraums, beruht wesentlich auf der Wiedergabe des Diffusschalls. Die adäquate Aufnahme des Diffusschalls erfordert im Allgemeinen Mikrofone mit Kugelcharakteristik. Grundsätzlich können besonders bei übermäßig halligen Räumen aber auch parallel ausgerichtete Richtmikrofone verwendet werden. Hierbei ist zunächst an die breite Niere mit ihrer weitgehend frequenzunabhängigen Richtcharakteristik zu denken, aber auch an die Niere, es gelten dabei praktisch die Aufnahmebereiche für Kugeln (Tab. 5/8). Bereits in der Zeit der Monofonie wurden Druckempfänger bei Verwendung nur eines Mikrofons aus klanglichen Gründen gegenüber Druckgradientenempfängern bevorzugt. Das AB-Mikrofonverfahren ist die stereofone Weiterentwicklung dieser Klangästhetik. Maßgeblich dafür ist die technisch nicht vollständig zu dokumentierende Klangqualität dieser Mikro fone. Sie beruht wohl besonders auf der guten Aufnahme tiefer Frequenzen. Im hohen Frequenzbereich sind Druckmikrofone dadurch gekennzeichnet, dass zwischen Direktfeld- und Diffusfeldfrequenzgang ein Unterschied besteht, der auch durch Filterung nicht zu beseitigen oder herzustellen ist (siehe Kap. 4.2.1). Es gibt vier Typen von Kugelmikrofonen: –– diffusfeldentzerrte Druckempfänger mit linearem Diffusfeldfrequenzgang und Frei- oder Direktfeldfrequenzgang mit Höhenanhebung, –– frei- oder direktfeldentzerrte Druckempfänger mit linearem Frei- oder Direktfeldfrequenzgang und Diffusfeldfrequenzgang mit Absenkung der Höhen, –– frei- oder direktfeldentzerrte Druckempfänger mit leicht ansteigendem Frei- oder Direktfeldfrequenzgang und leicht abfallendem Diffusfeldfrequenzgang, –– Grenzflächenmikrofone mit linearem Frei- oder Direktfeld- und linearem Diffusfeldfrequenzgang. Welchem Typ der Entzerrung im Einzelfall der Vorzug gegeben wird, ist keine aufnahmetechnische Entscheidung, sondern eine Frage der Klanggestaltung, abhängig von vielen Faktoren wie der Art der Schallquellen und dem Stil der Darbietung sowie der Raumakustik. Da sich die genannten Mikrofontypen nur in der Entzerrung ihres Frequenzgangs unterscheiden, können die verschiedenen Entzerrungen auch mit einem Filter z. B. aus einem diffusfeldentzerrten Mikrofon nachgebildet werden: eine Höhenabsenkung um 6 dB ergibt ein freifeldentzerrtes Mikrofon, eine Absenkung um 3 dB ein solches mit leichtem Höhenanstieg; nicht jedoch nachgebildet werden kann die unterschiedliche Entzerrung von Direkt- und Diffusfeld z. B. bei einer Niere. Abstand von der Schallquelle Der Abstand des Mikrofonpaars von der Schallquelle wirkt sich bei gleichbleibender Mikro fonbasis in folgender Weise auf das Klangbild aus: Je größer der Abstand ist, umso mehr Raumschall erhält das Klangbild, umso schmaler wird die Schallquelle abgebildet und umso geringer wird die Tiefenstaffelung ausgedehnter Klangkörper wie Orchester. Andererseits
280
5 Tonaufnahme und Tonwiedergabe
gewinnt eine Aufnahme mit zunehmendem Mikrofonabstand an Homogenität. Da mit wachsendem Abstand sich die Klangqualitäten einer Aufnahme teils verbessern, teils verschlechtern, ist stets nach einem optimalen Kompromiss zu suchen, der nicht in einer allgemeinen Empfehlung ausgedrückt werden kann. Die Abbildungsbreite kann durch die Mikrofonbasis optimiert werden, so dass Hallanteil und Tiefenstaffelung die wesentlichen Gesichtspunkte für die richtige Wahl des Mikrofonabstands von der Schallquelle sind. Um eine räumliche Auflösung der Schallquellen bei der Wiedergabe zu realisieren, muss das Mikrofonpaar in einem Abstand von der Schallquelle aufgestellt werden, bei dem noch ein hörbarer Direktschallanteil vorhanden ist, also innerhalb des Hallradius (siehe Kap. 1.2,4). Bei Verwendung von Kugelmikrofonen ist der Bereich um die Schallquelle, in dem der Direktschallanteil überwiegt, deutlich kleiner als bei Verwendung von gerichteten Mikrofonen (siehe Abb. 5/29), wenn er z. B. bei der Kugel 5 m beträgt, erhöht er sich bei der Niere um den Faktor 1,7, also auf 8,5 m. Das Laufzeitverfahren kann mit den Aufnahmeverfahren der Intensitätsstereofonie ohne weiteres kombiniert werden. Da das AB-Mikrofonverfahren ein Hauptmikrofonverfahren ist, bietet sich insbesondere die Kombination mit dem XY-Verfahren für kleinere Untergruppen oder mit dem Einzelmikrofonverfahren für einzelne Instrumente als Stützmikrofone an. Es ergeben sich dabei Verfahren, die gleichzeitig Intensitäts- und Laufzeitdifferenzen enthalten; diese Verfahren werden im nachfolgenden Kapitel behandelt.
5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie Die Aufnahmeverfahren der Intensitäts- und Laufzeitstereofonie können nicht nur einzeln für sich angewendet werden, sondern führen gerade in ihrer Kombination zu den aufnahmetechnisch sehr interessanten sog. gemischten Verfahren, bei denen das XY- mit dem ABVerfahren in einem Hauptmikrofonverfahren kombiniert wird. Es geht nicht darum, die Verfahren zu addieren, sondern tatsächlich um ein Zusammenführen, ein Verschmelzen von AB und XY, nicht aber MS. Die gemischten Aufnahmeverfahren können die Qualitäten von Intensitätsstereofonie – präzise Phantomschallquellen auf der Lautsprecherbasis – und der Laufzeitstereofonie – guter Raumeindruck und Tiefenstaffelung – miteinander verbinden. Die Laufzeitdifferenzen sorgen auch im tiefen Frequenzbereich bei Diffusschall für die Bildung von Phantomschallquellen und damit für eine Abbildung des Raums auf der Stereobasis; die Pegeldifferenzen sichern im höheren Frequenzbereich, wo Laufzeitdifferenzen zu unklaren, mehrdeutigen Abbildungen führen können, deutlich wahrnehmbare Phantomschallquellen, so ergänzen sich die Verfahren. Diese Aufnahmeverfahren werden deshalb auch oft erfolgreich verwendet. In der Praxis lassen sich allerdings die Anteile von Laufzeit- und Pegeldifferenzen an der Stereoabbildung meist nur grob abschätzen, da zu viele Faktoren darauf Einfluss nehmen. Wenn Intensitäts- und Laufzeitverfahren gleichgewichtig sind, spricht man von Äquivalenzverfahren. Bei XY bzw. MS und AB gibt es im Idealfall keine Abhängigkeiten der Signalpegel von der Frequenz, in der Praxis sind sie relativ gering. Da aber beim natürlichen Hören Laufzeit- und Pegeldifferenzen kombiniert auftreten, hier aber die Pegeldifferenzen mehr oder weniger frequenzabhängig sind, liegt es nahe, auch bei den gemischten Verfahren bewusst mit fre-
5.3 Zweikanal-Stereofonie
281
quenzabhängigen Pegeldifferenzen zu arbeiten. Diese Verfahren werden mit einem Trennkörper zwischen den Mikrofonen einer AB-Anordnung realisiert, man nennt sie deshalb zusammenfassend Trennkörper-Mikrofonverfahren oder kurz Trennkörperverfahren. Für die Formgebung der Trennkörper gibt es eine große Palette von Möglichkeiten: flache Scheiben, Zylinderabschnitte, Kugeln, Keile u. a. in verschiedenen Größen, aber eben auch eine Kopfnachbildung. Einige Trennkörper werden mit Grenzflächenmikrofonen kombiniert. Gemeinsam ist allen Trennkörpern, dass sie sich in ihren Dimensionen an der Größe des Kopfs orientieren, also an den Gegebenheiten des natürlichen Hörens. Ausgehend von theoretischen Überlegungen, aber auch auf Grund praktischer Experimente wurde eine große Anzahl von Mikrofonverfahren der gemischten Aufnahmetechnik entwickelt, einige der wichtigsten Verfahren werden unten besprochen. Man kann die Verfahren in zwei Gruppen einteilen: –– Verfahren ohne Frequenzabhängigkeit der Pegeldifferenzen mit gerichteten Mikrofonen und einer Mikrofonbasis, besprochen werden die Anordnungen nach den Williams-Diagramme (Kap. 5.3.4.1) sowie als deren spezielle, vielfach genutzte Lösungen das ORTF-, das EBS- und das NOS-Verfahren (Kap. 5.3.4.2), –– Verfahren mit Frequenzabhängigkeit der Pegeldifferenzen, sog. Trennkörperverfahren, mit gerichteten oder ungerichteten Mikrofonen, die durch einen Körper getrennt werden, besprochen wird das Kugelflächenmikrofon (Kap. 5.3.4.3), auf andere Trennkörper wird hingewiesen (Kap. 5.3.4.4). Das Verfahren mit einer exakten Kopf- und Ohrnachbildung, das Kunstkopfverfahren, ist nicht ohne weiteres ein brauchbares Hauptmikrofonverfahren, da eine befriedigende Lautsprecherwiedergabe nicht direkt möglich ist; ganz große Bedeutung erlangt das Kunstkopfverfahren im Rahmen von 3D‑Audio, also den Verfahren der dreidimensionalen Klangwiedergabe (siehe Kap. 5.5.5). Für die Anwendung der gemischten Aufnahmeverfahren gilt wie generell für die Hauptmikrofonverfahren der XY-, MS- und AB-Aufnahmetechnik: Sie sind bevorzugt geeignet für in sich klanglich ausgewogene Ensembles in akustisch guten Räumen, also besonders für Aufnahmen im Bereich der klassischen Musik und für in der Aufnahmetechnik vergleichbare Aufnahmen, nicht jedoch im Bereich populärer Musik, Jazz, Theater u. ä. Allen Verfahren der Trennkörperstereofonie ist gemeinsam, dass sie, anders als AB, XY und MS, einen fest dem Verfahren zugeordneten Aufnahmebereich haben, der also nur über die Entfernung von der Schallquelle angepasst werden kann. Der Abstand der Anordnung zur Schallquelle sollte nicht zu gering sein, schon damit die positiven Eigenschaften des AB-Anteils zur Geltung kommen. Weiterhin hat es sich als günstig erwiesen, die Wirkungen der Laufzeit- und Pegeldifferenzen ähnlich groß zu wählen, also die sog. äquivalenten Mikrofonverfahren zu bevorzugen. Ein weiterer Vorteil der gemischten Verfahren ist ihre gute bis ausreichende Monokompatibilität, da trotz vorhandener Laufzeitdifferenzen bei der Monobildung die sonst unvermeidlichen Auslöschungen bzw. Kammfiltereffekte gering ausfallen. Ursache hierfür sind die stets mit zunehmenden Laufzeitdifferenzen ebenfalls zunehmenden Pegeldifferenzen, die nur geringe, in der Praxis nicht oder kaum hörbare Klangfärbungen erzeugen; sie treten erst oberhalb etwa 1 kHz auf.
282
5 Tonaufnahme und Tonwiedergabe
5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz Wie in Kap. 5.2.2.2 erläutert, können Pegeldifferenzen unabhängig von der Frequenz und Laufzeitdifferenzen auch zu einer weiteren Gruppe von Aufnahmeverfahren kombiniert werden. Diese sog. gemischten Verfahren beruhen auf einer wählbaren Mikrofonbasis bis höchstens 40 bis 50 cm und einem wählbaren Versatzwinkel der Mikrofone, woraus sich der Aufnahmebereich ergibt. Es gibt naturgemäß eine sehr große Zahl von Kombinationsmöglichkeiten dieser Größen. Im Prinzip handelt es sich um drei Größen – Aufnahmebereich, Mikrofonbasis, Versatzwinkel −, jeweils zwei davon können gewählt werden und bestimmen den Wert einer dritten Größe. Gewählt werden kann z. B. der Aufnahmebereich, der sich aus der Ausdehnung des aufzunehmenden Klangkörpers und der Entfernung des Mikrofonsystems hierzu ergibt, und die Mikrofonbasis, daraus errechnet sich dann der Versatzwinkel. Die Zusammenhänge können nicht im Kopfrechnung ermittelt werden, sondern dazu bedarf es einer Berechnung, die am einfachsten mithilfe der von M. Williams berechneten Diagrammen vorgenommen werden kann [Williams, 1987]. Diese sog. Williams-Diagramme sind systematisch für alle Richtmikrofontypen errechnet worden und zeigen in Diagrammen die Zusammenhänge zwischen den Größen Aufnahmebereich, Mikrofonbasis und Versatzwinkel. Abb. 5/12 zeigt als Beispiel die Zusammenhänge für zwei Nieren. Eine Vergrößerung der Mikrofonbasis ergibt eine eindrucksvollere Raumdarstellung, eine Verkleinerung eine präzisere Lokalisierbarkeit und Präsenz. Praktisch kann man z. B. von der beabsichtigten Mikro fonbasis ausgehen, ermittelt dann den Aufnahmebereich anhand der Aufnahmesituation und bestimmt schließlich den Versatzwinkel. Ein sehr nützliches Hilfsmittel für die Berechnung ist der im Internet frei verfügbare Image Assistant von Wittek [www.hauptmikrofon.de], auch als einfaches Handwerkzeug das sog. Tonmeister Survival Kit [Dickreiter, 2011]. Tab. 5/9. Aufnahmebereich, Mikrofonbasis und Versatzwinkel für ausgewählte Hauptmikrofonvarianten nach Williams für zwei Nieren [Williams, 1987]. Aufnahmebereich 100 % empfohlen: 75 %
Mikrofonbasis 10 cm
Versatzwinkel
100°
70° 66° 64°
10 cm 20 cm 30 cm
± 69° ± 50° ± 25°
90°
62° 60° 58°
10 cm 20 cm 30 cm
± 78° ± 58° ± 35°
80°
54° 54° 52°
10 cm 20 cm 30 cm
± 87° ± 69° ± 48°
In Tab. 5/9 sind zur Orientierung eine Auswahl weiterer praxisbezogener Kombinationsmöglichkeiten mit zwei Nieren zusammengestellt, geordnet in der Reihenfolge Aufnahmewinkel, Mikrofonbasis, Versatzwinkel; hier beginnt man mit der Festlegung des Standorts des Hauptmikrofons bzw. seines Abstands zum Klangkörper, wählt die Mikrofonbasis und stellt den Versatzwinkel ein. Die Winkelangaben sind berechnet und nicht gerundet. Angegeben sind
5.3 Zweikanal-Stereofonie
283
die Aufnahmebereich 100 % und 75 %. Es sei daran erinnert, dass die 100 %-Werte in der angegebenen Genauigkeit theoretische Werte sind, da die Phantomschallquellen nahe bzw. in den Lautsprechern in der Wahrnehmung etwas problematisch sind; deshalb sind vor allem die Aufnahmewinkel 75 % zu beachten (siehe dazu Kap. 5.2.2.1), innerhalb derer eine zuverlässige Zuordnung von Schallquellen und Phantomschallquellen gegeben ist. 5.3.4.2 ORTF-, EBS- und NOS-Verfahren Um innerhalb der großen Vielfalt möglicher Anordnungen nach Williams praxisgerechte Lösungen herauszugreifen, wurden drei Anordnungen quasi standardisiert, zumindest mit Namen versehen. Eines der am häufigsten benutzten Mikrofonverfahren ist das sog. ORTF-Verfahren. Es vereint das AB-Mikrofonverfahren mit einer Mikrofonbasis, die – beabsichtigt oder nicht – mit 17 oder 17,5 cm dem Ohrabstand entspricht, mit dem XY-Mikrofonverfahren mit zwei Nieren bei einem Versatzwinkel von ± 55°; der Aufnahmebereich 75 % entspricht 68°, bei nur 10 cm Mikrofonbasis steigt der Aufnahmebereich 75 % auf 90° (Abb. 5/25, siehe auch Tab. 5/6).
Abb. 5/25. ORTF-Mikrofonverfahren, Realisierung mit Einzelmikrofonen und einer Spezialhalterung bzw. mit einem Zwillingsmikrofon.
Das Verfahren erhielt den Namen der ehemaligen staatlichen Rundfunkorganisation Frankreichs, von wo aus es seine Verbreitung gefunden hat. Laufzeit- und Pegeldifferenzen sind bei ORTF etwa gleichgewichtig, ein Äquivalenzverfahren also und einer der Gründe für die
284
5 Tonaufnahme und Tonwiedergabe
gute Qualität dieser Anordnung. Zu Laufzeitunterschieden von höchstens 0,5 ms kommen hierbei frequenzunabhängige Pegeldifferenzen bis maximal etwa 6 dB, da die verwendeten Mikrofone Nierencharakteristik haben und um ± 55° nach außen gedreht sind. Diese bewährte Mikrofonaufstellung kann auch variiert werden: Einerseits kann durch eine andere Ausrichtung der Mikrofone die Pegeldifferenz vergrößert oder verkleinert werden, andererseits kann die Laufzeitdifferenz durch eine größere Mikrofonbasis erhöht werden, Für die Mikrofonaufstellung nach dem ORTF-Verfahren gibt es geeignete Halterungen für die Mikrofone oder fest montierte Zwillingsmikrofone (Abb. 5/25). Eine weitere einfach handzuhabende und praxisgerechte Anordnung ist das EBS-Verfahren nach EBerhard Sengpiel. Es besteht aus zwei Kleinmembranmikrofonen mit Nierencharakteristik mit einer Mikrofonbasis von 25 cm und nach außen gerichteten Versatzwinkeln von ± 45°, also einem Achsenwinkel von 90°, und einem damit übereinstimmenden Aufnahmebereich von ebenfalls 90°. Es ähnelt dem ORTF-System, bietet aber die Besonderheit, dass der Aufnahmebereich mit dem Achsenwinkel übereinstimmt, der Aufnahmebereich wird so anschaulich von den Mikrofonen markiert und kann im Gegensatz zum ORTF-Verfahren ohne Hilfsmittel bereitgestellt werden, der 90°-Winkel wird nach Augenmaß eingestellt, die Basis 25 cm entspricht meist einer Handspanne, die einmal individuell ermittelt wird. Ein ähnliches System, das NOS-System, wurde empirisch mit zwei Kleinmembranmikrofonen mit Nierencharakteristik von Toningenieuren der Stiftung des niederländischen öffentlich-rechtlichen Rundfunks NOS entwickelt. Bei einem Achsenwinkel von ebenfalls 90° und einer Mikrofonbasis von 30 cm ergibt sich ein Aufnahmebereich von 81°, die Laufzeitanteile sind hier also etwas größer als beim EBS- oder auch ORTF-Verfahren. 5.3.4.3 Kugelflächenmikrofon Mikrofonanordnungen mit Trennkörpern bieten Laufzeitdifferenzen, die wie bei AB von der Mikrofonbasis bzw. der Wegdifferenz zu den Mikrofonen abhängig sind, und Pegeldifferenzen, die wegen Abschattungen durch einen Trennkörper mit steigender Frequenz zunehmen. Die ursprüngliche Idee dabei war, sich an den Verhältnissen beim natürlichen Hören mit dem Trennkörper Kopf zu orientieren und dafür vereinfachte technische Lösungen zu realisieren. Bei Anordnungen mit Trennkörpern werden grundsätzlich Druckmikrofone verwendet, weil die besonderen klanglichen Eigenschaften – hervorragende Tiefenwiedergabe, natürliche Präsenz, und guter Raumeindruck – hier ohne Einschränkung genutzt werden können. Ansonsten ist Stereofonie mit Druckempfängern nur in Laufzeitstereofonie möglich, wobei Einschränkungen der Lokalisierbarkeit hingenommen werden müssen. Schon in den 1930er Jahren wurde mit Kugeln als Trennkörper experimentiert, aber erst ein Vorschlag von Theile 1986 mit einem Pflichtenheft mit präzisen Anforderungen führte zu einem System, das objektive Qualitätskriterien im Rahmen der Trennkörpersysteme erfüllt, eben dem Kugelflächenmikrofon mit integrierten Grenzflächenmikrofonen, auch kurz KFM genannt [Theile, 1987], [Wuttke, 1993]. Die Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser – dem Durchmesser eines durchschnittlichen Kopfs – zeigt Abb. 5/26. Man erkennt, dass mit zunehmend zur Seite wandernder Schallquelle die Pegeldifferenz zunächst bis zu einem Einfallswinkel von ca. ± 50° ansteigt, dann aber wieder bis ± 90° auf
5.3 Zweikanal-Stereofonie
285
Grund von Beugungseffekten zurückfällt, und dies bei einer starken Frequenzabhängigkeit. D. h., dass für die Entwicklung eines qualitativ hochwertigen Kugelflächenmikrofons weitere Entwicklungsschritte nötig waren, um zu den in Abb. 5/27 gezeigten gleichmäßigen Frequenzgängen zu kommen. Anders gesagt, eine einfache selbst gebaute Vorrichtung kann die Erwartungen an das System nicht erfüllen.
Abb. 5/26. Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser.
Abb. 5/27. Frequenzgänge des Kugelflächenmikrofons bei Direktschall für Schalleinfallswinkel ± 20° und ± 60°.
286
5 Tonaufnahme und Tonwiedergabe
Schall, der seitlich eintrifft, erfährt eine Höhenanhebung (Abb. 5/27), zunehmend mit ansteigender Frequenz. Dies ist notwendig, um die ebenfalls mit ansteigender Frequenz zunehmenden Abschattungen der Kugel am gegenüberliegenden Mikrofon auszugleichen. Die Summe der Klangfärbungen aus den beiden entsprechenden Richtungen bleibt klangneutral. Nur so kann auch der Diffusfeldfrequenzgang linear sein, eine ganz wichtige Forderung an ein Hauptmikrofon, das in größerem Abstand zur Schallquelle aufgestellt wird und damit verhältnismäßig viel Diffusschall aufnimmt. Dies kann systembedingt für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. Vermieden wird diese durch einen größeren Abstand des KFMs zur Schallquelle und damit einem höheren Anteil von Hall. Abb. 5/28 zeigt den mechanischen Aufbau des Systems. In einer Kugel von 20 oder 18 cm Durchmesser sind seitlich mit ihrer Membran bündig zwei Druckempfänger eingebaut, also Grenzflächenmikrofone.
Abb. 5/28. Kugelflächenmikrofons oder KFM, mechanischer Aufbau.
Beim Kugelflächenmikrofon oder KFM sind also die folgenden Anforderungen realisiert, die zugleich die wichtigsten Kriterien für den Mikrofoneinsatz ergeben: –– Die Laufzeit- und Pegeldifferenzen an den beiden Mikrofonen sind denjenigen beim natürlichen Hören ähnlich und etwa gleichwertig im Hinblick auf die Auswanderung der Phantomschallquelle, es handelt sich also um ein Äquivalenzmikrofon. –– Der Frequenzgang des direkten Schalls von vorn ist über den gesamten Übertragungsbereich linear. –– Der Frequenzgang des diffusen Schalls, also des Halls, ist ebenfalls linear. Dies ist wichtig, da ein Hauptmikrofon durch seine größere Entfernung von den Schallquellen relativ viel Diffusschall aufnimmt.
5.3 Zweikanal-Stereofonie
287
–– Schall, der seitlich eintrifft, erfährt eine Höhenanhebung, zunehmend mit ansteigender Frequenz. Dies kann für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. –– Die Richtcharakteristik des KFMs ist nahezu ideal kugelförmig, mehr noch als diejenige eines Druckempfängers. Der damit verbundene große Diffusschallpegel, der in allen Richtungen nur 3 dB niedriger liegt als der Direktschallpegel bei 0°, macht es zur Bedingung, ausschließlich in akustisch guten Räumen aufzunehmen. Kein Mikrofontyp nimmt so viel Diffusschall verglichen mit dem Direktschall auf wie das KFM. Man kann das KFM ein „ehrliches Mikrofon“ nennen. –– Durch den bündigen Einbau der Mikrofone in die Kugeloberfläche gibt es keinerlei Kammfiltereffekte, die bei anderen Trennkörperverfahren auftreten. –– Die Klangfärbung seitlichen Schalls nimmt mit der Entfernung kontinuierlich ab, während der Hallanteil klanglich gleichbleibt, so wie bei diffusfeldentzerrten Druckempfängern. Damit erhält jede seitliche Schallquelle eine für die Entfernung typische Klangfärbung, möglicherweise auch einer der Gründe für die gute Darstellung der Tiefenstaffelung. –– Durch den Kugeldurchmesser von 20 cm bzw. 18 cm entsteht ein fester Aufnahmebereich von 90° bzw. 120°, nur durch die Wahl der Entfernung kann also der Aufnahmebereich an die Aufnahmesituation angepasst werden. –– Bei der Kombination mit Stützmikrofonen gehen die besonderen und guten Eigenschaften des KFM erfahrungsgemäß schneller verloren als bei anderen Hauptmikrofonverfahren. –– Stehende Wellen liegen vielfach im Bereich tiefer Frequenzen, die das System wegen der verwendeten Druckempfänger besonders gut aufnimmt. Deshalb muss stets auch mit kleinen Verschiebungen des KFMs nach einer optimalen Position, auch in der Höhe, gesucht werden. 5.3.4.4 Andere Trennkörper Bei der Wahl der Trennkörper gibt es eine große Vielfalt an denkbaren Formen, und so wurde gerade hier viel experimentiert. Da alle Trennkörper Laufzeit- und Pegeldifferenzen liefern, überraschen solche Anordnungen zunächst durchaus mit einer eindrucksvollen Abbildung des Raums. Erst bei genauerer Untersuchung zeigen Formen wie Keile, flache oder dicke Scheiben gerade bei ihren Frequenzgängen erhebliche Mängel, dies trifft auch auf das OSSVerfahren zu, das neben dem KFM bekannteste Trennkörperverfahren. Beim OSS-Verfahren (OSS = Optimales Stereo-Signal), auch Jecklin-Scheibe, befindet sich als akustische Trennung zwischen den Mikrofonen − grundsätzlich diffusfeldentzerrte Druckempfänger − eine den Schall absorbierende Scheibe. Bei einer ersten Version ist die Mikrofonbasis mit 17,5 cm gleich dem Ohrabstand, die Scheibe hat einen Durchmesser von 30 cm; in einer zweiten Version beträgt der Abstand der Mikrofone zueinander 36 cm, der Scheibendurchmesser 35 cm. Neben den eingeführten Trennkörperanordnungen KFM und OSS sind weitere Anordnungen mit unterschiedlichen Trennkörpern und Größenverhältnissen möglich. Die definierte akustische Qualität des Kugelflächenmikrofons erreichen sie nicht; sie können im semi-
288
5 Tonaufnahme und Tonwiedergabe
professionellen Bereich oft als Eigenbau mit überraschendem Erfolg eingesetzt werden. Zunächst können dicke Scheiben, die den Raum zwischen den Mikrofonen ausfüllen und z. B. aus Schall schluckender Steinwolle bestehen, verwendet werden, weiterhin einfache oder doppelte Keile, ebenfalls Schall schluckend. Grenzflächenmikrofone werden bei schallharten Trennkörpern verwendet, sie finden z. B. in der Trennkörperanordnung des Systems SASS von Crown und Clara nach Peters Anwendung. Der Kunstkopf als Aufnahmesystem wird allgemein nicht zu den Trennkörperverfahren gerechnet, obwohl er eigentlich diesen zuzuzählen ist. Seine Zielsetzung ist aber nicht die Zweikanal-Stereofonie für Lautsprecherwiedergabe, sondern die Kopfhörerwiedergabe mit klangdokumentarischer oder messtechnischer Zielsetzung (siehe Kap. 4.2.4.6). Die Entwicklung von 3D-Audio hat den KK als binaurale kopfbezogene Übertragungstechnik eine neue Aktualität verschafft, auch die Möglichkeiten ihrer Lautsprecherwiedergabe wird wieder diskutiert, hierzu wird auf Kap. 5.5.5 verwiesen.
5.3.5 Stützmikrofonverfahren Aufnahmen ausgedehnter Klangkörper, z. B. Orchester, gerade mit Chor und Solisten, stellen hohe Anforderungen an die Durchsichtigkeit und Brillanz des Klangs, an die gleichmäßige Ausnutzung der gesamten Stereobasis, an gute und eindeutige Richtungsauflösung und an die übermittelte Raumillusion. Um das gewünschte Klangbild für den Hörer verwirklichen zu können, werden besonders bei akustisch unbefriedigenden Räumen, vielfach ergänzend zum Hauptmikrofon mehrere Stützmikrofone eingesetzt. Auch mehrere Hauptmikrofone können sinnvoll sein, wenn ein einziges Hauptmikrofon zu weit entfernt aufgestellt werden müsste, um das gesamte Klangbild erfassen zu können. Als Stützmikrofone können Monomikrofone für einzelne oder wenig ausgedehnte Schallquellen (siehe dazu Kap. 5.3.5.1) oder Stereomikrofone für ausgedehnte Schallquellen bzw. -gruppen verwendet werden (Kap. 5.3.5.2). Nimmt man den Anteil eines Hauptmikrofons an einer Aufnahme immer mehr zurück, bleibt zunehmend nur noch das Klangbild der Stützmikrofone, das Aufnahmeverfahren wird damit zum Einzelmikrofonverfahren. Somit gibt es einen gleitenden Übergang vom Stütz- zum Einzelmikrofonverfahren, siehe hierzu Kap. 5.3.6. Wenn mit einem oder auch mehreren Hauptmikrofonen nicht das gewünschte Klangbild realisiert werden kann, kann es neben anderen die folgenden Gründe geben: –– Der Klangkörper in sich nicht ausbalanciert, d. h., die Lautstärkeverhältnisse zwischen den Teilschallquellen, z. B. Gesangssolisten, sind unausgeglichen. Die Stützmikrofontechnik bietet die Möglichkeit, die Klangbalance zwischen den einzelnen Schallquellen herzustellen; einerseits können unterschiedliche Lautstärken angeglichen werden, andererseits kann durch Hervorhebungen eine Partitur nach musikalischen Gesichtspunkten in die Aufnahmetechnik übersetzt werden. –– Der Saal ist akustisch ungeeignet, d. h., es kommen zu starke und/oder zu frühe oder zu späte erste Reflexionen zum Mikrofon und/oder der Nachhall überzeugt nicht, weil er unangemessen lang, zu dumpf oder zu hart ist oder Echos auftreten. –– Unabhängig von Saal, Gesamtklang und der klanglichen Balance soll ein besonderes Klangbild geschaffen werden. Die Aufnahme soll z. B. Grundlage von Fernsehtonaufnah-
5.3 Zweikanal-Stereofonie
289
men sein, wobei einzelne Instrumente zeitweise groß ins Bild kommen sollen und dabei akustisch unterstützt werden müssen. –– Es besteht nicht die Möglichkeit, ein Hauptmikrofon an einem geeigneten Ort zu platzieren, z. B., wenn ein Orchester im Orchestergraben eines Opernhauses spielt. Die Stützmikrofontechnik hat die Fähigkeit, in den genannten Fällen Abhilfe zu schaffen. Kennzeichen der Stützmikrofontechnik ist, dass einigen oder allen Schallquellen zusätzlich zum Hauptmikrofon in relativ geringem Abstand ein weiteres Mikrofon zugeordnet wird. Stereomikrofone müssen dabei einen größeren Abstand haben als Monomikrofone, da sie ausgedehnte Schallquellen aufnehmen. Der Abstand von Monostützmikrofonen wird im Allgemeinen zwischen 0,5 und 2 m liegen. Dabei erfordern Klangkörper aus Schallquellen sehr unterschiedlicher Lautstärke, wie Unterhaltungsorchester, Gruppen mit populärer Musik, Bigbands, auch Jazzgruppen, weit mehr Stützmikrofone als ein in sich ausgeglichener konventioneller Klangkörper, wie z. B. Kammermusikensembles oder das klassische Sinfonieorchester; diese traditionellen Ensembles spielen Kompositionen, die für eine Aufführung ohne Korrekturen der Klangbalance konzipiert sind. Die Stützmikrofontechnik steht aufnahmetechnisch zwischen den Hauptmikrofonverfahren und dem Einzelmikrofonverfahren. Sie kann einerseits ein Hauptmikrofonverfahren unterstützend optimieren, andererseits das Hauptmikrofon dominieren, dazwischen gibt es einen gleitenden Übergang. Das Hauptmikrofon hat beim Stützmikrofonverfahren eine integrierende, homogenisierende Aufgabe, bei geringen Anteilen stellt es u. U. nur noch ein Raummikrofon dar zur Aufnahme des Raumschalls. Grundsätzlich sollte das Stützmikrofonverfahren nicht dazu dienen, ein unkorrekt eingesetztes Hauptmikrofon zu korrigieren. Jede Aufnahmesituation, in der die Stütztechnik geplant ist, sollte also mit der optimalen Einstellung des Hauptmikrofons beginnen. Danach erfolgt die Zumischung der Stützsignale. Dominieren diese, so dient das Hauptmikrofon nur noch der Aufnahme des Raumeindrucks, wofür dann wieder andere Kriterien maßgeblich sind. Stützmikrofone liefern in erster Linie Direktschall. Wegen des geringeren Mikrofonabstands verglichen mit dem Hauptmikrofon trifft Direktschall bei den Stützmikrofonen aber früher ein als beim Hauptmikrofon. Im Ergebnis bilden die Stützmikrofone die Lokalisierung, das Einschwingen und die Präsenz ab, das Hauptmikrofon liefert den Raumeindruck. Nachteilig an der konventionellen Stützmikrofontechnik ist demnach, dass die Schallquellen dabei ohne Entfernungsmerkmale abgebildet werden, die Aufnahme also ohne Tiefenstaffelung bleibt. Diesen Mangel kann eine zeitverzögerte und ggf. verhallte Zumischung der Stützmikrofone beseitigen helfen (siehe dazu Kap. 5.3.5.3). Die Stützmikrofone werden in Übereinstimmung mit der Richtung der Schallquelle aus der Perspektive des Hauptmikrofons mit dem Panorama-Potentiometer in das Gesamtklangbild eingegliedert; sie stellen – sofern sie nicht ganz seitlich eingeordnet sind – Phantomschallquellen mit reinen Pegeldifferenzen dar und sind dadurch gut auf der Stereobasis lokalisierbar.
290
5 Tonaufnahme und Tonwiedergabe
5.3.5.1 Monostützmikrofone Als Monostützmikrofone eignen sich Richtmikrofone am besten, da über ein Stützmikrofon nur Direktschall der jeweiligen Schallquelle aufgenommen werden soll. Neben der Nierenrichtcharakteristik, die die beste Ausblendung des Direktschalls nach hinten bietet, kommen dafür die Super- und Hypernierenrichtcharakteristik in Betracht, die bei etwas geringerer Rückwärtsdämpfung eine erhöhte seitliche Ausblendung des Direktschalls bieten. Die Achterrichtcharakteristik hat die beste Ausblendung für seitlichen Schalleinfall, hat aber nach hinten dieselbe Empfindlichkeit wie nach vorne, sie eignet sich also besonders dann, wenn die Instrumente oder Stimmen in nur einer Reihe nebeneinander aufgestellt sind; für Diffusschall sind diese Mikrofone ebenso empfindlich wie die Nieren. Ein Stützmikrofon mit Kugelrichtcharakteristik ist nur in sehr geringem Abstand sinnvoll; ein Grund für die Verwendung eines Kugelmikrofons kann aber der Wunsch sein, mit Druckempfängern zu arbeiten, die u. a. eine besonders gute Wiedergabe tiefer Frequenzen bieten. Abb. 5/29 veranschaulicht die Fähigkeit gerichteter Mikrofone, Diffusschall auszublenden. Z. B. kann man eine Acht oder Niere um den Faktor 1,7 weiter entfernt von der Schallquelle aufstellen, ohne dass sie mehr Diffusschall aufnimmt als eine Kugel in einfacher Entfernung. Mit der Super- und Hypernieren kann man den Abstand in etwa verdoppeln. Aber bereits die breite Niere kann in vielen Fällen bei einem etwas geringeren Abstand als die Niere ein klanglich sehr ausgewogenes Stützmikrofon sein.
Abb. 5/29. Gleiches Verhältnis von Direkt- zu Diffusschall bei unterschiedlichen Mikrofonabständen.
5.3 Zweikanal-Stereofonie
291
5.3.5.2 Stereostützmikrofone Stereostützmikrofone sind nur dann sinnvoll, wenn räumlich ausgedehnte Klanggruppen gestützt werden sollen, die in sich ausbalanciert sind. Da Stereo-Stützmikrofone in aller Regel gerichtete Schallempfänger sein müssen, kommen nur die Aufnahmeverfahren in Betracht, die dies leisten: die XY-Verfahren mit Nieren- und Supernierenmikrofonen und ihre äquivalenten Anordnungen in MS, also XY nicht mit Achten und MS nicht mit Kugel für das M-Signal, sowie gemischte Verfahren mit gerichteten Mikrofonen, z. B. ORTF oder EBS. Beim Einsatz mehrerer Stereomikrofone, egal ob als gleichberechtigte Hauptmikrofone oder als Stützmikrofone, kommt es stets darauf an, die Perspektiven der einzelnen Mikrofone in Übereinstimmung zu bringen, um mehrfache Abbildungen der Schallquellen zu vermeiden. Erfasst z. B. ein Hauptmikrofon über dem Dirigenten das gesamte Orchester, so muss ein Stereostützmikrofon für die Holzbläsergruppe bei der Abbildung zwischen den Lautsprechern auf die Breite eingeengt werden, wie sie sie vom Hauptmikrofon aus gesehen in Bezug auf das Gesamtklangbild einnimmt. 5.3.5.3 Verzögerte und raumbezogene Stützmikrofone Eine Möglichkeit, die den Klang bestimmende Funktion des Hauptmikrofons zu unterstützen, besteht darin, das zeitliche Voreilen der Stützmikrofone durch Verzögerung ihrer Signale aufzuheben, sie also zeitlich nach dem Signal des Hauptmikrofons einzuordnen. Hierzu schätzt man die Differenz der Strecken Hauptmikrofon – Schallquelle und Stützmikrofon – Schallquelle ab und rechnet sie in die Verzögerungszeit um, für 1 m rechnet man mit 3 ms Laufzeit. Ein Beispiel: Abstand Hauptmikrofon – Hörnergruppe = 10 m, Abstand Stützmikrofon – Hörnergruppe 3 m, die Differenz sind 7 m entsprechend 21 ms. Es hat sich in der Praxis als günstig erwiesen, dem so errechneten Wert nochmals etwa 15 ms hinzuzufügen, in dem Beispiel ergeben sich damit 35 bis 40 ms Verzögerung des Stützmikrofons. In Abwandlung dieser einfachen Verzögerung der Stützmikrofone ist die raumbezogene Stützmikrofontechnik, eine Stütztechnik, die ohne Pan-Pots arbeitet; als Stützmikrofone werden Monomikrofone verwendet. Wie bereits oben erläutert, liefern Stützmikrofone in erster Linie Direktschall, der vor dem Signal des Hauptmikrofons wiedergegeben wird und damit eine Abfolge von Direktschall, ersten Reflexionen und Nachhall ergibt, die in ihrer zeitlichen Struktur nicht der Realität entspricht (Abb. 5/30). Der starke Anteil von Direktschall und weitgehend fehlende Merkmale der Schallquellenentfernung führen dabei zu dem Gehöreindruck, dass alle Schallquellen „wie auf einer Schnur“ in gleichem Abstand vor dem Hörer zwischen den Lautsprechern aufgereiht sind. Der konventionellen Stützmikro fontechnik fehlt also Raumtiefe. Das wird in vielen Fällen durchaus erwünscht, kann doch nur so eine für alle Schallquellen geltende Präsenz der Aufnahme realisiert werden. Eine andere Aufnahmephilosophie ist die von Theile vorgeschlagene raumbezogene oder panpotfreie Stütztechnik [Theile, 1984]. Sie geht davon aus, dass die Stützmikrofone zeitlich nicht vor den Signalen des Hauptmikrofons, sondern danach eingeordnet werden. Damit wird nicht nur das Voreilen des Direktschalls der Stützmikrofone ausgeglichen, was schon früher gefordert bzw. praktiziert wurde, vielmehr wird das Signal des Stützmikrofons nach den Direktschall des Hauptmikrofons gesetzt und somit nicht als Direktschall, sondern als erste Reflexion behandelt. Die so gewonnene künstliche erste Reflexion erhöht zunächst die
292
5 Tonaufnahme und Tonwiedergabe
Lautstärke der Schallquelle; dieses Phänomen ist auch aus der Raumakustik bekannt und wird entsprechend z. B. zur Verbesserung der Sprachverständlichkeit in einem Saal genutzt. Diese Reflexion schafft aber keine Lokalisierbarkeit der Schallquelle. Diese kommt vielmehr vom Direktschallanteil des Hauptmikrofons. Entsprechend den natürlichen Bedingungen in einem Raum ist es günstig, die künstliche erste Reflexion des Stützmikrofons nicht als korreliertes Signal abzubilden, also eine lokalisierbare Phantomschallquelle zu schaffen, sondern das Stützmikrofon in den beiden Kanälen zu dekorrelieren, also etwas unterschiedlich zu verzögern, z. B. mit einem Zeitabstand von 3 bis 5 ms.
Abb. 5/30. Vergleich der konventionellen und raumbezogenen Stützmikrofontechnik: oben: nur Hauptmikrofon, Mitte: zusätzlich Stützmikrofon ohne Verzögerung, unten: zusätzlich Stützmikrofon mit Verzögerung.
Die Grundverzögerung der Stützmikrofone sollte so gewählt werden, dass sie etwa 20 bis 30 ms nach den Signalen des Hauptmikrofons eintrifft. Eine Einordnung dieser Signale über Panoramapotentiometer entfällt also. Diese Stützmikrofontechnik hat die natürlichen Ver-
5.3 Zweikanal-Stereofonie
293
hältnisse in einem Raum als Vorbild. Abb. 5/30 demonstriert den Unterschied zwischen den Verhältnissen bei einem Hauptmikrofon, zusätzlich mit konventioneller und mit raumbezogener Stützmikrofontechnik. Mit dieser Stützmikrofontechnik ist selbstverständlich ein Verlust an Lokalisierbarkeit verbunden. Gewonnen ist eine Annäherung an die Hörbedingungen, die beim natürlichen Hören herrschen. Ob dies wünschenswert ist oder den Aufwand rechtfertigt, hängt von der jeweiligen klangästhetischen Zielsetzung ab. Zu prüfen ist hier auch, ob bei der Monobildung Kammfiltereffekte hörbar werden.
5.3.6 Einzelmikrofonverfahren Beim Einzelmikrofonverfahren werden für jede Einzelschallquelle eines Klangkörpers üblicherweise gerichtete Mikrofone eingesetzt, deren Einzelsignale in der Regieeinrichtung durch geeignete Einstellung von Pegel und Abbildungsrichtung zu einem stereofonen Klangbild zusammengesetzt werden. Es handelt sich also um ein Aufnahmeverfahren reiner Intensitätsstereofonie. Mikrofon I wird z. B. ausschließlich dem linken, Mikrofon III dem rechten Kanal zugeordnet, während Mikrofon II als Mittensignal gleichmäßig auf beide Kanäle aufgeteilt wird. Voraussetzung für das einwandfreie Funktionieren des Einzelmikrofonverfahrens ist eine gute gegenseitige akustische Trennung der Mikrofone; so wird erst die von den Positionen der Schallquellen im Aufnahmeraum unabhängige Richtungszuordnung ermöglicht. Zwei Einzelmikrofone können dann als ausreichend akustisch getrennt angesehen werden, wenn ihre Übersprechdämpfung mindestens 12 bis 15 dB beträgt. Dieser Wert muss nur für die den Richtungseindruck bestimmenden ersten Wellenfronten gelten; der mit dem Aussteuerungsmesser abgeschätzte Wert kann also im Allgemeinen geringer sein, weil bei ihm auch Diffusschall gewertet wird; in der Praxis kommt man deshalb mit einem Wert um 10 dB aus, weicht die Aufstellung wenig von der Anordnung der Klangquellen auf der Lautsprecherbasis ab, können auch schon 6 dB ausreichend sein. Die akustische Trennung der Schallquellen wird durch distanzierte Anordnung der Klangquellen, durch Verwendung gerichteter Mikrofone und durch Trennwände und Kojen erreicht, durch geschickte Anordnung der Schallquellen − laute Schallquellen zu lauten, leise zu leisen − noch verbessert. Durch Einsatz von Filtern, die nur den Frequenzbereich der zugeordneten Schallquellen passieren lassen, kann sie u. U. noch weiter verbessert werden. Das Einzelmikrofonverfahren ist also vorteilhaft dann anzuwenden, –– wenn die einzelnen Schallquellen sich in ihrer natürlichen Lautstärke stark unterscheiden und von sich aus kein ausbalanciertes Gesamtklangbild ergeben, –– wenn die gewünschte Anordnung der Schallquellen im stereofonen Klangbild nicht der tatsächlichen Anordnung im Aufnahmeraum entspricht, –– wenn an den Einzelschallquellen unterschiedliche Manipulationen durch die Tonregie vorgenommen werden sollen, also unterschiedliche Klangbeeinflussung, Verhallung, Verzögerung usw., –– wenn aus derselben Aufnahme unterschiedliche Abmischungen gewonnen werden sollten, z. B. für den Hörfunk, die Schallplatte oder das Fernsehen; in diesem Fall ist das Verfahren unverzichtbar.
294
5 Tonaufnahme und Tonwiedergabe
Durch den geringen Mikrofonabstand kommt der Akustik des Aufnahmeraums beim Einzelmikrofonverfahren eine geringe Bedeutung zu, sofern nicht die Nachhallzeit besonders lang oder der Raum besonders klein ist. Das Verfahren ist bei Musikaufnahmen in der Regel an die künstliche Verhallung gebunden. Es fordert von der Tonregie in hohem Maß die Gestaltung eines Klangbilds, das in der akustischen Realität des Aufnahmeraums nicht vorhanden ist. Tonmeister und Toningenieur werden gerade bei dieser Aufnahmetechnik künstlerische Mitgestalter. Die Richtcharakteristik der Instrumente und Sänger wirkt sich bei diesem Aufnahmeverfahren wegen des geringen Mikrofonabstands so stark aus wie bei sonst keinem Aufnahmeverfahren. Der Aufstellungsort des Mikrofons ist deshalb in besonderem Maß an die Klangabstrahlung der Instrumente und Sänger gebunden (siehe Kap. 2.3.3). Bei gleicher Richtcharakteristik der Mikrofone ist die Wahl des geeigneten Mikrofonorts von größerem Einfluss auf den Klang als die Wahl eines klanglich optimalen Mikrofons. Die Suche nach dem geeigneten Mikrofonort ist immer primär, erst danach kann eine geeignete Filtereinstellung vorgenommen werden. Grundsätzlich wird so wenig Diffusschall aufgenommen wie möglich. Niere und Acht nehmen den gleichen Diffusfeldanteil auf, die Ausblendung des Diffusschalls verbessert sich demgegenüber bei Supernieren, Hypernieren bzw. Keulen, solange am Mikrofonort der Direktschall größer als der Diffusschall ist, also innerhalb des jeweils gültigen Hallradius. Abb. 5/29 zeigt, um wieviel die Mikrofonabständen verglichen mit Kugelcharakteristik vergrößert werden können. Als Spezialmikrofone für besondere Anwendungen stehen Ansteckmikrofone zur Verfügung (siehe Kap. 4.2.4.4). Sie werden vor allem bei Saiteninstrumenten, aber auch bei Blasund Schlaginstrumenten eingesetzt und ergeben einen Klang mit interessanter Präsenz. Bei Streich- und Zupfinstrumenten werden die Mikrofone meist am Steg befestigt, beim Flügel am Gussrahmen. Bei Blasinstrumenten sind Ansteckmikrofone problematisch, weil die Klangstrahlung in starkem Maße frequenzabhängig auf die einzelnen Teile der Instrumente verteilt ist. Durch die Mischung der Mikrofonsignale liegt die Gesamtheit der Einzelpegel erheblich über den Pegeln der Einzelsignale. Aus diesem Grund muss die Aussteuerung in den Einzelkanälen reduziert werden. Bei der Mischung zweier Mikrofone mit gleichem Pegel entsteht ein durchschnittlich um 3 dB höherer Gesamtpegel, in Pegelspitzen kann er aber durchaus 6 dB höher liegen; bei vier Mikrofonen ergibt sich durchschnittlich ein um 6 dB erhöhter Gesamtpegel. Bei acht Mikrofonen mit gleichem Pegel liegt die Aussteuerung des Einzelkanals deshalb bereits bei ca. − 9 dB oder weniger.
5.3.7 Überwachung der Stereosignale Für die umfassende Qualitätskontrolle steht an erster Stelle die Kontrolle mit dem Gehör. Dazu gibt es weitere optische Kontrollinstrumente, die die Beurteilung erleichtern oder ein schnelleres und sichereres Urteil ermöglichen, diese Instrumente werden umfassend in Kap. 19.4 behandelt. Tab. 5/10 fasst ihre Anwendungsbereiche zusammen.
5.3 Zweikanal-Stereofonie
295
Korrelationsgradmesser oder Goniometer und Stereosichtgerät sind nur für Aufnahmen in reiner oder annähernd reiner Intensitätsstereofonie vorgesehen, bei Laufzeitstereofonie sind ihre Anzeigen unbrauchbar, ja irreführend, und dürfen deshalb nicht beachtet werden. Dies gilt auch für die gemischten Verfahren, mit der Einschränkung, dass hier die Anzeigen immerhin Hinweise geben für Aufnahmefehler, die im Einzelfall oft schwer zu bewerten sind. Das wichtigste Instrument zur Überwachung der Stereosignale beim Laufzeitverfahren ist das Gehör. Tab. 5/10. Kontrollinstrumente für die Tonaufnahme. Aussteuerungsmesser
Korrelationsgrad- Stereosichtgerät messer, Goniometer
anzuwenden
bei allen Verfahren nur bei Intensitätsstereofonie
Pegelkontrolle
●
Abhöreinheit
bei Abhörkontrolle
Kompatibilität
●
(●)
●
Breite des Klangbilds
●
●
●
●
●
●
●
●
Kap. 19.4.4
Kap. 19.4.4.1
Kap. 8.12., 19.3
Richtungsverteilung Phasenlage/Verpolung Details in
Kap. 19.4
Korrelationsgradmesser Der Korrelationsgrad r ist ein Maß für die Gleichartigkeit der Signale im linken und im rechten Kanal, unabhängig vom jeweiligen Pegel (siehe auch Kap. 19.4.4). Wird bei einer Stereoaufnahme der Aufnahmebereich immer mehr eingeengt, so nimmt damit ihr monofoner Charakter mehr und mehr zu; gleichzeitig werden die Stereosignale L und R immer ähnlicher und damit nimmt auch der Korrelationsgrad r zu. Die Bedeutung von r fasst Tab. 5/11 zusammen. Tab. 5/11. Bedeutung des Korrelationsgrads r. Korrelationsgrad
Klangbild
stets 1 stets 0 > 0 oder um 0 1,2 m ± 15°
Abb. 5/32. 3/2-Referenz-Lautsprecheranordnung mit den Lautsprechern L-C-R und den SurroundLautsprechern LS und RS.
Auch die reguläre kreisförmige Anordnung der Lautsprecher gestaltet sich in vielen praktischen Situationen schwierig. Sollte eine kreisförmige Anordnung der Lautsprecher nicht möglich sein, schreiben die Empfehlungen vor, dass die Lautsprechersignale entsprechend verzögert werden. Entfernungsunterschiede lassen sich für Center und Surround dadurch in gewissen Grenzen kompensieren (Abb. 5/33). Jedoch gibt es für die SurroundLautsprecher in der Praxis relativ große Toleranzen in Bezug auf Richtung und Entfernung.
5.4 Mehrkanal-Stereofonie
301
Abb. 5/33. Kompensation der Entfernung des Centerlautsprechers durch Verzögerung, 2,94 ms für 1 m „zu nahe“.
Optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern nach Abb. 5/34 bieten die Möglichkeit, die stereofone Qualität bei der seitlichen Abbildung zu verbessern und die Hörzone zu erweitern. Interessante Abbildungsbereiche sind L-LL und R-RR, z.B. um das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung, insbesondere bei wichtigen seitlichen Hörereignissen.
Abb. 5/34. Standard 3/2- und optionale 3/4-Lautsprecheranordnung gemäß [ITU-R BS.775-18].
Um eine größere Hörzone bzw. verbesserte Einhüllung beim 3/2-Format zu erzeugen, kann man auch weitere Surround-Lautsprecher mit den zwei Standard-Kanälen LS und RS betreiben. Bei größeren Wiedergaberäumen wie z. B. Kinos ist dies unbedingt notwendig. In diesem Fall ist eine ausreichende Dekorrelation der zusätzlich angeschlossenen Lautsprecherkanäle wünschenswert, z. B. durch geeignete Verzögerungen, sowie der Anschluss über geeignete Signalverteiler (Matrizen) oder Prozessoren. 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme Das 3/2-System ist in eine Hierarchie von Mehrkanal-Tonformaten eingebettet. Für eine derartige Hierarchie, abwärtskompatibel bis zum Monoformat, sind einfache Bedingungen der Matrizierung zur Addition von Teilsignalen an den Übertragungs- und Speicherungs- oder
302
5 Tonaufnahme und Tonwiedergabe
Wiedergabestufen einer Signalkette in der internationalen Empfehlung [ITU-R BS.775-1] angegeben, wodurch die technische Kompatibilität zwischen den Kanalformaten ermöglicht wird. Das 3/1-Format z. B., also drei Frontsignale und ein Surround-Kanal, ist in diese Hierarchie integriert und kann mit der 3/2-Konfiguration wiedergegeben werden; in diesem Fall speist das monofone Surround-Signal S beide Surround-Lautsprecher LS und RS, die Verstärkung der Surround-Kanäle wird dabei um 3 dB reduziert. Systeme mit mehr Kanälen als beim 3/2-Format sind möglich und können an dieses angepasst werden, z. B. 3/3, 5/2, 5/4 usw. Diese Formate sind aber nicht im ITU-Standard enthalten. Formate mit fünf Frontlautsprechern werden im Filmbereich verwendet, natürlich sollte bei der Produktion beachtet werden, dass sie zu den 3/2- und 2/0-Formaten abwärts kompatibel sind. Für alle möglichen Formatkombinationen sollte die Referenzkonfiguration 3/2 die Grundlage darstellen. 5.4.1.3 Tieftonwiedergabe Um Verwechslungen zu vermeiden, wird hier unterschieden zwischen einem Signal zur Erweiterung des Tieffrequenzbereichs, das über einen separaten sog. LFE-Kanal (low frequency effect) in einem Übertragungs- oder Aufzeichnungssystem übertragen wird, und einer separaten Abstrahlung des tieffrequenten Programminhalts über Tieftonlautsprecher, sog. Subwoofer. LFE-Kanal Im Filmbereich wurde ein spezieller Übertragungskanal für den Bassbereich von 20 Hz bis etwa 80 bis120 Hz eingeführt, um den tieffrequenten Übertragungsbereich der Filmtonsysteme praxisgerecht zu erweitern. Dieser wurde in die Standards [ITU-R BS.775-1] und [SMPTE RP-173] übernommen. Er kann optional als Ergänzung der Formate im Studio oder im Heim verwendet werden. Die Bezeichnung wird wegen des schmalen benutzten Frequenzbereichs mit „0.1“ oder „…/1“ abgekürzt. Daher sind die Bezeichnungen 5.1 bzw. 3/2/1 oder 7.1 bzw. 5/2/1 in Gebrauch. Die Nutzung des LFE-Kanals ist optional. Sie kommt in Betracht, wenn ergänzend zur Tonmischung in den Hauptkanälen tieffrequente Effekte hinzukommen sollen. Dies trifft für Musik normalerweise nicht zu. EBU- und SMPTE-Dokumente [ITU-R 10C//11, 1987] und [EBU R22] zum Mehrkanalton enthalten einige Anmerkungen über die Verwendung des LFE-Kanals, das SMPTE-Dokument führt dazu aus: „Soll ein Tonprogramm, das ursprünglich für Filmtheaterversionen produziert wurde, in Consumer-Medien übertragen werden, wird der LFE-Kanal meist von dem speziellen Kino-Subwooferkanal abgeleitet. Im Kino erfolgt eine Wiedergabe stets über den speziellen Subwooferkanal, daher kann bei Filmabmischungen der LFE-Kanal zur Übertragung von wichtigem tieffrequenten Programminhalt benutzt werden. Sollen Programme, die ursprünglich für den Film produziert wurden, z. B. über Fernsehen, DVD oder streaming-Dienste übertragen werden, kann es notwendig sein, Anteile vom Inhalt des Subwooferkanals wieder in die Kanäle mit voller Bandbreite einzumischen. Es ist wichtig, dass jegliche Anteile tiefer Frequenzen, die für die Vollständigkeit des Programminhaltes sehr bedeutsam sind, nicht in dem LFE-Kanal untergebracht werden. Der LFE-Kanal sollte Programminhalten mit sehr tiefen Frequenzen sowie sehr hohen Pegeln
5.4 Mehrkanal-Stereofonie
303
unter 120 Hz vorbehalten bleiben, deren Fehlen bei der Wiedergabe die künstlerische Vollständigkeit des Programms nicht beeinträchtigt. Bei Kinowiedergabe ist die innere Verstärkung im LFE-Kanal üblicherweise 10 dB kleiner als die der anderen einzelnen Kanäle. Gemäß SMPTE [ITU-R 10C//11, 1987] wird dies durch eine Pegelerhöhung des Wiedergabekanals kompensiert. Dies muss aus Gründen der Kompatibilität im Studiobereich auch bei der Heimwiedergabe beachtet werden. Separate Tieftonlautsprecher oder Subwoofer Es kann nützlich sein, zusätzlich zu den Hauptlautsprechern L, C, R, LS und RS Subwoofer, also Bass-Strahler, zur Erweiterung des Tieftonbereichs aufzustellen, so dass die untere Grenzfrequenz der fünf Hauptlautsprecher auf etwa 80 Hz erhöht und dementsprechend ihre Volumina reduziert werden können. Ein Bass-Management-System in der Wiedergabeanlage des Hörers gemäß Abb. 5/35 ermöglicht es normalerweise, dass der oder die Subwoofer sowohl 5.1-Filmton mit LFE-Signal als auch 3/2-Formatmaterial ohne separates LFE-Signal wiedergeben.
Abb. 5/35. Ableitung von kombinierten Subwoofer- und LFE-Signalen.
Natürlich können auch mehrere Subwoofer für spezifische einzelne Kanäle eingesetzt werden, z. B. einer für die Front- und einer für die Surround-Kanäle. Dies bietet den Vorteil, dass Subwoofer und Hauptlautsprecher näher beieinanderstehen können und deshalb die im unteren Frequenzbereich fehlende Kanaltrennung auch bei höheren Übergangsfrequenzen nicht wahrgenommen wird. Nichtlineare Verzerrungen des Subwoofers können im starken Maße dazu beitragen, dass Lokalisierungsfehler auftreten. Untersuchungen haben gezeigt,
304
5 Tonaufnahme und Tonwiedergabe
dass Eigengeräusche, Verzerrungen, und Informationen über 120 Hz, die vom Ort des Subwoofers abgestrahlt werden, ihn lokalisierbar machen können. Die getrennte Wahrnehmung eines Subwoofers ist zudem stark vom Programmmaterial abhängig. Über die optimale Aufstellung eines einzelnen Subwoofers in einem Abhörraum gibt es unterschiedliche Auffassungen, obgleich die Anordnung eines einzelnen Subwoofers in einer Raumecke den günstigsten Frequenzgang ergibt [Noussaine, 1997]. Lautsprecher, die in den Ecken angeordnet werden, können eine merkliche Bassverstärkung aufweisen und sind gut an die meisten Raumresonanzen, auch Moden genannt, anzukoppeln. Einige Subwoofer sind speziell für die Anordnung an besonderen Orten geeignet, während für andere subjektiv der optimale Aufstellungsort zu suchen ist, meist können befriedigende Ergebnisse erzielt werden. Es sind u. U. notwendig, den Frequenzgang zu entzerren, um einen flachen Gesamtfrequenzgang am Hörort zu erhalten. Teils werden Phasenverschiebungen oder Verzögerungen vorgenommen, um die Zeitbeziehungen zwischen dem Subwoofer und den anderen Lautsprechern zu korrigieren. Eine Phasenverschiebung beim Subwoofer wird mitunter auch angewendet, um die Pegelsumme des Subwoofers und der Hauptlautsprecher im Übergangsbereich in Bezug auf einen flachen Frequenzgang zu optimieren [Kügler, 1992]. Fullrange-Lautsprecher für alle Kanäle Die Verwendung von Breitband- oder Fullrange-Lautsprechern für alle Kanäle hat signifikante Vorteile: Die tiefen Frequenzen im Bereich um 100 Hz werden bei der Wiedergabe gleichmäßiger im Raum verteilt und regen deshalb Raummoden weniger stark an als dies ein einzelner Subwoofer, insbesondere in einer Raumecke platziert, tun würde. Weiter können die einzelnen Lautsprecher Raumsignale mit einer Korrelation bis zu den tiefsten Frequenzen um Null herum aus den vorgesehenen Richtungen wiedergeben; Bass-Management-Systeme reduzieren die Richtungen der tiefen Frequenzen auf genau eine Richtung, und zwar auf diejenige, in der der Subwoofer aufgestellt ist. Damit geht ein wichtiges Phänomen der Umhüllung verloren: tieffrequente Fluktuation [Griesinger, 2018].
5.4.2 Stereofonie in den Sektoren L-C und C-R Aufgabe des zusätzlichen Center-Kanals C ist es, die Richtungsstabilität der Abbildung zu verbessern und die Hörzone zu vergrößern, wie in Kap. 5.2.1 beschrieben. Die für die ZweikanalStereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, denn es bestehen zwischen den Lautsprecherpaaren in den stereofonen Sektoren L-C und C-R die gleichen Möglichkeiten wie in der Stereobasis L-C. Hinsichtlich der Klangfarbe gibt es einen zusätzlichen Vorteil: Ein diskretes Dreikanalsystem wird im Vergleich zu einem Zweikanalsystem bezüglich Klarheit und Klangfarbe der Mittenabbildung vom Hörer bevorzugt, selbst wenn er sich genau auf der Mittelachse befindet. Man vermutet, dass der Centerlautsprecher als Realschallquelle an Stelle einer Phantomschallquelle „einfacher“ zu hören ist, außerdem verursacht eine Phantomschallquelle als Mitte nachweislich Klangfärbungen [Griesinger, 1992]. Prinzipiell werden für die L-C-R-Lautsprecheranordnung zwei verschiedene Aufnahmephilosophien angewendet (Abb. 5/36): Im linken Bild bietet der Centerkanal C eine wach-
5.4 Mehrkanal-Stereofonie
305
sende Richtungsstabilität der kompletten L-C-R-Stereoabbildung. Dabei werden die psychoakustischen Prinzipien der Lautsprecherstereofonie in den stereofonen Teilbereichen L-C und C-R angewendet. Das stereofone Klangbild setzt sich aus zwei Bereichen zusammen (siehe Kap. 5.2.2). Theoretisch kann auf diese Weise mit dem zusätzlichen Center-Kanal ein stereofones Klangbild geschaffen werden, das mit einer entsprechenden zweikanaligen Aufnahme identisch ist. Dieser „unaufdringliche“ Centerkanal hat allein die Funktion der Richtungsstabilisierung für Hörer außerhalb der Symmetrielinie.
Abb. 5/36. Wiedergabe mit zwei bzw. drei Frontkanälen: Durch den Centerkanal C wird die Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L-C und C-R mit je 30° aufgeteilt.
Die zweite Möglichkeit ist rechts in Abb. 5/36 dargestellt. Der Centerkanal C wird zur Stabilisierung der Mittenabbildung verwendet, z. B. für einen Solisten, zusätzlich zur üblichen Darstellung des Klangkörpers mit Zweikanaltechnik. Diese Technik hat sich seit langer Zeit in der Film- und Fernsehmischung bewährt. Dort werden Phantomschallquellen nur sehr selten für wichtige bildbezogene Quellen wie z. B. Dialoge verwendet; dieser wird in der Regel dem Centerkanal C zugeordnet. Stereofone Signale wie z. B. Musik, Atmo u. a. werden über L-R verteilt ohne besondere Berücksichtigung einer stabilen Lokalisierung. Im Gegensatz zum Konzept der stereofonen Teilbereiche sind die Signale von benachbarten Lautsprechern kaum korreliert. In der Praxis können und werden bei Musikaufnahmen beide Verfahren benutzt oder auch miteinander kombiniert. 5.4.2.1 Doppel-Stereoverfahren Die konsequente Umsetzung der L-C-R-Stereofonie bei der Aufnahme von größeren Klangkörpern wird mit einer in Abb. 5/38 dargestellten Anordnung verfolgt. Zwei getrennte Zweikanalhauptmikrofone werden jeweils für den linken bzw. rechten Teil des Orchesters ver-
306
5 Tonaufnahme und Tonwiedergabe
wendet. Da der Centerkanal Signale von zwei Mikrofonen erhält, sollte die Summe um 3 dB bedämpft werden. Eine dabei entstehende Richtungsverschiebung der Phantomschallquellen kann z. B. durch eine entsprechende Verzögerung kompensiert werden. Kritisch könnte allerdings der überlappende Bereich der zwei Aufnahmewinkel (vgl. auch Kap. 5.2.2) sein. Eine Schallquelle in der Mitte der Bühne wird von beiden Hauptmikrofonen gleichstark aufgenommen. In der Praxis hat sich allerdings gezeigt, dass weder die Lokalisierungsschärfe noch die Klangfarbe beeinträchtigt wird. Positiv wirkt sich hier der große Abstand zwischen den zwei Hauptmikrofonen aus.
Abb. 5/37. Links: „echte“ L-C-R-Stereofonie, rechts: L-R-Stereofonie mit zusätzlichem Centerkanal C.
Abb. 5/38. Doppel-Stereo: Zwei Hauptmikrofone werden weit voneinander aufgestellt, um jeweils die linke bzw. rechte Hälfte des Orchesters wie gewohnt aufzunehmen. Überlappende Aufnahmewinkel sollten vermieden werden.
5.4 Mehrkanal-Stereofonie
307
Der Einsatz von zwei getrennten Zweikanal-Hauptmikrofonen hat den Vorteil, dass Orte und Aufnahmewinkel der zwei Stereomikrofone entsprechend der Situation im linken und rechten Aufnahmebereich individuell optimiert werden können. Die Hauptmikrofone müssen nicht in einer Linie stehen. Alle für die Zweikanal-Stereofonie praktizierten gestalterischen Maßnahmen lassen sich bei jedem der beiden Hauptmikrofone anwenden wie bei nur einem Hauptmikrofon. Beispielsweise werden Stützmikrofone im linken Bühnenbereich dem linken Hauptmikrofon hinzugefügt, Stützmikrofone im rechten Bühnenbereich dem rechten Hauptmikrofon. [Gernemann, 2002/2] 5.4.2.2 Mehrfach-AB-Verfahren Die Mehrfach-AB-Konfiguration (Abb. 5/39) beruht auf der Laufzeitstereofonie. Fünf Mikrofone werden entlang der Bühne in einer Linie verteilt aufgestellt, wobei die Abstände zwischen benachbarten Mikrofonen im Bereich um 2 m oder mehr liegen. Man erhält zu den Realschallquellen L, C und R je eine Phantomschallquelle zwischen L und C sowie C und R. Die großen Abstände der einzelnen Mikrofone bewirken Laufzeitverhältnisse, die das Problem der mehrfachen Abbildung von Phantomschallquellen nach dem Gesetz der ersten Wellenfront verringern.
Abb. 5/39. Mehrfach-AB: Fünf Mikrofone werden in einer Linie weit voneinander aufgestellt und stellen so fünf wenig korrelierte Signale bereit, um drei stabile Quellen und zusätzlich zwei Phantomschallquellen für die Richtungsabbildung zu erzeugen.
308
5 Tonaufnahme und Tonwiedergabe
Bei der Wiedergabe sind fünf deutlich lokalisierbare Quellen für die Richtungsabbildung des Klangkörpers vorhanden. Obwohl dies nur einen Kompromiss darstellt, ergibt sich eine recht stabile und ausgewogene Stereoabbildung, verbunden mit den typischen klanglichen und räumlichen Eigenschaften der Laufzeitstereofonie. Durch Positionierung der Mikrofone kann in gewissen Grenzen auf die Hallbalance und die Balance der einzelnen Orchesterelemente zueinander Einfluss genommen werden. Es können auch Nierenmikrofone benutzt werden, um den Pegel des indirekten Schalls in den Frontkanälen zu reduzieren. Erfahrungsgemäß kann diese Konfiguration nur für größere Klangkörper benutzt werden. Sowohl die Doppel-Stereo- als auch die Mehrfach-AB-Anordnung führen bei kleineren Besetzungen meist nicht zu befriedigenden Ergebnissen. 5.4.2.3 Decca-Tree Für diverse Anwendungen wird ein echtes dreikanaliges Stereo-Hauptmikrofon benötigt. In diesem und dem folgenden Kapitel werden mit dem Decca-Tree und dem OCT-Verfahren zwei völlig unterschiedliche Dreikanal-Verfahren beschrieben. Schon lange bekannt und bereits für Zweikanal-Aufnahmen eingesetzt, siehe Kap. 5.3.3.3, ist die Hauptmikrofonanordnung des Decca-Tree [Streicher, 1999]. Die drei Mikrofone werden in Form eines Dreiecks bzw. entsprechend einem umgedrehten T aufgestellt, jedoch in relativ großem, durch das Verfahren nicht festgelegten Abstand zueinander unter Verwendung von Kugelmikrofonen (Abb. 5/40). Das Centermikrofon bewirkt eine Verbesserung der Laufzeitstereofonie, indem das „Loch in der Mitte“ mit einer stabilen Mitteninformation gefüllt wird. Auf Grund der räumlichen Trennung von L, C und R kommt es auch zu keinen störenden Kammfiltereffekten, die bei der Zweikanalwiedergabe entstehen können, wenn das Mittensignal zu L und bzw. R gemischt wird. Der Decca-Tree wird gerne verwendet, wenn das offene, räumliche Klangbild des AB-Laufzeitverfahrens in Kombination mit einer dominierenden Mittenabbildung erwünscht ist. Nachteilig sind die weit voneinander aufgestellten Mikrofone in Bezug auf Richtungsabbildung. Das erkennt man deutlich bei Betrachtung der Abbildungskurven für die Mikrofonpaare L-C und C-R, die sich mit Hilfe des Berechnungswerkzeugs [Image Assistant] leicht bestimmen lassen (siehe Kap. 5.2.2.4). Abb. 5/41 zeigt die Kurven. Man erkennt, dass auf Grund der Laufzeitverhältnisse die Mikrofonpaare L‑C und C‑R eine sehr starke Konzentration zur Mitte bewirken. Alle Schalleinfallsrichtungen im Bereich ± 45° erscheinen im CenterLautsprecher oder sehr nah bei ihm. Dieser Mitteneffekt kann durch ein Delay im Centerkanal etwas gemildert werden. Schallquellen außerhalb des Aufnahmebereichs 120° werden ausschließlich in L bzw. R wiedergegeben. Neben den Mikrofonpaaren L-C und C-R liefert das Mikrofonpaar L-R natürlich ebenfalls einen Beitrag zum Klangbild. Dieser ergibt sich hinsichtlich des Diffusschalls aus den Eigenschaften des Groß-AB-Verfahrens (siehe Kap. 5.3.3.2). Dagegen wirkt hinsichtlich des Direktschalls infolge des Gesetzes der ersten Wellenfront nicht die Groß-AB-Abbildungskurve (in Abb.5/41 L-R, gestrichelt eingetragen). Diese Abbildungskurve kann unberücksichtigt bleiben, da die L-R-Informationen etwa 3 bis 5 ms später eintreffen als L‑C bzw. C‑R und folglich die Richtungswahrnehmung nicht beeinflussen. Nur die Kurven L‑C und C-R können in Bezug auf die Lokalisierung herangezogen werden.
5.4 Mehrkanal-Stereofonie
309
Abb. 5/40. Decca-Tree: Drei Mikrofone mit Kugelcharakteristik werden in relativ großen Abständen zueinander in Form eines Dreiecks aufgestellt.
Abb. 5/41. Abbildungskurven des Decca-Tree.
Insgesamt liegen die Stärken der Decca-Tree-Konfiguration in den klanglichen Eigenschaften der Kugelmikrofone und der Wirkung von Laufzeitverfahren im diffusen Schallfeld. Eine ausgewogene Abbildung der Richtungsverteilung der aufzunehmenden Schallquellen ist wegen der starken Mittenkonzentration nicht möglich. In vielen Aufnahmesituationen möchte man den Pegel des direkten Schalls im Verhältnis zum indirekten Schall anheben, besonders in Räumen mit kleinem Hallradius und bei Einsatz von Raummikrofonen für die Surround-Kanäle. In diesen Fällen können die Kugelmikrofone des Decca-Tree durch Nierenmikrofone ersetzt werden, wobei bei jedem Mikrofon der Versatzwinkel 0° betragen sollte, die Mikrofone also nach vorne ausgerichtet werden. Dies ändert die Richtungsabbildung nur unwesentlich, aber der Schallpegel des indirekten Schalls ist theoretisch 4,8 dB niedriger, bei Hypernieren sogar 5,7 dB. Im Zusammenhang mit dem Decca-Tree ist das Aufnahmekonzept Stereo+C zu nennen, weil die Anordnung gewisse Ähnlichkeiten zeigt. Stereo+C geht von allen bewährten Anordnungen der Zweikanal-Aufnahmetechnik mit Hauptmikrofon aus, nämlich von AB, MS, XY und den gemischten Verfahren − nicht aber von Groß-AB wie der Decca-Tree, denen es ein Centermikrofon hinzufügt, das nicht vor der Zweikanal-Anordnung platziert wird, sondern
310
5 Tonaufnahme und Tonwiedergabe
ca. 2 m über ihr auf einer Verlängerung des Mikrofonständers. Es wird mit einer Verzögerung von minimal 20 ms zugemischt [Gernemann, 2001]. 5.4.2.4 OCT-Verfahren Im Kap. 5.2.2.3 wurde bereits erläutert, dass ein optimales dreikanaliges L-C-R-Stereomikrofon die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften gewährleisten soll, jedoch mit dem Vorteil größerer Richtungsstabilität in einer breiteren Stereohörfläche. Dazu müssen für die stereofonen Teilbereiche L-C und C-R zwei entsprechende Abbildungskurven dergestalt realisiert werden, dass im Idealfall Schallquellenrichtungen im linken Sektor nicht in der rechten Teilzone abgebildet werden und Schallquellenrichtungen im rechten Sektor nicht in der linken Teilzone. Die äußeren Mikrofonkapseln L und R sollen dabei einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Diese Vorgaben verdeutlicht Abb. 5/42. Es gibt prinzipiell in allen Fällen, in denen drei Mikrofone mit Kugelcharakteristik verwendet werden, ein Übersprechen zwischen den Kanälen, das mehr oder weniger zu einer Beeinträchtigung der Richtungsübersetzung, Lokalisierungsschärfe, Klarheit und Klangfarbe führt. Jede beteiligte Zweikanal-Stereobasis C-L, C-R und L-R erzeugt ihre eigenen Phantomschallquellen, welche an unterschiedlichen Orten erscheinen würden. Es ist nicht möglich, eine geometrische Anordnung der Mikrofone zu finden, bei der die drei Phantomschallquellen für jede Richtung übereinstimmen. Aus diesem Grund muss mit Hilfe richtender Mikrofone eine ausreichende Kanaltrennung realisiert werden, 15 dB sind dabei ausreichend.
Abb. 5/42. Übersprechen von Phantomschallquellen bei Dreikanal-Stereomikrofonen. In diesem Beispiel sind die Phantomschallquellen C-R und L-R unerwünscht.
Eine geeignete Konfiguration ist das sog. OCT-Verfahren (Optimised Cardioid Triangle) [Theile, 2000]. Die prinzipielle Anordnung ist in Abb. 5/43 dargestellt. Als Mikrofoncharakteristiken für L und R werden Supernieren verwendet, welche um jeweils 90° nach außen gerichtet sind, um eine größtmögliche Übersprechdämpfung zu erhalten. Sie sollten für den
5.4 Mehrkanal-Stereofonie
311
Schalleinfallswinkel α = 30° freifeldentzerrt sein. Als Centermikrofon findet die Nierencharakteristik Anwendung, es ist um den Abstand h = 8 cm nach vorn versetzt, für Superniere ist h = 12 cm. Die Basisbreite b ist wählbar und bestimmt den Aufnahmebereich der OCTAnordnung gemäß Tab. 5/12.
Abb. 5/43. OCT-Anordnung (Optimised Cardioid Triangle). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 8 cm, Basisbreite b: variabel, siehe Tab. 5/12.
Tab. 5/12. Aufnahmebereich der OCT-Mikrofonanordung (h = 8 cm).
Basis b
Aufnahmebereich empfohlen: 75 %
100 %
85 cm
72°
102°
70 cm 50 cm
80° 96°
118° 144°
Die Basisbreite b = 85 cm ergibt beispielsweise etwa die gleichen Aufnahmebereich wie ein ORTF-Mikrofon (vgl. Kap. 5.3.4.1) oder eine Klein-AB-Konfiguration mit der Mikrofonbasis 38 cm (vgl. Kap. 5.3.3.1). Auch die Abbildungskurven entsprechen den in Kap. 5.2.2.3 geforderten Verläufen. Der Centerkanal ermöglicht eine natürliche und ausgewogene Verteilung von Schallquellen über die stereofone Basis L-C-R. In der Mitte des Aufnahmesektors (α = 0°) beträgt die Übersprechdämpfung in den Kanälen L und R gegenüber dem Centerkanal C ca. 10 dB. Sie wird zur Seite hin größer und ist bei α = ± 30° bereits größer als 18 dB. Damit ist das Übersprechen vernachlässigbar klein, die Lokalisierungskurve L-C ist nur für den linken Bereich wirksam, und L-R nur für den rechten Bereich. Auch die Eigenschaften insbesondere hinsichtlich Klang- und Raumeindruck lassen sich mit zusätzlichen Maßnahmen optimieren.
312
5 Tonaufnahme und Tonwiedergabe
OCT2, Raumeindruck und Abwärtskompatibilität Eine Modifikation gemäß Abb. 5/44 ermöglicht es, die oft gewünschte klangliche Wirkung von Laufzeitverfahren im diffusen Schallfeld zu erzielen, vergleichbar beispielsweise mit Klein-AB oder dem Decca-Tree. Gleichzeitig wird erreicht, die Wiedergabequalität zu erhalten, wenn im Falle des Downmix für Zweikanal-Wiedergabe der Center mit − 3 dB den Kanälen L und R zugemischt wird, siehe Kap. 5.4.5. Das Center-Mikrofon befindet sich 40 cm vor der Mikrofonbasis. Um die Abbildungskurven weitgehend unberührt zu lassen, wird das Centersignal um 1 ms verzögert. Man kann sich mit Hilfe des [Image Assistant] überzeugen, dass die sog. OCT2-Konfiguration im Prinzip identische Eigenschaften bezüglich der Richtungsabbildung hat wie die ursprüngliche OCT-Version. Die Aufnahmewinkel sind jedoch kleiner bei gleicher Basisbreite, siehe Tab. 5/13.
Abb. 5/44. OCT2-Anordnung (Optimised Cardioid Triangle, Version 2). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 40 cm, Basisbreite b: variabel, Delay Δt: 1 ms.
Tab. 5/13. Aufnahmebereichl der OCT2-Anordung (h = 40cm, t = 1 ms)
Basis b 70 cm 50 cm 35 cm
Aufnahmebereich empfohlen: 75 %
100 %
66° 74° 82°
90° 100° 111°
5.4 Mehrkanal-Stereofonie
313
Aufnahme tiefer Frequenzen Druckempfänger zeichnen sich durch ihren hervorragenden Frequenzgang im tieffrequenten Bereich aus. Um diese Eigenschaft in der OCT-Konfiguration zu nutzen, gibt es zwei Möglichkeiten, sie sind in Abb. 5/45 dargestellt. In den Konfigurationen A werden die Supernieren L und R mit zwei Kugeln ergänzt, wobei die Signale mit jeweils einem Tiefpass begrenzt sind, so dass die systembedingten Schwächen im Bassbereich der Supernieren aufgehoben werden. Die Kugeln können bei Bedarf mit größerer Basisbreite angeordnet sein. Dies hat den Effekt, dass auch der aufgenommene tieffrequente diffuse Schall eine Dekorrelation aufweist. Konfiguration B erspart zwei zusätzliche Mikrofone, liefert aber lediglich ein monofones tieffrequentes Signal im Center-Kanal. Die Abbildungskurven gemäß Abb. 5/13 in Kap. 5.2.2.3 bleiben weitgehend erhalten. Der Anteil des Diffusschalls im Center-Kanal wird allerdings um etwa 5 dB erhöht.
Abb. 5/45. OCT-Anordnung mit optimierter Tiefenwiedergabe. Mikrofon C1: Niere, Mikrofone L1 und R1: Superniere, Mikrofone L2 und R2: Kugel mit Tiefpass, Mikrofon C0: Kugel.
Im praktischen Einsatz erfordert die OCT-Anordnung eine genaue Einhaltung der Mikrofon abstände und die sorgfältige Wahl der Positionierung und der Einstellung des Aufnahmewinkels. Da die gewünschte Balance zwischen Direkt- und Diffusschall, auch als R/D-Ratio bezeichnet, wegen der gegebenen Richtcharakteristiken der Mikrofone nur durch die Wahl der Entfernung zum Klangkörper hergestellt werden kann, muss dies der erste Schritt sein. Steht die Entfernung fest, wird daran der Aufnahmewinkel angepasst. Platziert man das Hauptmikrofon hoch, können bei einem tief gestaffelten Klangkörper die akustischen Ungleichheiten zwischen nahen und entfernten Schallquellen verringert werden.
314
5 Tonaufnahme und Tonwiedergabe
5.4.3 Einsatz der Surround-Kanäle Mit den Surround-Kanälen ergeben sich in vielerlei Hinsicht besondere künstlerische Möglichkeiten der Klangdarstellung. Das betrifft nicht nur die räumliche Auffächerung von lokalisierbaren statischen und bewegten Schallquellen außerhalb der stereofonen Abbildungsebene L-C-R bei Musik, Hörspiel, Off-Effekten im Film u. a. Oft von größerer Bedeutung sind die erreichbaren Wiedergabequalitäten für verschiedene Attribute des Hörens, beispielsweise reale räumliche Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung, die vom akustischen Ambiente geprägt sind (vgl. Kap. 5.2.4). Hinsichtlich der Aufnahmetechnik sind zwei Arten des darzustellenden akustischen Ambientes zu unterscheiden: indirekter Schall aus Reflexionen und Nachhall und Atmo aus direktem, aber diffus eintreffenden, nicht reflektierten Schall und nicht lokalisierbaren Quellen. Indirekter Schall, Reflexionen und Nachhall Die indirekten Schallanteile dienen der Darstellung bzw. Simulation des Aufnahmeraums und können eine „akustische Transformation“ des Hörers aus dem Wiedergabe- in den Aufnahmeraum ermöglichen, wenn die Surround-Kanäle hierzu eingesetzt werden. Besonders für Aufnahmen klassischer Musik besteht – verstärkt durch die Möglichkeiten der Mehrkanal-Stereofonie – häufig der Wunsch, die Natürlichkeit eines akustisch guten Raums adäquat abzubilden oder zu generieren. Die verschiedenen Wege, einen solchen Surround zu realisieren, entsprechen dabei den bekannten Techniken, z. B. mit Hilfe von Raummikrofonen im Aufnahmeraum oder durch die künstliche Nachbildung der indirekten Schallanteile mittels digitaler Effektgeräte. Diese Raumprozessoren basieren meistens auf Faltungstechniken, wobei die Rauminformationen entweder aus Messungen in bestehenden, als akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. Atmo, diffuser nicht reflektierter Schall und nicht lokalisierbare Quellen Damit sind Umgebungsgeräusche gemeint, die keinen Beitrag für raumbezogene Attribute des Klangbilds liefern, allgemein spricht man hier von der vom Filmton bekannten Atmo. Das akustische Ambiente wird gebildet aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen. Beispiele dafür sind das Blätterrauschen des Walds, Publikumsgeräusche und -reaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Im Gegensatz zum indirekten Schall kann dieser Anteil des akustischen Ambientes nicht mit Effektgeräten hergestellt werden. Für die Aufnahme gibt es oft besondere Anforderungen, die sich nicht mit denen für die Aufnahme der Rauminformationen decken. Sowohl für die Wiedergabe der Rauminformation als auch der Atmo werden die Surround-Kanäle LS und RS in Verbindung mit den vorderen Lautsprechern L und R eingesetzt, d. h., stereofone Beziehungen in den Signalpaaren L-LS bzw. R-RS sind notwendig für eine überzeugende Darstellung der räumlichen Situation (Abb. 5/46). Fehlen diese Signalbeziehungen, so kann der Höreindruck auseinander fallen in ein vorderes und ein hinteres Klangbild. Wie in Kap. 5.2.1.5 gezeigt, gewährleistet allerdings der seitliche Abbildungsbereich der 3/2-Lautsprecheranordnung nicht die stereofonen Darstellungsmöglichkeiten wie der
5.4 Mehrkanal-Stereofonie
315
vordere Abbildungsbereich L-C-R: Seitliche Phantomschallquellen sind instabil. Die Darstellung der Räumlichkeit setzt im Gegensatz zur Phantomschallquelle keine wahrgenommene Abbildung voraus, da die Signale eine Korrelation um Null aufweisen. Die Qualität der stereofonen Darstellung ist in Bezug auf räumliche Tiefe, der scheinbaren Schallquellenbreite, des räumlichen Eindrucks und der Umhüllung weitgehend unabhängig von der Position des Hörers im Wiedergaberaum.
Abb. 5/46. Anwendung der seitlichen stereofonen Bereiche für die räumliche Darstellung.
Vollkommen dekorrelierte Signale, die von zwei Lautsprechern wiedergegeben werden, erzeugen sehr präzise Hörereignisse in den beiden Lautsprechern, weil keine Phantomschallquellen entstehen. Sind diese dekorrelierten Signale von unterschiedlicher Gestalt [Theile, 1981/1], spricht man von zwei getrennten Hörereignissen, zum Beispiel das eine in L und das andere in LS. Reproduzieren die Lautsprecher jedoch Nachhall mit einer Korrelation um Null herum, entsteht eine auditive Verbindung zwischen zwei Lautsprechern; sie wird als „Wolke“ zwischen den Lautsprechern wahrgenommen. Dieses stereofone Phänomen ist stabil, es enthält aber keine Abbildung.
Abb. 5/47. Verwendung von vier stereofonen Bereichen zur Darstellung von Raumeindruck, Halligkeit und Umhüllung.
Die Situation ändert sich auch nicht, wenn vier Lautsprecherpaare gemäß Abb. 5/47 anstatt zwei verwendet werden, um weitgehend dekorrelierten Nachhall wiederzugeben. Der Hörer hat das Gefühl, von Raumschall umhüllt zu sein, als sei er im akustischen Geschehen, jedoch sind keine scharf lokalisierbaren Schallquellen zu hören. Vollständige Inkohärenz
316
5 Tonaufnahme und Tonwiedergabe
zwischen den Frontsignalen und den Surround-Signalen bedeutet, dass die seitlichen stereofonen Bereiche nicht für die Wiedergabe der Reflexionsmuster genutzt werden. Aus der Raumakustik weiß man, dass die natürlichen Reflexionsmuster in den seitlichen Bereichen L-LS und R-RS besonders wichtig sind. Daher ist es unerlässlich, eine auditive Verbindung zwischen der Front und Surround herzustellen, indem für alle vier beteiligten Lautsprecher Raumsignale aus dem Aufnahmeraum verwendet werden. Um mit der Aufnahme von diffusem, einhüllendem Schall optimale subjektive Diffusität und subjektive Umhüllung zu erzielen, sollten für die vier Mikrofone geeignete Abstände gewählt werden. Abb. 5/48 zeigt experimentelle Ergebnisse mit durch einen Bandpass auf 0,25 bis 2,5 kHz begrenztem Rauschen zur Wirkung der Kohärenz zwischen den Kanälen in einer quadratischen Lautsprecheranordnung [Theile, 2000]. Man erkennt, dass der Grad der subjektiven Diffusität oder der subjektiven Umhüllung vom Abstand d der quadratischen Mikrofonanordnung abhängt. Ist d zu groß, folgt daraus eine Verminderung der subjektiven Umhüllung. Die ausgewogene Verteilung der umhüllenden Quellen bricht ein und es bilden sich „Hörereigniswolken“ in den Bereichen um die Lautsprecher. Ist d allerdings zu klein, so wird eine instabile Phantomquelle über dem Kopf des Hörers wahrnehmbar und die subjektive Umhüllung verschwindet entsprechend. Es ist zu beachten, dass insbesondere tiefe Frequenzen unterhalb von 200 Hz einen großen Einfluss auf das Maß der Umhüllung haben [Griesinger, 1998]. Dies hängt damit zusammen, dass tiefe Frequenzen zu einer ausgeprägteren auditiven Verbindung führen als hohe Frequenzen; bei Zweikanal-Stereo ist dies u. a. an den ausgeprägten Verdeckungseffekten tiefer Frequenzen zu erkennen. Damit tiefe Frequenzen eine Korrelation um Null aufweisen, sind allerdings wesentlich größere Abstände zwischen den Mikrofonen notwendig [Nipkow, 2012]. Zudem ist es zielführend, Mikrofone mit Kugelcharakteristik zu verwenden, damit auch tiefste Frequenzen unter 50 Hz uneingeschränkt eingefangen werden können.
Abb. 5/48. Auswirkung der Kohärenz auf die subjektive Diffusität [Theile, 2000]. Richtungswahrnehmung in einem diffusen Schallfeld, welches durch das abgestrahlte Rauschen (0,25 bis 2,5 kHz) von vier Lautsprechern mit Kohärenzfaktoren k = 0,2 und k = 0,35 erzeugt wurde. Das Rauschen wurde in einem Hallraum mittels verteilter Kugelmikrofone, Abstände d = 60 und 25 cm aufgenommen. Dunklere Bereiche markieren höhere statistische Häufigkeiten von Hörereignissen mit Richtungsinformationen.
5.4 Mehrkanal-Stereofonie
317
Prinzipiell sind wenigstens vier äquivalente stereofone Kanäle anzustreben, um einen realistischen Raumeindruck und eine überzeugende Umhüllung zu erreichen. Das gilt auch für Aufnahmen, die mit einem zusätzlichen Raummikrofonen gemacht werden. Die Größe der Hörzone innerhalb eines Lautsprecher-Setups ist einerseits abhängig von der Raumakustik – je trockener der Wiedergaberaum ist, desto kleiner ist die Hörzone, andererseits von der Anzahl der Lautsprecher, die Diffusschall mit gleichem Pegel abstrahlen. Die mindestens notwendige Lautsprecheranzahl für eine umhüllende Wirkung ist vier, sie erlaubt jedoch nur eine kleine Hörzone (Abb. 5/49, links). Außerhalb der Hörzone führen Lautstärkenunterschiede zur Lokalisation des näheren Lautsprechers, so dass der Höreindruck der Umhüllung verloren geht. Eine höhere Anzahl von Lautsprechern vergrößert die Hörzone, dargestellt mit 12 Lautsprechern in Abb. 5/49 (rechts). Zu achten ist auf ausreichend geringe Korrelation zwischen den einzelnen Kanälen.
Abb. 5/49. Umhüllung ist mit vier Lautsprechern nur für eine kleine Hörzone darstellbar. Eine größere Lautsprecheranzahl, z. B. 12, vermindert die Gefahr der Lokalisation von Lautsprechern außerhalb des Sweetspots.
5.4.3.1 Surround Sound-Hauptmikrofone Der Begriff Hauptmikrofon wird heutzutage in verschiedenen Bedeutungen benutzt und die Gewichtung der charakteristischen Eigenschaften kann in Zwei- oder Fünfkanalanwendungen unterschiedlich sein. Im Prinzip sollte das 3/2-Stereo-Hauptmikrofon zwei psychoakustische Funktionen kombinieren: –– Abbildung der Richtung: Aufnahme des Direktschalls für die Richtungsdarstellung der aufgenommenen Schallquellen gemäß der Abbildungskurve, –– Abbildung des Raums: Aufnahme des indirekten und diffusen Schalls für die Darstellung räumlicher Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung. Diese Doppelfunktionen kann bei konventioneller Zweikanal-Stereofonie mit einem geeigneten Stereo-Hauptmikrofon mit guten Ergebnissen bewältigt werden. Auch für Mehrkanalhauptmikrofone gibt es Lösungen. Im Folgenden werden zwei Lösungen erörtert, welche
318
5 Tonaufnahme und Tonwiedergabe
auf den in Kap. 5.4.2 gezeigten L-C-R-Konfigurationen basieren. Voraussetzungen für gute Aufnahmen sind immer geeignete Aufnahmebedingungen und der richtige Mikrofonstandort, der eine adäquate Richtungsabbildung wie auch die adäquate Balance zwischen Direktschall und indirekten Schallanteilen ermöglicht, die sog. R/D-Ratio. Fukada-Tree Der sog. Fukada-Tree (Abb. 5/50) basiert für die Abbildung des Klangkörpers auf der Dreiecksaufstellung L‑C‑R, die eine modifizierte Variante des Decca-Tree darstellt, wobei an Stelle der Kugelcharakteristik Nieren benutzt werden [Bruck, 1998]. Dies reduziert den Pegel des diffusen Schallfelds. Auf Grund der großen Mikrofonabstände gibt es wie beim Decca-Tree keine brauchbare Abbildungskurve (Kap. 5.4.2.3). Als Folge des Gesetzes der ersten Wellenfront werden alle Schallquellen von der linken Seite links und Schallquellen von der rechten Seite rechts lokalisiert. Schallquellen im Aufnahmewinkelbereich um ± 35° werden in der Nähe des Centers wiedergegeben, Schallquellen außerhalb des Bereichs ± 55° im oder nahe der Lautsprecher L oder R, der Abbildungsbereich beträgt 110°.
Abb. 5/50. Fukada-Tree, Mikrofone L, C, R, LS, RS: Niere, Mikrofone LL und RR: Kugel.
Die räumliche Darstellung wird durch die Mikrofone L, R, RS, LS realisiert, die ein ca. 1.8 m großes Quadrat bilden: Ihre Abstände können je nach Gegebenheiten variiert werden. Die 45°-Ausrichtungen der L- bzw. R‑Nieren bewirken einerseits eine Reduktion des Übersprechens um etwa 4 bis 6 dB, abhängig von der Schalleinfallsrichtung, und andererseits eine gute Erfassung der Seitenbereiche. Die 135°-Ausrichtungen der LS- bzw. RS‑Nieren dient
5.4 Mehrkanal-Stereofonie
319
ebenfalls zwei Zwecken: Der Direktschall wird um 8 bis 18 dB bedämpft, abhängig von der Schalleinfallsrichtung. Gleichzeitig arbeiten die Mikrofonpaare L-LS bzw. R-RS für den wichtigen Seitenschall quasi als Groß-AB-Anordnung, die Richtcharakteristiken erzeugen nur kleine Pegeldifferenzen bis maximal etwa 3 dB. Zusätzlich ergänzen die Kugelmikrofone LL und RR die Seiten LL und RR. Sie werden den Signalpaaren L-LS bzw. R-RS vorsichtig zugemischt, um die Orchesterbreite zu vergrößern und die klangliche Verbindung zwischen Front- und Surround-Lautsprechern zu verstärken. Diese Anordnung mit großen Mikrofonabständen liefert zwar keine ausgewogene Richtungsabbildung, jedoch ein offenes Klangbild, das durch räumliche Tiefe, Raumeindruck und Umhüllung gekennzeichnet ist. Der Aufstellungsort für diese Konstellation liegt normalerweise einige Meter über und hinter dem Dirigenten, wobei der genaue Standort – wie allgemein üblich – durch kritisches Hören optimiert werden muss. OCT-Surround Ergänzt man die OCT- bzw. die OCT2-Mikrofonanordnung mit Surround-Mikrofonen LS und RS mit Nierencharakteristik gemäß Abb. 5/51, so lassen sich Vorteile der ausgewogenen stabilen Richtungsabbildung und des variablen Abbildungsbereichs vereinen mit guten räumlichen Abbildungseigenschaften. Es ist wichtig, dass das Direktsignal von vorne in den Surround-Kanälen möglichst weitgehend unterdrückt wird. Aus diesem Grund sind die Nieren LS und RS nach hinten ausgerichtet, die damit erzielte Unterdrückung ist für alle Richtungen im Abbildungsbereich der OCT-Anordnung größer als 15 dB.
Abb. 5/51. OCT-Surround, Mikrofone L und R: Superniere, Mikrofon C: Niere, Mikrofone LS und RS: Niere.
Gleichzeitig ermöglicht die Anordnung der Nieren LS und RS in Verbindung mit L und R eine stereofone Aufnahme der ersten Reflexionen aus dem seitlichen und hinteren Richtungsbereich. Der mit 40 cm relativ nahe Abstand von LS und RS zu den vorderen Mikrofonen L und R führt zu den gemäß Lokalisierungskurven gewünschten Laufzeitdifferenzen. Betrachtet man das seitliche stereofone Paar L-LS oder R-RS unter der Annahme einer seitlichen Reflexion, so
320
5 Tonaufnahme und Tonwiedergabe
ergibt sich aus der Richtcharakteristik der Mikrofone ein Pegelunterschied von 6 dB. Die geometrische Konfiguration bewirkt jedoch, dass seitliche Reflexionen etwa 0.3 ms später von den Mikrofonen L bzw. R aufgenommen werden. Damit kompensiert das Delay den um 6 dB kleineren Pegel in LS bzw. RS. Im rückseitigen stereofonen Mikrofonpaar LS-RS beträgt die Pegeldifferenz immer ΔL = 0 dB, d. h., für die rückseitige Aufnahme ist eine reine AB-Mikrofonierung mit dem Mikrofonabstand b + 20 cm wirksam. Insgesamt erfüllt das OCT-Surround-Hauptmikrofon die oben gestellten Anforderungen hinsichtlich Richtungs- und Räumlichkeitsabbildung. Die natürliche Pegelbalance von Direktschall, frühen Reflexionen von allen Seiten und Nachhall bleiben erhalten, der Pegel des Diffusschalls ist in allen Kanälen ausgeglichen, eine genügende Korrelation ist sichergestellt. Wie bei allen Mikrofonierungen hängt beim OCT-Surround-System der Erfolg von der richtigen Positionierung ab, die viele Parameter berücksichtigen und in Übereinstimmung bringen muss wie Lautstärke- und Richtungsbalance, Direkt-Diffusschall-Verhältnis (R/D-Ratio), Klangfarbe, Breite des Klangkörpers, Applaus, Atmo des Publikums usw. Ein variabler Aufnahmebereich erleichtert diese Aufgabe. Damit kann zunächst der optimale Mikrofonstandort hinsichtlich R/D-Ratio und Klangfarbe gewählt werden. Erst wenn dieser gefunden ist, wird der Aufnahmewinkel entsprechend der gegebenen Ausdehnung des Klangkörpers eingestellt. Doppel-MS Das MS-Mikrofonverfahren (siehe Kap. 5.3.2.2) bietet gewisse Vorteile gegenüber diskreten Mikrofonierungen. Sie bestehen v. a. in der Flexibilität des Formats und der Möglichkeiten der Bearbeitung in der Postproduktion. Es liegt nahe, diese Vorteile auch bei Mehrkanaltonaufnahmen zu nutzen. Weitere Argumente sind die hohe Kompaktheit des Aufbaus und die perfekte Monokompatibilität. Daher wurde in den 1990er Jahren eine MS-Aufnahmetechnik für Surround entwickelt, die später den Namen Doppel-MS-Technik erhielt, man kann auch von einem Mehrkanal-Koinzidenzmikrofon sprechen. Bei dieser Technik wird einem nach vorne gerichteten MS-Mikrofonpaar, bestehend aus Niere und Acht eine weitere, nach hinten gerichtete Niere hinzugefügt. Diese Niere bildet mit derselben Acht ein weiteres MS-Mikrofonpaar, daher der Name Doppel-MS-Technik. Aus drei Mikrofonen werden also zwei MSPaare gebildet. Abb. 5/52 veranschaulicht das Prinzip.
Abb. 5/52. Doppel-MS-Mikrofonanordnung.
Die praktische Realisierung dieser Mikrofontechnik erfordert hinreichend kleine Mikrofone und eine geeignete Aufhängung, um größere Abstände zwischen den Kapseln und damit
5.4 Mehrkanal-Stereofonie
321
Kammfiltereffekte im hörbaren Bereich zu vermeiden. Abb. 5/53 zeigt als Beispiel eine solche Standardaufhängung für Doppel-MS-Aufnahmen. Analog zur Zweikanal-MS-Technik müssen die drei Mikrofonsignale durch Summen- und Differenzbildung zu diskreten Signalen dematriziert werden. Die einfachste und am meisten verbreitete Methode ist eine separate Decodierung der Mikrofonpaare vordere Niere/Acht, die L und R ergibt, und hintere Niere/Acht, die LS und RS ergibt. Das Signal der vorderen Niere kann außerdem dem Centerkanal zugeführt werden.
Abb. 5/53. Realisierungsbeispiel der Doppel-MS-Technik mit gemeinsamer, gefederter Aufhängung von Kompaktmikrofonen.
Eine verbesserte Decodierung hinsichtlich der Signaltrennung und der Vermeidung von Übersprechen zwischen den decodierten Lautsprechersignalen kann erreicht werden, wenn jeweils alle drei Mikrofone zur Decodierung herangezogen werden. Dies löst ein grundsätzliches Problem der MS-Technik: Bei der konventionellen Zweikanal-MS-Aufnahme hängen Versatzwinkel und Richtcharakteristik der dematrizierten virtuellen Mikrofone voneinander ab, denn eine Zumischung des Achtermikrofons bewirkt stets sowohl die Vergrößerung des Versatzwinkels als auch die Veränderung der decodierten Richtcharakteristik. Bei der Doppel-MS-Technik hingegen kann jedes virtuelle Mikrofon jede beliebige Ausrichtung und Richtcharakteristik erhalten. Hierdurch verbessert sich die Signaltrennung und dies führt zu einer Verringerung der Korrelation der Kanäle mit klanglichen Vorteilen. Die Doppel-MSTechnik wird vielfach bei Reportagen und Dokumentationen eingesetzt, wo es auf Kompaktheit des Mikrofonsystems, einfache Handhabbarkeit und Flexibilität besonders ankommt. Näheres dazu in Kap. 5.4.3.3. KFM-Surround Diese Aufnahmetechnik für Mehrkanalton basiert auf einer Variante des Kugelflächenmikrofons, dem KFM 360 [Bruck, 1998]. Eigenschaften des Kugelflächenmikrofons, wie die
322
5 Tonaufnahme und Tonwiedergabe
besonders natürliche räumliche Abbildung (siehe Kap. 5.3.4.3), sollen so auf Mehrkanalton übertragen werden. Die vorderen und rückwärtigen Signale werden dadurch erzeugt, dass die beiden Mikrofone des KFM zusammen mit jeweils einem Achtermikrofon ein MS-Paar ergeben. Die Summe der Mikrofonsignale ergibt jeweils den vorderen Kanal, die Differenz den hinteren Kanal. Dies ist für die rechte Seite der Aufnahmezone in Abb. 5/54 veranschaulicht, eine konkrete Realisierung zeigt Abb. 5/55.
Abb. 5/54. Die Lautsprechersignale entstehen beim KFMSurround durch Dematrizierung analog zur MS-Technik
Wie bei der MS-Technik kann mit diesem System die Dematrizierung abgestuft erfolgen und eine flexible Mischung auch in der Postproduktion erstellt werden. Die hierdurch entstehenden Mikrofoncharakteristiken sind – wie die seitlichen Achten – nach vorn und hinten ausgerichtet. Sie lassen sich jeweils über die Niere bis zur Acht variieren, wobei die Charakteristik der beiden rückwärtigen Kanäle eine andere sein kann als bei den vorderen. Das erlaubt eine auch nachträgliche flexible Anpassung an die Aufnahmesituation.
Abb. 5/55. Realisierung des KFM-Surround-Verfahrens mit dem KFM 360.
5.4 Mehrkanal-Stereofonie
323
Die vier so erhaltenen Kanäle ergeben eine Surround-Wiedergabe ohne Center-Kanal. Dieser kann in verschiedenen Fällen auch entbehrlich sein, wenn zusätzliche Stabilität im vorderen Abbildungsbereich keinen Vorteil bringt. Er kann auch zusätzlich gewonnen werden, beispielsweise durch Zumischung eines Solistenmikrofons. Die Nutzung des Centerkanals allein für die stabile und präzise Darstellung eines Solisten ist sicherlich lohnend. Jedoch sollte nicht übersehen werden, dass zu diesem Zweck mit studiotechnischen Mitteln ein passender Entfernungs- und Raumeindruck geschaffen werden muss, so dass sich der Solist harmonisch in das akustische Umfeld einfügt (siehe Kap. 5.4.4). 5.4.3.2 Raummikrofone Im vorangegangenen Kapitel ist deutlich geworden, dass 3/2-Stereo-Hauptmikrofone nur sinnvoll eingesetzt werden können, wenn die Schallfeldverhältnisse bei der Aufnahme sowohl Richtungsabbildung als auch Raumdarstellung zulassen. Es muss ein Mikrofon-Standort existieren, wo der Direktschall eine ausgewogene Richtungsabbildung und gleichzeitig der indirekte und diffuse Schall die Darstellung der räumlichen Tiefe, der Räumlichkeit, der Halligkeit, des Raumeindrucks und der Umhüllung ermöglichen. Wesentlich flexiblere Lösungen bilden aber die Verfahren, die das Hauptmikrofon lediglich zur Richtungsdarstellung in der L-C-R-Abbildungsebene einsetzen und separat davon spezielle Raummikrofon-Anordnungen für die räumlichen Eigenschaften des Klangbilds nutzen. Grundsätzlich ist aus den in Kap. 5.4.3 behandelten Gründen als Raummikrofon nur eine vierkanalige Konfiguration zu empfehlen, wobei die Signale der rückwärtigen Mikrofone auf die Surround-Kanäle LS bzw. RS gegeben und die des vorderen Raumikrofonpaars den Kanälen L bzw. R beigemischt werden. Welche Konfiguration eines VierkanalRaummikrofons geeignet ist, hängt von der Schallfeldsituation und von den praktischen Gegebenheiten ab. Hamasaki-Square Hervorragend bewährt hat sich bei diversen Konzertsaal-Aufnahmesituationen der sog. Hamasaki-Square [Hamasaki, 2000], entsprechend Abb. 5/56. Er besteht aus vier in einem Quadrat angeordneten Mikrofonen mit Achtcharakteristik, die Mikrofonabstände d betragen 1 bis 3 m. Die Mikrofonachsen liegen quer zur Bühne, um den Pegel des Direktsignals so weit wie möglich zu reduzieren. Die Unterdrückung ist im vorderen Schalleinfallsbereich bei ± 15° größer als 12 dB. Sie nimmt zur Seite hin ab, bei ± 30° sind es nur noch 6 dB. Die Mikrofone LB und RB können den Kanälen L und R zugeordnet oder zwischen L‑LS bzw. R‑RS eingeordnet werden. Ebenso wird der rückwärtige Direktschall stark abgeschwächt, dies hat manchmal Vorteile in Hinblick auf Geräusche aus dem Auditorium. Auch weiß man, dass erste Reflexionen aus der Medianebene eher schädlich als nützlich sind. Zur Seite hin wirken die Mikrofonpaare LS-LB bzw. RS-RB wie Groß-AB-Anordnungen. Hierin liegen die besondere Eigenschaft und der große Vorteil bei Aufnahmen im Konzertsaal, nur der Seitenschall wird erfasst, dies geschieht mit Groß-AB-Laufzeitstereofonie.
324
5 Tonaufnahme und Tonwiedergabe
Abb. 5/56. Raummikrofon-Konfiguration Hamasaki-Square.
Abb. 5/57. Berücksichtigung von psychoakustischen Phänomenen für natürliche Aufnahmen. Phänomene beim Hawasaki-Square.
Abb. 5/57 zeigt das Zusammenwirken der zwei Werkzeuge, das L-C-R-Hauptmikrofon für die Richtungsabbildung des Klangkörpers und die separate Konfiguration LB, RB, RS, LS für die räumliche Abbildung. Die Kanäle LF und LB werden kombiniert zu L, die Kanäle RF und RB zu R. Das L‑C‑R-Hauptmikrofon wie auch die Raummikrofonkonfiguration lassen sich unabhängig voneinander nach der jeweiligen künstlerischen Absicht positionieren. Das Raummikrofon kann beispielsweise problemlos weit entfernt vom Hallradius entfernt aufgestellt werden, um frühe Reflexionen, ein optimales R/D-Verhältnis, adäquate Dichte und Klangfarbe zu erhalten, aber auch weit entfernt vom Auditorium, um Störgeräusche zu vermeiden. Die optimale Verzögerung zwischen Haupt- und Raummikrofonanordnung ist ebenfalls konfigurier-
5.4 Mehrkanal-Stereofonie
325
bar, ohne dass die stereofone Information des Hamasaki-Square verändert werden muss (vgl. Kap. 5.4.4). Dies gilt für jede räumlich getrennte Hauptmikrofonanordnung. Es ist zu beachten, dass die Verwendung von Mikrofonen mit Richtcharakteristik Acht zu einem Abfall tiefer Frequenzen führt, weil es sich um reine Druckgradientenempfänger handelt. Die Signale des Hamasaki-Square weisen deshalb bei tiefen Frequenzen eine wesentlich weniger stark ausgeprägte Umhüllung auf. Theile-Trapez In vielen Aufnahmesituationen haben die frühen seitlichen Reflexionen nur eine geringe oder keine Bedeutung. Beispielsweise geht es bei der Aufnahme von Live-Popmusik eher darum, die Reaktion des Publikums und das akustische Ambiente darzustellen. Dabei muss ebenfalls der Direktschall, der in diesem Fall von der Beschallungsanlage kommt, möglichst stark unterdrückt werden, und eine korrekte Richtungsabbildung ist meistens unwesentlich. Daher kann die Anordnung aus vier richtenden Mikrofonen so konfiguriert und ihre Platzierung so gewählt werden, dass das akustische Ambiente einerseits ohne störenden Direktschall bleibt und andererseits eine zufriedenstellende akustische Umhüllung erzeugt wird. Beim Theile- oder Nieren-Trapez weisen alle Nieren nach hinten, um Direktschall aus dem vorderen Halbraum auszublenden (d = 60 cm). Ein Beispiel dafür zeigt Abb. 5/58. Die nach rückwärts ausgerichteten Nieren in der trapezförmigen Anordnung bewirken, dass Schall aus dem vorderen Halbraum weitgehend ausgeblendet wird. Die Unterdrückung ist im Schalleinfallsbereich ± 45° größer als 15 dB und damit wesentlich wirkungsvoller im Vergleich zum oben erläuterten Hamasaki-Square. Der Pegel einer Schallquelle, die von hinten nach vorne wandert, nimmt kontinuierlich ab gemäß der Richtwirkung der Niere, also bezogen auf die Richtung von hinten nach vorne, beginnend hinten bei 180° mit 0 dB, bei 120° mit – 3 dB, bei 60° mit – 11 dB, bei 30° mit – 18 dB. Alle drei Stereo-Mikrofonpaare LB-LS, LS-RS und RS-RB wirken dabei in identischer Weise als reine Klein-AB-Anordnungen, aus den Abständen d = 60 cm ergibt sich ein Aufnahmebereich von 60° für jeden der drei Aufnahmesektoren.
Abb. 5/58. Theile-Trapez für Atmo-Aufnahmen aus dem rückwärtigen Halbraum.
326
5 Tonaufnahme und Tonwiedergabe
5.4.3.3 Reportage und Dokumentation Für Surround-Aufnahmen der akustischen Atmosphäre, der Atmo, sind verschiedene, mindestens vierkanalige Mikrofon-Konfigurationen geeignet. Um die gewünschte Umhüllung gemäß Abb. 5/57 zu erreichen, muss nicht der Centerkanal einbezogen werden, denn eine richtungsstabile Abbildung von Schallquellen ist nicht wichtig. Vielmehr geht es um die Darstellung umgebender Geräusche und diffusen Schalls, wobei alle vier Seiten eine gleichwertige Bedeutung haben. In der Praxis der Atmo-Aufnahme kommt es zudem darauf an, dass die Mikrofon-Konfigurationen möglichst kompakt und einfach handhabbar sind. Doppel-MS Diesbezüglich besonders geeignet ist die in Kap. 5.4.3.1 bereits beschriebene Doppel-MSTechnik. Sie wird in der Praxis besonders da eingesetzt, wo die Möglichkeit der flexiblen Bearbeitung in der Nachbearbeitung, Kompaktheit – die gesamte Anordnung lässt sich in einem Windkorb unterbringen – sowie Monokompatiblität vorrangig sind. Dies ist hauptsächlich bei Filmton und Sportübertragungen sowie für Publikums-Atmo in TV-Shows der Fall, aber auch bei Hörspielen, Features und Dokumentationen. Das Doppel-MS-Verfahren kann auch mit einem Richtrohr aufgebaut werden, das beim Filmton für die Dialogaufnahme Standard ist. Da bei Dokumentationen und in der aktuellen Berichterstattung kein separates Atmo-Mikrofon möglich ist, wird der Mehrkanalton aus dem Richtrohr und zwei an ihm angebrachten Kompaktmikrofonen gebildet. Abb. 5/59 zeigt diese Speziallösung.
Abb. 5/59. Beispiel einer Mikrofonanordnung in Doppel-MS-Technik mit einem Richtrohr.
IRT-Kreuz Ein Alternative für die Atmo-Aufnahme ist das sog. IRT-Kreuz (Abb. 5/60). Die vollkommen symmetrische Kapselanordnung gewährleistet für die Signalpaare L-R, R-RS, RS-LS und LS-L eine gleichwertige Korrelation im diffusen Schallfeld sowie eine gute stereofone Qualität der umgebenden Geräusche. Die Versatzwinkel zwischen den Mikrofonachsen betragen 90°. Der Abstand der Mikrofone sollte 25 cm betragen, damit sich für jedes der Mikrofonpaare ein Abbildungswinkel von 90° ergibt. Besonders bewährt hat sich das kompakte Atmo-Kreuz bei Sportübertragungen, Talkshows und im Bereich der Dokumentation, wobei der Centerkanal frei bleibt und eine separate Handhabung von Kommentar, Dialog oder anderen, z. B. bildbezogenen Signalquellen
5.4 Mehrkanal-Stereofonie
327
erlaubt. Für den Einsatz als Raummikrofon im Konzertsaal ist die Anordnung weniger geeignet, da der Direktschall des Klangkörpers nicht unterdrückt wird. Für den Einsatzbereich einer wirklichkeitsnahen Dokumentation der akustischen Umgebung ist die Positionierung des Atmo-Mikrofons in den meisten Situationen unkritisch. Die folgenden Einschränkungen sind zu beachten: –– Im Fall einer Bilddokumentation besteht die Gefahr einer Diskrepanz zwischen akustischer und optischer Richtung, wenn das Mikrofon bildbezogene Quellen aufnimmt. Besonders störend ist eine Seitendiskrepanz, z. B. wenn eine linke Bildquelle akustisch rechts erscheint und umgekehrt. Generell sollten Richtungsdarstellungen für bildbezogene Quellen vermieden werden. –– Schallquellen in der Nähe des Atmo-Mikrofons sollten bei einem Mindestabstand von 3 m vermieden werden. Eine Quelle nahe am Mikrofon wird bei der Wiedergabe ähnlich nahe am Lautsprecher wahrgenommen. Für die realitätsnahe Umhüllung, d. h., für die Illusion einer kopfnahen akustischen Umgebung ist dies problematisch, weil die Lautsprecherentfernung verstärkt als Grenze des Hörereignisraumes wahrgenommen werden kann. Beispielsweise würde beim Applaus der Hörer um sich herum leicht eine „akustisch leere Blase“ empfinden, wenn das Atmo-Mikrofon zu nahe am Publikum aufgestellt wäre.
Abb. 5/60. IRT-Kreuz für Atmo-Aufnahmen
5.4.4 Verwendung von Delay Die natürliche Abbildung der Tiefe und der Räumlichkeitseindruck erfordern eine sorgfältige Handhabung der Verzögerungssituation; darauf beruht das Prinzip der raumbezogenen Stütztechnik [Theile, 1984], [Wöhr, 1991], [Theile, 1991], [Hugonnet, 1998], das in Kap. 5.3.5.3 beschrieben wurde. Dies gilt entsprechend für die Mehrkanaltechnik, jedoch muss sichergestellt sein, dass das Raummikrofon die im vorangegangenen Abschnitt beschriebene Abbildung des indirekten Schalls auch hinsichtlich der zeitlichen Struktur gewährleistet. Die Verzögerungen werden so gestaltet, dass sie dem Reflexionsmuster des Aufnahmeraums bzw. eines anderen Raums bei künstlicher Verhallung entsprechen. Dies unterstützt die Natürlichkeit des Raumeindrucks und die Darstellung räumlicher Tiefe. Hervorzuheben ist, dass dieses Konzept nicht auf das Haupt-Stützmikrofonverfahren beschränkt ist, sondern auch
328
5 Tonaufnahme und Tonwiedergabe
entsprechend für die Einzelmikrofonverfahren (Kap. 5.3.6) angewendet werden kann [Noussaine, 1997], [Zacharov, 1998], [Griesinger, 2000].
5.4.4.1 Delay bei Einsatz von Hauptmikrofonen Am Beispiel der Aufnahme eines Orchesters mit einem Hauptmikrofon, einem Raummikrofon und Stützmikrofonen. zeigt Abb. 5/61 das Grundkonzept notwendiger Verzögerungen. Für die nicht verzögerten Mikrofonsignale ergeben sich die fehlerhaften Zeitverhältnisse, dargestellt in der oberen Grafik. Nach korrekt eingesetzten Verzögerungen ergibt sich das gewünschte Reflexionsmuster in der unteren Grafik. Man erkennt, dass das Stützmikrofonsignal in der ursprünglichen Situation, wie oben dargestellt, früher wiedergegeben wird als das entsprechende Hauptmikrofonsignal. Als Folge davon interpretiert das Gehör das Stützmikrofonsignal als den Direktsignal, so dass die Lokalisierung und die bevorzugten Abbildungseigenschaften des Hauptmikrofons verloren gehen. Solche Aufnahmen klingen unnatürlich, ohne räumliche Tiefe und ohne adäquaten Raumeindruck. Dem lässt sich entgegenwirken, indem jedes Stützmikrofonsignal bezüglich Zeit- und Pegelverhältnissen als eine Anzahl von frühen Reflexionen dargestellt wird. Die Verzögerungen werden so gestaltet, dass das resultierende Stütz-Reflexionsmuster in den Bereich der frühen Reflexionen fällt, die vom Haupt- oder Raummikrofon aufgenommen werden. Um Klangfärbungsprobleme zu vermeiden und die Wahrnehmung der räumlichen Tiefe und des Raumeindrucks wirkungsvoll zu unterstützen, sollten mindestens vier räumlich und zeitlich verteilte Seitenreflexionen generiert werden. Die Qualität des Raumeindrucks für die gestützte Schallquelle kann ferner durch Hinzufügen eines adäquaten Nachhalls optimiert werden. Auf diese Weise kann die räumliche Qualität der stereofonen Aufnahme erhalten bleiben, und zugleich trägt das Stützmikrofonsignal zur gewünschten Klangbalance von Lautstärke, Transparenz usw. bei.
Abb. 5/61. Raumbezogene Stütztechnik für Haupt-, Stütz- und Raummikrofone.
5.4 Mehrkanal-Stereofonie
329
Da das Stützmikrofonsignal in Form einer Anzahl von verzögerten Reflexionen dem stereofonen Hauptmikrofonsignal hinzugefügt wird, ändert sich nicht die vom Hauptmikrofon gegebene Richtungsinformation. Folglich ist die raumbezogene Stütztechnik nicht geeignet, um die eventuell unbefriedigende Richtungsabbildung eines bestimmten Hauptmikrofons oder gravierende Mängel in der Lautstärkebalance zu verbessern. Vielmehr muss in diesen Fällen das Stützmikrofon den Direktschall des Hauptmikrofons ersetzen, d. h., mit Hilfe einer geeigneten Nachbearbeitung muss der passende indirekte Schall erzeugt werden, so dass er sich in das Reflexionsmuster des übrigen Klangkörpers einfügt. Da die Signale des Stützmikrofons und die entsprechenden Signalanteile des Hauptmikrofons inkohärent sind, gibt es keine Klangfärbungsprobleme durch Kammfiltereffekte. Das gestützte Instrument entspricht mit der raumbezogenen Nachbearbeitung bezüglich Entfernung und Klangfarbe dem gesamten Klangbild und kann problemlos mit der gewünschten Balance zugemischt werden. Auf diese Weise können beliebig viele Teile des Klangkörpers gestützt werden. Im Extremfall entfällt das Hauptmikrofon, die raumbezogene Stütztechnik wird dann durch das Einzelmikrofonverfahren ersetzt. Auch ohne Hauptmikrofon kann die gewünschte zeitliche Struktur von Direktschall, frühen Reflexionen und Nachhall für den gesamten Klangkörper hergestellt werden. Das ist mit den heutigen technischen Möglichkeiten in vielen Situationen ein praktikabler und sinnvoller Weg, denn er bietet Flexibilität und macht von den gegebenen raumakustischen, aufführungs- und produktionsbedingten Realitäten in hohem Maße unabhängig.
Abb. 5/62. Setzen des Bezugspunkts für den Delay-Plan.
Die Wahl der Positionierung des Raummikrofons ist bestimmt durch die Optimierung der frühen Reflexionen, des R/D-Verhältnisses und der Diffusität hinsichtlich räumlicher Tiefe, Raumeindruck und Umhüllung. Dies kann unabhängig von der Entfernung zum Hauptmi krofon geschehen. Wie aus Abb. 5/62 hervorgeht, wird zur Vermeidung von Echowirkungen die zu große Entfernung korrigiert, indem sowohl das Stützmikrofonsignal als auch das
330
5 Tonaufnahme und Tonwiedergabe
Hauptmikrofonsignal so weit verzögert werden, dass der fiktive Abstand etwa 10 m beträgt, entsprechend einer Verzögerung von ca. 30 ms. 5.4.4.2 Delay-Plan Erfahrungen haben gezeigt, dass die genaue Beachtung der Zeitverhältnisse unerlässlich ist, um räumliche Tiefe und Raumeindruck zu gewährleisten. Dazu ist die Erstellung eines DelayPlans für alle beteiligten Mikrofone enorm hilfreich. Im ersten Schritt ist dazu festzulegen, welches Mikrofonsignal den Direktschall bei der Wiedergabe erzeugen und damit die Richtungsabbildung leisten soll. Im Beispiel gemäß Abb. 5/62 ist dies das L-R-Hauptmikrofon. Die Zeit- oder Verzögerungswerte beziehen sich auf den Bezugszeitpunkt dieses Mikrofons (t = 0 ms), alle weiteren Mikrofone liefern entweder vor- oder nacheilende Signale. Der Delay-Plan enthält die individuellen Delays der Mikrofonsignale, die sich am Reflexionsmuster der konkreten Situation im Saal orientieren. Es werden darin die zeitliche Reihenfolge und die räumliche Zuweisung festgelegt. Ein Beispiel zeigt Tab. 5/14, es entspricht der in Abb. 5/62 gezeigten Aufnahmesituation mit einem L‑C‑R-Hauptmikrofon und einem vierkanaligen Raummikrofon. Es wird angenommen, dass sich das Raummikrofon etwa 20 m hinter dem Hauptmikrofon befindet und dass drei Stützmikrofone A, B und C eingesetzt sind. Tab. 5/14. Delay-Plan für die Mikrofonsignale, Beispiel für die in Abb. 5/62 gezeigte Aufnahmesituation, 1 m entspricht ca. 3 ms, 1 ms entspricht ca. 0,33 m. 1
2
3
4
5
6
Mikrofone
Entfernungskompensation [ms]
Abstand vom Direktschall [ms]
Kompensation + Abstand [ms]
benötigtes Routing Delay [ms]
Hauptmikrofon
L C R
0 0 0
0 0 0
0 0 0
– 35 – 35 – 35
L C R
Stützmikrofon A
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 25 – 25 – 25 – 25
– 22 – 19 – 27 – 30
– 47 – 44 – 52 – 55
– 82 – 79 – 87 – 90
L R LS RS
Stützmikrofon B
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 35 – 35 – 35 – 35
– 29 – 31 – 32 – 35
– 64 – 66 – 67 – 70
– 99 – 101 – 102 –105
L R LS RS
Stützmikrofon C
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 45 – 45 – 45 – 45
– 27 – 21 – 29 – 33
– 72 – 66 – 74 – 78
– 107 – 101 – 109 –113
L R LS RS
Raummikrofon
L R LS RS
+ 60 + 60 + 60 + 60
– 25 – 25 – 25 – 25
+ 35 + 35 + 35 + 35
0 0 0 0
L R LS RS
5.4 Mehrkanal-Stereofonie
331
Von jedem Stützmikrofonsignal werden hier vier virtuelle frühe Reflexionen abgeleitet, Spalte 2 zeigt zusätzlich die Laufzeit zwischen Stütz- und Hauptmikrofon bzw. Haupt- und Raummikrofon. Spalte 3 enthält die beabsichtigten und frei gewählten zeitlichen Abstände der frühen Reflexionen, sie sollten im Bereich 20 bis 50 ms liegen. Daraus resultieren für die Stützen die individuellen Delays, bezogen auf das Hauptmikrofon. Da die vom Hauptmikrofon aufgenommenen Reflexionen auf Grund der Entfernung von 20 m vom Hauptmikrofon zu spät eintreffen, muss der Ausgleich durch zusätzliches Delay für Haupt- und Stützmikrofone erfolgen, in diesem Fall sind es 35 ms (Spalte 4, vgl. auch Abb. 5/61). Daraus ergeben sich die individuell einzustellenden Gesamtdelays in Spalte 5. Spalte 6 zeigt das beabsichtigte Routing. In diesem Fall werden die vier abgeleiteten Signale eines Stützmikrofons auf die Kanäle L, R, RS, LS gegeben, so dass sich neben der zeitlichen Verteilung auch eine Richtungsverteilung ergibt. Der Delay-Plan enthält keine Pegelanpassungen; diese können nun innerhalb eines breiten Bereichs in bestimmten Grenzen variiert werden, ohne die Wahrnehmung von Richtung und räumlicher Tiefe zu verändern. 5.4.4.3 Digitale Signalverarbeitung Anstelle des einfachen Routings eines Stützsignals auf die vier Kanäle L, R, RS, LS kann mit der heutigen digitalen Signalverarbeitung das Stützsignal-Reflexionsmuster wesentlich feiner dargestellt werden. Schon ältere Untersuchungen mit Zweikanal-Stereofonie [Wöhr, 1991] haben gezeigt, dass das vom Hauptmikrofon gewonnene Klangbild eines Instruments im Saal im Prinzip ebenso mit einem geeignet nachbearbeiteten Stützmikrofonsignal hergestellt werden kann und ein derartiges Stützsignal einen hohen „Stützgewinn“ bei hervorragender Einfügung in das gesamte Klangbild hinsichtlich Tiefenstaffelung und Raumeindruck gewährleistet. Entsprechende Mischpulte sind seit einigen Jahren verfügbar. Die digitalen Signalverarbeitungen erlauben z. B. eine hohe Anzahl von räumlich verteilten Reflexionen pro Stützmikrofon, ergänzenden adäquaten Nachhall und „Entfernungsequalizing“, d. h. Berücksichtigung von spektralen Veränderungen auf Grund der Absorption während der Schallausbreitung. Im Prinzip ermöglichen die digitalen Werkzeuge ein „natürliches“ Panning der Richtung und Entfernung der gestützten Schallquelle. In der Fortführung dieser Entwicklung können Einzelmikrofonverfahren prinzipiell ein sehr ähnliches klangliches Ergebnis hervorbringen wie die raumbezogene Stütztechnik. Dazu muss theoretisch jedes „trockene“ Einzelmikrofonsignal mit den entsprechenden Raumimpulsantworten gefaltet werden, welche mit der Haupt- und Raummikrofon-Konfiguration im Saal gemessen werden. Hier eröffnen sich bisher nicht realisierte Möglichkeiten der kreativen räumlichen Gestaltung stereofoner Aufnahmen. Sie sind nicht gebunden an raumakustische Bedingungen im Aufnahmeraum oder an aufführungspraktische Gegebenheiten.
5.4.5 Einsatz von Höhenlautsprechern Seit Verabschiedung des internationalen Standards [ITU-R BS. 775-1] im Jahr 1992 verging viel Zeit bis zur Etablierung entsprechender Übertragungstechnik in wichtigen Medien und bis zur Erlangung ausreichender Erfahrung bei der Produktion. Die Umstellung der Aufnahme-
332
5 Tonaufnahme und Tonwiedergabe
technik von 2.0 auf 5.1 war ein erster wichtiger Schritt, weg von reiner Stereofonie zwischen zwei Lautsprechern vor dem Hörer, hin zur Reproduktion einer real wirkenden akustischen Umgebung. Der 5.1-Standard ist noch ein Kompromiss, er war damals notwendig wegen gegebener Rahmenbedingungen, wegen der Kompatibilität mit 2.0-Stereo und mit Kino-Formaten und wegen maximal 6 Übertragungskanälen. Die Verbesserungen beschränken sich deshalb im Wesentlichen auf zwei Punkte [Theile, 2000/2]: –– Vergrößerte Hörzone sowie verbesserte Stabilität und Qualität des stereofonen Klangbilds vor dem Hörer durch Aufteilung der Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L‑C und C‑R mit je 30°. –– Einsatz der zwei zusätzlichen Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers, so dass sich das akustische Umfeld des Hörers in bestimmten Grenzen real gestalten lässt. Inzwischen ist das technische Umfeld für 5.1 bei Produktion, Distribution und Endgeräten nahezu durchgehend eingeführt. Auch akzeptiert der Konsument weitgehend eine höhere Zahl von Lautsprechern, zumindest in Verbindung mit der Fernsehanlage, vermarktet als Heimkino. Festzustellen ist aber auch, dass tatsächlich nur wenige Hörer die mit SurroundSound erreichbare Wiedergabequalität realisieren. Ungünstige geometrische und akustische Raumbedingungen beim Hörer, Schwierigkeiten bei der praktischen Handhabung, aber auch ein Mangel an überzeugenden 5.1-Surround-Produktionen machen den Einsatz von alternativen Wiedergabetechniken attraktiv, insbesondere der „Soundbars“ (Surround-Wiedergabe mittels virtueller Lautsprecher, vgl. Kap. 5.5.2.6). Überzeugende 5.1-Surround-Produktionen erfordern auf der Wiedergabeseite vom Konsumenten Akzeptanz für ein Wohnzimmer mit Heimkino-Outfit. Auf der Produktionsseite sind neben dem passenden Equipment vor allem Erfahrung und besondere Sorgfalt erforderlich, um für Konzerte, Dokumentationen, Reportagen, Spielfilme, Talkshows usw. die Illusion eines realen akustischen Umfelds zu erzeugen oder spannende Richtungseffekte zu generieren. Die Darstellungsmöglichkeiten des 5.1-Formats sind begrenzt: Mangelhafte Rundumabbildung, fehlende Einbeziehung der Höhe und der Kopfnähe, eingeschränkte Möglichkeiten für die Entfernungsdarstellung. Sie lassen sich teilweise mit einer Steigerung der Zahl der Übertragungskanäle und Lautsprecher beseitigten. Bereits der Standard [ITU-R BS. 775-1] enthält optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern. Sie bieten die Möglichkeit, die stereofone Qualität bei seitlicher Abbildung zu verbessern, die Hörzone zu vergrößern und das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung stationärer seitlicher Hörereignisse oder die wichtigen seitlichen Reflexionen. All diese Surround-Formate basieren im Prinzip auf Stereofonie, d. h., die Quellenabbildung geschieht kanalbasiert (siehe Kap. 5.5.1) mit Phantomschallquellen zwischen zwei benachbarten Lautsprechern. Im seitlichen Bereich ist die Phantomschallquellenrichtung vom Hörerplatz abhängig und instabil, weshalb hier praktisch nur die Orte der Lautsprecher die Richtungsdarstellung übernehmen. Auch die Balance der Lautstärkeverhältnisse ist platzabhängig, besonders auffallend für das Verhältnis Front-Surround. Daher bezwecken
5.4 Mehrkanal-Stereofonie
333
zusätzliche Kanäle in der Horizontalebene eine größere Hörzone bzw. eine homogenere und stabilere Richtungsauflösung. In alternativen Anwendungen zusätzlicher Kanäle wird die Horizontalebene verlassen. Lautsprecheranordnungen in der Ebene oberhalb des Hörers vervollständigen den räumlichen Gestaltungsbereich und ermöglichen in bestimmten Grenzen den Aufbau eines dreidimensionalen Klangbilds. Vor fast 20 Jahren hatte Dabringhaus mit seiner 2+2+2-recordingTechnik die ersten Musikaufnahmen auf den Markt gebracht; es handelt sich um 5.1 ohne Centerkanal und Subwoofer, dafür mit zwei Lautsprechern oberhalb L und R. Das Konzept war für die Audio-DVD ausgelegt und darauf, ein möglichst authentisches Klangbild aus dem Konzertsaal zu reproduzieren und deshalb zugunsten der Lautsprecher für die Höheninformationen auf Center und Subwoofer zu verzichten. Im Jahr 2006 stellte Wilfried Van Baelen das sog. Auro-3D-Format vor, das die Höhe konsequent mit vier zusätzlichen Kanälen einbezieht. In der Basisversion Auro 9.1 ergänzen die Höhenlautsprecher das 5.1-Format, sie befinden sich über den Lautsprechern L, R, RH, LH (Abb. 5/63).
Abb. 5/63. Basis-Konfiguration Auro 9.1 nach [Van Baelen, 2010], abwärtskompatibel mit [ITU-R BS. 775-1].
In ähnlicher Weise berücksichtigt Holman mit zwei hoch angeordneten Lautsprechern schräg rechts und links vor dem Hörer die dritte Dimension. Seine sog. 10.2-channel surround soundKonfiguration beansprucht allerdings 8 Kanäle in der Horizontalebene und ist ursprünglich für Kino- und Heimkino-Anwendung gedacht [Holman, 2007]. Für das Ultra High-Definition TV in Japan stellte Kimio Hamasaki das 22.2 Multichannel Sound System vor, das neben 10 Lautsprecherkanälen in der Horizontaleben weitere 9 „Upper Layer“-Kanäle sowie 3 „Lower Layer“-Kanäle vorsieht [Hamasaki, 2007]. Ab dem Jahr 2012 begann Dolby, mit einer Vielzahl von Lautsprecherkonfigurationen mit bis zu 64 Kanälen die „Atmos“-Technologie in Filmtheatern zu etablieren [Hidalgo, 2012]. Für die Heimkino- und Musikproduktionen-Szene entstanden verschiedene Lautsprecherformate, üblicherweise mit bis zu 16 Kanälen in den zwei Technologien „Atmos“ und „Auro-3D“, die nur teilweise und bedingt miteinander kompatibel sind.
334
5 Tonaufnahme und Tonwiedergabe
5.4.5.1 Nutzen der Höhenlautsprecher Die Erweiterung des Darstellungsbereichs nach oben bietet Möglichkeiten, das akustische Umfeld des Hörers in bestimmten Grenzen besonders real zu gestalten. Eine Konfiguration gemäß Abb. 5/62 bildet eine einem Kubus ähnliche Anordnung von acht Lautsprechern, so dass für die Wiedergabe der frühen Reflexionen der gesamte obere Halbraum einbezogen werden kann und sich die subjektive räumliche Diffusität des Nachhalls in ausreichendem Maße reproduzieren lässt. Damit sind wiedergabeseitig gute Voraussetzungen für die Darstellung von Umhüllung, Räumlichkeit und räumlicher Tiefe geschaffen. Zusätzlich bieten die oberen Lautsprecher die gleichen Möglichkeiten der stereofonen Quellenabbildung wie die ITU-Anordnung ohne Centerlautsprecher. Phantomschallquellen zwischen den unteren und oberen Lautsprechern, also stabile stationäre Hörereignisrichtungen mit Elevation zwischen 0° und 30° sowie direkt über dem Hörer sind allerdings praktisch nicht realisierbar. Bestimmte Schwächen des 5.1-Surround-Formats können mit einem 9.1-Surround-Format beseitigt oder gemildert werden, andere nicht. In Tab. 5/15 sind verschiedene Attribute des reproduzierten Klangbilds aufgeführt. Die ersten vier betreffen den Direktschall, meist mit Panning gestaltet, die nächsten vier betreffen Wirkungen des indirekten Schalls, mit Aufnahmetechnik und Processing gestaltet. Mit den Attributen lassen sich die Leistungsprofile der unterschiedlichen Verfahren einigermaßen sachgerecht charakterisieren und vergleichen, unter dem Vorbehalt, dass wiedergabeseitig die Empfehlungen korrekt realisiert und aufnahmeseitig die passenden Mikrofon- und Mischtechniken eingesetzt werden. Tab. 5/15 zeigt, dass 9.1‑Surround verglichen mit den anderen Lautsprecherverfahren bei einigen Attributen prinzipielle Vorteile aufweist. Dies lässt sich auf andere Formate übertragen, die 2D Surround-Wiedergabesysteme mit Quadrofonie-ähnlichen Lautsprecheranordnungen in der Ebene über dem Hörer ergänzen. Tab. 5/15. Leistungsprofile der Verfahren im Vergleich, geeignete Aufnahme- und Wiedergabetechnik vorausgesetzt. * horizontale Arrays, ** simulierte Tiefe bzw. Räumlichkeit, *** nur im Sweet Spot, sonst instabil. Attribute des reproduzierten Schalls
2.0Stereo
5.1Surround
9.1Surround
Wellenfeldsynthese
binaurale Verfahren mit head tracking
Richtung vorne
●
●●
●●
●●*
●●
●
●
●●*
●●
Richtung rundum Elevation
(●)***
Höhe
●●
●●
●●
Nähe am Kopf
●*
●●
Intra-aktive Perspektive
●●*
Räumlichkeit
(●) **
(●)**
Umhüllung Klangfarbe
●●
●
●●
●● ●●*
Entfernung, Tiefe
●
●●
●*
●●
●
●●
●*
●●
●●
●●
●*
●●
5.4 Mehrkanal-Stereofonie
335
5.4.5.2 Anwendung der Höhenlautsprecher Die Lautsprecher in der oberen Ebene weisen dieselben Abbildungseigenschaften auf wie die in der Horizontalebene ohne den Center-Lautsprecher. Die stereofone Darstellung im Bereich L-C-R wird durch Zweikanal-Stereo in der Basis Lh-Rh der oberen Etage ergänzt, und ebenso können die oberen zusätzlichen Surround-Lautsprecher ebenso genutzt werden wie die unteren. Allein daraus ergibt sich eine beachtliche Erweiterung des Gestaltungsspielraums. Interessant sind die Möglichkeiten, die sich aus dem Zusammenwirken beider Ebenen ergeben, einerseits hinsichtlich Quellendarstellung in der von den fünf Lautsprechern vor dem Hörer aufgespannten Fläche, andererseits hinsichtlich der Reproduktion von Reflexionen und diffusem Schall im dreidimensionalen Surround. Die Fläche vor dem Hörer zwischen L-R und Lh-Rh lässt sich am unteren und oberen Rand zur stereofonen Darstellung lokalisierbarer Quellen wie gewohnt nutzen. Die Lokalisierung von Phantomschallquellen zwischen den unteren und oberen Lautsprechern ist sehr instabil bezüglich Laufzeitdifferenzen und auch abhängig vom Spektrum. Schon kleine Laufzeitdifferenzen führen zu einer Auswanderung der Phantomschallquelle nach oben oder unten. Ein Delay von 0,5 ms reicht aus, um das Hörereignis in den einen oder anderen Lautsprecher zu verschieben, verbunden mit Klangverfärbung. Diesbezüglich ist die Hörzone in der Tiefe und in der Höhe stark eingeschränkt, wie Abb. 5/64 illustriert.
Abb. 5/64. Laufzeitdifferenzen bei Hörpositionen abweichend vom Sweet Spot.
Die Elevation einer stationären Quelle ist mit Hilfe der oberen Lautsprecher praktisch nicht erreichbar, besonders bei Berücksichtigung der Forderung einer großen Hörzone. Panning zu diesem Zweck funktioniert nicht, es stellen sich unkontrollierbare klangliche und räumliche Effekte ein. Die Verhältnisse stellen sich ähnlich dar wie bei den seitlichen Lautsprecherpaaren L‑LS bzw. R‑RS: Stabile Quellenpositionen sind allein die Lautsprecher. In bestimmten Grenzen sind jedoch bewegte Quellen darstellbar. Wesentlich günstigere Verhältnisse findet man bei der Reproduktion vieler einzelner, in ihrer Gesamtheit nicht individuell lokalisierbarer, aber räumlich verteilter Schallquellen wie z. B. Reflexionen. Sie ähneln den Eigenschaften einer Groß-A-B-Konfiguration oder eines Decca-Tree: Obwohl die Richtungsabbildung wegen viel zu steiler Abbildungskurven nicht praktikabel ist, ermöglichen sie dennoch eine platzunabhängige, klanglich ausgewogene Darstellung beispielsweise eines großen Klangkörpers und des reflektierten Schalls. Die Gefahr des „Lochs in der Mitte“ ist in vielen Aufnahmesituationen nicht gravierend, vor
336
5 Tonaufnahme und Tonwiedergabe
allem wenn der diffuse Schallanteil das Klangbild dominiert. Das Füllen der Flächen in der Höhe ist also möglich und ein wichtiges Gestaltungselement. Die frühen Reflexionen lassen sich auf diese Weise vorteilhaft in der Höhe verteilen. Die vielen unterschiedlichen Laufzeitdifferenzen individueller Reflexionen an den Mikrofonen bewirken dies. Die Reflexionen fallen in natürlicher Weise auch aus oberen Richtungen ein. Die bessere Verteilung der Reflexionen vermindert ihre räumliche Dichte, somit kann das Gehör die räumlichen Informationen besser erkennen. Abb. 5/65 veranschaulicht den Effekt beim Übergang von 2.0 über 5.1 nach 3D-Audio (9.1-Surround). Wichtig ist dabei auch eine günstige Auswirkung auf die Klangfarbe, die mit einer verbesserten Wahrnehmung der Reflexionen verbunden ist.
Abb. 5/65. Räumliche Verteilung der Reflexionsmuster in 2.0, 5.1 und 3D-Audio (9.1-Surround). Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen (vgl. Abb. 5/18 und 5/19).
Will man die oben geforderte räumliche Auflösung der Direktschallkomponenten, der Atmo, des Diffusschalls und/oder der Reflexionen erzeugen, so muss die Mikrofonanordnung eine ausreichende akustische Kanaltrennung am Ort des Hörers gewährleisten (Abb. 5/66). Andernfalls wäre die räumliche Anordnung mehrerer Lautsprecher nur wenig nützlich. Die Realisierbarkeit der notwendigen akustischen Kanaltrennung für die RaummikrofonVerfahren ist umso schwieriger, je mehr Kanäle für die Wiedergabe vorgesehen sind. Die Gefahr von unerwünschtem Übersprechen, also korrelierten Inhalten auf drei oder mehr Lautsprechern, steigt. Die Folge ist eine deutliche Klangverfärbung, die auch noch von der Hörerposition im Abhörraum abhängt. Eine Hauptmikrofonanordnung ohne störenden Crosstalk ist aber bei neun Kanälen äußerst schwierig zu bewerkstelligen. Es gibt zwei Möglichkeiten, die auch in 5.1 funktionieren: Entweder muss das Übersprechen durch optimierte Verfahren wie OCTSurround (siehe Kap. 5.4.3.1, Abb. 5/51) weitgehend vermieden oder durch größere Abstände der Mikrofone zueinander die Abbildungseigenschaften einer A/B-Konfiguration (siehe Kap. 5.3.3) erzielt werden. Anordnungen mit hoher Kanaltrennung sind nicht nur bezüglich der Lokalisation vorteilhaft (siehe Kap. 5.4.2.4), sondern ebenso bezüglich der räumlichen Transparenz, der realitätsnahen Wiedergabe insbesondere der frühen Reflexionen.
5.4 Mehrkanal-Stereofonie
337
Abb. 5/66. Ausreichende akustische Trennung der Mikrofonsignale ist erforderlich für die realitätsnahe räumliche Wiedergabe
Abb. 5/67. Reflexionsmuster im Sweetspot eines 9.1 Lautsprecher-Auro-3D-Setups, erzeugt mit zwei verschiedenen 3D‑Mikrofon-Arrays [Wittek, 2012].
Abb. 5/67 zeigt beispielhaft die Reflexionsmuster im Vergleich, die mit zwei unterschiedlichen Mikrofon-Setups in einem Saal vom Typ Schuhschachtel aufgenommen und im Sweet-
338
5 Tonaufnahme und Tonwiedergabe
spot einer 9.1 Auro-3D-Lautsprecheranordnung gemessen wurden [Wittek, 2012]. Das obere Bild enthält die Reflexionsmuster, die mit einer 9-Kanal-Anordnung mit hoher Kanaltrennung erzeugt werden (OCT sowie vier nach oben gerichtete Supernierenmikrofone, siehe Abb. 5/69). Direktschall und die frühen Reflexionen werden deutlich detektierbar aus den Richtungen wiedergegeben, die mit dem Aufnahmeraum übereinstimmen. Das zweite Bild zeigt das entsprechende Ergebnis mit einem 9-kanaligen Groß-A/B-Setup in ähnlicher Mikro fonanordnung, die Frontmikrofone L-C-R bilden einen Decca-Tree (vgl. Kap. 5.4.2.3). Offensichtlich gibt es kaum verwertbare diskrete Reflexionen, jeder der neun Kanäle enthält alle Erstreflexionen aus sämtlichen Richtungen, sozusagen ein „neunfaches Mono“. Das resultierende Klangbild kann für bestimmte Aufnahmen erwünscht sein, in Räumen mit langem Hall, in denen das Diffusfeld das Hörerlebnis dominiert, beispielsweise in einer Kirche. Jedoch wird der natürliche Raumeindruck eines Saals nicht erreicht. Stabile transparente Lokalisation der Quellen und realitätsnahe Wahrnehmung der Entfernungen und der Tiefe gelingen nur mit ausreichender Vermeidung des Übersprechens. Mit heutigen Technologien sind Lösungen denkbar, die auf Faltungstechniken basieren, wobei die Rauminformationen entweder aus Messungen im aktuellen Aufnahmeraum oder in bestehenden, akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. 5.4.5.3 Höhenlautsprecher für immersiven Sound Der diffuse Schall, also Nachhall oder Atmo, muss auch diffus beim Hörer ankommen. Dies kann gelingen, wenn die zusätzlichen Lautsprecher auch geeignet beschickt werden. Es ist notwendig, dass die diffusen Signale auf allen Lautsprechern ausreichend verschieden sind, also im gesamten Frequenzbereich weitgehend dekorreliert [Nipkow, 2019]. Gerade bei tiefen Frequenzen ist ausreichende Unabhängigkeit wichtig, da davon die Wahrnehmung der Umhüllung abhängt [Griesinger, 1998]. Es ist jedoch nun aufnahmeseitig durch die größere Anzahl der Kanäle, die unabhängig sein sollen, wesentlich schwieriger geworden. Da man mit Mikrofonen erster Ordnung in Bezug auf die Erzeugung dekorrelierter Signale sehr schnell an seine Grenzen kommt, führt dies dazu, dass der Mikrofonaufbau größer wird, da nur dadurch eine Dekorrelation durch Pegel- und Laufzeitdifferenzen erreicht wird. Richtungsdiffuser Direktschall: Atmo Das akustische Ambiente einer Szene wird aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen gebildet. Beispiele dafür sind das Blätterrauschen des Walds, entfernte Stimmen, Verkehrslärm, Publikumsreaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Dieser Schallanteil trägt beim natürlichen Hören in vielen Situationen im besonderen Maß zum immersiven Hörendruck bei. Die hohe Relevanz dieser Schallanteile wurde lange unterschätzt, tatsächlich ist dieser Aspekt im Gegensatz zur Richtungsabbildung oft der wichtigere [Theile, 2012]. Dies trifft besonders für 3D-Audio Aufnahmen zu; eine geeignete Mikrofonierung und/oder sinnvolle Mischung ist von großer Bedeutung. Die Eigenschaften diverser Mikrofontechniken für AtmoAufnahmen werden in [Wittek, 2012] detailliert beschrieben.
5.4 Mehrkanal-Stereofonie
339
Eine besonders für Sportreportagen bewährte Atmo-Anordnung für acht Kanäle ist das ORTF-3D Verfahren. Ursprung ist die Doppelung einer modifizierten Version des IRT-Kreuzes (siehe Kap. 5.4.3.3) auf zwei Ebenen (Abb. 5/68). Je vier Supernieren für die untere und die obere Ebene sind in einem Rechteck übereinander angeordnet. Die Kapseln sind jeweils um 45° nach oben bzw. unten geneigt, um auch in der vertikalen Ebene für maximale Signaltrennung zu sorgen. Es entsteht also eine 8-kanalige Anordnung, deren Abbildungseigenschaften innerhalb der horizontalen Ebenen in etwa dem IRT-Kreuz entsprechen. Die Abbildungseigenschaften in den vertikalen Richtungen entsprechen in etwa den Verhältnissen im seitlichen Bereich des 5.1‑Formats (siehe Kap. 5.4.3, Abb. 5/46). Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS in der unteren Ebene und Lh, Rh, LSh, RSh in der oberen Ebene geroutet.
Abb. 5/68. Ambience Supernieren Würfel [Theile, 2012]. Jedes Stereo-Mikrofonpaar hat eine Basis von 10 bis 20 cm und einen Achsenwinkel von 90°.
Zur Verbesserung der praktischen Handhabung kann auf den Abstand zwischen der oberen und unteren Mikrofonebene verzichtet werden [Wittek, 2016]. Die Abbildung in den vertikalen Lautsprecherpaaren wird allein durch die aus der Neigung der Mikrofone entstehenden 90°–X/Y-Paare aus zwei Supernieren erzeugt. Durch die hohe Richtwirkung der Supernieren ergibt sich eine ausreichende Dekorrelation in der Vertikalebene, sie ist im Diffusfeld weniger relevant ist als in der Horizontalebene. Insgesamt dieser 8-kanalige ORTF-3D-Ambience-Mikrofon-Set hohe Signaltrennung, optimale Diffusfeld-Dekorrelation und gute immersive 3D-Abbildung bei hoher Stabilität im Wiedergaberaum. Auch für Aufnahmen im Saal liegt es nahe, eine für die Surround-Aufnahme eingesetzte Mikrofon-Konfiguration so zu ergänzen, dass die Atmo dreidimensional erfasst werden kann (vgl. Kap. 5.4.3). Hier ist es wichtig, dass sowohl das Mikrofonarray für die untere Ebene als auch das für die obere Ebene den Direktschall weitgehend unterdrückt, um den ambienten richtungsdiffusen Schall realitätsnahe abbilden zu können. Durch sorgfältiges Ausprobieren und mit einiger Erfahrung lassen sich mit der Wahl der Kapsel-Richtcharakteristiken sowie Ihrer Positionierungen die Balance, beispielsweise unten/oben, zwischen Nachhall und Applaus und Publikumsgeräusch realitätsgetreu gestalten.
340
5 Tonaufnahme und Tonwiedergabe
Abb. 5/68 zeigt die entsprechende Konfiguration eines 9-kanaligen Hauptmikrofon-Sets. Die für 5.1-Surround konzipierte OCT-Konfiguration (siehe Kap. 5.4.2.4) ist mit vier nach oben gerichteten Supernieren ergänzt, sie werden auf die vier Höhenlautsprecher geroutet. Somit enthält der bei der Wiedergabe von oben abgestrahlte Schall keinen Direktschall, sondern vorwiegend den indirekten Schall des Saals. Die Wiedergabe geschieht aus allen vier oberen Raumecken und damit ausreichend richtungstransparent (vgl. Kap. 5.4.5.2). Dieses bewährte OCT-3D Mikrofon-Set gewährleistet eine natürliche und stabile räumliche Abbildung.
Abb. 5/69. OCT-3D Mikrofon-Konfiguration. Für die Wiedergabe der indirekten Schallanteile über Höhen-Lautsprecher ist die OCT-Anordnung mit vier nach oben gerichteten Supernieren ergänzt [Theile, 2012].
Für Musik mit synthetischen Klängen können vereinzelt auftretende, helle Drum-Sounds wie z. B. Becken und rhythmisches Zischen eingesetzt und vorzugsweise aus der oberen Lautsprecherebene wiedergegeben werden. Dies verleiht der Musik mehr Feinstruktur und eine gesteigerte Aufmerksamkeit des Hörers; die Durchhörbarkeit ist besser, weil die unteren Lautsprecher in der Regel Schallanteile mit tiefen und mittleren Frequenzen abstrahlen, die Schallanteile mit hohen Frequenzen etwas verdecken können. Reflexionen im oberen Halbraum Die von den vorderen Lautsprechern aufgespannte Ebene ermöglicht die räumlich transparente Wiedergabe der frühen Reflexionen, Abb. 5/70 zeigt eine geeignete Strategie für die Mikrofonierung. Das Hauptmikrofon liefert Direktschall und frühe Reflexionen für die unteren Frontlautsprecher, Raummikrofone an den Seitenwänden in Bühnennähe vorwiegend Signale mit frühen seitlichen Reflexionen; dadurch entsteht für das Gehör eine Verbindung zwischen der unteren und oberen Lautsprecher-Ebene. Der Direktschall führt zu einer stabilen Lokalisation des Klangkörpers in der unteren Ebene. Die Wiedergabe der frühen Reflexionen aus dem oberen Bereich haben den Effekt, dass der Klangkörper mit einer Höhenausdehnung wahrgenommen wird, was den realen Verhältnissen entspricht. Bei Aufnahmen in Konzertsälen lassen sich frühe seitliche Reflexionen mit Mikrofonen an den Seitenwänden in Bühnennähe einfangen. Sie eignen sich gut, um die gewünschte auditive Verbindung in Kombination mit dem Direktschall herzustellen. Hauptmikrofone nehmen neben Direktschall immer auch frühe Reflexionen auf. Es ist vorteilhaft, die Signale des Hauptmikrofons für die unteren Front-Lautsprecher zu verwenden und die Signale mit
5.4 Mehrkanal-Stereofonie
341
vorwiegend seitlichen Reflexionen für die oberen Front-Lautsprecher. Dies bewirkt bei Aufnahmen in gut klingenden Räumen, dass das Fundament des Klangkörpers stabil in der unteren Höhenebene lokalisiert wird und die frühen seitlichen Reflexionen dem Klangkörper einen attraktiv klingenden Glanz verleihen. Dieses Gefüge zerfällt, wenn die beiden Höhenebenen zu weit auseinander positionier/ sind bzw. wenn der Elevationswinkel 35° überschreitet [Van Baelen, 2011/2]
Abb. 5/70. Einbeziehung der Höhe für die Wiedergabe der frühen Reflexionen.
Umhüllung und Räumlichkeit Geben alle Lautsprecher eines 9.0 Setups diffusen Raumschall mit einer Korrelation von etwa Null wieder, führt dies zu einer Empfindung der Umhüllung, die einzelnen Lautsprecher werden nicht als Einzelschallquellen wahrgenommen (Abb. 5//71). Die Pegel des diffusen Raumschalls in allen Kanälen müssen ausbalanciert sein, um die auditive Verbindung zwischen den Seiten und oben und unten sicherzustellen. Eine Korrelation von 1, d. h. aus allen Lautsprechern identische Signale, birgt die Gefahr von hörbaren Kammfiltereffekten, insbesondere für statische breitbandige Signale wie Rauschen oder Applaus. Tiefe Frequenzen unter 200 Hz, die von allen Lautsprechern eines 3D-Audio Lautsprecher-Setups mit einer Korrelation um Null wiedergegeben werden, unterstützen den Umhüllungseindruck und das immersive Hörerlebnis, sich im Aufnahmeraum zu befinden. Für eine optimale Umhüllung muss besonders die Balance zwischen vorne und hinten ausgeglichen sein. Je mehr Raumsignale von hinten wiedergegeben werden, desto schwächer ausgeprägt ist die hörbare Verbindung zwischen vorne und hinten. Geben die Lautsprecher in der Front keinen Raumschall wieder, treten zwei verschiedene Hörereignisse auf; es besteht keine auditive Verbindung zwischen vorne und hinten. Dagegen können die Pegel zwischen den oberen und unteren Lautsprechern variieren. Dies kann genutzt werden, um die Durchhörbarkeit anderer Sounds zu verstärken. Beispielsweise werden zur Steigerung der klanglichen Transparenz des „Stage Sounds“ die Pegel des Raumschalls in den unteren Frontlautsprechern reduziert, siehe Abb. 5/72. Die Feinstruktur des Direktschalls wird durch Raumschall beeinträchtigt. Soll eine möglichst hohe Transparenz des Klangkörpers erreicht werden, ist eine Überlagerung von Direkt- und Raumschall aus derselben Richtung zu vermeiden.
342
5 Tonaufnahme und Tonwiedergabe
Abb. 5/71. Einbeziehung aller Lautsprecher für Schall mit Korrelation um Null.
Abb. 5/72. Balanceeinstellung des Raumschalls zugunsten der Durchhörbarkeit, hier Solisten aus der Richtung der unteren Solisten Front-Lautsprecher (‚Stage Sound’).
Vordergrund und Hintergrund: Tiefe Räumliche Tiefe ist ein wichtiges Gestaltungselement (siehe Kap. 5.2.4). Der diffuse Schall unterstützt den Eindruck der Tiefe, wenn die akustische Szene Objekte im Vordergrund enthält. Ein lokalisiertes Objekt befindet sich im Vordergrund, wenn Nachhall oder nichtreflektierter Diffusschall vorhanden ist. Die Unterscheidbarkeit zwischen Vorder- und Hintergrund kann variieren; in diesem Zusammenhang spricht man von räumlicher Kontur [Terhardt, 1989]. Ist die Kontur stark ausgeprägt, wirkt das resultierende Klangbild plastisch, da sich die Schallquellen im Vordergrund stark vom akustischen Hintergrund abgrenzen – dieses Phänomen ist vergleichbar mit einem Portraitfoto, bei dem der visuelle Hintergrund komplett unscharf ist. Die räumliche Kontur tritt insbesondere in großen Aufnahmeräumen wie Kirchen oder Konzertsälen mit langer Nachhallzeit auf: Dort wird der Raumschall über die Zeit stark „verschmiert“ und somit impulsartige Klänge maximal verschliffen. Durch den größeren zeitlichen Abstand zwischen Direkt- und Raumschall als in kleineren Räumen treten zudem weniger stark wirkende Verdeckungseffekte auf. Bewegt sich zudem der akustische Hintergrund gegenüber den statisch positionierten Schallquellen, wird die Kontur noch ausgeprägter; unser Gehör kann somit die Schallquellen
5.5 Verfahren der räumlichen Tonübertragung
343
im Vordergrund besser unterscheiden als bei einem statischen Hintergrund, die Entfernung des Hintergrundes gegenüber dem Vordergrund wird deutlicher hörbar. Bewegte Räumlichkeit entsteht durch zufällig wirkende Bewegungen, Fluktuationen, des Hintergrunds und wird als angenehm empfunden. Es ist deshalb zweckdienlich, Fluktuation in die 3D-Audio Produktion einzubauen.
5.5 Verfahren der räumlichen Tonübertragung 5.5.1 Kanalbasierte Verfahren Der Begriff ‚kanalbasierte Verfahren‘ oder ‚kanalbasierte Aufnahme und Wiedergabe’ entstand in den letzten Jahren in Abgrenzung zu sog. ‚objektbasierten Verfahren‘ bzw. ‚zur objektbasierten Aufnahme und Wiedergabe‘ und zur Schallfeldsynthese. Die kanalbasierten Verfahren bzw. die räumliche Darstellung ist dadurch gekennzeichnet, dass die Kanalzuordnung an die Lautsprecheranordnung gebunden ist und nicht geändert werden kann. Eine bei der Produktion gewählte Lautsprecheranordnung legt also die Kanalkonfiguration für Verteilung und Wiedergabe fest. Ebenso festgelegt ist damit das Klangbild, das aufnahmeseitig mit der Wahl und der Positionierung geeigneter zwei- bzw. mehrkanaliger stereofoner Mikrofonanordnungen realisiert wird. Einzelheiten der Gestaltungsmöglichkeiten für die verschiedenen Formen der Stereofonie werden in den Kap. 5.2 bis 5.4 behandelt. Kanalbasierte Formate beinhalten standardisierte und etablierte Anordnungen der Lautsprecher und entsprechende Bezeichnungen der Kanäle, sie machen den einfachen Produktionsaustausch innerhalb der Verteilungswege bis hin zum Endverbraucher möglich. Produktions- und wiedergabeseitig werden die gleichen Lautsprecheranordnungen eingesetzt und standardisierte Downmix-Regeln befolgt, beispielsweise die Abwärtskompatibilität für den Downmix vom 5.1-Format nach 2.0-Stereo gemäß ITU-R BS. 775-1. 5.5.1.1 Nomenklatur und Notation Mit dem Aufkommen der vielen Mehrkanal-Tonformate, verstärkt seit Einbeziehung des gesamten oberen Halbraums für immersiven Sound, wächst durch die Entwicklung von 3D-Audiosystemen die Anzahl genutzter Lautsprecherkanäle und Wiedergabeformate. So werden bei 3D-Audio-Wiedergabesystemen die bekannten Stereo- oder Surroundanordnungen durch zusätzliche Wiedergabequellen über oder unter der Höhenposition der Ohren erweitert. Beispielsweise handelt es sich beim 5.1+4H-Format um ein 3D-Audio-Format, welches im Vergleich zum 5.1-Format vier zusätzliche Höhenlautsprecher enthält (siehe Kap. 5.4.5.2). Dadurch ist die Klassifizierung und Zuordnung von Kanälen sowohl produktions- und wiedergabeseitig als auch die Positionierung von Lautsprechern komplexer geworden. Falsche Kanalzuordnungen oder fehlerhafte Wiedergabe durch falsch interpretierte Wiedergabeformate führen zu Missachtungen künstlerischer Intentionen. Über die Jahre wurde eine Vielzahl von 3D-Audiosystemen und deren Wiedergabelayouts vorgeschlagen, beispielsweise Dolby Atmos, MPEG-H 3D Audio, Auro 3D oder DTS:X. Oft bleibt jedoch die konkrete Anzahl von Wiedergabekanälen, deren Kanalzuordnung und die
344
5 Tonaufnahme und Tonwiedergabe
empfohlene, optimale Positionierung der Lautsprecher unklar. Häufig führen unterschiedliche Sachverhalte und Begriffe für dieselbe Sache − oder gravierender − die gleichen Begriffe für unterschiedliche Sachverhalte der an Produktion, Übertragung und Wiedergabe beteiligten Personen zu Verwirrung. 5.1 oder 3/2, 7.1 mit fünf Front-, mit vier Surroundlautsprechern oder sogar mit Höhenlautsprechern? Was ist 2+2+2, 9.1, 13.1, 22.2 oder 9.1.6? Rvss, TpSiR und U-90 sind reguläre Lautsprecherbezeichnungen, doch was bedeuten sie? Es gibt eine Vielzahl von Standards, Organisationen und Hersteller, die unterschiedliche Bezeichnungen für Lautsprecher und deren Positionen benutzen. Eine weit verbreitete Nomenklatur für 3D-Audio-Formate ist m.n + hH oder m.n.h, welches unter anderem im Kontext von MPEG-H 3D-Audio oder Dolby Atmos zu finden ist. Hier bedeutet m die Anzahl der Lautsprecher in der horizontalen Ebene, n die Anzahl der LFE-Kanäle und h die Anzahl der Decken- oder Höhenlautsprecher. Einige Konfigurationen sind komplexer und folgen nicht dieser Konvention, wie z. B. die Konfigurationen 22.2 und 10.2. Weitere Verfahren wie z. B. Auro 3D bevorzugen die traditionelle Schreibweise aus Anzahl der Lautsprecher und LFE, getrennt durch einen Punkt, z. B. Auro 3D 9.1 oder Auro 3D 13.1. In den MPEG-Normen werden Mehrdeutigkeiten bei Lautsprecherkonfigurationen durch die Verwendung einer Index-Tabelle in der MPEG-Norm für kodierungsunabhängige Codepunkte (CICP) definiert, siehe [ISO/IEC 23091]. Im Tab. 5/16 wird beispielhaft ein Auszug der Kanal- und Lautsprecherbezeichnungen aktuell relevanter Standards für das 22.2 Lautsprecherlayout dargestellt. Die Nummerierung der Kanäle (Wiedergabekanal 1 bis 24) bezieht sich auf den jeweiligen Standard. Hier ist besonders zu beachten, dass sich die Reihenfolge der Lautsprecher in der Wiedergabe von Standard zu Standard unterscheidet. Außerdem zeigt Tab. 5/17 Wiedergabeformate mit den zugehörigen Codierformaten ohne Anspruch auf Vollständigkeit. Tab. 5/16. Kanal- und Lautsprecherbezeichnung mit unterschiedlichen Nomenklaturen in relevanten Standards für das 22.2 Lautsprecherlayout. Wiedergabekanal
ITU-R BS. 2051
ISO/IEC 23091-3
ITU-R BS. 2159-8
ISO/IEC 23008-3 ETSI TS 103 190-2 (MPEG-H 3D Audio) (Dolby AC-4)
1
M+000
Center Front ‚C‘
Front left ‚FL‘
CH_M_L060
Left ‚L‘
2
M+030
Left Front Center ‚Lc‘
Front right ‚FR‘
CH_M_R060
Right ‚R‘
3
M-030
Right Front Center ‚Rc‘
Front center ‚FC‘
CH_M_000
Center ‚C‘
4
M+060
Left Front ‚L‘
LFE-1 ‚LFE1‘
CH_M_LFE2
Low-Frequency Effects ‚LFE‘
5
M-060
Right Front ‚R‘
Back left ‚BL‘
CH_M_L135
Left Surround ‚Ls‘
6
M+090
Left Side Surround ‚Lss‘
Back right ‚BR‘
CH_M_R135
Right Surround ‚Rs‘
7
M-090
Right Side Surround Front left center ‚Rss‘ ‚FLc‘
CH_M_L030
Left Back ‚Lb‘
5.5 Verfahren der räumlichen Tonübertragung
8
M+135
Rear Left Surround ‚Lsr‘
9
M-135
10
Front right center ‚FRc‘
345
CH_M_R030
Right Back ‚Rb‘
Rear Right Surround Back center ‚Rsr‘ ‚Bc‘
CH_M_180
Top Front Left ‚Tfl‘
M+180
Rear Center ‚Cs‘
LFE-2 ‚LFE2‘
CH_M_LFE3
Top Front Right ‚Tfr‘
11
LFE1
Left Front LFE ‚LFE‘
Side left ‚SiL‘
CH_M_L090
Top Back Left ‚Tbl‘
12
LFE2
Right Front LFE ‚LFE2‘
Side right ‚SiR‘
CH_M_R090
Top Back Right ‚Tbr‘
13
U+000
Center Front Vertical Height ‚Cv‘
Top front left ‚TpFL‘
CH_U_L045
Top Side Left ‚Tsl‘
14
U+045
Left Front Vertical Height ‚Lv‘
Top front right ‚TpFR‘
CH_U_R045
Top Side Right ‚Tsr‘
15
U-045
Right Front Vertical Height ‚Rv‘
Top front center ‚TpFC‘
CH_U_000
Top Front Center ‚Tfc‘
16
U+090
Left Vertical Height Side Surround ‚Lvss‘
Top center ‚TpC‘
CH_T_000
Top Back Center ‚Tbc‘
17
U-090
Right Vertical Height Side Surround ‚Rvss‘
Top back left ‚TpBL‘
CH_U_L135
Top Center ‚Tc‘
18
T+000
Top Center Surround Top back right ‚Ts‘ ‚TpBR‘
CH_U_R135
Low-Frequency Effects 2 ‚LFE2‘
19
U+135
Left Surround Vertical Height Rear ‚Lvr‘
Top side left ‚TpSiL‘
CH_U_L090
Bottom Front Left ‚Bfl‘
20
U-135
Right Surround Vertical Height Rear ‚Rvr‘
Top side right ‚TpSiR‘
CH_U_R090
Bottom Front Right ‚Bfr‘
21
U+180
Centre Vertical Height Rear ‚Cvr‘
Top back center ‚TpBC‘
CH_U_180
Bottom Front Center ‚Bfc‘
22
L+000
Centre Front Vertical Bottom front Bottom center ‚Cb‘ ‚BtFC‘
CH_L_000
Back Center ‚Cb‘
23
L+030
Left Front Vertical Bottom ‚Lb‘
Bottom front left ‚BtFL‘
CH_L_L045
Left Wide ‚Lw‘
24
L-030
Right Front Vertical Bottom ‚Rb‘
Bottom front right ‚BtFR‘
CH_L_R045
Right Wide ‚Rw‘
346
5 Tonaufnahme und Tonwiedergabe
Tab. 5/17. Unterschiedliche Wiedergabesysteme mit assoziiertem Codec und Markennamen. Anzahl der Wiedergabekanäle
zugeordnetes Wiedergabeformat
Bezeichnung nach ITU-R BS.2051
Markennamen und Codecs
1
Mono
1.0
0+1+0
2
Stereo
2.0
0+2+0
mp3, (xHE-)AAC
6
3/2 (ITU-R BS.775)
5.1
0+5+0
Dolby Digital, Dolby Pro Logic II, MPEG Surround, HE-AAC
8
7.1 Surround
7.1
0+7+0
8
5/2 (7.1)
7.1
0+7+0
Dolby 7.1, Dolby Digital Plus, DTS-HD Sony SDDS
10
9.1
9.1
4+5+0
Auro 3D 9.1, DD+JOC (Atmos), Dolby AC-4, MPEG-H
12 12
11.1 11.1
11.1 11.1
5+5+1 4+7+0
Auro 3D 11.1 MPEG-H, Dolby Digital+JOC (Atmos), Dolby AC-4
14 14
13.1 13.1
13.1 13.1
6+6+0 5+5+3
Auro 3D 13.1 Sony 360 Reality Audio, MPEG-H
24
NHK 22.2
22.2
9+10+3
MPEG-H, Dolby AC-4
5.5.2 Objektbasierte Verfahren Objektbasiertes Audio ist eine Audiodarstellung, bei der die Elemente der auditiven Szene voneinander getrennt sind und durch beschreibende Metadaten begleitet werden. Ein Renderer am Empfangsgerät interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die Ausgangssignale, die für das zur Verfügung stehende Wiedergabesystem am besten geeignet sind. Metadaten können sich im Laufe der Zeit ändern, zum Beispiel um Bewegungen von Audioobjekten zu realisieren. Außerdem kann ein objektbasierter Ansatz es ermöglichen, den Benutzer mit den Audioinhalten interagieren. Im Folgenden sind Grundprinzipien der objektbasierten Audiowiedergabe erläutert. Weitere Ausführungen finden sich in Kap. 13.2.5 und Kap. 18.6 wieder. 5.5.2.1 Grundprinzipien von objektbasierten Verfahren Objektbasiertes Audio führt neue Konzepte in die Audioproduktion ein, mit Konsequenzen für die gesamte Verarbeitungskette von der Produktion bis zur Wiedergabe, dementsprechend auch für Codierung und Übertragung der Audiosignale. Objektbasiertes Audio erweitert die bekannte kanalbasierte Wiedergabe (siehe Kap. 5.5.1). Werden bei kanalbasierten Systemen Audiosignale zu Lautsprechersignalen gemischt, übertragen und wiedergegeben, so werden bei objektbasiertem Audio, Audioelemente als einzelne Objekte mit beschreibenden Metadaten erzeugt und an einen Renderer übergeben. Das Ergebnis einer objektbasierten Produktion ist, im Gegensatz zu einer traditionellen kanalbasierten Produktion, kein final abgemischtes Signal für ein bestimmtes Lautsprecherfor-
5.5 Verfahren der räumlichen Tonübertragung
347
mat, beispielsweise Stereo oder 5.1, sondern eine flexibel definierbare Anzahl von Signalen zusammen mit einer Beschreibung ihrer Eigenschaften mit Hilfe sog. Objektmetadaten (siehe Kap. 5.5.2.4). Der Renderer generiert auf Basis der beschreibenden Metadaten in Abhängigkeit des verfügbaren Wiedergabesystems etwa die Position der Objekte im Raum oder die Lautsprechersignale. So kann eine Produktion aus einer bestimmten Anzahl, z. B. 16 oder 24, von Objektsignalen bestehen, die einzelne Instrumente oder Singstimmen abbilden. Audioobjekte können sowohl Mono-Punktschallquellen sein, welche mit Eigenschaften wie Position, Pegel, Ausdehnung und Wichtigkeit beschrieben werden, als auch mehrkanalige Signale, die gemeinsam ein Objekt bilden, das wieder mit Eigenschaften wie Position, etc. beschrieben wird. Wichtig hierbei ist, dass Audioobjekte nur dann als Objekte bezeichnet werden können, wenn ihre beschreibenden Metadaten von Produktion bis Wiedergabe am Endgerät vorhanden bleiben. Die Positionierung eines Audiosignals in einem Raum, beispielsweise mit Hilfe eines 3D-Panners, kann nur dann objektbasiert sein, wenn die Positionsdaten bis zu dem Renderer verfügbar sind. Werden bereits in der Produktion Lautsprechersignale erzeugt, spricht man weiterhin von kanalbasierten Verfahren. Ein weiteres Beispiel ist ein hybrider Ansatz aus einer kanalbasierte Basismischung, dem sog. „Bed“, z. B. im 5.1 oder 5.1+4H Format, in Kombination mit zusätzlichen Objektsignalen z. B. für Sprache. Hierbei werden die Objekte separat vom kanalbasierten Bed, jedoch im gleichen Übertragungsstrom zum Wiedergabesystem transportiert, was eine Nutzerinteraktion ermöglichen kann. Beispielsweise kann der Dialog am Empfangsgerät im Pegel oder Position verändert werden, ohne das kanalbasierte Bed zu beeinflussen, um dadurch die Sprachverständlichkeit zu beeinflussen (siehe Kap. 13.4.6.4 oder Kap. 18.8.7). Objektbasiertes Audio bietet also eine weitreichende Flexibilität in der Produktion, die dadurch nicht direkt auf ein bestimmtes Zielformat ausgerichtet ist. Ein Vorteil dieses Konzepts ist, dass das übertragene Signal auf der Decoder-Seite flexibler auf unterschiedliche Wiedergabesituationen angepasst werden kann als eine auf ein bestimmtes Lautsprecherformat festgelegte Produktion. Dies ist vor allem bei immersiven, 3D-Audio-Produktionen von Vorteil, insbesondere bei der Wiedergabe über Kopfhörer, Soundbars, oder Multi-Lautsprechersysteme (siehe Kap. 5.5.2.6). 5.5.2.2 Die Aufgaben des Renderers Ein wichtiges neues Element, das bei objektbasiertem Audio benötigt wird, ist der sog. Audio-Renderer im Empfangsgerät, bzw. im Decoder (siehe Kap. 13.4.6.1 oder Kap. 18.8.7) und während der Produktion als Teil des Monitorings. Der Renderer interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die sog. gerenderten Signale, also die Signale für das zur Verfügung stehende Wiedergabesystem. Jedes Empfangsgerät verfügt über einen eigenen Renderer, der für dieses Gerät die bestmöglichen Wiedergabesignale erzeugt. Beispielsweise benötigt eine Heimkinoanlage einen flexiblen Renderer, da mehrere Lautsprecher an verschiedenen Positionen im Raum aufgestellt sein können, während bei einem Fernsehgerät die internen Lautsprecher an bekannten Positionen fixiert sind. Audio-Renderer beinhalten typischerweise unterschiedliche Module, die auf Basis der Eingangssignale und deren Metadaten aktiviert werden. Neben objektbasierten Audioin-
348
5 Tonaufnahme und Tonwiedergabe
halten können Audio-Renderer auch kanalbasierte Signale verarbeiten. Dabei wird mittels Metadaten definiert, welches Modul die Eingangssignale mit welchen Eigenschaften auf ein zur Verfügung stehendes Wiedergabesystem rendert. So kann eine 3D-Audio Produktion an alle Arten von Empfangsgeräten gleichermaßen übertragen werden. Der Audio-Renderer übernimmt die Audiosignale vom Decoder und passt die Ausgangssignale auf Basis der Metadaten an das Zielformat an, unabhängig davon, ob beispielsweise bei einer kanalbasierten Produktion die Lautsprechersignale im Empfangsgerät direkt als Ausgangssignale verwendet werden können oder über einen Downmix in ein niedriges Kanalformat angepasst werden müssen. Je nach Audiosystem können die Metadaten auch Informationen über die Downmix-Parameter beinhalten, um somit produktionsseitig das Rendering zu beeinflussen. Eine 3D-Audio Produktion kann somit an alle Empfangsgeräte gleichermaßen übertragen werden, und in diesem kann dann das Rendern in die Ausgangssignale mittels Metadaten gesteuert werden (siehe auch Kap. 5.5.2.4). Ein weiteres Beispiel sind dynamische Pegelsequenzen, die produktionsseitig definierte Lautstärkeautomation beinhalten. Die Pegel der Audioelemente können im Audio-Renderer gesteuert werden, um unterschiedliche dynamische Mischungen von Kanälen und Objekten zu ermöglichen, die während der Wiedergabe je nach persönlicher Präferenz oder den Abhörbedingungen manuell oder automatisch gewählt werden können. So kann das sog. Ducking über Metadaten dazu verwendet werden, die Lautstärke eines Elements der Audioszene, z. B. das kanalbasierte Bed automatisch zu verringern, damit ein weiteres Element, z. B. der Dialog, besser zu hören ist. Im Renderer werden außerdem auf Basis der gemessenen Programmlautheit meist nach ITU-R BS.1770-4 die Wiedergabesignale in eine Ziellautheit normalisiert. In Abhängigkeit der Einstellungen am Empfangsgerät, z. B. − 31 LUFS für Heimkinoanlagen, − 24 LUFS für Fernsehgeräte, − 16 LUFS für mobile Geräte oder unterschiedliche Profile wie „Late Night“ oder „Noisy Environment“ kann somit der Dynamikumfang eingeschränkt und individuell angepasst werden. Für das Rendern von Objektsignalen können unterschiedliche Prinzipien zur Generierung der Ausgangssignale eingesetzt werden. Gängige Verfahren, die auch in der Praxis eingesetzt werden, sind beispielsweise Vector Base Amplitude Panning (VBAP) [Pulkki, 1997], PositionBased Panning, z. B. Triple-Balanced Panning [Tsingos, 2018] oder Polygon-Based Panning, z. B. Edge Fading Amplitude Panning (EFAP) [Borss, 2014]. Ein Ziel haben alle Objektrenderer gemeinsam: die Generierung der Ausgangssignale auf Basis des zur Verfügung stehenden Wiedergabesystems in Abhängigkeit der Metadaten. Objektmetadaten können hier, neben Positionsdaten in einem kartesischen Koordinatensystem mit x-, y- und z-Achse oder einem Polarkoordinatensystem mit Azimut, Elevation und Distanz, auch Informationen über Pegel, Wichtigkeit und Dynamic Range Control beinhalten (siehe Kap. 13.2.4). Für die Kopfhörerwiedergabe oder auch bei der Wiedergabe über Soundbars oder smart speaker kann als Nachverarbeitung noch ein Binaural-Renderer (siehe Kap.5.5.5) oder ein Virtualisierer folgen (siehe Kap. 5.5.2.6). Alternativ kann auch ein für den Anwendungsfall optimierter Renderer eingesetzt werden, der die Objektsignale direkt für Kopfhörer bzw. für eine Soundbar aufbereitet. Während der Produktion spielt der Audio-Renderer im Monitoring eine wichtige Rolle, um das Ausgangssignal abhören zu können und die verschiedenen Wiedergabesituationen, wie sie in den Endgeräten auftreten können, zu kontrollieren.
5.5 Verfahren der räumlichen Tonübertragung
349
5.5.2.3 Personalisierung und Interaktion Ein weiterer wesentlicher Vorteil von objektbasiertem Audio ist die Möglichkeit zur Interaktion im Endgerät. Dadurch kann die Wiedergabe personalisiert werden, beispielsweise kann der Dialog für eine bessere Sprachverständlichkeit herausgehoben werden. Anweisungen an das Endgerät in Form der Objekt-Metadaten sorgen dafür, dass die Art und der Umfang der Personalisierung nicht unkontrolliert sind, sondern nur in einem während der Produktion vorgegebenem Rahmen vorgenommen werden kann. Während des Monitorings ist es wichtig, dass das Verhalten des Endgeräts simuliert werden kann. Dabei können die Auswirkungen der Nutzerinteraktivität kontrolliert werden und alle möglichen Varianten abgehört werden. Falls dabei ein unerwünschtes Verhalten hörbar wird, beispielsweise ein zu starker Eingriff in das Mischungsverhältnis von Dialog mit dem restlichen Signal, können die Metadaten entsprechend geändert und die Änderungen sofort wieder überprüft werden. Digitale Audioworkstation Metadatenerstellung / Rendering Aufnahme
Schnitt
Klangbearbeitung
3D Panning Kanal-Bed Objekte
Erstellung weiterer Metadaten
Monitoring Renderer
Export des Masters
Master Wellenform + Metadaten
Lautsprecher Kopfhörer
Abb. 5/73. Signalfluss für Objektsignale in der Produktion, von den Quellensignalen, über Panner, Renderer, Erstellung von Metadaten, über das Monitoring bis zum Ausgabeformat, dem Masterformat.
5.5.2.4 Metadaten Ein wesentliches Element bei objektbasiertem Audio sind beschreibende Metadaten, welche während aller Verarbeitungsschritte eng mit den einzelnen Audiosignalen verknüpft sein müssen. Metadaten können sowohl statisch sein, z. B. semantische Informationen wie „Dialog“, als auch dynamisch, wie z. B. eine sich zeitlich verändernde Positionsbeschreibung für eine räumlich angepasste Wiedergabe. Im Wiedergabegerät dienen diese Metadaten einerseits als Anweisungen für den Audio-Renderer (siehe Kap 5.5.2.2), andererseits beschreiben sie die Interaktionen, die im Wiedergabegerät zur Personalisierung möglich und zulässig sind. Alle Metadaten entstehen während der Produktion (siehe Abb. 5/73), z. B. die Positionsdaten im 3D-Panner bei der räumlichen Anordnung der Objektsignale, und werden im Renderer angewandt, damit die Gesamtmischung sofort auf dem Ausgabesystem abgehört werden kann (Monitoring). Am Ende des Produktionsprozesses werden die Metadaten zusammen mit den Audiodaten der Objektsignale in einem Masterformat gespeichert. Ein Beispiel, das in Masterformaten zur Metadatenbeschreibung verwendet wird, ist das „Audio Definition Model“ (ADM), das unten noch genauer beschrieben wird.
350
5 Tonaufnahme und Tonwiedergabe
Ausgehend vom Masterformat müssen die Metadaten während der Codierung und Übertragung erhalten bleiben (siehe auch Kap. 13.2.5 und Kap. 18.8.7) und stets mit dem dazugehörigen Audiosignal verknüpft bleiben. Audiocodecs für objektbasiertes Audio benötigen also zwingend ein Metadatenmodell (siehe Kap. 13.2.5), das die Metadaten aus der Produktion abbildet und so als Teil des codierten Bitstroms bis zum Wiedergabegerät und AudioRenderer transportiert. Die Metadaten für objektbasiertes Audio können in folgende Hauptkategorien eingeteilt werden: Quellenbeschreibende Metadaten: –– Positionsdaten, entweder auf den Zuhörer bezogen (egozentrisch) in Polarkoordinaten (Azimut, Elevation, Distanz) oder auf den Wiedergaberaum bezogen (allozentrisch) in kartesischen Koordinaten (x-, y-, z-Achse), –– Lautstärke, –– weitere Eigenschaften, wie eine virtuelle Ausdehnung einer Quelle, im Gegensatz zu Punktquellen. Inhaltliche und strukturelle Metadaten: –– Art des Objekts, z. B. Dialog, –– Gruppenzuordnungen: Kombination mehrerer Objekte/Signale, die als eine Einheit behandelt werden sollen, –– Zusammenstellungen aller Objekte bzw. Signale sowie Mischungsverhältnisse zu einer Auswahlkombination für eine Wiedergabesituation, je nach Metadatenmodell werden dafür unterschiedliche Begriffe verwendet, in ADM „audioProgramme“ (siehe unten), in MPEG-H 3D Audio „Preset“ (siehe Kap. 13.4.6), oder in AC-4 „Presentation“ (siehe Kap. 13.4.7.4). –– Textuelle Beschreibungen aller Objekte, Gruppen bzw. Vorauswahlvarianten, die während der Wiedergabe zur Personalisierung angezeigt werden können. Metadaten zur Steuerung der Wiedergabe: –– Erlaubnis, bzw. Verhinderung nutzerseitiger Eingriffe, z. B. die Lautstärke oder Position einzelner Objekte innerhalb vorgegebener Grenzen während der Wiedergabe zu verändern, –– Zuordnung von Objekten zu einer Auswahlgruppe, aus der während der Wiedergabe genau ein Objekt gewählt werden kann. Objekte, die durch diese Metadaten beschrieben werden, können neben Mono-Punktquellen auch mehrkanalige Untermischungen sein, die im Raum frei platziert bzw. bewegt werden können, bis hin zu kanalbasierten Basismischungen, die an einer festen Raumposition verankert sind. Alle quellenbeschreibenden Metadaten können sowohl statisch, zeitlich unverändert, als auch dynamisch, also zeitlich veränderbar sein. Die Metadaten der anderen oben genannten Kategorien sind typischerweise für eine komplette Produktion, bzw. einen Produktionsabschnitt unverändert, also statisch. Beispiele zeigt Tab. 5/18.
5.5 Verfahren der räumlichen Tonübertragung
351
Tab. 5/18. Beispiele für Metadaten basierend auf der ADM-Syntax nach ITU-R BS. 2076. Beispiele für Quellen beschreibende ADM-Metadaten position width, height, depth, diffuse channelLock zoneExclusion screenRef importance integratedLoudness mute
statische Lautsprecherposition für kanalbasierte Audiosignale dynamische Positionsdaten für objektbasierte Audiosignale Ausdehnung und Korrelationseigenschaften eines Objekts Bevorzugung der Wiedergabe eines Objekts über einen Einzellautsprecher gegenüber dessen Wiedergabe über mehrere Lautsprecher Definition von Raumbereichen für die Wiedergabe eines Objekts Objekt mit Bezug zum Bildschirminhalt Wichtigkeit eines Objekts für die Audioszene Lautheit eines Objekts Aktivität eines Objekts
Beispiele für strukturelle und inhaltliche ADM-Metadaten dialogue audioProgramme audioContent audioObject
Beschreibung der Art eines Objekts Zusammenstellung vorhandener Objektgruppen zu einer Auswahlkombination Definition von Objektgruppen, die typischerweise in Kombination mit anderen Objektgruppen innerhalb einer Audioszene wiedergegeben werden. Definition von Objekten durch Verknüpfung von Audiosignalen mit Metadaten
Beispiele für ADM-Metadaten zur Wiedergabesteuerung gain, positionOffset gainInteractionRange positionInteractionRange
Veränderung von Lautstärke und Position eines Objekts Definition von Grenzen für die zulässige Lautstärkeänderung eines Objekts Definition von Grenzen für die zulässige Positionsänderung eines Objekts
Eine standardübergreifende Beschreibung von Metadaten für objektbasiertes Audio liefert das sog. Audio Definition Model (ADM), das von der ITU-R in der Empfehlung BS.2076 spezifiziert wurde. Tab 5/18 zeigt einige Beispiele von ADM Metadaten, welche auch auf objektbasierte Audiocodecs abgebildet werden können (siehe Kap. 13.4.6 und Kap. 13.4.7.4). 5.5.2.5 Universelle Übertragung Die traditionelle Übertragung von Stereosignalen verwendet eine gut definierte Infrastruktur von Produktion bis hin zur Wiedergabe meist über Fernsehgeräte, Lautsprecher oder Kopfhörer. Neuartige Übertragungswege, sowie neue Klassen von Wiedergabegeräten in Kombination mit kanal- und objektbasiertem 3D-Audio lassen jedoch zukünftig eine Vielzahl an Interpretationen während der Produktion zu. Beispielswiese betrifft die folgenden Aspekte: –– Wie ist das Produktionslayout der 3D-Audio Produktion? –– Wie wird das Produktionslayout im Endgerät wiedergegeben? –– Unter welchen Abhörbedingungen bzw. an welchem Ort werden die Inhalte wiedergegeben? –– Welches Gerät wird zur Wiedergabe verwendet, z. B. Fernsehgerät, Smartphone, Tablet, Soundbar oder Car-Audio?
352
5 Tonaufnahme und Tonwiedergabe
–– Welche Interaktionsmöglichkeiten während der Wiedergabe sind mittels Audioobjekten möglich? –– Werden die Signale über Rundfunk oder Streaming empfangen? Neue Klassen von Wiedergabegeräten und Übertragungsplattformen bzw. -infrastrukturen haben an Bedeutung gewonnen und entwickeln sich ständig weiter. Aus Konsumentensicht sollten die Eigenschaften der Audioinhalte den individuellen Hörbedingungen und Vorlieben entsprechen, unabhängig von Produktionsverfahren und Übertragungskanal. Eine Entkopplung des Produktions- und Monitoringformats vom Wiedergabeformat in den Endgeräten ermöglicht eine flexible Anpassung der Audioinhalte und hilft somit mit dieser großen Variabilität der Hörumgebungen und Wiedergabesituationen umzugehen. Statt einer Vielzahl von dedizierten Mischungen und Ausgangsformaten wie Stereo, 5.1 oder immersiv wird nur ein einziges, universelles Masterformat erzeugt, aus dem dann vom Audiocodec ein einziger Bitstrom erzeugt wird (siehe Kap. 13.4.6 und Kap. 13.4.7.4), der an alle unterschiedlichen Endgeräte übertragen werden kann. Die Kombination aus dem Renderer (siehe Kap. 5.5.2.2) und Metadaten (siehe Kap. 5.5.2.4) nimmt hier eine zentrale Rolle, sowohl in Produktion als auch Wiedergabe, ein. Bereits während der Produktion ist es entscheidend, die unterschiedlichen Renderingsignale der möglichen Wiedergabesysteme, z. B. 3D-AudioFormate, 5.1 oder Stereo abhören zu können. Von Bedeutung ist daher die Erstellung der Metadaten am Ort der Produktion, um das Rendererverhalten im Endgerät zu simulieren. Produktionswerkzeuge für die Erstellung der Metadaten, sowohl in Live- als auch in der Postproduktion, beinhalten deshalb einen universellen Renderer, der dem eines Endgeräts entspricht. Der Renderer im Endgerät erzeugt auf Basis der Eingangssignale und Metadaten die Ausgangssignale, zur optimalen Wiedergabe in Abhängigkeit des verfügbaren Wiedergabesystems und äußeren Einflüssen, wie Umgebungsgeräusche oder Nutzerpräferenzen (siehe auch Kap. 5.5.2.2). 5.5.2.6 Flexible Wiedergabemöglichkeiten 3D-Audiosysteme ermöglichen mit immersiven und ggf. auch interaktiven Audioinhalten einen deutlichen Mehrwert für allen Arten von Audioinhalten. Neben den konventionellen Ansätzen zur Wiedergabe, welche die Installation einer hohen Anzahl von Lautsprechern und technisches Wissen für den Aufbau erfordert, werden vermehrt auch Soundbars oder Smartspeaker zur Wiedergabe verwendet. Diese Geräte sind einfach zu installieren und integrieren alle Komponenten, die für die Audiowiedergabe nötig sind, z. B. Schnittstellen zu externen Wiedergabegeräten über HDMI oder Streaming, Sprachsteuerung, Decoder, Verstärker und Lautsprecher. Viele Soundbars sind mit einem externen Subwoofer ausgestattet, einige Modelle bieten zudem zusätzliche, drahtlos angebundene Satelliten-Lautsprecher. Die speziellen Geräteklassen der 3D-Soundbars und 3D-Smartspeaker haben zumeist eine höhere Anzahl an Lautsprechertreibern als herkömmliche Stereo- und Surroundgeräte sowie eine erweiterte Signalverarbeitung. Ihr Ziel ist es, das Klangbild eines 3D-Lautsprecher-Setups virtuell nachzubilden. Um dies zu erreichen, können akustische und psychoakustische Methoden Anwendung finden.
5.5 Verfahren der räumlichen Tonübertragung
353
Systeme, die auf akustischen Prinzipien basieren, nutzen üblicherweise die akustischen Eigenschaften des Raums, in welchem das Wiedergabegerät platziert wird. Die akustische Energie der verschiedenen Signale wird entweder direkt über eine Vielzahl an Lautsprechern, die in verschiedene Richtungen weisend im Gehäuse angeordnet sind, oder durch Nutzung von Array-Processing in die gewünschten Richtungen verteilt. Eine gängige Methode hierfür ist z. B. Beamforming. Durch Nutzung der schallreflektierenden Eigenschaften der Decke und der Wände des Wiedergaberaums ist es möglich, den Klang auch aus anderen Richtungen als nur vom Wiedergabegerät kommend an den Hörort zu bringen. Um die individuellen Raumeigenschaften optimal zu nutzen, verwenden einige Hersteller automatisierte Einmessroutinen. Systeme, die auf psychoakustischen Prinzipien basieren, zielen darauf ab, an den Ohren des Hörers Signale zu erzeugen, welche den Ohreingangssignalen entsprechen, die von einem Lautsprecher oder einem Audioobjekt an der simulierten Position erzeugt würden. Eine gängige Methode hierfür ist z. B. Binauralwiedergabe mittels Crosstalkcancelation. Die Feinabstimmung einer spezifischen Methode oder die Kombination verschiedener Methoden sowie die charakteristische Ausgestaltung aller Einflussfaktoren bieten Herstellern einen großen Spielraum. [Olivera, 2019]
5.5.3 Schallfeldsynthese Die in Kap. 5.4 beschriebenen mehrkanaligen stereofonen Verfahren haben verschiedene Nachteile, wie beispielsweise die instabile Lokalisierung der Phantomschallquellen, insbesondere in seitlichen und vertikalen Richtungen und ihre Abhängigkeit vom Standort des Hörers, oder die Größe der Hörzone, abhängig von der Aufnahmetechnik, und auch die Unmöglichkeit, den Abbildungsbereich zwischen Lautsprechern und Hörer zu nutzen. Ebenso existieren für die Binauraltechnik (Kap. 5.5.5) grundlegende Nachteile, vor allem ausschließliche Verwendung von Kopfhörern. Diese Nachteile kann die Schallfeldsynthese großenteils vermeiden. Die physikalische Synthese eines Schallfelds kann prinzipiell und mit praxisbedingten Einschränkungen mit einem Ensemble von Lautsprechern ein akustisch korrektes Schallfeld und entsprechende virtuelle Schallquellen und Räume erzeugen. Anstelle von Phantomschallquellen bilden virtuelle Schallquellen die Grundlage der räumlichen Darstellung (siehe Kap. 5.1.2., Abb. 5/1), und anstelle der Binauraltechnik mit Kopfhörerwiedergabe entstehen die für das Hörereignis erzeugenden Ohrsignale auf natürlichem Wege im realen Schallfeld. Die eingesetzten Verfahren sind Wellenfeldsynthese (WFS) [de Vries, 2000], [Horbach, 2000], [Pellegrini, 2002] sowie Higher-order Ambisonics (HOA) [Berkhout, 1993], [Olivera, 2019]. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch bzw. weitgehend identisch ist.
354
5 Tonaufnahme und Tonwiedergabe
5.5.3.1 Wellenfeldsynthese Prinzip der Aufnahme und Wiedergabe Die Wellenfeldsynthese oder abgekürzt WFS ist ein Verfahren, mit dem ein Schallfeld eines Raums in einem anderen Raum realistisch und weitgehend identisch nachgebildet werden kann. Wegen der Ähnlichkeit mit der optischen Holografie spricht man bei der WFS auch von Holofonie. Während bei Zwei- oder Mehrkanal-Stereofonie die Schallquellen als Phantomschallquellen auf den Linien zwischen den Lautsprechern erscheinen, wird mit der WFS ein akustischer Raum mit virtuellen Schallquellen erzeugt; diese haben prinzipiell die gleichen akustischen Eigenschaften wie reale Schallquellen. Virtuelle Schallquellen werden überall in der Hörzone ortsstabil und realistisch abgebildet und lokalisiert, auch außerhalb der Lautsprecheranordnung. Die virtuellen Schallquellen können bei entsprechenden Anlagen selbst durch den Raum wandern, sie können aber auch bedingt umwandert werden. Was das binaurale Verfahren mit Kunstkopfaufnahme und Kopfhörerwiedergabe leistet, nämlich die realistische Simulation von Hörereignissen, leistet die WFS für Lautsprecherwiedergabe. Das Verfahren wurde ab 1988 an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Weitere Forschungen und Entwicklungen erfuhr die WFS mit dem 2001 bis 2003 von der EU geförderten Projekt CARROUSO, an dem mehrere Universitäten, Institute und Firmen beteiligt waren. In den vergangenen Jahren wurden im öffentlichen Bereich verschiedene WFS-Systeme installiert, z. B. für die Bregenzer Festspiele und die Seefestspiele Mörbisch sowie an verschiedenen Universitäten; die TU Berlin verfügt in einem Saal mit 650 Plätzen über eine Anlage mit 2.700 Lautsprechern. Die Wellenfeldsynthese ist eine Simulation auf einer horizontalen Fläche im Raum. Eine große Zahl von Lautsprechern ist auf Kopfhöhe angeordnet, optimal als Lautsprecherkreis. Der Bereich, in dem die Hörbedingungen optimal sind, die Hörfläche, ist begrenzt durch die endliche Zahl an Lautsprechern, sie ist aber sehr groß verglichen mit herkömmlicher Stereofonie, bei der optimale Hörbedingungen nur an einem einzigen Ort, dem Sweet Spot, bestehen. Die vertikale Dimension wird bei der WFS derzeit aus praktischen Gründen und wegen des hohen Aufwands nicht realisiert, auch weil die Richtungswahrnehmung in der Vertikalen deutlich geringer ausgebildet ist als in der Horizontalen. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt; so wurde schon 1965 im physikalischen Institut der Universität Göttingen ein System mit 65 Lautsprechern in einer Halbkugelanordnung realisiert. Das physikalische Prinzip der WFS ist das sog. Huygens-Prinzip, das der niederländische Universalgelehrte Christian Huygens im 17. Jahrhundert für die Ausbreitung des Lichts entdeckt hatte. Danach kann jede von einer Quelle beliebiger Form und Ausdehnung erzeugte Wellenfront – und damit auch sich ausbreitender Schall – als Summe von unendlich vielen Einzel- oder Elementarwellen betrachtet werden, die sich, jede für sich, kugelförmig ausbreiten. Durch Überlagerung aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Wellenfront identisch ist. Sind Schalldruck und Schallschnelle aller Punkte der Umgrenzung einer geschlossenen Fläche bekannt – oder eines Volumens im dreidimensionalen Modell, kann der Schalldruck jedes Punkts in dieser Fläche bzw. in diesem Volumen berechnet werden. Jedes Schallfeld kann demnach theoretisch durch unendlich viele Laut-
5.5 Verfahren der räumlichen Tonübertragung
355
sprecher nachgebildet werden. In der Nachbildung ergibt sich die ursprüngliche Schallquelle als sog. virtuelle Schallquelle. Der sog. akustische Vorhang zeigt nochmals anschaulich das Prinzip der WFS: Wenn in die Wand zwischen einem Aufnahmeraum und einem Wiedergaberaum dicht nebeneinander Löcher gebohrt würden, so könnte man die Schallereignisse durch diese Wand perfekt hören. Man kann nun jedes dieser Löcher durch ein Mikrofon und einem Lautsprecher mit gleichen Richtcharakteristiken ersetzen, das ergibt den sog. akustischen Vorhang (Abb. 5/74).
Abb. 5/74. Prinzip des akustischen Vorhangs.
Anders als beim Prinzip des akustischen Vorhangs werden bei der Wellenfeldsynthese aber nicht die einzelnen Signale des Mikrofonarrays übertragen, sondern getrennt die trocken, also ohne Raumanteile, aufgenommenen Signale der Schallquelle und die des Raumanteils. Vor oder nach der Aufnahme wird zur Ermittlung der akustischen Eigenschaften des Aufnahmeraums eine sog. Raumimpulsantwort aufgenommen, gemessen und abgespeichert (Abb. 5/75, oben). Regt man einen Raum mit einem Knall, einem sog. Dirac-Impuls, zum Schwingen an, so gibt der Raum darauf eine Impulsantwort, er hallt nach. Diese Impulsantwort stellt quasi einen Fingerabdruck des Raums dar. aus dem alle wichtigen akustischen Kriterien des Raums wie Nachhallzeit, Klarheitsmaß usw. abgeleitet werden können. Der Raum wird also bei der WFS getrennt von der Gestalt der Schallquelle übertragen, man spricht von objektorientierter Übertragung. Die Aufnahme des Direktschalls erfolgt nahe an der Schallquelle. Durch die Trennung von Gestalt und Raum oder Direkt- und Diffusschall kann der Aufnahme auch die Akustik eines anderen Aufnahmeraums zugeordnet werden, die Schallquellen sozusagen in einen akustisch besser geeigneten Raum versetzt werden. Wiedergabeseitig werden Klanggestalt und Raum im Wave Field-Synthesizer durch einen mathematischen Prozess wieder zusammengefügt (convolution). Das „trockene“ Quellsignal wird dabei mit der vorliegenden Impulsantwort des Raums verrechnet, man sagt
356
5 Tonaufnahme und Tonwiedergabe
gefaltet (FIR-Filterung) und den Lautsprecherkanälen zugeführt (Abb. 5/75, unten). Die Schallquelle erhält also ihre ursprünglichen räumlichen Eigenschaften im Prinzip vollständig zurück.
Abb. 5/75. Prinzip der Wellenfeldsynthese.
Die Raumimpulsantworten können auch nach Maßgabe eines raumakustischen Modells dynamisch berechnet und ebenso wie gemessene Raumdaten abgespeichert werden. Im Gegensatz zum datenbasierten Verfahren, welches die Reproduktion der originalen Raumakustik erlaubt, erzeugen die modellbasierten Verfahren mit berechneten Raumimpulsantworten synthetische Räume. Im wiedergabeseitigen WFS-Prozessor können Impulsantwor-
5.5 Verfahren der räumlichen Tonübertragung
357
ten beliebiger Räume als Datensätze gespeichert vorliegen und wahlweise eingesetzt werden. [Berkhout, 1993], [Boone, 1995], [Horbach, 2000], [de Vries, 2000], [Pellegrini, 2002], [Theile, 2002], [Wittek, 2004]. Fähigkeiten der Wellenfeldsynthese Die Wellenfeldsynthese ist ein leistungsfähiges System für eine räumliche, perspektivisch überzeugende Gestaltung der akustischen Szene. Die typischen Schwächen der konventionellen Lautsprecher-Stereofonie gibt es grundsätzlich nicht, ihre besonderen Merkmale sind:
Abb. 5/76. Die WFS ermöglicht die Wiedergabe sowohl von ortsfesten Punktquellen (PQ 1, PQ 2) als auch von stabilen Einfallsrichtungen ebener Wellen im gesamten Bereich der Hörfläche.
–– Virtuelle Punktschallquellen können an jedem Ort im Wiedergaberaum an der gleichen Stelle der Szene wie im Aufnahmeraum lokalisiert werden, auch im Bereich zwischen dem Hörer und den Lautsprechern, solange sich der Hörer innerhalb der Hörfläche bewegt. In Abb. 5/76 sind die Hörereignisrichtungen an unterschiedlichen Orten für zwei Punktquellen PQ 1 und PQ 2 angedeutet. –– Es können ebene Schallwellen entsprechend einer unendlich großen Entfernung der virtuellen Quellen erzeugt werden. Die Hörereignisrichtung ist an jedem Ort der Hörfläche dabei dieselbe, sie wandert mit dem Hörer wie die Sonne (Abb. 5/76). Dabei wird die Richtung ebenso präzis wahrgenommen wie bei Punktschallquellen.
358
5 Tonaufnahme und Tonwiedergabe
–– Es entsteht eine realistische Perspektive durch ortsfeste Punktschallquellen und Präsenz in der virtuellen akustischen Szene. –– Der Hörer wird umhüllt durch einen realistisch empfundenen Raumeindruck mit einer ausgewogenen Hallbalance in weiten Bereichen der Hörzone mit Hilfe der Synthese von ebenen Wellen für die Wiedergabe des Nachhalls bzw. der Atmo. Insgesamt ist die Synthese komplexer akustischer räumlicher Szenen möglich, die der Hörer besonders realistisch erleben kann, wenn er in der Hörzone umherwandert. Abb. 5/76 deutet an, in welcher Weise sich der Höreindruck bei Wechsel des Hörorts verändert. Darüber hinaus hat sich gezeigt, dass im Vergleich zur Stereofonie die Wellenfeldsynthese eine gesteigerte räumliche Transparenz gewährleisten kann. Einschränkungen in der Praxis Die theoretischen Möglichkeiten der Wellenfeldsynthese sind in der Praxis nicht ohne Einschränkungen realisierbar. Aufnahme- und wiedergabeseitig gibt es praktische Zwänge und technische Unzulänglichkeiten, die das Ergebnis in vielen Situationen negativ beeinflussen. Die folgende Aufzählung lässt erkennen, dass das System in der Theorie zwar hervorragende Eigenschaften zeigt, eine praktische Umsetzung mit ihren Einschränkungen aber noch viele Forschungsaufgaben bereithält: –– Spatial Aliasing: Der unvermeidbare Abstand der Array-Lautsprecher voneinander verursacht oberhalb einer Grenzfrequenz räumliche und spektrale Fehler. Oberhalb dieser Spatial Aliasing-Frequenz kann das Schallfeld physikalisch bedingt nicht mehr korrekt synthetisiert werden. Beträgt der minimale gegenseitige Abstand für größere Lautsprecher z. B. 20 cm, so ist die Grenzfrequenz 1 kHz. Nur das Spektrum unterhalb dieser Frequenz kann vom Gehör für die Lokalisierung der virtuellen Schallquellen ausgewertet werden. –– Spatial Truncation: Die Theorie geht von einem unendlich langen Lautsprecher-Array aus. Bei begrenzten Array-Abmessungen entstehen von den Rändern her Beugungswellen, die sich als Nach- und Vorechos bei fokussierten Schallquellen bemerkbar machen und Klangverfärbungen verursachen können. Es gibt jedoch Methoden zur Reduzierung dieser Effekte, z. B. die Anwendung von tapering windows, welche die Amplituden der äußeren Lautsprechersignale reduzieren. Dies verkleinert allerdings auch die Hörfläche. –– Spatial Interference: Ein WFS-Array kann das angestrebte Schallfeld nicht optimal synthetisieren, wenn störende Reflexionen des Wiedergaberaums hinzukommen. Dies wirkt sich besonders aus auf die Wahrnehmung von Entfernungen, der räumlichen Tiefe sowie des Raumeindrucks. Das Gehör ist äußerst empfindlich und erkennt die reale Situation von Lautsprecher und Wiedergaberaum bevorzugt, auch auf Grund visueller Informationen. Das „Eigenleben“ des Wiedergaberaums muss stark unterdrückt werden, damit die virtuellen Schallquellen und der virtuelle Raum nicht verdeckt werden. –– Beschränkung auf die horizontale Ebene: Die durch die praktische Realisierbarkeit bedingte Beschränkung auf die horizontale Ebene hat verschiedene Nachteile. Zunächst ist klar, dass in einer horizontalen Anordnung der Arrays nur virtuelle Quellen in der Horizontalebene synthetisiert werden können. Auch die Reproduktion des indirekten Schalls ist auf die horizontale Ebene beschränkt, obwohl zur Messung der Raumimpul-
5.5 Verfahren der räumlichen Tonübertragung
359
santwort bei den üblichen Methoden nahezu alle Reflexionen im oberen und unteren Halbraum erfasst werden. Das nur zweidimensionale Reflexionsmuster ist entsprechend ungenau und kann die Wahrnehmung von Raumeindruck und Umhüllung negativ beeinflussen. Hinzu kommt, dass eine Kugelwelle oder ebene Welle nur dreidimensional generiert werden kann. Eine mit einem Linienarray erzeugte ebene Welle beispielsweise hat dann die Form eines Zylinders, der das Array umgibt. Deshalb nimmt im Gegensatz zu einer idealen ebenen Welle ohne Pegelabnahme der Pegel mit der Entfernung um 3 dB bei Verdopplung der Entfernung ab. –– Erforderliche Übertragungskapazität: Bei der Wellenfeldsynthese steigt die Zahl der erforderlichen Übertragungskanäle etwa proportional mit der Anzahl der zu übertragenden Schallquellen. Für den erfolgreichen Einsatz der WFS müssen in der Mehrzahl der Anwendungen deshalb Methoden entwickelt werden, die die Zahl der erforderlichen Kanäle für die Übertragung und Speicherung begrenzen, ohne dabei gleichzeitig die Qualität zu beeinträchtigen. –– Übertragung ausgedehnter Schallquellen: Am Beispiel der Übertragung eines Chors wird deutlich, dass das Konzept der getrennten Übertragung von Klanggestalt und Raum nicht immer praktikabel ist. Die Qualität der Aufnahme würde im Vergleich zu einer stereofonen Aufnahme nicht wachsen, wenn die Zahl der Stützmikrofone, d. h., die Zahl der zu übertragenden „trockenen“ monofonen Quellsignale der Chormitglieder oder Chorgruppen, beliebig gesteigert werden könnte. Sie wäre wahrscheinlich selbst dann nicht optimal, wenn jedes Chormitglied ein eigenes Stützmikrofon bekäme, wovon die Theorie ausgeht. Hinzu kommt, dass für jedes der Stützmikrofone die Raumimpulsantworten gemessen und diese Datensätze übertragen werden müssten. Auf der Wiedergabeseite müssen entsprechend viele der rechenintensiven Operationen durchgeführt werden. Ebenso anspruchsvoll ist beispielsweise die Übertragung eines Klaviers im Konzertsaal. Ein Klavierklang setzt sich aus vielen räumlich verteilten Klangelementen zusammen, es ist keine punktförmige Schallquelle. Die reine Lehre der Wellenfeldsynthese wird dieser Aufgabe nicht gerecht. –– Übertragung der Atmo: Auch Atmo, Umgebungsgeräusche aller Art, setzen sich aus vielen räumlich verteilten Quellen zusammen, beispielsweise Applaus im Konzertsaal. Hunderte von Einzelschallquellen, die im ganzen Raum fern und nah verteilt sind, formen das Hörerlebnis Applaus oder Atmosphäre. Mit dem Konzept der binauralen Reproduktion der Ohrsignale (Kunstkopftechnik, siehe Kap. 5.5.5) ist im Prinzip eine realitätsgetreue Übertragung erreichbar. Mit Einschränkungen gilt das ebenso für Verfahren der Mehrkanal-Stereofonie. Das Konzept der Aufnahme trockener Einzelschallquellen bei der WFS kann dies aber nicht leisten. Virtual Panning Spot Die genannten praktischen Einschränkungen der Wellenfeldsynthese lassen sich zum Teil mit technischen Maßnahmen mildern, das trifft besonders für die o. g. Punkte 1 bis 4 zu. Die Punkte 5 bis 7 dagegen zeigen, dass die getrennte Übertragung von Einzelquellen und Rauminformationen offenbar in vielen Fällen wenig sinnvoll ist. Die Lautsprecher- Stereofonie besitzt aber erstaunlicherweise gerade dort Stärken, wo das WFS-Übertragungsverfahren die o. g. prinzipiellen Schwächen aufweist.
360
5 Tonaufnahme und Tonwiedergabe
Um die Vorteile der herkömmlichen Zwei- oder Mehrkanal-Stereofonie nutzen und mit der WFS kombinieren zu können, werden sog. Virtual Panning Spots (VPS) eingeführt. Das Prinzip ist in Abb. 5/77 dargestellt. Obgleich neben dem Solisten ein Chor mit vielen Einzelschallquellen aufgenommen werden soll, werden insgesamt nur vier virtuelle Schallquellen vorgesehen. Eine davon repräsentiert den Solisten nach dem Prinzip der WFS, also separate Übertragung der Nahfeld-Aufnahme und der dazugehörigen Raumimpulsantwort. Für die Aufnahme des Chors ist dagegen eine konventionelle stereofone Technik vorgeschaltet (L-C-R). Die Mischung sollte so beschaffen sein, dass sie einerseits wenig Rauminformation enthält, andererseits aber die flächige Verteilung der Chormitglieder in dem genannten Beispiel adäquat wiedergibt. Das dreikanalige stereofone Signal des Chors wird in der folgenden WFS-Übertragungskette wie drei diskrete Einzelquellensignale behandelt, also ebenfalls zusammen mit den zugehörigen Raumimpulsantworten übertragen. Die drei WFS-Signale repräsentieren somit virtuelle Lautsprecher, welche das stereofone Klangbild des Chors im Aufnahmeraum wiedergeben.
Abb. 5/77. Virtuelle Panning Spots (VPS) zur Nutzung stereofoner Verfahren.
Da die Virtual Panning-Spots virtuelle Quellen darstellen, müssen wiedergabeseitig natürlich auch die passenden Raumimpulsantworten zur Verfügung stehen. Diese können im Ursprungsraum gemessen oder synthetisiert werden. In der Praxis müssen Messungen einzelner Raumimpulsantworten bestimmter Räume nicht für jede Aufnahme neu gemessen
5.5 Verfahren der räumlichen Tonübertragung
361
werden, sondern stehen in einer Datenbank zur Verfügung. Das Beispiel in Abb. 5/77 stellt den Chor mit drei VPS dar, die per Wellenfeldsynthese wiedergeben werden und dadurch hinsichtlich Lokalisierung, Ausdehnung und Entfernung relativ frei konfigurierbar sind. Die stereofone Aufnahme des Chors erzeugt im Gesamtbild einen großen Klangkörper, denn es existiert eine Abbildung zwischen den VPS nach den Gesetzen der Stereofonie. Die „Lautsprecher“ sind virtuelle Quellen, per WFS generiert und mit den räumlichen Eigenschaften des Aufnahmeraums versehen. Die Orte der VPS verhalten sich für den Bereich der Hörzone richtungsstabil. Die bekannten Nachteile der Lokalisierung der Phantomschallquellen, insbesondere die geringe Richtungsstabilität, lassen sich leicht vermeiden, indem eine ausreichende Anzahl von VPS gesetzt wird, z. B. drei bis fünf VPS für den vorderen Abbildungsbereich. Dies ist nur eine Frage der technischen Möglichkeiten während der Aufnahme und der verfügbaren Übertragungskapazität, nicht aber eine Frage der Lautsprecheranordnung beim Hörer. Das VPS-Konzept hat für die WFS-Übertragung wesentliche prinzipielle Vorteile, sowohl hinsichtlich der Wiedergabequalität als auch bezüglich der Handhabung der Aufnahmetechniken. Es basiert auf der Anwendung stereofoner Techniken, es gibt keine völlig neuen Konzepte der Mikrofonierung, die Abmischung auf die VPS-Positionen benötigt keine neuen Methoden. Neu ist allerdings, dass die Entfernungsdarstellung einfach mit der Festlegung der VPS-Positionen vollzogen wird. Wie bereits erwähnt, befindet sich die Schallquelle bei ebenen Wellen theoretisch unendlich weit entfernt. Diese Eigenschaft ist günstig für die Darstellung von Atmo oder Umhüllung durch Nachhall. Es hat sich gezeigt, dass bereits wenige ebene Wellen aus unterschiedlichen Richtungen ausreichen, um einen als subjektiv diffus empfundenen Nachhall zu erzeugen. Schon mit heute üblichen Hallgeräten lassen sich unkorrelierte Nachhallfahnen mit mindestens vier Kanälen herstellen, die dann als ebene Wellen über das Lautsprecherarray synthetisiert werden. Virtuelle Lautsprecher Einen wichtigen Sonderfall für die VPS-Anwendung stellt eine spezielle wiedergabeseitige Voreinstellung der VPS dar, die die Wiedergabe von konventionellen Mehrkanal-Aufnahmen in einem virtuellen Abhörraum ermöglicht. Zu diesem Zweck sind für den wiedergabeseitigen WFS-Decoder zwei Maßnahmen vorgesehen (Abb. 5./78): –– Die Konfiguration der VPS hinsichtlich Raumimpulsantworten und räumlicher Anordnung erfolgt nicht nach Maßgabe der im WFS-Kanal übertragenden Informationen, sondern gemäß der voreingestellten Darstellung virtueller Lautsprecher in einem virtuellen Abhörraum. Beliebige Anordnungen der virtuellen Lautsprecher können voreingestellt sein und abhängig vom wiederzugebenden Stereofonie-Format aktiviert werden. –– Die virtuellen Quellsignale werden nicht aus dem WFS-Übertragungskanal empfangen, sondern vom wiedergabeseitigen Mehrkanaldecoder, z. B. einem DVD-Player. Die WFS-Wiedergabeanlage arbeitet hier völlig losgelöst von einer WFS-Übertragung, kann aber in diesem Modus prinzipiell bereits einige attraktive Vorteile im Vergleich mit einer konventionellen Wiedergabeanlage bieten:
362
5 Tonaufnahme und Tonwiedergabe
–– Diverse stereofone Mehrkanal-Formate lassen sich problemlos durch Wahl einer VPSVoreinstellung optimal wiedergeben, ohne die Lautsprecheranordnung z. B. im Wohnzimmer entsprechend anpassen zu müssen. –– Auch in beengter Raumsituation ist durch die größeren Entfernungen der virtuellen Lautsprecher die Hörzone für Mehrkanal-Stereofonie ausreichend groß. –– Ebene Wellen für die Surround-Signale vergrößern die Hörzone, weil der Schalldruckpegel bei Verdopplung der Entfernung nur um 3 dB abnimmt und die Hörereignisrichtung in der Hörzone ortsunabhängig ist. –– Eine hochwertige WFS-Wiedergabeanlage erlaubt eine elektronische Kompensation verschiedener Mängel des Wiedergaberaums, insbesondere die Reduktion der Wirkung von frühen Reflexionen sowie den Ausgleich unsymmetrischer Anordnungen der Lautsprecherarrays.
Abb. 5/78. VPS als virtuelle Lautsprecher für konventionelle Mehrkanalformate.
Diese rein wiedergabeseitige Anwendung der Wellenfeldsynthese für Mehrkanal-Stereofonie könnte aus technischer und praktischer Sicht der erste Schritt für die Einführung auf dem Markt sein. Interessant ist hier die Entwicklung der MAP-Technologie [Bauck, 1996], [Boone, 2004]. Diese flachen, mit einer Glasfaser gespeisten Panels sind in Wohnräumen meistens besser zu integrieren als Lautsprecherboxen. Die Praktikabilität der Panels, verbunden mit den oben dargestellten Vorteilen der WFS-gestützten virtuellen Lautsprecher, könnte schon in naher Zukunft zum ersten Markterfolg der Wellenfeldsynthese führen. Dabei ist nicht
5.5 Verfahren der räumlichen Tonübertragung
363
nur an die Anwendung im Heim als Home Theatre gedacht, sondern auch an den Einsatz in Kinos, Theatern oder ähnlichen Wiedergaberäumen. Verfahren der echten WFS-Übertragung werden wohl erst später folgen. Wichtige Faktoren für die Akzeptanz der Wellenfeldsynthese in den verschiedenen Anwendungsbereichen werden die Praktikabilität sowie die tatsächlich erreichbare Wiedergabequalität sein, dies nicht nur hinsichtlich räumlicher Merkmale wie Lokalisierung, räumliche Tiefe, Perspektive und Transparenz, sondern insbesondere auch bezüglich der Klangfarbe. Virtueller Kopfhörer Die binauralen Signale einer Kunstkopfaufnahme werden über Lautsprecher mit einem sog. crosstalk cancellation-Filter (XTC) wiedergegeben, um die Beschallung des jeweils abgewandten Ohrs zu verhindern [Weissgerber, 2009]. Dazu müssen die Übertragungseigenschaften dieser Wege gemessen oder berechnet werden, das Filter hat dann dementsprechend inverse Filterkennlinien für alle Richtungen, diese müssten durch head tracking mit jeder Kopfdrehung nachgestellt werden, was mit realen Lautsprechern kaum zu verwirklichen ist. Die WFS hingegen kann die Lautsprecher durch virtuelle Punktschallquellen ersetzen. Wenn diese nahe bei den Ohren des Hörers positioniert werden, kann eine stabile virtuelle Kopfhörersimulation erreicht werden ohne XTC-Filter. Anstelle einer linearen WFS-Standardanordnung bietet eine Kreisanordnung über dem Hörer einen konstanten Abstand zwischen den Ohren, den virtuellen Schallquellen und den Lautsprechern, dies wieder führt zu einer konstanten und hohen Aliasing-Frequenz und stark reduzierten Klangfärbungen während der Kopfbewegungen. Die tiefen Frequenzen werden über Subwoofer abgestrahlt, der Lautsprecherkreis kann unsichtbar über dem Kopf des Hörers angebracht werden. Binaural Sky Eine mögliche Anwendung des virtuellen Kopfhörers ist der Binaural Sky, ein neuartiges Wiedergabesystem speziell für die binauralen Signale einer Kunstkopfaufnahme, wobei die Wellenfeldsynthese und die dynamische Kompensation des Übersprechens bei Lautsprecherwiedergabe kombiniert werden. Der 2005 entwickelte Prototyp besteht aus einem über dem Kopf des Hörers befestigten Lautsprecherring. Mit Hilfe der Wellenfeldsynthese werden damit Quellen in Ohrnähe fokussiert, wodurch Ohrsignale so reproduziert werden können, dass eine dreidimensionale Abbildung von Schallereignissen ohne die Verwendung von Kopfhörern oder im Sichtfeld aufgestellten Lautsprechern möglich ist. Unabhängig von der Akustik des jeweiligen Abhörraums kann z. B. in einem kleinen Übertragungswagen die Akustik der gewohnten Tonregie simuliert werden. Die Basis des Systems bildet das Verfahren der Binauralen Raumsynthese (binaural room scanning, BRS), das Mitte der 1990er Jahre am IRT entwickelt wurde. Ein realer Abhörraum wird mit Hilfe eines Kunstkopfs vermessen, die binauralen Raumimpulsantworten des Raums (binaural room impulse response, BRIR) werden für jeden einzelnen der beteiligten Lautsprecher und für verschiedene Ausrichtungen des Kunstkopfs gemessen und gespeichert. Für die Wiedergabe wird der aktuelle Drehwinkel des Kopfs mittels eines head tracking-Systems ermittelt, so dass für die Faltung auf den passenden Satz Impulsantworten aus der Datenbank zugegriffen werden kann. Mit dem BRS-System ist es möglich, eine beliebige LautsprecherAbhörsituation mit Hilfe von Kopfhörern zu virtuell darzustellen, Näheres in Kap. 5.5.6.1.
364
5 Tonaufnahme und Tonwiedergabe
Grundsätzlich funktioniert der Binaural Sky wie ein Kopfhörer, d. h., es gibt zwei Ausgangskanäle, deren Signale direkt am rechten und linken Ohr wiedergegeben werden. Besonders interessant ist aber das komplette System, also die Wellenfeldsynthese mit Übersprechkompensation in Kombination mit der Binauralen Raumsynthese, weil es faszinierende Möglichkeiten eröffnet: Es lassen sich stabile dreidimensionale Abhörsituationen mit beliebigen Quellenkonstellationen realisieren und zwar ohne störende Kopfhörer oder im Sichtfeld befindliche Lautsprecher. Der Hörer kann damit in eine virtuelle akustische Umgebung versetzt werden. Das System eignet sich daher speziell für virtual reality-Anwendungen oder z. B. für Computerspiele. Durch eine subjektive Beurteilung in Hörversuchen zeigte sich, dass das System eine stabile räumliche Abbildung von binauralen Signalen mit einer sehr guten Lokalisierungsschärfe bietet. Bis etwa 7 kHz ist das System weitgehend ohne Klangfärbungen, darüber machen sich wegen Alias-Effekten der WFS geringe Klangfärbungen bemerkbar. [Horbach, 1999], [Menzel, 2005/1, 2]. 5.5.3.2 Ambisonics Das Aufnahme- und Wiedergabesystem Ambisonics wurde Anfang der 1970er Jahre durch Gerzon [Gerzon, 1973], Fellgett et al. [Fellgett, 1974, 1975] als Alternative unter dem Begriff Ambiophonie zu den damals populären, aber psychoakustisch wenig fundierten und untereinander inkompatiblen Quadrophonie-Formaten entwickelt. Das Verfahren erlaubt bereits mit vier Kanälen eine vollständige 3D-Darstellung, allerdings bei sehr kleiner Hörzone und geringer räumlicher Auflösung. Durch das Hinzufügen weiterer Kanäle können diese Einschränkungen entsprechend den Anforderungen vergrößert werden. Diese Erweiterung heißt ‚Higher-order Ambisonics‘ [Daniel 2001]. Ambisonics ist isotrop, das bedeutet, dass die Aufnahme- und Wiedergabequalität einer Quelle unabhängig von ihrer Richtung ist. Dank dieser Eigenschaft kann ein AmbisonicsSignal ohne Qualitätsverlust beliebig rotiert werden, was für Anwendungen mit head tracking sehr nützlich ist. Ein weiterer Vorteil liegt in der Entkopplung von Signal und Wiedergabesystem – eine Ambisonics-Aufnahme wird zum Abspielen decodiert und kann innerhalb gewisser Grenzen über verschiedene Lautsprecheranordnungen befriedigend wiedergegeben werden; auch eine Binauralisierung ist möglich. Signalformat und Mikrofontechnik Ambisonics erster Ordnung lässt sich als Erweiterung der MS-Stereofonie verstehen, siehe Kap. 5.3.2.2. Die Basis bildet eine ungerichtete Druckkomponente, früher mit W, heute mit der Ambisonic channel number ACN 0 bezeichnet, und dem bekannten links/rechts-Gradienten Y bzw. ACN 1. Fügt man nun einen oben/unten-Gradienten Z bzw. ACN 2 und einen vorn/ hinten-Gradienten X bzw. ACN 3 hinzu, hat man in einem kleinen Bereich um den Messpunkt den Schalldruck und in allen drei Raumdimensionen die Schallschnelle beschrieben. Das resultierende Signal heißt B-Format. [Gerzon, 1975/1], [Chapman, 2009] Ein entsprechendes Mikrofonarray aus einer Kugel und drei Achten in koinzidenter Anordnung wird als ‚natives B-Format-Array‘ bezeichnet. Eine perfekte Koinzidenz ohne Laufzeiteffekte lässt sich aber wegen der Größe der Kapseln nur für bestimmte Einfallsrichtungen erzielen; Schall aus anderen Richtungen ist mit unterschiedlich großen Laufzeitfehlern behaftet,
5.5 Verfahren der räumlichen Tonübertragung
365
was der Zielsetzung der Isotropie widerspricht. Daher wird das native Array üblicherweise nur in der dreikanaligen Version für 2D-Anwendungen benutzt und die Kapseln werden übereinander so angeordnet, dass sie für horizontal einfallenden Schall koinzident sind [Benjamin 2005]. Es entspricht damit dem Doppel-MS-Mikrofon [Wittek 2006]. Für 3D-Aufnahmen kommt überwiegend eine Anordnung von breiten Nieren [Farrar 1979] oder Nieren auf den vier Ecken eines Tetraeders zur Anwendung (siehe auch Kap. 4.2.2.8). Die vier Kanäle dieses Tetraeder-Mikrofons lassen sich durch eine einfache Matrix-Operation in die B-Format-Komponenten überführen. ACN 0 entspricht dabei der Summe aller Kapseln, für ACN 1 werden die beiden linken Kapseln addiert und die rechten subtrahiert. ACN 2 und 3 werden in gleicher Weise aus den oben/unten- und vorn/hinten-Differenzen gewonnen. Die unvermeidlichen Koinzidenzfehler durch unterschiedliche Laufzeiten werden durch eine möglichst kompakte Bauweise minimiert und sind recht gleichmäßig über alle Richtungen verteilt. Die resultierenden Kammfilterverfärbungen im Hochtonbereich können daher durch eine Diffusfeld-Entzerrung der Mikrofonsignale korrigiert werden [Gerzon 1975/2]. Voraussetzung für die Isotropie ist, dass die Komponenten jeder Ordnung zusammen den umgebenden Raum tatsächlich gleichmäßig abtasten. Für die ideale Kugelcharakteristik der „nullten“ Ordnung ist dies unmittelbar einsichtig. Aber auch die drei idealen Achtercharakteristiken der ersten Ordnung ergeben über alle Richtungen summiert wieder eine Kugel. Diesem Kriterium folgend könnte auch die tetraedrische Anordnung von vier Nieren als Grundlage der Schallfeldbeschreibung dienen. Es ist aber vorteilhaft, dass die Komponenten einer Ordnung darüber hinaus jeweils linear unabhängig sind, also im mathematischen Sinn einen minimalen Satz Basisfunktionen zur Zerlegung der Kugeloberfläche bilden. Das B-Format erfüllt dieses zusätzliche Kriterium. Im Gegensatz zur Stereofonie, die psychoakustische Reize durch Laufzeit- und Pegelunterschiede nachbildet, die sich über die Mikrofonauswahl und -position willkürlich kontrollieren und damit frei gestalten lassen, beschreibt Ambisonics das physikalische Schallfeld am Aufnahmeort. Dessen Zerlegung in die Komponenten des B‑Formats lässt sich als räumliche Abtastung verstehen. Panning Genau wie bei Stereoproduktionen können Monosignale von elektronischen oder nah mikro fonierten akustischen Quellen mit einem geeigneten Panner in einer B-Format-Summe positioniert werden. Dazu wird das Monosignal mit passenden Gain-Koeffizienten auf die Komponenten des B-Formats verteilt (encodiert). Wenn S das monofone Eingangssignal, 0 ≤ θ ≤ 360° der gewünschte Azimut- oder Horizontalwinkel und −90° ≤ ϕ ≤ 90° der gewünschte Elevations- oder Vertikalwinkel ist, dann ergeben sich für die Komponenten bis zur ersten Ordnung die folgenden Beziehungen, in der Praxis nötige konstante Normalisierungskoeffizienten sind hier vernachlässigt: ACN 0 = W = S ACN 1 = Y = sin θ⋅ cos φ ACN 2 = Z = sin φ ACN 3 = X = cos θ ⋅cos φ
366
5 Tonaufnahme und Tonwiedergabe
Wenn man diese Gleichungen über alle Azimut- und Elevationswinkel dreidimensional darstellt, ergeben sich die Graphen nullter und erster Ordnung aus Abb. 5/79, Panning ist also das „Aufnehmen“ des Quellsignals mit den virtuellen „Mikrofonen“ der jeweiligen Komponenten. Die zum Encodieren nötigen Operationen sind, genau wie die Rotation um die Z-Achse, trivial. Rotationen um andere Achsen sind wegen der Mischung der Dimensionen geringfügig komplexer, der Rechenaufwand ist aber in beiden Fällen gering. Higher-order Ambisonics Ambisonics erster Ordnung ist in seiner räumlichen Auflösung durch die Richtcharakteristik des Gradientenempfängers erster Ordnung, der Acht, begrenzt. Die Betrachtung ihres Polardiagramms zeigt, dass eine Ortsveränderung der Quelle um 45° aus der Achse nur eine Pegelabschwächung von 3 dB bewirkt. Dies verdeutlicht die geringe Lokalisationsschärfe. Eine weitere Konsequenz ist die geringe Größe der Hörzone, also jenes Bereichs, in dem das Schallfeld hinreichend genau beschrieben und rekonstruiert werden kann. Soll die räumliche Auflösung erhöht und damit die Hörzone vergrößert werden, benötigt man feiner auflösende Basisfunktionen, die ebenfalls die Kugeloberfläche gleichmäßig abtasten. Die Komponenten nullter und erster Ordnung sind der Beginn einer unendlichen Folge von sogenannten spherical harmonics, mit denen ein Schallfeld im Prinzip beliebig genau beschrieben werden kann. Der Name, sinngemäß Kugeloberwellen, lässt sich so verstehen, dass sie den Eigenresonanzen einer vibrierenden Kugeloberfläche ähneln.
Abb. 5/79. Spherical harmonics 0. bis 5. Ordnung [Zotter, 2012].
Für jede neue Ordnung gilt, dass die Summe ihrer Komponenten über alle Raumrichtungen wieder eine Kugel ergibt. Genau wie die Dipole der ersten Ordnung zur Unterscheidung von vorn und hinten die nullte Ordnung als Polaritätsreferenz benötigen, sind die Multipole der höheren Ordnungen nur in Bezug auf die Komponenten darunter eindeutig bestimmt.
5.5 Verfahren der räumlichen Tonübertragung
367
Wenn man von einem B-Format n-ter Ordnung spricht, sind also die Komponenten aller niedrigeren Ordnungen immer eingeschlossen. Die Zone nahezu perfekter Rekonstruktion hat nach [Ward, 2001] einen Radius von r0 ≈ N · c / 2π · f , wobei N die Ordnung des Systems, c die Schallgeschwindigkeit und f die Frequenz ist. In einem System dritter Ordnung wird also ein etwa kopfgroßes Volumen bis 1,7 kHz nahezu perfekt rekonstruiert. Eine subjektiv befriedigende Lokalisation wird wegen der Bandbegrenztheit der Lokalisationsreize aber ohne weiteres über mehrere Meter erreicht; in der Praxis ist der limitierende Faktor die Annäherung eines Hörorts außerhalb der Mitte an den nächstgelegenen Lautsprecher, der irgendwann die Lokalisierung dominiert [Nettingsmeier, 2011]. Mikrofone höherer Ordnung werden in der Regel aus einer großen Anzahl von Druckempfängern realisiert, die in eine schallharte Kugel eingebaut sind [Meyer 2004], aber auch offene Konstruktionen [Plessas 2009] und solche aus reinen Druckgradienempfängern sind möglich [Craven, 2009]. Allen Anordnungen ist gemeinsam, dass die Richtcharakteristiken höherer Ordnung durch Differenzbildung der Kapselsignale gewonnen werden. Die höhere Auflösung von Higher-order-Mikrofonen wird also erkauft durch einen Anstieg des Grundrauschens. Dazu kommt, dass der unvermeidliche Bassabfall von Druckgradientenmikrofonen, der mit zunehmender Ordnung steiler wird, durch teilweise extreme Anhebungen des Frequenzgang kompensiert werden muss. Die aufwändige Kalibrierung der Kapseln und die Entzerrung der Komponenten höherer Ordnung sind erst durch die Digitaltechnik praktikabel geworden. Dennoch sind Higher-order-Mikrofone sowohl im Rauschabstand als auch in der Klangfarbe konventionellen Mikrofonen unterlegen, und in der Praxis nimmt die Bandbreite zu höheren Ordnungen hin schnell ab. Ungeachtet dessen ist Higher-order Ambisonics durch die Möglichkeit, Einzelsignale präzise zu pannen, als Produktions- und Wiedergabeformat sehr nützlich. Das B-Format kann dann auf ein gewünschtes Layout wie 5.1 oder 7.1.4 vorgerendert werden. Idealerweise wird es jedoch bis zum Endverbraucher beibehalten. Letzteres ist bei Binauralwiedergabe mit HeadTracking oder für Großbeschallungen mit immersiven Inhalten sinnvoll. In der Forschung ist Higher-order Ambisonics als Beschreibungs- und Analysewerkzeug für Schallfelder allgegenwärtig. Decodierung Ähnlich wie MS-Aufnahmen vor der Wiedergabe in ein linkes und ein rechtes Lautsprechersignal umgeformt werden müssen, bedarf ein Ambisonics-Signal zur Wiedergabe der Decodierung auf die gegebene Lautsprecher-Anordnung. Analog zur Encodierung eines Monosignals im Panner gewinnt man die Lautsprechersignale durch eine Matrixoperation, die allerdings bei niedrigen Ordnungen noch psychoakustisch optimiert wird; wegen der Frequenzabhängigkeit der Lokalisationsreize ist es vorteilhaft, den Anteil der Schallschnelle im tiefen Frequenzbereich unter Beibehaltung der spektralen Ausgewogenheit etwas zu erhöhen [Gerzon, 1980] [Heller, 2008]. Da das im B-Format räumlich kontinuierlich beschriebene Schallfeld jetzt über einzelne Punktschallquellen rekonstruiert werden muss, entsteht ein sog. Diskretisierungsfehler. Außerdem ist durch den üblicherweise geringen Abstand zu den Lautsprechern die Krümmung der Wellenfronten nicht zu vernachlässigen und muss besonders
368
5 Tonaufnahme und Tonwiedergabe
bei höheren Ordnungen durch eine Nahfeldkompensation korrigiert werden [Daniel, 2003], [Adriaensen, 2006]. Regelmäßige Anordnungen der Lautsprecher sind nur realisierbar, wenn sie auf die Ecken von platonischen Körpern gesetzt werden, dabei handelt es sich um die fünf allein möglichen Körper, die aus gleichseitigen Vielecken gebildet werden; die meisten Ecken hat mit 20 der Dodekaeder. Damit sind in einer gleichmäßigen Anordnung maximal 20 Kanäle möglich. Für nicht perfekt regelmäßige Lautsprecheranordnungen ist die Berechnung einer Decodierungsmatrix kompliziert. Es existieren aber effiziente Optimierungsalgorithmen für nahezu beliebige Anordnungen, die auch eine Abschätzung der Richtungs- und Pegelfehler bei der Wiedergabe ermöglichen [Heller, 2010], [Zotter, 2012]. Sind die Matrixkoeffizienten einmal errechnet, ist der Rechenaufwand für die eigentliche Dekodierung vernachlässigbar. Für die Konzertbeschallung mit Höheninformation haben sich hemisphärische Anordnungen als praktikabel erwiesen. Konzert-Wiedergabesysteme ab der dritten Ordnung, also 16 B-Format-Kanälen aufwärts, haben sich in der Praxis bewährt [Zotter, 2010], [Rudrich, 2016], [Nettingsmeier, 2010]. Dabei ist es vorteilhaft, durch eine einfache Neuberechnung des Decoders auf Änderungen des Lautsprecher-Layouts reagieren zu können, ohne das Originalmaterial neu mischen zu müssen. Die Anzahl der Wiedergabekanäle sollte sich an der Ordnung des Ambisonics-Quellmaterials orientieren. Genau wie die Bandbreite eines PCM-Signals durch die endliche Abtastfrequenz begrenzt ist, ist die räumliche Genauigkeit des Systems durch die Ordnung und damit das Auflösungsvermögen der B-Format-Komponenten bestimmt. Wird ein räumlich hochaufgelöstes Signal über zu wenige Lautsprecher wiedergegeben, stellt sich analog zum spektralen Aliasing eines PCM-Systems das auch bei der Wellenfeldsynthese zu beobachtende räumliche Aliasing in Form von Nebenkeulen und Fehllokalisationen ein. Um dies zu vermeiden, können im einfachsten Fall die Komponenten höherer Ordnungen vor der Dekodierung vollständig verworfen werden, was einer räumlichen Tiefpassfilterung entspricht. Moderne Decoder können einen Teil der zusätzlichen Information außerdem zur Kompensation von Unregelmäßigkeiten des Wiedergabelayouts verwenden. Dies ist besonders bei den stark anisotropen n.1-Systemen interessant [Wiggins, 2007]. Bei der Wiedergabe über zu viele Lautsprecher ähneln sich deren Signale stark und es entstehen vermehrt Kammfilter und Phasing-Effekte. In der Praxis ist die Hörzone bei Ambisonics erster Ordnung auf eine Person im Zentrum des Wiedergabesystems beschränkt. Durch stark korrelierte Lautsprechersignale kann es bei Bewegung des Kopfes zu Phasing-Artefakten im Hochtonbereich kommen. Vorteilhaft ist, dass bei korrekter Wiedergabe auch in erster Ordnung bereits eine brauchbare Lokalisation erzielt wird. Der Richtungsvektor der Schallschnelle wird im unteren Frequenzbereich, also dort, wo interaurale Zeitdifferenzen (ITD) das Richtungshören dominieren, zufriedenstellend wiedergegeben. Im mittleren und oberen Frequenzbereich ist das Volumen korrekter Schallfeldrekonstruktion kleiner als der menschliche Kopf. Der resultierende Schallschnellevektor wird dadurch weitgehend zufällig, ist aber psychoakustisch auch weniger relevant. Der Richtungsvektor der Schallenergie hingegen ist hier hinreichend genau, um Lokalisation über die bei höheren Frequenzen maßgeblichen interauralen Pegeldifferenzen (ILD) zu ermöglichen [Gerzon, 1992]. Das reproduzierte Hörereignis [Blauert, 1974] ist jedoch in der Regel von größerer Ausdehnung und geringerer Schärfe als das aufgezeichnete Schallereignis. Die
5.5 Verfahren der räumlichen Tonübertragung
369
physikalisch nicht korrekte und stark aliasing-behaftete, aber ästhetisch vielfach präferierte Räumlichkeit von AB-Mikrofonen lässt sich mit Ambisonics-Wiedergabe nicht ohne weiteres erzeugen. ITD-Stimuli sind aber im rekonstruierten Schallfeld prinzipiell gegeben [Lipshitz, 1985]. Neben der Decodierung auf Lautsprecherwiedergabe ist die Binauralisierung ein wichtiges Anwendungsgebiet. Durch einen head tracker gemessene Kopfbewegungen lassen sich durch entsprechende Gegenrotationen des B-Formats einfach kompensieren, wodurch die Hörereignisrichtungen stabil bleiben. Ein weiterer Vorteil der Kopfhörerwiedergabe ist, dass sich der Hörort immer exakt im Zentrum, also dem Bereich optimaler Rekonstruktion, befindet. Die Binauralisierung (siehe Kap. 5.5.6) kann über virtuelle Lautsprecher oder eine direkte Konversion der B-Format-Komponenten erfolgen [McKeag, 1996], [Zaunschirm, 2018].
5.5.4 Kopfhörerwiedergabe Es gibt drei Arten der Kopfhörerdarbietung, man unterscheidet dabei zwischen Kopf- und Ohrhörern (Tab. 5/19): Tab. 5/19. Darbietungsarten von Tonsignalen über Kopf- bzw. Ohrhörer. Darbietungsart
Bezeichnung
nur ein Ohrhörer erhält ein Signal beide Ohrhörer erhalten dieselben Signale die beiden Ohrhörer erhalten unterschiedliche Signale
monotisch diotisch dichotisch
Obwohl Lautsprecherwiedergabe im Tonstudiobereich die übliche Wiedergabeform ist, bietet Kopfhörerwiedergabe Vorteile, die in bestimmten Situationen eine echte Alternative zur Lautsprecherwiedergabe darstellen können. Die nach 1970 eingeführte Kunstkopfstereofonie ist prinzipiell nur mit Kopfhörern wiederzugeben, wenn die speziellen Vorteile dieser Übertragungstechnik zur Geltung kommen sollen (siehe Kap. 5.5.5). Kopfhörer können bei wesentlich geringerem Aufwand zumindest dieselbe Bandbreite, Freiheit von nichtlinearen und linearen Verzerrungen und am Ohr denselben maximalen Schalldruck erreichen wie Lautsprecher. Besonders vorteilhaft bei Kopfhörerwiedergabe ist, dass die Akustik des Wiedergaberaums ohne Einfluss auf die Wiedergabe ist. Es hat sich gezeigt, dass bestimmte Störgeräusche oder andere Audioartefakte, wie z. B. Bitfehler oder Artefakte der Codierung mit Kopfhörern besser erkannt werden können, das kann für die auditive Kontrolle vorteilhaft, aber für das Zuhören durchaus störend sein. Ein entscheidender Faktor ist die größere Abbildungsschärfe. Sie kennzeichnet die erreichbare räumliche Auflösung des Klangbilds. Der Tonmeister weiß, dass bereits Nearfield-Monitoring die Transparenz erhöht, weil der Einfluss des indirekten Schalls im Wiedergaberaum reduziert wird. Dieser Effekt ist besonders deutlich bei Kopfhörerwiedergabe, wie entsprechende Hörtests auch quantitativ nachgewiesen haben. Abb. 5/80 zeigt die relative Anzahl der richtig erkannten Unterschiede von Testsignalen für Kopfhörerwiedergabe
370
5 Tonaufnahme und Tonwiedergabe
im Vergleich zur Lautsprecherwiedergabe. Man sieht, in welchem Maß der Kopfhörer eine höhere Abbildungsschärfe als Lautsprecher im Regieraum gewährleisten kann, besonders im Vergleich zu einer üblichen Anordnung in einem gleichseitigen Dreieck mit 3 m Kantenlänge.
Abb. 5/80. Abbildungsschärfe bei Wiedergabe mit Kopfhörer und mit Lautsprechern im Regierau; Nachhallzeit 0,4 s, Stereoanordnung 1 m bzw. 3 m. Erkannte Unterschiede in % beim Vergleich des Referenzsignals A (Kreuzkorrelationsgrad kA = 1,0) mit einem Vergleichssignal B (Kreuzkorrelationsgrade kB) [Ripka, 1987].
Auch hinsichtlich der Klangfarbe ist die Kopfhörerwiedergabe wegen der Unterschiedlichkeit der Lautsprecher und der Abhör- und Regieräume unerreichbar. Die mit ITU-R Recommendation BS.1116-1 festgelegten Mindestanforderungen für Hörtest-Abhörräume liegen deshalb unter den Möglichkeiten des Kopfhörers. Für die sog. Operational room response curve am Hörort wird hier im Frequenzbereich 250 Hz bis 2 kHz ein Toleranzschlauch von ± 3 dB zugelassen, doppelt so breit wie für Kopfhörer (Abb. 5/81), und daher nicht geeignet, um Klangfärbungen auszuschließen. Hinzu kommen notwendige Toleranzen für die Raumgröße und ‑geometrie, Nachhallzeit, frühe Reflexionen, die in der Praxis nur schwer einzuhalten sind. Aus diesem Grund wird in diesem Standard alternativ die Kopfhörerwiedergabe gemäß ITU-Rec.BS.708 empfohlen. Die Kopfhörerwiedergabe ist prinzipiell als Alternative zur Lautsprecherwiedergabe geeignet, nicht nur bei schlechten Abhörbedingungen, sondern auch für gut reproduzierbare Beurteilungen kritischer Signale. Schließlich können mit Kopfhörern an verschiedenen Orten und/oder für größere Hörerzahlen absolut gleiche und im Rahmen der Kopfhörerwiedergabe optimale Abhörbedingungen geschaffen werden. Ein grundsätzlicher Unterschied zur Laut-
5.5 Verfahren der räumlichen Tonübertragung
371
sprecherdarbietung ist, dass jedem Ohr ganz definiert ein elektroakustischer Wandler zugeordnet ist, der praktisch nicht auf das jeweils andere Ohr einwirkt, Gegebenheiten, die bei der üblichen Lautsprecherwiedergabe nicht realisierbar sind. Nachteilig ist bei Kopfhörerwiedergabe, soweit es sich nicht um Kunstkopfaufnahmen handelt, die Lokalisiertheit des Hörereignisses im oder am Kopf, also die sog. Im-Kopf-Lokalisierung oder IKL. Dazu kommen eine gewisse Lästigkeit des Tragens des Kopfbügels und das Mitwandern des Klangbilds bei Kopfdrehungen, also die Kopfbezogenheit des Klangbilds, sofern diese nicht durch das relativ aufwändige head trackingverfahren überwunden wird (siehe hierzu Kap. 5.5.5.1).
Abb. 5/81. Frequenzgang-Toleranzen im Vergleich: Lautsprecher: Für den Schallpegel am Referenzpunkt in einem Abhörraum gemäß ITU-Rec.BS.1116, gestrichelt, Kopfhörer: Für das Diffusfeld-Übertragungsmaß eines Studio-Kopfhörers nach ITU-Rec.BS.708, durchgezogen.
5.5.4.1 Phantomschallquellen im Kopf Wird eine Zweikanal-Stereoaufnahme über Kopfhörer abgehört, so entsprechen den Phantomschallquellen auf der Lautsprecherbasis Phantomschallquellen im Kopf auf einer Verbindungslinie zwischen den Ohren. Die Auslenkung eines Hörereignisses auf dieser Linie wird als Lateralisation bezeichnet. Diese Linie ist nach oben gebogen, so dass Mittenschallquellen erhöht zur Schädeldecke hin erscheinen. Wie bei den Phantomschallquellen bei Lautsprecherwiedergabe führen Pegel- und/oder Laufzeitdifferenzen zur Auswanderung des Hörereignisorts. Während bei Lautsprecherwiedergabe der Hörereignisort bereits bei rund 15 dB Pegeldifferenz zwischen den Lautsprechersignalen ganz zur Seite der Lautsprecherbasis auswandert, wird bei Kopfhörerwiedergabe eine größere Pegeldifferenz für eine Abbildung ganz seitlich benötigt. Auch nimmt die Lateralisationsunschärfe zu. Bei monotischer Darbietung wird das Hörereignis am Ohreingang lokalisiert, was oft als unangenehm empfunden wird. 5.5.4.2 Entzerrung der Kopfhörer Beim natürlichen Hören werden die spektralen Merkmale der Ohrsignale, die sich aus der Richtcharakteristik des Außenohrs ergeben, im Lokalisierungsprozess so verrechnet, dass sie nicht als Klangfarbenmerkmal in Erscheinung treten. Die Wahrnehmung der Klangfarbe ist
372
5 Tonaufnahme und Tonwiedergabe
vom Ort der Schallquelle weitgehend unabhängig. Diese sog. inverse Filterung der Außenohr-Übertragungsfunktion durch das Gehör [Theile, 1986] erfolgt jedoch nur dann, wenn die Wirkung des Außenohrs auf die Bildung der Ohrsignale erkannt und als sol