Handbuch der Tonstudiotechnik [9., aktualisierte und erweiterte Auflage] 9783110759921, 9783110759709

With the release of its ninth edition in fifty years, this handbook is a standard work of reference in the field of prof

784 148 188MB

German Pages 1706 [1682] Year 2023

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Handbuch der Tonstudiotechnik [9., aktualisierte und erweiterte Auflage]
 9783110759921, 9783110759709

Table of contents :
Gesamtübersicht
Vorwort
Die Herausgeber
Verzeichnis der Autoren
Inhalt
Band 1
1 Grundlagen der Akustik
2 Schallquellen
3 Schallwahrnehmung
4 Mikrofone und Lautsprecher
5 Tonaufnahme und Tonwiedergabe
6 Klanggestaltung
7 Analoge Tonsignalspeicherung
8 Analoge Tonregieanlagen
9 Analoge Tonstudiomesstechnik
10 Beschallung
11 Arbeitssicherheit und Gesundheitsschutz
Band 2
12 Grundlagen der digitalen Tontechnik
13 Audiocodierung
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
15 Digitale Tonsignalspeicherung
16 Digitale Betriebstechnik
17 Rundfunksysteme
18 Film- und Fernsehton
19 Qualitätssicherung
Fachwörter und Abkürzungen Englisch - Deutsch
Sachregister

Citation preview

Handbuch der Tonstudiotechnik

Handbuch der Tonstudiotechnik Band 1 9., aktualisierte und erweiterte Auflage Herausgegeben von Michael Dickreiter, Volker Dittel, Wolfgang Hoeg und Martin Wöhr

Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.

ISBN 978-3-11-075970-9 e-ISBN (PDF) 978-3-11-075992-1 e-ISBN (EPUB) 978-3-11-076008-8 Library of Congress Control Number: 2022935904 Bibliographic information published by the Deutsche Nationalbibliothek The Deutsche Nationalbibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data are available on the internet at http://dnb.dnb.de. © 2023 Walter de Gruyter GmbH, Berlin/Boston. Satz: Michael Peschke, Berlin Druck und Bindung: CPI books GmbH, Leck www.degruyter.com

Gesamtübersicht Band 1 Vorwort  VII Die Herausgeber  XI Verzeichnis der Autoren  XIII Inhalt  XIX 1 Grundlagen der Akustik  1 2 Schallquellen  67 3 Schallwahrnehmung  117 4 Mi­kro­fone und Lautsprecher  139 5 Tonaufnahme und Tonwiedergabe  231 6 Klanggestaltung  427 7 Analoge Tonsignalspeicherung  483 8 Analoge Tonregieanlagen  553 9 Analoge Tonstudiomesstechnik  639 10 Beschallung  685 11 Arbeitssicherheit und Gesundheitsschutz  743

Band 2 Inhalt  VII 12 Grundlagen der digitalen Tontechnik  785 13 Audiocodierung  837 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung  929 15 Digitale Tonsignalspeicherung  969 16 Digitale Betriebstechnik  1067 17 Rundfunksysteme  1229 18 Film- und Fernsehton  1407 19 Qualitätssicherung  1511 Fachwörter und Abkürzungen Englisch - Deutsch  1591 Sachregister  1619

Vorwort In einem Buch nachzuschlagen, welches mit Kenntnis und Sorgfalt entstand, hebt dieses aus der Menge loser und breit gestreuter Fachartikel heraus. So lässt sich die Arbeit von zahlreichen Autorinnen und Autoren, Bearbeitern und Verlagsmitarbeitern und -mitarbeiterinnen zusammenfassen, die an der vorliegenden 9. Auflage des Handbuchs der Tonstudiotechnik mitgewirkt haben. Seit seiner Erstausgabe im Jahr 1976 ist „der Dickreiter“ der Klassiker unter den Fachbüchern für die professionelle Audiotechnik. Einst hervorgegangen aus einer Loseblattsammlung der Schule für Rundfunktechnik (srt) in Nürnberg, entwickelte sich daraus rasch ein Standardwerk für Generationen von Studierenden und Anwendern in der Audiobranche. Bereits ab der 2. Auflage übernahm der K. G. Saur Verlag, München, den Druck und Vertrieb des gesammelten Wissens. Die frühen Auflagen waren geprägt von der analogen Tonstudiotechnik, vom Mikrofon bis zum Mischpult, vom Verstärker bis zum Lautsprecher. Ende der 1970er Jahre wurde der Ton zunehmend digitaler. Erste innovative professionelle Geräte kamen auf den Markt. Forschung, Wissenschaft und Unternehmergeist nahmen sich der neuen Themenvielfalt an. Es war die Ära der sich rasant entwickelnden digitalen Signalverarbeitung, die die Audiowelt revolutionierte. Arbeitsabläufe und Berufsbilder veränderten sich, vernetzte Systeme ließen Ton, Bild und Text näher aneinanderrücken. Die Verbreitungswege der Medienunternehmen, wie auch die Menge der Medieninhalte nahmen drastisch zu. An den Schnittstellen analog-digital-analog wurde das Zusammenspiel alter und neuer Technologien komplexer. Eine 5. Neuauflage des Handbuchs der Tonstudiotechnik folgte dieser Entwicklung, im Jahr 1990 entstand die erste zweibändige Ausgabe. Die nach wie vor geltenden Grundlagen sowie neuestes Wissen wurden damals in bewährter Weise und verständlicher Form zusammengefügt und umfassend erläutert. Die digitale Tontechnik fand ihren ersten Auftritt im Fachbuch. Achtzehn Jahre sollte es dauern, bis eine  7., vollständig neu bearbeitete und wesentlich erweiterte Auflage des Handbuchs der Tonstudiotechnik erschien. Die Neuausrichtung einer sich mehr und mehr verzweigenden, nahezu grenzenlos mobilen digitalen Medienwelt erweiterte sprungartig die technischen und gestalterischen Möglichkeiten. Zahlreiche tradierte Abläufe und Qualitätsparameter standen auf dem Prüfstein, neue internationale Standards entwickelten sich. Es wurde Zeit, dem Anwender im Tonstudio wieder ein kompetentes Nachschlagewerk in die Hand zu geben, welches auf dem neuesten Stand der Technik war. Auf den Weg gebracht wurde das Projekt von den damaligen Hörfunkbetriebsleitern der öffentlich-rechtlichen Rundfunkanstalten in Deutschland. Die Realisierung übernahm das Bearbeiterteam Martin Wöhr (Leitung), Michael Dickreiter, Volker Dittel und Wolfgang Hoeg. Herausgegeben wurden die zwei Bände von der ARD.ZDF medienakademie (ehemals srt), die Veröffentlichung betreute weiterhin der K. G. Saur Verlag (2008). Danach schien die Fortschreibung des Standardwerks wegen sich ändernder Rahmenbedingungen zu Ende zu gehen. Der inzwischen mit dem De Gruyter Verlag, Berlin, fusionierte K. G. Saur Verlag war es schließlich, der fünf Jahre später die Bearbeiter ermunterte, die Tradition und inhaltliche Qualität des Klassikers Handbuch der Tonstudiotechnik weiterzuführen und gleichzeitig auch die verantwortungsvolle Aufgabe als Herausgeber zu übernehmen. Mit https://doi.org/10.1515/9783110759921-201

VIII 

 Vorwort

der 8. Auflage (2013) folgte das Team diesem Ansinnen und brachte die tontechnische Themenvielfalt auf den damals neuesten Stand. Heute, mehr als 40 Jahre nach dem Erscheinen der 1. Auflage, erleben die Tonschaffenden einen Paradigmenwechsel. Die analoge Audiowelt wandelt sich in IT-gesteuerte Prozesse. Metadaten, Giga- und Terabyte sowie die Gesetze des Internets sind jetzt das Maß der Dinge, auch im Tonstudio. Eine Vielzahl von Formaten und internationalen Standards regelt heute den enormen Datenfluss in einer global vernetzten Medienwelt. Mikrofone und Lautsprecher sind als „Relikte“ die letzten verbleibenden, aber dennoch wichtigen analogen Säulen in einem modernen digitalen Studio. Sie sind Grund genug, die nach wie vor geltenden physikalischen und akustischen Gesetze der Audiotechnik nicht in den Hintergrund zu rücken. Die Neuauflage zeigt nicht nur eine Fortschreibung bewährter Methoden und Erkenntnisse auf. Sie beleuchtet auch, wie technische Prozesse in der Studiotechnik beginnen, sich neu aufzustellen, wobei die Beständigkeit des Fortschritts ungewiss ist. Die Innovationszyklen werden zunehmend kürzer. Im vorliegenden 1. Band der 9. Auflage finden sich die Kapitel mit den physikalisch-technischen Grundlagen des Schalls und des Hörens. Sie sind die Wissensbasis für das Folgende. Insbesondere Kapitel 4 und 5, die sich mit der Aufnahme- und Wiedergabetechnik sowie mit der heutigen Mehrkanaltechnik befassen, sind sorgfältig und ausführlich überarbeitet. Die Kapitel zur analogen Tonsignalspeicherung und Studiotechnik sind in weiten Bereichen aus der 8. Auflage übernommen und dem modernen Stand der Technik angepasst; hinzugekommen sind Erkenntnisse zur Langzeitlagerung von Speichermedien. Auch Kapitel 6, welches die Klanggestaltung zum Thema hat und Kapitel  10, Beschallung, wurden nach jüngsten, praxisnahen Erfahrungen weitergeschrieben. Im Kapitel 11, Arbeitssicherheit und Gesundheitsschutz, wird dem Umstand Rechnung getragen, dass die Verästelungen von Vorschriften, Schutzmaßnahmen und betrieblichen Verantwortlichkeiten sich auf alle Anwender in den tontechnischen Berufen verteilen und von allgemeinem Interesse sind. Der 2. Band widmet sich ausschließlich der digitalen Audiotechnik. Die Grundlagen der digitalen Signalverarbeitung sowie die aktuellen Formate und Verfahren der Audiocodierung sind, wie auch die Studioprozesse, praxisorientiert beschrieben. Das Kapitel der digitalen Signalspeicherung ist durch Informationen zur Restaurierung historischer Tonaufzeichnungen ergänzt. Auch das differenzierte Mastering und die derzeitigen digitalen Verbreitungswege von Audioinhalten wurden aktualisiert, einschließlich der Mehrkanalübertragung im Rundfunk und ergänzt mit Erkenntnissen zum Downmix und zur Programmlautheit. Ein Unterkapitel widmet sich überdies dem wichtigen Thema zur barrierefreien Kommunikation. Die heutige, IT-basierte Betriebstechnik im Hörrundfunk ist in einem neuen Kapitel ausführlich behandelt. Insbesondere die mehrschichtigen Audionetzwerke, die IT-Sicherheit und die Übertragungswege in Datennetzen der Tonstudiotechnik sind umfangreich dargestellt. Die digitalen Rundfunksysteme sowie der Film- und Fernsehton sind umfassend auf den neuesten Stand gebracht. Die Komplexität der modernen Tonstudiotechnik erfordert einen breit gefächerten Wissensstand beim Anwender. Deshalb finden sich in den Kapiteln gelegentlich Begriffe und deren Erklärungen verteilt an mehreren Stellen, wenn sie dort dem besseren Sachverständnis der Zusammenhänge dienen. Dies erhöht die Lesbarkeit, ohne zu viel auf Querverweise hindeuten zu müssen. Die unterstützenden zahlreichen Abbildungen im Text fördern zudem

Vorwort 

 IX

vorteilhaft das Verständnis beim Lesen. Die ausführlichen Angaben zu Standards und Literatur am Ende eines jeden Kapitels, die alphabetische Auflistung und Erläuterung häufig verwendeter Fachwörter und Abkürzungen (Englisch-Deutsch) sowie ein ausführliches Sachregister, runden die Nutzung des Buchs für den Leser ab. Die Herausgeber danken allen beteiligten Fachautoren aus Forschung, Lehre, Indus­ trie und Praxis für ihre neuen Beiträge, wie auch für ihre fachkundige Aktualisierung früherer Manuskripte. Einige Autoren aus der 7. und 8. Auflage konnten an dem neuen Werk leider nicht mehr mitarbeiten. Ihnen sei für die Verwendung ihrer früheren Beiträge herzlich gedankt. Dem Verband Deutscher Tonmeister (VDT) wird für die Vermittlung neuer Autoren gedankt, deren Expertise für das Gelingen des Fachbuchs wichtig war. Unser Dank geht schließlich an die Mitarbeiterinnen und Mitarbeiter des De Gruyter Verlags, die uns mit Geduld und Verständnis stets hilfreich zur Seite standen. Er gilt auch Michael Peschke, der mit gewohnter Sorgfalt das neue Layout erstellte sowie Arnd Rüttger für die neuen Abbildungen. Den Leserinnen und Lesern wünschen wir, sie mögen in diesem Handbuch nachhaltige Antworten auf alle Fragen finden, die sich in ihrem Berufsumfeld der Audiotechnik ergeben. Martin Wöhr, im Dezember 2022

Die Herausgeber Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; Studium an der Musikhochschule in Detmold mit dem Abschluss Dipl.-Tonmeister, danach Aufbau eines Studiengangs zum Toningenieur an der Universidad Austral in Chile, anschließend Studium der Musikwissenschaft mit den Nebenfächern Physik und Psychologie an der Universität Heidelberg, Promotion zum Dr. phil., von 1972 bis 2002 Dozent und Fachautor an dem zentralen Aus- und Fortbildungsinstitut der öffentlich-rechtlichen Rundfunkanstalten in Nürnberg – früher srt, heute ARD.ZDF medienakademie, Lehrbeauftragter an der Universität Heidelberg; Mitglied VDT. Buchveröffentlichungen, u. a.: Musikinstrumente, Moderne Instrumente, historische Instrumente, Klangakustik (7. Aufl. 2007), Partiturlesen, (6. Aufl. 2010, auch in Englisch, Japanisch, Chinesisch), MikrofonAufnahme, Aufnahmeräume, Instrumente, Mikrofone, Stereo- und Surroundaufnahme (4. Aufl. 2011). Dittel, Volker, Dipl.-Ing.; Studium der Elektrischen Nachrichtentechnik an der RWTH Aachen, Studienschwerpunkte Halbleitertechnik und Technische Akustik, von 1967 bis 2006 Mitarbeiter des Westdeutschen Rundfunks, Köln, in den Bereichen Hörfunktechnik, Systementwicklung und Schulung, Leiter der Fachabteilung Audiosystemtechnik, Mitglied VDT. Tätigkeitsfelder: Automatisierung von Sendeabläufen, programmbegleitende Systeme für Hörfunk und Fernsehen, digitale Aufzeichnungs-, Produktions- und Sendeeinrichtungen, Qualitätssicherung, langjähriger Vorsitzender des ARD-Arbeitskreises Audiosystemtechnik (AKAS), Lehrauftrag an der Fakultät Informations-, Medien- und Elektrotechnik der Fachhochschule Köln für Rundfunk- und Fernsehtechnik, Autor naturwissenschaftlicher Sendungen über Fernseh- und Satellitentechnik für die Dritten Programme der ARD und Mitautor der zu diesen Sendungen veröffentlichten Begleitbücher. Hoeg, Wolfgang, Dipl.-Ing.; Studium der Nachrichtentechnik/Elektroakustik an der Technischen Hochschule Dresden mit Nebenfach Tonmeister, postgrad. Studium der Automatisierungstechnik. Seit 1959 tätig in Forschung und Entwicklung im Rundfunk- und Fernsehtechnischen Zentralamt (RFZ) der Deutschen Post, ab 1991 im Forschungsinstitut (FI) der Deutschen Telekom, bis 1999 Leiter der Abt. Audiosysteme bei der Deutschen Telekom Berkom Berlin; Mitglied VDT, Fellow Member AES. Tätigkeitsfelder u. a. Psychoakustik, Tonstudiotechnologie, Tonanlagentechnik, Rundfunk-Stereofonie und Mehrkanalton, Beschallungstechnik sowie Digitaler Rundfunk (DAB), Mitarbeit internationale Standardisierung (OIRT, EBU, ITU-R, Eureka147/DAB); Lehrauftrag für Tonmeisterausbildung an der Hochschule für Musik Hanns Eisler Berlin, zahlreiche Fachpublikationen, Mitautor/Herausgeber von Fachbüchern zu Stereofonie, Akustik und Digital Audio Broadcasting. Wöhr, Martin, Dipl.-Ing. (FH); Studium der Nachrichten- und Hochfrequenztechnik an der FH München sowie Studium der Musik am Richard-Strauß-Konservatorium und an der staatl. Musikhochschule, beide in München; von 1968 bis 2005 tätig beim Bayerischen Rundfunk, Hörfunk, München, zunächst als TonmeisterTechnik, ab 1990 Leiter der Abteilung Studioproduktion und Betrieb, von 2005 - 2009 Geschäftsführer des Bildungswerks des Verbandes Deutscher Tonmeister (VDT); Mitglied VDT und Fellow Member AES. Beschäftigt als Tonmeister-Technik überwiegend in der Musikproduktion für Rundfunk und Tonträgerindustrie, Mitarbeit bei Rundfunkprojekten des Instituts für Rundfunktechnik (IRT), ab 1990 Mitarbeit in Arbeitsgruppen und Gremien der ARD und EBU, maßgebliche Mitarbeit bei der Einführung der Mehrkanalübertragung im Hörfunk in der ARD, mehrere Veröffentlichungen in Fachzeitschriften.

https://doi.org/10.1515/9783110759921-202

Verzeichnis der Autoren a Campo, Markus, Dr.-Ing. Elektrotechnik; Studium und Promotion an der RWTH Aachen; seit 1997 freiberufliche Tätigkeit; Berater und Gutachter im Bereich Informationssicherheit; ISO 27001 Lead Auditor; ISO 27001 Lead Implementer; öffentlich bestellter und vereidigter Sachverständiger. Autor des Kapitels 16.4 Arasin, Peter, Dipl.-Ing.; Sennheiser electronic, Wedemark, Ruhestand seit 2018; Produktmanager,1985-1998; Produkttrainer 1998-2018; Veröffentlichungen zur Funkmikrofontechnik, u. a. „The Sennheiser Sound Academy Wireless Handbook”. Autor der Kapitel 4.3, 4.5.2 Baumgartner, Hannah, Dipl.-Ing. Hörtechnik & Audiologie (MSc), Mediengestalterin Bild & Ton; Wissenschaftliche Mitarbeiterin Fraunhofer IDMT, Oldenburg; Mitglied VDT. Autorin des Kapitels 17.7 Bock, Stefan, Tonmeister; Geschäftsführer der msm-studios, München, GmbH & Co.KG; Mitglied VDT, AES Autor des Kapitels 15.2 Camerer, Florian, Ing.-Nachrichtentechnik; Tonmeister ORF-Fernsehen; Seminartätigkeit zu den Themen Surround-Sound und Lautheit; 10 Jahre Ton für Dokumentarfilme; seit 25 Jahren Nachbearbeitung für Neujahrskonzert; Mitglied AES, VdT, ÖTMV, Chairman EBU-Gruppe PLOUD seit 2008. ​Autor der Kapitel 5.6.5, 19.2, 19.4, 19.6 Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1, 2, 3, 4, 5.3, 5.6.1, 5.6.2, 5.6.3.7, 7, 8, 9 Erk, Alexander, Dipl.-Inf. (FH); ARD-Frequenzmanagement, ARD/Bayerischer Rundfunk, München. Autor des Kapitels 17.5 Färber, Nikolaus, Dr.-Ing.; Abteilungsleiter Embedded Audio, Fraunhofer IIS, Erlangen, seit 2003; Post-Doc in der Multimedia Systems Group, Stanford University, USA, 2000 – 2001; Senior Researcher Speech Processing bei Ericsson Eurolab, Nürnberg, 2001 – 2003; Leiter der 3GPP Video Codec Ad-Hoc Group zur Einführung von H.264/AVC, 2004-2005; Technischer Leiter der Internet Streaming Media Alliance (ISMA), 2004-2008; Sprecher der Open Source Software (OSS) Compliance Beauftragten am Fraunhofer IIS, seit 2021. Autor des Kapitels 17.4 Feiten, Bernhard, Dr.-Ing. Elektrotechnik; Design und Entwicklung Digitaler Musikinstrumente, msye, Berlin; Wissenschaftlicher Assistent in Fachgebieten Kommunikationstechnik und Computermusik an der Technischen Universität Berlin, 1984 – 1995; Projektleiter und Senior-Expert für Audio- / VideoStreaming und Quality of Experience bei Deutsche Telekom, 1996 – 2021; Entwicklung der App „Eternal Machine“, Entwicklung der Standards ITU Rec. BS 1387 und ITU P.1201, P.1203, P.1204; Entwicklung der App „MsyChords“. Autor der Kapitel 12.5, 12.6 Fuchs, Harald, Dipl. Ing.; Abteilungsleiter Mediensysteme und Anwendungen, Fraunhofer IIS, Erlangen. Autor der Kapitel 5.5.2, 13.2.5, 13.4.6 Genuit, Klaus, Prof. Dr.-Ing.; Geschäftsführer, HEAD acoustics GmbH, Herzogenrath; Lehrtätigkeit RWTH Aachen, Psychoakustik und Sound-Engineering; Mitglied AES, DEGA, VDE, VDI, ASA, JAES und JSAE. Autor des Kapitels 4.2.4.6 https://doi.org/10.1515/9783110759921-203

XIV 

 Verzeichnis der Autoren

Goeres-Petry, Jürgen, Dipl.Ing. Ton- und Bildtechnik, MBA; Programmmanager Deutschlandradio Köln/Berlin; Tonmeister Badisches Staatstheater Karlsruhe, Hessischer Rundfunk, Frankfurt, Deutschlandradio; Mitglied VDT. Autor der Kapitel 3.1, 11.2 Graubner, Maxim, Dipl.-Ing. ETiT, Nachrichten- und Kommunikationstechnik; Stabsstelle Technische Projekte im Ressort Hörfunksysteme der Hörfunkproduktion des Hessischen Rundfunks, Frankfurt; ARD-Hörfunksternpunkt 2016-2020; Trainer bei der ARD.ZDF-Medienakademie für Audio over IP und IT für die Medienproduktion seit 2015. Mitglied VDT, AES, EBU-ACIP. Autor des Kapitels 16.5.6 Graul, Wolfram, Dipl.-Tonmeister; Cheftonmeister und Abteilungsleiter Musikproduktionen, Bayerischer Rundfunk, München, im Ruhestand; Lehrauftrag Tonmeister, UdK, Berlin, 2010-2020. Autor des Kapitels 5.6.3 Grewe, Yannik, Master of Engineering – Audiovisuelle Medien, Ton; Senior Engineer für Next Generation Audio, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Bauer Studios, Ludwigsburg, 2011; Wissenschaftliche Hilfskraft, Fraunhofer IIS, 2013, Toningenieur, Schwerpunkt 3D-Audio, Next Generation Audio und MPEG-H Audio, Fraunhofer IIS, 2015-2020; Mitglied VDT, AES. Autor der Kapitel 5.5.1.1, 5.5.2 Grill, Bernhard, Prof. Dr.-Ing., Elektrotechnik; Institutsleiter am Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen, seit 2016; Honorarprofessor an der Friedrich-Alexander-Universität ErlangenNürnberg (FAU); Mitentwicklung von mp3 und AAC; Deutscher Zukunftspreis des Bundespräsidenten für die Entwicklung von mp3, (gms. mit Karlheinz Brandenburg, Harald Popp), 2000; Mitarbeit bei den ISO-Standardisierungen seit 1988. Autor des Kapitels 13 Herla, Siegbert, Dipl.-Ing.; Ruhestand seit 2013; Leiter des Arbeitsbereichs Tonstudiotechnik und Tonsignalspeicherung am Institut für Rundfunktechnik (IRT), 1983 – 1996; danach Fachreferent der Sachgebiete Aufzeichnung, Archive und Produktionssysteme Fernsehen am Institut für Rundfunktechnik (IRT); Mitarbeit in nationalen und internationalen Rundfunk- und Standardisierungsgremien, Vortragstätigkeit bei ARD/ ZDF-Akademie, Hochschulen und nationalen und internationalen Tagungen; Veröffentlichungen zur Aufzeichnung und Archivierung. Autor des Kapitels 15.1 Hildebrand, Andreas, Dipl.-Ing. Informatik; Senior Produktmanager für RAVENNA, AoIP Evangelist, ALC NetworX, München, seit 2008; Entwicklungsleiter RadioROC bei gtc Film- und Fernsehstudiotechnik, Hamburg, ab 1990; Projektleiter Einführung Nachrichtenverteilsystem bei CNN-SI (Atlanta) für Nexus Informatics, München, ab 1996 ; Produktmanagement DigaSystem bei DAVID GmbH, München ab 1997; Autor der Kapitel 16.3.1, 16.3.6, 16.3.7 Hoeg, Wolfgang, Dipl.-Ing.; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1.3.5, 1.4.2, 8.1, 10,2, 13.5 bis 13.9, 17.2, 17.6, 17.7, 19.1, 19.5, 19.7, 19.8 Kratschmer, Michael, Dipl.-Ing.; Gruppenleiter Audio Metadaten, Fraunhofer-Institut für Integrierte Schaltungen (IIS), Erlangen; Editor des MPEG-D DRC Standards, Mitarbeit in internationalen Standardisierungsgremien (MPEG, SMPTE, ITU-R). Autor der Kapitel 13.2.4, 13.2.5

Verzeichnis der Autoren 

 XV

Kühn, Manfred, Dr.-Ing.; im Ruhestand; Entwicklungsingenieur, Labor- und Abteilungsleiter, DP Rundfunkund Fernsehtechnisches Zentralamt, 1973 - 1989; Wissenschaftlicher Mitarbeiter DBP, Forschungs- und Technologiezentrum, ab 1991; Gruppenleiter Rundfunk und Breitbandkabel der Telekom, ab 1999; Abteilungsleiter Broadcast Networks & Services der T-Systems Media & Broadcast. Mitarbeit in der OIRT, 1985-1988; Mitarbeit bei der MPEG-Standardisierung (ISO MPEG WG 12), 1991-1993; Mitarbeit bei der DVBStandardisierung im Europäischen DVB-Projekt, Mitglied in der Kammer der Technik, bis 1990; Mitglied FKTG. Autor des Kapitels 17.2.5 Lauterbach, Thomas, Prof. Dr. rer. nat., Dipl.-Phys Univ.; Professor, Technische Hochschule Georg Simon Ohm, Nürnberg; DAB-Entwicklung (Vorausentwicklung, Robert Bosch GmbH), 1992 – 1997. Mitautor der Kapitel 17.1 bis 17.3 Lott, Frank, Dipl.-Ing. Nachrichtentechnik (FH); Hauptabteilungsleiter HA Planung in der Produktions- und Technikdirektion des Bayerischen Rundfunks in München; Referent des technischen Direktors des BR, Leitung Hauptabteilung Produktion und Sendung, Vorsitz Verwaltungsrat und Beirat der ARGE RBT; Mitglied VDT. Autor des Kapitels 16.1 Lutzky, Manfred, Dipl.-Ing. Elektrotechnik; Abteilungsleiter Audio für Kommunikationssysteme, Fraunhofer IIS, Erlangen; Fraunhofer Preisträger für Entwicklung von AAC-ELD. Autor der Kapitel 13.4.10, 13.5 Maempel, Hans-Joachim, Dr. phil., Dipl.-Tonmeister; Leiter der Abteilung Akustik und Musiktechnologie | Studiotechnik und IT, Staatliches Institut für Musikforschung, Berlin; Wissenschaftlicher Mitarbeiter am Fachgebiet Audiokommunikation der TU Berlin 2006-2012; Vorstandsmitglied des VDT 2005-2009, Mitglied VDT. Autor der Kapitel 5.6.4, 6 Maniak, Stephan, Dr. habil., Dr.-Ing., Dipl.-Ing.; Software-Projektleiter bei CGI Deutschland in Bochum, tätig als wissenschaftlicher Mitarbeiter, Visiting Professor und Lehrbeauftragter in Forschung und Lehre in den Bereichen Elektrotechnik und Informatik. Autor des Kapitels 15.3 Meltzer, Stefan, Dipl.-Ing.; Chief Business Development Manager, Fraunhofer IIS, Erlangen. Autor der Kapitel 13.4.7.3, 13.4.7.4, 13.4.8.4 Mielke, Ingmar, B.Eng. Elektrotechnik; ARGE Rundfunk-Betriebstechnik, Nürnberg. Autor des Kapitels 19.3 Nettingsmeier, Jörn, Meister für Veranstaltungstechnik, Studium der Schulmusik, Folkwang Universität der Künste Essen und Universität, Duisburg-Essen; Freischaffender Tonmeister; Technischer Leiter und Live Sound Designer, Amsterdam; Vorstandsmitglied VDT, Mitglied AES. Autor des Kapitels 5.5.3.2 Neuendorf, Max, Dipl.-Ing. Elektro- und Informationstechnik an der TU München; Produktmanager und Gruppenleiter der Gruppe Audio- und Sprachcodierung, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Projektleiter verschiedener ISO-Standards, u. a. ISO/IEC 23003-3 (MPEG-D USAC) und ISO/IEC 23008-3 (MPEG-H 3D Audio). Autor des Kapitels 13.4.5

XVI 

 Verzeichnis der Autoren

Nipkow, Lasse, Dipl. El. Ing. HTL, Zürich; Geschäftsführer, Silent Work GmbH, Zürich; Toningenieur, Hochschule der Künste (ZHdK), Zürich; Dozent für Elektrotechnik, Mikrofonierungstechnik und 3D-Audio, SAE Zürich; Wissenschaftlicher Mitarbeiter an der Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, 1998 – 2018; Mitglied VDT (Referatsleitung Musik- und Wortproduktion) und AES (Vorstandsmitglied, Schweiz). Autor der Kapitel 5.4.3, 5.4.5.3, 5.5.6.2, 5.5.6.3 Otto, Helmut, Datentechniker, im Ruhestand seit 2022; VIAVI Solutions Deutschland GmbH, Eningen, 1999-2021; Seminarleiter Netzwerktechnik, Referent bei der ARD-ZDF Medienakademie in Nürnberg und Technischen Akademie, Ostfildern. Autor der Kapitel 16.3.4, 16.3.5 Prosch, Markus, Dipl.-Inf.; Senior Engineer, Fraunhofer IIS, Erlangen; Mitglied WorldDAB Technical Committee; ehemals Chairman Arbeitsgruppen zur Standardisierung MOT und DAB+. Autor der Kapitel 17.1, 17.2, 17.5 Reykers, Heinz Peter, Dipl.-Ing.; Gehobener Ingenieur im WDR, Köln; Trainingspartner der ARD.ZDF medienakademie; Veröffentlichungen zum Mehrkanalton im Hörfunk; Mitglied VDT. Autor der Kapitel 13.4.9, 16 Romahn, Götz, Dr.-Ing., Dipl.-Ing. Nachrichtentechnik, Tonmeister, im Ruhestand; Forschung in den Bereichen Akustik und Telekommunikation; Hauptabteilungsleiter bei RIAS-Berlin/Deutschlandradio; Lehrbeauftragter an der Technischen Universität Berlin; Veröffentlichungen zu Akustik und Telekommunikation. Autor der Kapitel 12.1 bis 12.4, 14.1 Schmidt, Sven, Dipl.- Ing. (FH) Umwelttechnik/Umweltmesstechnik; Sicherheitsingenieur Hessischer Rundfunk, Frankfurt; Fachkraft für Arbeitssicherheit gemäß ASiG, seit 2009. Autor des Kapitels 11.1 Schnell, Markus, Dipl.-Ing.; Gruppenleiter Low Delay Audiocoding, Fraunhofer IIS, Erlangen; Entwicklungsleiter MPEG4 AAC-ELD, 2006-2008; Standardisierung 3GPP EVS, 2008-2014; Entwicklungsleiter LC3 / LC3plus, 2016-2020; Entwicklungsleiter LC3 / LC3plus, 2016-2020. Autor der Kapitel 13.4.10, 13.5, 13.6.3 Slavik, Karl Michael, Ing. Nachrichtentechnik und Elektronik (HTL), Dipl. Päd. für berufsbildende Schulen; Aus- und Weiterbildung in Österreich, Deutschland, England, USA; Audio-, Video und IT-Techniker, seit 1981; Toningenieur und Projektleiter beim Österreichischen Rundfunk 1999–2005, Inhaber ARTECAST Medienund Informationstechnik KG, Wien, seit 2005; Dolby Broadcast Senior Engineer & Consultant, seit 2006; Gastdozent an der ARD-ZDF-Medienakademie und an der Universität Wien; Mitarbeit in internationalen Gremien (EBU); Veröffentlichungen zur Audio- und Videotechnik. Autor des Kapitels 18 Spikofski, Gerhard, Dipl.-Ing. Elektrotechnik; im Ruhestand; Wissenschaftlicher Mitarbeiter am Institut für Rundfunktechnik (IRT), Audiosystemtechnik, 1980-2013; Projektleiter Entwicklung eines nationalen Konzepts für Lautstärke-Messung und Management für ARD und ZDF, 2000-2005; Mitarbeit in nationalen und internationalen Audiostandardisierungsgremien; Mitglied VDT. Autor des Kapitels 5.5.5.1

Verzeichnis der Autoren 

 XVII

Steuck, Ralf, Dipl.-Ing.; Messtechnik und Planung HF beim Norddeutschen Rundfunk; Projektleitung des ersten digitalen Funkhauses, Schwerin, 1996; Veröffentlichungen zur analogen und digitalen Tonstudiotechnik. Autor des Kapitels 14.2 Theile, Günther, Dr.-Ing.; Leiter des Sachgebiets Audiosystemtechnik am Institut für Rundfunktechnik (IRT), München, im Ruhestand; Forschungen, Entwicklungen und Veröffentlichungen zur Aufnahme- und Wiedergabetechnik, virtuellen Akustik und Datenreduktion. Mitglied VDT, AES, DEGA. Autor der Kapitel 5.1, 5.2, 5.4, 5.4.3, 5.5.3, 5.5.4 Vogt, Paul, Dipl. Ing. (FH), Nachrichten- und Kommunikationstechnik; Systemingenieur, Bayerischer Rundfunk, München; ab 2007 Audiomessingenieur, später Projektingenieur, heute Technolgieentwicklung. Autor der Kapitel 16.2.1 bis 16.2.13 Wallaszkovits, Nadja, Dr., Diplom Tonmeisterin (SAE); Professorin, Staatliche Akademie der bildenden Künste, Stuttgart; Leiterin der Audiotechnik im Phonogrammarchiv der Österr. Akademie der Wissenschaften, 2005-2020; Mitglied AES, Past President, Chair Standard group SC-03-06, Mitglied IASA, Vice Chair Technical Committee. Autorin des Kapitels 7.3 Wöhr, Martin, Dipl.-Ing (FH), Tonmeister; siehe Verzeichnis der Herausgeber. Autor des Kapitels 16.2.14 Zink, Alexander, Dipl.-Ing., MBA; Chief Business Development Manager Digital Radio & Broadcast Applications, Fraunhofer IIS, Erlangen; Aktives Mitglied von WorldDAB, Vice-Chairman DRM Consortium (Digital Radio Mondiale); seit 2008 Co-Präsident DRM Association; seit 2009 Liaison Officer und Technical Liaison Officer für Fraunhofer bei der ABU - Asia-Pacific Broadcasting Union; Verleihung des Joseph-vonFraunhofer-Preises zum Thema Digitalradio, 2016. Autor der Kapitel 17.2, 17.2.6, 17.5 Zuleeg, Ralf; Abgeschlossene Berufsausbildung, 40 Jahre praktische Beschallungserfahrung; 1995 Eintritt bei d&b Audiotechnik AG, seit 2005 d&b audiotechnik GmbH & Co.,Kg., seit 2012 Immersive Audio, Abteilungsleiter Soundscape Enablement. Autor des Kapitels 10

Nachstehende Autoren haben in früheren Auflagen mitgewirkt, ihre Beiträge sind teilweise in die aktuelle Auflage eingeflossen: Nikolaus Büttner, Ernst Dohlus, Klaus Hackbart, Christian Hartmann, Klaus M. Heidrich, Roger Heimann, Gernot Meyer-Schwarzenberger, Klemens Nicklaus, Michael Schäfer, Thomas Schierbaum, Bernhard Schullan, Henrik Schulze und Gerhard Stoll.

Inhalt Vorwort  VII Die Herausgeber  XI Verzeichnis der Autoren  XIII 1 Grundlagen der Akustik  1 1.1 Schallschwingungen  1 1.1.1 Typen von Schallschwingungen  1 1.1.2 Eigenschaften von Schwingungen  4 1.1.2.1 Einfache Schwingungen  4 1.1.2.2 Überlagerung von Schwingungen  5 1.1.2.3 Zusammengesetzte Schwingungen  6 1.2 Schallfelder  7 1.2.1 Schallausbreitung in Luft  9 1.2.1.1 Kugelwelle und ebene Welle  12 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz  13 1.2.1.3 Schalldruckpegel  15 1.2.1.4 Schallleistung und Schallintensität  16 1.2.2 Schallausbreitung im Raum  17 1.2.2.1 Schallreflexion  18 1.2.2.2 Schallbeugung  21 1.2.2.3 Schallbrechung  22 1.2.2.4 Schallabsorption  23 1.2.2.5 Schalldämmung  29 1.3 Raumakustik  30 1.3.1 Zeitlicher Aufbau des Schallfelds  30 1.3.2 Begriffe der Hörakustik  32 1.3.3 Direktschall und erste Reflexionen  33 1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß  35 1.3.4 Hall  35 1.3.4.1 Nachhallzeit  36 1.3.4.2 Hallradius und Hallabstand  40 1.3.5 Diffusität  43 1.4 Akustik von Aufnahmestudios  44 1.4.1 Störgeräuschpegel  44 1.4.2 Raumakustik von Aufnahmestudios und Regieräumen  45 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik  47 1.4.2.2 Schallkabinen  49

XX 

 Inhalt

1.4.3 Akustik von Regieräumen  50 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume  50 1.4.4 Akustik großer Aufnahmestudios und Konzertsäle  51 Historische Konzertsäle, Opernhäuser und Kirchen  53 1.5 Konzertsäle des 18. Jahrhunderts  53 1.5.1 1.5.2 Konzertsäle des 19. Jahrhunderts  55 1.5.3 Konzertsäle des 20. Jahrhunderts  57 1.5.4 Opernhäuser und Theater  60 1.5.5 Kirchen  62 Standards  64 Literatur  64 2 Schallquellen  67 2.1 Menschliche Stimme  67 2.1.1 Akustische Eigenschaften  67 2.1.1.1 Sprachspektrum  69 2.1.1.2 Sprachschallpegel  71 2.1.1.3 Singstimme  71 2.1.2 Gerichtete Schallabstrahlung  72 2.1.3 Sprachverständlichkeit  73 2.2 Musikinstrumente  74 2.2.1 Akustische Eigenschaften  74 2.2.1.1 Klangeinsatz  77 2.2.1.2 Quasistationärer Klangabschnitt  77 2.2.1.3 Ausklingvorgang  80 2.2.1.4 Musikalische Dynamik  81 2.2.1.5 Stimmung der Instrumente  82 Akustische Instrumente   84 2.2.2 2.2.2.1 Streichinstrumente  85 2.2.2.2 Holzblasinstrumente  87 2.2.2.3 Blechblasinstrumente  93 2.2.2.4 Klavier und Cembalo  94 2.2.2.5 Orgel  95 Akustische Gitarre und E-Gitarre  96 2.2.2.6 2.2.2.7 Schlaginstrumente  98 2.2.3 Schallabstrahlung  99 2.2.3.1 Streichinstrumente   99 2.2.3.2 Holzblasinstrumente  102 2.2.3.3 Blechblasinstrumente  103 2.2.3.4 Konzertflügel   104 2.2.3.5 Kirchen- und Konzertorgel   105 2.2.4 Elektronische Instrumente  105 2.2.4.1 Historische Entwicklung  106 2.2.4.2 Elektronische Klangerzeugung  107

Inhalt 

Verfahren der elektronischen Klangveränderung  109 2.2.4.3 2.2.4.4 Klangsteuerung durch MIDI  111 2.2.4.5 Keyboards und Rhythmusgeräte   114 Standards  115 Literatur  115 3 Schallwahrnehmung  117 3.1 Das Gehör  117 3.1.1 Außenohr  117 3.1.2 Mittelohr   118 3.1.3 Innenohr  118 3.2 Schallereignis und Hörereignis  120 3.3 Eigenschaften der Schallwahrnehmung  121 3.3.1 Lautstärkepegel und Lautheit  121 3.3.2 Anpassung und Maskierung  125 3.3.3 Tonhöhe   126 3.3.4 Nichtlineare Verzerrungen  127 3.3.5 Rauheit und Schärfe  127 3.3.6 Subjektive Tondauer  128 3.3.7 Hörbarkeit von Phasenänderungen  128 3.3.8 Psychoakustisches Modell  129 3.4 Räumliches Hören natürlicher Schallquellen  129 3.4.1 Wahrnehmung der Richtung   131 3.4.1.1 Horizontale Ebene  131 3.4.1.2 Vertikale Ebene  133 3.4.2 Wahrnehmung der Entfernung  134 3.4.2.1 Im-Kopf-Lokalisierung  135 Standards  136 Literatur  136 Mi­kro­fone und Lautsprecher  139 4 Physikalische Prinzipien der Schallwandler  139 4.1 4.2 Mi­kro­fone  142 4.2.1 Eigenschaften von Mi­kro­fonen  144 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit  144 4.2.1.2 Übertragungsbereich  144 4.2.1.3 Frequenzgang  145 4.2.1.4 Störpegel  149 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze  151 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz   151 4.2.1.7 Richtcharakteristik  151 4.2.1.8 Bauformen von Mi­kro­fonen  156 4.2.1.9 Wind- und Poppstörungen  166 Störungen durch Körperschall  168 4.2.1.10

 XXI

XXII 

 Inhalt

4.2.2 Kondensatormi­kro­fone  169 4.2.2.1 Spannungsversorgung  169 4.2.2.2 Mi­kro­fon-Vorverstärker mit analogem Ausgang  171 Mi­kro­fon-Vorverstärker mit digitalem Ausgang  173 4.2.2.3 4.2.2.4 Druckempfänger  177 4.2.2.5 Druckgradientenempfänger  178 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik  180 4.2.2.7 Stereomi­kro­fone  181 4.2.3 Dynamische Mi­kro­fone  184 4.2.3.1 Tauchspulmi­kro­fon  185 Bändchenmi­kro­fon  187 4.2.3.2 4.2.4 Spezialmi­kro­fone  188 4.2.4.1 Kardioidebenenmi­kro­fon  188 4.2.4.2 Grenzflächenmi­kro­fon  189 4.2.4.3 Großmembran- und Röhrenmi­kro­fon  191 4.2.4.4 Lavalier-Mi­kro­fon  192 4.2.4.5 Kontaktmi­kro­fon  193 4.2.4.6 Kunstkopf-Mi­kro­fon  193 4.2.5 Mi­kro­fonständer  199 ­­­4.3 Einrichtungen für drahtlose Mi­kro­fone   200 4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung  201 4.3.1.1 Sender  201 4.3.1.2 Frequenzzuteilung   206 4.3.1.3 Stromversorgung  208 4.3.1.4 Antennen und Wellenausbreitung  208 4.3.1.5 Empfänger  210 4.3.1.6 Diversity-Empfang  211 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung  212 4.3.2 4.4 Lautsprecher  215 4.4.1 Bauformen  216 Dynamische Lautsprecher  216 4.4.1.1 Elektrostatischer Lautsprecher  221 4.4.1.2 Akustischer Kurzschluss und Lautsprecherboxen  222 4.4.1.3 4.4.1.4 Regielautsprecher  224 4.5 Kopfhörer  224 4.5.1 Bauformen von Kopfhörern  225 4.5.2 Einrichtungen für drahtlose Kopfhörer  226 Standards  229 Literatur  229 Tonaufnahme und Tonwiedergabe  231 5 5.1 Prinzipien der räumlichen Tonübertragung  231 5.1.1 Lautsprecher-Stereofonie  232 5.1.2 Synthese des umgebenden Schallfelds  233

Inhalt 

 XXIII

Binaurale Reproduktion der Ohrsignale  234 5.1.3 5.2 Stereofonie  235 5.2.1 Phantomschallquellen  235 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen  236 Phantomschallquellen bei Zeitdifferenzen  238 5.2.1.2 Phantomschallquellen beim Zusammenwirken von Pegel- und 5.2.1.3 Laufzeitdifferenzen  239 5.2.1.4 Seitliche Phantomschallquellen  240 5.2.1.5 Stereohörzonen  243 5.2.2 Aufnahmewinkel eines Stereomikrofons  245 5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen  246 5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen  247 5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen  248 5.2.2.4 Berechnungswerkzeuge  249 5.2.3 Theorien zur Lokalisierung von Phantomschallquellen  251 5.2.3.1 Summenlokalisierung  251 5.2.3.2 Assoziationsmodell  252 5.2.4 Räumliche stereofone Abbildung  254 5.2.4.1 Prinzipien der Zweikanal-Stereofonie  255 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie  257 5.2.5 Begriffe zur stereofonen Richtungsabbildung  259 5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren  260 5.3 Zweikanal-Stereofonie  262 5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren  262 5.3.2 Intensitätsstereofonie  267 5.3.2.1 XY-Mikrofonverfahren   268 5.3.2.2 MS-Mikrofonverfahren  271 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren  272 5.3.2.4 Praktischer Einsatz von Stereomikrofonen  273 5.3.3 Laufzeitstereofonie   274 5.3.3.1 Klein-AB  275 5.3.3.2 Groß-AB  277 5.3.3.3 Decca-Tree  278 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie  278 5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie  280 5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz  282 5.3.4.2 ORTF-, EBS- und NOS-Verfahren  283 5.3.4.3 Kugelflächenmikrofon  284 5.3.4.4 Andere Trennkörper  287 5.3.5 Stützmikrofonverfahren   288 5.3.5.1 Monostützmikrofone  290 5.3.5.2 Stereostützmikrofone  291 Verzögerte und raumbezogene Stützmikrofone  291 5.3.5.3 5.3.6 Einzelmikrofonverfahren  293

XXIV 

 Inhalt

5.3.7 Überwachung der Stereosignale  294 5.3.8 Monokompatibilität  297 5.4 Mehrkanal-Stereofonie  299 5.4.1 Mehrkanal-Standard  299 5.4.1.1 3/2-Lautsprecheranordnung  299 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme  301 5.4.1.3 Tieftonwiedergabe  302 5.4.2 Stereofonie in den Sektoren L-C und C-R  304 5.4.2.1 Doppel-Stereoverfahren  305 5.4.2.2 Mehrfach-AB-Verfahren  307 5.4.2.3 Decca-Tree  308 5.4.2.4 OCT-Verfahren  310 5.4.3 Einsatz der Surround-Kanäle  314 5.4.3.1 Surround Sound-Hauptmikrofone  317 5.4.3.2 Raummikrofone  323 5.4.3.3 Reportage und Dokumentation  326 5.4.4 Verwendung von Delay  327 5.4.4.1 Delay bei Einsatz von Hauptmikrofonen  328 5.4.4.2 Delay-Plan  330 5.4.4.3 Digitale Signalverarbeitung  331 5.4.5 Einsatz von Höhenlautsprechern  331 5.4.5.1 Nutzen der Höhenlautsprecher  334 5.4.5.2 Anwendung der Höhenlautsprecher  335 5.4.5.3 Höhenlautsprecher für immersiven Sound   338 5.5 Verfahren der räumlichen Tonübertragung  343 Kanalbasierte Verfahren  343 5.5.1 Nomenklatur und Notation  343 5.5.1.1 Objektbasierte Verfahren   346 5.5.2 5.5.2.1 Grundprinzipien von objektbasierten Verfahren  346 5.5.2.2 Die Aufgaben des Renderers  347 Personalisierung und Interaktion  349 5.5.2.3 5.5.2.4 Metadaten  349 Universelle Übertragung  351 5.5.2.5 Flexible Wiedergabemöglichkeiten  352 5.5.2.6 5.5.3 Schallfeldsynthese  353 5.5.3.1 Wellenfeldsynthese   354 5.5.3.2 Ambisonics  364 5.5.4 Kopfhörerwiedergabe  369 Phantomschallquellen im Kopf  371 5.5.4.1 5.5.4.2 Entzerrung der Kopfhörer  371 5.5.5 Binaurale Verfahren  374 Kopfbezogene Übertragung  374 5.5.5.1 5.5.5.2 Praktische Anwendung  377 5.5.5.3 Lautsprecherwiedergabe  377

Inhalt 

5.5.6 Binauralisierung  378 5.5.6.1 Binaurale Raumsynthese  378 5.5.6.2 Externalisierung  380 5.5.6.3 Werkzeuge für Binauralisierung  381 Gestaltung des Klangbilds  383 5.6 Grundsätze klanglicher Gestaltung  384 5.6.1 5.6.2 Klangliche Aspekte von Wortproduktionen  387 5.6.2.1 Sprachaufnahmen  389 5.5.2.2 Gesprächsrunden  392 5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik  393 5.6.3.1 Aufnahmeräume  394 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis  396 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds  401 5.5.3.4 Wiedergabedynamik  402 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie  402 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe  403 5.6.3.7 Historischer Rückblick  404 5.6.4 Klangliche Aspekte bei der Produktion populärer Musik  405 5.6.4.1 Rahmenbedingungen  406 5.6.4.2 Ziele der Klangbildgestaltung  407 5.6.4.3 Mittel der Klangbildgestaltung  408 5.6.4.4 Psychologische Prinzipien  408 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung  409 5.6.4.6 Alltagsbefunde zur Klangbildgestaltung  411 5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen  413 5.6.5.1 Unterhaltung und Show  414 5.6.5.2 Oper  416 5.6.5.3 Sport  417 5.6.5.4 Reportage, Magazin und Dokumentation  418 5.6.5.5 Spielfilm  419 5.6.5.6 Fernsehspiel und Sitcom  420 Standards  420 Literatur  421 6 Klanggestaltung  427 Abbildungsrichtung und Abbildungsbreite  427 6.1 6.1.1 Panorama-Potentiometer und Balanceregler  428 6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer  433 Dynamik und Lautheit  435 6.2 6.2.1 Kompressor und Limiter  435 6.2.1.1 Statisches Verhalten  436 6.2.1.2 Dynamisches Verhalten  438 6.2.1.3 Erweiterte Anwendungen  440

 XXV

XXVI 

 Inhalt

6.2.2 Expander und Gate  442 6.2.2.1 Statisches Verhalten  442 6.2.2.2 Dynamisches Verhalten  444 Erweiterte Anwendungen  444 6.2.2.3 Kombinierte Regelverstärker  444 6.2.3 6.3 Klangfarbe  446 6.3.1 Klassische Filter  446 6.3.1.1 Hochpassfilter  447 6.3.1.2 Tiefpassfilter  448 6.3.1.3 Bandpassfilter  449 6.3.1.4 Bandsperre  449 6.3.1.5 Spezialfilter  450 6.3.2 Equalizer  451 6.3.2.1 Glockenfilter  452 6.3.2.2 Schelf-Filter  453 6.3.3 Verzerrer  454 6.3.4 Enhancer  455 6.4 Tonhöhe und Tondauer  456 6.4.1 Pitch Shifting  456 6.4.2 Time Stretching  457 6.5 Raumeindruck  458 6.5.1 Analoge Hallerzeugung  459 6.5.1.1 Hallplatte  459 6.5.1.2 Hallfolie  460 6.5.1.3 Hallfeder  460 Digitaler algorithmischer Hall  461 6.5.2 Digitaler Faltungshall  463 6.5.3 Komplexe Klangveränderungen  464 6.6 6.6.1 Tremolo und Vibrato  464 6.6.2 Wah-Wah  464 6.6.3 Verzögerungseffekte  465 6.6.4 Phaser  468 6.6.5 Ringmodulator  469 6.6.6 Leslie-Kabinett  470 6.6.7 Vocoder  470 6.6.8 Kombinierte und neue Audiobearbeitungsmittel  472 6.7 Klangästhetische Aspekte  473 Zusammenhang von Reiz- und Wahrnehmungsmerkmalen  473 6.7.1 Klang und Bedeutung  474 6.7.2 6.7.3 Medienästhetische Ideale  475 6.7.4 Die Aufmerksamkeit des Hörers  476 Literatur  477

Inhalt 

Analoge Tonsignalspeicherung  483 7 7.1 Magnetische Tonsignalspeicherung  484 7.1.1 Grundlagen des Magnetismus  484 7.1.1.1 Magnetisches Feld  484 Magnetische Induktion  486 7.1.1.2 7.1.1.3 Hysteresisschleife  487 7.1.2 Aufzeichnung mit Magnetton  488 7.1.2.1 Prinzip  489 7.1.2.2 Magnettonbänder  490 7.1.2.3 Aufzeichnungsvorgang  493 7.1.2.4 Elektroakustische Eigenschaften von Magnetbändern  497 7.1.2.5 Wiedergabevorgang   505 7.1.2.6 Entzerrung des Frequenzgangs  506 7.1.2.7 Löschvorgang  511 7.1.3 Systeme zur Rauschverminderung  512 7.1.3.1 Telcom-Verfahren  513 7.1.3.2 Dolby-Verfahren  516 7.1.4 Bandschnitt und Kennbänder  518 7.1.5 Studio-Magnettonanlagen  519 7.1.5.1 Studio-Magnettonlaufwerke  520 7.1.5.2 Magnettonköpfe  523 7.1.5.3 Mehrspur-Magnettonanlagen  524 7.1.5.4 Aufzeichnung von Mono- und Stereosignalen  525 7.2 Mechanische Schallspeicherung  527 7.2.1 Aufzeichnungsverfahren  527 7.2.1.1 Mono- und Stereoaufzeichnung  528 7.2.1.2 Lichtbandbreite  530 7.2.1.3 Schneidkennlinien  530 7.2.2 Schallplattenherstellung  532 7.2.2.1 Lackplatten-Schneidverfahren  532 7.2.2.2 DMM-Schneidverfahren  533 7.2.3 Wiedergabe  533 7.2.3.1 Abtastsysteme  534 7.2.3.2 Tonarm  536 7.2.3.3 Geometrische Abtastverzerrungen  537 7.2.3.4 Laufwerk  539 7.2.3.5 Verstärker  540 7.3 Langzeitlagerung und Datenerhalt von Tonträgern  540 7.3.1 Umgebungseinflüsse  541 7.3.2 Notfallplanung und Katastrophenschutz  548 Standards  550 Literatur  551

 XXVII

XXVIII 

8 8.1

 Inhalt

Analoge Tonregieanlagen  553 Historische Entwicklung von der analogen bis zur digitalen Technik von Tonmischpulten  554 Aufbau einer Tonregieanlage  559 8.2 Leitungsführung und Anpassung  562 8.3 8.3.1 Symmetrie und Erdfreiheit  563 8.3.2 Schirmung  565 8.3.3 Kabellänge und Kabelführung  565 8.3.4 Zusammenschaltung  567 8.3.5 Erdung  568 8.3.6 Anpassung  570 8.4 Leitungsverbindungen  572 8.4.1 Klinkensteckverbindungen   573 8.4.2 Koppelfelder  575 8.4.2.1 Komplexe Koppelfelder  579 8.4.3 Kabelsteckverbindungen  581 8.4.4 Schalter  582 8.5 Mikrofonverstärker  584 8.5.1 Verstärkungseinstellung  586 8.5.2 Frequenzgang  586 8.5.3 Störpegel und Aussteuerungsfestigkeit  588 8.5.4 Mikrofon-Trennverteiler  589 8.5.5 Kommandoverstärker  589 8.6 Anschluss externer Geräte  589 8.6.1 Brummstörungen  590 Brummstörungen bei Verwendung eines Netz-Trenntransformators  591 8.6.1.1 Brummstörungen durch Masseschleifen  592 8.6.1.2 Brummstörungen durch Mehrfacherdung  592 8.6.1.3 8.6.2 DI-Box  593 8.7 Pegelsteller  595 VCA- und Motorpegelsteller  595 8.7.1 8.7.2 Überblendregler  598 Elektronische Blender  598 8.7.3 Richtungsbeeinflussung bei Intensitätsstereofonie  599 8.8 Panorama-Potentiometer oder Pan-Pot  601 8.8.1 8.8.2 Richtungsmischer  602 8.9 Knotenpunkte  605 Knotenpunkte mit Spannungsanpassung  605 8.9.1 Knotenpunkte mit Stromanpassung  606 8.9.2 8.9.2.1 Universalverstärker als Knotenpunktverstärker  608 8.10 Hilfssummen  610 Schaltungen für künstliche Verhallung  613 8.10.1 8.10.2 Schaltungen für Ausspielwege  615

Inhalt 

Spezial- und Universalverstärker  616 8.11 8.11.1 Spannungsverstärker  616 8.11.1.1 Aufholverstärker  618 8.11.1.2 Trenn- und Verteilerverstärker  618 8.11.2 Universalverstärker  620 8.11.2.1 Pegelverstärker  621 8.11.2.2 Knotenpunktverstärker  621 8.11.2.3 Trennverstärker  622 8.11.3 Anpassverstärker  623 8.11.4 Leistungsverstärker  624 8.12 Einrichtungen für die akustische Signalüberwachung  624 8.12.1 Einrichtungen und Kontrollpunkte für Abhören  625 8.12.1.1 Abhöreinheit  626 8.12.2 Vorhören, Solo, Mute  631 8.12.3 Mithören  632 8.12.4 Pegeltongenerator  633 8.13 Tonregieanlagen in Kassettentechnik  633 Standards  638 Literatur  638 9 Analoge Tonstudiomesstechnik  639 9.1 Verstärkung und Dämpfung  639 9.1.1 Betriebsgrößen  641 9.1.2 Ein- und Ausgangsscheinwiderstand  642 9.1.3 Symmetrie  642 9.2 Verzerrungen  643 9.2.1 Lineare Verzerrungen  644 9.2.2 Nichtlineare Verzerrungen  646 9.2.2.1 Messverfahren  648 9.3 Störspannungen  652 9.3.1 Unbewertete Störspannungen  652 Bewertete Störspannungen  653 9.3.2 Systemrauschen und Betriebskennlinie  654 9.3.3 9.3.4 Tief- und Hochfrequenzfestigkeit, Knackstörungen  656 9.4 Stereoparameter  656 Pegeldifferenz zwischen Stereokanälen  656 9.4.1 9.4.2 Phasendifferenz zwischen Stereokanälen  657 9.4.3 Übersprechen  659 9.5 Schalldruckpegel  659 9.5.1 Bewertete Schalldruckpegel  660 9.5.2 Lautstärkepegel und Lautheit  661 9.6 Messungen an Mikrofonen  662 9.6.1 Feld-Übertragungsfaktor und Feld-Übertragungsmaß  663 9.6.2 Frequenzgang  663

 XXIX

XXX 

 Inhalt

9.6.3 Gerichteter Schallempfang  664 9.6.3.1 Richtungsfaktor, Richtungsmaß und Richtcharakteristik  664 9.6.3.2 Bündelungsfaktor, Bündelungsgrad und Bündelungsmaß  664 Grenzschalldruck und Klirrfaktor  665 9.6.4 9.6.5 Ersatzgeräuschpegel  666 9.7 Messungen an Lautsprechersystemen  666 9.7.1 Analoge Messmethoden  666 9.7.1.1 Übertragungsmaß und Frequenzgang  666 9.7.1.2 Scheinwiderstand  668 9.7.1.3 Richtcharakteristik  668 9.7.1.4 Kennschalldruckpegel  669 9.7.2 Digitale Messmethoden: MLS-Messungen  669 9.8 Messungen und Einstellungen an Magnettonanlagen  670 9.8.1 Einstellungen und Prüfungen  670 9.8.1.1 Mechanische Funktionen  670 9.8.1.2 Entmagnetisierung   671 9.8.1.3 Wiedergabekanal  672 9.8.1.4 Aufnahmekanal  673 9.9 Messungen an Plattenspielern  675 9.10 Pegel und Pegelmaße  676 9.10.1 Pegel  676 9.10.2 Relativer und absoluter Spannungspegel  677 9.10.3 Funkhauspegel  678 9.10.4 Rechnen mit Pegeln  680 9.10.4.1 Verstärkung und Dämpfung von Pegeln  680 Addition von Spannungen und Pegeln  681 9.10.4.2 9.10.4.3 Pegeldiagramme  683 Standards  683 Literatur  684 10 Beschallung  685 10.1 Raumakustik im Zusammenwirken mit Beschallungsanlagen  686 10.1.1 Reflexionen  686 Erste Reflexionen  686 10.1.2 10.1.3 Fokussierung  687 10.1.4 Stehende Wellen  687 10.1.5 Raumresonanzen  688 10.1.6 Nachhall  688 10.1.7 Hallradius  689 10.2 Grundlegende Beschallungskonzepte  690 10.2.1 Von der zentralen zur dezentralen Beschallung  690 10.2.1.1 Zentrale Beschallung  690 10.2.1.2 Dezentrale Beschallung  691 10.2.2 Überwindung des Hallradius und Nutzung des Diffusfelds  693

Inhalt 

10.2.3 Lautsprecherpositionen  694 10.2.3.1 Frontale Beschallung mit horizontaler Position  694 10.2.3.2 Frontalbeschallung mit vertikaler Position  696 10.2.3.3 Einsatz von Delay-Lautsprechern  696 Bühnenrandbeschallung, Nahfeld  698 10.2.3.4 Einsatz und Positionierung von Subwoofer  699 10.2.3.5 10.2.3.6 Centercluster  701 10.3 Richtungsbezogene, objektbasierte Beschallung  701 10.3.1 Lokalisation  702 10.3.2 Verfahren der richtungsbezogenen Beschallung  703 10.3.2.1 Laufzeit- oder Deltastereophonie  703 10.3.2.2 Wellenfeldsynthese  704 10.3.2.3 Vector Based Amplitude Panning  705 10.3.3 Aufbau einer objektbasierten Beschallungsanlage  707 10.3.3.1 Signalfluss und Steuerung  707 10.3.3.2 Frontal- und Surround- und Höhenlautsprecher  708 10.3.4 Vorteile und Grenzen der objektbasierten Beschallung  708 10.4 Künstliche Nachhallsysteme  709 10.4.1 Regenerative Systeme  709 10.4.2 Faltungs- oder Convolver-Systeme   711 10.4.3 Kombinierte Systeme  712 10.5 Beschallungsausrüstung  713 10.5.1 Lautsprecher  713 10.5.1.1 Kennschalldruckpegel und Wirkungsgrad  713 10.5.1.2 Nennleistung  714 10.5.1.3 Spitzenschalldruck  714 10.5.1.4 Frequenzgang  715 10.5.1.5 Phasenlage  716 10.5.1.6 Richtwirkung  716 10.5.1.7 Abstrahlwinkel  718 10.5.1.8 Methoden für Richtwirkung von Lautsprechern  720 10.5.1.9 Arrays  723 10.5.1.10 Line Arrays  725 10.5.1.11 Monitorbeschallung  727 10.5.1.12 In Ear Monitoring  728 10.5.2 Mischpulte  728 10.5.2.1 FOH, Front Of House  728 10.5.2.2 Monitormischpulte  729 10.5.3 Equalizer  729 10.5.3.1 Parametrischer Equalizer  730 10.5.3.2 Grafischer Equalizer  731 10.5.4 Effekte  732 10.5.4.1 Hall  732 10.5.4.2 Delay-Echo  732

 XXXI

XXXII 

 Inhalt

10.5.4.3 Delay-Signallaufzeit  732 10.5.4.4 Kompressor, Limiter, Noise Gate  732 10.5.5 Mikrofone  733 Rückkopplungsempfindlichkeit bei Mikrofonen  733 10.5.5.1 Bühnentauglichkeit und Grenzschalldruck  734 10.5.5.2 10.5.6 Controller  734 10.5.6.1 Frequenzgangkorrektur  734 10.5.6.2 Phasenkorrektur, Alignment  734 10.5.6.3 Schutzschaltung  735 10.5.7 Verstärker  735 Dimensionierung von Verstärkern  735 10.5.7.1 10.5.7.2 Rückwärtsdämpfung  736 10.5.8 Kabel, Querschnitte  737 10.6 Strukturierte Inbetriebnahme  737 10.6.1 Systemanpassung  737 10.6.2 Delayanpassung  738 10.6.3 Raumentzerrung und Hauptequalizer  738 10.6.4 Sonderfall Open Air Beschallung  739 10.7 100 V-Technik  739 10.8 Planungs- und Simulationssoftware für Beschallungsanlagen  740 Literatur  742 11 Arbeitssicherheit und Gesundheitsschutz  743 11.1 Arbeitssicherheit  743 11.1.1 Allgemeines  743 11.1.1.1 Das duale System im Arbeitsschutz  743 11.1.1.2 Staatliche Institutionen im Arbeitsschutz  744 Berufsgenossenschaftlicher Arbeitsschutz  744 11.1.1.3 11.1.1.4 Einfluss der EU  745 11.1.2 Richtlinien und Regelwerke  746 EG-Richtlinie 2003/10/EG „Lärm“  746 11.1.2.1 11.1.2.2 Sicherheitsvorschriften für Produktionsstätten  746 Das Arbeitsschutzgesetz  748 11.1.2.3 Die Betriebssicherheitsverordnung  748 11.1.2.4 11.1.2.5 Die Musterversammlungsstättenverordnung  748 11.1.2.6 Berufsgenossenschaftliche Vorschriften und Regeln  749 11.1.3 Verantwortlichkeiten  749 Arten der Verantwortung  750 11.1.4 11.1.5 Gefährdungsbeurteilung  753 11.2 Gesundheitsschutz   755 11.2.1 Gehörgefährdung durch elektroakustische Beschallung  755 11.2.2 Hörschädigungen  757 11.2.2.1 Gehörschaden aus arbeitsmedizinischer Sicht  757 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung  758

Inhalt 

Fehlender Lautheitsausgleich  758 11.2.2.3 11.2.2.4 Stapediusreflex  759 11.2.2.5 Gehörschäden und Musik  759 11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5  760 11.2.3.1 Verkehrssicherungspflicht  760 Schutzmaßnahmen und Information  761 11.2.3.2 11.2.3.3 DIN-Anhang  762 11.2.4 Messung der Schallimmission  763 11.2.4.1 Konsequenz der DIN 15905-5  765 11.2.4.2 Die Praxis für Veranstaltungen  765 11.2.4.3 Probleme der Norm DIN-15905-5  766 11.2.5 Elektrische Sicherheit  767 11.2.5.1 Produktionsstätten beim Hörfunk  768 11.2.5.2 Kabelverlegung  769 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen  769 11.2.5.4 Gefahren des elektrischen Stroms  769 11.2.5.5 Schutz vor einem elektrischen Schlag  771 11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen  776 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen  776 11.2.7 Verhalten bei Stromunfällen  780 Standards  781 Literatur  782

 XXXIII

1 Grundlagen der Akustik

Michael Dickreiter, Wolfgang Hoeg (1.3.5 und 1.4.2)

Der Begriff Schall bezeichnet hörbare mechanische Schwingungen, Wellen und Felder eines elastischen Mediums. Die Akustik ist die Wissenschaft, die  sich  mit diesen Phänomenen befasst, also nicht nur auf den Bereich des Hörbaren beschränkt ist. Nur in einem Medium aus schwingungsfähiger Materie können sich Schallwellen ausbreiten, das kann Luft (Luftschall), Wasser (Wasserschall) oder ein Festkörper (Körperschall) sein. Vielfach wird Schall als Körperschall erzeugt und dem Ohr oder Mikrofon durch das Medium Luft als Luftschall übermittelt. Liegen diese Schallwellen im Hörbereich, haben  sie also Frequenzen zwischen 16  Hz und 20 kHz, so spricht man von Hörschall, liegen ihre Frequenzen unter 16 Hz, spricht man von Infraschall, liegen sie über 20 kHz bis 1 GHz = 1.000 MHz, von Ultraschall. Bei Frequenzen über 1 GHz spricht man von Hyperschall. Schall im alltäglichen Sinn ist nur der hörbare Schall, sog. Hörschall. Eine Schallschwingung wird von einem einzelnen Teilchen eines elastischen Mediums, z. B. einem Luftmolekül, ausgeführt. Hierbei werden zwei Energieformen periodisch abwechselnd ineinander umgewandelt, meist potentielle Energie in kinetische Energie und umgekehrt. Die Schwingungslehre beschreibt die Gesetzmäßigkeiten (Kap. 1.1). Eine Schallwelle ist die Gesamtheit schwingender Teilchen, die sich in einem elastischen Medium mit einer (Saite, Stab), zwei (Platte) oder drei Dimensionen (Körper, Luftraum) von einer Schallquelle ausgehend ausbreiten. Schallwellen transportieren Energie, nicht Materie (Kap. 1.2). Ein Schallfeld ist ein räumlich ausgedehntes Gebiet, in dem  sich Schallwellen ausbreiten und sich in komplexer Weise überlagern. Ein Schallfeld in einem geschlossenen Raum mit der Gesamtheit der Phänomene wird durch die Raumakustik beschrieben (Kap. 1.3 ff.). In Kapitel 2 werden Schallquellen, eingeschränkt auf die Akustik von Musikinstrumenten und der menschlichen Stimme, dargestellt, in Kapitel 3 die Phänomene der Schallwahrnehmung durch das Gehör. [Meyer, 2015, [Reuter, 2014], [Weinzierl, 2014] Die Akustik gehört damit zu den wichtigsten Grundlagen der klassischen wie auch der modernen Audiotechnologie. Akustik beschreibt zunächst physikalische und subjektive Phänomene der analogen Technik, sie wird jedoch zunehmend von Lösungen und Anwendungen der digitalen Audiotechnik unterstützt.

1.1 Schallschwingungen 1.1.1 Typen von Schallschwingungen Zur Bezeichnung der verschiedenen Typen von Schallschwingungen oder Schallformen kann  man  sich entweder der physikalisch-akustischen Begriffe oder der ästhetisch-musikpsychologischen Begriffe bedienen; eine Vermischung beider Begriffsfamilien führt zu Missverständnissen, da gleiche Wörter in verschiedenen Bedeutungen verwendet werden.

https://doi.org/10.1515/9783110759921-001

2 

 1 Grundlagen der Akustik

In der Akustik unterscheidet  man verschiedene Arten von Schallformen, Grundbegriffe sind in [DIN 1320] definiert. Die folgenden Schallformen sind aus einzelnen, diskreten, oder in der Realität endlich vielen sinusförmigen Komponenten zusammengesetzt (Tab. 1/1): Ton oder reiner Ton: Sinusförmige Schallschwingung im Hörbereich. Die in der Musik übliche Bestimmung des Begriffs Ton weicht von derjenigen in der Akustik ab; in der Musik wird das Schallereignis, das einer einzelnen Note entspricht, Ton genannt. In der Terminologie der Akustik wäre dies ein Klang, der meist zusätzlich Geräuschanteile enthält. Tongemisch: Aus Tönen beliebiger Frequenzen zusammengesetzter Schall. Einfacher oder harmonischer Klang: Hörschall, der aus einem Grundton und einer Reihe von Obertönen besteht, deren Frequenzen ganzzahlige Vielfache dieses Grundtons sind. In der Begriffssprache der Musik entspricht dies weitgehend dem Ton im Sinn einer Note. Mehrfacher Klang oder Klanggemisch: Hörschall, der aus mehreren einfachen Klängen zusammengesetzt ist. Eine exakte musikpsychologische Bestimmung der Begriffe „Ton“ und „Klang“ ist im Gegensatz zur physikalisch-akustischen Definition nicht möglich. Der Ton eines Musikinstruments, z. B. einer Violine, kann sich auf eine einzelne gespielte Note oder auf den Klangcharakter aller Töne, also auf den Klangcharakter des Instruments überhaupt beziehen. Ein Klang kann im engeren Sinn ein Akkord sein, aber auch der Klangcharakter eines Instruments, z. B. „Hörnerklang“, oder auch des ganzen Orchesters. Ein Ton oder ein Klang kann physikalisch-akustisch gesprochen Anteile eines einfachen oder mehrfachen Klangs, eines Schallimpulses und von Rauschen enthalten. Die Begriffe Ton und Klang sind als musikalisch-psychologische und ästhetische Begriffe also nicht genau definierbar; man könnte sie allenfalls als sinnvoll durchstrukturierte, gewollte Schallereignisse bezeichnen, die die Elemente der Musik bilden. Das Gegenteil eines  sinnvoll durchstrukturierten Schallereignisses ist Lärm, er stört, belästigt, verursacht Ärger. Auch dem Lärm entsprechen nicht bestimmte physikalische Eigenschaften eines Schallereignisses. Denn auch ein einzelner Sinuston oder sogar Musik können Lärm sein, wenn sie als störend empfunden werden; hierbei ist also die Einstellung des Hörers zum jeweiligen Schallereignis bestimmend. Tab. 1/1 fasst die terminologischen Entsprechungen in Akustik und Musik zusammen. Da die musikpsychologischen Begriffe nicht objektiv und eindeutig definierbar sind, werden bei der Beschreibung der Schallformen nachfolgend möglichst physikalisch-akustische Begriffe verwendet. Tab. 1/1. Begriffliche Entsprechungen von Ton und Klang in Akustik und Musik. Begriffe in der Akustik

Begriffe in der Musik

Ton, Sinuston, reiner Ton, einfacher Ton Tongemisch Klang, harmonischer Klang Klanggemisch, mehrfacher Klang

Ton, in der Musik selten Klang, in der Musik selten Ton Klang, Zusammenklang, Akkord

Eine zweite Gruppe von Schallformen ist in komplexer Weise aus theoretisch unendlich vielen, dicht nebeneinander liegenden Komponenten zusammengesetzt, diese Schallformen sind als Höreindruck geräuschhaft:

1.1 Schallschwingungen 

 3

Schallimpuls: Einmaliges Schallereignis von kurzer Dauer. Tonimpuls: Ton von kurzer Dauer. Rauschen: Fortdauerndes Schallsignal statistischer Natur, zusammengesetzt aus unendlich vielen, mit ihrer Frequenz unendlich nahe beieinander liegenden Tönen mit unterschiedlichen Amplituden und Phasenlagen, das als kontinuierliches Frequenzspektrum dargestellt werden kann, besondere Formen sind das „Weiße Rauschen“ und das „Rosa Rauschen“: Weißes Rauschen: Fortdauerndes Schallsignal, das theoretisch aus unendlich vielen, in ihrer Frequenz unendlich dicht nebeneinander liegenden  sinusförmigen Schwingungen besteht. Theoretisch ist der Frequenzbereich bei Weißem Rauschen nach oben hin nicht begrenzt, wodurch Weißes Rauschen aus unendlich vielen Schwingungskomponenten  mit in ihrer Summe unendlich hoher Leistung bestehen würde. Praktisch erstreckt sich aber das Frequenzband des Weißen Rauschens von 0  Hz aufwärts nicht bis ins Unendliche,  sondern ist  mehr oder weniger bei hohen Frequenzen begrenzt, z.  B. bei der Obergrenze hörbaren Schalls, also bei der Hörgrenze mit 16 bis 20 kHz, oder mit steigender Frequenz zunehmend durch das Übertragungssystem bedämpft. Die  sinusförmigen Komponenten, also Töne im physikalischen Sinn, haben nur statistisch betrachtet gleiche Amplituden, d. h., ihre Amplituden sind nicht in jedem Augenblick gleich, sondern nur im statistischen Mittel über einen längeren Zeitraum; ihre Phasenwinkel sind ebenfalls statistisch und voneinander unabhängig verteilt. Es ist deshalb nicht  möglich, aus Weißem Rauschen ein  schmalbandiges Rauschen oder gar einen Sinuston mit konstanter Amplitude herauszufiltern. In der subjektiven Wahrnehmung als Hörereignis ist Weißes Rauschen am ehesten dem Laut „sch“ vergleichbar, tiefe Frequenzen  scheinen zu fehlen,  mit  steigender Tonhöhe werden die Komponenten zunehmend lauter. Das Gehör fasst nämlich, vereinfacht gesagt, nicht gleich breite Frequenzbänder zu einem Lautstärkeeindruck zusammen,  sondern Frequenzbänder  mit Grenzfrequenzen, die gleiche Intervalle, also gleiche Frequenzverhältnisse bilden; z. B. nimmt das Gehör die Summe aller Schwingungen zwischen 100 und 110 Hz ebenso laut wahr wie die Summe aller Schwingungen zwischen 1 und 1,1 kHz. Weißes Rauschen ist ein für verschiedene Messungen geeignetes Signal, die statistischen Eigenschaften von Musik oder Sprache jedoch kann es bei Messungen nicht simulieren. Die Bezeichnung Weißes Rauschen entspricht in seiner Frequenzzusammensetzung dem weißen Licht, das ebenfalls aus allen  sichtbaren Wellenlängen  mit gleicher Amplitude zusammengesetzt ist, Entsprechendes gilt für das Rosa Rauschen. Rosa Rauschen: Beim Rosa Rauschen nimmt die Amplitude pro Frequenzverdopplung um den Faktor = 0,7071 ab, der Pegel also um 3 dB. Es handelt sich um ein Rauschen, dessen  spektrale Leistungsdichte umgekehrt proportional der Frequenz ist,  man  spricht auch von 1/f-Rauschen. Beim Weißen Rauschen bleibt die Leistung in einem absoluten Frequenzband konstant, z. B. in einem Band von 100 Hz Breite, bei Rosa Rauschen bleibt sie in einem relativen Frequenzband, also einem bestimmten Intervall konstant, z. B. in einem Terzbereich mit dem Frequenzverhältnis 5:4 von oberer zu unterer Frequenz. Rosa Rauschen entspricht in seiner statistischen Frequenz-Amplitudenverteilung im Gegensatz zu Weißem Rauschen gut dem von Musik und Sprache. Geräusch: Schallsignal, das meistens Anteile von Rauschen, Ton- und Klanggemischen enthält und oft ein nicht zweckbestimmtes Schallereignis darstellt. Lärm, akustisch  meist geräuschhafter Schall großer Intensität, ist in der Wahrnehmung eines Hörers lästiger, störender bis die Gesundheit gefährdender Schall; er kann also durchaus auch Musik sein.

4 

 1 Grundlagen der Akustik

1.1.2 Eigenschaften von Schwingungen Vorgänge, deren Verhalten nach bestimmten, periodischen Zeitabschnitten stets wieder den gleichen Zustand erreicht, werden als Schwingungen bezeichnet [Magnus, 2008], [Müller, 2003]. 1.1.2.1 Einfache Schwingungen Lässt  sich die Zeitabhängigkeit eines Vorgangs durch eine Sinus- oder Cosinusfunktion beschreiben, so heißt dieser Vorgang Sinusschwingung, harmonische oder einfache Schwingung, die dazugehörige physikalische Größe heißt Sinusgröße, z. B. Sinusspannung. Abb. 1/1 zeigt eine sinusförmige Schwingung. Zu ihrer Beschreibung werden die folgenden Begriffe verwendet [DIN 1311]: Amplitude: Der maximale Augenblickswert â, also der Scheitelwert einer Sinusgröße a, heißt Amplitude. Periodendauer: Der Zeitabschnitt, nach welchem eine Schwingung sich periodisch wiederholt, heißt Periodendauer T. Frequenz: Der Kehrwert der Periodendauer T heißt Frequenz f. Sie gibt an, wie viele Schwingungsperioden auf eine Sekunde entfallen. Die Einheit ist Hertz, abgekürzt Hz mit der Dimension 1/s. Kreisfrequenz: Der 2π-fache Wert der Frequenz heißt Kreisfrequenz ω. Phasenwinkel: Das Argument der Sinus- oder Cosinusfunktion heißt Phasenwinkel φ; er  stellt eine lineare Funktion der Zeit dar: φ = ω ⋅ t. Der Phasenwinkel tritt bei der Darstellung einer Sinusschwingung durch Projektion der Drehung eines Zeigers als Winkel zwischen Zeiger und Projektionsachse in Erscheinung. Der Phasenwinkel für t = 0 heißt Nullphasenwinkel φ0 (Abb. 1/2).

Abb. 1/1. Begriffe bei sinusförmigen Schwingungen.

Die mathematische Darstellung einer einfachen Schwingung lautet: a = â ⋅ cos ωt a = Augenblickswert der Amplitude der Sinusschwingung [m] a = â ⋅ cos 2πft â = Spitzenwert der Amplitude [m] a = â ⋅ cos 2πt/T t = Zeit [s] ω = 2πf T = Periodendauer, Umlaufdauer des Zeigers [s] f = 1/T ω = Kreisfrequenz, Frequenz [Hz, 1/s]

1.1 Schallschwingungen 

 5

Anstelle des Cosinus kann auch der Sinus stehen; dies hat auf den Schwingungsverlauf selbst keinen Einfluss, sondern nur auf die Werte zum Zeitpunkt t = 0. Cosinus- und Sinusschwingungen haben zum Zeitpunkt t = 0 eine gegenseitige Phasendifferenz von 90°, die Sinusfunktion hat im Zeitpunkt t = 0 den Wert a = 0, die Cosinusfunktion den Wert a = â. Bei einer ungedämpften einfachen oder harmonischen Schwingung ist die rückstellende Kraft – also die Kraft, die das schwingende Element zum Nullpunkt zurückzieht – proportional zur Auslenkung, verdoppelt sich die Auslenkung, verdoppelt sich auch die rückstellende Kraft.

Abb. 1/2. Einfache Schwingung als Projektion eines rotierenden Zeigers.

Sinusverwandte Schwingungen  sind Schwingungen, bei denen die Amplitude â  sich verglichen  mit der Periodendauer T nur langsam  mit der Zeit ändert und/oder bei denen der Phasenwinkel innerhalb einer Periodendauer nur wenig von der linearen Zunahme mit der Zeit abweicht. Solche sinusverwandten Schwingungen sind z. B. gedämpfte Schwingungen, bei denen die Amplitude mit der Zeit abnimmt, oder Schwebungen, deren Amplitude und Frequenz sich langsam mit der Zeit periodisch ändern, sowie amplitudenmodulierte Schwingungen, die eine periodische Änderung der Amplituden ohne Frequenzschwankungen kennzeichnet. 1.1.2.2 Überlagerung von Schwingungen Die Überlagerung von zwei einfachen oder harmonischen Schwingungen gleicher Frequenz ergibt wieder eine einfache oder harmonische Schwingung derselben Frequenz, deren Amplitude und Phase von den Amplituden der beiden  sich überlagernden Schwingungen und ihrer Phasendifferenz abhängen. Abb. 1/3 zeigt drei Fälle einer solchen Überlagerung. Weichen die Frequenzen der beiden Schwingungen ein wenig voneinander ab und sind ihre Amplituden â gleich groß, so entsteht eine Schwingung, deren Amplitude sich zwischen den Werten 0 und 2â periodisch ändert. Diese Schwingung nennt man vollkommene Schwebung, bei ungleichen Amplituden unvollkommene Schwebung (Abb. 1/4). Die Frequenz der Schwebung schwankt ebenfalls geringfügig periodisch, bei der sehr ähnlichen amplitudenmodulierten Schwingung mit dem Modulationsgrad 1 bleibt die Frequenz hingegen konstant.

6 

 1 Grundlagen der Akustik

Weichen die Frequenzen der beiden sich überlagernden Schwingungen erheblich voneinander ab, so ergibt sich keine harmonische Schwingung mehr.

Abb. 1/3. Überlagerung zweier Schwingungen a1 und a2 mit gleicher Amplitude und Frequenz sowie mit beliebiger Phasendifferenz, z. B. 72° (a), ohne Phasendifferenz (b) und mit 180° Phasendifferenz (c), a1 ……, a2 -----, a1 + a2 _____.

Abb. 1/4. Durch Überlagerung zweier Schwingungen mit gleicher Amplitude und geringem Frequenzunterschied entstehende sog. vollkommene Schwebung.

1.1.2.3 Zusammengesetzte Schwingungen Jede auch noch  so unregelmäßig verlaufende, aber periodische Schwingung lässt  sich in  sinusförmige Teilschwingungen zerlegen. Diesen Vorgang nennt  man harmonische Analyse oder Fourier-Analyse. Sie umfasst das Ermitteln der Frequenzen der einzelnen Teilschwingungen und die Bestimmung ihrer Amplituden. Das Ergebnis einer harmonischen Analyse ergibt ein sog. Amplitudenspektrum oder einfach Spektrum. Dies ist die grafische

1.2 Schallfelder 

 7

Darstellung der Gesamtheit aller Teilschwingungen eines Signals  mit den dazugehörigen Amplitudenwerten. Die Frequenzen der einzelnen Teilschwingungen sind immer ganzzahlige Vielfache einer Grundschwingung, deren Frequenz  mit der Frequenz der zu analysierenden Schwingung übereinstimmt (Abb. 1/5). Ein solches Spektrum besteht also aus einzelnen Linien,  man  spricht von Linienspektrum. Das Amplitudenspektrum genügt allerdings nicht, um den Zeitverlauf der periodischen Schwingung vollständig zu beschreiben; hierzu ist zusätzlich die Angabe der Nullphasenwinkel aller Teilschwingungen in einem Phasenspektrum erforderlich. Für viele praktische Zwecke, wie Erkenntnisse über die Klangfarbe eines musikalischen Klangs oder über die Zusammensetzung und Störwirkung eines Störgeräuschs, kann auf das Phasenspektrum jedoch verzichtet werden. Alle periodischen Vorgänge haben Linienspektren;  sie  setzen  sich aus ganzzahligen Vielfachen einer Grundfrequenz f zusammen. Sie errechnet  sich aus der Periodendauer T der zu analysierenden Schwingung: f = l/T. Je größer die Periodendauer T wird, umso tiefer liegt also die Grundfrequenz f und umso näher beisammen liegen die Vielfachen dieser Grundfrequenz. Lässt man im Gedankenexperiment die Periode beispielsweise einer Rechteckschwingung immer länger, schließlich unendlich lang werden, so kommt man zur sog. Sprungfunktion (Abb.  1/6a), einem einmaligen Vorgang, der  sinngemäß eine extrem tiefe Grundfrequenz, eigentlich 0 Hz, und eigentlich unendlich dicht beieinander liegenden Teilschwingungen entsprechen. Somit haben Einzelvorgänge so dicht liegende Komponenten, dass ein kontinuierliches Spektrum entsteht, das durch die Einhüllende der eigentlich unendlich vielen Komponenten gekennzeichnet ist, nämlich durch eine sog. Spektralfunktion. Dies gilt sinngemäß allgemein für nichtperiodische Signale, z. B. Rauschen oder Geräusche, die als eine Folge von Einzelereignissen aufgefasst werden können, Die Spektralfunktion wird durch die Leistungsdichte, d. h., durch die Leistung pro relativer oder absoluter Bandbreiteneinheit beschrieben und grafisch dargestellt. In der Praxis liegen die Teilschwingungen umso weniger dicht und die Grundfrequenz umso weiter von 0 Hz entfernt, wie der Übertragungsbereich des Systems oben begrenzt ist. Abb.  1/5 zeigt einige Beispiele periodischer Schwingungen und ihrer Teiltonspektren, Abb. 1/6 einiger nichtperiodischer Vorgänge mit ihren Spektralfunktionen.

1.2 Schallfelder Wenn eine Schallquelle das sie umgebende Medium, z. B. Luft, zum Mitschwingen anregt, so entsteht um die Schallquelle eine  sich ausbreitende Schallwelle, ein Schallfeld. Ohne Medium, also im Vakuum, wird kein Schallfeld erzeugt. Jede Schallwelle ist verbunden mit räumlichen und zeitlichen Schwankungen von Dichte und Druck des Mediums  sowie  mit Schwankungen der Geschwindigkeit der um ihre Ruhelage pendelnden Teilchen. Im sog. freien Schallfeld kann sich der Schall völlig ungehindert in alle Richtungen ausbreiten, er trifft nicht auf Hindernisse; er erreicht den Hörer oder das Mikrofon nur auf direktem Weg, daher auch Direktschall genannt.

8 

 1 Grundlagen der Akustik

Abb. 1/5. Einige Schwingungsverläufe mit den dazugehörigen Amplitudenspektren; die Spektren sind nach der 12. Harmonischen abgeschnitten, setzen sich aber bei b, c und d theoretisch bis ins Unendliche fort; die Amplituden der Teilschwingungen sind etwa dreimal vergrößert gezeichnet. Die Spektren gelten nur für den eingeschwungenen Zustand. Bei b, c und d entsteht noch eine Teilschwingung mit der Frequenz 0, d. h., eine Gleichkomponente, z. B. eine Gleichspannung.

Im sog. diffusen Schallfeld wird der Schall vielfach an den Wänden und Gegenständen eines Raums reflektiert, gebeugt, zerstreut oder gebündelt; im diffusen Schallfeld sind eigentlich viele verschiedene freie Schallfelder einander überlagert. Die Schallenergie ist im diffusen Schallfeld im Gegensatz zum freien Schallfeld im Idealfall gleichmäßig über den ganzen Raum verteilt, eine Vorzugsrichtung der Schallausbreitung gibt es nicht. Zur vollständigen Beschreibung eines komplexen Schallfelds ist die Angabe von Druck und der Bewegungsgeschwindigkeit der Teilchen, der sog. Schnelle, erforderlich; die Angabe des Drucks enthält keine Information über die Bewegungsrichtung der Teilchen, die Schnelle gibt keine Auskunft über die treibende Kraft dieser Bewegung. [Fasold, 2003], [Kuttruff, 2004], [Veit, 2005], [Hentschel, 2009], [Lerch, 2009], [Möser, 2009]

1.2 Schallfelder 

 9

Abb. 1/6. Spektralfunktionen einiger einmaliger Vorgänge, a. Spektralfunktion der Sprungfunktion, z. B. Einschalten einer Gleichspannung, b. Spektralfunktion eines Rechteckimpulses, c. Spektralfunktion einer plötzlich einsetzenden bzw. eingeschalteten Sinusschwingung, d. Spektralfunktion eines sehr kurzen Knacks, genannt auch Nadelimpuls, Stoßfunktion oder Dirac-Stoß, e. Spektralfunktion eines Knalls.

1.2.1 Schallausbreitung in Luft Die Schallquelle bringt in ihrer unmittelbaren Umgebung die Luftteilchen zum Schwingen; diese übertragen bei Zusammenstößen die Schwingungen weiter auf die ihnen benachbarten Teilchen usw.,  so dass  sich die Schwingung der Schallquelle als Schallwelle über das Medium ausbreitet. Dabei schwingen die Teilchen um ihre Ruhelage herum in der Ausbreitungsrichtung der Schallwelle, es handelt sich um eine sog. Longitudinalwelle. Sie ändern dabei periodisch ihre Bewegungsgeschwindigkeit und ihre Bewegungsrichtung. Durch ihre Auslenkung aus der Ruhelage verursachen  sie periodische Schwankungen der Dichte und

10 

 1 Grundlagen der Akustik

damit Druckschwankungen. Abb.  1/7  macht anhand der Auslenkung der Luftteilchen die Ausbreitung einer Schallwelle anschaulich.

Abb. 1/7. Schematische Darstellung der Ausbreitung einer Schallwelle in Luft in 15 aufeinander folgenden Zeitpunkten.

Die Ausbreitungsgeschwindigkeit der Schallwelle in Luft wird als Schallgeschwindigkeit c [m/s] bezeichnet. Sie hängt von der Temperatur ab, was sich z. B. auf die Stimmung der Blasinstrumente und der Orgel auswirkt. Bei 10 °C beträgt die Schallgeschwindigkeit etwa 338 m/s, pro 1 °C nimmt sie um 0,6 m/s zu und beträgt demnach bei 20 °C etwa 344 m/s und bei 30  °C  etwa 350  m/s. Einen vernachlässigbaren Einfluss auf die Schallgeschwindigkeit haben der stationäre Luftdruck, die Feuchtigkeit und der Gehalt an Kohlendioxyd unter in der Praxis auftretenden Bedingungen. Wenn  sich eine Schwingung in einem Medium als Welle ausbreitet, treten zu einem bestimmten Zeitpunkt in jeweils gleichen Abständen in der Ausbreitungsrichtung immer wieder dieselben Schwingungszustände oder Phasen auf, z. B. die größte Bewegungsgeschwindigkeit oder die größte Dichte der Luftmoleküle. Diesen Abstand bezeichnet man als Wellenlänge λ (Abb. 1/8). Betrachtet man z. B. den Schalldruckverlauf an einer Stelle im zeitlichen Ablauf, so kann dasselbe Schwingungsbild beobachtet werden wie bei der Betrachtung entlang einer Welle in einem bestimmten Zeitpunkt. Beim Zeitbild der Schwingung ergibt sich aus dem zeitlichen Abstand zweier gleicher Schwingungszustände die Dauer einer Schwingungsbewegung als Periodendauer T. Die Anzahl der Schwingungen pro Sekunde heißt Frequenz f. 1 f = T

f = Frequenz [Hz] T = Periodendauer [s]

Zwischen der Schallgeschwindigkeit c, der Wellenlänge λ und der Frequenz f eines Tons besteht die Beziehung:

1.2 Schallfelder 

c λ = f

 11

λ = Wellenlänge [m] c = Schallgeschwindigkeit [m/s] f = Frequenz [Hz, 1/s]

Abb. 1/8. Periodendauer und Wellenlänge einer Schwingung.

Tab. 1/2 gibt für Luftschall einige Wellenlängen und die dazugehörigen Frequenzen an. Tab. 1/2. Frequenz und Wellenlänge in Luft. Frequenz f

Wellenlänge λ

16 Hz 20 Hz 100 Hz 1.000 Hz = 1 kHz 10.000 Hz = 10 kHz 16.000 Hz = 16 kHz 20.000 Hz = 20 kHz

21,2 m 17 m 3,4 m 0,34 m 0,034 m 0,021 m 0,017 m

Die Zeit, die eine Schallwelle benötigt, um eine bestimmte Strecke zurückzulegen, wird als Laufzeit t bezeichnet. Sie errechnet sich aus der Beziehung: d t = c

t = Laufzeit [s] d = Distanz, die die Schallwelle zurücklegt c = Schallgeschwindigkeit, 344 m/s bei 20 °C  

Für eine Distanz von 34 m ist die Laufzeit t also 0,1 s = 100 ms, für 1 m rund 3 ms; ein Echo ist hörbar, wenn reflektierter Schall 50 ms entsprechend 17 m Schallumweg nach dem Primärschall eintrifft.

12 

 1 Grundlagen der Akustik

Während die Luftteilchen einer Schallwelle  stets in der Ausbreitungsrichtung dieser Welle schwingen, also Longitudinalschwingungen ausführen, gibt es bei Festkörpern bzw. Flüssigkeiten neben der Longitudinalwelle, die hier als Dichtewelle auftritt, mehrere andere Wellenformen: Oberflächenwellen, Biegewellen, Torsionswellen, Transversal- oder Schubwellen und Dehnwellen (Abb.  1/9). Die Schallgeschwindigkeit von Körperschall ist im Allgemeinen wesentlich höher als die des Luftschalls,  sie liegt bei einigen tausend  m/s, und damit sind auch die Wellenlängen wesentlich größer als bei Luftschall.

Abb. 1/9. Wellenformen in Festkörpern.

Mit den Vorgängen bei der Schallausbreitung in Wasser befasst sich die Hydroakustik. Wie in Luft gibt es im Wasser Longitudinalwellen, die sich allerdings mit einer viel höheren Schallgeschwindigkeit ausbreiten, nämlich mit ca. 1.440 m/s bei 10 °C Wassertemperatur. Die Dämpfung der Schallwellen in Wasser ist besonders gering, weshalb sie sich über sehr große Entfernungen ausbreiten können. Da elektromagnetische Wellen unter Wasser sehr stark bedämpft werden, nimmt Wasserschall hier bei der sog. Sonar-Ortung die Funktion des Radars ein, z. B. bei der Messung der Wassertiefe (Echolot), beim Erfassen von Fischschwärmen u. a. 1.2.1.1 Kugelwelle und ebene Welle Da sich die Schallwelle in Luft geradlinig nach allen Richtungen ausbreitet, liegen die Punkte gleicher Phasen, also z. B. gleichen Drucks, auf konzentrischen Kugelflächen um eine allseitig

1.2 Schallfelder 

 13

gleichmäßig abstrahlende punkt- oder kugelförmige Schallquelle. Mit zunehmendem Abstand von der Schallquelle nähern  sich die Flächenelemente dieser Kugelschalen immer  mehr ebenen Flächenelementen, die Kugelwelle nimmt also mit wachsender Entfernung zur Schallquelle allmählich die akustischen Eigenschaften einer ebenen Welle an. Bei Kugelwellen sind alle Schallfeldgrößen auf Kugelschalen um die Schallquelle konstant, während sie bei ebenen Wellen in Ebenen senkrecht zur Ausbreitungsrichtung konstant sind (Abb. 1/10).

Abb. 1/10. Kugelwelle und ebene Welle.

In der ebenen Welle  sind Druck und Schnelle  stets in Phase. Wo also der Druck  seinen größten Wert erreicht, ist auch die Bewegungsgeschwindigkeit der Teilchen am größten. In der Kugelwelle sind Druck und Schnelle in Abhängigkeit von der Frequenz und dem Abstand zur Schallquelle gegeneinander in der Phase versetzt. 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz Der Schalldruck ist der durch die Schallschwingung hervorgerufene Wechseldruck. Die Druckschwankungen der Schallwelle überlagern  sich dem atmosphärischen Gleichdruck. Akustische Berechnungen werden häufig  mit dem Schalldruck durchgeführt, da er durch eine einzige Zahlenangabe definiert – eine  sog.  skalare Größe – und  somit  mathematisch relativ einfach zu verwenden ist. Der Schalldruck wird in Pascal (Pa) oder Newton/m2 (1 N/m2 = 1 Pa), früher bevorzugt in μbar (1 μbar = 0,1 Pa), angegeben. Die im Hörschall üblicherweise vorkommenden Schalldruckwerte liegen zwischen p0, dem geringsten bei 1 kHz wahrnehmbaren Schalldruck von 2 ⋅ 10-5 Pa, und dem Schalldruck der Schmerzgrenze von etwa 1,5 ⋅ 102 Pa. Ein mäßig lauter Ton hat einen Schalldruck von etwa 0,1 Pa. Der normale atmosphärische Luftdruck beträgt etwa 1.000 Hektopascal bzw. 105 Pa entsprechend 1 bar; der durchschnittliche Schalldruck ist damit nur der millionste Teil des Atmosphärendrucks. Die  momentane Geschwindigkeit,  mit der ein  schwingendes Teilchen um  seinen Ruhepunkt  schwingt, ist die Schallschnelle, eine  sog. vektorielle Größe, die zusätzlich zu einem Zahlenwert durch eine Richtungsangabe definiert ist. Man benutzt den Ausdruck Schnelle an Stelle von Geschwindigkeit, um Verwechslungen  mit der Ausbreitungsgeschwindigkeit der Schallwelle c zu vermeiden. Die Schallschnelle der Teilchen, die in einer Schallwelle schwingen, ist sehr gering. Sie beträgt im Mittel z. B. bei einem Schalldruck von 0,1 Pa in Luft nur 0,25 mm/s.

14 

 1 Grundlagen der Akustik

Schalldruck und Schallschnelle werden meist als Effektivwert angegeben, dem quadratischen Mittelwert einer Wechselgröße. Bei sinusförmigen Schwingungen ist der Effektivwert gleich dem Spitzenwert dividiert durch √2, also etwa das 0,7-fache des Spitzenwerts. Bei anderen Schwingungsformen nimmt der Effektivwert andere Werte an. Schalldruck p und Schallschnelle v haben im Fernfeld einer Schallquelle, also im annähernd ebenen Schallfeld, einen analogen Verlauf; sie sind bei gleichbleibender Amplitude der Frequenz f direkt und dem Abstand von der Schallquelle r umgekehrt proportional, bei konstanter Schallleistung und somit annähernd konstanter Lautstärke sind Schalldruck und Schallschnelle nur zur Entfernung umgekehrt proportional; für die Augenblickswerte gilt: p ~ v

p = Schalldruck [N/m²] f = Frequenz [Hz] r = Abstand der Schallquelle [m] t = Zeit [s] λ = Wellenlänge [m] v = Schallschnelle [m/s]

Während  sich der Wert des Schalldrucks im Nahfeld der Schallquelle wie im Fernfeld verhält,  steigt die Schallschnelle im Nahfeld in komplexer Weise viel  stärker an als der Schalldruck; das ist bei Mikrofonen, die auf die Schallschnelle (Bändchenmikrofone) oder die Schalldruckdifferenz – auch Schalldruckgradient genannt – reagieren (Druckgradientenmikrofone), zu beachten, man spricht hierbei vom Nahbesprechungseffekt (siehe Kap. 4.2.1). Der Anstieg der Schnelle an einem bestimmten Punkt im Nahfeld ist von der Frequenz abhängig: je tiefer die Frequenz, umso stärker ist der Anstieg, der durch Schnelle- und Druckgradientenwandler als Anhebung tiefer Frequenzen wirksam wird, sofern er nicht elektrisch ausgeglichen wird. Weiterhin ist bei gegebener Frequenz der Anstieg des Druckgradienten bzw. der Schnelle vom Abstand zur Schallquelle abhängig. Tab.  1/3 gibt für verschiedene Frequenzen an, bei welchem „kritischen Abstand“ von der Schallquelle eine Pegelerhöhung um 3 dB gegenüber hohen Frequenzen eintritt. Tab. 1/3. Kritische Schallquellenabstände für verschiedene Frequenzen bzw. Töne. Frequenz

musikalischer Ton

kritischer Abstand von der Schallquelle

16,25 Hz 32,50 Hz 65 Hz 130 Hz 260 Hz 520 Hz

C“ C‘ C c c‘ c“

6,4 m 3,2 m 1,6 m 0,8 m 0,4 m 0,2 m

Der Quotient aus Schalldruck und Schallschnelle ist in der ebenen Welle stets und an jedem Raumpunkt konstant, er wird als Schallkennimpedanz Z0 bezeichnet, früher als Schallwellenwiderstand.

1.2 Schallfelder 





 15

p = Schalldruck [Pa] v = Schallschnelle [m/s] Z0 = Schallkennimpedanz der ebenen Welle [Ns/m3]

Die Schallkennimpedanz der ebenen Welle Z0 errechnet sich aus der Dichte und der Schallgeschwindigkeit. Bei Normaldruck und 20 °C ist die Schallkennimpedanz der Luft Z0 = 408 Ns/m3, in Wasser z. B. 1,48 ⋅ 106 Ns/m3. Im Nahfeld einer Schallquelle, d. h., in einer Kugelwelle, ist die Schallkennimpedanz nicht mehr überall konstant, die in diesem Fall als spezifische Schallkennimpedanz bezeichnete Größe ist eine komplexe Größe mit Wirk- und Blindanteil. 1.2.1.3 Schalldruckpegel Um die auftretenden großen Unterschiede des Schalldrucks besser erfassen zu können, verwendet  man zur Kennzeichnung des Schalldrucks im Allgemeinen den absoluten Schalldruckpegel L, auch kurz Schallpegel genannt. Ein Vorteil der Verwendung des Pegelmaßes ist, dass es besser dem menschlichen Lautstärkeempfinden entspricht. Der Schallpegel ist das 20-fache logarithmierte Verhältnis des Schalldrucks zu einem vereinbarten Bezugsschalldruck p0. Maßeinheit ist das dB [DIN 5493], siehe zum Pegelmaß auch Kap. 9.10. Lp = absoluter Schalldruckpegel [dB] p = Schalldruck [Pa] p0 = Bezugsschalldruck = 2 ⋅ 10-5 Pa Die Größe p0 ist ein genormter Bezugsschalldruck [DIN 45630], der etwa der Hörschwelle entspricht. Die Hörschwelle liegt für 1 kHz bei 4 dB, für 2 kHz bei - 4 dB; die Schmerzgrenze ist für 1 kHz bei 130 dB, für 2 kHz bei 120 dB. Der Bereich mittlerer Lautstärken entspricht einem Schallpegel von ungefähr 60 bis 80 dB.

Abb. 1/11. Bewertungskurven zur Messung des bewerteten Schallpegels.

Verwendet  man als Bezugsschalldruck einen beliebigen, frei gewählten Druck,  so handelt es  sich um den  sog. relativen Schalldruckpegel. Da das Gehör den Schalldruck in Abhängigkeit von der Frequenz unterschiedlich bewertet, hat man für Messungen auch einen sog. bewerteten Schalldruckpegel oder bewerteten Schallpegel eingeführt, der entsprechend den Eigenschaften des Gehörs insbesondere Frequenzen zwischen 500 und 5.000 Hz bei der

16 

 1 Grundlagen der Akustik

Messung berücksichtigt. Je nach der Lautstärke wird dabei eines der drei genormten Filter nach [DIN EN 62672] entsprechend den Bewertungskurven A, B oder C der Messung zugrunde gelegt (Abb.  1/11). Das Filter  A gilt für kleine Schallpegel, es ergibt die niedrigsten und damit  meist günstigsten Messwerte auch für größere Schallpegel und wird deshalb gerne, aber ungerechtfertigt, auch für diese verwendet. Die zeitliche Bewertung des Schalls spielt dabei eine große Rolle, deshalb wird im Allgemeinen  mit der  schnellen und definierten Bewertung I (Impuls) gemessen. Für Näheres zur Lautstärke und zum Schalldruckpegel siehe Kap. 3.3.1. Der bewertete Schallpegel ist nur grob ein Maß für die empfundene Lautstärke. Wie laut man subjektiv ein Schallereignis empfindet, beschreiben der Lautstärkepegel und die Lautheit genauer, siehe Kap. 3.3.1. 1.2.1.4 Schallleistung und Schallintensität Während die  mathematische Beschreibung des Schallfelds am einfachsten  mit Hilfe des Schalldrucks oder Schalldruckpegels erfolgt, verwendet man zur Beschreibung der Schallquelle in erster Linie die Energiegrößen Schallleistung und – wie auch zur Beschreibung des Energiegehalts eines Schallfelds – die Schallintensität. Die Schallintensität I ist die Schallleistung, die durch eine Flächeneinheit, die senkrecht zur Ausbreitungsrichtung der Schallwelle steht, hindurchströmt. Die Einheit ist also W/m2. Die Schallintensität I einer ebenen Welle ist gleich dem Produkt aus effektivem Schalldruck und effektiver Schallschnelle: I = p eff = I = p eff ⋅ v eff v eff = Z0 = =

Schallintensität [W/m²] effektiver Schalldruck [Pa] effektive Schallschnelle [m/s] Schallkennimpedanz der ebenen Welle [Ns/m3] 408 Ns/m³ unter Normalbedingungen in Luft

Für Normalbedingungen im Raum gilt also

Die gesamte Schallleistung einer Schallquelle ergibt  sich als Summe aller Schallintensitäten, die auf Flächenelementen, die zur Ausbreitungsrichtung  senkrecht  stehen. Diese Flächenelemente liegen auf der Oberfläche einer die Schallquelle einhüllenden Kugel, in deren Mittelpunkt die Schallquelle strahlt. Damit ergibt sich im freien Schallfeld für die Schallintensität im Abstand r von einer kugelförmig nach allen Seiten gleichmäßig abstrahlenden Schallquelle in Abhängigkeit von der Schallleistung P die Beziehung:

I = gesamte Schallintensität [W] im Abstand r von der Schallquelle r = Abstand von der Schallquelle [m] P = Schallleistung [W]

1.2 Schallfelder 

 17

Die akustische Leistung von Schallquellen ist, gemessen an den Größenordnungen von  mechanischen Leistungen und Wärmeleistungen,  sehr gering (Tab.  1/4). Während der Wert des Schalldruckpegels vom Abstand des Messpunkts zur Schallquelle abhängig ist, ist der Schallleistungspegel davon unabhängig, denn er beschreibt die Eigenschaften der Schallquelle selbst. Tab. 1/4. Schallleistungen einiger Schallquellen. Schallquelle

Schallleistung P

Schallleistungspegel LP

Unterhaltungssprache menschliche Stimme (Höchstwert) einzelne Musikinstrumente Presslufthammer Orgel, Pauke Orchester Alarmsirene

0,000 001 bis 0,000 01 W 0,001 bis 0,01 W bis 0,3 W 1W bis 10 W bis 100 W 1.000 W

60 bis 70 dB 90 bis 100 dB 115 dB 120 dB 130 dB 140 dB 150 dB

So wie der Schalldruck auch im  dB-Maß als Schalldruckpegel L angegeben wird,  so kann auch die Schallleistung als Schallleistungspegel Lp und die Schallintensität als Schallintensitätspegel LI in dB angegeben werden. Als Bezugswert ist für die Schallleistung 1 pW = 10-12 W und für die Schallintensität 1 pW/m2 = 10-12 W/m2 gebräuchlich [DIN 1320].

1.2.2 Schallausbreitung im Raum Ein freies Schallfeld in einem Raum existiert praktisch nur in eigens dafür hergerichteten sog. „schalltoten“, besser reflexionsarmen Räumen, im Freien angenähert auch z. B. über einer schneebedeckten Fläche oder einer Sandfläche. In Räumen stellen sich der ungehinderten, geradlinigen Schallausbreitung immer Hindernisse entgegen, vor allem die Raumbegrenzungen, aber auch Gegenstände im Raum, die die Schallausbreitung beeinflussen; diese Einflüsse sind stets frequenzabhängig: –– Die totale oder teilweise Reflexion der Schallwelle an Flächen bewirkt eine Änderung der Ausbreitungsrichtung je nach Größe der Fläche entweder im gesamten Frequenzbereich bei großen Flächen oder nur im Bereich höherer Frequenzen bei kleineren Flächen. Nach innen gekrümmte sog. konkave Flächen (Hohlspiegel) führen zu einer Schallbündelung oder Schallstreuung, je nach Abstand der Schallquelle zur Fläche, nach außen gekrümmte, sog. konvexe Flächen (Streuspiegel) stets zu einer Schallstreuung. –– Die Beugung der Schallwelle an Hindernissen im Schallweg bewirkt eine Änderung der geradlinigen Ausbreitungsrichtung besonders im Bereich tieferer Frequenzen oder ein völliges Umgehen von Hindernissen. –– Die Brechung der Schallwelle spielt in der Raumakustik keine Rolle. –– Die totale oder teilweise Absorption der Schallwelle bewirkt, dass der Schallwelle Energie entzogen wird, wodurch sie geschwächt oder vernichtet wird, in der Regel ist die Absorption frequenzabhängig.

18 

 1 Grundlagen der Akustik

1.2.2.1 Schallreflexion Für die Betrachtung der Schallreflexion eignet  sich die Darstellung der Schallausbreitung als Schallstrahl analog der Lichtausbreitung. Es gelten dabei die aus der Optik bekannten Gesetze der Reflexion an ebenen Spiegeln bzw. an Streu- und Hohlspiegeln. Bedingung für die Gültigkeit der Gesetze ist, dass der Durchmesser der reflektierenden Fläche mindestens einige Wellenlängen der reflektierten Schallwelle misst. Schallreflexion an ebenen Flächen Trifft ein Schallstrahl auf eine hinreichend große ebene Fläche (Abb. 1/12), so wird er unter demselben Winkel (α‘ in Abb. 1/12) reflektiert, unter dem er auf die Fläche trifft (α). Einfallender und reflektierter Strahl liegen dabei in einer Ebene, die senkrecht auf der reflektierenden Fläche steht. Durch entsprechende Ausrichtung der reflektierenden Fläche kann der Schallstrahl in jede gewünschte Richtung gelenkt werden, was bei der raumakustischen Gestaltung Anwendung findet. Trifft ein Schallstrahl auf eine rechtwinklige Ecke, so wird er zweimal so reflektiert, dass er parallel zum einfallenden Strahl zurückkehrt (Abb. 1/12).

Abb. 1/12. Schallreflexion an einer ebenen Fläche und an einer rechtwinkligen Ecke, je zwei Beispiele.

Zwischen parallelen, reflektierenden Wänden kann es zu sog. stehenden Wellen kommen: Eine senkrecht auftreffende Schallwelle wird hier immer wieder mit ihrer eigenen Reflexion überlagert. Dadurch können sich an gewissen Punkten die Schallwellen ganz oder teilweise gegenseitig auslöschen, an anderen Punkten verstärken. Im Gegensatz zur fortschreitenden Welle gibt es also ortsfeste Auslöschungen und Maxima, die bei Aufnahmen, z. B. bei tiefen Orgeltönen, und bei Messungen eine erhebliche Störung darstellen. Bedingung für das Zustandekommen  stehender Wellen ist, dass der Wandabstand gleich der halben Wellen-

1.2 Schallfelder 

 19

länge oder einem ganzzahligen Vielfachen davon ist. Umgekehrt gibt es für jeden Abstand eine Schallwelle mit entsprechender Frequenz und damit eine stehende Welle. Abb. 1/13 zeigt die Druckverteilung in stehenden Wellen; bei vollständiger Reflexion ist der Schall in den Druckknoten ausgelöscht, in den Druckbäuchen verdoppelt. Eine stehende Welle kann bei einem bestimmten Wandabstand also immer nur für eine Frequenz und deren harmonische Obertöne auftreten. Ferner entsteht eine stehende Welle nur bei einem Dauerton. In der Praxis treten stehende Wellen als sog. Raummoden oder Raumresonanzen besonders in kleineren Räumen auf; sie kennzeichnen neben den wenig verzögerten Reflexionen Kleinräumigkeit, die typische „Wohnzimmerakustik“. Bei der Aufnahme können solche Resonanzen durch oft nur geringfügiges Verschieben des Mikrofons unschädlich gemacht werden.

Abb. 1/13. Druckverteilung in stehenden Wellen zwischen zwei parallelen Wänden.

Bei impulsartigem Schall entsteht zwischen parallelen Wänden ein Flatterecho, da das Signal dauernd hin und her reflektiert wird. Bei größerem Wandabstand ist dabei die  schnelle Abfolge einzelner Echos wahrnehmbar, bei kleinerem Wandabstand von weniger als etwa 8 m wird die Abfolge der Echos so rasch, dass ein sog. Klangecho entsteht: Der Schallimpuls erhält eine Art Nachhall, der indes nur eine bestimmte Tonhöhe hat, die vom Wandabstand und dem Standort des Hörers abhängt. Schallreflexion an gekrümmten Flächen Trifft eine Schallwelle auf eine nach innen gewölbte, eine konkave Fläche, so müssen je nach dem Abstand zwischen Schallquelle und reflektierender Hohlfläche vier verschiedene Situationen unterschieden werden: 1. Der Abstand der Schallquelle zur reflektierenden Fläche ist größer als der halbe Krümmungsradius r/2 der Fläche, jedoch kleiner als der Radius r: Der gesamte reflektierte Schall wird in einem Punkt, der außerhalb des Krümmungsradius liegt, gesammelt (Abb. 1/14). 2. Der Abstand der Schallquelle zur reflektierenden Fläche ist gleich dem halben Krümmungsradius r/2 der Fläche: Die auseinanderlaufenden Schallstrahlen verlaufen nach der Reflexion parallel (Abb. 1/15).

20 

 1 Grundlagen der Akustik

Abb. 1/14. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der halbe Krümmungsradius r/2.

Abb. 1/15. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche gleich dem halben Krümmungsradius r/2.

3. Der Abstand Schallquelle zur reflektierenden Fläche ist kleiner als der halbe Krümmungsradius r/2 der Fläche: Die Schallstrahlen streben nach der Reflexion auseinander, die Anordnung zerstreut den Schall (Abb. 1/16).

Abb. 1/16. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zur reflektierenden Fläche kleiner als der halbe Krümmungsradius r/2.

4. Der Abstand Schallquelle zur reflektierenden Fläche ist größer als der Krümmungsradius r: In diesem Fall ergibt sich eine noch stärker zerstreuende Wirkung (Abb. 1/17).

1.2 Schallfelder 

 21

Abb. 1/17. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der Krümmungsradius r.

Solche gewölbten Flächen sind vor allem die Gewölbe alter Kirchen und anderer historischer Gebäude. Es ist in jedem einzelnen Fall zu prüfen, inwieweit ein Gewölbe eine den Schall zerstreuende oder sammelnde Wirkung hat. Die Fokussierung einer Schallwelle kann bei Darbietungen und Aufnahmen zu einer unerwünschten Heraushebung einzelner Schallquellen aus einem größeren Schallkörper führen, die besonders auch deshalb als störend empfunden wird, weil die Schallquelle im Gewölbe selbst lokalisiert wird. Demgegenüber erhöht die Schallstreuung die im Allgemeinen erwünschte Diffusität eines Raums (siehe Kap. 1.3.5) und führt damit zu einer gleichmäßigeren Schallerfüllung des Raums. Nach außen gewölbte,  sog. konvexe Flächen, haben unabhängig vom Abstand der Schallquelle zur Fläche bzw. zum Hörer eine den Schall zerstreuende Wirkung. 1.2.2.2 Schallbeugung Ist die Ausdehnung eines Gegenstands, auf den eine sinusförmige Schallwelle bei ihrer Ausbreitung trifft, in der Größenordnung der Wellenlänge des Schalls oder kleiner, so wird dieses Hindernis von der Schallwelle so umgangen, als ob es nicht vorhanden wäre (Abb. 1/18). Da die Wellenlänge des Hörschalls zwischen etwa 20 m und 2 cm (siehe Tab. 1/2) liegt, wird es im Allgemeinen in einer aus vielen Teilfrequenzen zusammengesetzten Schallwelle relativ tieffrequente Anteile geben, die um das Hindernis herumgebeugt werden; höherfrequente Anteile hingegen werden von dem Hindernis reflektiert, gelangen also nicht hinter das Hindernis, wo nun ein Schallschatten entsteht. Damit wirkt ein Hindernis, das sich zwischen Schallquelle und Hörer oder Mikrofon befindet, wie ein Höhenfilter, ein komplex zusammengesetzter Klang wird dumpfer, es wird linear verzerrt. An einer Kante wird eine Schallwelle in den Schallschatten hineingebeugt, und zwar umso stärker, je tiefer die Frequenz ist. Einfluss der Wellenlänge Um den Schall reflektieren zu können, muss eine Fläche mindestens einen Durchmesser haben, der mehreren Wellenlängen der zu reflektierenden Schallwelle entspricht. Ist die Ausdehnung geringer, so wird der Schall um das Hindernis herum gebeugt. Selbst wenn der Durchmesser des Hindernisses der doppelten Wellenlänge entspricht, wird der Schall noch fast vollständig

22 

 1 Grundlagen der Akustik

herumgebeugt. Erst bei rund 5-facher Ausdehnung erscheint ein deutlicher Schallschatten. Abb. 1/18 zeigt an einigen Beispielen die Schallschattenbildung durch einen Zylinder.

Abb. 1/18. Schallbeugung an einem Zylinder für verschiedene Verhältnisse von Wellenlänge λ zum Durchmesser des Zylinders d.

Wenn eine Schallwelle nicht mehr um das Hindernis herumgebeugt wird, wirkt das Hindernis als Reflektor. Die Bedingungen für das Zustandekommen einer vollständigen Reflexion hängen von verschiedenen Faktoren ab: Der Wirkungsbereich eines Reflektors reicht zu umso tieferen Frequenzen hinab, je größer die reflektierende Fläche ist, je kleiner ihr Abstand zur Schallquelle ist, je kleiner ihr Abstand zum Hörer ist und je steiler die Schallwelle auf den Reflektor trifft. Für die tiefste noch reflektierte Frequenz fu gilt: fu = tiefste reflektierte Frequenz [Hz] c = Schallgeschwindigkeit [m/s] d = Durchmesser des Reflektors [m] α = Einfallswinkel des Schallstrahls [°] a1 = Entfernung Reflektor – Schallquelle [m] a2 = Entfernung Reflektor – Hörer [m] 1.2.2.3 Schallbrechung Unter Brechung versteht  man die Richtungsänderung des Schallstrahls beim Übergang zu einem Medium  mit einer anderen Schallgeschwindigkeit. In der Raumakustik  spielt die Schallbrechung praktisch keine Rolle. Im Freien, wo der Schall weit größere Strecken zurücklegen kann, kommt es aber durch Temperaturunterschiede einzelner Luftschichten zu Schallbrechungen, da die Schallgeschwindigkeit von der Temperatur abhängt. Liegt z. B.

1.2 Schallfelder 

 23

eine wärmere Luftschicht über einer kälteren wie bei einer Inversionswetterlage, wird der Schall zur Erde hin gebeugt, es entstehen deutlich hörbare Überreichweiten des Schalls; das ist typisch für Föhnwetterlagen oder für den frühen Morgen, wenn die Sonne erst die oberen Luftschichten erwärmt hat. Bei umgekehrter Schichtung, also im Normalfall, wird der Schall von der Erde weg nach oben gebeugt, der akustische Horizont liegt deshalb höher als der optische Horizont. 1.2.2.4 Schallabsorption Bereits bei der Schallausbreitung in Luft, besonders aber beim Auftreffen auf Hindernisse wird dem Schall durch Absorption Energie entzogen [Fuchs, 2010]. Als Maß für die Absorption wird der Absorptionsgrad α angegeben. Er ist eine Zahl zwischen 1 für totale Absorption und 0 für fehlende Absorption, d. h., totale Reflexion; er kann auch in  % angegeben werden. Der Absorptionsgrad α ist gleich dem Verhältnis von absorbierter Energie zu auftreffender Energie; bei der absorbierten Energie ist die durch die Wand hindurchgehende Energie eingeschlossen. Das Verhältnis der Schallleistungen oder Schallintensitäten führt zu demselben Ergebnis. Die Bestimmung des Absorptionsgrads erfolgt im Hallraum [DIN EN ISO 354] oder im sog. Kundtschen Rohr. Absorptionsgradwerte über 1 findet man gelegentlich angegeben, sie tragen der Tatsache Rechnung, dass die wirksame Fläche eines Absorbers etwas größer ist als seine geometrische Fläche. Die Gesamtabsorption einer Wand oder eines Raums, das sog. Absorptionsvermögen A, ergibt sich als Produkt von Absorptionsgrad α und der absorbierenden Fläche S. A ist also gleich der äquivalenten Absorptionsfläche  mit a  = 1, auch äquivalente Absorptionsfläche oder „Fläche offenes Fenster“ genannt. A = α ⋅ S

A = Absorptionsvermögen [m²] α = Absorptionsgrad [dimensionslos] S = absorbierende Fläche [m²]

Bei unterschiedlichen Materialien  mit verschiedenen Absorptionsgraden ergibt  sich  A als Summe der Teilabsorptionsvermögen: A = α1 ⋅ S1 + α2 ⋅ S2 + … Eine wesentliche Eigenschaft eines Absorbers ist die Frequenzabhängigkeit seines Absorptionsgrads, die sich einerseits aus den Materialeigenschaften, andererseits aus der konstruktiven Anordnung wie dem Wandabstand, einer Abdeckung usw. ergibt. Man unterscheidet im Hinblick auf die spektrale Wirksamkeit Höhenabsorber, Mittenabsorber und Tiefenabsorber. Die wichtigsten Funktionsprinzipien der Schallabsorption sind Reibung und mitschwingende Massen: Reibung durch Luftbewegung in Poren: Durch die Bewegung der schwingenden Luftteilchen in offenporigen Materialien wie Faserstoffen oder offenporigen Schäumen wird Schallenergie durch Reibung entzogen und in Wärmeenergie umgewandelt. Die Absorption ist bei höheren Frequenzen in einem breiten Frequenzbereich wirksam.

24 

 1 Grundlagen der Akustik

Reibung von durch Resonanz verstärkter Luftbewegung in Helmholtz-Resonatoren: Die Luftbewegung wird im Hals der Hohlraum-Resonatoren durch Resonanz verstärkt; dadurch wird die Reibung und damit die Absorption vergrößert. Diese Absorber sind nur in einem schmalen Frequenzband um die Resonanzfrequenz wirksam. Anregung von Platten zum Mitschwingen: Dem Schallfeld wird dadurch Energie entzogen, dass Platten, die verglichen mit Luft ein sehr hohes spezifisches Gewicht haben, zum Mitschwingen angeregt werden, in ihrer Bewegung aber durch federnde Unterlagen und innere Reibung gedämpft werden. Die Absorption ist schmalbandig, kann aber durch Kombination verschiedener Elemente und Materialien breitbandig gestaltet werden. Die Absorber müssen an der Decke und auf mindestens zwei zueinander senkrecht stehenden Wandflächen angeordnet werden und  sollten anteilmäßig zur Größe der jeweiligen Raumbegrenzungsfläche verteilt werden. Der dabei auf den Boden entfallende Anteil der Absorber wird zusätzlich an der Decke angeordnet. Die genaue Lage der Absorber richtet sich danach, welche Flächenanteile für nützliche Schallreflexionen, z. B. Deckenspiegel in Konferenzräumen und Konzertsälen, benötigt werden bzw. wo schädliche Reflexionen unterdrückt werden müssen. Die Absorptionsgrade häufig anzutreffender Wandoberflächen zeigt Tab. 1/5. Tab. 1/5. Absorptionsgrade α verschiedener Materialien bei Wandoberflächen. Absorptionsgrade α bei verschiedenen Frequenzen Material

125 Hz

250 Hz

500 Hz

1.000 Hz

2.000 Hz

4.000 Hz

Beton, unverputzt Putz auf Mauerwerk Teppich, mittlere Dicke Akustikplatte, 2 cm dick auf Wand aufgeklebt Akustikplatte, 2 cm dick mit 2 cm Wandabstand Vorhänge

0,01 0,02 0,05 0,05

0,01 0,02 0,08 0,15

0,02 0,03 0,20 0,55

0,02 0,04 0,30 0,90

0,02 0,05 0,35 1,0

0,03 0,05 0,40 1,0

0,10

0,20

0,85

1,0

1,0

1,0

0,05

0,10

0,25

0,30

0,40

0,50

Die Absorption durch die Luft selbst macht sich nur im Bereich hoher Frequenzen von etwa 5 kHz an bemerkbar und nimmt mit steigender Frequenz zu, wodurch die Nachhallzeit insbesondere größerer Räume bei hohen Frequenzen weitgehend durch die Luftabsorption bestimmt wird. Höhenabsorber Höhenabsorber absorbieren hauptsächlich im Bereich hoher Frequenzen. Meist handelt es  sich dabei um  sog. poröse Absorber, zu denen in erster Linie Faserstoffe zählen, also z. B. Vorhänge, Teppiche, Polstermöbel, Platten aus Stein- und Glaswolle. Bei diesen Absorbern strömt die Luft bei ihrer Schwingungsbewegung in den zahlreichen Poren und Kanälen des Materials hin und her. Die dabei durch die Reibung erzeugte Wärmeenergie wird der Schallenergie entzogen, ist aber so gering, dass sie nicht zu einer messbaren Temperaturerhöhung des Absorbers führt.

1.2 Schallfelder 

 25

Da die Absorptionswirkung eines Materials mit der Schallschnelle im Absorber ansteigt, ist ein Absorber dann am wirksamsten, wenn er sich im Bereich eines Schnellemaximums der Schallwelle befindet, in einem Schnellenullpunkt ist er praktisch nicht wirksam. Eine an einer harten Wand reflektierte Welle hat aber an der Reflexionsfläche einen Schnellenullpunkt, im Abstand von 1/4 Wellenlänge von der Wand ein Schnellemaximum. Deshalb ist die Absorption zu tieferen Frequenzen hin umso wirksamer, je dicker die poröse Schicht ist oder/und je größer ihr Abstand zur Wand ist (Abb. 1/19). Die Verbesserung der Absorption bei einem Lattenunterbau zeigt Abb. 1/20.

Abb. 1/19. Einfluss der Wellenlänge λ, der Absorptionsdicke d und des Abstands Absorber – Wand a auf die Absorption.

Abb. 1/20. Verlauf des Absorptionsgrades α handelsüblicher Akustikplatten, a. direkt auf die Wand gesetzt, b. auf Lattenrost, 2,2 cm vor der Wand befestigt.

Oft haben Schallabsorber für hohe Frequenzen aus optischen und akustischen Gründen Abdeckungen aus Holz, Metall o. a., die mit einer großen Zahl von Öffnungen versehen sind. Die Abdeckungen bewirken eine Ausdehnung der Absorption nach tieferen Frequenzen hin,

26 

 1 Grundlagen der Akustik

während Schall höherer Frequenzen etwas weniger absorbiert wird. Tab. 1/5 nennt für Akustikplatten und Vorhänge die Absorptionsgrade dieser Höhenabsorber. Ein universeller, bei Bedarf leicht anzubringender Höhenabsorber ist ein frei hängender Vorhang aus nicht zu leichtem Stoff. Der Vorhang absorbiert wirksam bei Wellenlängen unterhalb des vierfachen Abstands von Wand zu Vorhang. Daraus lässt sich die Formel für die untere Grenzfrequenz fu ableiten, oberhalb der die Absorption einsetzt; Falten ergeben einen gleitenden Übergang von nicht absorbierten tiefen Frequenzen zu absorbierten höheren Frequenzen und einen gleichmäßigeren Frequenzgang der Absorption. fu = untere Grenzfrequenz [Hz] d = Abstand zwischen Wand und Vorhang [cm] Auch Publikum hat eine starke Absorptionswirkung. Damit kann es die Akustik eines Raums erheblich beeinflussen. Die Absorption wirkt bereits von 200 bis 500  Hz an aufwärts und erreicht für höhere Frequenzen Werte, die denen von Akustikplatten vergleichbar  sind (Abb. 1/21). Bei einer Ausstattung mit Polsterstühlen ist der Unterschied in der Akustik von besetztem und unbesetztem Saal bei akustisch optimierter Bestuhlung nicht groß, bei Verwendung von Holzstühlen oder Bänken hingegen kann sich die Akustik durch das Publikum grundlegend verändern; dies trifft insbesondere für Kirchen zu, vor allem, wenn sie relativ klein sind. [Kath, 1964, 1965], [Meyer, E, 1965], [Mommertz, 1993], [Eggenschwiler, 1999]

Abb. 1/21. Absorptionswirkung von Publikum, a. Personen auf Holzstühlen, b. Polsterstühle ohne Personen, c. Polsterstühle mit Personen.

1.2 Schallfelder 

 27

In wenig bedämpften Räumen  mit viel Publikum bestimmt die Absorption des Publikums weitgehend die Nachhallzeit, so dass in solchen Räumen in erster Linie das Raumvolumen pro Hörer, die sog. Volumenkennzahl K von Räumen, die Nachhallzeit bestimmt: Bei K = 8 bis 10 m3 ergibt sich eine Nachhallzeit von etwa 2 s, ein sehr guter Wert für Räume für Musikaufführungen mit Orchester, bei K = 6 bis 7 m3 liegt sie bei etwa 1,5 s, für Kammermusik der geringste akzeptable Wert, für das gesprochene Wort aber ein günstiger Wert (siehe Tab. 1/12). Mittenabsorber Durch konstruktive Maßnahmen an Höhenabsorbern, wie vergrößerter Wandabstand, größere Schichtdicke und perforierte Abdeckung des Absorbers, wird ein Höhenabsorber auch im mittleren Frequenzbereich um 500 Hz wirksam. Seltener werden spezielle Mittenabsorber, sog. Lochabsorber, verwendet, gelochte oder geschlitzte Platten vor einem Hohlraum, dessen Begrenzungsflächen teilweise  mit Fasermaterial belegt  sein können. Man bezeichnet solche Konstruktionen als Helmholtz-Resonatoren, da sie als schwingungsfähiges, lufterfülltes Hohlraumsystem mit einer Eigenfrequenz, bei der die Absorption am stärksten ist, wirken. Die Lage der Frequenz größter Absorption kann durch die Konstruktion gewählt werden. Abb. 1/22 zeigt den typischen Absorptionsverlauf eines Mittenabsorbers nach Helmholtz. Diese Resonatoren wirken relativ schmalbandig; die absorbierende Auskleidung des Hohlraums macht die Absorption breitbandiger.

Abb. 1/22. Typischer Absorptionsverlauf eines Helmholtz-Mittenabsorbers.

Die Resonanzfrequenz von Helmholtz-Resonatoren errechnet sich wie folgt und ist damit in weiten Bereichen beeinflussbar. c S ≈ 54 ⋅ f = V ⋅L S 2π ⋅ V ⋅L

f = Resonanzfrequenz [Hz] c = Schallgeschwindigkeit [m/s] S = Fläche des Resonatorhalses [m2] V = Volumen des Resonators [m3] L = Länge des Resonatorhalses [m]

28 

 1 Grundlagen der Akustik

Ein Beispiel für einen Helmholz-Resonator ist das fahrende Anto  mit leicht geöffneter Scheibe; die zu beobachtende starke Tieftonresonanz kann durch Veränderung der Fensteröffnung – S in der Formel – beeinflusst werden. Ein anderes Beispiel ist eine angeblasene Flasche. Tiefenabsorber Tiefenabsorber bestehen meist aus Sperrholzplatten, die auf einem Lattenrahmen möglichst luftdicht vor eine Wand montiert werden. Der Zwischenraum zwischen Sperrholz und Wand wird  mit  schalldämpfenden Faserstoffen ausgefüllt. Die Schallwelle bringt die Platte zum Schwingen, durch innere Reibung der Platte und durch die Dämpfung der bewegten Luft im Fasermaterial wird dieser Schwingung Energie entzogen. Tiefenabsorber sind wie Mittenabsorber Resonanzsysteme, die Resonanzfrequenz nimmt mit zunehmendem Flächengewicht der schwingenden Platte und mit größer werdendem Wandabstand ab. Die Resonanzfrequenz wird zwischen etwa 70 und 300 Hz gelegt, je nach den jeweiligen raumakustischen Anforderungen (Abb. 1/23). Durch aufgesetzte Gewichte kann die Resonanzfrequenz verändert bzw. noch korrigiert werden. So können etwa die Holzkassetten einer Decke unterschiedlich abgestimmt werden; damit kann die Gesamtabsorption auf einen breiten Frequenzbereich ausgedehnt werden. Ein besonders hohes Flächengewicht haben Metallplatten, sie können damit besonders Platz sparend eingesetzt werden, z. B. in Übertragungswagen.

Abb. 1/23. Typischer Absorptionsverlauf eines Tiefenabsorbers, a. Plattenabsorber, b. nicht hinterpolsterte Platte.

Bei Platten, die frei im Raum schwingen wie aufgehängte Decken, Fenster und Türen sinkt die Resonanzfrequenz wegen der fehlenden Federwirkung, die sonst durch das eingeschlossene Luftpolster entsteht,  so tief ab, dass  sich ein gleichmäßiger Verlauf der Absorptionskurve einstellt (Abb. 1/23b). Besetzte oder unbesetzte Saalbestuhlung kann je nach Konstruktion der Stuhllehnen auch als Tiefenabsorber wirken, der bei etwa 130 bis 170 Hz eine Pegelabsenkung von 15 bis 20 dB bewirkt, nachdem der Schall eine Bestuhlung von 20 bis 25 m überstrichen hat.

1.2 Schallfelder 

 29

1.2.2.5 Schalldämmung Als Schalldämmung bezeichnet man die Fähigkeit von Baumaterialien, den Durchgang von Schall durch Wände und Decken eines Raums zu hemmen. Ein Maß für die Schalldämmung ist das Schallisolationsmaß [DIN 1320] oder Schalldämmmaß R [DIN 4109]. Darunter versteht man das in dB angegebene Verhältnis der auf eine Wand auftreffenden Schallintensität I1 oder des Schalldrucks p1 zur gesamten durchgelassenen Schallintensität I2 bzw. zum gesamten durchgelassenen Schalldruck p2. R = Schalldämmmaß [dB] I1 = auf die Wand auftreffende Schallintensität [W/m²] I p I = durch die Wand hindurchgehende Schallintensität [W/m²] R = 10 ⋅ log 1 = 20 ⋅ log 1 2 I p 2 2 p = auf die Wand auftreffender Schalldruck [Pa] 1 p2 = durch die Wand hindurchgehender Schalldruck [Pa] Die Schalldämmmaße sind frequenzabhängig, sie steigen meist mit der Frequenz erheblich an. Um dennoch mit einer einzigen Zahl das Schalldämmverhalten von Wänden, Decken usw. angeben zu können, wird in [DIN 4109] das Luftschallschutzmaß LSM definiert. Der Wert des LSM, angegeben in dB, gibt an, wie sich die gemessene Schalldämmung zu der in [DIN 4109] angegebenen Bezugskurve im Mittel verhält. LSM = 0 dB bedeutet, dass die Schalldämmanforderungen nach [DIN 4109] erfüllt sind; Wände zwischen Wohnungen sollen LSM = 0 dB haben. Tab. 1/6 nennt die Schalldämmmaße diverser Materialien. Gute Schalldämmung gegen Luftschall ergeben luftdichte, schwere und harte Materialien wie Stein und Holz. Das Schalldämmmaß hängt in erster Linie von der Masse einer Trennwand ab. Aus diesem Grunde sind die meist sehr leichten Akustikplatten und andere Absorber schlechte Dämmstoffe. Eine wesentliche Verbesserung der Schalldämmung ergeben zweioder mehrschalige Konstruktionen. Körperschall, der durch das Mitschwingen von Konstruktionsteilen weitergeleitet wird, wird durch  schallweiche, elastische Zwischenteile wie Gummi oder Kork gedämpft. Eine häufig  störende Form des Körperschalls ist der Trittschall. Er wird als Körperschall durch elastische Schichten bedämpft, also durch den sog. schwimmenden Estrich, eine harte Platte auf einer elastischen Schicht, und auch durch Teppichboden. Als Luftschall kann Trittschall z. B. durch abgehängte Decken vermindert werden. Tab. 1/6. Schalldämmmaße verschiedener Materialien Material, Dicke Blocksteine, 25 cm Kalksandstein, 12 cm, 20 cm Beton, 12 cm, 20 cm Gipsplatten, 6 cm, 10 cm Holzspanplatten, 1 cm, 4 cm Backsteinwand, 11 cm, verputzt leichte Zimmertür schalldämmende Spezialtür doppelt verglaste Fenster Regiefenster

Schalldämmmaß 49 bis 54 dB 46 bis 50 dB, 50 bis 55 dB 47 bis 52 dB, 53 bis 59 dB 30 bis 34 dB, 36 bis 40 dB 17 bis 20 dB, 26 bis 30 dB 44 bis 48 dB 10 bis 20 dB 35 bis 45 dB 30 bis 40 dB bis 65 dB

30 

 1 Grundlagen der Akustik

1.3 Raumakustik Die Raumakustik befasst  sich  mit den akustischen Erscheinungen und Bedingungen in geschlossenen Räumen. Hierbei spielt der subjektive Höreindruck stets eine entscheidende Rolle, er muss immer in die Betrachtungen einbezogen werden [Meyer, 2004], [Hentschel, 2009], [Beranek, 2010]. Für die raumakustische Planung stehen heute komplexe, aber auch vereinfachende Computer­programme zur Verfügung, die mittlerweile sehr gute Voraussagen über die zu erwartende Raumakustik ermöglichen.

1.3.1 Zeitlicher Aufbau des Schallfelds Strahlt eine Schallquelle in einem Raum allseitig einen Schallimpuls ab, so wird dieser von den Raumbegrenzungsflächen und von den Gegenständen im Raum in Abhängigkeit vom Material und geometrischer Form und Größe der Gegenstände reflektiert, absorbiert oder gebeugt, auch zerstreut oder gebündelt. Dadurch treffen am Ort eines Hörers nach dem Direktschall, der auf dem kürzesten Weg den Hörer erreicht, zunächst einige einzelne Reflexionen, die  sog. ersten Reflexionen ein, deren Verzögerung, Stärke und Einfallsrichtung für das Hörereignis von großer Bedeutung  sind. Die Folge der Reflexionen verdichtet  sich rasch und bildet den Nachhall, der daher mit einer Verzögerung gegenüber dem Direktschall einsetzt (Abb. 1/24). Dauer und Stärke des Nachhalls sind im Allgemeinen überall im Raum gleich, zumindest ähnlich. Die Gesamtheit des reflektierten Schalls  stellt das im Idealfall gleichmäßig den Raum erfüllende diffuse Schallfeld dar, das dadurch gekennzeichnet ist, dass es keine Vorzugsrichtung der Schallausbreitung enthält. Das diffuse Schallfeld baut sich umso schneller auf, je kleiner der Raum ist, d. h., je häufiger der Schall pro Zeiteinheit reflektiert und gebeugt wird. Wenn ein Raum viele Streukörper wie Säulen usw. aufweist, bzw. Wände und Decke eines Raums nicht eben, sondern strukturiert sind, ist die Gleichmäßigkeit des Diffusschallfelds am größten. Dabei müssen die streuenden Flächen und Körper in ihren Abmessungen groß gegenüber der Wellenlänge des zu reflektierenden Schalls sein, um wirksam zu sein. Eine z. B. in Form von Kassetten strukturierte Wand kann daher gleichzeitig für tiefe Frequenzen wie eine große, ebene Fläche wirken, während der Schall bei höheren Frequenzen diffus gestreut wird. Hohlflächen wirken im Allgemeinen Schall sammelnd und beeinträchtigen die Diffusität des Schallfelds. Ein gleichmäßig über den Raum verteiltes, wirklich diffuses Schallfeld kann  sich nur bei breitbandigem, impulshaltigem Schall, z. B. Sprache, Musik oder Rauschen, aufbauen. Besteht dagegen der Schall aus  sinusförmigen Dauertönen oder  stationärem,  schmalbandigem Rauschen,  so bilden  sich auch in  schiefwinkligen Räumen, auch bei  strukturierten Raumbegrenzungsflächen, stehende Wellen, deren Druckmaxima und -minima sich ortsfest an bestimmten Raumpunkten befinden und beim Abschreiten des Raums leicht zu lokalisieren sind. Stehende Wellen oder Raummoden treten umso mehr und stärker auf, je kleiner ein Raum und je tiefer die Frequenz ist. Wenn sie bei der Aufnahme stören, kann oft durch eine kleine Verschiebung des Mikrofons aus dem Druckmaximum oder -minimum Abhilfe geschaffen werden.

1.3 Raumakustik 

 31

Abb. 1/24. Zeitliche Folge der Reflexionen in einem Raum bei Impulsschall.

Bei andauernden Schallsignalen, nicht nur bei Rauschen und Sinustönen z. B., sondern vielfach auch bei Musik, ergibt sich ein anderer zeitlicher Aufbau des diffusen Schallfelds. Der Schalldruck steigt bei Einschalten der Schallquelle zunächst auf seinen endgültigen Wert an und bildet dabei den sog. Anhall, der einen Klangeinsatz weich oder hart wirken lässt; kurzer Anhall macht den Klangeinsatz prägnant bis hart, langer Anhall weich bis verschwommen. Nach Abschalten der Schallquelle schließt sich wie bei Impulsschall der abklingende Nachhall an (Abb. 1/25).

Abb. 1/25. Zeitlicher Auf- und Abbau des Schalldrucks im diffusen Schallfeld bei Dauerschall.

Zur akustischen Raumgestaltung gehören vor allem die folgenden Aufgaben: Gute Abstrahlmöglichkeit der Schallquellen, geeignete Lenkung des Direktschalls und eine optimale Gestaltung der Verzögerungen der ersten Reflexionen (siehe Kap. 1.2.2 und 1.3.3), optimale Gestaltung der Nachhallzeit und ihrer Frequenzabhängigkeit einschließlich der Realisierung

32 

 1 Grundlagen der Akustik

einer guten Diffusität des Nachhalls, d. h., eine gleichmäßige Verteilung der Hallenergiedichte im Raum (siehe Kap. 1.3.4) und eine Vermeidung von Raummoden.

1.3.2 Begriffe der Hörakustik Die Akustik eines Raums und ihre Qualität ergibt sich aus dem komplexen Zusammenwirken der geometrischen Form des Raums und  seiner Einrichtung, der akustischen Wirksamkeit der Oberflächen und den Eigenschaften des abgestrahlten Schalls als objektive Faktoren auf der einen Seite und der  subjektiven, bewertenden Wahrnehmung das Raumschalls durch den Hörer mit seinen Erfahrungen, Erwartungen und Anforderungen auf der anderen Seite. Einen Zusammenhang zwischen den objektiven und subjektiven Faktoren herzustellen, ist ein wesentliches Ziel der raumakustischen Forschung. Diese Zusammenhänge  sind inzwischen soweit bekannt, dass die exakte akustische Planung eines Saals zu einem guten Ergebnis führt, sofern nicht Kompromisse durch divergierende, unerfüllbare Anforderungen insbesondere im Hinblick auf  sehr unterschiedliche Nutzungen geschlossen werden  müssen. Seit dem 19. Jahrhundert wurden die auch aus heutiger Sicht besten Säle gebaut, deren Konzeption zunächst mehr auf Erfahrungen der Architekten als auf genauem akustischem Wissen beruhte. Um die subjektiven Aspekte der Raumakustik erfassen zu können, mussten Begriffe definiert werden, die einerseits physikalisch begründet sind, andererseits die subjektive Bewertung des Höreindrucks erfassen. Die folgenden übergreifenden Begriffe werden für die Hörakustik eines Raums verwendet [Kuhl, 1977], [Lehmann, 1980], Tab. 1/7 fasst sie zusammen. Die Hörsamkeit ist ganz allgemein die Eignung eines Raums für bestimmte Schalldarbietungen. Gute Hörsamkeit für Sprachdarbietungen besagt z. B., dass ohne Benutzung elektroakustischer Verstärkung eine gute Sprachverständlichkeit an allen Plätzen des Raums gewährleistet ist. Die Durchsichtigkeit kennzeichnet bei Musikdarbietungen trotz zusätzlichem Raumschall als Zeitdurchsichtigkeit die Unterscheidbarkeit zeitlich aufeinanderfolgender Töne und als Registerdurchsichtigkeit die Unterscheidbarkeit gleichzeitig gespielter Instrumente oder Instrumentengruppen oder deren Register oder Tonhöhenbereiche. Die Durchsichtigkeit bezeichnet also die Klarheit einer Musikdarbietung,  sie ist vergleichbar der Wortverständlichkeit bei Sprachdarbietung. Schallreflexionen, die bei Musik bis spätestens 80 ms nach dem Direktschall eintreffen, erhöhen die Durchsichtigkeit und die Empfindung der Räumlichkeit, spätere Reflexionen mindern die Durchsichtigkeit und erhöhen die Halligkeit. Für Sprache ist diese Zeitgrenze bei 50 ms anzusetzen. Der Raumeindruck ist die Hörempfindung, die  man in einem teilweise oder ganz umschlossenen Raum beim Erklingen eines Schallereignisses von dem Raum hat. Der Raumeindruck hat die Komponenten: –– die Empfindung, im gleichen Raum wie die Schallquelle zu sein, nicht, wie z. B. bei Zweikanal-Stereowiedergabe, durch ein Fenster in den Aufnahmeraum hineinzuhören, –– die Empfindung der Größe, insbesondere Breite und Tiefe, des Raums,

1.3 Raumakustik 

 33

–– die Empfindung der Halligkeit, d. h., die Tatsache, dass außer dem Direktschall Diffusschall vorhanden ist, der nicht als Wiederholung des Direktschalls, d. h., als Echo wahrgenommen wird, die Empfindung der Räumlichkeit, d. h., die Wahrnehmung, dass der Raum eine größere Ausdehnung hat als die Schallquelle. Im Gegensatz zum Hall ist das Echo eine einmalige Wiederholung eines Schallereignisses; es gibt dem Hörer über die Entfernung einer weiter entfernten Wand Auskunft. Zu weiteren Begriffen und Parametern zur Beschreibung und  subjektiven Beurteilung der Qualität von Hörereignissen in Räumen siehe auch Kap. 19.7.3. Tab. 1/7. Begriffe der Hörakustik und ihre Bedeutung. Begriff

Unterbegriffe

Kurzdefinition

Hörsamkeit

1. Sprachhörsamkeit, 2. Musikhörsamkeit

Oberbegriff für die akustische Eignung eines Raums für Sprachdarbietung (1.) bzw. Musikdarbietung (2.)

Durchsichtigkeit

1. Zeitdurchsichtigkeit, 2. Registerdurchsichtigkeit

Klarheit einer akustischen Darbietung durch Unterscheidbarkeit aufeinander folgender (1) bzw. gleichzeitiger (2) Schallereignisse

Raumeindruck

1. Einbezogensein des Hörers, 2. Raumgröße, 3. Halligkeit, 4. Räumlichkeit, 5. Echo

Empfindung von Größe und Ausgestaltung eines Raums

akustisches Gleich- 1. Gleichgewicht der gewicht Lautstärken, 2. Gleichgewicht der Dynamik, 3. Gleichgewicht der Klangfarben

Mischung der einzelnen Schallquellen

1.3.3 Direktschall und erste Reflexionen Die ausreichende Versorgung der Hörer mit Direktschall ist eine Grundbedingung für gute Hörsamkeit in Räumen für Sprach- und Musikdarbietung. Optische Sichtverbindung gewährleistet noch nicht die notwendige Direktschallversorgung; der Anteil an Direktschall im Schallfeld muss denjenigen an Diffusschall übertreffen oder die ersten, weniger als 50 bis 80 ms verzögerten Reflexionen müssen in ihrer Gesamtheit stark genug sein, um ein klares Klangbild vor dem akustischen Hintergrund des Diffusfelds zu zeichnen. Die Stärke und Verzögerung der ersten Reflexionen beeinflusst das Hörereignis in verschiedener Weise: Alle Reflexionen erhöhen die Lautstärke des Direktschalls, die Deutlich-

34 

 1 Grundlagen der Akustik

keit  steigt aber nur dann, wenn  sie um weniger als 50  ms entsprechend 17  m Umweg der Schallwelle verzögert sind. Frühe Reflexionen mit einer Verzögerung von 0,8 bis etwa 20 ms entsprechend 0,3 bis 7 m Umweg verursachen bei der Tonaufnahme gleichzeitig eine unangenehme Klangfärbung, die durch Summierungen und Auslöschungen zwischen Direktschall und Reflexionen entsteht; sie stören also bei Tonaufnahmen und sind möglichst zu unterdrücken. Dies betrifft Reflexionen mit einem Umweg von weniger als 7 m. Reflexionen mit einer Laufzeitdifferenz von 20 bis 50 ms entsprechend 7 bis 17 m Umweg bestimmen die empfundene Raumgröße; ein Raum erscheint umso größer, je  mehr die ersten Reflexionen verzögert sind, umso kleiner und enger, je früher sie eintreffen. Außer der Verzögerung haben Richtung und Stärke der ersten Reflexionen erheblichen Einfluss: seitlich einfallender Schall wird deutlicher gehört und hat sich für das Hörereignis als wesentlich günstiger erwiesen als von oben oder von hinten einfallender Schall. Die Reflexionen an den Seitenwänden vergrößern die Räumlichkeit einer Darbietung, d. h., die Empfindung, dass z. B. ein Soloinstrument auf der Bühne für den Hörer akustisch nicht punktförmig, sondern ausgedehnt erscheint. Ein Maß hierfür ist der Seitenschallpegel LF, Lateral Fraction, nach Barron und Marshall [Barron, 1981]. Weniger wahrnehmbar sind Reflexionen, die aus derselben Richtung wie der Direktschall kommen. Der Pegel einer Reflexion darf bei Sprache bis zu 10 dB über dem des Direktschalls liegen, ohne dass sie die Lokalisierung des Direktschalls stört. Je größer die Verzögerung ist, umso eher werden die Reflexionen wahrgenommen. Deutliche Einzelreflexionen mit einer Verzögerung von mehr als 50 ms werden als  störendes Echo wahrgenommen. Der Einfluss von ersten Reflexionen, d. h., ihr positiver oder negativer Beitrag zur Hörsamkeit bei Musikdarbietungen, hängt zudem in starkem Maße von der Art und dem Stil der Musik ab. Zur Beurteilung der Reflexionen in einem Raum werden  sog. Reflektogramme aufgenommen, auch Echogramme oder Impulsantworten eines Raums genannt. Dabei wird der Schalldruck in Abhängigkeit von der Zeit nach einer Impulsanregung, z. B. durch einen Pistolenschuss, dargestellt. Störende Einzelreflexionen können  so leicht identifiziert werden. Abb.  1/26 zeigt Reflektogramme eines Raums  mit guter (a) und  schlechter (b) Hörsamkeit. Solche Reflektogramme können auch bei akustischen Raummodellen, die z. B. im Maßstab 1:10 hergestellt werden, gewonnen werden.

a b Abb. 1/26. Reflektogramme von Räumen unterschiedlicher Hörsamkeit (Zeitraster 10 ms), a. schlechte Hörsamkeit durch starke Einzelreflexion nach Reflexionslücke, b. gute Hörsamkeit durch gleichmäßig abnehmende Reflexionsfolge ohne herausragende Einzelreflexionen.

1.3 Raumakustik 

 35

Um die Sprachverständlichkeit bzw. die Durchsichtigkeit und den Raumeindruck bei Musikwiedergabe zu verbessern, werden die ersten Reflexionen nach den Gesetzen der Schallreflexion auf die Hörerplätze geleitet (siehe Kap.  1.2.2), wobei auch  spezielle freihängende Reflektoren Verwendung finden. Wichtig für eine gute Verständigung der Musiker untereinander sind Deckenreflexionen über der Bühne.

1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß In Zusammenhang mit der Bewertung des Reflektogramms eines Raums wurde der Begriff der Deutlichkeit eingeführt. Die für die Hörsamkeit eines Raums wichtigen Reflexionen treffen innerhalb von 100 bis 200 ms nach dem Direktschall beim Hörer ein. Reflexionen mit einer Verzögerung bis 50 ms erhöhen dabei die Silbenverständlichkeit oder Deutlichkeit der Sprache. Setzt man die Schallenergie, die innerhalb dieser 50 ms eintrifft, zur gesamten eintreffenden Schallenergie ins Verhältnis, so erhält man die Definition der Deutlichkeit in Prozentwerten ausgedrückt. Hohe Deutlichkeit entspricht einer hohen Silbenverständlichkeit, Musik lässt sie aber trocken wirken. Eine Deutlichkeit unter 50 % entspricht einem harten Klangeinsatz, von über 50  % einem weichen. Zwischen der physikalisch definierten Deutlichkeit an einem Ort im Raum und der subjektiv erfassten Durchsichtigkeit lässt sich kein enger Zusammenhang feststellen; deshalb sollte besser von Deutlichkeitsgrad oder 50-msEnergieanteil gesprochen werden. Die Definition des Klarheitsmaßes verfolgt ähnliche Ziele wie der Deutlichkeitsgrad. Danach ist das Klarheitsmaß definiert als 10-facher Logarithmus des Verhältnisses der bis 50 ms (Sprachklarheitsmaß, Deutlichkeitsmaß) bzw. 80 ms (Musikklarheitsmaß, Durchsichtigkeitsmaß) eintreffenden Schallenergie zur gesamten danach eintreffenden Schallenergie. Wenn die Werte positiv sind, ist die Deutlichkeit der Sprache bzw. die Durchsichtigkeit der Musik ausreichend.

1.3.4 Hall Hall als Oberbegriff ist der gesamte diffuse Schall in einem Raum. Wird eine Schallquelle in einem Raum plötzlich eingeschaltet, so baut sich das diffuse Feld erst danach als Anhall auf, es begleitet dann das Schallereignis als Mithall und klingt nach Abschalten der Schallquelle als Nachhall ab. Dabei haben die verschiedenen Schallfeldgrößen einen unterschiedlichen Verlauf (Abb. 1/27). Die Lautstärkeempfindung entspricht am besten dem Schalldruckpegel. Nachhall, die wichtigste Erscheinungsform des Halls, ist das Verschwinden des Schallfelds in einem Raum nach Abschalten der Schallquelle, d. h., das Abklingen des diffusen Schallfelds, das im Idealfall den Raum gleichmäßig erfüllt; in der Hörakustik ist Nachhall das Ausklingen des Hörereignisses nach Abschalten der Schallquelle. Je länger der Nachhall dauert, umso besser verteilt  sich der Schall im Allgemeinen auf den gesamten Raum. Die Schallenergie nimmt dann exponentiell ab, der Schalldruckpegel linear. Die Abnahme der Schallenergie erfolgt umso  schneller, je größer die Absorption der Raumbegrenzungen ist und je häufiger die Schallstrahlen reflektiert werden, d. h., also je kleiner ein Raum ist.

36 

 1 Grundlagen der Akustik

Abb. 1/27. Schematische Darstellung des Nachhalls für Schalldruckpegel, Schalldruck und Schallenergiedichte.

Die Schallenergiedichte w des diffusen Schallfelds in einem Raumvolumen von 1 m3 hängt von dem Absorptionsvermögen  A und der zugeführten Schallleistung P ab; das Absorptionsvermögen wird durch die Nachhallzeit T erfasst. Die Schallenergiedichte w steigt dabei proportional mit der Nachhallzeit T und sinkt mit zunehmendem Raumvolumen:

P⋅T w= 13,8V

w = Schallenergiedichte [Ws/m³] P = abgestrahlte Schallleistung [W] T = Nachhallzeit [s] V = Raumvolumen [m³]

In der Praxis sind die Werte für die Schallenergiedichte w relativ klein: typische Werte für eine laute Musikdarbietung in einem Konzertsaal liegen im Bereich um 10-4 Ws/m3, denn die Leistung einer Schallquelle (Tab. 1/4) ist sehr gering und verteilt sich zudem auf den ganzen Raum. 1.3.4.1 Nachhallzeit Nach dem Vorschlag des Akustikers Wallace Clement Sabine (1868 – 1919) wird unter der Nachhallzeit T derjenige Zeitabschnitt, gemessen in  s, verstanden, innerhalb dessen nach Abschalten einer Schallquelle die Schallenergie in einem Raum auf den  millionsten Teil abfällt. Diesem Energieabfall entspricht ein Abfall des Schalldrucks auf 1/1.000 bzw. des Schalldruckpegels um 60 dB (Abb. 1/28). Die Nachhallzeit kann berechnet oder gemessen werden. Für die Berechnung wird am häufigsten die einfache Nachhallformel nach Sabine verwendet; sie wurde von Sabine empirisch gefunden, von Jäger dann auch aus Energiebetrachtungen theoretisch abgeleitet. Die Formel gilt insbesondere für längere Nachhallzeiten. Demnach ist die Nachhallzeit umso länger, je größer das Raumvolumen und je geringer die gesamte Absorption der Raumbegrenzungen ist. Da das Volumen eines Raums mehr zunimmt als seine gesamte Oberfläche, haben größere Räume bei gleicher Beschaffenheit der Begrenzungsflächen längere Nachhallzeiten

1.3 Raumakustik 

 37

als kleinere Räume. Die Anzahl der Reflexionen einer Schallwelle pro Zeiteinheit sinkt mit der Raumgröße, weil die Wege zwischen den Reflexionen  mit der Raumgröße zunehmen. Raumvolumen verlängert also grundsätzlich die Nachhallzeit, eine Grundregel raumakustischer Planung.

Abb. 1/28. Definition der Nachhallzeit durch den Abfall des Schalldruckpegels nach Abschalten der Schallquelle.



T = Nachhallzeit [s V = Raumvolumen [m²] A = gesamtes Absorptionsvermögen [m²]

Da dieser Sabineschen Formel einige Vereinfachungen zu Grunde liegen, hat Eyring 1930 eine genauere Formel abgeleitet. Die Nachhallformel nach Eyring gilt auch bei kürzeren Nachhallzeiten. Die noch genauere Nachhallformel nach Knudsen berücksichtigt zusätzlich die Luftabsorption, wird aber in der Praxis kaum angewendet, da ihr Ergebnis innerhalb der Messtoleranz liegt. Die Messung der Nachhallzeit erfolgte bis 2009 nach [DIN 52216]. Es wurden Nachhallzeiten in dem Frequenzbereich von 125  Hz bis 4,0  kHz in Terz-, d.  h. 1/3‑Oktav-Schritten bestimmt, in Ausnahmefällen von 100 Hz bis 6,3 kHz. Seit 2009 wird der neue Standard [DIN EN ISO 3382], Teil 1 für Aufführungsräume, Teil 2 für normale Räume mit komplexen Messverfahren angewendet. Als Schallsignal für die Messung dienen Weißes Rauschen oder Rauschen in Terzbandbreite. Pistolenschüsse werden nur in großen Räumen mit langer Nachhallzeit verwendet. Moderne Messverfahren nutzen spezielle Messsignale, deren Impulsantwort ausgewertet wird. Der Schallpegelverlauf beim Nachhallvorgang wird aufgezeichnet. Zur Auswertung wird die mittlere Steigung der Kurve ermittelt. Dabei wird nur der Bereich zwi-

38 

 1 Grundlagen der Akustik

schen - 5 und -35 dB ausgewertet [Vorländer, 1994]. Man unterscheidet bei der Nachhallzeit von Zuhörerräumen drei verschiedene Zustände: 1. unbesetzter Zustand, 2. Studiozustand, nur Orchester in üblicher Stärke, 3. besetzter Zustand mit 80 bis 100 % Publikumsbesetzung. Da bei der Darbietung von Musik besonders der Beginn des Abklingvorgangs bestimmend ist für die Wahrnehmung der Raumakustik – das weitere Ausklingen wird meist durch neue Schallereignisse überdeckt –, wurde die sog. Anfangsnachhallzeit gesondert definiert; dabei wird der Pegelbereich der Nachhallkurve zwischen 0 und - 15 dB (Initial Reverberation Time), zwischen 0 und - 20 dB (nach Kürer und Kurze) oder zwischen 0 und - 10 dB (Early Decay Time, EDT, nach Jordan) ausgewertet. Die Dauer des Abklingvorgangs, der bei Abschalten eines Schallereignisses tatsächlich wahrgenommen wird, stimmt nur in Ausnahmefällen mit der Nachhallzeit überein. Deshalb wird als Nachhalldauer die Zeitspanne definiert, innerhalb der ein Nachhallvorgang hörbar ist. Die Nachhalldauer hängt demnach vom Schallpegel der Schallquelle, von deren spektraler Zusammensetzung  sowie vom Störgeräusch im Raum ab. Dabei hat der Schallpegel in der Praxis der Tonaufnahme die größte Bedeutung. Die Nachhalldauer nimmt  mit dem Schallpegel stark zu. Deshalb wirkt ein Raum umso halliger, je lauter die Schallquelle ist. Bei leisen Stellen ist oft nur wenig Raumhall hörbar. So verändert sich der hörbare Anteil des Raums am Schallereignis ständig mit der Lautstärke: Die Intimität von leisen Stellen in der Musik wird durch den geringeren Raumeindruck unterstützt, laute Stellen erhalten Gewicht durch einen starken Raumeindruck. Die wahrgenommene Raumgröße atmet mit der Musik. Optimale Nachhallzeiten Die von den meisten Mitwirkenden einer Darbietung und vom Publikum bzw. von den Hörern einer entsprechenden Aufnahme in ihrer Mehrheit als optimal empfundene Nachhallzeit hängt von verschiedenen Faktoren ab: an erster Stelle von der Art der Darbietung, bei Musik vom Stil bzw. von der Epoche, aus der die Musik stammt, aber auch vom Tempo und Rhythmus sowie von der Besetzung, ja von der Interpretation eines Musikstücks, weiterhin von der Feinstruktur des Nachhallverlaufs, also von der Verteilung und Stärke der ersten Reflexionen und der Anfangsnachhallzeit,  sowie der Frequenzabhängigkeit der Nachhallzeit. Schließlich weckt der optische Eindruck von einem Raum adäquate Erwartungen an den Nachhall, denen die akustische Wahrnehmung nicht widersprechen sollte. Diese vielfältigen Einflüsse haben dazu geführt, dass die Nachhallzeit eines Raums heute als nicht mehr allein entscheidend angesehen wird. Da ein Raum ohnedies im Allgemeinen für  mehrere Darbietungsarten genutzt wird, kann es  sich bei der optimalen Nachhallzeit nur darum handeln, Richtwerte für den Nachhall im mittleren Frequenzbereich anzugeben, die  möglichst nicht unter- oder überschritten werden  sollten. Neben physikalischen, hörpsychologischen und darbietungsbezogenen Gesichtspunkten einer optimalen Nachhallzeit hat sich auch gezeigt, dass ein gewisser Zeitgeschmack von Einfluss ist. So wurden in den 1950er Jahren kürzere Nachhallzeiten im Konzertsaal- und Studiobau gewünscht als in den folgenden Jahrzehnten. Für Opernhäuser gelten wegen der erforderlichen Sprachverständlichkeit kürzere Werte als in Konzertsälen. Die Nachhallzeit für Kirchen ist demgegenüber zumindest in historischen Bauwerken länger. Tab. 1/6 gibt Richtwerte für Nachhallzeiten in verschiedenen Räumen  mit unterschiedlicher Zweckbestimmung an, detaillierte Angaben hierzu siehe Kap. 1.5, siehe hierzu auch die Tab. 1/11 bis 1/13.

1.3 Raumakustik 

 39

Bei Räumen für Sprachdarbietungen steht die Sprachverständlichkeit im Vordergrund, die kürzere Nachhallzeiten verlangt. Da aber die Lautstärke am Ort des Hörers mit der Nachhallzeit ansteigt, muss mit steigender Raumgröße auch die Nachhallzeit etwas zunehmen. Für Sprecherräume bei Tonaufnahmen gelten die kürzesten Nachhallzeiten. Bei mittleren und hohen Frequenzen besteht für größere Räume eine relativ hohe Korrelation zwischen der Nachhallzeit T und der Volumenkennzahl K, da hier die Luftabsorption wegen der längeren Schallwege überwiegt. K gibt das Raumvolumen in  m3, das auf einen Zuhörerplatz entfällt, an:

T = Nachhallzeit [s] K = Volumenkennzahl [m³/Platz]

Damit kann für eine gegebene Raumgröße die optimale Zuhörerzahl abgeschätzt oder umgekehrt für eine geplante Hörerzahl die optimale Raumgröße bestimmt werden (Tab. 1/8). Tab. 1/8. Richtwerte für optimale Nachhallzeiten. Art des Raums Sprecherstudio Hörspielstudio großes Fernsehstudio Vortragssaal, Theater Opernhaus Konzertsaal, großes Musikstudio Kirche

optimale Nachhallzeit T

Volumenkennzahl K

0,3 s 0,6 s 0,8 s 0,7 bis 1,2 s 1,5 bis 1,8 s 1,8 bis 2,5 s 2,5 bis 3,0 s

3 bis 5 m3/Platz 6 bis 7 m3/Platz 8 bis 10 m3/Platz 10 bis 12 m3/Platz

Frequenzabhängigkeit der Nachhallzeit Eine wesentliche Qualität des Nachhalls bzw. des Klangs eines Raums allgemein ergibt sich aus der Frequenzabhängigkeit der Nachhallzeit bzw. der Veränderung der Klangfarbe des Nachhalls mit der Zeit, die praktisch in allen Räumen gegeben ist; frequenzunabhängigen Nachhall können nur elektronische Hallgeräte liefern, ein solcher Hall kann deshalb unnatürlich wirken. Die Frequenzabhängigkeit der Nachhallzeit führt dazu, dass sich der Nachhall im Verklingen zunehmend dunkler färbt bzw. dass das Diffusfeld gefärbt ist und somit eine allgemeine Klangfärbung der Darbietung zur Folge hat,  sofern der Diffusanteil nicht nur klein ist. Diese Klangfärbung wird durch die Frequenzabhängigkeit der Absorber und der Luftabsorption verursacht. Höcker in den Frequenzkurven sind dabei leichter zu hören als Senken. Die Frequenzkurve des Nachhalls ändert ihre Gestalt mit dem Messort in einem Raum in gewissem Umfang, was bei tiefen Frequenzen, z. B. Orgeltönen, zu hörbaren Klangfärbungen führen kann. Bei streifendem Schalleinfall über Bestuhlung und Publikum werden Frequenzen im mittleren und hohen Bereich bedämpft (siehe Kap. 1.2.2.4). Räume mit vorwiegend offen liegenden Steinwänden haben die längste Nachhallzeit im Bereich tiefer Frequenzen, der Klang einer Darbietung wird hier dadurch dumpf. Längere Nachhallzeit im  mittleren Frequenzbereich gibt dem Klang eine warme Färbung,  schwingungsfähige Raumbegrenzungen wie Holzverkleidungen und Bilder fördern diesen Klang-

40 

 1 Grundlagen der Akustik

charakter. In Aufnahmestudios und  modernen Konzertsälen versucht  man, die Frequenzabhängigkeit des Nachhalls relativ gering zu halten. Die Klangfärbung des Nachhalls wird durch das sog. Bassverhältnis oder Bass Ratio BR nach Beranek als Verhältnis der Nachhallzeiten bei tiefen Frequenzen (125 und 250 Hz) zu derjenigen bei mittleren Frequenzen (500 und 1.000 Hz) beschrieben. Allen Räumen ist eine Abnahme der Nachhallzeit mit steigender Frequenz oberhalb von 1 bis 2 kHz gemeinsam; sie wird von der Absorption der Luft verursacht. Dadurch kann die Nachhallzeit 3,1 s bei 5 kHz und 1,2 s bei 10 kHz niemals überschreiten. Ist die Nachhallzeit mit einem einzigen Wert angegeben, so bezieht sich diese Angabe auf 500 oder 1.000 Hz. Abb. 1/29 zeigt die Typen der Nachhallkurven.

Abb. 1/29. Schematische Nachhallkurven mit verschiedenen Frequenzabhängigkeiten: a. Nachhall unnatürlich spitz: nur mit elektronischen Hallgeräten realisierbar, b. Nachhall klangneutral: Aufnahmestudios und moderne Konzertsäle, c. Nachhall mittenbetont und warm: historische Säle mit Holzvertäfelung, d. Nachhall dumpf: große Kirchen mit großen Steinflächen.

Anhall Betrachtet  man die Energieverhältnisse beim Aufbau des Raumschallfelds, also beim Anhall, so ist eine Unterscheidung des Höreindrucks nach „hartem“ und „weichem“ Schall­ einsatz  sinnvoll. Harter Schalleinsatz liegt vor, wenn  mehr als die Hälfte der gesamten Schallintensität bis spätestens 50 ms nach dem Einsetzen der Schallquelle beim Hörer eintrifft, weicher Schalleinsatz, wenn weniger als die Hälfte erst nach diesem Zeitabschnitt eintrifft. Harter Schalleinsatz ist der Sprachverständlichkeit und Präsenz dienlich, weicher Schalleinsatz fördert ein weiches, rundes Klangbild insbesondere bei Musik, während es bei Sprache zur Undeutlichkeit führt. Auf dieser Unterscheidung beruht auch die Definition des Begriffs der Deutlichkeit (siehe Kap. 1.3.3). 1.3.4.2 Hallradius und Hallabstand In unmittelbarer Nähe einer Schallquelle dominiert auch in halligen Räumen der Direktschall über den Diffusschall. Mit zunehmender Entfernung von der Schallquelle verrin-

1.3 Raumakustik 

 41

gert sich im Nahbereich einer allseitig abstrahlenden Schallquelle der Schallpegel mit jeder Entfernungsverdopplung um jeweils 6 dB, bei den meisten Schallquellen sind es wegen ihrer gerichteten Schallabstrahlung eher 3 bis 4 dB. Demgegenüber ist der Schallpegel des diffusen Schalls bei längeren Nachhallzeiten im ganzen Raum gleich. Direkter und diffuser Schall überlagern sich. In einem bestimmten Abstand rH von der Schallquelle, dem sog. Hallradius, auch als kritischer Abstand, Grenzradius oder Äquivalententfernung bezeichnet – nicht aber als Hallabstand, sind die Schalldruckpegel von direktem und diffusem Schall gleich groß. Der Gesamtschallpegel in diesem Punkt ist um 3 dB höher als jede der beiden Komponenten (Abb. 1/30). Innerhalb des Hallradius überwiegt der Direktschall mit seiner Richtungsinformation über den Ort der Schallquelle, außerhalb überwiegt der Diffusschall ohne Richtungsinformation.

Abb. 1/30. Überlagerung von Direkt- und Diffusschall und Hallradius rH.

Der Hallradius rH nimmt mit dem Raumvolumen V zu, verringert sich aber mit zunehmender Nachhallzeit T: rH = Hallradius [m] V = rH 0,057 ⋅ V = Raumvolumen [m³] T T = Nachhallzeit [s] In Abb. 1/31 kann der Hallradius rH für verschiedene Raumvolumina V und Nachhallzeiten T abgelesen werden.

42 

 1 Grundlagen der Akustik

Abb. 1/31. Hallradius rH [m], abhängig vom Raumvolumen V [m3] und der Nachhallzeit T [s].

Die sich aus der Formel bzw. Abb. 1/31 ergebenden Hallradien sind überraschend klein. So beträgt der Hallradius in einem 120  m3 großen Hörspielstudio  mit einer Nachhallzeit von 0,35 s, also einem stark gedämpften Raum, etwa 1 m und selbst z. B. in dem 15 680 m3 großen Sendesaal des NDR-Hannover bei einer Nachhallzeit ohne Publikum von 2,1 s nur etwa 5 m. Der Hallradius ist jedoch für allseitig gleiche Schallabstrahlung und allseitig gleichen Schall­ empfang definiert, Bedingungen, die in der Praxis nur selten erfüllt sind. Musikinstrumente und Lautsprecher zeigen  mit  steigender Frequenz eine zunehmende Richtwirkung, erfasst durch den Bündelungsgrad γ, die den sog. effektiven Hallradius rH e£f frequenzabhängig vergrößert; der effektive Hallradius gilt nur für Tonaufnahmen mit Mikrofonen ohne Richtwirkung: rHeff = effektiver Hallradius [m] V = Raumvolumen [m³] T = Nachhallzeit [s] γ = Bündelungsgrad der Schallquelle [dimensionslos] Bei Musikinstrumenten ist der Bündelungsgrad γ frequenzabhängig, besonders  stark bei Blechblasinstrumenten; bei 10 kHz z. B. kann er auf Werte um 5 ansteigen, d. h., rHeff kann sich um den Faktor √5 ≈ 1,7 erhöhen, im Allgemeinen liegt dieser Faktor bei 1,2 bis 1,5. Auch durch den gerichteten Schallempfang wird der Hallradius vergrößert, bei nierenund achtförmiger Richtcharakteristik um den Faktor 1,7, bei der Superniere um den Faktor 1,9, bei der Hyperniere um den Faktor 2, bei der Keule um einen noch etwas größeren Wert. Mit diesen Werten muss der tatsächliche Hallradius rH ebenfalls noch multipliziert werden. In der Praxis der Tonaufnahme multiplizieren sich also die Korrekturen des Hallradius aus gerichteter Schallabstrahlung und gerichtetem Schallempfang. Der tatsächlich zu berück-

1.3 Raumakustik 

 43

sichtigende Hallradius z. B. bei Nierenmikrofonen liegt damit um den Faktor 2 bis 5 über dem nach der Formel für rH errechneten Wert. Während der Hallradius den Abstand von der Schallquelle bezeichnet, an dem Direktund Diffusschall gleiche Pegel haben, beschreibt der Hallabstand die Pegeldifferenz von Direkt- zu Diffusschall in einem beliebigen Abstand von der Schallquelle. Im Abstand des Hallradius von der Schallquelle ist der Hallabstand also 0 dB.

1.3.5 Diffusität Diffusität, genauer Schalldiffusität, beschreibt den Grad und die Art der Verteilung von reflektiertem Schall einer Schallquelle in einem Raum und über die Zeit. Der Begriff stellt eine weitere Möglichkeit dar, die akustischen Eigenschaften eines Raums zu beschreiben [Remmers, 2006]. Man unterscheidet dabei zwischen örtlicher oder räumlicher und zeitlicher Diffusität. Die örtliche Diffusität wird als die Gleichmäßigkeit des Schalleinfalls hinsichtlich Schalleinfallsrichtung und Intensität an einem bestimmten Ort definiert. Die zeitliche Diffusität beschreibt die  statistische Verteilung des Eintreffens reflektierter Schallsignale am Messort über die Zeit, also den zeitlichen Verlauf eines Reflektogramms. Beide Komponenten nehmen  mit der Vielfalt von Reflexionsmöglichkeiten in einem Raum zu. Die Schalldiffusität beschreibt damit die raumakustischen Eigenschaften, die sich ergeben, wenn die Begrenzungsflächen eines Raums und die in ihm enthaltenen Gegenstände nicht nach Art eines Spiegels in nur einer Richtung reflektieren, sondern eben diffus in alle Richtungen. Daraus ergibt sich u. a. auch der Unterschied zwischen dem sog. freien Schallfeld, in dem praktisch keine Reflexionen auftreten, und dem diffusen oder  statistischen Schallfeld (siehe Kap.  1.3.1). Bisher gibt es keine  mathematische Beschreibung der Diffusität als physikalische Größe und folglich auch keine direkt zugeordnete Maßeinheit. Für eine indirekte Bestimmung von physikalischen Kenngrößen der Diffusität können z. B. folgende Messverfahren angewendet werden: die Konstanz der räumlichen Energiedichteverteilung, die Langzeitmittelung des Betrags des Intensitätsvektors und die zeitliche und räumliche Inkohärenz des Schalldrucks [Remmers, 2006]. In der Raumakustik wird eine hohe Diffusität unter anderem durch konvex gekrümmte oder hinreichend gegliederte Begrenzungsflächen und die damit verbundene diffuse Reflexion des Schalls erreicht. Bewährt haben sich auch Diffusoren, die nach dem Prinzip der λ/2-Transformation wirken, sog. Schroeder-Diffusoren. Dabei handelt es sich z. B. um eine Anein­­anderreihung verschieden tiefer, kastenförmiger Hohlräume. Sie sind auch als industrielle Erzeugnisse verfügbar und können ggf. auch nachgerüstet werden. Um ein ausgeglichenes Schallfeld in Hör- oder Aufnahmeräumen sicherzustellen, sollte Diffusität möglichst immer gleichzeitig mit Mitteln zur Reflexion und zur Absorption erreicht werden. Räume  mit hoher bzw. ausgeglichener Diffusität führen  meist zu einer besseren Hörsamkeit und einem besserem Raumeindruck, sowohl beim natürlichen Hören als auch bei der Schallaufnahme, insbesondere bei den Hauptmikrofonverfahren. Räume  mit geringer oder wenig ausgeglichener Diffusität weisen oft raumakustisch störende Eigenschaften auf wie einzelne Eigenresonanzen, Fehllokalisierung durch  starke Einzelreflexionen, Flatter­ echos o. ä.

44 

 1 Grundlagen der Akustik

1.4 Akustik von Aufnahmestudios Die Akustik der Aufnahmestudios ist  sowohl unter bau- als auch unter raumakustischen Gesichtspunkten zu betrachten [Friesecke, 2012]. Bauakustische Probleme  sind in erster Linie die Schalldämmung gegen Außengeräusche wie Verkehrs- und Fluglärm, Trittschall, Aufzüge u. a., aber auch die Unterdrückung von Geräuschen der Klimaanlage. Raumakustische Gesichtspunkte sind u. a. die ersten Reflexionen und der Nachhall mit ihren verschiedenen Parametern, aber auch Gesichtspunkte wie etwa die akustische Verständigung der Musiker untereinander. Die Anforderungen an ein Studio bzw. die günstigsten Werte der akustischen Daten eines Studios hängen von seiner Zweckbestimmung ab.

1.4.1 Störgeräuschpegel Im Bereich des Hörfunks bzw. der Wort- und Musikproduktion, der Bearbeitung und Beurteilung von Aufnahmen, werden an die Raumruhe sehr hohe Anforderungen gestellt, die in bauakustischer Hinsicht und im Hinblick auf Klima- und Lichtanlagen einen hohen Aufwand erfordern. Für die höchstzulässigen Störgeräusche sind die Empfindlichkeit des Gehörs, die Lautstärke der Schallquellen, die Abstände der Mikrofone von den Schallquellen, die spek­­ trale Zusammensetzung der akustischen Inhalte, die technische Ausrüstung bei der Aufnahme wie z.  B. das Betriebsrauschen und die Anzahl der Mikrofone, der betriebliche Ablauf und andere Faktoren von komplexem Einfluss. Das Rauschen der Mikrofone und Aufzeichnungsanlagen ist heutzutage allerdings so gering. dass es nicht mehr berücksichtigt werden muss. Es ist nicht  möglich, die höchstzulässigen Störgeräusche durch einen einzigen Wert anzugeben, da die Empfindlichkeit des Gehörs stark frequenzabhängig ist. Für den Bereich des öffentlich-rechtlichen Rundfunks mussten demnach Grenzkurven definiert werden, die Terz-Schallpegel nach [DIN 45641] im Bereich von 50 Hz bis 10 kHz als Tabelle oder als Grenzkurven (GK) angeben [IRT, 1995]. Neben der Raumnutzung z. B. als Sprecherraum wird auch die zugehörige Programmsparte berücksichtigt, was zu einer Differenzierung der Anforderungen in mehrere verschiedene Grenzkurven geführt hat. Die Störgeräusche dürfen unabhängig von ihrem Pegel keine tonalen oder periodischen Schallstrukturen enthalten, dies gilt für den gesamten Frequenzbereich von 125 Hz bis 20 kHz. Tab. 1/9 gibt zur Orientierung für einige Räume und Programmsparten die höchstzulässigen Grenzkurven GK an, die nicht überschritten werden dürfen, wenn nicht Qualitätsminderungen hingenommen werden können. Die Kurven orientieren sich im unteren Frequenzbereich an den international vor allem in der Klimatechnik verwendeten Noise-Rating-Kurven NR nach [ISO R 1996, überarbeitet 2003]. Diese folgen grob den Kurven gleicher Lautstärkepegel bzw. den Messkurven für den A-bewerteten Schalldruckpegel. Abb. 1/32 zeigt die Grenzkurven.

1.4 Akustik von Aufnahmestudios 

 45

Tab. 1/9. Beispiele für die Grenzkurven von höchstzulässigen Störgeräuschen [IRT, 1995]. Raum

Programmsparte

Hörfunk-Produktionsstudios

Hörspiel Kammermusik Orchestermusik U-Musik, Popmusik Sprachaufnahmen Tonbearbeitung alle alle

Fernseh- Produktionsstudios Bearbeitungsräume mit Bürocharakter, Redaktionen

Grenzkurve GK

entspricht etwa

GK0 GK0 GK5 GK15 GK10 bis GK15 bis GK20 bis GK25

14 dBA 14 dBA 18 dBA 26 dBA 22 dBA bis 26 dBA bis 30 dBA bis 34 dBA

Abb. 1/32. Grenzkurven GK für höchstzulässige Schalldruckpegel in Studios des Hörfunks und Fernsehens [IRT, 1995].

1.4.2 Raumakustik von Aufnahmestudios und Regieräumen Für die Ausbreitung des Direktschalls und die Bedeutung der ersten Reflexionen gelten zunächst die Ausführungen in Kap.  1.2.3. Abweichend davon  müssen die ersten Reflexionen  mit besonderer Aufmerksamkeit gemessen, oft zusätzlich unterdrückt oder bedämpft werden. Während die ersten Reflexionen beim Hören im natürlichen Schallfeld nützlich sind, weil sie die Lautstärke und Deutlichkeit erhöhen, können sie bei Mikrofonaufnahmen das Klangbild negativ beeinflussen. Tonaufnahmen aus „trockenen“ Studios, d. h., aus Studios  mit kurzer Nachhallzeit, können bei zu  starken ersten Reflexionen „topfig“, auch

46 

 1 Grundlagen der Akustik

unerwartet hallig klingen, Musikaufnahmen aus hinreichend großen Räumen kleinräumig erscheinen. Die Ursache hierfür bilden zu starke oder zu frühe Schallrückwürfe, die, immer auf den Mikrofonort bezogen, gegenüber dem Direktschall eine Laufzeitdifferenz von etwa 15 bis 50 ms aufweisen. Besonders bei Schallaufzeichnungen aus kleinen Studios ist die hörbare Klangfärbung störend, die durch Schallrückwürfe entsteht, deren Laufzeitdifferenzen gegenüber dem Direktschall nur 0,8 ms bis 15 ms betragen. Diese Klangfärbungen bleiben unhörbar, wenn der Schalldruckpegel einer Reflexion  mindestens 13  dB unter dem des Direktschalls liegt. Sind zwei derartige Reflexionen vorhanden, so muss diese Pegeldifferenz für jeden der Rückwürfe etwa 15 dB, bei vier Reflexionen etwa 18 dB betragen. Ein Hörspielkomplex umfasst neben dem sog. schalltoten Raum zwei weitere Studios mit unterschiedlichen Nachhallzeiten von etwa 0,4  s und 0,6  s bis  maximal 1,0  s. Die Studios können zusätzlich eine gedämpfte Ecke oder Schnecke enthalten, in der die Studionachhallzeit ohne Einfluss bleibt. Wie in allen Studios, in denen nur Wortproduktionen durchgeführt werden, wird die Nachhallzeit nur für Frequenzen über 80  Hz konstant gehalten, da die Sprache für tiefere Frequenzen keine hörbaren Komponenten enthält, Raumresonanzen somit nicht anregt. Sog.  schalltote Räume, besser reflexionsarme Räume, für Hörspielzwecke  mit einer Nachhallzeit unter 0,2  s werden an der Decke und den Wänden  mit Mineralfasermatten belegt. Wenn die Einbautiefe dieser Anordnung etwa 0,3 m beträgt und der Boden mit einem dicken, weichen Teppich bedeckt ist, lässt  sich ein nachhallfreier Raum für diese Zwecke ausreichend realisieren. Im Gegensatz zu Hörspielstudios benötigt man für Sprecher- und Interviewstudios keine Mindestraumgrößen. In Räumen mit einem Volumen von 30 m3 und weniger lassen sich einwandfreie Produktionen durchführen, wenn  sich Sprecherplätze und Mikrofonorte festlegen lassen. In diesem Fall ist es möglich, durch eine gezielte raumakustische Verkleidung die schädliche Wirkung der ersten Schallreflexionen, die vom Sprechertisch und von Boden, Decke und Wänden ausgehen, zu vermeiden. Kleine Studios liegen dann mit ihrer Nachhallzeit an der Hörbarkeitsgrenze von etwa 0,2 bis 0,3 s; bei tiefen Frequenzen ist die Nachhallzeit i. Allg. etwas länger, weil sie nicht so leicht zu bedämpfen ist wie bei höheren Frequenzen. In großen Musikstudios für klassische Musik sorgen nahe Wandflächen und eine ebene Decke bzw. Reflektoren in optimaler Höhe für den akustischen Kontakt zwischen den Musikern. Durch ein Zusammenrücken des Orchesters lässt sich dieser Kontakt verbessern. Die Nachhallzeit des Studios mit Orchester und Publikum sollte etwa 1,8 bis 2,0 s betragen. Studios für konventionelle unterhaltende Musik oder Soundtracks für Filme mit traditioneller Instrumentalbesetzung sollen die Möglichkeit bieten, einzelne Instrumente und Instrumentengruppen, deren Schalldruckpegel sehr unterschiedlich sein können, gleichzeitig, aber akustisch getrennt aufzuzeichnen. Ein Auseinanderrücken der einzelnen Gruppen, das Vermeiden von Reflexionen  sowie eine kurze Nachhallzeit, d.  h., geringerer Diffusschallpegel,  sind dafür notwendig, aber nicht immer ausreichend. Dämmende bzw. absorbierende Schallwände  müssen in diesem Fall die Ausbreitung des direkten Schalls zwischen den Gruppen verhindern bzw. das Mikrofon vor Diffusschall abschirmen. Es kann darüber hinaus sogar erforderlich sein, dass besonders lautstarke oder besonders leise Instrumente

1.4 Akustik von Aufnahmestudios 

 47

in kleinen, fast völlig geschlossenen, schalldämmenden Kojen gespielt und aufgenommen werden müssen. In Fernsehstudios verzichtet man aus wirtschaftlichen Gründen auf den Einbau von speziellen Tiefenabsorbern. Dicke Mineralfasermatten, mit denen Decke und Wände vollflächig belegt  sind, bilden eine ausreichende Absorption. Der  sich dabei ergebende Anstieg der Nachhallzeit für Frequenzen unter 125 Hz bleibt unhörbar, da bei Fernseh-Tonproduktionen eine elektrische Absenkung der tiefen Frequenzen üblich ist. Kritisch sind bei Fernsehaufnahmen die Reflexionen an Kulissen, da diese Rückwürfe oft mit einer geringen, den Räumlichkeitseindruck ungünstig beeinflussenden Laufzeitdifferenz auf das Mikrofon treffen. Ein Synchronstudio für Nachvertonungen entspricht etwa einem Hörspielstudio mit einer Nachhallzeit bis 0,4 s. 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik Trotz der Möglichkeit, einer Aufnahme künstlichen Hall aus Hallgeräten bzw. allgemein künstliche Rauminformationen hinzufügen zu können (siehe dazu Kap.  6.5), kann in bestimmten Fällen auch eine Veränderung der Nachhallzeit des Aufnahmeraums selbst sinnvoll sein [Rümer, 1990]. Damit kann in einem Hörspielkomplex u. U. ein Studio eingespart werden. Musikstudios  müssen nicht nur aufnahmetechnisch für die Aufnahme geeignet  sein,  sondern auch für die Musiker und ggf. für das Publikum bestimmte akustische Anforderungen erfüllen; so kann z. B. die Anpassung der Nachhallzeit an die veränderten akustischen Gegebenheiten bei Anwesenheit von Publikum oder an die Musik verschiedener Stilarten wünschenswert sein. Schließlich kann ein Studio oder allgemein ein Hörraum damit multifunktional gestaltet werden. Neben den raumgeometrischen bzw. raumakustischen Maßnahmen zur Variation der Nachhallzeit und Schalllenkung in Hörräumen entstanden im Zuge der Vervollkommnung von Beschallungstechnik und Signalverarbeitung zahlreiche elektronisch gestützte Lösungen zur Nachhallzeitverlängerung in Konzertsälen, Theatern und anderen Hörräumen, insbesondere aber auch in sog. Mehrzwecksälen, die für eine variable Nutzung von Sprechtheater, Oper, Operette und Musical bis zur Sportveranstaltung vorgesehen  sind. Sie werden dabei  meist in als akustisch unzureichend empfundenen Räumen nachträglich eingebaut und teilweise auch unter der Bezeichnung Acoustic enhancement  systems vermarktet. Die meist für Konzertdarbietungen zu kurze Nachhallzeit solcher Räume, die oft in der Größenordnung von etwas über 1 s liegt, kann mit solchen Installationen auf etwa 2 s verdoppelt werden. Dies entspricht einer physikalisch maximal möglichen Erhöhung der Nachhallenergie um 3 dB. In bisher realisierten Anwendungen werden im Wesentlichen zwei verschiedene Lösungsansätze verfolgt, nämlich In-line-Systeme mit synthetischer Erzeugung von Raumsignalen und regenerative oder Feedback-Systeme, die eine zu große Schallabsorption der Raumbegrenzungen durch elektroakustische Verstärkung ausgleichen. In-line Systeme zur synthetischen Erzeugung von Raumsignalen Hierbei werden Signale von ausgewählten Mikrofonen abgegriffen und einer zentralen Bearbeitungseinheit zugeführt, die entweder diskrete Reflexionen unterschiedlicher Intensität

48 

 1 Grundlagen der Akustik

und Verzögerung erzeugt, welche zu bestimmten Reflexionsfolgen, einem  sog. Nachhallschwanz, aufsummiert werden oder die als kompakte Einheit eines elektronischen Nachhallerzeugers ein geeignetes Nachhallsignal generieren. Die  so gewonnenen Raumsignale werden dann über eine Vielzahl von Raumlautsprechern, die vorzugsweise im Seiten- und Deckenbereich angeordnet sind, in den Zuhörerbereich abgestrahlt. Solche Systeme, die auch unter der Bezeichnung Ambiofonie-Anlagen bekannt geworden  sind, werden in der Regel in Verbindung  mit einem Beschallungssystem zur Schallverstärkung eingesetzt, wobei entweder die gleichen, im Bühnenbereich angeordneten Mikrofone zur Signalgewinnung benutzt werden oder zusätzliche im Nahfeld angeordnete Mikrofone. Frühere Lösungen, die bereits ab den 1960er Jahren bekannt wurden, verwenden einfache Verzögerungseinrichtungen auf Magnettonbasis [Franssen, 1964] oder elektronische Verzögerungsgeräte in Verbindung  mit einer Delta-Stereofonie-Beschallungsanlage (DSS) [Steinke, 1987] zur Realisierung der erforderlichen Signalverzögerungen. Moderne Lösungen, die erst nach Verfügbarkeit hochwertiger digitaler Nachhallerzeuger entstanden  sind und bei denen erstmals auch die Bezeichnung In-line-System verwendet wird, benutzen hingegen zentrale digitale Nachhallgeneratoren auf DSP-Basis wie z.  B. in den Systemen LARES (Lexicon Acoustic Reinforcement and Enhancement System) [Griesinger, 1990], ACS (Acoustic Control System), SIAP (System for Improved Acoustic Performance) oder VIVACE. Regenerative oder Feedback-Systeme Eine andere Philosophie wird von den  sog. regenerativen Systemen verfolgt, wo versucht wird, die für den Aufbau des Nachhallfelds nachteilige Absorption im Zuhörerbereich  mit elektroakustischen Mitteln zu kompensieren und den erforderlichen Raumschallanteil zu erhöhen. Dies geschieht durch die Anordnung von typisch 30 bis100 einzelnen Verstärkerkreisen, jeweils bestehend aus Mikrofon und zugeordnetem Lautsprecher, die an den Begrenzungsflächen des Raums verteilt sind und den an dieser Stelle auftreffenden Schall entweder frequenzselektiv (AR-System) oder breitbandig (MCR-System u. a.) verstärken. Eine frühe Form eines regenerativen Systems wurde bereits in den 1940er Jahren von Vierling in der Berliner Staatsoper eingesetzt, ab den1960er Jahren kamen dann – nach Vorliegen verbesserter hardwaretechnischer Voraussetzungen – verschiedene weitere Systeme auf den Markt, wie das Assisted Resonance (AR) System [Parkin, 1965], später Systeme wie MCR (Multiple-Channel Reverberation), CARMEN (Contrôle Actif de la Réverbération par Murs virtuels à Effet Naturel), CONSTELLATION u. a. Daneben gibt es noch Lösungen, die beide Prinzipien miteinander verbinden, z. B. bei den Systemen VRAS (Variable Room Acoustics System) oder VAP (Virtual Acoustics Prozessing). Auch das Prinzip der Wellenfeldsynthese (WFS) wurde bereits zur Erzeugung eines  synthetischen Raumschallfelds eingesetzt (Seebühne Bregenz). Die meisten der genannten Lösungen wurden bereits weltweit erfolgreich in namhaften Veranstaltungsräumen und Theatern installiert. Eine vergleichende Darstellung aktueller Systeme findet sich z. B. in [Kok, 2011]. Alle oben beschriebenen Anordnungen stellen jeweils autarke elektroakustische Systeme dar, die unabhängig von Beschallungslösungen arbeiten und ausschließlich der Erhöhung der Nachhallenergie dienen. Eine Ausnahme bildet hier

1.4 Akustik von Aufnahmestudios 

 49

das System VIVACE, das ähnlich wie bei dem erwähnten Delta- Stereofonie-Verfahren zusätzlich auch zur Direktschallversorgung eingesetzt werden kann. Die Mehrheit der Systeme benötigt nach  sorgfältiger Einmessung und ggf. einer Parameterauswahl für konkrete Nutzungsfälle in der Regel keine durchgängige Bedienung oder Überwachung. Dies erfordert jedoch eine hohe Konstanz und Betriebssicherheit der Anlage, um unangenehme Störungen wie Rückkopplungen oder andere Störeffekte zu vermeiden. Trotzdem  muss der Toningenieur bei der Schallaufnahme für ein zusätzlich betriebenes Beschallungssystem oder eine Aufzeichnung oder Übertragung ausreichende Mikrofonabstände zu den Lautsprechern des jeweils installierten Nachhallverstärkungssystems einhalten, um unerwünschte Rückwirkungen wie Klangverfärbungen, unausgeglichene Raumschallanteile oder auch Rückkopplungen zu vermeiden. 1.4.2.2 Schallkabinen Eine kostengünstige und flexible Möglichkeit, akustisch entkoppelte Aufnahmebedingungen für kleine Formationen oder Einzelschallquellen zu realisieren, besteht in der Aufstellung einer oder mehrerer Schallkabinen, auch Aufnahme- Ton-, Gesangs-, Sprecher- oder Studiokabine bzw. Soundbox genannt. Eine solche Kabine, die im Prinzip in jedem ausreichend großen, auch akustisch unbehandelten Raum aufgestellt werden kann, hat eine ausreichende Schallabsorption im Inneren, so dass eine Nachhallzeit zwischen 0,1 und 0,5 s erreicht wird und unerwünschte Eigenresonanzen hinreichend unterdrückt werden. Sie hat eine Schalldämmung über 40 dBA oder je nach Anforderung auch deutlich höher bei mittleren und hohen Frequenzen, so dass weder eine Beeinflussung des aufgenommenen Schalls im Innern noch eine Störung anderer Schallquellen außerhalb der Kabine erfolgt. Die Kabine ist in der Regel aus standardisierten Wand- und Deckenelementen zusammengesetzt, die die erforderlichen akustischen Eigenschaften nach innen und außen realisieren. Eine solche Modulbauweise ermöglicht die Realisierung unterschiedlicher Kabinengrößen, von etwa 1,5 · 1,5 m an aufwärts bis zu einem Vielfachen davon und erlaubt im Bedarfsfall auch eine einfache Demontage und Umsetzung in einen anderen Raum. Die  schalldichte Montage erfordert eine akustisch gedämpfte Belüftung, die in der Regel als aktive Versorgung  mit Frischluft und Abluftaustritt durch Überdruckkanäle ausgelegt ist. Schalldichte Türen, Leitungsdurchführungen und Fenster für Sichtkontakt sind ebenfalls verfügbar. Die aufnahmetechnischen Anwendungen sind sehr vielfältig, sie reichen von einfachen Sprach- oder Gesangsaufnahmen über Einzelinstrumente bis hin zu kleineren Gruppen. Grundsätzlich ist bei einer Nutzung im Aufnahmebetrieb zu beachten, dass die Abstände zwischen Mikrofonen und Schallquellen größer  sind als die Abstände der Mikrofone zu den Begrenzungsflächen der Kabine, um unerwünschte Klangfärbungen oder Reflexionen zu minimieren. Daraus ergeben sich auch die Mindestanforderungen an die Größe der Kabine. Solche Kabinen bzw. Module, die von verschiedenen Herstellern angeboten werden, erfreuen sich vor allem in der Popmusikbranche steigender Beliebtheit wegen der unkomplizierten und flexiblen Installation und des enormen Kostenvorteils gegenüber einem akustisch ausgebauten Studio. Sie eignen  sich auch als  schalldichte Übungsräume für Instrumente, ebenso als einfache Räume für akustische Messungen der Audiometrie.

50 

 1 Grundlagen der Akustik

1.4.3 Akustik von Regieräumen Regieräume sollen optimale Bedingungen für die Beurteilung von Aufnahmen bieten. Ihre akustischen Eigenschaften beeinflussen allerdings den Klang der Lautsprecherwiedergabe. Deshalb wird mit gewissem Recht immer wieder gefordert, dem Regieraum die Akustik der typischen häuslichen Abhörsituation zu geben, also die eines durchschnittlichen Wohnraums. Da es nicht möglich ist, einen solchen Raum zu definieren, werden Regieräume akustisch so ausgestattet, dass sie im Vergleich zu durchschnittlichen Wohnräumen reflexionsarm  sind, d. h., dass der Raum  möglichst wenig Einfluss auf die Schalldarbietung nimmt [Völker, 1992, 1994], [Schneider, 1992], [Spikofski, 1989], [Wollherr, 1983]. Die Anforderungen für Bezugsabhörräume und sog. High-quality-Regieräume sind in nationalen und internationalen Empfehlungen festgelegt, u. a. in [EBU Tech 3276, 1998], [ITU-R BS.1116], ebenso die entsprechenden Tests, im Detail erläutert in Kap.  19.6.1. Nur wichtige Merkmale  sind hier zusammengefasst: Die Grundfläche  soll für einen Bezugsabhörraum  mindestens 40  m2, für einen Regieraum mindestens 30 m2 betragen, das Volumen weniger als 300 m3; erforderlich ist eine geometrische und akustische Symmetrie bezüglich der Achse Lautsprecher – Abhörplatz, die Freiheit von Flatterechos,  stehenden Wellen u.  a. Die Nachhallzeit universell benutzbarer Regieräume liegt bei etwa 0,3 s, bei Wohnräumen liegt sie um 0,4 s; meist steigt sie unterhalb 125 Hz nach unten an. Längere Nachhallzeiten sind für klassische Musik durchaus geeignet, bei Sprache und rhythmischer Popmusik hingegen  machen  sie den Raum zu hallig [Wollherr, 1983]. Wichtiger als ein bestimmter Wert der Nachhallzeit ist, dass ihr Frequenzgang um nicht mehr als etwa 10 % für terzbreites Rauschen vom Durchschnittswert abweicht. Die Angaben zur Nachhallzeit haben bei solch kurzen Nachhallzeiten weniger Aussagekraft als bei längeren Nachhallzeiten. Die besten Erkenntnisse liefert hier das Reflektogramm oder die Impulsantwort des Regieaums (siehe Kap. 1.3.3). Darin können einzelne zu starke Reflexionen erkannt und danach im Regieraum gezielt abgedämpft werden. Die absorbierenden Flächen werden im Allgemeinen gleichmäßig auf Wände und Decke verteilt, wobei mit der jeweiligen Anordnung gezielt zu starke Reflexionen besonders im Bereich der Abhörplätze vermieden werden sollen. Beim Abhören  mit  sog. Nahfeldmonitoren – das  sind kleine Lautsprecherboxen, die, unmittelbar auf den Regietisch gestellt, wegen des geringen Abstands den Abhörplatz überwiegend  mit Direktschall versorgen – kann der Einfluss des Regieraums  minimiert werden; allerdings erfüllen solche Lautsprecher nicht oder nur eingeschränkt die Qualitätsforderungen an Regielautsprecher. Ebenso können  sie die Abhörbedingungen beim Hörer nur näherungsweise abbilden, da es bis heute keine allgemeingültigen Anforderungen an einen sog. Heimabhörstandard gibt. Zu den Anforderungen an Regieräume siehe im Einzelnen Kap. 19.6.1. 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume Die Abhörbedingungen in kleinen Abhörräumen, also ganz besonders in Übertragungswagen, sind besonders kritisch. Ursache hierfür sind stehende Wellen, auch Raumresonanzen oder Raummoden genannt (siehe Kap. 1.3.2). Sie kommen zwar in Räumen jeder Größe vor,

1.4 Akustik von Aufnahmestudios 

 51

jedoch treten  sie in kleinen Räumen in dem besonders kritischen Frequenzbereich zwischen 100 und 1.000  Hz auf; denn je größer der Raum ist, umso tiefer liegt der kritische Bereich störender Raumresonanzen. Im Gegensatz zu sich frei ausbreitenden Schallwellen, bei denen der Schallpegel gleichmäßig mit der Entfernung abnimmt, die Klangfarbe also im Raum gleichbleibt, bilden stehende Wellen im Raum ein Muster von Schalldruckminima und -maxima, die zu einer beachtlichen Ortsabhängigkeit der Klangfarbe führen kann, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Es ist in diesem Fall nicht möglich, durch Frequenzgangkorrekturen der Lautsprechersignale Verbesserungen vorzunehmen. Stehende Wellen können nur durch völlige Reflexionsfreiheit bzw. vollständige Absorption der Wände unterbunden werden. Je mehr Schall von den Wänden reflektiert wird, desto ausgeprägter  sind die ortsabhängigen Klangfarbenänderungen. Es gelingt heute durch Schichtung unterschiedlicher Absorbermaterialien, auch in Übertragungswagen  stehende Wellen oberhalb von 200  Hz weitgehend zu vermeiden und  somit die Abhörbedingungen akzeptabel zu gestalten [Fuchs, 2010]. Gelegentlich werden große Tonübertragungswagen mit seitlich erweiterbaren Regiekabinen ausgestattet, deren raumakustische Eigenschaften durchaus denen von stationären Regieräumen nahe kommen.

1.4.4 Akustik großer Aufnahmestudios und Konzertsäle Grundsätzlich sind die akustischen Anforderungen an Konzertsäle und an große Aufnahmestudios, die im Allgemeinen ja zugleich als Konzertsäle genutzt werden, gleich. Im Gegensatz zu Rundfunkstudios  sind Konzertsäle jedoch Bestand unterschiedlicher historischer Bauepochen. Die raumakustischen Eigenschaften können von Saal zu Saal deshalb sehr verschieden sein, weil architektur-stilistische Gestaltungselemente, aber auch unterschiedliche akustische und optische Ziele die Raumakustik mitbestimmen [Forsyth, 1992], [Sotiropoulou, 1995], [Weinzierl, 2002], [Meyer, 2004], [Beranek, 2010], [Steinke, 2012]. Die Nachhallzeit von Opernhäusern wird einerseits wegen der notwendigen Wortverständlichkeit kürzer gewählt, andererseits bedingen die traditionellen Bauformen der Opernhäuser große Absorptionsflächen und damit kürzere Nachhallzeiten. Die Nachhallzeiten von Kirchen können außerordentlich verschieden sein, je nach Baustil und Größe [Eggenschwiler, 1999], [Meyer, 2003]. Eine Orientierung über die zweckmäßigen Grenzen, innerhalb derer die Nachhallzeiten im  mittleren Frequenzbereich im Allgemeinen liegen, gibt Abb.  1/33 für Konzertsäle und Opernhäuser in Abhängigkeit von ihrer Raumgröße. Bei der Frequenzabhängigkeit der Nachhallzeit ist meist eine Anhebung der Nachhallzeit im Frequenzbereich zwischen 500 und 2.000 Hz zu beobachten. Abb. 1/34 zeigt dies für besetzten und unbesetzten Zustand einiger bekannter Konzertsäle. Interessant ist die Tatsache, dass gute Säle auffallend unterschiedliche Frequenzabhängigkeiten der Nachhallzeit haben. Tab.  1/11 nennt die Daten einiger international als raumakustisch gut anerkannter historischer und moderner Konzertsäle und Opernhäuser nach [Beranek, 2010].

52 

 1 Grundlagen der Akustik

Abb. 1/33. Zweckmäßige Bereiche der Nachhallzeit bei mittleren Frequenzen für vollbesetzte Konzertsäle und Opernhäuser in Bezug auf die Raumgröße.

Abb. 1/34. Frequenzabhängigkeit der Nachhallzeit bekannter Konzertsäle nach [Sotiropoulou, 1995]. 1. Musikvereinssaal, Wien, unbesetzt, 5. Herkulessaal, München, unbesetzt, 1‘ besetzt 5‘ besetzt 2. alte Philharmonie, Berlin, zerstört, unbesetzt, 6. Laeiszhalle, Hamburg, unbesetzt 2‘ besetzt 7. Royal Festival Hall, London, unbesetzt, 3. Symphony Hall, Boston, unbesetzt 7‘ besetzt 4. Oetkerhalle, Bielefeld, unbesetzt

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 53

Für alle Konzertsäle gilt, unabhängig von ihrer Entstehungszeit, dass auch der hohe Qualitätsstandard  moderner Geräte für künstliche Verhallung bei Aufnahmen von klassischer Musik die gute Akustik eines Raums nicht ersetzen kann. Einerseits bestimmt die Raum­ akustik das Tempo und die Artikulation, allgemein die Interpretation bei der Aufführung von Musik mit, andererseits repräsentiert die übliche und notwendige Aufstellung der Mikrofone im Nahbereich bei vorgesehener elektronischer Verhallung die spezielle Klangfarbe am Aufnahmeort;  sie ist Ausgangspunkt für die  spezielle Klangfärbung des elektronischen Halls, der natürliche Hall hingegen integriert die Klangabstrahlung der Instrumente in alle Raumrichtungen. Deshalb kann künstlicher Hall dem natürlichen Raumeindruck grundsätzlich nicht gleichwertig sein. Die architektonischen, akustischen und sozialen Anforderungen an Konzertsäle unterliegen wie alle kulturellen Manifestationen einer historischen Entwicklung. So ist es kaum möglich, allgemein zu beschreiben, wie ein guter Konzertsaal klingen und aussehen soll. Nur gemessen an heutigen Anforderungen, erscheinen viele der älteren Säle als ungeeignet oder gar schlecht, während sie zu ihrer Zeit als gut anerkannt waren. Grundsätzlich gehört aber eine „authentische“ Raumakustik zu dem derzeit aktuellen Bemühen um ein authentisches Klangbild.

1.5 Historische Konzertsäle, Opernhäuser und Kirchen Konzertsäle, Opernhäuser und Kirchen haben akustische Eigenschaften, die von den architektonischen Grundsätzen und Stilmerkmalen der Epoche, in der  sie erbaut wurden, geprägt sind. [Beranek, 2010], [Dickreiter, 2011], [Forsyth, 1992], [Meyer, 2003] Bis ins 18. Jahrhundert gab es nur wenige Räume, die für Musikaufführungen besonders geplant und ausgestaltet waren. Kirchenmusik wurde in Kirchen aufgeführt, die je nach Stil eine längere oder kürzere Nachhallzeit haben. Kammermusik wurde in kleineren Räumen  mit  meist  stark gedämpfter Raumakustik und Feldmusik im Freien dargeboten. Konzertmusik mit Orchester wurde in den großen Fest- und Tanzsälen, den sog. Redouten, von Schlössern und Residenzen  sowie in Ratssälen aufgeführt. Größere Räume  speziell für Musikaufführungen in eigens erbauten Konzert- und Opernhäusern entstanden erst im Verlauf des 18. Jahrhunderts, verbunden mit der zunehmenden Beteiligung des Bürgertums an der Musikpflege.

1.5.1 Konzertsäle des 18. Jahrhunderts Der Konzertsaal des 18. Jahrhunderts ist noch kein entwickelter Bautyp mit typischen Merkmalen wie etwa die Barockkirche dieser Zeit. Die ersten eigentlichen Konzertsäle wurden in England errichtet für die Veranstaltung öffentlicher Konzerte für alle Bürger und gegen Eintrittsgeld. Konzerte waren wirtschaftliche Unternehmungen, Komponisten und Musiker waren auf die Akzeptanz ihrer Musik durch das Publikum angewiesen. Kennzeichnend für die Konzertsäle  sind relativ kleine Räume  mit Grundflächen um 200 bis 40    m2, darin ein dicht gedrängtes Publikum, woraus  sich ein geringes Raumvolumen pro Platz und eine bemerkenswert kurze Nachhallzeit von 1 bis 1,5 s ergibt. Einer der wichtigsten Konzertsäle

54 

 1 Grundlagen der Akustik

in London, dem europäischen Musikzentrum jener Zeit,  sind ab 1775 die Hanover Square Rooms  mit knapp 1  s Nachhallzeit; auf 240  m2 waren 800 Zuhörer  stehend untergebracht, pro Zuhörer  standen nur 2 bis 3  m3 Raumvolumen und eine Fläche von knapp 0,5  ·  0,5  m zur Verfügung. Wichtige öffentliche Aufführungsorte waren in London und anderswo auch Konzertgärten, Vergnügungsparks  mit den unterschiedlichsten Unterhaltungsmöglichkeiten, wo in halboffenen Pavillons oder in geschlossenen Räumen vor sehr zahlreichem Publikum musiziert wurde, z. B. auch Werke wie Orgelkonzerte von Georg Friedrich Händel. Die weitere Entwicklung des Konzertsaalbaus ging zum Ende des 18. Jahrhunderts von England nach Deutschland über. Im deutschsprachigen Raum gab es im 18. Jahrhundert außerhalb des höfischen Musiklebens nur geringe öffentliche musikalische Aktivitäten. Größere Konzertsäle waren weder an den Höfen noch im öffentlichen Bereich erforderlich. Musiziert wurde meist in Räumen, die nicht speziell für Konzerte vorgesehen waren [Weinzierl, 2002]. Unter den Räumen, die als Konzertsäle genutzt wurden, sind herausragende Beispiele diejenigen Säle, in denen Joseph Haydn seine Werke – wie auch in dem genannten Londoner Saal zwischen 1791 und 1795 – aufführte: Der Konzertsaal des Schlosses Esterháza in Ungarn ist ein kleiner Saal für 200 Zuhörer mit einer Nachhallzeit von 1,2 s, bei tiefen Frequenzen auf 2,3 s ansteigend. Dieser Konzertsaal wurde von Haydn 1766 bis 1784 genutzt. Dagegen hatte der Große Saal im österreichischen Eisenstadt, wo Haydn zwischen 1760 und 1765 mit seinem Orchester musizierte, eine Nachhallzeit von 1,7  s, ansteigend auf 2,8  s für tiefe Frequenzen; für die 400 Zuhörer stand ein Volumen von fast 7.000 m3 zur Verfügung, pro Platz also über 17 m3, ein für Konzertsäle ungewöhnlich großes Volumen. [Meyer, 1978] Wohl der berühmteste Konzertsaal, der noch im 18. Jahrhundert entstanden ist, ist das sog. Alte Gewandhaus in Leipzig, das 1781 erbaut und 1894 wieder abgebrochen wurde. Es wurde besonders in der ersten Hälfte des 19. Jahrhunderts ein viel genutzter und auch für diese Zeit typischer Konzertsaal. Mit einer Nachhallzeit von geschätzt 1,3 s und 400, nach einem Umbau 1842 570 Hörerplätzen, bei einem Volumen von rund 5 m3 bzw. später knapp 4 m3 pro Sitzplatz erklang die Musik präsent und relativ laut; die Holzvertäfelung und der Holzfußboden waren gute Tiefenabsorber, so dass eine gleichmäßige Absorption über den gesamten Frequenzbereich angenommen werden kann. Auffällig ist die Anordnung der Sitzreihen parallel zur Saalachse. Dies war nicht typisch, betonte aber die gesellschaftliche Funktion öffentlichen Konzertlebens, da man bei dieser Sitzanordnung während des Konzerts  sehen und gesehen werden wollte und konnte. Hier wurden viele der bekanntesten Werke der Klassik aufgeführt, ein herausragender Kapellmeister dieser Zeit war Felix Mendelssohn-Bartholdi (1809 – 1847). Das Alte Gewandhaus stellt den Beginn einer eigentlichen Tradition des Konzertsaalbaus dar. Es wurde 1884 durch das wegen seiner Akustik gerühmte und vielfach kopierte Zweite oder Neue Gewandhaus nach Plänen von Martin Gropius ersetzt. 1943 wurde der berühmte Saal durch Luftangriffe schwer beschädigt, die zunächst geplante Wiederherstellung wurde aufgegeben und an anderer Stelle 1981 ein dritter, wieder Neues Gewandhaus genannte Konzertsaal eröffnet. Der Blick auf die erhaltenen bzw. bekannten Konzertsäle des 18. Jahrhunderts zeigt, dass man von typischen raumakustischen Verhältnissen noch nicht sprechen kann. Typisch war am ehesten der präsente, nicht durch Nachhall überdeckte Klang, der der fein ziselierten

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 55

und durch kleinteilige Phrasierungen geprägten Musik des Spätbarock, der Frühklassik und Klassik sehr gut entspricht.

1.5.2 Konzertsäle des 19. Jahrhunderts Zum Ende des 18. und Beginn des 19. Jahrhunderts zeigen  sich als Folge der wachsenden Beteiligung des Bürgertums am Musikleben charakteristische Veränderungen im Konzertleben: Konzerte werden nun von professionellen Gesellschaften und einzelnen Personen, wie Konzertunternehmer, Komponisten oder Künstlern, nach wirtschaftlichen Gesichtspunkten veranstaltet und sind öffentlich zugänglich. Sie ziehen immer mehr Besucher an, zunehmend größere Räume  mit entsprechend größeren Orchestern werden erforderlich. Erstmals entsteht ein größerer Bedarf an Räumen speziell für Musikaufführungen. Die Komponisten konzipieren ihre Werke nun nicht mehr für bestimmte Anlässe und Räume, da sie an verschiedenen Orten aufgeführt werden. Damit geht die in früheren Jahrhunderten weitgehend übliche Bindung der Musik an den Aufführungsraum vielfach verloren. Musik soll jetzt beeindrucken, auch im moralischen Sinn wirksam werden, geeignete Mittel hierfür sind auch Masse und Lautstärke, also große Orchester- und vor allem Chorbesetzungen,  mit denen sich das Bürgertum nun an Aufführungen beteiligt. Die Oratorien Händels, Haydns, Mendelsohns und vieler anderer, die heute kaum mehr Beachtung finden, und Beethovens 9. Sinfonie tragen viel zur Gründung von Chören und Orchestern bei. Dies architektonisch zu unterstützen, führte vielfach dazu, Konzertsälen einen weihevoll würdigen Ausdruck zu verleihen, sie Kirchen oder Tempeln nachzuempfinden; daher rührt auch der noch heute in Konzertsälen übliche Einbau einer großen Orgel. Der Konzertsaalbau des 19. Jahrhunderts geht in den deutschsprachigen Ländern zunächst keine grundsätzlich neuen Wege. Aus dem Ballsaal, der sog. Redoute, dem häufigsten Aufführungsraum barocker höfischer Musik, wird die Rechteckform mit ebenem Fußboden übernommen, es entsteht der klassische Konzertsaaltyp, der sog. Schuhschachtelsaal. Vor allem im späteren 19. Jahrhundert wird dies der vorherrschende Typ, um die Wende zum 20. Jahrhundert wird er zum Standard. Der Schuhschachtelsaal ist relativ schmal – Breite zu Länge verhalten sich vielfach wie 1 : 2 – und hat eine hohe Decke, eine auf die Seite gestellte Schuhschachtel eben. Dadurch entsteht ein relativ großes Raumvolumen pro Zuhörer. Der Fußboden ist eben, am Ende des Saals befindet sich die erhöhte Bühne mit Orgel, um den Saal läuft eine Galerie,  mit nützlichen Schallreflexionen an deren Unterseite. Solche Säle wurden in erster Linie für Orchester- und Chorkonzerte mit einem Publikum von 1.500 bis 2.000  Personen gebaut. Die Säle wurden in allen damals üblichen historisierenden Stilen gestaltet. Der typische Schuhschachtelsaal hat einen vergleichsweise kurzen Nachhall; er fördert einen üppigen, vollen Klang, der genau zur Musik der Zeit passt, oder passt die Musik zu den Räumen? Die für alle Plätze nahen Seitenwände reflektieren den Schall wirksam und erzeugen gering verzögerte, seitliche erste Reflexionen, die die Schallquelle scheinbar vergrößern, also die Raumeindruck betonen. Die Zuhörer sitzen relativ gedrängt und vergleichsweise nah beim Orchester, was der Musik auch Intimität und Präsenz verleiht. Akustische Überlegun-

56 

 1 Grundlagen der Akustik

gen wurden noch nicht angestellt, Erfahrung aus gebauten Sälen zählte. Die Grundform der Schuhschachtel allein ist allerdings noch keine Garantie für gute Raumakustik. Die wegen ihrer Akustik noch heute als die besten Konzertsäle der Welt geltenden Säle gehören dem Schuhschachteltyp an, sie galten als Vorbilder und wurden vielfach nachgeahmt, nämlich der Große Musikvereinssaal in Wien von 1870 und das Neue Gewandhaus in Leipzig von 1884, das Vorbild war u. a. für das Concertgebouw in Amsterdam von 1888 und beide zusammen für die Symphony Hall in Boston von 1900. Der Große Musikvereinssaal in Wien von Theophil Hansen wurde 1870 für 1.680 Zuhörer eröffnet, er gilt als der beste Konzertsaal der Welt. Bei knapp 9 m3 Volumen pro Sitzplatz liegt die Nachhallzeit etwas über 2 s. Die Wände sind verputzt, durch hohe Fenster unterbrochen und  stark gegliedert. Die  schallharten Wände fördern einen vollen Bassklang. Die umlaufende Galerie wird von vergoldeten Karyatiden getragen, die Stuckdecke ist reich verziert und ebenfalls vergoldet; daher der Beiname „Goldener Saal“. Der Alte Gewandhaussaal in Leipzig, 1781 für nur 400 Zuhörer erbaut, war trotz seiner kurzen Nachhallzeit von ca. 1,3  s und  seiner großen akustischen Direktheit und Intimität bis 1894, bis zu seinem Abriss, ein als gut anerkannter Konzertsaal, auch für die voluminöse Musik der Romantik. Das Neue Gewandhaus, nach Plänen von Martin Gropius erbaut, wurde 1884 eröffnet. Sein kleiner Saal war eine Kopie mit nun 640 Plätzen, sein großer Saal eine proportional vergrößerte annähernde Kopie des Alten Gewandhaussaals für 1.560 Zuhörer. Die Grundfläche bildeten zwei nebeneinander gelegte Quadrate mit 18,9 m Kantenlänge, die Höhe betrug 14,9 m, die klassischen Maße eines Schuhschachtelsaals. Wie im Musikvereinssaal zog sich ringsherum die Galerie, auf der über der Bühne eine Konzertorgel Platz fand. Die Nachhallzeit war mit geschätzt 1,5 s deutlich kürzer als die des Wiener Saals. So bot das Neue Gewandhaus nicht ganz das Klangvolumen des Musikvereinssaals, eignete sich aber möglicherweise besser für die Musik der Klassik. Die Konzertprogramme waren auch mehr als in Wien auf die Musik der Vergangenheit, also auf die Klassik, ausgerichtet. Der dritte berühmte Schuhschachtelsaal auf europäischem Boden ist das Concertgebouw in Amsterdam mit 2.200 Plätzen, von van Gendt erbaut und 1888 eröffnet. Die Nachhallzeit ist  mit 2,2  s etwas länger als im Musikvereinssaal,  sein Volumen fast doppelt  so groß wie das des Neuen Gewandhauses. Wegen der größeren Saalbreite kommen die ersten Reflexionen spät, der Klang ist durchmischter und weniger klar als im Wiener und Leipziger Saal; er eignet sich eher für die monumentalen Werke des späten 19. Jahrhunderts wie etwa die Sinfonien Anton Bruckners und Gustav Mahlers als für die Musik der Klassik. Die akustischen Daten der Konzertsäle, die heute allgemein als die besten angesehen werden, zeigt Tab. 1/11. Die Mehrzahl dieser Säle entstammt dem 19. Jahrhundert. Eine Wissenschaft von der Raumakustik, die als Grundlage der vielen akustisch guten Säle anzusehen wäre, gab es damals noch nicht. Allenfalls herrschte die Vermutung, dass ein optisch schöner Saal auch akustisch gut sein müsse; dazu gehört z. B. die Beachtung ganzzahliger Raumproportionen. Zudem stützte man sich auf bewährte Raumdimensionen und Gestaltungsmittel. Die Forschungen von Sabine, die 1898 zur Nachhallformel führten, konnten erstmals bei der Symphony Hall in Boston, eröffnet 1900, in der Planung mit Beratung durch Sabine berücksichtigt werden.

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 57

1.5.3 Konzertsäle des 20. Jahrhunderts Der Konzertsaalbau ist im 20. Jahrhundert durch die Entwicklung der Wissenschaft von der Akustik und ihrer Anwendung auf die raumakustische Planung geprägt. Die Bestimmung von akustischen Kriterien für die gewünschte raumakustische Qualität wird zunehmend präziser und erreicht nach der Jahrhundertmitte einen bis heute zunehmend weiterentwickelten Wissensstand, der eine relativ zuverlässige Planung ermöglicht. Gute Konzertsäle können jedoch nur verwirklicht werden, wenn nicht Anforderungen gestellt werden z.  B. nach zu großen Sälen und nach unvereinbaren Nutzungskonzepten. Schon 1650 hat Athanasius Kircher die Gesetzmäßigkeiten der Ausbreitung von Schall analog zu Lichtstrahlen beschrieben, z. B. auch die Konstruktion eines Flüstergewölbes. Die wichtige Erkenntnis, dass der Publikumsbereich so ansteigen soll, dass jede Person dieselbe Sicht auf die Bühne hat und damit auch optimale Hörbedingungen für Direktschall bestehen – heute als Überhöhungskurve bezeichnet – wurde von John Russell 1838 formuliert. Schon bei den antiken Theatern verwirklicht, ist diese Erkenntnis erst im 20. Jahrhundert wieder in die Planungen eingegangen. Die erste Zusammenfassung akustischen Wissens hat Rayleigh 1878 in „The Theory of Sound“ vorgelegt. Den nächsten wichtigen Schritt in der Forschung machte Wallace Clement Sabine, als er 1898 die Formel für die Nachhallzeit durch Experimente entdeckte und damit dieses Kriterium in die Planungen einbezogen werden konnte. Sabine wendete erstmals für die Planung der Boston Symphony Hall die Nachhallformel für den Zusammenhang zwischen Nachhallzeit, Raumgröße und der Absorption der verwendeten Materialien an; dieser Saal von 1900, der mit seinen vom Leipziger Neuen Gewandhaus abgeleiteten Proportionen ein typischer Schuhschachtelsaal ist, gehört noch heute zu den besten Konzertsälen. Das Spannungsfeld zwischen raumakustischer Planbarkeit und der Schwierigkeit,  subjektive Qualitätskriterien in objektive Planungen zu übersetzen, beherrscht die Wissenschaft von der Raumakustik und den Konzertsaalbau des 20. Jahrhunderts. Ein weiteres, wesentliches Merkmal der Konzertsäle des 20. Jahrhunderts ist die Anpassung an größere Zuhörerzahlen, teils um die steigende Nachfrage zu befriedigen, teils aus wirtschaftlichen Gründen. Die Vergrößerung wird erreicht durch eine Verbreiterung der Säle. Die Seitenwandreflexionen können dabei raumakustisch nicht  mehr ausreichend genutzt werden, sie werden durch Deckenreflexionen ersetzt, die Decke muss dafür – um Echos zu vermeiden – relativ niedrig bleiben. Gleichzeitig wird aus Gründen des Komforts der Platzbedarf pro Person vergrößert. Dies alles führt zu kürzeren Nachhallzeiten und einem Überwiegen des Direktschalls; es entstehen im Gegensatz zu den Sälen des 19. Jahrhunderts Säle mit einem direkten, klaren Klang mit geringerem Raumeindruck und Räumlichkeit. Gleichzeitig verändert die Musik im 20. Jahrhundert durch rhythmische und harmonische Differenzierung ihre Strukturen so, dass gerade Konzertsäle mit den beschriebenen Eigenschaften erforderlich werden. Die europäischen Konzertsäle der 1920er und 1930er Jahre sind durch die Anwendung des Schallstrahlenmodells der Raumakustik auf die gesamte Raumoberfläche gekennzeichnet. Diese Verwissenschaftlichung der Raumakustik  stellt eine Abwendung von der Planungsweise des 19. Jahrhunderts dar, in dem die Erfahrungen akustisch oft nur zufällig gelungener Säle genutzt wurden. Zunächst blieben Berechnungen der Nachhallzeit – obwohl 1898 von Sabine schon entwickelt – außer Acht. Ziel der Planungen war, den gesamten Direktschall

58 

 1 Grundlagen der Akustik

Tab. 1/11. Daten von als raumakustisch gut anerkannten, internationalen Konzertsälen nach [Beranek, 2010]. vollendet im Jahr

Saal, Stadt

Raumvolumen V

Anzahl Volumenkenn­Plätze N zahl K = V/N

Nachhallzeit mit Publikum (ohne Publikum)

1781

Altes Gewandhaus, Leipzig

2.130 m3

400

5,5 m3 / Platz

1,3 s, geschätzt

1870

Musikvereinssaal, Wien

15.000 m3

1.680

8,9 m3 / Platz

2,0 s (3,0 s)

1887

Neues Gewandhaus, Leipzig

10.600 m3

1.560

6,8 m3 / Platz

1,5 s, geschätzt

1887

Concertgebouw, Amsterdam

18.780 m3

2.037

9,2 m3 / Platz

2,0 s (2,6 s)

1891

Carnegie Hall, New York

24.270 m3

2.804

8,7 m3 / Platz

1,8 s (2,0 s)

1895

Tonhalle, Zürich

11.400 m3

1.546

7,4 m3 / Platz

2,0 s (3,2 s)

1900

Symphony Hall, Boston

18.750 m3

2.625

7,1 m3 / Platz

1,9 s (2,5 s)

1984

Konzerthaus, neugestalteter Wieder­ aufbau des Königlichen Schauspielhaus (1821), Berlin

28.000 m³

1.500

10,3 m³ / Platz

2,0 s (2,2 s)

1935

Konzerthaus, Göteborg

11.900 m3

1.286

9,3 m3 / Platz

1,6 s (1,7 s)

1953

Herkulessaal, München

13.590 m3

1.287

10,6 m3 / Platz

1,8 s (2,3 s)

1956

Liederhalle, Stuttgart

16.000 m3

2.000

8,0 m3 / Platz

1,6 s (2, s 1)

1963

Philharmonie, Berlin

21.000 m3

2.218

9,5 m3 / Platz

1,9 s (2, s 2)

1981

Neues Gewandhaus, Leipzig

21.000 m3

1.900

11,0 m3 / Platz

2,0 s (2,2 s)

1987

Kammerphilharmonie, Berlin

11.000 m3

1.138

9,7 m3 / Platz

1,8 s (2,1 s)

1998

Festspielhaus, Baden-Baden

20.100 m3

2.500

8,0 m3 / Platz

1,9 s (2,1 s)

1998

Festspielhaus, Luzern

21.000 m3

1.900

11,0 m3 / Platz

2,0 s (2,2 s)

2017

Elbphilharmonie, Hamburg

23.000 m³

2.100

11 m³ / Platz

2,4 s

2017

Pierre-Boulez-Saal, Berlin

7.600 m³

682

11 m³ / Platz

1,7 s (2,1 s)

20.000 m3

2.000

10 m3 / Platz

2,0 s

durchschnittliche, gerundete Werte von als gut anerkannten Sälen

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 59

durch Spiegelung an Wand- und Deckenoberflächen auf den Publikumsbereich hinzuleiten. Dadurch entstehen die sog. Direktschall-Auditorien des frühen 20. Jahrhunderts. Diese Räume hatten die Grundform halbierter Trichter, gestaltet nach denselben Prinzipien wie die Grammophontrichter jener Zeit, die in einem bedämpften Wohnraum ebenfalls hauptsächlich ein Direktschallfeld erzeugen. Die Salle Pleyel in Paris, 1927 eröffnet, ist der erste Saal dieser Art; charakteristisch für ihn ist die große Deutlichkeit des Klangs, durch die starken Deckenreflexionen ein „monofoner“, wenig räumlicher Klang. Bei den zahlreichen Neubauten nach 1950 werden die inzwischen vertieften wissenschaftlichen Erkenntnisse über Raumakustik umfassend bei Planungen angewendet, sowohl in Bezug auf die Lenkung der den Schall verstärkenden Reflexionen als auch auf die Gestaltung von Nachhallzeit und -farbe sowie die Verteilung des Diffusschalls. Kennzeichnend für diese Säle ist vielfach eine relativ niedrige Decke mit parabelähnlicher Form, ein ansteigender Publikumsbereich und große, freitragende Balkone für die Aufnahme eines zahlreichen Publikums. Nach 1960 setzte sich ein neuer Typ von Konzertsaal durch, der Zentralsaal, vorgeprägt in den antiken runden Amphitheatern  mit ansteigenden Publikumsrängen, realisiert aber auch schon 1871 in der Royal Albert Hall in London und Freiluftbauwerken wie der Hollywood Bowl von 1922 für 17.000 Personen. Der Zentralsaal mit ansteigenden Publikumsbereichen um die Bühne bietet jedem Zuhörer größere Nähe zu den Künstlern, einen besseren „Hörblick“. Wie bei allen großen Sälen fehlen auch hier zunächst seitliche Reflexionen, die der Musik Räumlichkeit geben, die Schallquellen also vergrößern und den Hörer mit Klang einhüllen. Bei den Zentralsälen werden diese Reflexionen durch sog. Weinbergtreppen erzeugt. Durch in der Höhe gestaffelte Publikumsteilbereiche entsteht eine gegliederte Landschaft mit einem zeltartigen Dach, die an vielen Plätzen relativ nahe  seitliche Reflexionsflächen bietet. Der bekannteste Saal dieses Typs ist die Philharmonie in Berlin von Hans Scharoun, eröffnet 1963, mit 2.218 Sitzplätzen und 1,9 s Nachhallzeit. Bereits 1956 wurde das Weinbergtreppenprinzip im Mozartsaal der Stuttgarter Liederhalle von Abel und Gutbrot durchaus mit Bezug auf die die Stadt umgebenden Weinberge angewandt. Auch die Elbphilharmonie von den Architekten Herzog & de Meuron, 2017 in Hamburg eröffnet, gehört dem Weinbergtypus an [Fuchs, 2018]. Konsequenter noch ist das Prinzip der zentralen Bühne bei der Berliner Kammerphilharmonie nach Plänen von Hans Scharoun verwirklicht, 1987 eröffnet sowie in dem 2017 eröffneten Pierre-Boulez-Saal des Architekten Frank Gehry, als kleiner ovaler Saal ohne Weinbergterrassen. Neu an den Zentralsälen ist die Beachtung der  sozialen Komponente des Konzertbesuchs: Die Zuhörer bilden unter sich und mit den Musikern durch engen visuellen Kontakt eine Gemeinschaft. Diese architektonische Konzeption versucht, die Trennung von Bühne und Publikum aufzuheben und die Musik „in den Mittelpunkt“ zu stellen. Nachteilig ist die unausgeglichene Klangbalance seitlich und hinter der Bühne. Abwandlungen des Amphitheatertyps mit seiner zentralen Bühne ergeben fächerförmige Räume, auch mit Weinbergtreppen, verwirklicht z. B. 1985 bei der Philharmonie im Gasteig in München oder einen tulpenförmigen Grundriss wie bei der Kölner Philharmonie von 1986. Neben der Entwicklung des Zentralsaals lässt  sich international auch ein Trend zur Rückkehr zum Schuhschachtelsaal des 19. Jahrhunderts beobachten, jetzt geleitet von einem

60 

 1 Grundlagen der Akustik

umfangreichen Wissen über Raumakustik, nicht aus nostalgischen Gründen. Noch nie wurden so viele neue Konzertsäle gebaut wie in unserer Zeit.

1.5.4 Opernhäuser und Theater Während der Konzertsaal als Bautyp erst im 19. Jahrhundert auf breiter Basis entwickelt wurde,  sind Opernhäuser  seit dem 17. Jahrhundert eigens für Opernaufführungen nach gesellschaftlichen und  musikalischen Bedürfnissen errichtete Bauwerke, die  meist  mit großem Aufwand erstellt und betrieben wurden. Der Opernbesuch war im Gegensatz zum Theaterbesuch bis ins 19. Jahrhundert ein gesellschaftliches Ereignis ersten Ranges für die höheren  sozialen Schichten. Aber bereits im 17. Jahrhundert wurde vor allem in Venedig ein marktwirtschaftlich orientierter Opernbetrieb eingerichtet, der durchaus allen Schichten offenstand. Soziale Veränderungen haben deshalb in der Geschichte der Opernhäuser direkt auf ihre Architektur und Akustik eingewirkt, und natürlich auf die Musik, die sich „verkaufen“ musste. Die Oper entstand in Italien um 1600. Da  sie  sich zunächst als eine  mit zeitgenössischen musikalischen Mitteln gestaltete Wiederbelebung der antiken Tragödie verstand, lag es nahe, auch ihre Aufführungsstätten an dem antiken halbrunden Theater zu orientieren. Der erste Bau dieses Typs war das noch existierende Teatro Olimpico in Vicenza, das im Kleinformat den griechischen und römischen Vorbildern folgt und Ausgangspunkt für die Grundrisse der Opernhäuser bis heute ist. Aus dieser halbrunden Grundform wurden die unterschiedlichen Grundrisse aller historischen Opernhäuser abgeleitet. Die halbrunde Form wurde zu einem U verlängert oder zur Hufeisenform abgewandelt; die dritte, vor allem im 18. Jahrhundert viel verwendete Grundform war die angeschnittene Ellipse. Bereits bei den Opernhäusern des 17. Jahrhunderts werden vor die Wände mehrstöckig Logen gesetzt und das ebene Parkett bestuhlt, um ein möglichst zahlreiches zahlendes Publikum unterbringen zu können, im Parkett die billigen, in den Logen die teureren Plätze. Mehrere Architekten der italienischen Familie GalliBibiena, die zwischen 1700 und 1780 in ganz Europa Opernhäuser bauten, fügten der Opernhaustypologie den glockenförmigen Grundriss hinzu; ein erhaltenes Opernhaus dieses Typs ist das Markgräfliche Opernhaus in Bayreuth. Noch heute ist die Mailänder Oper, das berühmte Teatro alla Scala, von Giuseppe Piermarini erbaut und 1778 eröffnet, das großartigste und eines der größten Opernhäuser überhaupt, gefolgt von San Carlo in Neapel. Mit ursprünglich 2.800, heute 2.300 Plätzen bei 260 Logen in sieben Stockwerken über dem Grundriss einer abgeschnittenen Ellipse hat es ungewöhnliche Ausmaße, auch für heute, besonders aber zur Entstehungszeit. Akustisch allerdings wird es nicht gelobt. Die Hoftheater jener Zeit fassten meist nur 400 bis 500 Personen. Der Klassizismus um 1800 fügte den traditionellen Grundrissen einen weiteren hinzu, den des angeschnittenen Kreises. Obwohl diese Grundformen und manche Details und spezielle Einrichtungen zu ihrer Zeit auch unter dem Gesichtspunkt der Akustik diskutiert wurden – meist mit zweifelhaften Argumenten,  sind für die Raumakustik der Barocktheater die  sehr wirksame Absorption durch das Publikum und die mit Stoffen ausgekleideten Logen bestimmend; bei einer

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 61

Nachhallzeit um 1 s ist ein klares, direktes und intimes Klangbild typisch, die bevorzugte Holzauskleidung absorbiert besonders den tiefen Frequenzbereich, während sie hohe Komponenten reflektiert. Diese Raumakustik erfüllt die Forderungen der Musik dieser Zeit, sie bietet gute Wortverständlichkeit und macht die feinen Strukturen und Nuancen der Phrasierung hörbar; ein solches Klangbild galt als wünschenswert. Dieser Opernhaustyp und mit ihm seine typische Akustik bleiben im Wesentlichen bis ins späte 19. Jahrhundert auch für Neubauten erhalten, bei traditionellen Opernhausbauten sogar bis ins 20. Jahrhundert. Im 19. Jahrhundert wurden Opernhäuser im traditionellen Stil des italienischen Typs gebaut, wie  sie im 17. und 18. Jahrhundert entwickelt worden waren, auch weiterhin  mit barocker Innendekoration. Herausragende europäische Opernhausneubauten waren u.  a. Covent Garden in London 1858, die Staatsoper in Wien 1868 und die Grand Opéra, heute Opéra Garnier, in Paris 1875. Daneben entstanden Opernhäuser unterschiedlicher Größe, auch in kleinen Residenzstädten, als Zeichen eines aufstrebenden Bürgertums und kunstbeflissener Herrscher vor allem in Europa in großer Zahl. Die Wiener Architekten Fellner und Helmer bauten als spezialisiertes Architekturbüro zwischen 1870 und 1900 europaweit rund 50 Theater und Opernhäuser des barocken Typs. Oper blieb ein gesellschaftliches Ereignis, die Bauwerke waren v.  a. dieser Funktion angepasst, nicht den Anforderungen des musikalischen Kunstwerks Oper. Raumakustische Fragen spielten bei der Planung immer noch keine Rolle, man nutzte die Erfahrungen mit immer wieder demselben Bautyp. Ein neuartiger, durchaus revolutionärer Typ eines Opernhauses entstand erst 1876, als Richard Wagner nach  seinen Ideen das Festspielhaus – nicht Opernhaus in Bayreuth für die Aufführung seines vier Abende umfassenden Werks „Der Ring des Nibelungen“ entwarf und bauen ließ. Die neue Konzeption ist charakterisiert durch fächerförmige und ansteigende gleich begünstigende Anordnung der Sitzplätze mit guter Sicht von allen Plätzen auf die Bühne – beim traditionellen italienischen Opernhaus blickt ein Großteil des Publikums eben auf das Publikum, einen versenkten und verdeckten Orchestergraben  mit Durchmischung der einzelnen Instrumentalklänge zu einem homogenen, im hohen Frequenzbereich gedämpften Gesamtklang, Wagners „mystischer Abgrund“ zwischen Publikum und Bühne. Verglichen mit traditionellen Opernhäusern hat das Haus eine etwas längere Nachhallzeit von 1,6  s, eine Verkleinerung der gesellschaftlich genutzten Pausen- und Zugangsflächen auf ein Mindestmaß – der Besuch sollte ein vorrangig musikalisches Ereignis sein, nicht ein gesellschaftliches. Kennzeichnend ist auch die Schmucklosigkeit des Bauwerks innen und außen, die Verdunklung des Zuschauerraums während der Vorstellung zur Erhöhung der Konzentration auf das musikalische und szenische Geschehen. Auch die Wahl des Standorts in einer Kleinstadt in der Provinz ohne gesellschaftliche und  städtische Einbindung unterstreicht den Willen, das musikalische Ereignis in den Vordergrund zu stellen. Wagners Idee eines Festspielhauses ist architektonisch, akustisch, musikalisch und gesellschaftlich ein radikaler Gegenentwurf zum traditionellen Opernhaus des italienischen Typs und zum gesellschaftlichen Ereignis Opernbesuch. Max Littmann hat das Auditorium des Prinzregententheaters in München 1901 mit einigen Änderungen nach diesem Vorbild erbaut, weitere Nachfolgebauten gibt es nicht. Aber einige Elemente von Wagners Entwurf sind heute selbstverständlich: die guten Sichtverhältnisse, die Verdunklung des Zuschauerraums und der längere Nachhall (Tab. 1/12).

62 

 1 Grundlagen der Akustik

Im 20. Jahrhundert wurden zunächst im Wesentlichen die aus dem 19. Jahrhundert erhaltenen Opernhäuser des italienischen Barocktyps weiter bespielt, und, soweit zerstört, auch wieder in diesem Stil aufgebaut; Modernisierungen betreffen vor allem die technischen Anlagen, die Feuersicherheit und den Komfort. In überraschender Zahl wurden gerade in den letzten Jahrzehnten weltweit auch neue Opernhäuser bzw. Festspielhäuser erbaut. Sie unterscheiden  sich aber, abgesehen vom Einbau des Orchestergrabens, nicht in grundsätzlichen Gesichtspunkten vom Konzertsaalbau des 20. Jahrhunderts. Tab. 1/12. Daten von historischen Opernhäusern nach [Beranek, 2010]. vollendet im Jahr

Saal, Stadt

Raumvolumen V

Anzahl Plätze N

Volumenkennzahl K = V/N

Nachhallzeit mit Publikum (ohne Publikum)

1748

Markgräfliches Opernhaus, Bayreuth Teatro alla Scala, Mailand Semperoper, Dresden Festspielhaus, Bayreuth

5.500 m3

450

12,2 m3/Platz

0,9 s, geschätzt

11.652 m3

2.289

5,1 m3/Platz

12.480 m3

1.284

9,7 m3/Platz

10.308 m3

1.800

5,7 m3/Platz

1,2 s (1,2 s) 1,6 s (1,7 s) 1,3 s (1,6 s)

1778 1841 (1985) 1876

Gelegentlich werden in vorhandene Theatersäle nachträglich Einrichtungen zur Verlängerung des Nachhalls eingebaut (siehe Kap. 1.4.2.1), um sie auch für Konzertaufführungen besser nutzbar zu machen.

1.5.5 Kirchen Kirchenräume variieren sowohl in ihrer Größe als auch in ihrer Architektur und Innenausstattung so stark, dass unter dem Aspekt der Akustik eine Unterscheidung nach einzelnen Stilepochen getroffen werden  muss. Der Bestand an Kirchengebäuden  stammt im Wesentlichen aus der Zeit vom Mittelalter  mit Romanik und Gotik über die Renaissance bis zum Ende der Barockzeit, die Kirchen des 19. Jahrhunderts gehen weitgehend historisierend auf frühere Stilepochen zurück. Erst die Kirchen, die im 20. Jahrhundert errichtet wurden, zeigen zumindest teilweise neue architektonische Formen: Die Verständlichkeit des gesprochenen Worts wird zu einem wichtigen Kriterium, das bedeutet weniger Nachhall und größere Nähe. [Eggenschwiler, 1999], [Meyer, 2003] Allen Stilen ist gemeinsam, dass zwischen der Nachhallzeit des besetzten und unbesetzten Kirchenraums ein erheblicher Unterschied besteht. Da in älteren Kirchen  meist Holzbänke oder Holzstühle verwendet werden, erhöhen die Besucher die Schallabsorption erheblich bzw. verkürzen die Nachhallzeit; je größer der Kirchenraum ist, umso geringer ist allerdings dieser Einfluss. Bei kleineren Kirchen können Sitzkissen diesen Unterschied etwas

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 63

verringern. Eine statistische Auswertung von 150 Kirchen in der Schweiz ergibt für die verschiedenen Epochen typische Werte der Nachhallzeiten (Tab. 1/13). Abgesehen von den unterschiedlichen Nachhallzeiten auf Grund der sehr unterschiedlichen Volumina der Kircheninnenräume kann man für die Kunststile der Epochen der Gotik, der Renaissance- und Barockzeit typische Nachhallfärbungen feststellen, bedingt durch die Materialien der Ausgestaltung der Räume. Beim älteren Kirchenbau haben Fragen der Akustik – man denkt hier zunächst an die Wortverständlichkeit – keine Bedeutung. Die Kirchen des Mittelalters ragten in ihrer Größe und Höhe weit über die  städtische Bebauung hinaus,  sie waren Symbole der Macht der Kirche, sollten durch Größe und kunstvolle Ausführung und Ausstattung beeindrucken und ein Zeichen des Gotteslobs sein. Der Kultus als solcher stand im Vordergrund, nicht die Verständlichkeit des Worts. Diese Größe ist der Grund für die generell langen Nachhallzeiten, die ihrerseits Kirchen eine Sonderstellung verleiht. Erst die Reformation rückte das Wort in den Vordergrund. Insbesondere durch die erheblichen Besucherzahlen und den nun erforderlichen Einbau zahlreicher Besucheremporen erreichten evangelische Kirchen weit geringere Nachhallzeiten. Ein gutes Beispiel hierfür ist die Thomaskirche in Leipzig, ein ursprünglich gotisches Bauwerk mit langer Nachhallzeit, besonders im tiefen Frequenzbereich;  sie wurde  mit hölzernen Emporen ausgestattet, die zusammen mit den zahlreichen Besuchern erst die akustischen Bedingungen für J. S. Bachs Musik schufen, nämlich eine Nachhallzeit um 2 s mit Mittenbetonung. Gotische Kirchenräume  sind im Allgemeinen gekennzeichnet durch große Raumvolumina und sehr geringe Schallabsorption besonders bei tiefen, aber auch mittleren Frequenzen, verursacht durch steinerne Oberflächen und fehlende Tiefenabsorber. Dies führt typisch zu einer  sehr langen Nachhallzeit von bis zu 12  s  mit einem ausgeprägten Maximum bei 100 Hz oder darunter. Der Nachhall hat also eine ausgesprochen dunkle Färbung und auch durch  seine lange Dauer eine  stark verdeckende Wirkung. Der Hallradius ist relativ groß, bedingt durch die großen Raumvolumina. Romanische Kirchen  sind  meist kleiner, verhalten sich aber ähnlich, sofern sie eine steinerne Gewölbedecke haben, Holzdecken verringern die Dunkelfärbung des Nachhalls. Tab. 1/13. Statistische Nachhallzeiten aus 150 schweizer Kirchen [Eggenschwiler, 1999], k = katholisch, e = evangelisch-reformiert, b = besetzt mit Publikum, u = unbesetzt, ohne Publikum. Romanik, Gotik (vor 1530)

Renaissance, Barock (1530 bis 1815)

Klassizismus, Historismus (1815 bis 1915)

Gegenwart (nach 1915)

Durchschnittswerte über alle Epochen

3,7 s (k, u) 2,4 s (k, b) 3,1 s (e, u) 1,9 s (e, b)

3,0 s (k, u) 2,3 s (k, b) 2,2 s (e, u) 1,2 s (e, b)

4,1 s (k, u) 2,2 s (k, b) 2,5 s (e, u) 1,4 s (e, b)

3,3 s (k, u) 1,8 s (k, b) 2,6 s (e, u) 1,4 s (e, b)

3,5 s (k, u) 2,1 s (k, b) 2,6 s (e, u) 1,5 s (e, b)

Barocke Kirchen  sind gekennzeichnet durch kürzeren Nachhall als gotische Kirchen, ein Maximum der Nachhallzeit im  mittleren Frequenzbereich um 500  Hz und klare Höhen,

64 

 1 Grundlagen der Akustik

verursacht durch zahlreiche, die Tiefen absorbierende Gestaltungselemente aus Holz und Putzflächen. Der Helligkeit des Barockraums entspricht also die Helligkeit der Klangfärbung. Insgesamt zeigen Barockkirchen eine weitaus bessere Eignung für Musikdarbietung oder Tonaufnahmen als romanische oder gotische Kirchen. Renaissancekirchen haben ähnliche akustische Eigenschaften wie Barockkirchen.

Standards [DIN 1311] Schwingungen und schwingungsfähige Systeme, Tl. 1 Grundbegriffe [DIN 1320] Akustik; Begriffe [DIN 4109] Schallschutz im Hochbau; Anforderungen [DIN 5493-2] Logarithmierte Größenverhältnisse, Maße, Pegel und Einheiten [DIN 18041] Hörsamkeit in kleinen bis mittelgroßen Räumen [DIN 45405] Störspannungsmessung in der Tontechnik, zurückgezogen [DIN 45630] Teil l Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall, Teil 2: Normalkurven gleicher Lautstärkepegel [DIN EN ISO 3382-1] Akustik – Messung von Parametern der Raumakustik, Teil 1: Aufführungsräume [DIN EN ISO 3382-2] Akustik – Messung von Parametern der Raumakustik, Teil 2: Nachhallzeit in gewöhnlichen Räumen [DIN EN 61672] Elektroakustik – Schallpegelmesser, Teil 1: Anforderungen [EN ISO 354] Akustik – Messung der Schallabsorption in Hallräumen [BS.1116] ITUR Recommendation BS.1116-,1 Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. 1997 [EBU Tech 3276] EBU Doc. Tech. 3276-E 2nd ed.: Listening conditions for the assessment of sound programme material – monophonic and two-channel stereophonic incl. Supplement 1: Multichannel sound, Geneva, 2004 [ISO 1996] Acoustics – Description, measurement and assessment of environmental noise, 2003, Part 1: Basic quantities and assessment procedures[ ITU-R BS.1116] Methods for the subjective assessment of small impairments in audio systems, 3rd Edition, February 2015

Literatur [Barron, 1981] Barron, M. und Marshall, A. H.: „Spatial impression due to early lateral reflections“, in: Journal Sound and Vibr. 7, 1981, S. 211ff. [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer, New York [Dickreiter, 2011] Dickreiter, M.: Mikrofonaufnahme, 4. Aufl. 2011, Hirzel [Eggenschwiler, 1999] Eggenschwiler, K. und Baschnagel, K.: Aktuelle Aspekte der Kirchenakustik, EMPA (Eidgenössische Materialprüfungs- und Forschungsanstalt), 1999, Dübendorf [Fasold, 2003] Fasold, W. und Veres, E.: Schallschutz und Raumakustik in der Praxis, 2003, Bauwesen [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur

Literatur 

 65

[Franssen, 1964] Franssen, N. V.: „Sur l’amplification des champs acoustiques“, in: Acoustica 20, 1968, S. 315 ff. [Friesecke, 2012] Friesecke, A.: Studio Akustik – Konzepte für besseren Klang, 3. Aufl. 2012, PPV Medien [Fuchs, 2010] Fuchs, H. V.: Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 3. Aufl. 2010, Springer [Fuchs, 2018] Fuchs, H. V.: „Die Elbphilharmonie im Vergleich mit anderen Konzertsälen von Rang“, in: Forstschritte der Akustik, 44. Jahrestagung der DAGA 2018, S. 1104 ff. [Griesinger, 1991] Griesinger, D.: „Verbesserung der Raumakustik durch zeitvariablen künstlichen Nachhall“, in: Bericht 16. Tonmeistertagung Karlsruhe 1990, S. 451ff., 1991, Saur [Hentschel, 2009] Hentschel, Th.: Praktische Raumakustik: Grundlagen, Konzept und Methoden, 2009, VDM-Verlag [IRT, 1995] Höchstzulässige Schalldruckpegel von Dauergeräuschen in Studios und Bearbeitungsräumen bei Hörfunk und Fernsehen, IRT, Akustische Information 1.11-1/1995 [Kath, 1964] Kath, U. und Kuhl, W.: „Messungen zur Schallabsorption von Personen auf ungepolsterten Stühlen“, in: Acustica 1964, S. 50 ff. [Kath, 1965] Kath, U. und Kuhl, W.: „Messungen der Schallabsorption von Polsterstühlen mit und ohne Personen“, in: Acustica 1965, S. 127 ff [Kok, 2011] Kok, B.: „Technologie- und Marktübersicht: Acoustic enhancement systems“, in: Production Partner 4, 2011, S. 108 ff. [Kuhl, 1977] Kuhl, W.: „In der Raumakustik benutzte hörakustische Termini“, in: Acustica 1977, S. 57 ff. [Kuttruff, 2004] Kuttruff, H.: Akustik, 2004, Hirzel [Kuttruff, 2019] Kuttruff, H.: Room Acoustics, 2019, CRC Press [Lehmann, 1980] Lehmann, P. und Wilkens, H.: „Zusammenhang subjektiver Beurteilungen von Konzertsälen und raumakustischen Kriterien“, in: Acustica 1980, S. 256 ff. Lerch, R, Sessler, G., Wolf , D.: Technische Akustik: Grundlagen und Anwendungen, [Lerch, 2022] 2022, Springer [Magnus, 2008] Magnus, K. und Popp, K.: Schwingungen, 8. Aufl., 2008, Vieweg & Teubner [Meyer, E, 1965] Meyer, E., Kuttruff, H. und Schulte, P.: „Versuche zur Schallausbreitung über Publikum“, in: Acustica 1965, S. 175ff. [Meyer, 1978] Meyer, J.: „Raumakustik und Orchesterklang in den Konzertsälen Joseph Haydns“, in: Acustica 41, 1978, S. 145 ff. [Meyer, 2003] Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J.: Akustik und musikalische Aufführungspraxis, [Meyer, 2015] 6. Aufl., 2015, PPVMedien [Mommertz, 1993] Mommertz, E.: „Einige Messungen zur streifenden Schallausbreitung über Publikum und Gestühl“, in: Acustica 1993, S. 42 ff. Möser, M.: Messtechnik der Akustik, 2009, Springer [Möser, 2009] [Müller, 2003] Müller, G. und Möser, M.: Technische Akustik, 3. Aufl. 2003, Springer [Parkin, 1965] Parkin, P. H. und Morgan, K.: „Assisted Resonance in the Royal Festival Hall, London“, in: Journal Sound & Vibr. 2 (1965) Reichardt, W.: „Definition und Messgrundlagen eines ‚wirksamen Hallabstandes‘ als [Reichardt, 1974] Maß für den Raumeindruck bei Musikdarbietungen“, in: Zeitschr. f. elektr. Informations- und Energietechnik, 1974, S. 225 ff. [Remmers, 2006] Remmers, H. Kappelmann, M. und Blau, M.: „Messung und Bewertung der Diffusität des Schallfeldes in einem Hallraum“, in: 32. Deutsche Jahrestagung für Akustik (DAGA) Braunschweig 2006 [Reuter, 2014] Reuter, Chr., Auhagen, W., Herausgeber: Musikalische Akustik, 2014, Laaber

66 

 1 Grundlagen der Akustik

[Rümer, 1990] [Schneider, 1992] [Sotiropoulou, 1995] [Spikofski, 1989] [Steinke, 1987] [Steinke, 2012] [Thienhaus, 1962] [Völker, 1992] [Völker, 1994] [Vorländer, 1994] [Weinzierl, 2002] [Weinzierl, 2014] [Wollherr, 1983]

Rümer, C.: „Brauchen wir eine wandelbare Akustik. Konzertsäle und Rundfunkstudios mit veränderbaren Nachhalleigenschaften“, in: Runfunktechn. Mitt. 1990, S. 101 ff. Schneider, R. und Spikofski, G.: „Untersuchungen zur Wahrnehmbarkeit früher Reflexionen und des Nachhalls in Abhörräumen“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 631 ff., 1993, Saur Sotiropoulou, A. G., Hawkes, R. J. und Fleming, D. B.: „Concert Hall Acoustic Evaluations by Ordinary Concert Goers“, in: Acustica 1995, S. 1 ff. Spikofski, G. und Holzkämper, S.: „Wahrnehmbarkeit von Reflexionen in Regieräumen – neue Ergebnisse“, in: Bericht 15. Tonmeistertagung Mainz 1988, S. 463 ff., 1989, Saur Steinke, G., Fels, P., Ahnert, W. und Hoeg, W.: „Das Delta-Stereofonie-System“, in: db-Magazin f. Studiotechnik 1987, H. 1/2 Steinke, G. und Herzog, G.: Der Raum ist das Kleid der Musik, Musik-Aufnahmesäle und Hörspielstudios im Funkhaus Berlin Nalepastrasse sowie weitere Aufführungsund Hörräume. Raumakustische Eigenschaften – Aufnahmetechnologische Bedingungen, Adlershof 2012 Thienhaus, E.: Artikel „Akustik“, in: Die Musik in Geschichte und Gegenwart (MGG), Bd. 11, Sp. 31 ff., 1. Aufl. 1962, Bärenreiter Völker, E.-J.: „Akustik und Abhörqualität in Regieräumen – das leidige Thema“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 612 ff., 1993, Saur Völker, E.-J.: „Regieräume für Musikwiedergabe“, in: Rundfunktechn. Mitt. 1982, S. 112 ff. Vorländer, L. und Bietze, H.: „Comparison of Methods for Measuring Reverberation Time“, in: Acustica 1994, S. 205 ff. Weinzierl, S.: Beethovens Konzerträume. Raumakustik und symphonische Aufführungspraxis an der Schwelle zum modernen Konzertwesen, 2002, Bochinsky Akustische Grundlagen der Musik, 2014, Laaber Wollherr, H.: „Gestaltung des Abhörbereiches in einem Tonübertragungswagen“, in: Rundfunktechn. Mitt. 1983, S. 62 ff.

2 Schallquellen Michael Dickreiter Schallquellen, dazu gehören die  menschliche Stimme und Musikinstrumente,  sind Energiewandler, die eine zugeführte  mechanische oder elektrische Energie in Schallenergie umwandeln. Bei den akustischen Musikinstrumenten und bei der  menschlichen Stimme wird mechanische Energie vom Menschen aufgebracht, bei elektronischen Musikinstrumenten, aber auch bei der Kirchenorgel über deren Blasbalg wird die Schallenergie aus elektrischer Energie gewonnen. Weiterhin kann Schall durch Naturkräfte entstehen, z.  B. durch Wind und Wasser, oder in der technischen Umwelt, von Maschinen, diese Schallquellen werden hier nicht besprochen. Ein Aspekt ist hierbei die Klangstruktur, hier geht es hauptsächlich um Schwingungen und deren Eigenschaften, ein zweiter Aspekt betrifft die Art und Weise der Schallabstrahlung und damit die von den Schallquellen ausgehenden Schallwellen oder in ihrer Gesamtheit die diese umgebenden Schallfelder. [Meyer, 2015], [Roederer, 1999], [Weinzierl, 2014]

2.1 Menschliche Stimme 2.1.1 Akustische Eigenschaften Die  menschliche Stimme ist ein  sehr vielseitiger Schallerzeuger [Seidner, 2004]. Sie kann Klänge und Geräusche verschiedenster akustischer Zusammensetzung, anhaltend oder rasch wechselnd, erzeugen. Abb. 2/1 zeigt schematisch das Stimmorgan mit den angeschlossenen Resonanzräumen  sowie ein vereinfachendes  mechanisches Modell der Stimmlippen oder Stimmbänder und ihrer Schwingungen. Der Luftstrom, der beim Ausatmen aus der Lunge kommt, die sog. Exspirationsluft, erregt bei stimmhaften Lauten erzwungene Schwingungen der Stimmlippen im Kehlkopf;  sie werden in den angeschlossenen Resonatoren, dem  sog. Ansatzrohr, bestehend aus Mund, Nase, Nasennebenhöhlen und Rachen, modifiziert. Bei stimmlosen Lauten wie z. B. H, P, T, K werden die Hohlräume des Ansatzrohrs nur durch die Luftströmung angeblasen, oder es entstehen Strömungsgeräusche beim Durchströmen von Einengungen des Luftstroms an den Zähnen, der Zunge oder im Rachen; die Stimmlippen schwingen bei geöffnetem Zustand dabei nicht. Für die stimmlosen Zischlaute F, S, SCH und CH sind Strömungsgeräusche charakteristisch, die insbesondere beim S, SCH und F bis in hohe Frequenzbereiche hineinreichen. Beim stimmhaften S und SCH treten zu den Geräuschkomponenten der stimmlosen Form periodische Schwingungen der Stimmlippen hinzu. Die stimmlosen Explosivlaute P, B, T, D, K und G entstehen durch plötzliches Öffnen des durch die Lippen (P, B) oder die Zunge (T, D, K, G) verschlossenen Luftwegs. Dabei entlädt sich der angestaute Überdruck explosionsartig. Bei den stimmhaften Halbvokalen M, N, R und L tritt neben die Klangerzeugung durch die Stimmlippen die Klangerzeugung durch das Anblasen von Hohlräumen. Das R ist durch eine ausgeprägte Amplitudenmodulation gekennzeichnet. Tab. 2/1 fasst die akustischen Eigenschaften der Sprachlaute oder Phoneme als die kleinsten akustischen Bestandteile der Sprache zusammen. https://doi.org/10.1515/9783110759921-002

68 

 2 Schallquellen

Vokale und Umlaute sind im Gegensatz zu den anderen Sprachlauten Klänge. Bei ihnen erregen die teiltonreichen Stimmlippenschwingungen (Abb. 2/1) in Mund, Nase und Rachen Resonanzen, deren Frequenzlagen insbesondere von der Mund- und Zungenstellung abhängen. Jeder Vokal wird so charakterisiert durch sog. Formanten; das sind Frequenzbereiche, innerhalb derer unabhängig vom Stimmlippengrundton alle Teiltöne in einem bestimmten Frequenzband durch Resonanz verstärkt werden. Die wichtigsten Formantbereiche der Vokale gibt Abb. 2/2 an.

Abb. 2/1. Stimmorgan, vereinfachendes mechanisches Modell der Stimmlippen, Schwingungen der Stimmlippen.

Emotionen, wie Freude, Angst, Wut, prägen sich in der Klangfarbe der Stimme durch unterschiedliche Hervorhebungen der Formanten im Frequenzbereich bis 3,7 kHz aus. Durch Filterung können Emotionen zurückgenommen, aber nicht glaubhaft verstärkt werden [Bisping, 1990], [Legenstein, 2014]. Die Grundfrequenz der Stimmlippenschwingung, die Sprechmelodie, ändert  sich bei Sprache dauernd;  sie liegt bei Männern zwischen etwa 120 und 160  Hz, bei Frauen und Kindern zwischen etwa 220 und 330 Hz. Tab. 2/1. Akustische Eigenschaften von Sprachlauten. Lautart

akustische Eigenschaften

Vokale: A, E, I, O, U, Umlaute: Ä, Ö, Ü

harmonische Klänge, Grundfrequenz ist die Sprechtonhöhe mit 120 bis 160 Hz bei Männern bzw. 220 bis 330 Hz bei Frauen, Charakterisierung durch Formantgebiete (Abb. 2/2), Komponenten bis etwa 5 kHz harmonische Klänge mit der Grundfrequenz der Sprechtonhöhe, zusätzlich kontinuierliche Spektralanteile durch Strömungsgeräusche an Einengungen des Ansatzrohrs nur geräuschhafte, kontinuierliche Spektren nur geräuschhafte, kontinuierliche Spektren mit Komponenten bis über die obere Hörgrenze, besonders beim S kurzzeitige, impulsartige Vorgänge mit kontinuierlichen Spektren

stimmhafte Konsonanten: L, M, N, R, W u. a. stimmlose Konsonanten: H Zischlaute: F, S, SCH, Z Explosivlaute: P, B, T, D, K, G

2.1 Menschliche Stimme 

 69

Abb. 2/2. Formantbereiche der Vokale der deutschen Sprache.

2.1.1.1 Sprachspektrum Bei der großen Vielfalt der Sprachlaute mit unterschiedlichsten Spektren ist es sinnvoll, sich auf statistisch ermittelte Durchschnittsspektren der Sprache zu beziehen, nicht auf Einzellaute. Komponenten unter 80 Hz bei männlicher Sprache bzw. 100 Hz bei weiblicher Sprache fallen bei üblichem Abstand des Zuhörers von einem Sprecher unter die Hörschwelle, können also bei der Aufnahme weggefiltert werden, ohne dass klangliche Verfälschungen der Sprache hörbar werden. Bei tiefen Frequenzen ist der absolute Schalldruckpegel annähernd unabhängig von der Sprechstärke, nur der Abstand des Sprechers hat hierauf einen bestimmenden Einfluss. Nimmt man das Spektrum laut gesprochener Sprache als Bezug, sind die tieffrequenten Anteile von im Original leise gesprochener, aber z. B. um 20 dB verstärkter, unnatürlich lauter Sprache um denselben Betrag relativ  stärker als bei tatsächlich laut gesprochener Sprache. Normalerweise bei  männlicher Sprache unhörbare Komponenten unter 80  Hz erscheinen dabei im Klangbild. Das ist die Ursache der unnatürlichen Klangfärbung, des Dröhnens leise aufgenommener, aber laut wiedergegebener Sprache. Betonte Tiefen unterstützen aber auch den Eindruck besonderer Nähe. Dabei ist männliche Sprache empfindlicher für diesen Effekt als weibliche; für Durchsagen im öffentlichen Bereich oder für Ansagen in lärmerfüllter Umgebung, z. B. Verkehrsdurchsagen im Radio, sind demnach weibliche Stimmen besser geeignet. Die Sprachspektren  sind von der Sprechlautstärke

70 

 2 Schallquellen

abhängig, je lauter gesprochen wird, umso obertonreicher ist das Sprachspektrum (Abb. 2/3 und 2/4). Die statistischen Sprachspektren zeigen charakteristische Maxima: das erste Maximum ist geschlechtsspezifisch und kennzeichnet die Sprechtonhöhe; bei männlichen Sprechern liegt sie um 150 Hz, bei Sprecherinnen um 250 Hz. Weitere Maxima liegen bei Sprecherinnen um 500 Hz und um 1.500 Hz, bei laut sprechenden Männern ebenfalls um 1.500 Hz. Die wesentlichen Komponenten der Sprache beschränken sich auf das Frequenzband von 100 Hz bei Männern bzw. 200 Hz bei Frauen bis 10 kHz; darüber gibt es nur noch Spektralkomponenten von Zischlauten S, SCH, Z und F.

Abb. 2/3. Durchschnittliche Spektren deutscher Sprache von männlichen Sprechern, für leise, mittellaut und für laut gesprochene Sprache, Schalldruckpegel je Terzbereich.

Abb. 2/4. Durchschnittliche Spektren deutscher Sprache von Sprecherinnen, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.

2.1 Menschliche Stimme 

 71

2.1.1.2 Sprachschallpegel Der Sprachschallpegel ist der durch Sprache hervorgerufene Schallpegel in einem gegebenen Abstand vom Sprecher. Da sich Sprache in ihrem Pegel und Spektrum dauernd ändert, ist die Angabe eines gemittelten Spitzenpegels sinnvoll; die Angabe in bewerteten Pegeln (siehe Kap. 1.2.1.3) erleichtert den Vergleich mit Störgeräuschen. Demnach beträgt der Schallpegel in 60 cm Entfernung vor dem Mund eines Sprechers etwa 60 dBA, er erhöht sich bei lauterem Sprechen um 6 dB und erreicht bei unnatürlich lautem Sprechen Werte von etwa 76 dBA bei Männern bzw. 68 dBA bei Frauen. Die Werte liegen bei 30 cm Abstand rund 4 dB höher, bei 120 cm 4 dB niedriger. Die extremen Formen des Sprechens, Murmeln und sehr lautes Sprechen, erweitern die Dynamik nach unten bzw. oben nochmals um etwa 5 dB. Die genannten Werte gelten für die ausgebildete „Mikrofonstimme“, die durch einen gleichmäßigeren Lautstärkeverlauf gekennzeichnet ist als die „Bühnenstimme“. Die Pegelstruktur von Sprache kann als Abfolge von Impulsen gekennzeichnet werden, gebildet durch die einzelnen Phoneme. Das führt zu einem Durchschnittspegel, der um rund 12 dB unterhalb des Spitzenpegels liegt. Dadurch wirkt Sprache leiser als z. B. Popmusik mit derselben Aussteuerung, aber lauter als klassische Musik. Dies ist wichtig für ein Gleichgewicht der Lautstärken von Musik und Sprache z. B. im Sendungsablauf (siehe Kap. 19.4). 2.1.1.3 Singstimme In akustischer Hinsicht  sind die Unterschiede zwischen Sprech- und Singstimme nicht  so erheblich, wie dies vom Höreindruck her erscheint. Da nur Laute mit harmonischen Spektren eine Tonhöhe besitzen, werden diese im musikalischen Ablauf der Stimmführung besonders hervorgehoben und gedehnt. Während sich die Sprechtonhöhe gleitend und häufig ändert, ist die Singtonhöhe an bestimmte Tonstufen, an die Tonstufen der Tonleiter gebunden. Die Formantbereiche werden besonders bei der weiblichen Stimme der jeweiligen Grundtonhöhe in einem gewissen Rahmen angepasst; im Allgemeinen entsteht daraus eine Verdunklung des Vokalcharakters. Von erheblicher Bedeutung für die Klangfarbe der  männlichen Singstimme ist der  sog. Singformant zwischen 2,8 und 3  kHz verbunden  mit einer generellen Verstärkung höherer Klangkomponenten, der der Stimme ein Durchsetzungsvermögen auch gegen ein lautes Orchester gibt. Dieser Formant tritt bei der Sprache nicht auf. Kennzeichnend für die ausgebildete Stimme ist weiterhin das Vibrato verbunden mit einem Tremolo der Stimme, also Tonhöhen- und Lautstärkeschwankungen. Besondere Betonung und Dehnung der Vokale, Umstimmung der Formanten, Singformant, Vibrato und größere Lautstärke und Dynamik kennzeichnen rein akustisch also im Wesentlichen die Stimme  mit besonderer Gesangsausbildung. Dynamik und Höchstpegel der Singstimme hängen selbstverständlich von dem Musikstil und dem jeweiligen Sänger ab. Hohe Frauenstimmen, also Soprane, und hohe Männerstimmen, also Tenöre, erreichen mit 50 bis 60 dB die größten Dynamikwerte, die Spitzenpegel können bei üblichem Mikrofonabstand über 100 dB liegen. Der Tonhöhenbereich einer Singstimme ist ihre Stimmlage. Sopran, Alt, Tenor und Bass sind die Hauptstimmlagen (Abb. 2/5). Die Eignung einer Stimme bzw. eines Gesangssolisten für bestimmte Rollentypen kennzeichnet das Stimmfach, z. B. dramatischer Sopran, Koloratursopran, lyrischer Alt, Heldentenor, jugendlicher Liebhaber, Bassbuffo.

72 

 2 Schallquellen

Abb. 2/5. Ton- und Frequenzlagen der Singstimmen.

2.1.2 Gerichtete Schallabstrahlung Wie die Musikinstrumente hat auch die menschliche Stimme keine allseitig gleiche Schallabstrahlung,  sondern eine frequenzabhängige Schallbündelung, besonders im Frequenzbereich über 2 kHz. Wandert man mit einem Mikrofon um einen Sprecher, so ändert sich also die Klangfarbe der Stimme. Abb. 2/6 zeigt, wie sich die Spektren bei Aufnahme von der Seite und von hinten vom Spektrum bei Aufnahme von vorne unterscheiden.

Abb. 2/6. Unterschiede der Spektren von Gesang bei verschiedenen Aufnahmerichtungen.

Der gewohnte und erwartete Sing- und Sprachklang ergibt sich in der Hauptabstrahlrichtung des Munds. Oft werden aber die von Moderatoren, Rednern oder Reportern benutzten Mikrofone an einer um den Hals gelegten Schnur getragen oder an der Kleidung befestigt vor der Brust getragen (siehe Kap.  4.2.4.4). Solche Mikrofone werden Lavalier-Mikrofone genannt. Dadurch ergeben sich aber am Ort des Mikrofons Klangverfälschungen, hervorgerufen durch die Schallabstrahlung der Brust und die Abstrahleigenschaften des Munds. Neben verstärk-

2.1 Menschliche Stimme 

 73

ter Tiefen- und verringerter Höhenabstrahlung verursacht eine Anhebung von etwa 6  dB in einem  schmalen Frequenzband bei 700  Hz bei Sprechern bzw. etwas darüber bei Sprecherinnen eine Klangfärbung (Abb.  2/7). Wird der Frequenzgang des Mikrofons korrigiert (Abb.  4/39), was bei einigen Lavalier-Mikrofonen geschieht, ist ein Unterschied zwischen Aufnahmen vor dem Mund und der Brust kaum hörbar.

Abb. 2/7. Frequenzgang von Sprache vor der Brust des Sprechers.

2.1.3 Sprachverständlichkeit Unter Sprachverständlichkeit versteht man nicht ein akustisches Merkmal der Sprache, auch wenn sie undeutlich artikuliert wird; es handelt sich vielmehr um Merkmale, die die Sprache bei der Aufnahme, Übertragung oder Wiedergabe hinzugefügt werden, beginnend etwa bei dem Raumhall, bei Nebengeräuschen, Frequenzgangveränderungen bis hin zur Wiedergabe. Die Sprachverständlichkeit ist ein grundlegendes Kriterium für die Beurteilung der Hörsamkeit von Räumen für Sprachdarbietungen (siehe Kap. 1.3.2) und für die Übertragungsqualität in der Tontechnik. Die Silben- oder Phonemverständlichkeit wird ermittelt, weil auch Einzelsilben, z. B. Zahlen, verständlich sein sollen. Sie wird gemessen in % der richtig verstandenen Silben bezogen auf die Gesamtzahl einer Reihe von Prüfsilben. Dabei werden Testsilben ohne Bedeutung verwendet wie z. B. „pus“ oder „fog“. Die Wortverständlichkeit liegt grundsätzlich über der Silbenverständlichkeit, die Satzverständlichkeit über der Wortverständlichkeit. Eine Silbenverständlichkeit von etwa 70 – 90 %, entsprechend einer Satzverständlichkeit von rund 95 %, wird als gute bezeichnet; eine Silbenverständlichkeit von 90 – 95 % ergibt eine Satzverständlichkeit1 von 100 %. Abb. 2/8 zeigt die Silben-, Wort- und Satzverständlichkeit als Beispiel in Abhängigkeit von der oberen Grenzfrequenz der Übertragung und die Wortverständlichkeit in Abhängigkeit vom Störabstand der Übertragung. Auf die Verständlichkeit haben weitere Gegebenheiten Einfluss, in Räumen besonders die Nachhallzeit und ihr Frequenzgang. Der Sprachübertragungsindex erfasst in Prozentangaben die Verständlichkeit, die insbesondere zur Warnung von Personen und die Räumung eines Gebäudes wichtig ist [DIN EN IEC 60268-16].

74 

 2 Schallquellen

Abb. 2/8. Silben-, Wort- und Satzverständlichkeit, abhängig von der oberen Grenzfrequenz des Übertragungssystems.

Zur Verbesserung der Sprachverständlichkeit gibt es  mittlerweile eine große Anzahl von Tools, die automatisiert eine Mischung so umformen, dass das gesprochene Wort hervorgehoben und damit seine Verständlichkeit verbessert wird. Dafür werden verschiedene Technologiebausteine einzeln oder in Kombination genutzt, die Tools gestatten meist mehrere Parameter nach Gehör einzustellen. Wesentlicher Bestandteil der Verfahren ist die Trennung von Sprache und Hintergrund, die leicht möglich ist, wenn die Sprache in der Mitte, am besten in einem eigenen Dialogkanal, aufgenommen wurde. Eine Anhebung des Sprachpegels um etwa 8 dB und eine Anhebung des Frequenzgangs im Sprachkanal ab etwa 4 kHz können die Verständlichkeit erheblich verbessern. Weitere Erläuterungen finden sich in Kap. 17.7.1.3 und 17.7.2.

2.2 Musikinstrumente 2.2.1 Akustische Eigenschaften Für akustische Untersuchungen der Klangeigenschaften von Musikinstrumenten ist es wegen der großen Zahl einzelner Messdaten notwendig, anschauliche Formen der grafischen Darstellung zu finden. Für die Erfassung der Klangeigenschaften müssen zwei Größen angegeben werden: die Frequenzen der Klangkomponenten und ihre Stärke; notwendig ist in bestimmten Fällen auch die Darstellung des zeitlichen Verlaufs dieser Größen. Damit ergibt sich für die vollständige Darstellung eines Schallereignisses eine dreidimensionale bzw. pseudodreidimensionale grafische Darstellung. Entsprechend dem Ziel einer akustischen Veranschaulichung kann aber auch eine der drei Darstellungsebenen herausgegriffen werden (Abb. 2/9). Ein Beispiel einer pseudodreidimensionalen Darstellung zeigt Abb. 2/10.

2.2 Musikinstrumente 

 75

Die Schallgrößen können entweder linear als Amplitude bzw. Frequenz angegeben werden oder logarithmiert und auf einen Bezugswert bezogen als Pegel oder bei Frequenzen als reines Zahlenverhältnis, d. h., als Intervall; als Intervalle kommen vor allem Terzen mit dem Frequenzverhältnis 5 : 4, Oktaven mit dem Frequenzverhältnis 2 : 1 und Dekaden mit dem Frequenzverhältnis 10 : 1 in Betracht. Die Wahl der jeweiligen Darstellungsweise hängt davon ab, was untersucht oder dargestellt werden soll.

Abb. 2/9. Möglichkeiten der Darstellung eines Klangs bzw. musikalischen Tons.

76 

 2 Schallquellen

Abb. 2/10. Beispiel für eine pseudodreidimensionale Klangdarstellung, Ausschnitt aus dem Wort MontrEAL.

Die nachfolgend im Einzelnen erläuterten akustischen Eigenschaften der Musikinstrumente werden im Detail in Tab.  2/4 zusammengefasst. [Meyer, 2015], [Roederer, 1999], [Fletcher, 1998], [Dickreiter, 2007], [Howard, 2009], [Terhardt, 1998] Jeder Einzelton eines Instruments kann in zwei oder drei zeitlich aufeinander folgende Abschnitte geteilt werden (Abb. 2/11): –– Klangeinsatz, Einschwingen: Zeitabschnitt, in dem  sich der Klang aus der Ruhe bis zu seinem eingeschwungenen Zustand entwickelt, –– Quasistationärer Schwingungszustand: zentraler Zeitabschnitt des Tons, in dem der Klang als weitgehend unveränderlich betrachtet werden kann; auch die stets vorhandenen, für die Klangcharakteristik sehr wichtigen kleinen Schwankungen können noch im Rahmen des quasistationären Zustandes gesehen werden, –– Ausklingen: Zeitabschnitt, in dem der Klang nach dem Ende  seiner Anregung bis zur völligen Ruhe ausklingt, vergleichbar dem Nachhall eines Raums.

Abb.  2/11. Zeitliche Abschnitte eines musikalischen Tons.

2.2 Musikinstrumente 

 77

2.2.1.1 Klangeinsatz Der Klangeinsatz ist ein jeweils einmalig ablaufender Vorgang kurzer Dauer. Kurze Klangeinsätze dauern bis etwa 10  ms, lange Klangeinsätze, wie etwa beim Kontrabass, zwischen 100 und 500 ms; typisch ist eine Dauer von 15 bis 50 ms. Kurzen Klangeinsätzen kann kein Spektrum, das aus einzelnen Linien zusammengesetzt ist, zugeordnet werden,  sondern nur eine sog. Spektralfunktion, die Einhüllende einer Unzahl dicht nebeneinander liegender Spektrallinien. Ein  solches kontinuierliches Spektrum empfindet  man als kurzzeitiges Geräusch, als Knack etwa. Das trifft z. B. auch bei einem plötzlich eingeschalteten Tonsignal zu, bei dem Geräuschanteile entstehen, die als Einschaltknack hörbar werden. Erfolgt der Einschaltvorgang nicht plötzlich,  sondern kontinuierlich während eines längeren Zeitabschnitts, so verringern sich auch die Geräuschanteile bzw. der Einschaltknack. Dementsprechend  sinkt der Anteil geräuschhafter Komponenten  mit der Dauer des Klangeinsatzes. Je größer die Bandbreite eines Resonanzsystems oder eines Filters ist, umso kürzer ist die Einschwingzeit. Man betrachtet das Einschwingen als beendet, wenn die Amplitude den Bereich von ± 10 % ihres Werts im eingeschwungenen Zustand nicht mehr verlässt. Musikinstrumente  sind  sehr komplexe Schwingungssysteme, bei denen Resonanzen und ihre Wechselwirkungen eine besondere Rolle  spielen. Gerade aber Resonanzen verhindern einen raschen, knackenden Klangeinsatz, weshalb die Klangeinsätze der  meisten Musikinstrumente weicher als geschaltete Sinustöne klingen. Der spezifische Klangeinsatz prägt einen Instrumentenklang ebenso wie der Teiltonaufbau, die Formanten, Geräuschanteile und Pegelschwankungen. Es herrscht eine sehr große Vielfalt der Natur des Klangeinsatzes: Harte Klangeinsätze von wenigen Millisekunden Dauer z. B. bei Schlaginstrumenten und Zungenpfeifen der Orgel, bilden das eine Extrem, weiche Klangeinsätze von mehr als 0,5 s Dauer z. B. bei den tiefen Lippenpfeifen der Orgel und beim Kontrabass, das andere. Lange, deutlich hörbare Klangeinsätze verdeutlichen einen Melodieverlauf, besonders wenn andere Stimmen gleichzeitig gespielt werden. Wichtig für den Klangcharakter ist auch, in welcher Reihenfolge und mit welcher Stärke die einzelnen Teiltöne einsetzen. Blechblasinstrumente können sog. Vorläuferimpulse haben, die dem Klang, je nach ihrer Länge, Prägnanz verleihen oder als sog. Kiekser störend wirken. 2.2.1.2 Quasistationärer Klangabschnitt Der quasistationäre Klangabschnitt ist bei akustischen Musikinstrumenten praktisch immer, bei elektronischen Musikinstrumenten je nach Art der Klangerzeugung dauernden Veränderungen unterworfen: Durch Überlagerung sich geringfügig in der Frequenz unterscheidender Klangkomponenten oder Töne entstehen Schwebungen, also Pegelschwankungen,  so beim Klavier, bei der Orgel, bei Chören und bei mehrfach besetzten Orchesterstimmen. Das Vibrato der Singstimme, der Streichinstrumente und der meisten Blasinstrumente entsteht durch periodische Frequenzschwankungen, verbunden mit Pegelschwankungen. Der Begriff Tremolo wird für reine Pegelschwankungen, entstanden durch dichte Aneinanderreihung kurzer Klänge, verwendet. Zu diesen leicht wahrnehmbaren Schwankungen können geringere oder stärkere unregelmäßige, mikrozeitliche Schwankungen, also Rauheiten (siehe Kap. 3.3.5) hinzukommen, die  meist nicht bewusst als  solche wahrgenommen werden. Sie entstehen bei der Überla-

78 

 2 Schallquellen

gerung der harmonischen Komponenten  mit Geräuschkomponenten und charakterisieren das sog. Gattungstimbre: es lässt den Hörer erkennen, ob es sich bei einem Instrument um ein Streich-, Holzblas- oder Blechblasinstrument handelt, bevor er noch erkannt hat, ob es sich z. B. um eine Violine oder um ein Violoncello handelt. Tab. 2/2 fasst die wesentlichen Eigenschaften des Spektrums des quasistationären Klang­ abschnitts zusammen. Das Amplitudenspektrum gibt keine Auskunft über die Phasenlagen der einzelnen Komponenten. Ihr Einfluss kann hörbar sein, wenn auch nicht so bestimmend wie Pegel und Frequenzen der Klangkomponenten. Die Hörbarkeit hängt stark von der jeweiligen Struktur des Spektrums ab; bei Kopfhörerwiedergabe sind Phasenverschiebungen noch am leichtesten zu erkennen. Um 1 kHz nimmt das Gehör Phasenänderungen am deutlichsten wahr. Sie bewirken eine Klangfarbenänderung oder eine Änderung der Klangrauheit. Eine Phasenverschiebung von 10° bis 30° ist im Allgemeinen noch nicht hörbar. Diese Forderung wird von den Geräten der Tonstudiotechnik erfüllt. Tab. 2/2. Eigenschaften von Klangspektren und ihre Bedeutung für die Wahrnehmung und die Tonübertragungstechnik. Eigenschaft des Spektrums

Bedeutung für die Wahrnehmung

Bedeutung für die Tonübertragungstechnik

Frequenzumfang und Teiltonstärke gering

Klang weich, nichtlineare Verzerrungen leicht hörbar

empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen

Frequenzumfang und Teiltonstärke groß

Klang scharf und laut

empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen im obersten Übertragungsbereich

harmonisches Linienspektrum

Tonhöhencharakter deutlich, Klarheit des Klangs

unharmonisches Linienspektrum

Tonhöhencharakter, undeutlich, Klang „unsauber“

kontinuierliches Spektrum, Geräuschspektrum

Klang geräuschhaft

Formanten, resonanzartiges Hervortreten bestimmter Frequenzbereiche

Vokalcharakter, Klang ähnlich z. B. A, O, Ä, kennzeichnend vor allem für Doppelrohrblatt- und Blechblasinstrumente

Teiltonaufbau Die periodischen Schwingungsvorgänge des eingeschwungenen Klangs setzen sich aus dem Grundton und Obertönen zusammen, deren Frequenzen jeweils ein ganzzahliges Vielfaches der Frequenz des Grundtons sind. Spricht man von Teiltönen, Partialtönen oder Harmonischen, so wird die Grundfrequenz mitgezählt, spricht man von Obertönen, so wird die

2.2 Musikinstrumente 

 79

Grundfrequenz nicht mitgezählt. Naturtöne werden bei Blasinstrumenten die durch das sog. Überblasen erklingenden Töne genannt; sie entsprechen etwa, aber nicht genau, den Teiltönen. Abb. 2/12 zeigt die ersten 16 Teiltöne der Teiltonreihe. Der 7., 11. und 14. Teilton liegt tiefer, der 13. Teilton höher als der entsprechende Ton in der heute üblichen  sog. temperierten Stimmung der Instrumente. Die übrigen Töne sind in der sog. reinen Stimmung, sie unterscheiden  sich nur geringfügig von den entsprechenden Tönen unserer temperierten Stimmung. Lediglich der 2. Teilton, die Oktave, passt exakt in das heute benutzte System der musikalischen Stimmung, die sog. temperierte Stimmung. Wegen der einfachen, ganzzahligen Frequenzverhältnisse der Teiltöne zueinander verschmelzen diese vollkommen zu einem einheitlichen Klangeindruck. Der Grundton oder 1. Teilton ist keineswegs immer am  stärksten,  sehr oft, gerade bei lauten Klängen, liegt die größte Intensität bei höheren Teiltönen. Fällt der Grundton in den Bereich sehr tiefer Frequenzen, so ist seine Intensität meist recht gering. In diesem Fall bildet das Gehör,  sogar wenn der Grundton völlig fehlt, aus dem Obertonspektrum den Grundton subjektiv nach, er wird dann Residualton genannt. Liegt der 1. Teilton im Bereich hoher Frequenzen, so überwiegt er meist in seiner Intensität über die anderen Teiltöne. Sind die ungeradzahligen Teiltöne stärker als die geradzahligen, so wird der Klang gedeckt bis hohl. Beispiele hierfür sind die Klänge der sog. gedackten Orgelpfeifen und der tiefen Tonlage der Klarinette. Das Hervortreten der geradzahligen Teiltöne, insbesondere des 2., 4., und 8. Teiltons, fördert ein helles, offenes Klangbild.

Abb. 2/12. Teiltonaufbau eines Klangs entsprechend dem Ton C. Die Teiltöne mit Pfeil nach unten klingen tiefer als notiert, mit Pfeil nach oben höher als notiert.

Über den jeweiligen Frequenzumfang des Klangs eines Musikinstruments kann nur eine allgemeine Aussage gemacht werden. Er hängt nicht nur von der Spielweise und dem jeweiligen Instrument ab, sondern insbesondere von der gespielten Dynamikstufe, aber auch von den raumakustischen Verhältnissen. Angaben über Frequenzumfänge haben also stets statistischen Charakter. Unterhalb des 1. Teiltons gibt es keine stationären Schwingungen mehr; nur die Geräuschanteile des Klangs reichen unter die Grundtonfrequenz. Formanten Viele Musikinstrumente haben über ihren ganzen Tonbereich hinweg einen bestimmten, für  sie typischen Klangcharakter. Dieser wird einerseits durch die relative Stärke der einzelnen Teiltöne bestimmt, andererseits durch sog. Formanten. Wie es bei den Vokalen von Sprache und Gesang bestimmte feste Frequenzbereiche gibt, in denen die Teiltöne unabhängig von der Lage des Grundtons verstärkt werden, so wird auch die Klangfarbe von Musikin-

80 

 2 Schallquellen

strumenten durch einen oder mehrere solcher Formantbereiche charakterisiert. Während bei Streichinstrumenten diese Formantbereiche durch Resonanzen des Resonanzkörpers und des darin eingeschlossenen Luftvolumens aus dem Spektrum der schwingenden Saite herausgehoben werden, werden die Formanten bei den Blasinstrumenten bei der Tonbildung im Mundstück erzeugt. Durch die besondere Schwingungsform des Anblasvorgangs entstehen die Formanten bereits bei der Tonerzeugung, nicht erst durch Resonanzen. Hat ein Instrumentenklang zwei Formanten, so bilden deren Maxima ein charakteristisches Intervall, ein einfaches Zahlenverhältnis. Beim Wechsel von einem leisen zu einem lauten Klang springt das Maximum von einem tieferen in einen höheren Formantbereich. Geräuschkomponenten Weiterhin  sind Geräuschanteile im  stationären Klang eine wesentliche Komponente des Klangcharakters eines Musikinstruments. Sie entstehen bei Streichinstrumenten durch Unregelmäßigkeiten des Bogens beim Streichen der Saite, bei Blasinstrumenten als Strömungsgeräusch beim Anblasen. Bei den Doppelrohrblattinstrumenten Oboe, Englisch Horn und Fagott  sinkt  mit wachsender Gebrauchsdauer des Rohrblatts der Pegel des Geräuschspek­ trums. Die Nebengeräusche tragen nicht nur zur Klangcharakteristik bei, sondern erhöhen auch die Lebendigkeit des Klangs. Die Flöte enthält als charakteristische Klangkomponente einen besonders deutlich wahrnehmbaren Geräuschhintergrund. 2.2.1.3 Ausklingvorgang Nach Beendigung der Erregung eines Klangs ist in den Resonanzsystemen des Musikin­ struments noch Energie gespeichert, die im Ausklingvorgang abgegeben wird. Je weniger ein Resonanzsystem bedämpft ist, desto länger klingt es nach. Meist  sind höhere Teiltöne stärker bedämpft, so dass sich beim Ausklingen die Klangfarbe dunkler und weicher färbt. Die längste Nachklingzeit haben Instrumente mit gezupften und geschlagenen Saiten wie Cembalo, Gitarre, Harfe oder Klavier. Da bei diesen Instrumenten eine kontinuierliche Klanganregung fehlt, besteht der ganze Klang nur aus dem Einschwing- und Ausklingvorgang. Die kürzeste Ausklingzeit haben Blasinstrumente, da das schwingende Luftvolumen nur einen geringen Energieinhalt besitzt. Der Nach- oder Abklingvorgang kann durch verschiedene Kenngrößen erfasst werden [DIN 1311]. In der musikalischen Akustik ist eine Definition analog zur Nachhallzeit oder Nachhalldauer (siehe Kap. 1.3.4) als Nachklingzeit bzw. Nachklingdauer besonders anschaulich. Bei Tonaufnahmen kann es bei der langen Nachklingdauer, z. B. des Klaviers mit 20 bis 40 s, des Cembalos und der Zupfinstrumente dadurch zu Problemen kommen, dass einzelne Töne z. B. am Schluss eines Satzes  sehr lange nachklingen, wenn  sie vom Musiker nicht bewusst abgedämpft werden; oft müssen sie dann durch Blenden beendet werden. Ein anderes Phänomen lange nachklingender Instrumente ist die Tatsache, dass sie sozusagen ihren eigenen Nachhall mitbringen, der den Raumhall überdecken kann. So kann es z. B. bei einer Gesangsaufnahme mit Klavier geschehen, dass der Sänger mit Explosivlauten den Raumhall deutlicher anstößt als das Klavier, er also scheinbar in einem größeren Raum ist als das Klavier. Räume mit viel Hall sind für solche Aufnahmen also weniger geeignet.

2.2 Musikinstrumente 

 81

2.2.1.4 Musikalische Dynamik Die  musikalische Dynamik beschreibt die Stärkegrade,  mit denen ein Klang auf einem Musikinstrument oder  mit der  menschlichen Stimme hervorgebracht wird. Die Stufen der Dynamik tragen traditionell italienische Bezeichnungen (Tab. 2/3), wie auch die Tempo- und Vortragsbezeichnungen. Tab. 2/3. Stufen der musikalischen Dynamik. Abkürzung, italienisch

Dynamikstufe, italienisch

Dynamikstufe, deutsch

ppp pp p mp mf f ff fff

pianissimo possibile pianissimo piano mezzopiano mezzoforte forte fortissimo forte fortissimo

so leise wie möglich sehr leise leise halbleise halblaut laut sehr laut so laut wie möglich

Die einzelnen Dynamikstufen oder -grade sind zwar durch den Pegel des Klangs gegeben, weit wichtiger ist aber ihre jeweils spezifische Klangstruktur. Es ist nämlich nicht möglich, durch einfaches Erhöhen der Abhörlautstärke oder durch Annäherung an die Schallquelle – in beiden Fällen  steigt der Pegel an – einem pp-Klang in einen ff-Klang zu verwandeln. Die verschiedenen Dynamikstufen sind wohl mit verschiedenen Pegelabstufungen verbunden, umgekehrt können aber verschiedene Pegelabstufungen allein nicht unterschiedliche Dynamikstufen erzeugen. Aus diesem Grund kann die Dynamik auch in einem bestimmten Rahmen komprimiert werden, ohne dass der musikalische Ablauf deutlich beeinträchtigt wird. Die Abstufung der Dynamik ist eines der wesentlichen musikalischen Gestaltungsmittel. Sie wird durch unterschiedliche Klangerzeugung erreicht. Die dynamischen Grade unterscheiden sich außer in Dauer und Struktur des Einschwingvorgangs hauptsächlich im  spektralen Aufbau des quasistationären Klangs. Je höher der dynamische Grad ist, umso mehr Teiltöne werden ausgebildet und umso mehr erhöht sich der Pegel der höheren Teiltöne. Abb. 2/13 zeigt dies am Beispiel verschiedener Klarinettenspektren. Daraus wird deutlich, dass die  spektralen Unterschiede der Dynamikstufen bei dem tiefen Ton viel ausgeprägter sind als bei dem hohen Ton. Wegen der geringeren Anzahl von Teiltönen bei hohen Tönen sind hier nicht nur die Spektren der Dynamikstufen relativ ähnlich, überhaupt nähern  sich die verschiedenen Instrumente im hohen Tonbereich in ihren Spektren einander an, d. h., sie klingen ähnlicher. Natürlich  steigt  mit der Stärke eines Klangs auch  sein Pegel an, aber dies geschieht auch, wenn man sich einer Schallquelle nähert, wenn man die raumakustischen Gegebenheiten verändert oder bei der Aufnahme den Pegel anhebt. Dies bewirkt aber keine Klangveränderung im Sinne einer Steigerung des Dynamikgrads. Abb. 2/14 gibt einen ungefähren Überblick über die zu erwartenden Dynamikbereiche bei Ausnutzung der spieltechnischen Möglichkeiten, auch über das Verhältnis der Pegel der verschiedenen Instrumente zueinander [Meyer, 1990]. Besonders starke Pegelunterschiede bzw. eine besonders große Dynamik

82 

 2 Schallquellen

zeigen Klarinette, Horn, Posaune und Pauke. Bei den Tasteninstrumenten haben Klavier und Orgel eine sehr große, das Cembalo oder auch die Blockflöte eine recht geringe Variationsbreite des Pegels.

Abb. 2/13. Spektren der Klarinette in verschiedenen Dynamikstufen, links: tiefer Ton, rechts: hoher Ton.

Streichinstrumente  sind durchschnittlich halb  so laut wie Holzblasinstrumente, d.  h., um etwa 10 dB niedriger im Pegel; Holzblasinstrumente sind ihrerseits 5 bis 10 dB niedriger als Blechblasinstrumente. Die Gesamtdynamik eines Orchesters kann 60 bis 80 dB betragen, in besonderen Fällen 100 dB oder mehr, je nach Besetzung und Stil der Musik sowie je nach ihrer Interpretation. Die Dynamikwerte bei Studioproduktionen sind im Allgemeinen höher als bei Konzerten mit Publikum, weil die Abwesenheit von Saalgeräuschen hier ein besonders ausgeprägtes Pianissimo zulässt. 2.2.1.5 Stimmung der Instrumente Die Stimmung eines Instruments umfasst zwei Festlegungen: –– die Festlegung der absoluten Tonhöhe durch Definition des Kammertons a‘, –– die Festlegung der relativen Tonhöhen der einzelnen Töne zueinander.

2.2 Musikinstrumente 

 83

Abb. 2/14. Dynamikumfang von Musikinstrumenten, Orchester und Stimme.

Die absolute Tonhöhe wird nach einer Stimmgabel oder einem elektronischen Generator auf Grund eines internationalen Übereinkommens für den Kammer- oder Stimmton, genauer Normalstimmton a‘ eingestimmt [ISO 16] und in eine deutsche Norm übernommen [DIN 1317]. Orchester übernehmen den Stimmton traditionell von der Oboe bzw. dem Klavier oder der Orgel. Seit der Londoner Stimmtonkonferenz 1939 hat der Kammerton bei 20 °C  die Frequenz 440  Hz, 1971 wurde diese Empfehlung vom Europarat nochmals bestätigt. Meist wird jedoch höher eingestimmt, z. B. oft auf 442 Hz, aber auch bis 445 Hz oder noch höher. Die Stimmtonhöhe hat in der Vergangenheit verschiedenste Werte angenommen. Sie hing von der Gattung ab: der Opernton in Opernhäusern, der Kammerton in der herrschaftlichen Kammer, der Orgel-, Kirchen-, Chor- oder Cornettton für die Kirche, war aber auch je nach Ort und Zeit unterschiedlich; nach 1800 verschwinden die Unterschiede allmählich. 1788 wurde in Frankreich für a‘ 409 Hz (frühe Pariser Stimmung), 1858 435 Hz (Pariser Stimmung) festgelegt und in den angrenzenden Ländern zunehmend übernommen. Demnach kann es keine einheitlich richtige  sog. historische Stimmung geben, im Allgemeinen versteht  man heute darunter einen Kammerton von 415 Hz; ein Halbton unterhalb des aktuellen Kammertons mit

84 

 2 Schallquellen

440 Hz. Der oft diskutierte Charakter einer Tonart ist bei rein akustischer Betrachtung also kaum oder nicht nachvollziehbar. Für die relative Stimmung der einzelnen Töne untereinander, also der Intervalle zwischen den einzelnen Tönen des Tonsystems, gibt es mehrere Möglichkeiten: –– die heute übliche sog. gleichschwebend temperierte Stimmung, –– die reine Stimmung, –– verschiedene historische Stimmungen, insbesondere Barockstimmungen. Gleichschwebend temperierte Stimmung: Temperiert gestimmt, wie man verkürzt sagt, sind alle modernen Instrumente, bei denen der Spieler keinen oder wenig Einfluss auf die Bildung der Tonhöhe hat, wie z. B. das Klavier. Bei dieser Stimmung sind alle Halbtöne gleich groß und haben das Frequenzverhältnis : 1 oder etwa 106 : 100. Für die Größe eines Halbtons bzw. allgemein von Intervallen wurde 1875 von John Ellis als logarithmische Maßeinheit das Centmaß eingeführt; ein Halbton ist dabei mit 100 Cent definiert, eine Oktave mit ihren 12 Halbtonschritten hat also 1.200  Cent. Das Centmaß ist besonders nützlich beim Vergleich verschiedener historischer Stimmungen. Bei der temperierten Stimmung gibt es keine Unterschiede zwischen den Tonarten auf Grund der Stimmung. Reine Stimmung: Instrumente, bei denen der Spieler erst während des Spiels die genaue Tonhöhe frei fixiert, was hauptsächlich bei Streichinstrumenten und Sängern zutrifft, können demgegenüber teilweise in der  sog. reinen Stimmung  spielen bzw.  singen, zumal dann, wenn sie nicht mit temperiert gestimmten Instrumenten zusammenspielen, sondern nur untereinander Intervalle und Akkorde intonieren. Bei dieser Stimmung haben die Intervalle ganzzahlige, einfache Frequenzverhältnisse wie die Teiltöne eines Klangs gemäß Abb. 2/12. Sie vermischen sich beim Zusammenspiel vollständig miteinander, ein besonderes Klangerlebnis. Das Intervall einer Quinte z. B. erscheint zwischen dem 2. und 3. Teilton, hier c“ und g“, das Intervall hat das Zahlenverhältnis 3 : 2 = 1,5. in der temperierten Stimmung hat dieses Zahlenverhältnis den nicht gerade einfachen Wert . Allerdings kann diese Stimmung in der Praxis nur angewendet werden, wenn die Tonhöhe ständig beeinflusst werden kann, also besonders bei Sängern sowie Streich- und Blasinstrumenten. Das Tonsystem der reinen Stimmung ist kein geschlossenes, widerspruchsfreies System. Historische Stimmungen: Bevor sich die gleichschwebend temperierte Stimmung nach 1800 allmählich durchsetzen konnte, waren verschiedene andere temperierte Stimmungen in Gebrauch, die die unterschiedlichsten Kompromisse zwischen reiner und gleichschwebend temperierter Stimmung darstellen: in der Renaissance die sog. mitteltönigen Stimmungen, zwischen 1600 und 1800 die sog. Barockstimmungen, vielfach die Stimmungen Werckmeister-II und -III sowie Kirnberger-III. Sie geben den einzelnen Tonarten unterschiedliche Intervallstrukturen und damit auch einen speziellen, individuellen Klangcharakter [Forss, 2007].

2.2.2 Akustische Instrumente Nachfolgend werden die akustischen Eigenschaften der Musikinstrumente beschrieben. Für Fragen der Instrumentenkunde wird auf die zahlreich vorhandene Literatur verwiesen, z. B.

2.2 Musikinstrumente 

 85

[Baines, 2010], [Dickreiter, 2007], [Marimovici, 2008]. Tab. 2/4 fasst die wichtigsten akustischen Eigenschaften der Instrumente zusammen. 2.2.2.1 Streichinstrumente Von den verschiedenen Typen der Streichinstrumente, die im Laufe der Geschichte entwickelt und gespielt wurden, sind in der heutigen Musikpraxis v. a. die Violine oder Geige (franz.: violon, ital.: violino, engl.: violin), die Viola oder Bratsche (franz.: alto, ital.: viola, alto, engl.: viola), das Violoncello, oft umgangssprachlich  mit Cello abgekürzt, (franz.: violoncelle, ital.: violoncello, engl.: violoncello) und der Kontrabass oder die Violone (franz.: contre­ basse, basse double, ital.: violone, contrabasso, basso, engl.: double bass) in Gebrauch. Im grundsätzlichen Aufbau gleichen sich diese Instrumente, sie unterscheiden sich aber in ihrer Größe und damit in ihrem Tonbereich. Lediglich der Kontrabass weicht in einigen Konstruktionsmerkmalen vom Typus dieser Instrumente ab. Der Spieler  streicht  mit dem  mit Pferdehaar bespannten Bogen oberhalb des Steges über die Saiten, die er dadurch zum Schwingen erregt. Die Saitenschwingungen werden über den Steg auf den Schall- oder Resonanzkörper übertragen und von diesem umgeformt und abgestrahlt. Das Streichen wird in den Noten mit „col arco“ oder „arco“, das Zupfen mit „pizzicato“, abgekürzt pizz., bezeichnet. Durch einen auf den Steg aufgesetzten Dämpfer, „sordino“, wird die Eigenresonanz des Stegs herabgesetzt, der Klang wird dadurch schwächer und dunkler.

Abb. 2/15. Grundtonbereiche der Streichinstrumente (schwarze Noten), Saitenstimmung (weiße Noten).

Die Tonumfänge der Grundtöne der Instrumente sowie die Stimmung ihrer vier Saiten zeigt Abb. 2/15. Die Violine wird im Violinschlüssel notiert, die Bratsche im Altschlüssel. Kontrabass und Violoncello werden hauptsächlich im Bassschlüssel notiert. Der Kontrabass, der im Orchester gespielt wird, hat noch eine fünfte Saite, er klingt eine Oktave tiefer als notiert. Für Aufführungen der Musik des Barocks werden oft Gamben, insbesondere die Tenorgambe oder Viola da gamba, die etwa in der Tonlage des Violoncellos steht, verwendet. Der Kontrabass, der aus der Familie der Gamben stammt, hat noch Merkmale dieser Instrumente. Violine und Viola Die Violine hat einen relativ unregelmäßigen Teiltonaufbau, der  sich bei weniger guten Instrumenten von Ton zu Ton ändert. Ursache hierfür  sind die komplizierten Resonan­z­ eigenschaften des Resonanzkörpers, auf die die Materialeigenschaften und die Konstruktion großen Einfluss nehmen. Der Pegel des Grundtons überragt nur im Frequenzbereich oberhalb

86 

 2 Schallquellen

etwa 640 Hz den Pegel höherer Teiltöne, bei den tiefsten Tönen liegt er sogar bis 25 dB unter dem Pegel des jeweils stärksten Teiltons. Ein wichtiges Qualitätsmerkmal des Violinklangs ist die Ausprägung von Formanten, die der Violine neben dem Vibrato einen gesanglichen, der Stimme verwandten Klangcharakter verleihen. Eine typische Formantlage für die tiefen Töne ist der Bereich um 275 Hz, verursacht von der Hohlraumresonanz des Resonanzkörpers; ein wichtiger zweiter Formant liegt zwischen 500 und 700 Hz. [Cremer, 1998], [Leonhardt, 1997] Gute Instrumente zeigen besonders zwischen 190 und 650 Hz sowie zwischen 1,3 und 4 kHz relativ starke Teiltonbereiche. Weitere Formanten sind zwischen 2,0 und 2,6 kHz sowie zwischen 3 und 4 kHz. Relativ stark sind die Geräuschanteile ausgebildet, die durch das Streichen entstehen. Sie können bis 30 dB stärker als bei Blasinstrumenten sein. Der Geräuschpegel nimmt in demselben Maße zu wie der Gesamtpegel. Der Spieler kann die Klangfarbe und Lautstärke mit der Bogenführung innerhalb bestimmter Grenzen beeinflussen: Die Streichgeschwindigkeit bestimmt vor allem die Lautstärke, der Bogendruck und die Anstrichstelle auf der Saite die Klangfarbe [Meyer, 1992]. Da die Viola im Bau der Violine entspricht und nur unerheblich größer als diese ist, sind ihre Klangeigenschaften auch sehr ähnlich. Sie ist etwas obertonärmer als die Violine. Die Formantbereiche liegen etwas tiefer, nämlich bei etwa 220, 350 und 600  Hz. Ein weiterer Formant um 1,6 kHz gibt der Viola oft einen etwas näselnden Klang. Violoncello und Kontrabass Wie bei der Violine sind die Grundtöne der tiefsten Töne beim Violoncello sehr schwach ausgeprägt, sie liegen oft bis zu 20 dB unter den stärksten Komponenten dieser Klänge. Oberhalb von etwa 3  kHz  sind die Teiltöne relativ  schwach. Typische Formanten liegen um 240  Hz, zwischen 300 und 500 Hz sowie zwischen 600 und 900 Hz. Manche Instrumente haben bei 1,5  kHz beim Spiel auf der A-Saite einen Formanten, der ähnlich wie bei Viola dem Klang näselnden Charakter verleiht. Andere Instrumente besitzen zwischen 2 und 3 kHz einen Formanten, der den Klang hell färbt. Typisch für den Violoncelloklang ist eine ausgesprochene Senke im Spektrum zwischen 1,0 und 1,2 kHz, also im Bereich des stärksten Violinformanten. Die Einschwingzeit des Violoncelloss liegt bei 60 bis 100  ms. Dadurch  spricht bei  schnellen Tonfolgen der Grundton oft nicht richtig an, der Klang wird in diesem Fall  spitz und geräuschhaft. Auch beim Kontrabass sind die Grundtöne im tiefsten Tonbereich schwach ausgebildet, ihr Pegel ist sogar um etwa 30 dB geringer als derjenige der stärksten Teiltöne. Die wichtigsten Klangkomponenten für die tiefen Kontrabasstöne liegen im Frequenzbereich zwischen 70 und 250 Hz, ein Nebenformant liegt bei 400 Hz. Harmonische Anteile über 1,5 kHz treten kaum auf. Im Bereich der höheren Kontrabasstöne erweitert  sich das Spektrum bis etwa 2,5 kHz. Höher als die harmonischen Klanganteile reicht das Geräuschspektrum mit seinem typischen „Sirren“, hervorgerufen durch das Streichen; es tritt vor allem dann hervor, wenn die Kontrabässe allein spielen, da es anderenfalls durch den Klang höherer Instrumente im Gehöreindruck verdeckt wird. Der Einschwingvorgang dauert länger als bei anderen Streichinstrumenten. Deshalb entwickelt der Kontrabass bei schnellen Tonfolgen nicht seine Klangfülle; außerdem treten hierbei die starken Geräuschanteile der Einschwingvorgänge besonders hervor.

2.2 Musikinstrumente 

 87

2.2.2.2 Holzblasinstrumente Holzblasinstrumente, kurz auch einfach „Holz“ genannt, ist die Sammelbezeichnung für eine Gruppe von Instrumenten des Orchesters, die vor allem Flöte (franz.: flute, ital.: flauto, engl.: flute), Oboe (franz.: hautbois, ital.: oboe, engl.: oboe), Klarinette (franz.: clarinette, ital.: clarinetto, engl.: clarinet), Saxophon (franz. und engl.: Saxophone, ital.:  saxofono) und Fagott (franz.: basson, ital.: fagotto, engl.: basson) einschließlich ihrer Sonderformen umfasst. Wohl ist die Mehrzahl dieser Instrumente aus Holz, aber auch entsprechende Konstruktionen aus Metall, besonders Flöte und Saxophon, werden zu den Holzblasinstrumenten gezählt, da  sie  sich in ihrer Spielweise grundsätzlich von den Blechblasinstrumenten unterscheiden. Der Klang wird entweder durch das Anblasen einer Kante bei Flöten, die Schwingung eines einfachen Rohrblatts bei Klarinette und Saxophon oder eines doppelten Rohrblatts bei Oboe und Fagott als stehende Welle einer Luftsäule erzeugt. Die Tonhöhe wird hauptsächlich durch Schließen oder Öffnen der Grifflöcher verändert, was eine Längenveränderung der  schwingenden Luftsäule bewirkt. Außer dem Grundton der  schwingenden Luftsäule können auch deren Obertöne angeblasen werden, das Instrument „überbläst“. Da sie nicht wie die Obertöne ideal harmonisch zum Grundton liegen, werden sie zur Unterscheidung Naturtöne genannt. Die Grundtonumfänge der wichtigsten Holzblasinstrumente zeigt Abb. 2/16. [Wackernagel, 2005]

Abb. 2/16. Grundtonumfänge der Holzblasinstrumente.

Flöte Den Klang der Flöte, auch Große Flöte oder Querflöte, charakterisiert ein  sehr gleichmäßiger Teiltonaufbau:  mit Ausnahme der tiefsten Töne und  sehr lauter Töne ist der Grundton am  stärksten, was  so deutlich  sonst bei keinem Orchesterinstrument zutrifft. Die Amplitude der Teiltöne nimmt  mit  steigender Ordnungszahl  stetig ab. Formanten gibt es dabei kaum; wenn  solche doch vorhanden  sind, kennzeichnen  sie nicht den Flötenklang als  solchen,  sondern den individuellen Klangcharakter des einzelnen Instruments. Die Anblasgeräusche können deutlich hervortreten. Die höchsten Klangkomponenten liegen je nach der Höhe des angeblasenen Tons bei 3 bis 6 kHz. Typisch für den leisen Flötenklang ist eine starke Schwankung in der zeitlichen Pegelfeinstruktur. Von allen Blasinstrumenten benötigt die Flöte die längste Zeit zum Einschwingen. Kennzeichnend dafür sind die sog. Vorläufertöne, kurze Töne im Frequenzbereich zwischen 2 und 4 kHz, die vor dem eigentlichen Ton anklingen und dem Klangeinsatz einen besonderen Charakter verleihen.

88 

 2 Schallquellen

Tab. 2/4. Übersicht über die Klangeigenschaften der Musikinstrumente. Instrument

Notation

Quasistationärer Zustand Grundtonumfang

Obertonstruktur

Violine

Violinschlüssel

g - etwa c‘‘‘‘ = 196 - 2.100 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 10 kHz

Viola

Bratschenschlüssel, Altschlüssel

c - etwa c‘“ = 130 – 1.050 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz,  max. 10 kHz

Violoncello

Bassschlüssel, hohe Stellen im Tenor- bzw. Violinschlüssel

C - etwa c“ = 65 - 520 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz,  max. 10 kHz

Kontrabass

Bassschlüssel transponierend, wird eine Oktave höher notiert

E‘ (C) - etwa c‘ = 41 (33) - 260 Hz

große Variabilität, Grundton schwach, Komponenten bis 7 kHz, über 1,5 kHz schwach

Horn in F

Violinschlüssel, H‘ - etwa f‘ auch Bassschlüs= 62 - 700 Hz sel, transponierend, (Instrument in F) wird eine Quinte höher bzw. Quarte tiefer notiert

unterer Tonbereich durch Formanten, oberer durch das Überwiegen des Grundtons gekennzeichnet, Komponenten bis über 5 kHz im ff

Trompete in B

Violinschlüssel, transponierend, wird ein Ganzton höher notiert

e - etwa d‘“ = 164 – 1.175 Hz (Instrument in B)

sehr obertonreich, Komponenten bis 15 kHz im ff, Grundton im ganzen Tonbereich schwach

E - etwa c“ = 82 - 520 Hz (Tenorposaune)

Grundton schwach, obertonreich, Komponenten bis 5 kHz (mf), über 10 kHz im ff

Posaune Altposaune Tenorposaune Bassposaune

Altschlüssel Tenorschlüssel Bassschlüssel

Tuba

Bassschlüssel

etwa B“ - a‘ = 29 - 440 Hz

Grundton schwach, Komponenten nur bis 1,5 - 2 kHz

Klavier, Flügel oder Piano

Violin- und Bassschlüssel

A“ - c‘““ = 27,5 - 4.200 Hz

gleichmäßig abnehmende Obertonamplitude, Grundton überwiegt außer in der tiefen Lage, Komponenten bis über 10 kHz

Cembalo

Violin- und Bassschlüssel

C - f“ (u. a.) = 65 - 1.400 Hz

Grundton schwach, sehr obertonreich, Komponenten bis über 6 kHz

2.2 Musikinstrumente 

Quasistationärer Zustand

Einschwingvorgang

Formantbereiche

Geräuschkomponenten

um 400 Hz, 800 – 2..000 Hz, 2.000 – 2.600 Hz, 3.000 – 4.000 Hz

relativ starkes, typisches Anstrichgeräusch, starker Einfluss der Streichart

 89

Ausklingvorgang

30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 300 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 40-800 ms beim pizz. 10 ms

um 220, 350, 600 und 1.600 Hz, 3.000 – 3.500 Hz

30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 200 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 50-600 ms beim pizz. 10 ms

um 250 Hz, zwischen 300 und 500 Hz, 600 und 900 Hz, Senke zwischen 1.000 und 1.200 Hz

60-100 ms, bei kurzen Klängen sehr geräuschhaltig, Grundton spricht zuletzt an

beim gestrichenen Ton Abreißen des Klangs, beim pizz. 50-200 ms (pp), bis 1,4 s (ff) beim gestrichenen Ton Abreißen des Klangs, beim pizz. durchschnittlich etwa 1 s, max. 1,6 s

zwischen 70 und 250 Hz, um 400 Hz, um 800 Hz nur in der hohen Lage

relativ starkes, typisches Anstrichgeräusch („Sirren“) mit Komponenten bis 10 kHz

100-200 ms, bei kurzen Tönen sehr geräuschhaltig und näselnd, beim pizz. 15-25 ms

um 340 Hz, 750, 1225,

schwach

20-100 ms, „Vorläuferim- Abreißen des Klangs puls“ mit Komponenten bis 1 kHz

2.000 und 3.500 Hz, nur im unteren Tonbereich

1.200 – 1.500 Hz, 2.000 und 3.000 Hz

20-180 ms, sehr präg­ nanter Klangeinsatz durch kurzen „Vorläuferimpuls“ mit Komponenten bis 2-3 kHz

480 - 600 Hz, 1.200 Hz

schwacher „Vorläuferimpuls“, 20-40 ms, bei weichem Klangeinsatz etwa 70 ms

210 - 230 Hz

kurzer Klangeinsatz

selten vorhanden

vorhanden, in einzelnen Bereichen mit größerer Amplitude

10-30 ms, sehr geräuschhaltig

20-30 s im tiefen Tonbereich, 5-10 s im hoher Tonbereich, wenn nicht früher abgedämpft wird

500 - 700 Hz, 2.000 – 3.000 Hz

schwach

sehr kurz

ähnlich wie beim Klavier

90 

 2 Schallquellen

Instrument

Notation

Quasistationärer Zustand Grundtonumfang

Obertonstruktur

Große Flöte

Violinschlüssel

h - etwa c““ = 247-2100 Hz

Grundton überwiegt, mit steigender Obertonfrequenz abnehmende Teiltonintensität, Frequenzbereich bis 3-6 kHz

Kleine Flöte, Piccolo

Violinschlüssel transponierend, wird eine Oktave tiefer notiert

d“ - c‘““ = 587 – 4.200 Hz

wie Große Flöte, jedoch Komponenten bis 10 kHz

Oboe

Violinschlüssel

h(b) - etwa f“ = 247 -1.400 Hz

obertonreich, Grundton schwach, Komponenten bis 9 kHz (mf), über 12 kHz (ff)

Englisch Horn

Violinschlüssel transponierend, wird eine Quinte höher notiert

e (es) - b“ = 165 - 933 Hz

wie Oboe

Klarinette in B (A)

Violinschlüssel transponierend, wird einen Ganzton (kleine Terz) höher notiert

d (eis) - etwa g“‘ = 147 – 1.570 Hz

d-d‘: ungeradzahlige Obertöne schwach, es‘-g“: nur noch 1. Oberton schwach, über g“: gleichmäßiger Obertonaufbau

Bassklarinette in B Violinschlüssel D (Cis) - etwa f‘‘ transpon., eine = 74 - 700 Hz None höher notiert, Bassschl. transponierend, ein Ganzton höher notiert

Grundton stark, ungeradzahlige Obertöne noch schwächer als bei der Klarinette

Fagott

Bassschlüssel (Tenorschlüssel)

B‘ - etwa c“ = 58 - 520 Hz

obertonreich, Komponenten im ff bis über 12 kHz

Kontrafagott

Bassschlüssel transponierend, wird eine Oktave höher notiert

B“ - etwa c‘ = 29 - 260 Hz

obertonreich, Grundton schwach

Pauke

Bassschlüssel

Große Pauke: D - c = 73 - 130 Hz, Kleine Pauke: H - g = 124 - 196 Hz

keine harmonische Struktur, jedoch dominierende Komponenten, die dem Paukenschlag eine bestimmbare Tonhöhe geben

Trommel

in einem Notensystem oder auf moderne Notation auf einer einzelnen Linie

keine bestimmbare Tonhöhe

Becken Triangel

2.2 Musikinstrumente 

Quasistationärer Zustand

Einschwingvorgang

 91

Ausklingvorgang

Formantbereiche

Geräuschkomponenten

keine typischen Formanten

Geräuschkomponenten mit Tonhöhencharakter, mit dem jeweiligen Grundton identisch

charakteristisch durch Abreißen des Klangs Vorläuferton mit etwa 50 ms und Geräuschanteile, von allen Holzblasinstrumenten am längsten

keine typischen Formanten, gelegentlich Nebenformant bei 3.000 Hz

wie Große Flöte

ähnlich wie Große Flöte

bei 1.100 Hz, bei 2.700 und 4.500 Hz

gering

sehr klar, keine Geräuschanteile, 20 - 40 ms, auch im staccato noch klar

bei 1.000 Hz, bei 2.000 und 4.000 Hz, bei 750 Hz

wie Oboe, im staccato noch kürzer, im ganzen Tonbereich 15 ms

nur im oberen Tonbereich über g“, zwischen 3.000 und 4.000 Hz

klar und prägnant, 1 5- 20 ms, ohne Geräuschanteile, weicher Einsatz etwa 50 ms

keine typischen Formanten

ähnlich wie Klarinette

500 Hz (1.150, 2.000 und im pp besonders im Bereich 3.500 Hz) um 3.000 Hz

klar und prägnant, ohne Geräuschanteile

250 Hz (400 - 500, 800 Hz)

klar, etwa 35 ms

keine Formatstruktur

starke Komponenten bis 1.000 Hz, schwächer bis etwa 4.000 Hz

bis 50 ms, keine harmonischen Komponenten

Komponenten bis 1.500 kHz (Große Tr.), 8.000 Hz (Kleine Tr.)

maximal 50 ms

Komponenten zwischen 800 und 9.500 Hz

etwa 400 ms

Komponenten zwischen 1.000 etwa 200 ms und 17.000 Hz, stark um 13.000 Hz

Geräuschanteile bis 300 ms, 1. Oberton bis 1 s

92 

 2 Schallquellen

Die Kleine Flöte oder Piccolo steht im Tonumfang etwa eine Oktave höher als die Große Flöte. Ihre Klangeigenschaften entsprechen denjenigen der Großen Flöte. Die harmonischen Klangkomponenten reichen aber bis etwa 10 kHz. Oboe und Englisch Horn Der Klang der Oboe ist sehr hell und offen. Dies bewirken einerseits die stark ausgeprägten Obertöne, die im Mezzoforte-Klang bis etwa 9 kHz, im Fortissimo-Klang bis 12 kHz reichen, andererseits der deutlich ausgeprägte Hauptformant bei 1,1  kHz und die Nebenformanten bei 2,7 und 4,5 kHz. Die Grundtöne sind schwach ausgebildet und liegen etwa 25 dB unter dem Pegel der stärksten Komponenten. Im Bereich der höchsten Obertöne treten die Formanten weitgehend zurück. Der Klang verliert hier deshalb an Eigenart. Piano- und Forte-Klang unterscheiden sich in der Klangfarbe sehr stark. Die Einschwingzeit des Klangs ist sehr kurz, Geräuschanteile treten dabei kaum auf. Deshalb eignet sich die Oboe auch für das Spiel sehr kurzer Töne. Das Englisch Horn (franz.: cor anglais, ital.: corno inglese) ist eine Variante der Oboe mit um eine Quinte tieferen Tonbereich. Als Besonderheit besitzt  sie einen birnenförmigen Schallbecher. Die Klangeigenschaften entsprechen denen der Oboe, der Hauptformant liegt etwas tiefer, nämlich bei 1 kHz. Bei 700 Hz liegt ein charakteristischer Nebenformant. Eine weitere Variante der Oboe ist die Oboe d‘amore, sie ist ähnlich wie das Englisch Horn gebaut, ihr Tonbereich beginnt jedoch zwei Ganztöne höher als bei diesem. Klarinette und Saxophon Der Klang der Klarinette ist nicht im ganzen Tonbereich einheitlich, man spricht deshalb von den verschiedenen Registern der Klarinette. Im Tonbereich zwischen d und d‘ bestimmt das Übergewicht der ungeradzahligen Teiltöne den Klang, dieses lässt sich bis zum 15. Teilton verfolgen. Die Pegelunterschiede zu den geradzahligen Teiltönen betragen etwa 25 dB, teilweise sogar bis 40 dB. Oberhalb von gis“ ist der Grundton am stärksten, an ihn schließt sich eine stetig fallende Obertonreihe an (Abb. 2/13). Für dieses höchste Register bildet sich ein Formant zwischen 3 und 4 kHz aus, während bei den tieferen Registern keine charakteristischen Formanten zu finden  sind. Kennzeichnend für den Klarinettenklang ist auch der geringe Geräuschanteil, der vor allem im obersten Register die Klarheit und Helligkeit des Klangs fördert. Die Klarinette bietet eine außerordentlich große Dynamik. Mit der Dynamikstufe ändert sich der Teiltonaufbau sehr stark. Während im pp in der eingestrichenen Oktave das Spektrum nur bis etwa 1,5 kHz reicht, enthält es im ff Komponenten bis über 12 kHz. Die Einschwingvorgänge sind wie die der Oboe kurz, prägnant und ohne wesentliche Geräuschanteile. Bei der Bassklarinette treten die ungeradzahligen Teiltöne noch stärker hervor als bei der normalen Klarinette, ihr Klang ist dadurch noch düsterer und hohler. Das Saxophon besitzt wie die Klarinette ein einfaches Rohrblatt, ist aber konisch und aus Metall. Es ist aus der Kombination der Bassklarinette mit der Ophikleide, einem Blechblasinstrument in der Basslage, um 1840 von dem Belgier Adolf Sax entwickelt worden. Das Instrument wird in acht Tonlagen gebaut: Sopranino, Sopran, Alt, Tenor, Bariton, Bass und Kontrabass. Im Klang sind die ersten Obertöne stark ausgebildet. Auf Grund seiner konischen Form werden die geradzahligen Obertöne ebenso stark wie die ungeradzahligen angeregt.

2.2 Musikinstrumente 

 93

Fagott Der Fagottklang ist wie der Oboenklang  sehr obertonreich. Kennzeichnend ist ein  scharf ausgeprägter Hauptformant bei 500 Hz, der dem Fagottklang den Vokalcharakter eines „o“ verleiht. Nebenformanten liegen bei 1,15, 2 und 3,5  kHz. Im ff geht das Spektrum bis über 12  kHz hinaus. Der Klangeinsatz ist wie bei der Oboe präzis und kurz, Das Kontrafagott reicht mit seinem Tonumfang eine Oktave tiefer als das Fagott. Seine Grundtonfrequenzen gehen bis etwa 30 Hz hinunter. Der Hauptformant liegt um 250 Hz. 2.2.2.3 Blechblasinstrumente Blechblasinstrumente, Sammelbezeichnung für Trompete (franz.: trompette, ital.: tromba, clarino, engl.: trumpet), Horn (franz.: cor, ital.: corno, engl.: french horn), Posaune (franz., ital., engl.: trombone) und Tuba (alle Sprachen) nebst ihren Nebeninstrumenten besitzen verglichen mit den Holzblasinstrumenten eine sehr lange Resonanzröhre aus Blech, bei der es keine Grifflöcher gibt. Die einzelnen Instrumententypen unterscheiden sich hauptsächlich in der Formgebung dieser Röhre und des Mundstücks. Beim Spiel wird weitgehend von der Naturtonreihe der Röhre Gebrauch gemacht, indem durch verschiedene Lippenspannungen die einzelnen Naturtöne der stehenden Welle im Rohr angeblasen werden. Wegen der recht langen Resonanzröhre sind die Naturtöne weitgehend identisch mit den Teiltönen. Zur Erzeugung der Töne, die zwischen den Naturtönen liegen, kann die Länge des Rohrs und damit der Tonhöhe bei der Trompete, Horn und Tuba durch Ventile oder bei der Posaune ein ausziehbares Rohrstück, einen Zug, um bis zu etwa 40 % verlängert werden. Die Tonumfänge zeigt Abb. 2/17. [Bahnert, 2004] Bei allen Blechblasinstrumenten lassen sich auch die Spektren in zwei Tonbereiche aufteilen: Im unteren Tonbereich kennzeichnet ein Formant den Klang, während im oberen Tonbereich der Grundton am stärksten hervortritt und die Obertöne mit steigender Ordnungszahl relativ gleichmäßig in ihrem Pegel abnehmen. Im unteren Tonbereich ist ein Formant um 340 Hz kennzeichnend

Abb. 2/17. Grundtonumfänge der Blechblasinstrumente.

Horn Während bei leisen Tönen Formanten eine geringe Rolle spielen, gewinnen mit zunehmender Lautstärke noch weitere Formanten bei 750 Hz, 1,25 und 2 kHz an Bedeutung. Im pp reicht das Spektrum etwa bis 1,5 kHz, im ff bis über 5 kHz. Die Geräuschanteile sind sehr gering. Frequenzanteile unter 200 Hz nehmen wenig Einfluss auf den Klangcharakter, da sie schwach ausgeprägt sind. Der Klangeinsatz ist durch einen kurzen Vorläuferimpuls gekennzeichnet,

94 

 2 Schallquellen

der vorwiegend harmonische Klangkomponenten unter 1  kHz enthält, ein zu  stark ausgeprägter Vorläuferimpuls tritt als „Kiekser“  störend in Erscheinung. Verschließt die rechte Hand des Spielers die Stürze teilweise (Halbstopfen), werden die Klangkomponenten um 3 und über 10 kHz formantartig verstärkt, der Klang wirkt eng und wie aus größerer Entfernung, bei stärkerem Verschließen (Vollstopfen) kann der Ton bis um einige Halbtöne erniedrigt werden, wie beim Gebrauch der Ventile. Obwohl Hörner Blechblasinstrumente sind, stehen sie musikalisch den Holzblasinstrumenten sehr nahe, da sie sich besonders gut in den Klang der Holzbläsergruppe einfügen; gelegentlich werden auch diesen zugerechnet. In der Partitur werden sie zwischen Holz- und Blechblasinstrumenten eingeordnet. Trompete Die Trompete ist eines der obertonreichsten Instrumente des Orchesters. Bereits bei geringen Lautstärken reicht ihr Spektrum bis über 5  kHz hinaus, im ff  sogar bis an die Hörgrenze. Ein starker Hauptformant liegt bei 1,2 bis 1,5 kHz, Nebenformanten bei 2 und 3 kHz. Der Grundton überwiegt nur bei den höchsten Tönen, wodurch ein gleichmäßig heller Klang gefördert wird. Geräuschanteile sind sehr schwach. Den prägnanten Klangeinsatz der Trompete kennzeichnet wie beim Horn ein Vorläuferimpuls, dessen Spektrum im Bereich zwischen 2 und 3 kHz ein Maximum hat. Durch verschiedene, in die Klangstürze eingesetzte Dämpfer kann der Klang stark verändert werden: Der normale, der konische Dämpfer unterdrückt vor allem die Frequenzen unter 1,5  kHz und hebt Frequenzen über 4  kHz an, der gewölbte Dämpfer unterdrückt die Komponenten über 2,5 kHz. Mit dem Wah-Wah-Dämpfer kann die Klangfarbe durch Verschieben der Formanten während des Spiels variiert werden. Posaune und Tuba Das Posaunenspektrum ist durch einen Formanten zwischen etwa 480 und 600 Hz gekennzeichnet, ein weiterer wichtiger Formant liegt um 1,2  kHz. Darüber nimmt die Amplitude der Teiltöne langsam ab, so dass im mf das Spektrum noch bis 5 kHz reicht. Der Grundton dominiert selten. Beim Einschwingvorgang tritt nur ein schwacher Vorläuferimpuls auf. Das Spektrum der Tuba, Basstuba und Kontrabasstuba reicht nur etwa bis 1,5  kHz, im oberen Tonbereich bis 2 kHz, der Klang ist also obertonarm. Auch die Grundtöne sind schwach ausgebildet. Der Hauptformant liegt zwischen 210 und 250  Hz. Die Einschwingzeit der Töne ist sehr kurz, dadurch kann die Tuba eine sehr prägnante Basslinie spielen. 2.2.2.4 Klavier und Cembalo Der Klavierklang  setzt  sich aus dem Einschwing- und Ausklingvorgang zusammen, einen quasistationären Zeitabschnitt wie bei Blas- und Streichinstrumenten gibt es nicht. Der Einschwingvorgang dauert sehr kurz, er ist durch die Spielweise bei gleichbleibender Lautstärke nicht zu beeinflussen. Beim Ausklingvorgang überwiegt der Grundton, abgesehen von dem Bereich der tiefen Töne. Der Pegel der Obertöne nimmt mit steigender Ordnungszahl stetig ab. Charakteristische Formanten treten nicht auf. Das Spektrum reicht bis über 10  kHz in den oberen Tonlagen, bis etwa 3 kHz in den unteren Tonlagen. Die Stärke der Obertöne ist von der erzeugten Klangstärke und damit vom Anschlag abhängig. Mit einer Taste des Kla-

2.2 Musikinstrumente 

 95

viers werden bei der tiefsten Oktave eine, eine Oktave darüber zwei und darüber drei gleich gestimmte Saiten gleichzeitig angeschlagen. Dadurch können Schwebungen, also Amplitudenschwankungen entstehen. Kennzeichnend für den Klavierklang sind auch die ausgeprägten Geräuschanteile beim Einschwingvorgang. Eine weitere Besonderheit ist, dass die Obertöne, besser Naturtöne, nicht streng harmonisch, also nicht exakt ganzzahlige Vielfache der Grundfrequenz sind, sondern jeweils etwas höher liegen, die Obertonreihe ist gespreizt. Dieser Effekt, verursacht durch die relative Dicke der Saiten, tritt besonders bei kleinen In­­ strumenten mit ihren kürzeren Saiten auf und mindert deren Klangqualität. Das Cembalo, wichtigstes Tasteninstrument der Barockzeit, zeichnet sich durch besonders großen Obertonreichtum und besonders langes Ausklingen aus, es wirkt fast wie ein quasistationärer Zustand. Ein Bereich  starker Klangentwicklung liegt zwischen 500 und 700 Hz, ein weiterer Bereich zwischen 2 und 3 kHz. Tiefe Klangkomponenten sind schwach. Das Cembalo weist eine außerordentlich hohe zeitliche Klangdichte auf, die es bei gleicher Aussteuerung viel lauter erscheinen lässt als z. B. das Klavier. 2.2.2.5 Orgel Die Orgel ist das größte, bautechnisch komplexeste Musikinstrument. Ihr Platz ist in Kirchen und großen Konzertsälen. Neben der großen Kirchen- bzw. Konzertorgel gibt es kleinere, transportable Instrumente, die  sog. Orgelpositive oder einfach Positive. Insbesondere der Klang großer Orgeln ist in einem Maße wandelbar wie sonst bei keinem anderen Instrument. Schallerzeuger sind die Orgelpfeifen, die durch unterschiedliche Bauarten eine breite Palette unterschiedlichster Klänge erzeugen können. Orgeln sind Einzelanfertigungen, die entsprechend ihrer musikalischen Funktion, aber auch, was es sonst bei keinem Instrument gibt, entsprechend der jeweiligen Raumakustik geplant und gebaut  sind. Ihre außergewöhnliche Größe und Lautstärke korrespondiert  mit der ebenfalls außergewöhnlichen Größe des Kirchen- und Konzertraums. Bei der Aufnahme ist nicht nur zu beachten, dass der Orgelklang in besonderem Maße mit der Erwartung des Raumklangs aus einem großen Raum verbunden ist,  sondern dass die Orgel selbst erhebliche räumliche Ausdehnung besitzt. Barocke Orgeln, aber auch moderne Orgeln, die nach dem sog. Werkprinzip der Barockorgeln gebaut sind, sind in einzelne sog. Werke gegliedert; jedem Manual ist dabei eine Gruppe von Registern zugeordnet, die in sich eine ausgewogene, aber von den übrigen Werken der Orgel sich unterscheidende sog. Disposition besitzt. Die einzelnen Werke sind nach traditionellen Regeln angeordnet: Oberhalb des Spieltischs befindet sich das sog. Hauptwerk, darüber und darunter sind zwei kleinere Werke, das Oberwerk und das Brustwerk; das Rückpositiv  steht im Rücken des Spielers. Fernwerke sind von der eigentlichen Orgel getrennt im Raum aufgestellt. Das Pedalwerk ist auf die beiden Pedaltürme aufgeteilt, die links und rechts des Hauptwerks stehen. Dessen Pfeifen  stehen nicht entsprechend einer chromatischen Tonleiter nebeneinander,  sondern wechseln bei jedem Ton die Seite. Dadurch springt eine Melodie zwischen den Pedaltürmen hin und her, ein Effekt, der bei Aufnahmen nicht eingefangen werden sollte; durch größeren Mikrofonabstand oder zwei zusammengemischte Mikrofone ist dies zu vermeiden.

96 

 2 Schallquellen

2.2.2.6 Akustische Gitarre und E-Gitarre Die Gitarre gibt es heute in einer Typenvielfalt wie  sonst nur bei wenigen Instrumenten. Grundsätzlich muss zwischen der akustischen und der Elektro- oder E-Gitarre unterschieden werden. Dazu existiert eine kombinierte Form dieser beiden Typen, nämlich die halbakustische oder Semi-Akustikgitarre. Alle traditionellen Gitarren, die ohne elektrische Tonabnahme und Tonverstärkung arbeiten, gehören zu den Akustikgitarren; der Begriff wurde erst geschaffen, als es notwendig wurde, diese Gitarren von der Gruppe der Elektro-Gitarren zu unterscheiden. Die Konzertgitarre oder Spanische Gitarre ist der klassische Typ der traditionellen akustischen Gitarre; sie ist mit sechs Nylonsaiten bespannt und wird mit den Fingerkuppen gezupft oder geschlagen. Akustik-Gitarren mit Stahlbesaitung, sog. Westerngitarren, werden entweder mit einem Plektrum oder mit den Fingern gezupft oder als Schlaggitarre geschlagen. Schlaggitarren haben neben dem Schallloch eine Schutzplatte. Neben der sechssaitigen Gitarre gibt es auch die voller klingenden zwölfsaitigen Instrumente; die beiden hohen Saiten sind hierbei im Einklang verdoppelt, die vier tiefen in der Oktave. Zwölfsaitige Gitarren haben Stahlbesaitung, weil Nylonsaiten zu weit ausschwingen. Das Schallloch ist der Ort größter Schallabstrahlung sowohl tiefer als auch hoher Frequenzkomponenten. Die Elektro-Gitarre oder E-Gitarre kombiniert akustische Tonerzeugung mit elektrischer Verstärkung und Formung des Tons. Sie verfügt über ein bis drei Tonabnehmer oder Pickups, die die Saitenschwingungen an verschiedenen Stellen abnehmen; der stegnahe Pickup gibt einen spitzeren, der Pickup am Griffbrett gibt einen weicheren Klang. E-Gitarren benötigen Stahlsaiten, weil die Pickups nur auf Metall ansprechen. Die Tonabnehmer  sind im Allgemeinen elektromagnetische Wandler, deren Bauweise und Qualität Einfluss auf den Grundklang einer E-Gitarre nimmt. Es werden Einfachspulabnehmer,  sog. Single Coil, und Doppelspulabnehmer, sog. Humbucker, verwendet; Single Coil-Pickups sind heller, metallischer im Klang, Humbucker-Pickups mittenbetonter. Die Humbucker-Systeme haben eine bessere Brummunterdrückung. Die verschiedenen Tonabnehmer einer Gitarre können einzeln oder parallel geschaltet werden. An der Gitarre selbst können nur einfache Klangformungen eingestellt werden. Aufwändigere Klangbeeinflussungen werden in separaten Effektgeräten, auch kombiniert mit dem Gitarrenverstärker, realisiert. Die Effektgeräte können auch für die Klangformung von Keyboards verwendet werden (Tab. 2/5). Es gibt die folgenden Grundtypen von E-Gitarren: Solidbody: Eine E-Gitarre benötigt vom Prinzip her keinen Resonanzkörper. Die Solidbody hat keinen schwingungsfähigen Resonanzkörper, sondern nur ein massives Brett (Solid Body) in der Form eines Resonanzkörpers oder in einer anderen Form. Die Solidbody ist die klassische Form der E-Gitarre und E-Baasgitarre. Akustikgitarre mit Pickup: Um die akustische Gitarre in die Musikpraxis der populären Musik trotz ihres schwachen Klangs einbeziehen zu können, wird sie auch mit Pickups versehen.

2.2 Musikinstrumente 

 97

Semiakustik-Gitarre: Ihr Korpus nimmt konstruktiv eine Zwischenstellung zwischen akustischer Gitarre und Solidody ein. Tab. 2/5. Gitarren-Effekte. Effekt (englisch)

Erläuterung

Chorus

Stimmvervielfachung durch gering zeitverzögerte und in der Tonhöhe versetzte Zumischung desselben Signals, subjektive Intensivierung Kompressor, der eine Tonverlängerung ohne abfallenden Pegel bewirkt Signalverzögerung nichtlineare Verzerrungen mit einstellbaren Eigenschaften einstellbare Filter zeitverzögerte Zumischung desselben Signals mit fester Verzögerung (KammfilterFrequenzgang), Verzögerungszeit schwingend sich verändernd (Vibrato-Effekte) Verhallung mit Hallgerät Lautsprecherkabinett mit rotierenden Lautsprechern, auch elektronisch Abschaltung in Signalpausen Verzerrungen wie ein Röhrenverstärker, d. h., zunehmend mit steigendem Pegel zeitverschobene Zumischung desselben Signals, Frequenzgang einer Kammfilterkurve, auch schwingend einstellbare Anhebung in einem stufenlos einstellbaren Frequenzbereich Klangbeeinflussung durch die Mundresonanz des Musikers bei jedem Ton automatisch durchlaufendes Filter mechanische Zusatzeinrichtung am Gitarrensteg oder elektronisches Effektinstrument Durchlauffilter, das individuell gesteuert wird

Compression, Sustain Delay Distorsion Equalizer, EQ Flanger

Reverb Leslie Noise Gate Over Drive, Tube Screamer Phaser Spectrum Talkbox Touch Wah Vibrato Wah Wah

E-Bass: Die Elektro-Bassgitarre ist in ihrer musikalischen Funktion zunächst ein Ersatz für den gezupften Kontrabass gewesen, bildet aber inzwischen eine Ergänzung der Gitarrenpalette im tiefen Tonbereich. Sie wird mit oder ohne Resonanzkörper gebaut. Doppelhalsgitarre (engl. Double neck guitar): Dieses Instrument vereint zwei Gitarren in einem Instrument; an dem verbreiterten Korpus  sind zwei Hälse angebracht. Die Double Neck besteht entweder aus einer sechs- und einer zwölfsaitigen Gitarre oder einer sechssaitigen und einer Bassgitarre. Pedal Steel Gitarre: Von der Solidbody abgeleitetes Instrument mit zwei Hälsen mit jeweils 10 oder 12 Saiten. Die linke Hand führt einen Gleitstahl (steel bar) zur Saitenverkürzung, mit der rechten Hand wird durch Zupfringe gezupft. Mit acht Pedalen ist das auf vier Beinen waagrecht liegende Instrument durch verschiedene Effekte beeinflussbar. Elektro-Hawaiigitarre: Der charakteristische Glissando-Klang der Hawaii-Gitarre entsteht dadurch, dass auf dem Griffbrett ein sog. Kamm die Saiten niederdrückt, der gleitend von

98 

 2 Schallquellen

Griff zu Griff bewegt wird. Dieser Effekt kennzeichnet auch die Pedal-Steel-Gitarre und ist mit dem Slide-Spiel auch bei anderen Gitarren möglich. Bei der Aufnahme der E-Gitarren kann der Klang entweder vom Gitarrenlautsprecher  mit Mikrofon abgenommen oder als elektrisches Signal direkt vom Gitarrenverstärker übernommen werden (Direct Injection). Vielfach werden auch beide Möglichkeiten kombiniert. Für den E-Bass ist die elektrische Direktabnahme üblich. Bei der Direktabnahme und bei der Mikrofonabnahme können Sicherheitsprobleme dadurch entstehen, dass bei gleichzeitiger Berührung fehlerhaft verarbeiteter, Spannung führender Geräteteile der Gitarrenanlage und des geerdeten Mikrofons gefährliche Körperströme fließen können. Durch Verwendung von Trenntransformatoren für die Instrumente oder sog. DI-Boxen können diese Gefahren ausgeschlossen werden (siehe hierzu Kap. 8.6). 2.2.2.7 Schlaginstrumente Schlaginstrumente, Perkussion oder engl. percussion besitzen, anders als Streich- und Blasinstrumente, keinen quasistationären Zeitabschnitt in ihrem Klang. An den Anschlagvorgang  schließt  sich wie bei Klavier und Cembalo unmittelbar der Ausklingvorgang an. Die  meisten Schlaginstrumente werden durch geräuschhafte und unharmonische Schwingungskomponenten gekennzeichnet, damit hat ihr Klang keinen deutlichen Tonhöhencharakter; im gesamten Klang überwiegen  meist Geräuschanteile. Für einige Schlaginstrumente  sind allerdings quasiharmonische Klangkomponenten im Ausklingvorgang charakteristisch, die einen Tonhöhencharakter erzeugen. Bei der Pauke reicht das Frequenzspektrum des Anschlags bis etwa 4 kHz, die stärksten Komponenten liegen unter 1 kHz; im Ausklingvorgang bewirkt eine Reihe quasiharmonischer Teiltöne, insbesondere der zweite Teilton, dass eine bestimmbare Tonhöhe hörbar wird. Dadurch kann die Pauke eine Bassstimme spielen. So wird sie u. a. in der Barockmusik und teilweise auch in der klassischen Musik als spezifisches Bassinstrument der Blechbläser eingesetzt. Auch die Tom-Toms lassen eine diskrete Tonhöhe erkennen. Große und Kleine Trommel besitzen keine bestimmbare Tonhöhe, sondern nur Geräuschcharakter. Die wichtigsten Frequenzkomponenten liegen bei der Großen Trommel zwischen 100 und 1.500 Hz, bei der Kleinen Trommel zwischen 100 und 8.000 Hz. Auch das Becken hat keine bestimmbare Tonhöhe. Beim Anschlag baut  sich der geräuschartige Klang langsam auf, um erst nach etwa 0,4 s seine größte Intensität zu erreichen. Das Spektrum reicht von 0,8 bis 10 kHz, Komponenten außerhalb dieses Frequenzbereichs sind sehr schwach. Einzelne Frequenzbereiche im Spektrum treten hervor. Auch beim Triangel liegen die einzelnen Klangkomponenten so dicht und unharmonisch, dass sich keine bestimmbare Tonhöhe ausbildet. Das Spektrum reicht von 1 bis 17 kHz mit hervortretenden Komponenten zwischen 12 und 14  kHz, damit hat das Triangel unter den Orchesterinstrumenten das nach hohen Frequenzen hin am weitesten reichende Spektrum.

2.2 Musikinstrumente 

 99

2.2.3 Schallabstrahlung Schallquellen, die klein gegenüber den Wellenlängen des abgestrahlten Schalls sind, strahlen den Schall weitgehend ungerichtet nach allen Seiten ab; größere Schallquellen mit den Dimensionen im Bereich der hörbaren Schallwellen konzentrieren die Schallabstrahlung auf eine oder mehrere Richtungen. Da die Wellenlängen der Spektralkomponenten musikalischer Klänge zwischen etwa 10 m und 2 cm liegen können, bündeln die Instrumente den Schall frequenzabhängig, dabei teilweise auch in sehr komplexer Form. Als grobe Faustregel kann gelten, dass Frequenzen im Bassbereich unter etwa 250  Hz kugelförmig ungerichtet, Frequenzen darüber zunehmend gerichtet abgestrahlt werden. Die gerichtete Schallabstrahlung wirkt sich auf die Klangfarbe und den Schallpegel im Direktfeld mehr oder weniger stark aus, nicht aber im Diffusfeld. Da die Mikrofone aber meist im Direktfeld aufgestellt werden, hat die gerichtete Schallabstrahlung der Instrumente bei Tonaufnahmen größere Bedeutung als beim direkten Hören. Die gerichtete Schallabstrahlung oder Richtcharakteristik der Instrumente  macht es möglich, mit dem Mikrofon den Klangcharakter des Instruments bei der Aufnahme mitzubestimmen. Mikrofonstandort und Richtcharakteristik der Instrumente haben einen größeren Einfluss auf die Aufnahme als die die Auswahl des Mikrofons; dies gilt in erster Linie bei relativ geringem Mikrofonabstand und besonders bei der Anwendung des Einzelmikrofonverfahrens (siehe Kap. xxxx). Stark gerichtete Abstrahlung lässt den Klang eines Musikinstruments auch über größere Entfernungen noch präsent erscheinen, sie erhöht damit die Lokalisierbarkeit der Instrumente, verringert aber gleichzeitig die Klangverschmelzung z. B. bei einem Sinfonieorchester. Gerichtete Klangabstrahlung kann den Hallradius erheblich vergrößern, im höheren Frequenzbereich der Blechblasinstrumente durchaus um den Faktor 10, im Schnitt etwa um den Faktor 1,5 bis 2 (siehe Kap. 1.3.4). Die folgenden Darstellungen der gerichteten Klangabstrahlung der Instrumente zeigen die Bereiche, innerhalb derer der Pegel um nicht mehr als 3 dB unter den Maximalwert abfällt. Die dargestellten Bereiche sind, etwas vereinfacht gesagt, also die Bereiche, innerhalb derer eine Klangfarbenänderung praktisch nicht wahrnehmbar ist. Die Betrachtung  muss  sich dabei auf ausgewählte Frequenzen oder Frequenzbänder beschränken, die einen guten Einblick in das Schallabstrahlungsverhalten geben. [Meyer, 2015], [Albrecht, 2017] 2.2.3.1 Streichinstrumente Die Richtcharakteristiken der Streichinstrumente kommen dadurch zustande, dass Decke und Boden des Korpus, in einzelnen Zonen mit unterschiedlicher Amplitude und Phase schwingen; hinzu kommt die Abstrahlung des im Resonanzkörper eingeschlossenen Luftvolumens über die sog. f-Löcher, das einen Helmholtz-Resonator darstellt (siehe Kap. 1.2.2.4), Da die Form der Instrumente weitgehend standardisiert ist, können allgemein gültige Abstrahleigenschaften festgestellt werden, obwohl auch individuelle Eigenschaften der Holzstruktur und der Ausarbeitung darauf Einfluss nehmen. Grundsätzlich ist die Richtwirkung bei den Streichinstrumenten nicht  so ausgeprägt wie bei den Blasinstrumenten;  sie ist komplexer und stärker vom Einzelinstrument abhängig. Kleine Veränderungen des Mikrofonstandorts

100 

 2 Schallquellen

wirken sich nicht so deutlich aus. Der Wahl des Mikrofontyps kommt unter diesen Umständen eine größere Bedeutung zu. Eine Besonderheit, die  sich bei Tonaufnahmen auswirken kann,  sind die teilweise in schmalen Winkelbereichen wirksamen starken Einbrüche in der Schallabstrahlung. Das wird z. B. deutlich beim Frequenzgang der Geige in Abb. 2/18: Bei der Aufnahme im Nahbereich mit nur einem Mikrofon ist der Frequenzgang sehr stark zerklüftet, fast einer Kammfilterkurve vergleichbar. Bei der Aufnahme mit sechs Mikrofonen, angeordnet in einem größeren Winkelbereich, und anschließender Mischung, also Mittelung der Frequenzgänge, ist der resultierende Frequenzgang deutlich geglättet. Das Diffusfeld in einem Raum bildet in gleicher Weise einen Mittelwert über die Frequenzgänge in den verschiedenen Richtungen und glättet den Frequenzgang. Die stark zerklüftete Frequenzkurve kann zu einer ungewohnten Klangschärfe, einem metallischen Klang führen, der beim natürlichen Hören wegen des hierbei größeren Diffusschallanteils nicht oder weniger in Erscheinung tritt. Für die Praxis ergibt sich daraus, dass ein gewisser Diffusschallanteil vorteilhaft ist; dies lässt sich durch einen eher größeren Mikrofonabstand erreichen. Es zeigt auch, dass für Aufnahmen von Streichinstrumenten eher Räume  mit einem gewissen Nachhall gewählt werden  sollten. Künstliche Verhallung von Streichinstrumenten bei Nahaufnahmen vermeidet dem einem Kammfilter ähnlichen Frequenzgang nur, wenn ein gesondertes Hallmikrofon in etwas größerer Entfernung in einem nicht zu trockenen Raum aufgestellt wird..

Abb. 2/18. Frequenzkurven eines Violinklangs im Direktfeld, gemessen mit einem Mikrofon in Haupt­ abstrahlrichtung bzw. mit 6 Mikrofonen mit anschließender Mittelung in anderen Richtungen [Meyer, 1992].

2.2 Musikinstrumente 

 101

Bis etwa 500 Hz ist die Schallabstrahlung weitgehend kugelförmig. Darüber verengt sie sich allmählich, um zwischen 1 und 1,2  kHz  senkrecht zur Decke des Resonanzkörpers eine deutliche Bündelung zu erfahren. Darüber wird der Abstrahlbereich insgesamt wieder breiter,  spaltet  sich dabei aber wechselnd in einzelne Abstrahlbereiche auf, zwischen denen schmale Zonen geringerer Abstrahlung liegen (Abb. 2/19). Die Abstrahlung etwa senkrecht über der Decke ist die günstigste Richtung für die Aufnahme; zum einen wird in diese Richtung bevorzugt der Schall des Hauptformanten des Instruments abgestrahlt, zum anderen ist in diesem Winkelbereich der Abstand zwischen dem Geräuschpegel des Instruments und seinen harmonischen Komponenten am größten.

Abb. 2/19. Abstrahlcharakteristiken der Violine und Viola, nach [Meyer, 2015].

Abb. 2/20. Abstrahlcharakteristik des Violoncellos, nach [Meyer, 2015].

Allseitig ungerichtet abgestrahlt wird Schall beim Violoncello nur bis etwa 200 Hz wegen der größeren abstrahlenden Flächen. Um 1 kHz wird der Schall bevorzugt nach oben abgestrahlt, für Frequenzen zwischen 2 und 5 kHz teilt sich die Richtwirkung in zwei Zonen, eine zum

102 

 2 Schallquellen

Boden, eine senkrecht nach oben gerichtet (Abb. 2/20). Gerade dieser Frequenzbereich trägt aber wesentlich zum Klangcharakter dieser Instrumente bei. Bei gleicher Grundtonhöhe wirken die Violoncelli tatsächlich oft schärfer als die Violinen; eine Mikrofonposition über dem Violoncello kann diesen durchaus wünschenswerten Unterschied hervorheben. Schon von Frequenzen um 100 Hz an aufwärts strahlt der Kontrabass den Schall gerichtet ab. Dabei sind für die einzelnen Frequenzbereiche wechselnde Hauptabstrahlrichtungen festzustellen, die sich teilweise auch in zwei getrennte Zonen aufspalten. Sie liegen jedoch in dem Halbraum vor der Decke des Instruments. 2.2.3.2 Holzblasinstrumente Die Holzblasinstrumente strahlen die Klangkomponenten bis rund 1 kHz bevorzugt aus den Grifflöchern ab, also  senkrecht zur Schallröhre;  mit ansteigender Frequenz neigt  sich der Abstrahlbereich zunehmend zur Schallstürze hin. Die höheren harmonischen Komponenten werden schließlich besonders aus der Schallstürze abgestrahlt (Abb. 2/21).

Abb. 2/21. Abstrahlcharakteristik der Oboe und Klarinette, nach [Meyer, 2015].

Die Richtwirkung ist bei den Holzblasinstrumenten so ausgeprägt, dass sie bei Tonaufnahmen eine weit wichtigere Rolle spielt als die Wahl des Mikrofontyps. Es ist möglich, allein durch die Mikrofonaufstellung zwischen einem weichen, vollen Klang vor den Grifflöchern und einem scharfen, engen, aber auch präsenterem Klang vor der Stürze sowie allen Klangcharakteristiken dazwischen zu wählen. Mit zunehmender Entfernung vom Instrument werden diese Unterschiede immer geringer, weil die Abstrahlung aus allen Richtungen durch den Diffusschall zunehmend integriert wird.

2.2 Musikinstrumente 

 103

Bei der Großen Flöte oder Querflöte verursacht das Zusammenwirken der Schallabstrahlung von Schallstürze, dem Fußstück, und Anblasloch auch  schon unter 1  kHz eine Aufspaltung der Schallabstrahlung in einzelne getrennte Zonen. Der Klang aus dem Fußstück wirkt so eng und scharf, dass Mikrofone in diesem Bereich im Allgemeinen nicht aufgestellt werden. Über dem Mundstück ist relativ viel Atemluft hörbar, was z.  B. bei Jazzflötisten durchaus erwünscht sein kann. Rund und weich ist der Klang über den Grifflöchern. Beim Fagott ist zu beachten, dass die Stürze nach oben gerichtet ist, hohe Klangkomponenten entsprechend auch nach oben abgestrahlt werden. Über dem Fagott wirkt sein Klang aber u. U. etwas eng. Bei den Saxophonen, mit Ausnahme des Sopransaxophons, fallen die Zonen der Abstrahlung tieferer Klangkomponenten aus den Grifflöchern und höherer Komponenten aus der Stürze im Nahbereich in derselben Richtung zusammen. 2.2.3.3 Blechblasinstrumente Bei Blechblasinstrumenten wird der Schall praktisch ausschließlich von der Schallstürze abgestrahlt. Sie ist wesentlich größer als bei Holzblasinstrumenten und vermag deshalb den Schall verstärkt zu bündeln. Zudem ist die Schallröhre zwischen Mundstück und Stürze völlig geschlossen, von ihr wird also praktisch kein Schall abgestrahlt. Verglichen mit den Holzblasinstrumenten wird der Schall schon bei tieferen Frequenzen gebündelt; bereits bei Frequenzen um 500 Hz ist die Richtwirkung deutlich. Die Richtcharakteristik ist, abgesehen vom Horn, rotationssymmetrisch. Durch die Wahl des Mikrofonstandorts kann wie bei den Holzblasinstrumenten im Direktschallbereich, also innerhalb des Hallradius, in erheblichem Umfang die Klangcharakteristik gewählt werden; auch hier ist der Mikrofonstandort wesentlich wichtiger als der Mikrofontyp (Abb. 2/22). Der Klangcharakter der Instrumente direkt vor der Stürze ist hell bis  scharf, aber im Gegensatz zu den Holzblasinstrumenten ist dieser Mikrofonstandort durchaus für die Tonaufnahme zu bevorzugen, da tiefe und mittlere Frequenzkomponenten im Gegensatz zu den Holzblasinstrumenten auch von der Stürze abgestrahlt werden. Die Abstrahleigenschaften des Horns weisen einige Besonderheiten auf, da das Instrument im Gegensatz zur Trompete und Posaune schräg nach hinten und mit der rechten Hand im Schalltrichter gehalten wird. Das führt zu einem typisch diffusen, indirekten Hornklang, der bei den Komponisten auch zu einer entsprechenden musikalischen Verwendung führt; es verbindet klanglich die Gruppe der Holz- mit derjenigen der Blechbläser, oft wird es speziell für Ferneffekte verwendet. Für das Horn im Orchester problematisch ist deshalb das Einzelmikrofonverfahren, da das Mikrofon hierbei im Nahfeld vor die Stürze aufzustellen ist; damit wird die typische Klangcharakteristik im Orchesterklang nicht horngemäß, die Hörner klingen untypisch präsent. Die Abstrahlcharakteristik des Horns ist verglichen etwa mit derjenigen der Posaune, die in derselben Tonlage spielt, relativ komplex. Die Schallbündelung im Bereich hinter dem Spieler beginnt bereits bei etwa 150 Hz.

104 

 2 Schallquellen

Abb. 2/22. Abstrahlcharakteristik der Blechblasinstrumente ohne Horn, nach [Meyer, 2015].

2.2.3.4 Konzertflügel Die Klangabstrahlung eines Konzertflügels ist  sehr komplex, klare Angaben wie bei Blasoder Streichinstrumenten sind nur bedingt möglich; konkrete Empfehlungen für bestimmte Mikrofonstandorte sind im Einzelfall kritisch zu prüfen. Dafür kommt der Balance zwischen Direkt- und Raumschall, also dem Mikrofonabstand, eine besondere Wichtigkeit zu. Der geöffnete Konzertflügel strahlt für das Publikum den Schall insbesondere über die Reflexionen an dem um 45° geöffneten Deckel ab, die hohen Frequenzen am stärksten in dem Winkelbereich von ±  5° um die Mittelachse, ein deutlicher Höhenabfall ergibt  sich außerhalb ±  30°, tiefere Frequenzen werden allseitig abgestrahlt. Die wahrgenommene Gesamtlautstärke wird von der Richtung praktisch nicht beeinflusst, ebenso wenig wie von dem geschlossenen Deckel, der allerdings hohe Frequenzen deutlich bedämpft. Im Nahbereich der Mikrofonaufnahme sind die Verhältnisse komplexer, da hier die direkte Abstrahlung der Saiten, die Bodenreflexionen des Resonanzkörpers und mit abnehmendem Abstand zunehmende Anschlagsgeräusche der Hämmer hinzukommen, je nach Position des Mikrofons.

2.2 Musikinstrumente 

 105

Gerade die Balance zwischen dem Hammergeräusch, das einen deutlichen Anschlag vermittelt, und dem Klang der schwingenden Holzteile ist hier maßgebend. Nimmt man die Unterschiede zwischen einzelnen Instrumenten hinzu, wird die Frage der Schallabstrahlung noch komplexer, so dass in der Praxis die Suche einer optimalen Mikrofonposition sich weniger auf ein theoretisches Vorwissen stützen kann als bei anderen Instrumenten. 2.2.3.5 Kirchen- und Konzertorgel Die Kirchen- und Konzertorgel ist  mit ihrer körperlichen Ausdehnung und konstruktiven Gestalt das größte Musikinstrument; die konstruktiven Unterschiede zwischen den verschiedenen Instrumenten und ihre Ausdehnung  sind  so groß, dass allgemeingültige nützliche Aussagen zur Schallabstrahlung kaum möglich sind. Orgeln sind grundsätzlich angepasste Einzelanfertigungen. Hinzu kommt, dass die einzelnen Orgelpfeifen des Pedals chromatisch Ton für Ton abwechselnd auf die beiden Pedaltürme aufgeteilt sind, was keinen musikalischen, damit hörenswerten Sinn ergibt. Die große Kirchenorgel als Musikinstrument ist konzipiert als komplexes, den Raum klanglich füllendes Instrument, bei dem die örtliche Herkunft des Klangs keine Rolle spielt und auch nicht spielen soll. Ihre Aufgabe erfüllt die Orgel in erster Linie in der klanglichen Ausgestaltung des Gottesdienstes und einer emotionalen Einbindung seiner Besucher. Aus diesem Grund wird auch bei Orgelaufnahmen größter Wert auf die Vermittlung eines eindrucksvollen Raumklangs gelegt, für den die Abstrahlcharakteristik eine untergeordnete Bedeutung hat.

2.2.4 Elektronische Instrumente Elektronische Instrumente und Verfahren sind heute aus der Musikproduktion nicht mehr wegzudenken, sie tragen geradezu den Bereich der Popularmusik, weite Teile der Filmmusik, von Musicals, Tonunterlegungen von Fernsehspielen, Werbung usw. Es handelt  sich dabei nicht nur um Musikinstrumente im klassischen Sinn, sondern in hohem Maße um die Musikproduktion und Klangmanipulation in komplexen Verfahren. Ermöglicht hat diese Entwicklung die digitale Tonverarbeitung  mit  sog. DSPs, digitalen Signalprozessoren oder auch digitalen Sound-Prozessoren, die eine Bearbeitung von Signalen, z. B. auch analogen Audiosignalen, kontinuierlich in Echtzeit ermöglichen. Nicht vergleichbar mit traditionellen akustischen Instrumenten, die nach einer teils Jahrhunderte dauernden Entwicklungsphase weitgehend standardisiert sind und nur in Details noch weiterentwickelt werden, verläuft die Entwicklung bei elektronischen Instrumenten und Verfahren parallel mit der Entwicklung der Digitaltechnik geradezu stürmisch. In kurzen Abständen erscheinen neue Geräte und Softwaretools auf dem Markt und verdrängen die bisherigen. Deshalb werden hier nur grundlegende Verfahren und Begriffe behandelt, beginnend mit einem kurzen Rückblick auf die historische Entwicklung, aus der auch heute noch wichtige Instrumente geblieben sind, zumindest als Vorbild für digitale Lösungen.

106 

 2 Schallquellen

2.2.4.1 Historische Entwicklung Elektroakustische Instrumente und ihre Musik entwickelten sich einerseits aus dem Wunsch von Komponisten und Musikern, neue Klänge für eine neue Musik zu erzeugen, andererseits einfach aus den neuen Möglichkeiten, die die Elektrotechnik seit den 1920er Jahren schuf, also Tongeneratoren, Verstärker, Filter, Motoren u. a. Schon bald wurden mit Strom betriebene Instrumente entwickelt, darunter 1928 die Ondes Martinot, 1930 das Trautonium (siehe dazu Kap.  2.2.4.3) und 1934 die Hammond-Orgel. Mit der Erfindung des Tonbandgeräts in den 1940er Jahren wurde es möglich, aufgenommene Töne bei der Tongebung abzuspielen wie etwa beim Mellotron und komplexe Klangentwicklungen in kleine Schritte zu zerlegen, um sie dann hintereinander zu bearbeiten und auf mehrspurigen Tonbandgeräten zusammenzuführen. Aus diesen Entwicklungen gingen im Bereich klassischer Musik zwei Strömungen hervor: Die Elektronische Musik, die Klänge synthetisierte und einen Schwerpunkt beim Westdeutschen Rundfunk hatte, und die in Paris entwickelte musique concrète, die sich bevorzugt mit Montagen von aufgenommenen Geräuschen und Klängen befasste. Zu den ersten rein elektronischen Musikinstrumenten gehört das 1930 von Trautwein entwickelte Trautonium, das über ein Bandmanual die Frequenz einer Sägezahnschwingung  steuert, und  mit dem zweimanualigen Mixturtrautonium von Sala weiterentwickelt wurde; es baut auf subharmonische Schwingungen, die neue ungewöhnliche Klangfarben ermöglichen,  sowie auf weiteren den Klang gestaltenden Komponenten. Subharmonische Schwingungen  sind Vielfache der Wellenlänge des Grundtons im Gegensatz zu Harmonischen, die Vielfache der Frequenz des Grundtons sind. Salas Instrument erlangte in der Filmmusik zu Hitchcocks Film „Die Vögel“ bleibende Bedeutung, namhafte Komponisten haben für diese Instrumente komponiert, die aber dennoch keine Verbreitung gefunden haben. In der Entwicklung der Popularmusik haben einige historische Klassiker, auch Vintages genannt, größere Bedeutung erlangt und in gewissem Umfang auch behalten: Hammondorgel Die Hammondorgel, auch kurz Hammond, ist eine nach ihrem Erfinder benannte elektromechanische Orgel. 1934 erfunden und in den Vereinigten Staaten von Amerika zunächst als Ersatz für die Pfeifenorgel gedacht, wurde sie über den Einsatz als Unterhaltungsinstrument schnell zum Instrument des Jazz. Als Orgelersatz in amerikanischen Kirchen verwendet, fand sie in die Gospel-Musik Eingang. Von dort breitete sich das Instrument in Rock, Soul, Funk, Reggae u. a. aus. Popularität erlangte  sie in den 1960er und 1970er Jahren, als viele Bands das Instrument benutzten, v. a. das ab 1955 produzierte legendäre Modell B-3 mit Lesliet. Aber auch heute noch ist ihr unverwechselbarer Klang bzw. dessen digitale Simulation in der Popularmusik verbreitet. Allen Instrumenten gemeinsam ist der Aufbau mit zwei Manualen und Pedal analog einer einfachen Kirchenorgel. Das Obermanual wird als Swell, das Schwellwerk der Kirchenorgel, das Untermanual als Great, als Hauptwerk der Orgel bezeichnet. Zur Tonerzeugung rotieren metallene Tonräder mit einem gewellten Rand vor elektromagnetischen Tonabnehmern, für jeden Ton der Klaviatur ein Rad mit der Anzahl von Zähnen, die  seiner Frequenz entspricht. Auf Grund der Form der Tonräder ergibt  sich eine  sinusähnliche Schwingung, die durch Filterschaltungen weiter geglättet wird, so dass praktisch eine Sinusform entsteht, die Wiedergabe erfolgt über einen Lautsprecher, meist in Verbindung mit einem Leslie-Kabinett, einem sich drehenden Lautsprechersystem, das durch den

2.2 Musikinstrumente 

 107

Doppler-Effekt den Klang in der für die Hammondorgel typischen Weise  moduliert (siehe auch Kap. 6.6.6). Mellotron Das Mellotron ist ein elektromechanisches Tasteninstrument, das um 1960 erfunden wurde. Es arbeitet mit bespielten Tonbändern. Jeder Taste ist dazu ein eigener Tonbandstreifen zugeordnet, der auf Tastendruck abgespielt wird und z. B. originale Streicher- oder Bläsertöne enthalten kann. Das Mellotron ist ein charakteristisches Instrument des Progressive Rock der I 970er Jahre, es nimmt die Idee des Samplers vorweg. Clavinet Das Clavinet ist ein analoges, elektromechanisches Keyboard, der Klang ähnelt dem eines Cembalos. Es wurde besonders in den 1970er Jahren bei vielen Funk- und Rock-Aufnahmen eingesetzt. Das Instrument folgt dem Prinzip des Clavichords, einem bis ins 18. Jahrhundert verbreiteten Tasteninstrument. Es hat für jeden Ton eine stimmbare Saite, die an einem Ende bedämpft ist. Unter jeder Taste der Klaviatur befindet sich eine Tangente, die beim Drücken der Taste die Saite auf einen kleinen Block schlägt. Die Saite schwingt nun im ungedämpften Teil und wird dort über einen elektromagnetischen Tonabnehmer abgenommen. Nach Loslassen der Taste wird die gesamte Saite wieder bedämpft. Lautstärke und Charakter des Tons können durch die Anschlagstärke beeinflusst werden. Auf Grund der Anschlagsgeräusche entsteht ein charakteristischer Klangeinsatz, der von vielen Spielern erwünscht ist und als wichtiges Element des Klangs aufgefasst wird. Fender Rhodes-Piano und Wurlitzer-E-Piano Wie beim Clavinet werden über eine Klaviatur  mechanische Schwingungen erzeugt, beim Fender Rhodes aber von Stäben, elektromagnetisch abgenommen, verstärkt und über Lautsprecher wiedergegeben. Beim Wurlitzer-E-Piano erfolgt die Tongebung durch Metallzungen, die eine Platte eines Kondensators darstellen. Die Instrumente werden nicht mehr hergestellt, fanden jedoch im Jazz, Funk, Pop u. a. der 1960er bis 1980er Jahre Verwendung. Der RhodesKlang ist wegen unharmonischer Oberschwingungen glockenähnlich, das Wurlitzer-Piano ist im Forte hart und durchsetzungsfähig, im Piano eher weich und dem Vibrafon ähnlich. E-Gitarre Die E-Gitarre gehört  mit ihrer akustischen Klangerzeugung, aber elektrischen Verstärkung und Klangformung wie Hammondorgel und Clavinet zu den elektromechanischen Instrumenten, den sog. Elektrofonen. Zur E-Gitarre siehe Kap. 2.2.2. 2.2.4.2 Elektronische Klangerzeugung Um das komplexe Feld der modernen elektronischen Instrumente und Verfahren zu verstehen, kann man zwischen Klangsynthese und Klangveränderung oder -manipulation unterscheiden. Synthesemethoden  stellen dabei Techniken dar,  mit deren Hilfe Klänge elektronisch, d. h. heute, digital erzeugt werden, bei den Methoden der Klangveränderung handelt es  sich um Strategien, vorhandene akustisch oder elektronisch erzeugte Klänge zu verän-

108 

 2 Schallquellen

dern. Für den Musiker ist es allerdings oft unerheblich, wie die Klänge tatsächlich erzeugt werden. Elektronische Klangerzeuger generieren Klänge, meist gesteuert durch eine Klaviatur, ein Keyboard, wie man bei elektronischen Instrumenten sagt, aber auch durch ein digitales Steuersignal,  meist im MIDI-Format. Es gibt eine Reihe von Prinzipien zur Klangerzeugung, von denen hier nur die wichtigsten erläutert sind. Die vielfach angewandte subtraktive Synthese geht bereits von vorhandenen Sounds aus, die  sie verändert, für den Musiker ist dies allerdings unerheblich. Bei den Verfahren der Klangveränderung im engeren Sinn kommen wieder akustisch bzw. mechanisch erstellte Klänge ins Spiel, die verändert werden. Zur Klangveränderung siehe insbesondere auch Kap. 6 6. Die wichtigsten Prinzipien der Klang­erzeugung sind: Additive Synthese: Bei der additiven Synthese oder Fourier-Synthese wird das Klangspek­ trum aus einem Grundton und den dazu harmonischen Obertönen zusammengesetzt, also aus  sinusförmigen Tönen  mit Frequenzen, die ein Vielfaches der Grundfrequenz haben. Jedem Einzelton wird Amplitude, Frequenz und Phase zugewiesen; um die Klänge lebendiger zu machen, kann jeder Tonkomponente eine eigene Hüllkurve zugeordnet werden. Diese Synthese folgt dem Fourierschen Prinzip, wonach jede Gestalt einer periodischen Schwingung aus einzelnen Sinuskomponenten zusammengesetzt werden kann (siehe Kap. 1.1.2.3). Subharmonische Klangstrukturen: Natürliche Schallquellen wie akustische Instrumente erzeugen Töne, die in der Regel aus einem Grundton  mit Obertönen bestehen, deren Frequenzen ganzzahlige Vielfache der Frequenz des Grundtons sind, sie sind sog. harmonische Teiltöne. Herkömmliche elektronische Klangerzeuger folgen in der Regel diesem Prinzip. Im Gegensatz dazu werden  subharmonische Klangstrukturen durch ganzzahlige Frequenzteilungen aus dem Grundton abgeleitet, ihre Frequenzen betragen also 1/2, 1/3, 1/4 usw. der Frequenz des Grundtons und bilden die sog. Untertöne bzw. werden zu sog. subharmonischen Mixturen zusammengesetzt. Subharmonische Klangstrukturen weisen einen  sehr eigenen, ungewohnten Klang auf, der so in der traditionellen akustischen Welt nicht vorkommt. Subharmonische Mixturen wurden um 1930 erstmalig von Trautwein mit seinem Mixturtrautonium realisiert, das später von Sala weiterentwickelt wurde. In den 1960er Jahren entstanden in Berlin verschiedene Nachbauten und Weiterentwicklungen solcher Instrumente, darunter das im Unterschied zum Trautonium auf einer normalen Klaviatur  spielbare  sog. Subharchord [Schreiber, 1964], das als einer der ersten Hybrid-Synthesizer, d. h., teils analog, teils digital arbeitende Klangerzeugung, betrachtet werden kann. Insgesamt hat sich das Prinzip der subharmonischen Klangstrukturen trotz seiner vielfältigen und interessanten Klangmöglichkeiten bisher jedoch nicht breit etablieren können. Physical Modeling: Diese Methode der Klangerzeugung versucht, den physikalischen Vorgang der Klangerzeugung selbst durch Algorithmen zu erfassen, für einen Streicherklang etwa wird die Saitenanregung durch den Bogen, die Schwingung der Saiten und die Funktion des Resonanzkörpers rechnerisch dargestellt. Dies kann von einfach bis sehr aufwändig geschehen. Zu diesem Verfahren wird auch die sog. Karplus-Strong-Synthese gezählt; dieser Algorithmus wird besonders zur Bildung von Klängen von Saiteninstrumenten benutzt. Als Ausgangsmaterial werden kurze Zeitabschnitte eines Geräuschs verwendet, die verändert und in der erforderlichen Anzahl pro Sekunde wieder zu einer periodischen Schwingung zusammengesetzt werden.

2.2 Musikinstrumente 

 109

Wavetable-Synthese: Man versteht unter dieser Synthese die Klangerzeugung auf der Basis fertiger, digitaler Schwingungsformen, die entweder durch additive oder subtraktive Nachbearbeitung geformt und zu Klängen verarbeitet werden. Diese Schwingungen liegen als fest abgespeicherte Zahlentabellen, sog. wavetables, im ROM-Speicher des Synthesizers vor. Das Verfahren braucht deutlich weniger Rechenleistung als z. B. Granularsynthese oder Physical Modeling. Subtraktive Synthese: Bei der subtraktiven Synthese geht man von sehr obertonreichen Wellenformen aus, z.  B. einer  sägezahnförmigen Schwingung, die alle Teiltöne enthält (siehe dazu auch Kap. 1.1.1.3). Mit einfacher oder mehrfacher Filterung werden bestimmte Teile des Spektrums entfernt. Das Filter kann von außen zeitabhängig steuerbar sein, damit es durch Modulationen, Hüllkurven o. a. lebendiger, echter wirkt. Dieses Verfahren ist auch analog gut realisierbar und gehört zu den ersten, vielfach angewandten Verfahren, stellt aber eigentlich ein Verfahren der Klangveränderung dar. 2.2.4.3 Verfahren der elektronischen Klangveränderung Eine Vielfalt von Verfahren wird für die Veränderung vorhandener Klänge oder Sounds angewendet, siehe dazu auch Kap. 6.2 bis 6.6: Amplitudenmodulation: Bei der Amplitudenmodulation oder AM z. B. einer Schwingung wird die Amplitude bzw. die Lautstärke periodisch durch eine zweite Schwingung verändert, indem die Schwingungen  miteinander  multipliziert werden,  musikalisch ausgedrückt ist dies ein sog. Tremolo. Erfolgt die Modulation eines Sinustons ebenfalls durch einen Sinuston mit mehr als etwa 20 Hz, so werden mit den zwei Sinustönen mehrere weitere hörbare Teiltöne erzeugt. Dadurch entsteht aus einer Frequenz von z. B. 1  kHz und einer Modulationsfrequenz von 400 Hz ein Spektrum aus der Summe und der Differenz der beiden Frequenzen, also zusätzliche Sinustöne mit 600 und 1,4 kHz. Mit AM werden insbesondere komplexe Spektren verändert bzw. verzerrt. Analog wird eine AM realisiert, indem zwei Signale gemischt und über eine nichtlineare Kennlinie übertragen werden. Überträgt  man einen einzelnen Sinuston über eine solche Kennlinie, so entstehen neue Töne mit dessen ganzzahligen Vielfachen. Frequenzmodulation: Bei der Frequenzmodulation oder FM, die analog  mit einfachen Mitteln zu realisieren ist, wird eine Schwingung, allg. ein Klang durch eine zweite Schwingung in  seiner Tonhöhe periodisch verstimmt, bei wenigen Frequenzänderungen pro Sekunde musikalisch ein Vibrato. Wird bei diesem Verfahren eine Schwingung mit einer Frequenz von mehr als 20 bis 30 Hz verstimmt, entstehen neue hörbare komplexe Schwingungen. Die FM wurde in den 1980er Jahren in der Popmusik zu einer  mit Synthesizern häufig benutzten Methode. Sie ist allerdings eine schwer zu kontrollierende und in ihrer Wirkung kaum vorherzusagende Art der Klangveränderung. Phasenmodulation: Die in ihrer klanglichen Wirkung der Frequenzmodulation ähnliche Phasenmodulation oder PM wird bei den digitalen Verfahren der Klangbearbeitung bevorzugt; analog ist PM nur aufwändig zu realisieren. Die zu modulierende Schwingung wird dabei mit derselben Schwingung, deren Phase aber zwischen 0° und 180° schwingt, moduliert. Auch die Ergebnisse dieser Form der Modulation sind nicht einfach vorauszusehen.

110 

 2 Schallquellen

Granularsynthese: Bei diesem digitalen Verfahren wird eine komplexe Schwingung z B. von einem Instrument in viele sehr kurze Klangabschnitte zerschnitten, die dann über Rechenanweisungen, sog. Algorithmen, in Gestalt, Wiederholungsmustern und Reihenfolge verändert und neu zusammengesetzt werden. Die Granularsynthese ist wohl das radikalste Verfahren der Klangveränderung. Die Zeitabschnitte  sind  mit Werten unter 50  ms  so kurz, dass  sie nicht mehr als Impulse empfunden werden, sondern als Klangfarben. Die grains, also die Mikro-Klangabschnitte, können in vielfältigster Weise bearbeitet und verändert werden, wiederholt, gedreht, überlappt, vertauscht usw. Diese Technik eröffnet ungeahnte Möglichkeiten der Klangveränderung, besser Neugestaltung, das Verfahren besitzt ein großes kreatives Potential: Man kann einen Klang z. B. verlängern oder sehr stark aufrauen, ihm ein anderes Spektrum geben oder beliebige Veränderungen der Tonhöhen erstellen. Der resultierende Klang ist zwar abhängig von dem bearbeiteten Klang, jedoch sind die Gestaltungsmöglichkeiten der einzelnen grains so immens, so dass sich neue Klangkombinationen bzw. Klangstrukturen ergeben. Dies  macht die Granularsynthese praktisch zu einem Verfahren der Klangerzeugung, nicht nur Klangveränderung. Wave Sequencing: Das Verfahren beruht wie die Granularsynthese auf einem Zerschneiden eines Schwingungsverlaufs und anschließendes Bearbeiten der Zeitabschnitte, diese  sind hier jedoch länger. Beim Sampling  sind  sie lang genug, dass der Klang der gesampelten Schwingung erhalten bleibt. Phase-Vocoder: Der Phase-Vocoder wurde 1965 von Flanagan und Golden entwickelt. Wie der Name  schon  sagt, ist der Phase-Vocoder eine Art Vocoder (siehe Kap.  6.6.7), d.  h., ein Gerät zur Ver- und Entschlüsselung von Stimmen. Phase-Vocoder funktionieren allgemein gesagt wie eine Filterbank, bei der die Filter in Reihe geschaltet sind und jedes Filter einen bestimmten Bereich der Frequenzen herausfiltert und deren Lautstärke ermittelt. Die Daten der Lautstärke und Frequenz der einzelnen Frequenzbänder werden zur Resynthese eines Klangs benutzt. Dadurch wird der Klang wieder neu zusammengesetzt. Man ersetzt einen Klang durch einen anderen, wobei wesentliche Klangeigenschaften und zeitliche Strukturen erhalten bleiben. Filtert man im Vocoder z. B. Sprache und setzt bei der Resynthese an die Stelle der Oszillatoren einen Bläserakkord, so kann man diesen Akkord sprechen oder singen lassen. Der Phase-Vocoder kann auch Übergänge zwischen verschiedenen Klängen erzeugen: eine Stimme kann langsam in einen Flötenton übergehen, das sog. Morphing, oder es kann eine Zeitkompression oder Zeitdehnung erzielt werden, ohne das Spektrum zu verändern, man kann einen Titel beschleunigen, ohne seine Tonhöhen zu verändern. Ringmodulator: Mit der Ringmodulation lassen sich unharmonische Obertonspektren erzeugen, metallische Klänge, siehe Kap. 6.6.5. Transitional Synthesis: Rechnerisch wird durch Interpolieren ein fließender Übergang zwischen zwei ähnlichen Ereignissen gestaltet. Direct Digital Synthesis: Ein Computer rechnet das digitale Material vorhandener Schwingungsformen nach bestimmten Rechenvorschriften um, wodurch neue Klänge entstehen. Composite Synthesis: Bei diesem Verfahren  mischt  man künstlich erzeugte und natürliche Klänge in Form von Samples zu einem neuen Klang.

2.2 Musikinstrumente 

 111

2.2.4.4 Klangsteuerung durch MIDI Die Weiterverarbeitung von Klängen zu kompletten Musikstücken oder Titeln kann entweder live erfolgen, d. h., die Interpretation und die Wiedergabe über Lautsprecher sind zeitgleich, oder ein Titel wird produziert, die Wiedergabe erfolgt dann stets von einem Tonspeicher zu einem anderen Zeitpunkt. Für die Aufnahme, Speicherung und Steuerung von elektronischen Musikinstrumenten und die Bearbeitung von elektronischen oder akustischen Klängen werden einige Geräte oder Softwaremodule benutzt, die hier nur kurz definiert werden. Für die digitale Musikproduktion  selbst wird auf die Literatur verwiesen, z.  B. [Bremm, 2004, 2007], [Conrad, 2012], [Hömberg, 2010]. MIDI MIDI, eine digitale Schnittstelle für MIDI-fähige Musikinstrumente, abgekürzt aus Musical Instrument Digital Interface, ist ein Datenübertragungsprotokoll für die Übermittlung, Aufzeichnung und Wiedergabe von umfassenden Steuerinformationen zur Klangerzeugung bzw. Musikproduktion zwischen Geräten, Keyboards, Instrumenten, Computern, Regiekonsolen u.  a. Neben elementaren Befehlen zu einzelnen Tönen wie Tonhöhe, Dauer, Beginn und Ende, Informationen zur Einhüllenden u. a. werden auch weitere komplexe und  spezielle Befehle übermittelt. MIDI wurde erstmals 1983 vorgestellt als nicht patentierter Industrie-Standard, heute als Open-Source-Software bezeichnet, was eine schnelle Verbreitung und Akzeptanz auslöste. Die Möglichkeit, MIDI-Daten mit Computern zu bearbeiten, war die Grundlage des sog. Homerecording, also der elektronischen und akustischen Musikproduktion im nicht professionellen Bereich, vor allem durch die Musiker selbst. MIDI ist eine Übereinkunft zwischen Firmen, kein international normierter Standard,  sondern ein Industrie-Standard der MIDI Manufactures Association. MIDI beherrscht den Markt der musikalischen Unterhaltungsindustrie. MIDI arbeitet nur mit Steuerfunktionen, es kann keine dem Original klanglich folgende Wiedergabe bieten, diese liefern die gesteuerten Instrumente. MIDI ist also kein Audioformat; insofern kann  man einen MIDI-Datensatz  mit den Informationen einer Notenpartitur für Klavier vergleichen. Das Format wird von sehr vielen elektronischen Instrumenten und Soundkarten, Drum-Computern, aber auch Effektgeräten jeglicher Art unterstützt, des Weiteren von Lichtanlagen, über Konverter auch von akustischen Instrumenten wie E-Gitarren. Die MIDI-Schnittstelle ist eine  serielle Schnittstelle  mit einer Übertragungsrate von 31,25 kBaud, also eine relativ langsame Schnittstelle, was bei komplexen Zusammenschaltungen zu hörbaren Verzögerungen führen kann. Mit vier verschiedenen Modes wird die Zuordnung der Stimmen und der MIDI-Kanäle (Channels) festgelegt. Der MIDI-Standard setzt voraus, dass alle MIDI-fähigen Geräte MIDI-Anschlussbuchsen haben, sie entsprechen den 5-poligen Stereo-DIN-Buchsen, sind aber anders beschaltet. In der Regel haben die Geräte drei Buchsen: MIDI-IN für den Datenempfang, MIDI-OUT für den Datenexport und MIDI-THRU (= Through) für die Durchschaltung der Daten. Die Verkabelung erfolgt über MIDI-Kabel, die nach dem MIDI-Standart beschaltet sind. Es gilt die Steckrichtung: OUT nach IN, IN nach OUT, THRU nach IN. Um MIDI-Instrumente  mit einem Computer ansteuern zu können,  muss der Computer  mit einem MIDI-Interface ausgerüstet  sein. Moderne Soundkarten haben eine MIDISchnittstelle. MIDI-Files  sind komplett arrangierte Songs für Keyboards. MIDI-Files  sind

112 

 2 Schallquellen

quasi Playbacks, sie geben die Instrumente eines Musikstücks komplett wieder mit Schlagzeug, Gitarre, Bass, Keyboard usw. Ein Song im MIDI-Format kann in Tempo, Tonhöhe, In­­ strumente u.  a. verändert werden. Jedes einzelne Instrument kann ein- und ausgeschaltet werden. Es hat sich ein Markt für MIDI-Files gebildet. MIDI-Standard 1983 legt die MMA (MIDI Manufacturers Association) die Vorschriften für die MIDI-Hard- und -Software in der MIDI-Spezifikation fest. Um die Einhaltung dieser Spezifikation zu überwachen, wird die Internationale MIDI-Association (IMA) gegründet. 1990 erfolgt die Einigung auf ein Standard-MIDI-File-Format (SMF). Dieser Standard gewährleistet, dass alle abgespeicherten Musikstücke auch auf verschiedene Computertypen geladen und in allen Musikprogrammen bearbeitet werden können. Es gibt bei diesen Files das Format 0, bei dem alle Daten auf einer Spur (Track) zusammengefasst sind, und das Standardformat 1, bei dem die Daten von bis zu 16 Kanälen unabhängig voneinander eine eigene Spur haben. [Stotz, 2019] 1991 wird der General-MIDI-Standard (GM-Standard) vereinbart. Er wird benötigt, wenn  man fertige Musikstücke im MIDI-File-Format abspielen oder die MIDI-Files weitergeben will. Er ist mindestens 24-stimmig und gewährleistet, dass die einzelnen Klänge von einem Instrument derselben Art wiedergegeben werden, d. h., ein Klavierpart wird nur von einem Klavierklang gespielt. 127 Instrumente sind Klangnummern zugeordnet. Dazu gibt es weitere 16 Spuren bzw. Kanäle. Nachdem sich das grundlegende Konzept des GM-Standards bewährt hat, kommt es 1994 zu den firmenspezifischen Erweiterungen GS und XG; XG z. B. ist  mindestens 32-stimmig, beinhaltet 676 Instrumente, zusätzliche Drum-Sets und ermöglicht flexiblere Effekte z. B. für Hall. GS und XG sind zu GM abwärtskompatibel. MIDI-Komponenten Masterkeyboard: Ein Masterkeyboard ist eine Klaviatur zur Erzeugung von MIDI-Steuerdaten ohne eigene Klangerzeugung. Es kann an beliebige MIDI-fähige Instrumente, z. B. einen Sampler oder Synthesizer zur direkten Klangansteuerung angeschlossen werden oder an einen MIDI-Sequenzer zur Aufzeichnung von MIDI-Befehlen. Professionelle Masterkeyboards verfügen über eine dem Klavier ähnliche mechanische Klaviatur sowie weitere Spielhilfen und Steuerfunktionen. Neben einem MIDI-Ausgang ist u.  U. auch ein USB-Ausgang vorhanden. Masterkeyboard-Funktionen haben meist auch Digitalpianos und andere Instrumente mit Keyboard. Sampler: Der Sampler ist ein elektronisches Musikinstrument, das Töne elektronischer oder akustischer Herkunft aufnimmt, digitalisiert und als Samples in einer Audiodatei z. B. auf einer Festplatte speichert. Über ein Masterkeyboard oder eine MIDI-Steuerung können diese Daten über einen Prozessor in jeder gewünschten Tonhöhe wiedergegeben werden. Hardwaresampler  sind im Prinzip  spezialisierte PCs, Softwaresampler  sind Computerprogramme, die zusätzlich mit A/D- und D/A-Wandlern und Soundkarten arbeiten. Professionelle Sampler verfügen über eine größere Zahl klangformender Komponenten wie Filter und Effekte, was sie dann im Prinzip zu Synthesizern macht. Da die Aufnahme und der Schnitt von Samples relativ aufwändig  sind, greifen Musiker vielfach auf fertige Sample-Libraries

2.2 Musikinstrumente 

 113

z.  B. auf CD oder im Internet zurück oder  sampeln Töne aus vorhandenen Aufnahmen. Sampler ohne Aufnahmemöglichkeit werden als ROM-Sampler oder Rompler bezeichnet. Sequenzer: Der Sequenzer ist ein Computer zur Speicherung, Bearbeitung und Ausgabe von Steuerdaten für Klangerzeuger, z. B. Synthesizer, Sampler oder elektronische Instrumente. Beim MIDI-Sequenzer sind die Steuerdateien als MIDI-Dateien vorhanden und steuern alle wichtigen Eigenschaften eines musikalischen Tons wie Zeitpunkt des Beginns, Dauer, Lautstärke und Zuweisung des Klangerzeugers. Die erklingenden Noten können über ein Masterkeyboard in Echtzeit gespielt oder über einen PC editiert werden. Synthesizer, Workstations und PCs: Die einzelnen Geräte, Instrumente oder Softwareprogramme haben mit jeder Generation immer neue Fähigkeiten erhalten, so dass zwischen den genannten Komponenten die Grenzen immer offener werden. Ein entsprechend ausgestatteter PC kann bei entsprechender Leistungsfähigkeit mit einem Masterkeyboard alle Funktionen für eine Musikproduktion übernehmen. Die digitale Audio-Workstation (DAW, AWS) ist ein spezialisierter Computer, der für andere Aufgaben nicht zur Verfügung steht. Begriffe der Hüllkurvensteuerung: Zu den Begriffen, die bei der Ton- und Klanggestaltung verwendet werden (Tab. 2/6 und Kap. 6), kommen bei elektronischen Instrumenten und Verfahren Begriffe der Steuerung der Hüllkurve (Abb. 2/23) hinzu.

Abb. 2/23. Begriffe der Hüllkurvensteuerung.

114 

 2 Schallquellen

Tab. 2/6. Einige Begriffe der Klangsteuerung. Abkürzungen

Begriffe englisch

Begriffe deutsch

ADSR

attack-decay-sustain-release, auch: envelope generator band-pass hight-pass low frequency oscillator low-pass voltage controlled wave form

Hüllkurvengenerator (siehe Abb. 2.23)

BP HP LFO LP VCW

Bandpass Hochpass Tieffrequenzgenerator Tiefpass spannungsgesteuerte Schwingungsform

2.2.4.5 Keyboards und Rhythmusgeräte Die genannten Verfahren der Synthese, Bearbeitung und Speicherung werden in autarken Tasteninstrumenten, sog. Keyboards, bzw. Geräten mit besonderen Aufgaben angewendet. Deren Fähigkeiten sind sehr unterschiedlich, es gibt spezialisierte Keyboards mit besonderen Bezeichnungen, von denen nachfolgend einige genannt  sind, es gibt universelle Keyboards, die Grenzen sind fließend; auch zwischen professionellen und nicht professionellen Geräten. Zudem werden mit jeder neuen Gerätegeneration neue Features eingeführt. Oft werden die Geräte mit ihrer Typenbezeichnung und/oder dem Hersteller benannt, um Klarheit zu haben. Im einfachsten Fall dienen Keyboards nur der Klangerzeugung mit akustischer Kontrolle über Kopfhörer. Zu selbständigen Instrumenten werden sie mit integriertem oder angeschlossenem Audioverstärker und Lautsprechern. Keyboards werden im Allgemeinen direkt, nicht über Mikrofon aufgenommen (Direct Injection). Um die Sicherheit auch bei fehlerhaften Geräten zu gewährleisten, muss die Verbindung der Geräte mit Erde unterbrochen werden. Entweder werden die Geräte über Trenntransformatoren am 230  V-Netz angeschlossen oder die Leitungen über Trennmodule für Tonsignale,  sog. DI-Boxen (siehe Kap.  8.6). Ein Leslie-Kabinett  muss immer  mit Mikrofon abgenommen werden. Man kann folgende Instrumentengruppen unterscheiden: Elektronische Pianos Aus dem Wunsch, Klaviere oder Flügel elektronisch nachzubilden, wurden zunächst eine Reihe elektromechanischer Instrumente entwickelt, einige davon  sind in Kap.  2.2.4.1 genannt. Hybrid-Pianos sind mechanische Klavierinstrumente mit kürzeren Saiten und teils ohne Resonanzkörper, die elektrisch verstärkt werden, teils auch zusätzlich komplette E-Pianos enthalten. Dem Ziel, den Klavierklang nachzubilden, kommen aber erst seit den 1990er Jahren E-Pianos und E-Flügel mit Sampleplayern nach, d. h., es werden real aufgenommene Klavierklänge abgespielt, die Instrumente verfügen in der Regel auch über MIDI-Steuerungen. Stage-Pianos sind Instrumente ohne eingebauten Lautsprecher oder nur einem kleinen Kontrollmonitor. Digital- oder E-Pianos und E-Flügel sind also auf den Klavierklang spezialisierte Keyboards oder Synthesizer. Sie können auch weitere Sounds enthalten, zusätzlich Begleitrhythmen, Begleitautomatik und weitere Funktionen. Piano-Workstations  sind  sehr umfassend ausgestattete Instrumente.

Literatur 

 115

E-Orgeln und Sakralorgeln Wie  sich das E-Piano aus der Nachahmung des Klavierklangs entwickelt hat, hat die Eoder Digitalorgel ihren Ursprung in der Kirchenorgel. Ein bis drei Manuale, ein Pedal für die Bassstimme, gesampelte Einzelstimmen von Orgelaufnahmen, sog. Register, die zu sog. Dispositionen oder Werken zusammengefügt werden können. Dazu kommen Nachhall und ein breites Spektrum weiterer Klangeffekte. Die kleinsten Varianten aus nur einem Keyboard bestehend, sind die E-Orgel oder Keyboard-Orgel. Heimorgeln, Sakralorgeln und Konzertorgeln sind die leistungsfähigen Varianten. Drum-Computer, Drum Machine, Groovebox und E-Schlagzeug Hierbei handelt es sich um Geräte zur Erzeugung der perkussiven Klänge eines Schlagzeugs und kompletter Rhythmen, entweder analog oder digital aus Samples. Angesteuert werden die Geräte entweder über MIDI oder ein anderes Interface, über eingebaute Pattern-Sequenzer oder Drum-Pads, ein elektronisches Schlagzeug. Der Drum-Computer liefert meist komplette Rhythmusmuster, sog. Styles, die auf bis zu acht Spuren ein akustisches Schlagzeug ersetzen. Ausgelöst wird ein Rhythmus z. B. durch die linke Hand des Keyboarders über eine Einzeltaste oder einen Akkord. Das E-Schlagzeug wird wie ein akustisches Schlagzeug gespielt, erzeugt aber z. B. MIDI-Signale ähnlich der Funktionsweise des Masterkeyboards, die Schlaginstrumente sind hier durch Schlagflächen, sog. Pads ersetzt. Grooveboxen sind umfangreich ausgestattete Kombinationen aus Sampler oder ROM-Sampler, Synthesizer, Sequenzer und Drum-Computer, bis hin zu eigenständigen Geräten zur Musikproduktion.

Standards [DIN 1311] [DIN 1317] [DIN 1320] [DIN 13320] [DIN 45630] [DIN EN 61260l [DIN EN IEC 60268-16] [ISO 16]

Schwingungen und schwingungsfähige Systeme, Tl. 1: Grundbegriffe Norm-Stimmton Akustik; Begriffe Akustik; Spektren und Übertragungskurven,Begriffe, Darstellung Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall Bl. 2: Normalkurven gleicher Lautstärkepegel Eektroakustik — Bandfilter für Oktaven und Bruchteile von Oktaven (IEC 61260) Elektroakustische Geräte, Teil 16: Objektive Bewertung der Sprachverständlichkeit durch den Sprachübertragungsindex Acoustics — Standard tuning frequency (Standard musical pitch)

Literatur [Albrecht, 2017 [Bahnert, 2003] [Baines, 2010]

Albrecht, C.: Der Tonmeister, 2. Aufl., 2017, Schiele & Schön] Bahnert, H., Herzberg, Th. und Schramm, H.: Metallblasinstrumente. Handbuch für Musiker und Instrumentenbauer, 2003, Noetzel Baines, A., Elste, M.: Lexikon der Musikinstrumente, 2010, J. B. Metzler

116 

 2 Schallquellen

[Bisping, 1990] Bisping, R., van der Velden, U. und Wingartz, P.: „Welche Frequenzbereiche im Stimmspektrum sind für die Übermittlung menschlicher Emotionen von besonderer Bedeutung?“, in: Bericht 16. Tonmeistertagung 1990, S. 329ff., 1991, Saur [Bremm, 2004] Bremm, P.: Das digitale Tonstudio. Praktische Hilfe zur digitalen Tonstudiotechnik, 2004, PPV Medien [Bremm, 2007] Bremm, P.: Das Digitale Tonstudio. Technische Grundlagen der Musikproduktion, mit dem Computer, 2. Auflage, 2007, PPV Medien [Conrad, 2012] Conrad, J.-F.: Recording. Einführung in die Technik der Musikproduktion, 7. Aufl., 2012, PPV Medien [Cremer, 1998] Cremer, L.: Physik der Geige, 1998, Hirzel [Dickreiter, 2007] Dickreiter, M.: Musikinstrumente. Moderne Instrumente, Historische Instrumente. Klangakustik, 7. Aufl. 2007, Bärenreiter [Fletcher, 1998] Fletcher, N. H. und Rossing Th. D.: The Physics of Musical Instruments, 2. Aufl. 1998, Springer [Forss, 2007] Forss, C.-J.: Piano- und Flügelstimmung, 2007, Bochinsky [Hömberg, 2010] Hömberg, M.: Recording Basics, 3. Aufl. 2010, PPV Medien [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal [Legenstein, 2014] LLegenstein, M. M.: Der emotionale Ausdruck der Stimme: Die akustischen Merkmale von Emotionen, 2014, AV Akademieverlag [Leonhardt, 1997] Leonhardt, K.: Geigenbau und Klangfrage, 3. Aufl. 1997, Bochinsky [Marinovici, 2008] Marinovici, C.: Musikinstrumentenkunde. Von der Klassik zur Elektronik, 2008, Leu [Meyer, 1990] Meyer, J.: „Zur Dynamik und Schalleistung von Orchesterinstrumenten“, in: Acustica 1990, S. 277ff. [Meyer, 1992] Meyer, J.: Physikalische Aspekte des Geigenspiels, 2. Aufl., 1992, Respublica [Meyer, 2015] Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, PPV Medien [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Schreiber, 1964] Schreiber, E.: „Ein neuartiger elektronischer Klang- und Geräusch­ erzeuger“, in: OIRT-Zeitschrift Rundfunk u. Fernsehen, Prag 1964, H.2 [Seidner, 2010] Seidner, W. und Wendler, J.: Die Sängerstimme. Phoniatrische Grundlagen des Gesangs, 2010, Henschel [Stotz, 2019] Stotz, D.: Computergestützte Audio- und Videotechnik. Multimediatechnik in der Anwendung, 3. Aufl. 2019. Springer Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer [Wackernagel, 2005] Wackernagel, B.: Holzblasinstrumente, 2005, Schneider [Weinzierl, 2014] Akustische Grundlagen der Musik, 2014, Laaber

3 Schallwahrnehmung Michael Dickreiter, Jürgen Goeres-Petry (3.1) 3.1 Das Gehör Das Ohr ist sowohl ein Sinnesorgan für die Wahrnehmung von Schall als auch ein Gleichgewichtsorgan. Es gliedert sich physiologisch in das Außenohr, das Mittelohr und das Innenohr. Abb.  3/1 zeigt einen Schnitt, Abb.  3/2  schematisch den Aufbau. Als Gehör umfasst es außer dem physiologischen Organ auch die nervliche Verarbeitung der Sinneseindrücke, dem Schallereignis, und  seiner Bewusstwerdung als Hörereignis. [Hartmann, 1998], [Hellbrück, 2004], [Fastl, 2007], [Howard, 2017]

Abb. 3/1. Schnitt durch das menschliche Ohr.

3.1.1 Außenohr Das Außenohr dient der Schallankopplung des Ohrs an das umgebende Schalleld und der Umwandlung der Luftschwingungen in  mechanische Schwingungen. Es besteht aus der Ohrmuschel und dem äußeren Gehörgang, dem Ohrkanal. Die zahlreichen Erhebungen und Vertiefungen der Ohrmuschel bilden akustische Resonatoren, die jeweils unterschiedlich bei Schalleinfall aus verschiedenen Richtungen angeregt werden. Hierdurch entstehen richtungsabhängig unterschiedliche Spektren  mit  spezifischen Minima und Maxima, die vom Gehör zur Bestimmung der Einfallsrichtungen des Schalls genutzt werden. Der äußere Gehörgang ist ein mit Haut ausgekleidetes, knorpeliges Rohr von etwa 3 bis 4 cm Länge und https://doi.org/10.1515/9783110759921-003

118 

 3 Schallwahrnehmung

5  bis 10  mm Durchmesser. Er ist über das Trommelfell  mit dem Mittelohr verbunden; das Trommelfell wandelt wie die Membran eines Mikrofons den Luftschall zur Weiterverarbeitung in mechanische Schwingungen um. Das äußere Ohr enthält außerdem sog. Ohrschmalzdrüsen, die ein hellgelbes Sekret liefern, und Talgdrüsen, die das eigentliche Ohrenschmalz, das Cerumen, produzieren. Das Ohrenschmalz übt eine Schutzfunktion gegenüber äußeren Einflüssen aus und verhindert das Eindringen von Verunreinigungen und Krankheitserregern. Ohrenschmalz kann jedoch die Schallleitung beeinträchtigen und  muss gegebenenfalls entfernt werden.

Abb. 3/2. Aufbaus des menschlichen Ohrs.

3.1.2 Mittelohr Zum Mittelohr gehören das Trommelfell, die Gehörknöchelchen, bestehend aus Hammer, Amboss und Steigbügel, das ovale Fenster und die Eustachische Röhre, auch Ohrtrompete oder Paukengang genannt. Die Knöchelchen des Mittelohrs übertragen die Bewegung des Trommelfells auf das ovale Fenster, dieses bildet die Verbindung zwischen Mittel- und Innenohr. Die Knöchelkette wirkt dabei als Drucktransformator bzw. Impedanzwandler. Der auf das ovale Fenster übertragene Druck ist bei kleinerer Membranauslenkung des ovalen Fensters wesentlich größer als der Schalldruck, der auf das Trommelfell einwirkt; umgekehrt wird die Membranauslenkung entsprechend reduziert. Das Mittelohr ist luftgefüllt; über die Eustachische Röhre, die sich beim Schlucken öffnet, findet ständig ein Luftdruckausgleich zwischen Mittelohr und Außenluft  statt. Luftdruckdifferenzen zwischen Außen- und Mittelohr, verursacht z.  B. durch einen Verschluss der Eustachischen Röhre, drücken auf das Trommelfell und können zu schmerzhaft „geschlossenen Ohren“ führen.

3.1.3 Innenohr Das spiralförmige Innenohr besteht aus der Gehörschnecke, der cochlea, in der der Schall in Nervenimpulse umgesetzt wird, und dem Labyrinth, auch Bogengänge genannt, die unser Gleichgewichtsorgan darstellen. Gehörschnecke und Labyrinth  sind ähnlich  strukturiert:

3.1 Das Gehör 

 119

Beide  sind  mit einer Flüssigkeit gefüllt und besitzen Haarzellen, bei denen feine Härchen in die Flüssigkeit hineinreichen. Hier im Innenohr erfolgt die eigentliche Umwandlung von Körperschall in Nervenimpulse, die zum Gehirn weitergeleitet werden. Das Cortische Organ liegt innerhalb der knöchernen Schnecke, der cochlea, und ist ein  mit Endolymphe gefüllter Schlauch. Es ist die Schnittstelle zwischen den akustischmechanischen Schwingungen und den elektrischen Nervensignalen in der Hörschnecke. Der Innenraum der Schnecke wird von drei parallelen Kanälen gebildet, die zur Schneckenform gebogen sind. Diese Kanäle heißen scala tympani oder Paukentreppe, ductus cochlearis oder Schneckengang und scala vestibuli oder Vorhoftreppe. Sie sind teils durch zwei Membranen, die Reissnersche Membran und die Basilarmembran, voneinander getrennt sowie teils durch eine dünne Trennwand (Abb. 3/2). Die Reissnersche Membran liegt zwischen der scala media und der  scala vestibuli. Die zweite Trennung erfolgt durch die Basilarmembran. Man kann sich die Basilarmembran als eine über einen weiten Frequenzbereich gestimmte Harfe vorstellen. Die kurzen, straffen Saiten für hohe Töne bis 20 kHz liegen in der Nähe der Fenster am Beginn der cochlea, die langen, weichen Saiten für tiefe Töne bis 16 Hz hinunter liegen nahe dem helikotrema am Ende der cochlea. Die Basilarmembran ist etwa 33 mm lang, am Ovalen Fenster etwa 0,1 mm breit und hart, beim helicotrema am hinteren Ende etwa 0,5 mm breit und weich. Die eigentliche Wandlung von Schall in Nervenimpulse erfolgt im Cortischen Organ, das auf der Basilarmembran  sitzt. Es enthält innere und äußere Haarzellen  sowie Stützzellen und eine Deckmembran. Durch Wellenbewegungen der Flüssigkeit werden die Haarzellen gebogen und lösen dabei Nervenimpulse aus. Die v-förmig angeordneten sog. Zilien, Flimmerhärchen, auf den äußeren Haarzellen sind Proportional-Rezeptoren und Intensitätsdetektoren, die linienförmig angeordneten Zilien der inneren Haarzellen fungieren dabei als Differential-Rezeptoren und Geschwindigkeitsdetektoren. Die inneren Haarzellen  sind die eigentlichen Rezeptoren für die auditive Sinnesübertragung, ca. 95 % aller Hörnervenfasern entspringen dort. Am unteren Ende des Cortischen Organs befindet sich eine Synapse mit einem sensorischen Neuron. Diese schüttet schon im Ruhezustand Neurotransmitter aus, die die Informationen von einer Nervenzelle zur anderen über die Kontaktstelle der Nervenzellen, der Synapse, weitergeben. Wird nun der Haarfortsatz ausgelenkt, vermehrt sich die Menge der Neurotransmitter. Von der Gehörschnecke leitet der Hörnerv schließlich die Signale zum Gehirn, wo die Schallereignisse am Trommelfell als Hörereignisse ins Bewusstsein treten. In der cochlea werden Klänge und Sprache mittels eines der Fourier-Analyse vergleichbaren Prozesses aus der Wanderwelle selektiert, in ihre einzelnen Tonfrequenzen zerlegt (siehe Kap. 1.1.2.3) und an verschiedenen Orten nebeneinander repräsentiert. Bei dieser Zerlegung werden die einzelnen Frequenzkomponenten der Schallwelle  so  stark verstärkt, dass einzelne Tonhöhen unterschieden werden können; man spricht hier auch von dem cochlearen Verstärker. Grundlage der Verstärkung ist die große Beweglichkeit der äußeren Haarzellen, die Schwingungen mit bis zu 20 kHz folgen können und die Wanderwelle bis 1.000-fach verstärken. Das passive Mitschwingen der Basilarmembran mit ihrer vom runden Fenster zum helicotrema abnehmenden Steife und zunehmenden Masse und die sich ortsspezifisch ausbildenden Schwingungsmaxima der Wanderwelle erklären aber allein nicht die hohe Selektivität der Tonhöhe und den hohen Dynamikumfang der Schallwahrnehmung. Das Schallintensitätsverhältnis beträgt bis zu 1 : 10.000.000 oder 140 dB.

120 

 3 Schallwahrnehmung

Die äußeren Haarzellen spielen bei diesem Prozess eine ebenso aktive Rolle, vergleichbar einem elektrischen Verstärker; unter Einsatz neuronaler Energiequellen wird dieser Prozess vom Gehirn gesteuert. Die äußeren Haarzellen können sich bei Anregung zusammenziehen oder verlängern, synchron zu den Reizen und damit ortsspezifische Bewegungen ausführen. Diese Auslenkungen der Membran verstärken z. B. bei sehr leisen Tönen das Signal um das 100-fache, wohingegen bei sehr lauten Tönen durch diesen aktiven Prozess die Amplitude der Schwingungen gedämpft wird. Dies schützt die Membran vor mechanischem Zerreißen oder generell vor Überlastung.

3.2 Schallereignis und Hörereignis Eine Schallwelle, die auf das Ohr trifft, ist eindeutig physikalisch definierbar. Ein Sinuston z.  B. hat eine eindeutig bestimmbare Frequenz, Dauer, Einfallsrichtung und einen eindeutig bestimmbaren Schalldruckpegel. Dieses Schallereignis trifft als Reiz auf das Ohr, wandert durch das komplizierte  mechanische System des Ohrs und wird  schließlich als elektrisches Signal, ähnlich einem Digitalsignal, durch die Nervenbahnen, Schaltstellen und Nervenzentren zum Gehirn geleitet. Erst jetzt wird uns der Reiz als Hörereignis, als Empfindung, bewusst. Diese Empfindung kann aber nicht  mehr durch die physikalischen Größen des Schallereignisses beschrieben werden, da Empfindungen keine physikalischen Größen sind und somit nicht mit physikalischen Messmethoden unmittelbar erfassbar  sind. Wir wissen auch, dass bereits bei der mechanischen Reizweiterleitung im Mittel- und Innenohr die Reizgestalt verändert wird. Ein Sinuston z. B. erhält zusätzliche Obertöne, er wird verzerrt. In den Nervenzellen wird der Reiz in ganz anderer Gestalt, nämlich als Folge von Impulsen weitergeleitet. Eine weitere Komplikation ergibt sich daraus, dass zwar die Größen des Schallereignisses voneinander unabhängig messbar sind, beim Hörereignis hängt aber z. B. die empfundene Tonhöhe des Sinustons zwar hauptsächlich von der Frequenz, aber außerdem auch von der Dauer und dem Schalldruckpegel des Schallereignisses ab. Der Zusammenhang von Schallereignis, dem Reiz, und Hörereignis, der Empfindung, ist also komplex, beide Größen können nicht gleichgesetzt werden. Mit den Zusammenhängen von Reizen und Empfindungen befasst sich die Psychoakustik. Um über das Hörereignis gültige Angaben machen zu können, können nur die Aussagen von Versuchspersonen ausgewertet werden. Diese  sind aber zunächst ganz allgemein: ein Hörereignis ist laut oder leise,  meist werden  sogar Ausdrücke aus anderen Sinnesbereichen verwendet wie hell, dunkel, schwach, spitz usw. Diese Worte sind ungenau. Man möchte den Zusammenhang von Reiz und Empfindung genauer, möglichst durch Kurven angeben. Dies ist tatsächlich möglich, weil eine Versuchsperson ihre Aufmerksamkeit auf einzelne Komponenten des Hörereignisses richten kann. Sie kann z. B. die Lautheit zweier verschieden langer oder hoher Töne vergleichen, weil ein geübtes Gehör in der Lage ist, Tondauer und Tonhöhe bei der Beurteilung der Lautheit weitgehend unberücksichtigt zu lassen. Diese Komponenten der Empfindung, auf die man achten und die man getrennt von den anderen Komponenten beurteilen kann, sind die sog. Empfindungsgrößen, wie z. B. eben Lautheit, Rauigkeit oder Tonhöhe. Sie erhalten wie die Reizgrößen eine Einheit, besser gesagt eine Hilfs- oder Pseudoeinheit, die Lautheit z. B. das Sone. Jede Empfindungsgröße kann nun durch eine Kurve in ihrer Abhängigkeit von jeweils einer Reizgröße beschrieben werden. So kann man die Empfindungsgröße Tonhöhe

3.3 Eigenschaften der Schallwahrnehmung 

 121

in Abhängigkeit von den Reizgrößen Frequenz, Schalldruckpegel oder Schalldauer angeben. Dabei müssen die jeweils unberücksichtigten Reizgrößen konstant gehalten werden. Betrachten wir am Beispiel der Empfindungsgröße Lautheit, die in erster Linie vom Schalldruckpegel bestimmt wird, wie Empfindungsgrößen definiert und mit Einheiten versehen werden können (Genaueres hierzu  siehe unten). Weitere Zuverlässigkeit und Genauigkeit erhalten  solche Angaben noch, indem man die Aussagen vieler Versuchspersonen statistisch auswertet. Will man z. B. die Lautheit eines Tons messen, so hält man bei allen Versuchen die Reizkomponenten Frequenz und Dauer konstant, z. B. die Frequenz bei 1.000 Hz und die Dauer bei 1,0 s. Dem Ton mit dem Schalldruckpegel L = 40 dB schreibt man nun für diese Frequenz und Dauer willkürlich die Lautheit S = 1 Sone zu. Nach wiederholter Verdopplung und Halbierung der Lautheit durch Verändern des Schalldruckpegels erhält man die Lautheit des 1.000 Hz-Tons für eine so große Zahl von Schalldruckpegeln, dass man schließlich die Abhängigkeit zwischen Reizgröße L in  dB und Empfindungsgröße S in Sone als  stetige Kurve angeben kann (siehe Abb. 3/6). Besonders Aussagen über die Verdopplung oder Halbierung einer Empfindungsgröße zu machen, gelingt relativ einfach und zuverlässig. Die unten dargelegten Beziehungen von Reizgrößen und Empfindungsgrößen wurden bei Versuchen in einem objektivierten, wissenschaftlichen Klima meist mit Sinustönen oder Rauschen, gewonnen. Diese Hörbedingungen und Schallereignisse sind andere als wir sie z. B. beim Hören von Musik vorfinden. Denn ein Ton in einem Musikstück hat nicht nur Lautheit, Dauer, Klangfarbe und Tonhöhe, sondern ist auch musikalischer Sinnträger. Er hat eine bestimmte Stellung in der Melodie oder Harmonie, oder er ist Träger eines Wortes und einer Emotion. Weiterhin kann dieser Ton auch Teil eines lästigen Geräuschs sein. Diese verschiedenen Sinnfunktionen, die ein Ton annehmen kann, beeinflussen natürlich die Hörempfindung zusätzlich. Sie  sind aber so komplex, dass sie nicht auf dieselbe Weise wie Empfindungsgrößen erfassbar sind. Sie überlagern sich aber den Beziehungen zwischen Reiz und Empfindung.

3.3 Eigenschaften der Schallwahrnehmung 3.3.1 Lautstärkepegel und Lautheit Hörfeld, auch Hörfläche oder Hörbereich, nennt man den Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis ein Hörereignis auslöst. Das Hörfeld ist bei kleinen Schalldruckpegeln durch die Hörschwelle, bei großen Schalldruckpegeln durch die Schmerzschwelle begrenzt. Nur Schallereignisse mit Frequenzen zwischen 16 Hz und 16 kHz, maximal 20 kHz, rufen Hörereignisse hervor. Mit dem Alter verschiebt sich die Hörschwelle vor allem im oberen Frequenzbereich: Im Alter von 60 bis 70 Jahren ist die Hörschwelle bei 2 kHz etwa um 20 dB, bei 8 kHz etwa um 50 dB angehoben, unter 2 kHz gibt es keine einschränkenden Veränderungen; im Alter von 50 bis 60 Jahren ist die Verschiebung der Hörschwelle noch gering [Hesse, 2005]. Als Ursachen für die sog. Altersschwerhörigkeit werden in erster Linie Schäden bei den Haarzellen und in der Hörbahn vermutet. Die altersbedingte Anhebung der Hörschwelle beeinflusst auch die Wahrnehmung der Dynamik bzw. von Pegeldifferenzen (siehe Kap. 3.3.2).

122 

 3 Schallwahrnehmung

Diese Richtwerte gelten nicht für Personen, die in lärmerfüllter Umgebung arbeiten. Die allgemeine Hörfähigkeit im Alltag wird durch die Altersschwerhörigkeit aber relativ geringfügig beeinträchtigt, da der wichtigste Hörbereich unter 4 kHz liegt (siehe auch Kap. 11.2.1 ff.). Abb.  3/3 zeigt das Hörfeld; eingezeichnet ist außerdem der Bereich, den Sprache und Musik ungefähr einnehmen. Man sieht, dass dieser Bereich allseitig geschützt ist, dass erst größere Beeinträchtigungen des Hörvermögens die Wahrnehmung von Sprache und Musik beeinträchtigen.

Abb. 3/3. Hörfeld mit Sprach- und Musikbereich.

Durchläuft ein Sinuston  mit einem konstanten Schalldruckpegel von angenommen 20  dB den gesamten hörbaren Frequenzbereich von 16 Hz bis 20 kHz, so bleibt der Ton keineswegs gleich laut. Er wird vielmehr mit steigender Frequenz zunächst lauter, über etwa 4 kHz wieder leiser. Um diese Feststellung für verschiedene Schalldruckpegel genau zu erfassen, hat man die „Kurven gleicher Lautstärkepegel“ ermittelt (Abb. 3/4). Sie geben in Abhängigkeit von der Frequenz den Schalldruckpegel L an, der die jeweils gleiche Lautstärkeempfindung hervorruft, und beschreiben damit eine der wichtigsten Eigenschaften des menschlichen Gehörs. Man ordnet jeder der Kurven einen bestimmten Lautstärkepegel zu, der in der Hilfseinheit Phon angegeben wird. Für 1 kHz hat man den Schalldruckpegel in dB und den Lautstärkepegel in Phon willkürlich zahlenmäßig gleichgesetzt. Bei der Gewinnung der Kurven gleicher Lautstärkepegel spielen die Bedingungen, unter denen gemessen wird, und die Auswahl der Versuchspersonen durchaus eine Rolle.

3.3 Eigenschaften der Schallwahrnehmung 

 123

Abb. 3/4. Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld beim Hören mit beiden Ohren nach [DIN 45630, 1971] und [ISO 226, 2003].

124 

 3 Schallwahrnehmung

Es ist deshalb sinnvoll, die Kurven gleicher Lautstärkepegel zu normen, um für alle Überlegungen, die an diesen Kurven anschließen, eine gemeinsame Basis zu haben. Abb.  3/4a zeigt die nach [DIN 1318] und [DIN 45630], beide zurückgezogen, genormten Kurven, die mit den internationalen ISO-Empfehlungen [R 226] übereinstimmen; 2003 wurde von ISO eine überarbeitete Empfehlung [R 226-2003] herausgegeben, die die Forschungen der letzten Jahrzehnte berücksichtigt und nun im Allgemeinen verwendet wird (Abb.  3/4b). Die Hörschwelle, gestrichelt dargestellt, liegt bei 4 Phon, nicht bei 0 Phon. Der Grund dafür ist, dass als Bezugsschalldruck der runde Wert 20 μN/m2 bzw. 20 μPa international vereinbart wurde. Die DIN- und ISO-Kurven beziehen sich auf Personen mit normalem Gehör zwischen 18 und 25 Jahren beim Hören mit beiden Ohren im freien Schallfeld, also bei Beschallung von vorne im reflexionsarmen Raum. Für andere Schallsignale, z. B. Rauschen, oder für andere Abhörbedingungen, wie z. B. im Diffusfeld (Abb. 3/5), ergeben sich etwas abweichende Normalkurven.

Abb. 3/5. Differenz der Pegel von Schmalbandrauschen gleicher Lautstärke von diffusem und freiem Schallfeld.

Während die Lautstärkepegel von Sinustönen relativ einfach und zuverlässig ermittelt werden können und dafür Phon-Angaben sinnvoll sind, sind die Verfahren zur Feststellung des Lautstärkepegels von Klängen und Geräuschen komplizierter und ergeben je nach angewandtem Verfahren recht unterschiedliche Werte; das früher hierfür verwendete Phon-Maß ist hier nicht mehr sinnvoll anwendbar. Eine erste Annäherung an den Lautstärkepegel komplexer Schallereignisse erbringen in diesem Fall im Allgemeinen die Messungen des A-bewerteten Schalldruckpegels nach [DIN EN 61672], siehe Kap. 9.5.3. Der Lautstärkepegel kann auch auf Grund der psychoakustischen Kenntnisse über das Gehör berechnet werden. Hierfür sind verschiedene Verfahren angegeben worden, die allerdings beträchtliche Abweichungen im ihren Ergebnissen aufweisen. Das Verfahren der Lautstärkeberechnung aus dem Geräuschspektrum nach Zwicker wurde in [DIN 45631] normiert und als ISO-Empfehlung [ISO 532B] international verbreitet. Der Lautstärkepegel eignet sich für den Vergleich der Lautstärkeempfindung gleich lauter Schallereignisse. Er eignet sich aber nicht dafür, verschieden laute Schallereignisse miteinander zu vergleichen. Während nämlich z.  B. beim Schalldruckpegel einer Druckverdopplung eine Pegelzunahme von 6 dB entspricht, bedeutet eine Verdopplung der empfundenen Lautstärke in dem praktisch wichtigen Lautstärkebereich über 30 Phon eine Lautstärkepegelzunahme um 10 Phon. Die Lautheit S erfasst deshalb die tatsächlichen Lautstärkeverhältnisse verschiedener Lautstärkepegel LS zueinander; sie wird in sone angegeben. 40 Phon bei

3.3 Eigenschaften der Schallwahrnehmung 

 125

1 kHz werden definiert als 1 Sone. Dem doppelt so laut empfundenen Wert von 50 Phon entsprechen also 2 Sone. Die Abhängigkeit zwischen sone und Phon gibt Abb. 3/6 an.

Abb. 3/6. Zusammenhang zwischen Lautheit S [Sone] und Lautstärkepegel LS [Phon].

3.3.2 Anpassung und Maskierung Die vielfältigen Phänomene der Anpassung und Maskierung oder Verdeckung sind Maßnahmen des Gehörs, eine nicht mehr verarbeitbare Datenflut für die eigentliche Wahrnehmung zu reduzieren. Denselben Ansatz verfolgt die digitale Tontechnik, indem sie die Datenreduktion, die das Gehör vornimmt, im Prinzip nachahmt, um für die Bearbeitung, Übertragung und Speicherung mit ganz wesentlich reduzierten Datenmengen auszukommen; diese sog. psychoakustisch basierten Audiocodecs werden ausführlich in Kap.  14 behandelt, auch weitere Details zur Psychoakustik insbesondere der Maskierung. Eine wichtige Eigenschaft des  menschlichen Gehörs ist die Anpassung, nämlich die Fähigkeit, seine Empfindlichkeit einem bestimmten, gerade herrschenden mittleren Schallpegel anzupassen, ähnlich wie  sich das Auge an verschiedene Helligkeitsgrade anpasst. Dadurch werden z B. gleichmäßige Hintergrundgeräusche im Höreindruck stark zurückgedrängt, dadurch kann sich das Gehör aber auch innerhalb bestimmter Grenzen z. B. an verschiedene Wiedergabepegel beim Anhören von Tonproduktionen anpassen, ohne dass dabei ein wesentlicher qualitativer Unterschied besteht. Denn das Gehör bildet sich aus den mannigfaltigen Reizeinwirkungen ein Bezugssystem, Anpassungsniveau genannt, an dem  sich die einzelnen Urteile wie laut − leise, aber auch hell − dunkel und hoch -- tief als an einem Mittelwert orientieren. Diese Anpassung hat aber auch zur Folge, dass ein gleichmäßiger Dauerton mit zunehmender Zeitdauer immer leiser erscheint; das Gehör ermüdet und ordnet diesen Dauerschall als unwichtigeres Hintergrundgeräusch ein, eine  sehr  sinnvolle Funktion des Gehörs. In der Musik kann die Aufmerksamkeit dadurch erhalten werden, dass ein Ton ständig verändert wird, z. B. in seiner Höhe durch ein Vibrato oder in seiner Intensität durch ein Tremolo. Mit der Anpassung verbunden ist eine weitere Erscheinung, die  man als Maskierung oder Verdeckung bezeichnet. Ein auf das Gehör einwirkender Reiz setzt gleichzeitig die Emp-

126 

 3 Schallwahrnehmung

findlichkeit für andere Reize herab. Allgemein gilt, dass Schall höherer Frequenz Schall tieferer Frequenz dann verdeckt, wenn der Frequenzabstand gering ist. Schall tieferer Frequenz verdeckt Schall höherer Frequenz dann, wenn der tieffrequente Schall vergleichsweise große Intensität besitzt. Maskierung oder Verdeckung gibt es nicht nur für gleichzeitige Signale, sondern auch für zeitlich aufeinander folgende Signale. Die Nachverdeckung lässt Signale, die auch bei simultaner Darbietung verdeckt werden, nach Abschalten des verdeckenden Signals eine kürzere Zeit lang unhörbar bleiben. Die Zeitspanne der Nachverdeckung hängt sehr von den Signalarten und -dauern ab; sie liegt im Bereich einiger ms bis einiger 10 ms. Auch eine Vorverdeckung für bis etwa 20 ms voreilende Signale kann beobachtet werden, ein lauter Klangeinsatz kann demnach z. B. ein leises, vorangehendes Störgeräusch verdecken.

3.3.3 Tonhöhe Die Tonhöhenempfindung als Teil des Höreindrucks wird hauptsächlich bestimmt durch die Frequenz einer Schwingung. Bei Sinustönen oder annähernd sinusförmigen Klängen ist dazu der Schallpegel von einem gewissen Einfluss: Bei Frequenzen unter 2 kHz sinkt die empfundene Tonhöhe geringfügig mit zunehmendem Pegel, bei Frequenzen darüber steigt sie mit zunehmendem Pegel. Die Frequenz des Sinustons gibt nun also nicht mehr genau die Tonhöhe an. Man nennt die empfundene, nicht mit der Frequenz übereinstimmende Tonhöhe „spektrale Tonhöhe“. Das Gehör kann bei Sinustönen unterhalb 500  Hz bei Tonfolgen eine Frequenzänderung von etwa 3,5  Hz gerade noch wahrnehmen. Bei Frequenzen über 500  Hz beträgt die hörbare Änderung 0,7  % der  sich ändernden Frequenz. Langsamere Schwankungen der Tonhöhe werden Vibrato genannt,  schnelle Schwankungen  machen einen Ton rau (siehe unten Kap. 3.3.5). Die Fähigkeit, musikalische Töne mit geringem Tonhöhenunterschied zu unterscheiden, verbessert sich deutlich mit der Erfahrung und Übung; dabei zeigt sich, dass das Gehör besondere Fähigkeiten bei solchen Instrumenten oder allgemein Klangfarben entwickelt, die es besonders gut kennt. Bei aus Grundton und Obertönen zusammengesetzten Klängen bestimmt grundsätzlich der Grundton, auch wenn er nur schwach ausgebildet ist, die Tonhöhe. Aber selbst wenn der Grundton und sogar die ersten Obertöne fehlen, wie z. B. bei der Musikwiedergabe mit sehr kleinen Lautsprechern, bildet das Gehör aus den verbleibenden Klangkomponenten einen Tonhöheneindruck, der dem fehlenden Grundton entspricht. Tatsächlich ändert die Unterdrückung einzelner Teiltöne zwar die Schwingungsform, aber nicht die Schwingungsperiode und damit nicht die Frequenz. In diesem Fall bezeichnet man die empfundene Tonhöhe als „virtuelle Tonhöhe“. Weiterhin erzeugt die Verschiebung von Resonanz- und Formanten, wie z. B. beim Wah-Wah-Dämpfer (siehe Kap. 6.2.), bei der Maultrommel, wie auch bei der elektronischen Klangerzeugung beim Flanging und Phasing (siehe Kap. 6.4.), einen bestimmten Tonhöheneindruck, die sog. Formanttonhöhe.

3.3 Eigenschaften der Schallwahrnehmung 

 127

3.3.4 Nichtlineare Verzerrungen Das Gehör verzerrt die Schwingungsform des Schallereignisses. Ein einzelner Sinuston wird dadurch mit Obertönen versehen, die nur unter besonderen Bedingungen auch direkt hörbar  sind. Ein obertonreicher Klang erhält zusätzliche Obertöne, die  sich indessen den bereits vorhandenen Obertönen überlagern und damit ebenfalls weitgehend unbemerkt bleiben. Anders als bei Einzeltönen  sind die Verzerrungen durch das Gehör bei Tonpaaren u. U. sehr deutlich zu hören. Denn hierbei entstehen nicht nur Obertöne, sondern auch sog. Kombinationstöne, nämlich Summen- und Differenztöne. Wenn f1 und f2 die Frequenzen zweier Sinustöne  sind, entstehen Kombinationstöne  mit den Frequenzen  m ⋅ f2  ±  n ⋅ f1, wobei  m und n = 1, 2, 3..., insbesondere treten hörbar die Kombinationstöne  mit den Frequenzen f2 – f1 und f2 + f1 in Erscheinung; bei geeigneten Versuchsanordnungen kann aber eine viel größere Zahl von Verzerrungsprodukten des Gehörs hörbar gemacht werden. Kombinationstöne sind am deutlichsten bei einem Paar von Sinustönen wahrnehmbar, besonders wenn ihre Frequenzen nahe beisammen liegen, kritisch ist das Intervall der Quinte mit f2 / f1 = 3 : 2. Fast ebenso empfindlich bezüglich der Hörbarkeit von Eigenverzerrungen des Gehörs sind die obertonarmen Klänge einiger Musikinstrumente wie Blockflöten und Hörner bei größeren Lautstärken. Die Kombinationstöne des Gehörs spielen auch eine wichtige Rolle bei der Klassifizierung in angenehme und unangenehme Intervalle, also in Konsonanzen und Dissonanzen. Verzerrungen von Tonsignalen (siehe Kap. 9.2.2) sind dann hörbar, wenn sie größer als die Eigenverzerrungen des Gehörs  sind. Die quadratischen Verzerrungen des Gehörs  sind den technischen quadratischen Verzerrungen der Übertragungskette vergleichbar; sie betragen rund 0,1 % bei 70 dB Lautstärkepegel und etwa 1 % bei 90 dB. Diese Verzerrungen des Gehörs sind also recht gering. Die Stärke der Verzerrungen bei zwei Sinustönen hängt von deren Stärke und Frequenzabstand ab, ohne dass einfache Abhängigkeiten genannt werden können. Diese irregulären Verzerrungen sind aber wesentlich höher als die quadratischen Verzerrungen. Sie können unter bestimmten Bedingungen weit über 10  % liegen. Diese gehöreigenen Verzerrungen können leicht beobachtet werden z.  B. beim zweistimmigen Pfeifen oder Blockflötenspiel.

3.3.5 Rauheit und Schärfe Rauheit und Schärfe eines Klangs sind Begriffe, die sich zur Beschreibung von Klangeigenschaften gut eignen und auch gehörakustisch relativ gut erfasst werden können. Rauheit kennzeichnet Schallereignisse, die eine  starke zeitliche Strukturierung besitzen. Während langsame Pegelschwankungen als  sog. Tremolo empfunden werden, lassen schnelle Pegelschwankungen vor allem zwischen 20 und 150 Hz einen Ton oder Klang rau erscheinen. Die Rauheit nimmt mit steigender Frequenz zu, bei etwa 70 Schwankungen pro Sekunde ist sie am größten; die messtechnische Einheit ist das Asper. 1 Asper hat ein Sinuston von 1 kHz und 60 dB Schalldruckpegel, der mit 70 Hz und dem höchstmöglichen Modulationsgrad m = 1 moduliert ist; m = 1 bedeutet, dass das modulierende und das modu-

128 

 3 Schallwahrnehmung

lierte Signal die gleichen Amplituden haben, d. h., dass die Amplitude der resultierenden Schwingung zwischen einem Höchstwert und völliger Auslöschung schwingt. Die Schärfe eines Klangs ist eine wesentliche Komponente der Klangfarbe, die  man getrennt beurteilen kann. Sie wird durch die Umhüllende des Spektrums akustisch charakterisiert. Dabei ist es unerheblich, ob das Spektrum geräuschhaft kontinuierlich ist oder aus diskreten, also z.  B. harmonischen Komponenten besteht. Bei einem  schmalbandigen Klangspektrum  steigt die Schärfe  mit der Mittenfrequenz des Frequenzbands an, bei nur einseitiger Bandbegrenzung mit der unteren Grenzfrequenz und wesentlich stärker mit der oberen Grenzfrequenz. Außer den Grenzfrequenzen hat die Form der Umhüllenden einen Einfluss auf die Klangschärfe.

3.3.6 Subjektive Tondauer Wird die Dauer von Tonimpulsen und kürzeren Pausen zwischen Tönen  subjektiv bewertet, so zeigt sich, dass diese subjektive Dauer bei kürzeren Tönen und Pausen nicht mit der objektiven Dauer übereinstimmt. Einzelne Tonimpulse wirken bei einer objektiven Dauer unter 50  ms länger als sie tatsächlich sind. Ein erstaunlicher Zusammenhang wird jedoch beim Vergleich der  subjektiven Dauer von Tonimpulsen  mit dazwischen liegenden gleichlangen Pausen offenbar: Während bei einer Dauer über 1 s subjektive und objektive Dauern übereinstimmen, wirken bei kürzerer Dauer die Pausen länger als die Töne, dies auch abhängig von der Frequenz des Tonimpulses. Die Unterschiede von  subjektiver und objektiver Dauer sind sehr groß; so wirkt z. B. ein 3,2 kHz-Tonimpuls mit 100 ms Dauer ebenso lang wie eine Pause von 400 ms. Sollen also kurze Töne und die dazwischen liegenden Pausen gleich lang wirken, müssen die Pausen ganz erheblich länger als die Töne sein.

3.3.7 Hörbarkeit von Phasenänderungen Die einzelnen Komponenten eines Spektrums sind durch Frequenz, Pegel und Phasenlage definiert. Ausgehend von der Theorie der Klangfarbe nach Helmholtz war  man lange Zeit der Meinung, dass die Phasenlage für die Klangfarbe unbedeutend sei. Tatsächlich hat sie aber einen gewissen, aber relativ komplexen Einfluss darauf. Phasenänderungen werden am deutlichsten bei Kopfhörerwiedergabe, am undeutlichsten bei Lautsprecherwiedergabe in halligen Räumen wahrgenommen. Die Untersuchungen ergeben folgende Zusammenhänge: Die Hörbarkeit von Phasenänderungen in einem harmonischen Klang hängt von seiner Zusammensetzung ab. Die Auswirkungen derselben Phasenänderung werden bei tiefen und bei hohen Frequenzen geringer eingeschätzt als bei mittlerer Frequenzlage; um 1 kHz hat das Gehör die größte Phasenempfindlichkeit. Bei tiefen Tönen werden eher Änderungen als Rauheit wahrgenommen, bei hohen Tönen eher als Änderungen der Tonhöhe und Klangfarbe. Bei kleinen Frequenzabständen der Teiltöne sind Phasenänderungen von 10° bis 30° wahrnehmbar, bei großen Abständen wird die Wahrnehmbarkeit, abhängig vom Pegel, geringer. Die in der analogen Tonstudiotechnik zugelassenen Phasenverschiebungen der Geräte orientieren sich an diesen Erkenntnissen (siehe Kap. 9.4.2).

3.4 Räumliches Hören natürlicher Schallquellen 

 129

3.3.8 Psychoakustisches Modell Viele der oben beschriebenen Gehöreigenschaften und -parameter werden im Zusammenhang mit modernen, digitalen Übertragungs-, Speicher- und Messverfahren oft in einem sog. psychoakustischen Modell zusammengefasst. Eine  solche Verfahrensvorschrift, die eine mathematische Modellierung der physiologischen und hörpsychologischen Zusammenhänge darstellt, beschreibt die funktionellen Grundlagen der entsprechenden Algorithmen zur gehörbasierten Audiosignalverarbeitung. Bestandteile eines  solchen Modells können u. a. sein: –– Ruhehörschwellen, Mithörschwellen, Unterschiedshörschwellen, –– simultane Verdeckung, Vor- und Nachverdeckungsschwellen, –– Verfahren zur Lautheitsbestimmung, –– Bestimmung der Tonalität oder Nichttonalität eines Tonsignals, –– spektrale Unterteilung des Audiosignals in sog. Frequenzgruppen Bark- bzw. Mel-Skala), –– Wahrnehmbarkeitsschwellen für Amplituden- und Frequenzmodulation  sowie andere Verzerrungsprodukte, –– Redundanz- bzw. Irrelevanzabschätzung bei mehrkanaligen Tonsignalen. Typische Anwendungen  sind die verschiedenen gehörbasierten Datenreduktionsverfahren (perceptual coding), wie MPEG-1, -2, -3 (MP3), AAC, siehe Kap. 13.2, oder gehörbasierte Qualitätsmessverfahren, wie PEAQ,  siehe Kap.  13.4. Je nach Anwendungsfall und Qualitätsanspruch können die verwendeten Gehörmodelle auch unterschiedlich konfiguriert sein. Auch bei modernen Video-Übertragungs- bzw. Wiedergabeverfahren finden auf der Wahrnehmung aufbauenden visuellen Wahrnehmbarkeitsmodelle Anwendung.

3.4 Räumliches Hören natürlicher Schallquellen Richtungswahrnehmung oder Lokalisierung ist die Zuordnung der vom Gehör zum Bewusstsein gebrachten Hörereignisrichtung zur Schallereignisrichtung. Zusammen mit der Entfernungswahrnehmung bildet  sie die räumliche Wahrnehmung des Gehörs. Richtungs- und Entfernungswahrnehmung schließen auch die Wahrnehmung der räumlichen Ausdehnung einer Schallquelle ein. Die sog. Räumlichkeit einer Schallquelle ist nicht ihre tatsächliche Ausdehnung, sondern die Empfindung, dass der Raum um die Schallquelle mit Schall erfüllt ist, die Räumlichkeit nimmt mit der Lautstärke und mit der Stärke seitlicher Reflexionen in einem Raum zu (siehe dazu Kap. 1.3.2). [Blauert, 1996, 1997, 2020] Für die Beschreibung der Hörereignisorte wird ein auf den Kopf des Hörers bezogenes, ein sog. kopfbezogenes Koordinatensystem verwendet (Abb. 3/7). Man unterscheidet dabei die Richtungswahrnehmung in den drei Dimensionen, in der horizontalen Ebene, der vertikalen oder Medianebene und in der Frontalebene. Der einfachste Fall des Richtungshörens ergibt sich bei der Wahrnehmung einer einzigen, in ihrem Frequenzumfang breitbandigen Schallquelle. Schallereignisrichtung und Hörereignisrichtung stimmen hierbei weitgehend überein. Für die drei Ebenen nach Abb. 3/7 gilt:

130 

 3 Schallwahrnehmung

–– In der Horizontalebene führen Laufzeitunterschiede zwischen den Zeitpunkten des Eintreffens der beiden Ohrsignale und frequenzabhängige Pegelunterschiede, also Klangfarbenunterschiede, zwischen den Ohrsignalen zur Lokalisierung des Hörereignisses. –– In der vertikalen Ebene wird der Erhebungswinkel nur auf Grund spektraler Veränderungen der hier gleichen Ohrsignale gebildet. Auch die Entscheidung, ob eine Schallquelle vor oder hinter dem Hörer lokalisiert wird, beruht auf spektralen Merkmalen. –– In der Frontalebene erzeugen wie in der horizontalen Ebene Laufzeit- und komplexe Klangfarben- bzw. Pegelunterschiede die Hörereignisrichtung.

Abb. 3/7. Kopfbezogenes Koordinatensystem für die Beurteilung der Hörereignisrichtungen.

Bei  mehreren Schallquellen aus unterschiedlichen Richtungen und in geschlossenen Räumen treten zusätzliche Effekte der Richtungswahrnehmung auf. Es kommt hierbei darauf an, ob die Schallsignale an den Ohren unähnlich, d. h., nicht oder schwach korreliert, oder ob sie ähnlich, d. h. hoch korreliert sind. Das Gehör kann bei Hörereignissen, die aus deutlich unterschiedlichen Richtungen kommen, die zugehörigen Klangbilder besser trennen und verfolgen, als wenn sie aus derselben Richtung eintreffen. Diese Fähigkeit wird mit „intelligentem Hören“ oder  mit Cocktailparty-Effekt nach [Cherry, 1953] bezeichnet. Wichtig für die Fähigkeiten der räumlichen Wahrnehmung sind neben physiologischen und psychologischen Mechanismen auch Lernprozesse und Erfahrungen, was z. B. durch die äußerst differenzierten Hörfähigkeiten Blinder belegt wird. Die elektroakustische Wiedergabe und Wahrnehmung von Klangbildern wird von denselben psychoakustischen Phänomenen beschrieben wie das räumliche Hören im natürlichen Schallfeld, wenn von nur einem Lautsprecher ein Schallsignal abgestrahlt wird. Sollen aber räumlich ausgedehnte Schallfelder, also  stereofone Klangbilder, elektroakustisch zu Gehör gebracht werden, treten ganz neue Phänomene auf, in der Hauptsache handelt es sich um sog. Phantomschallquellen. Phantomschallquellen sind Schallwahrnehmungen von Orten, an denen sich keine reale Schallquelle befindet. Es handelt sich um Phänomene, die beim natürlichen Hören praktisch nicht auftreten. Da die Phänomene räumlicher Wiedergabe durch Lautsprecher in engster Verbindung stehen zur stereofonen oder allgemein zur mehrkanaligen Aufnahme und Wiedergabe von Klangbildern, werden sie ausführlich in Kap. 5.1 und 5.2 erläutert.

3.4 Räumliches Hören natürlicher Schallquellen 

 131

3.4.1 Wahrnehmung der Richtung 3.4.1.1 Horizontale Ebene Die Lokalisierung in der horizontalen Ebene wird durch Unterschiede der Signale an den Ohren ermöglicht, die sich dann ergeben, wenn die Schallquelle aus der Mitte bzw. 0° auswandert. Dabei treten beim natürlichen Hören zwischen den beiden Ohrsignalen stets sog. interaurale Signaldifferenzen auf, sowohl Laufzeitdifferenzen als auch, frequenzabhängig, Pegeldifferenzen. Sie führen aber auch einzeln zur Richtungswahrnehmung, wovon bei der stereofonen Wiedergabe über zwei oder mehr Lautsprecher Gebrauch gemacht wird. Je nach angewendetem Aufnahmeverfahren können die Lautsprechersignale nur Laufzeit- oder nur Pegeldifferenzen oder aber beide gleichzeitig erhalten. Interaurale Laufzeitdifferenzen Interaurale Laufzeitdifferenzen sind beim natürlichen Hören die wichtigsten Merkmale der Ohrsignale für die Lokalisierung. Sie betragen auf Grund des Abstands der Ohren von 17 cm höchstens 0,63  ms. Die geringste noch wahrnehmbare Laufzeitdifferenz von etwa 0,03  ms entspricht einem Schallwegunterschied von nur 1 cm und führt zu einer Auswanderung der Hörereignisrichtung um 3° bis 5° aus der Mitte. Für die interaurale Laufzeitdifferenz gilt bei parallelem Schalleinfall vereinfacht der folgende Zusammenhang (Abb. 3/8): Δt = intraaurale Laufzeitdifferenz [m] Δs = interaurale Wegdifferenz [m] ⋅ c d = interauraler Abstand = 0,17 m = 0,5 ⋅ sin c = Schallgeschwindigkeit = 340 m/s α = Einfallswinkel [°]

Abb. 3/8. Interaurale Wegdifferenzen Δs.

Für die Feststellung der Zeitdifferenzen kann sich das Gehör am Schwingungsverlauf und an der Einhüllenden der Schwingung orientieren. Vor allem für Frequenzen unterhalb von 800  Hz, höchstens aber 1,6  kHz, kann das Gehör dem Schwingungsverlauf direkt Zeit- bzw. Phasendifferenzen entnehmen; deshalb können nur in diesem Frequenzbereich Sinusschwingungen zu einer Lokalisierung führen. Für höhere Frequenzen kann das Gehör nur aus dem Vergleich der Hüllkurven der Signale Zeitdifferenzen entnehmen.

132 

 3 Schallwahrnehmung

Übliche natürliche Schallereignisse wie Sprache und Musik sind breitbandige, impulshaltige Signale mit stark strukturierten Einhüllenden. Solche Signale werden viel leichter lokalisiert als Sinussignale, die in der Praxis ja kaum vorkommen. Die Laufzeitdifferenz Δt  steigt bei komplexen Signalen für den wichtigen vorderen Bereich der Lokalisierung anders als bei Sinussignalen weitgehend linear mit dem Winkel an. Interaurale Pegeldifferenzen Gegenüber interauralen Laufzeitdifferenzen sind die interauralen Differenzen der mittleren Schalldruckpegel von geringerer Bedeutung für die Lokalisierung von Schallquellen. Pegeldifferenzen werden verursacht von Abschattungen durch Kopf und Ohrmuscheln. Das Gehör ist fähig, im gesamten hörbaren Frequenzbereich Pegeldifferenzen zu erkennen und in Richtungsinformationen umzusetzen. Die Ohrsignale werden  selektiv in einzelnen Frequenzgruppen verglichen. Unterhalb von etwa 300 Hz entstehen jedoch wegen der Beugungserscheinungen des Schalls um den Kopf praktisch keine Pegeldifferenzen mehr. Über 300 Hz nehmen sie mit der Frequenz zu; allerdings nimmt die Pegeldifferenz sinusförmiger Signale nicht in einfacher Weise mit dem Winkel zu, sondern sehr unregelmäßig. Damit kann hier keine feste Zuordnung zwischen Pegeldifferenz und Schallereignisrichtung bestehen, die für jede Signalart gültig ist; nur definierten Signalen wie Weißem Rauschen oder Sinustönen können feste Werte zugeordnet werden. Die Zusammenhang hängt ganz von der spektralen Zusammensetzung des Signals ab. Für natürliche breitbandige Signale werden die Zusammenhänge einfacher und übersichtlicher, da sich statistische Mittelwerte bilden können. Es ergeben sich Klangfarbenunterschiede,  sog. Spektraldifferenzen, zwischen den Ohrsignalen, die zwar nicht bewusst wahrgenommen werden, aber für die Lokalisierung wichtig  sind. Hierbei  sind jedoch im Gegensatz zur Lokalisierung durch Zeitdifferenzen umfangreiche Lernprozesse Voraussetzung, die auf dem Rückgriff auf die Klangfarbenmuster bei frontalem Schalleinfall beruhen. Auf Grund der komplexen, teilweise auch  mehrdeutigen Zusammenhänge zwischen Frequenz bzw. Klangfarbe, Pegel und Einfallswinkel ist eine Schalllokalisierung allein durch Pegelunterschiede u. U. nur beschränkt möglich bzw. kann zu Fehlurteilen führen. Zusammenwirken von interauralen Laufzeit- und Pegeldifferenzen Bei der Schallwahrnehmung wirken stets interaurale Laufzeit- und Pegeldifferenzen zusammen. Für bestimmte Signale lässt  sich deshalb angeben, welcher Laufzeitdifferenz welche Pegeldifferenz entspricht; je nach Signalart wurden Werte zwischen 2  μs/dB und 200  μs/ dB ermittelt. Es zeigt sich, dass dieser Wert zusätzlich vom Schalldruckpegel sowie von der Schalleinfallsrichtung abhängt. Die  sehr komplexen Zusammenhänge von Laufzeit- und Pegeldifferenzen lassen erkennen, dass das Gehör über zwei weitgehend voneinander unabhängig arbeitende Mechanismen der Lokalisierung verfügt. Der erste Mechanismus wertet interaurale Laufzeitdifferenzen von Trägerschwingungen mit Frequenzen unter 1,6 kHz aus; er bestimmt nur dann die Hörereignisrichtung, wenn Frequenzkomponenten über 1,6  kHz fehlen. Der zweite Mechanismus wertet sowohl Laufzeitdifferenzen der Hüllkurven als auch Pegeldifferenzen aus; er bestimmt die Hörereignisrichtung,  sobald Frequenzanteile über 1,6 kHz wesentlicher Bestandteil des Signals sind, also ist er für die Lokalisierung natürlicher Schallquellen wie Musik, Sprache und Geräusche dominierend.

3.4 Räumliches Hören natürlicher Schallquellen 

 133

Lokalisierungsunschärfe Die Lokalisierungsunschärfe in Blickrichtung erreicht 2° bis 3°,  sie nimmt bei  seitlichem Schalleinfall auf etwa 4,5° zu. Ein Richtungswechsel von links nach rechts wird nach etwa 150 ms, von vorn nach hinten nach etwa 250 ms wahrgenommen. Impulshaltiger Schall, wie ihn die meisten Schallquellen abgeben, ist schneller und präziser zu lokalisieren als stationärer Schall. Treffen beim Hörer zwei gleiche Schallereignisse kurz nacheinander ein, was z. B. bei Wand- oder Deckenreflexionen in einem Raum zutrifft,  so gilt für eine Verzögerung zwischen etwa 1 und 30 ms das sog. Gesetz der ersten Wellenfront oder Precedence-Effekt (nach Wallach, Newman und Rosenzweig, 1949), auch Haas-Effekt (nach Haas, 1951) genannt. Danach bestimmt der zuerst eintreffende Schall den Richtungseindruck, unabhängig davon, aus welcher Richtung der nachfolgende Schall kommt. Dabei darf der Pegel des nachfolgenden Schalls bei Laufzeitdifferenzen zwischen 5 und 30  ms z.  B. für Sprache  sogar bis 10 dB über dem des Primärschalls liegen, ohne dass dadurch das Gesetz der ersten Wellenfront seine Gültigkeit verliert. Vom Gesetz der ersten Wellenfront, besser als psychoakustisches Phänomen denn als Gesetz zu bezeichnen, profiziert die Beschallungstechnik (siehe dazu Kap. 10) bei der richtungstreuen Beschallung von Publikum; es ermöglicht, die Lautstärke zu erhöhen, ohne die Richtung des Schalleinfalls zu verändern. Auch bei der Schallausbreitung in Räumen oder im Freien spielt dieses Phänomen eine Rolle, indem es dafür sorgt, dass der tatsächliche Ort der Schallquelle auch bei lauteren Reflexionen noch erkannt wird; bei zu lauten Reflexionen kommt es natürlich zu Täuschungen der Lokalisierung, ebenso bei einem Zeitabstand von mehr als 40 bis 50 ms, der dann zur Echobildung führt, d. h., zur Wahrnehmung zweier getrennter Schallereignisse. 3.4.1.2 Vertikale Ebene Auch in der vertikalen Ebene oder Medianebene (Abb. 37) ist eine Lokalisierung der Schallquelle möglich. In dieser Ebene ergeben sich bei Schalleinfall keine Unterschiede zwischen den Signalen an beiden Ohren. Hingegen entstehen Klangfarbenunterschiede bezogen auf die Klangfarbe des aus Blickrichtung eintreffenden Signals, die durch die Form und Beschaffenheit von Kopf und Ohren verursacht, beim Hören aber nicht bewusst wahrgenommen werden. Je nach Einfallsrichtung werden bestimmte, sog. richtungsbestimmende Frequenzbänder angehoben (Abb. 3/9).

Abb. 3/9. Richtungsbestimmende Frequenzbänder bei der Richtungswahrnehmung in der Medianebene nach [Blauert, 1997].

134 

 3 Schallwahrnehmung

Anhebungen in diesen Frequenzgebieten führen also zu einer entsprechenden Lokalisierung der Hörereignisse. Es wird angenommen, dass jeweils eine  spezifische Kombination von spektralen Gipfeln und Einbrüchen die Hörereignisrichtung bestimmt. Eine solche Lokalisierung in der Medianebene kann aber nur zu einer guten Übereinstimmung von Schallereignis- und Hörereignisort führen, wenn das Schallsignal breitbandig ist und wenn das Gehör über Erfahrungen verfügt, wie dieses Signal strukturiert ist; so ist die Lokalisierung in erheblichem Maße von der Art des Schallsignals abhängig, Lerneffekte spielen eine wichtige Rolle, schmalbandige Signale können in der Medianebene nicht lokalisiert werden. Das Richtungshören in der Medianebene gewinnt besondere Bedeutung bei der Schallübertragung mit Kunstkopftechnik (siehe Kap. 5.5.4 und 5.5.5). Die Unschärfe der Lokalisierung des Erhebungswinkels ist wesentlich größer als in der horizontalen Ebene. Für einen unbekannten Sprecher z. B. liegt sie bei etwa 15° bis 20°, für einen bekannten Sprecher bei etwa 10° in Vorwärtsrichtung. Mit zunehmender Erhebung der Schallquelle nimmt die Unschärfe auf etwa den dreifachen Betrag zu.

3.4.2 Wahrnehmung der Entfernung Interaurale Signalunterschiede werden für die Richtungswahrnehmung in der horizontalen Ebene ausgewertet. Die durch die Abschattungen und Beugungserscheinungen an Kopf und Ohr entstehenden Klangfarbenänderungen geben dem Gehör die Möglichkeit, den Erhebungswinkel einer Schallquelle zu bestimmen. Für die Wahrnehmung der Entfernung einer Schallquelle bleiben somit keine einfachen Signalmerkmale für das Gehör auswertbar, vielmehr gibt es  mehrere Merkmale des Schallsignals, die in komplexer Weise auf die Entfernungswahrnehmung einwirken. Grundsätzlich  sind hierbei die Erfahrung des Gehörs und die Übung, also die Bekanntheit einer Schallquelle von sehr großer Bedeutung. Im Wesentlichen tragen die Lautstärke des Hörereignisses und wieder Veränderungen der Klangfarbe bzw. des Spektrums auf dem Weg zum Ohr zur Bildung der Hörereignisentfernung bei. Der Lautstärkepegel eines Schallereignisses nimmt  mit jeder Entfernungsverdopplung bei allseitiger Abstrahlung um 6  dB ab, bei gerichteter Abstrahlung um einen geringeren Wert. Da die meisten Schallquellen wie Musikinstrumente z. B. tiefere Frequenzkomponenten ungerichtet, höhere Frequenzkomponenten aber mit der Frequenz zunehmend gerichtet abstrahlen, ergibt  sich i.Allg.  mit der Pegelverminderung bei wachsender Entfernung von der Schallquelle auch eine Klangfarbenänderung, da der Anteil tiefer Frequenzkomponenten mehr abnimmt als der hoher; diese Klangfarbenänderung wird noch dadurch verstärkt, dass das Gehör für tiefe Frequenzen umso unempfindlicher wird, je geringer der Schallpegel ist; die Kurven gleicher Lautstärkepegel, Abb.  3/4, zeigen dies. Die Entfernungswahrnehmung auf Grund von Lautstärkepegeln  setzt grundsätzlich voraus, dass das Gehör die Lautstärke der Schallquelle in einer bestimmten Entfernung kennt. Der hierfür notwendige Lernprozess kann auf längeren allgemeinen Hörerfahrungen oder auf einem aktuellen Lernprozess beruhen. Voraussetzung für die Entfernungswahrnehmung auf Grund der Lautstärke ist ferner eine gewisse Konstanz der Schallleistung. Die Lautstärke spielt vor allem bei einer Schallquellenentfernung bis etwa 15 m eine Rolle.

3.4 Räumliches Hören natürlicher Schallquellen 

 135

Die Entfernungswahrnehmung im Freien bei Entfernungen über 3 m zeigt einen typischen Fehler: Das Hörereignis ist näher als das Schallereignis, das Gehör schätzt die Schallquellenentfernung zu gering ein (Abb. 3/10). Der Fehler steigt mit der Schallquellenentfernung an und kann erheblich sein; eine 10 m entfernte Schallquelle scheint nur halb so weit vom Hörer entfernt zu sein. Diese Feststellungen scheinen der Erfahrung zu widersprechen, sie gelten allerdings ohne Zuhilfenahme des Auges und der Gegebenheiten der Hörsituation. Interessant ist, dass Flüstern stets deutlich näher und Schreien deutlich ferner lokalisiert wird als Umgangssprache. Auch dies zeigt den großen Einfluss von Erfahrung und Erwartung. Ein wichtiger Aspekt des Entfernungshörens ist aber auch, dass das Gehör im Allgemeinen nicht gefordert ist, Hörerfahrungen beim Entfernungshören zu sammeln, da das Auge diese Leistung schnell und präzise erbringt. Über das Entfernungshören bei größeren Entfernungen liegen kaum Untersuchungen vor; neben dem Lautstärkepegel ist hier offensichtlich eine Klangfarbenänderung maßgeblich, die durch die Absorption hoher Frequenzkomponenten in der Luft entsteht. Auch bei Entfernungen unter 25 cm sind zusätzlich Merkmale der Klangfarbenveränderung, nun verursacht durch Beugungs- und Abschattungserscheinungen am Kopf, für das Entfernungshören von Einfluss. In geschlossenen Räumen ist eine Abschätzung der Hörereignisentfernung auch auf Grund des Verhältnisses von direktem zu diffusem Schall oder Nachhall  möglich, da der Pegel des diffusen Schalls unabhängig von der Schallquellenentfernung konstant bleibt, während der Pegel des direkten Schalls mit zunehmender Entfernung abnimmt. Da neben dem Abstand zur Schallquelle aber auch das Raumvolumen und die Nachhallzeit auf das Verhältnis von direktem zu diffusem Schall Einfluss nehmen, ist die Kenntnis der raumakustischen Verhältnisse, also auch hierbei eine gewisse Hörerfahrung, erforderlich.

Abb. 3/10. Zuordnung von Schallereignis- und Hörereignisentfernung bei einem Sprecher als Schallquelle nach [Bekesy, 1949].

3.4.2.1 Im-Kopf-Lokalisierung Bei der normalen Lokalisierung werden Schallereignisse als Hörereignisse außerhalb des Kopfs lokalisiert. Unter bestimmten Bedingungen können aber Hörereignisse auch im Kopf des Hörenden lokalisiert werden. Solche Bedingungen herrschen bevorzugt bei der Wiedergabe mit Kopfhörern, weshalb sie zunächst auf diese spezielle Wiedergabeart zurückgeführt

136 

 3 Schallwahrnehmung

wurden. Im-Kopf-Lokalisierung oder -Lokalisiertheit, auch IKL, kann aber z. B. auch bei der Abstrahlung eines Signals über eine Lautsprecheranordnung für Stereowiedergabe auftreten, wenn ein Lautsprecher verpolt wird. Das Gehör wertet nicht nur die momentan eintreffenden Signale aus, sondern vergleicht diese als Reizmuster  mit erfahrenen und gespeicherten Reizmustern. Dies zeigt z.  B. die wesentlich schärfere Lokalisierung von Sprechern in der Medianebene, wenn deren Stimme bekannt ist. Im-Kopf-Lokalisierung entsteht nur dann, wenn die Schallreize so geartet sind, dass  sie nicht einer  möglichen natürlichen Schallquelle außerhalb des Kopfs zugeordnet werden können, oder wenn das Reizmuster für das Gehör völlig neuartig ist. Vom Gehör für die Lokalisierung nicht auswertbare Signale werden also für die Wahrnehmung deutlich durch die Im-Kopf-Lokalisierung gekennzeichnet. Das wichtigste Beispiel für Im-KopfLokalisierung ist die Wiedergabe raumbezogener Stereofonie über Kopfhörer. Das Klangbild spannt sich hierbei nicht außerhalb des Kopfs, sondern im Kopf zwischen den Ohren auf. Es wird im Kopf lokalisiert, weil für die jeweilige Einfallsrichtung typische Klangfärbungen der Signale fehlen, eine Tatsache, die den Erfahrungen des Gehörs aus dem Bereich natürlichen Hörens fehlt. Werden diese Klangfarbenunterschiede wie im Kunstkopfverfahren mit einem künstlichen Kopf erzeugt, lokalisiert das Gehör trotz Kopfhörerwiedergabe außerhalb des Kopfs, siehe dazu Kap. 5.5.4.1.

Standards [DIN 1318] Lautstärkepegel; Begriffe, Messverfahren, zurückgezogen [DIN 1320] Akustik; Begriffe [DIN 45500] Bl. 10: Heimstudio-Technik (Hi-Fi); Mindestanforderungen an Kopfhörer, 1999 ersatzlos zurückgezogen [DIN 45630] Bl. 1: Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall [DIN EN 61672] Elektroakustik - Schallpegelmesser [DIN IEC 651] Schallpegelmesser [DIN EN 60 645-1] Audiometer [DIN ISO 226] Akustik - Normalkurven gleicher Lautstärkepegel [DIN ISO 226-2003] Akustik – Normalkurven gleicher Lautstärkepegel [ISO 532 B] Akustik – Verfahren zur Berechnung des Lautstärkepegels

Literatur [Bekesy, 1949] [Blauert, 1996] [Blauert, 1997] [Blauert, 2020]

von Bekesy, G.: „The room illusion and similar auditory phenomena“, in: Amer. Journal of Psychol. 62, 1949, S. 540 ff. Blauert, J.: Spatial Hearing. The Psychophysics of Human Sound Localization, 1996, MIT Press Blauert, J.: Räumliches Hören, 1974, 1. und 2. Nachschrift 1985 und 1997, Ausgabe incl. 1. und 2. Nachschrift, 1997, Hirzel Blauert, J. und Brasch, J., Herausgeber: The Technology of Binaural Understanding (Modern Acoustics and Signal Processing), 2020, Springer

Literatur 

 137

[Cherry, 1953] Cherry, E.: “Some experiments on the recognition of speech, with one and with two ears“, in: Jour. Acoustical Society of America 25, S. 975 ff. [Fastl, 2007] Fastl, H. und Zwicker, E.: Psychoacoustics. Facts and Models, 3. Aufl., 2007, Springer [Hartmann, 1998] Hartmann, W. M.: Signals, Sound, and Sensation. Modern Acoustics and Signal Processing, 1998, Springer [Hellbrück, 2004] Hellbrück, J. und Ellermeier, W.: Hören. Physiologie, Psychologie, Pathologie, 2. Aufl., 2004, Hogrefe [Hesse, 2005] Hesse, G. und Laubert, A.: „Hörminderung im Alter - Ausprägung und Lokalisation“, in: Deutsches Ärzteblatt 2005, H. 42, S. 2864ff. [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal Press [Jekosch, 2005] Jekosch, U.: Voice and speach quality perception, 2005, Springer [Kalivoda, 1998] Kalivoda, M. und Steiner, J.: Taschenbuch der angewandten Psychoakustik, 1998, Springer [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Spitzer, 2005] Spitzer, M.: Musik im Kopf. Hören, Musizieren, Verstehen und Erleben im neuronalen Netzwerk, 2005, Schattauer [Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer

4 Mi­kro­fone und Lautsprecher Michael Dickreiter Peter Arasin (4.3 und 4.5.2), Klaus Genuit (4.2.4.6) Mi­kro­fone und Lautsprecher  sind Systeme, die Schallenergie in elektrische Energie bzw. elektrische Energie in Schallenergie umwandeln, kurz auch Schallwandler oder elektroakustische Wandler genannt. Zur Aufnahme der Schallwellen aus einem Raum und für die Abstrahlung der Schallwellen in einen Raum wird im Allgemeinen eine Membran verwendet, deren Schwingungen dann weiterverarbeitet werden. In der Tonstudiotechnik gehören Mi­kro­fone, Lautsprecher und Kopfhörer zu den Schallwandlern; nach ihrem Wirkungsprinzip gehören aber auch die Tonabnehmer oder Tondosen der Vinyl-Schallplattenabspielgeräte dazu. Reversible Schallwandler können in beiden Wirkungsrichtungen betrieben werden, also als Mi­kro­fon und als Lautsprecher, irreversible Wandler arbeiten nur in einer Richtung. [Lerch, 2009], [Möser, 2009], [Schneider, 2008], [Zollner, 1993]

4.1 Physikalische Prinzipien der Schallwandler Für die Umwandlung von aus dem Schallfeld über eine mitschwingende Membran entnommener mechanischer Energie in elektrische Energie und umgekehrt gibt es mehrere physikalische Prinzipien; sie werden nach der Art der mechanisch-elektrischen bzw. elektrischmechanischen Energiewandlung bezeichnet und eingeteilt in: –– elektromagnetische Wandler, –– elektrodynamische oder dynamische Wandler, –– elektrostatische Wandler und Elektretwandler, –– magnetostriktive Wandler, –– piezoelektrische Wandler. Die verschiedenen Wandlerprinzipien haben gemeinsame Gesetzmäßigkeiten: Bei elektrodynamischen und piezoelektrischen Schallwandlern bleibt die Schwingungsform bei der Wandlung erhalten, es entstehen nur geringe Verzerrungen. Elektromagnetische, magnetostriktive und elektrostatische Schallsender arbeiten da­­ gegen nach quadratischen Kraftgesetzen, die Schwingungen werden deformiert, es entstehen starke Verzerrungen. Um diese zu vermeiden, muss deshalb einer Gleichgröße als Magnet­feld oder Vorspannung hinzugefügt werden, die groß gegenüber der Wechselgröße sein muss; damit wird die Verformung fast unwirksam. Schallwandler, die mit einem magnetischen Feld arbeiten, reagieren auf die Geschwindigkeit der bewegten Membran; Schallwandler, die mit einem elektrischen Feld arbeiten, reagieren auf die Auslenkung der Membran. Die mit einem magnetischen Feld arbeitenden Wandler geben eine frequenzabhängige Signalspannung ab, die durch besondere konstruktive Maßnahmen linearisiert werden muss. Schallwandler, die mit dem elektrischen Feld arbeiten, geben eine frequenzunabhängige Signalspannung ab, sofern ihre Eigenresonanz oberhalb des Übertragungsbereichs liegt. https://doi.org/10.1515/9783110759921-004

140 

 4 Mi­kro­fone und Lautsprecher

Alle fünf physikalischen Prinzipien werden in technischen Lösungen angewendet, jedes Prinzip bietet einen besonderen Vorteil, der bei  spezialisierten Mi­kro­fonen und Lautsprechern genutzt wird. Elektromagnetische Wandler Eine Membran nimmt den Luftschall auf und gibt die Schwingungen an einen Anker weiter, der in einem Luftspalt dicht über einem Permanentmagneten gehalten wird; der Magnet ist mit einer festen Leiterwicklung umgeben. Permanentmagnet und Anker bilden einen ma­­ gnetischen Kreis, der durch einen Luftspalt unterbrochen ist. Bewegt sich die Membran und damit auch der Anker, so wird in die Leiterwicklung wegen des permanenten Magnetfelds eine Spannung induziert, die der Bewegungsgeschwindigkeit der Membran proportional ist. Wird umgekehrt an die Leiterwicklung eine Wechselspannung gelegt,  so bewegt  sich der Anker mit der Membran analog zu dieser Spannung, der Wandler ist also reversibel. Elektromagnetische Wandler haben einen guten Wirkungsgrad; sie eignen sich deshalb besonders für Miniaturmi­kro­fone, also Ansteck- und Knopflochmi­kro­fone. Elektrodynamische oder dynamische Wandler Der elektrodynamische Wandler arbeitet wie der elektromagnetische Wandler mit einem Permanentmagneten. Die mit Strom durchflossene Leiterwicklung ist hierbei jedoch nicht um den Permanentmagneten gewickelt, sondern bewegt sich im Magnetfeld des Permanentmagneten als Schwingspule frei, aber mechanisch geführt; an die Schwingspule ist die Membran angekoppelt. Dieser Wandler ist ebenfalls reversibel. Vorteilhaft gegenüber dem elektromagnetischen Prinzip ist, dass hierbei kein Wechselmagnetfeld erzeugt wird, das inhomogen ist und damit nichtlineare Verzerrungen erzeugt. Trägt  man konstruktiv dafür Sorge, dass die Schwingspule auch bei großen Bewegungsamplituden innerhalb des homogenen Ma­­ gnetfelds bleibt,  so lassen  sich  mit dem elektrodynamischen Wandler besonders verzerrungsarme, robuste Wandler herstellen, auch für sehr große Membranausschläge. Dynamische Mi­kro­fone, also Tauchspul- und Bändchenmi­kro­fone, sowie dynamische Lautsprecher und Kopfhörer arbeiten nach diesem bewährten Prinzip, das Abb. 4/1 in der Anwendung bei einem Lautsprecher und einem Tauchspulmi­kro­fon zeigt.

Abb. 4/1. Elektrodynamischer Wandler, Anwendung als Lautsprecher und Tauchspulmi­kro­fon.

4.1 Physikalische Prinzipien der Schallwandler 

 141

Elektrostatische Wandler und Elektretwandler Der elektrostatische Wandler arbeitet wie ein Kondensator mit einer festen Platte als Elektrode und einer beweglichen, als Membran wirkenden Gegenelektrode. Dieser Kondensator erhält eine konstante elektrische Vorspannung und damit eine konstante Ladung Q. Schwingungen der Membran führen zu periodischen Änderungen des Elektrodenabstands und somit der Kapazität C dieses Kondensators. Es fließt ein Ausgleichsstrom, der an einem Widerstand, der in den Stromkreis aus Spannungsquelle und Wandler gelegt wird, einen den Bewegungen der Membran proportionalen Spannungsabfall U bewirkt. Die Spannung U ist gleich Q / C, Q ist durch die konstante Vorspannung konstant, also ist der Spannungsabfall U proportional zum Kehrwert der Kapazität, also 1 / C. So gewinnt man direkt aus der Bewegung der Membran eine dazu analoge elektrische Schwingung. Anders als bei dieser sog. Niederfrequenzschaltung können die Änderungen der Kapazität aber auch in einem Schwingkreis die Frequenz einer HF-Schwingung modulieren, aus der durch Demodulation dann die entsprechende NF-Spannung gewonnen wird, man spricht hier von Hochfrequenzschaltung. In der Tonstudiotechnik wird das elektrostatische Wandlerprinzip bei einem der wichtigsten Werkzeuge, dem Kondensatormi­kro­fon, dem klassischen hochwertigen Studiomi­kro­fon, in beiden Schaltungsvarianten angewendet (siehe Kap. 4.2.2), in umgekehrter Wirkungsrichtung bei elektrostatischen Lautsprechern und Kopfhörern. Abb. 4/2 zeigt das elektrostatische Wandlungsprinzip am Beispiel des Kondensatormi­kro­fons in Niederfrequenzschaltung.

Abb. 4/2. Elektrostatischer Wandler, Anwendung als Kondensatormi­kro­fon in Niederfrequenzschaltung.

Zu den elektrostatischen Wandlern gehören auch als besondere Bauform die Elektretmi­ kro­ne. Auf Grund ihrer kompakten Bauweise, des geringen Preises und der guten Signalqualität werden diese Mi­kro­fone in großen Stückzahlen preiswert hergestellt. Elektretmi­kro­ fone  stellen Kondensatormi­kro­fone  mit einem bei der Herstellung aufgetragenen Elektret dar. Ähnlich wie ein Permanentmagnet ein eingefrorenes magnetisches Feld trägt, trägt ein Elektret ein eingefrorenes elektrisches Feld. Dieses übernimmt die bei Kondensatormi­kro­ fonen notwendige Vorspannung und erlaubt damit einen einfacheren Betrieb. Auf Grund

142 

 4 Mi­kro­fone und Lautsprecher

der hohen Impedanz ist allerdings auch hier eine Spannungsversorgung von z. B 1,5 V für die Impedanzwandlung erforderlich. Nachteilig bei Elektretmi­kro­fonen sind außerdem eine höhere Serienstreuung der Empfindlichkeit, Empfindlichkeitsverluste durch Alterung, Ladungsverluste durch hohe Temperaturen bis hin zum Totalausfall. Zunehmend werden Elektretmi­kro­fone in der extrem miniaturisierten Mikrosystemtechnik, in der sog. MEMS-Technik – MicroElectroMechanical Systems – eingebaut, bei denen die die elektrische Kapazität ändernde Mikromembran direkt auf den Silicium-Wafer geätzt wird. Wenn die Ausleseelektronik mit einem Impedanzwandler, Vorverstärker und einem AnalogDigital-Wandler direkt bei der Membran ausgestattet ist und damit einen digitalen Ausgang besitzt,  spricht  man auch von einem Digitalmi­kro­fon. Wegen der geringen Abmessungen, der geringen Leistungsaufnahme, der guten Abschirmung gegen Störsignale und der kostengünstigen Produktion werden diese Mi­kro­fone zunehmend in kleinen mobilen Geräten wie Smartphones, Headsets, Hörgeräten oder Kameras eingebaut. Magnetostriktive Wandler Der magnetostriktive Wandler nutzt die Längenänderung, die ferromagnetische Materialien erfahren, wenn  sie einem Magnetfeld ausgesetzt werden. Diese  sind zwar  sehr klein, jedoch mit großen Kräften verbunden. Diese Wandler eignen sich deshalb besonders für die Erzeugung von Unterwasserschall für die Sonarortung, aber auch im Ultraschallbereich. Der Wirkungsgrad dieses ebenfalls reversiblen Wandlers ist hoch. Piezoelektrische Wandler Der piezoelektrische Wandler nutzt den sog. piezoelektrischen Effekt: Danach treten an der Oberfläche bestimmter Kristalle oder polykristalliner Stoffe elektrische Ladungen auf, wenn die Kristalle verformt werden. Umgekehrt können diese Kristalle auch durch elektrische Spannungen verformt werden. Piezoelektrische Mi­kro­fone, kurz Piezomi­kro­fone, werden verwendet als Körperschallmi­kro­fone vor allem bei Saiteninstrumenten, besonders Gitarren; sie werden meist als Pickup oder Tonabnehmer bezeichnet. Weiter wird das Prinzip bei Wasserschall­mi­kro­fonen,  sog. Hydrophonen als Echolot,  sowie in der Medizindiagnostik angewendet.

4.2 Mi­kro­fone Mi­kro­fone wandeln Schallschwingungen in elektrische Wechselspannungen um. Dieser Umwandlungsprozess erfolgt bei Luftschall in zwei Stufen: zunächst wird eine Membran als Schallempfänger von den Schallwellen zu erzwungenen Schwingungen angeregt; diese mechanischen Schwingungen wandelt dann das an den Schallempfänger gekoppelte Wandlersystem des Mi­kro­fons in elektrische Schwingungen um (Abb. 4/3). Das Prinzip der Umwandlung von akustischen in mechanische Schwingungen ist das sog. Empfängerprinzip des Mi­kro­fons, das Prinzip der anschließenden Umwandlung in elektrische Schwingungen ist das Wandlerprinzip des Mi­kro­fons (Abb. 4/3). [Görne, 2004], [Wuttke, 2000]

4.2 Mi­kro­fone 

 143

Abb. 4/3. Prinzipieller Aufbau eines Mi­kro­fons.

Das Empfängerprinzip eines Mi­kro­fons wird von der Konstruktion der Mi­kro­fonkapsel, der Art des Einbaus der Membran, bei Doppelmembranmi­kro­fonen auch von dem elektrischen Zusammenwirken der beiden Membranen bestimmt. Die hauchdünne Membran ist straff eingespannt, außer bei sog. Bändchenmi­kro­fonen, wo sie frei schwingt. Das Empfängerprinzip bedingt die Richtcharakteristik und das Verhalten im Nahfeld der Schallquelle, es bestimmt den Frequenzgang  mit. Man unterscheidet die Empfängerprinzipien und damit die Mi­kro­ fone nach der Schallfeldgröße, die die Membran antreibt: –– Beim Druckempfänger bewegt der Schalldruck die Membran, er wirkt nur einseitig auf diese ein, es entsteht eine Kugelrichtcharakteristik. –– Beim Druckgradientenempfänger wird die Membran durch die Druckdifferenz zwischen Membranvorderseite und Membranrückseite bewegt, da der Schalldruck auf beide Membranseiten einwirkt; es können – je nach konstruktiver Gestaltung – verschiedene Richtcharakteristiken erzeugt werden: Nierenrichtcharakteristik, Kardioide genannt, Achterrichtcharakteristik, breite Niere, Superniere, Hyperniere oder Keule  sowie alle Übergangsformen dazwischen. Für einen  möglichst großen Abstand zwischen Signal- und Störspannung  soll die Membranauslenkung  möglichst groß  sein. Die Schwingungsweite der Membran findet aber ihre Grenze, wenn die Verzerrungen eine gerade noch zulässige Größe erreichen. Bei zu großer Membranauslenkung entstehen Verzerrungen u. a. dadurch, dass die Membran durch ihre Trägheit und Steifigkeit den Schallschwingungen nicht mehr exakt folgen kann. Zwischen diesen beiden Grenzen, große Auslenkung für eine große Ausgangsspannung und möglichst kleine Auslenkung für geringe Verzerrungen, liegt die optimale Membranauslenkung. Dabei führt die Membran immer erzwungene Schwingungen aus und gerät nicht in Resonanz; das wird erreicht durch die Spannung und Masse der Membran und damit die Lage ihrer Eigenresonanz, durch Dämpfungselemente wie Luftpolster u. a. Von den verschiedenen Wandlerprinzipien finden bei Studiomi­kro­fonen das elektrostatische Wandlerprinzip bei Kondensatormi­kro­fonen Anwendung, das elektrodynamische Wandlerprinzip bei dynamischen Mi­kro­fonen, dazu gehören Tauchspul- und Bändchenmi­ kro­fone.

144 

 4 Mi­kro­fone und Lautsprecher

4.2.1 Eigenschaften von Mi­kro­fonen Die Datenblätter der Mi­kro­fonhersteller geben Auskunft über die Qualitätsmerkmale der Mi­kro­fone, insbesondere handelt es  sich um die nachfolgend erläuterten Eigenschaften [Wuttke, 1981, 1997]. Darüber hinaus  spielen in der Praxis  subjektiv bewertete Qualitäten eine nicht zu unterschätzende Rolle, ihr spezifischer Klang, ihre Brillanz, Schärfe, Wärme, Fülle, Mattigkeit u. ä. 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit Die Größe der Spannung, die von einem Mi­kro­fon bezogen auf den einwirkenden Schalldruck abgegeben wird, wird durch den Übertragungsfaktor oder das Übertragungsmaß bzw. die Empfindlichkeit angegeben. Die folgenden Begriffe werden verwendet: Feld-Übertragungsfaktor und Feld-Übertragungsmaß Der Feld-Übertragungsfaktor bei einer bestimmten Frequenz – 1  kHz, wenn nichts anders angegeben ist – ist der Quotient aus der effektiven Ausgangsspannung und dem effektiven Schalldruck am Ort des Mi­kro­fons, wenn dieses aus dem Schallfeld entfernt wird; in der Regel ist das Schallfeld für die Messung eine ebene Welle oder Direktschall, d. h. ein freies Schallfeld, weshalb dieser Faktor oder Koeffizient korrekt oft als Freifeld-Übertragungsfaktor bzw. -Koeffizient bezeichnet wird. Er wird angegeben in mV/Pa. 1 Pa (Pascal) entspricht einem Schalldruckpegel von 94 dB. Je höher der Faktor, desto empfindlicher ist also das Mi­kro­fon. Das Feld-Übertragungsmaß ist der 20-fache Zehnerlogarithmus des Verhältnisses von Feld-Übertragungsfaktor zu einem Bezugsübertragungsfaktor von z. B. 1 V/Pa; er wird in dB angegeben. Feld-Leerlaufübertragungsfaktor und Feld-Betriebsübertragungsfaktor, Empfindlichkeit Man unterscheidet beim Feld-Übertragungsfaktor und -maß Leerlauf- und Betriebsgrößen, je nachdem, ob die Ausgangsspannung des Mi­kro­fons als Leerlaufspannung mit einem sehr hochohmigen Abschlusswiderstand oder als Klemmenspannung unter betriebsmäßigem Abschluss  mit Nennabschlussimpedanz (siehe Kap.  4.2.1.6) gemessen wird. Der FeldLeerlaufübertragungsfaktor liegt bei dynamischen Mi­kro­fonen bei etwa 1 bis 2  mV/Pa, bei Kondensatormi­kro­fonen zwischen 10 und 20  mV/Pa. Kondensatormi­kro­fone geben damit einen um rund 10 bis 20 dB höheren Pegel als dynamische Mi­kro­fone ab. 4.2.1.2 Übertragungsbereich Der Übertragungsbereich ist der für Tonaufnahmen nutzbare Frequenzbereich. Für ihn werden die vom Hersteller angegebenen Übertragungseigenschaften eines Mi­kro­fons und deren Toleranzen angegeben. Die Übertragungsbereiche verschiedener Mi­kro­fone können deshalb oft nicht direkt miteinander verglichen werden, weil z. B. unterschiedliche Toleranzen angegeben werden. Ein typischer Übertragungsbereich für Studiomi­kro­fone ist 20 Hz bis 20 kHz, mindestens aber 40 Hz bis 16 kHz. Frequenzen unterhalb des Übertragungsbereichs werden bei Studiomi­kro­fonen durch einen Hochpass weggefiltert, bei 15 Hz soll der Pegelabfall mindestens 12 dB betragen. Auch Frequenzen oberhalb des Übertragungsbereichs müssen

4.2 Mi­kro­fone 

 145

vom Übertragungsweg ferngehalten werden; durch Demodulationseffekte erzeugen sie Störungen im Hörschallbereich. Oberhalb 40 kHz soll die Dämpfung größer sein als 20 dB. 4.2.1.3 Frequenzgang Der Frequenzgang oder die Frequenzkurve eines Mi­kro­fons ist die grafische Darstellung der Abhängigkeit des Übertragungsmaßes von der Frequenz bei senkrecht auf die Membran auftreffendem Schall, die Messung erfolgt also im freien Schallfeld. Die Toleranzzone ist bei Studiomi­kro­fonen im Allgemeinen mit ± 2 dB angegeben. Die beim Übertragungsmaß angegebene Toleranz bezieht sich auf das Übertragungsmaß bei 1 kHz. Frequenzgang im Direkt- und Diffusfeld Einer der Gründe, warum Mi­kro­fone mit gleichen Frequenzkurven sich klangfarblich unterscheiden können, ist die Tatsache, dass die Bedingungen, unter denen die Frequenzkurve gemessen wird, nämlich bei frontal einfallendem Direktschall, nur bei der Aufnahme im Nahbereich der Instrumente Gültigkeit haben. Sobald das Mi­kro­fon aus dem unmittelbaren Nahbereich der Schallquelle entfernt wird, erhöht sich der Diffusfeldanteil zunehmend. Der Diffusfeldfrequenzgang weicht aber normalerweise vom Direktfeldfrequenzgang ab, u. U. ganz erheblich. Der Diffusfeldfrequenzgang wird in Datenblättern üblicherweise aber leider nicht angegeben, wohl weil er nicht die Linearität des Direktfeldfrequenzgangs haben kann. Er kann zwar durch Mittelung der Richtcharakteristiken für die verschiedenen Messfrequenzen näherungsweise aus den Herstellerdaten ermittelt oder abgeschätzt werden, für den praktischen Anwender ist dies jedoch zu aufwändig. Wenn die verschiedenen Richtcharakteristiken jedoch erheblich voneinander abweichen, so kann daraus auf einen erheblichen Unterschied zwischen Direkt- und Diffusfeldfrequenzgang geschlossen werden. Abb. 4/4 zeigt die Frequenzgänge und die Richtcharakteristiken für verschiedene Frequenzen am Beispiel eines Studiomi­kro­fons mit kleiner Membran. Direkt- und Diffusfeldfrequenzgang stimmen hier gut überein, d. h., dass die Klangfarbe sich mit der Entfernung nicht deutlich ändert. Der Pegel des Diffusfeldfrequenzgangs liegt in diesem Fall um 5  dB unterhalb des Pegels des Direkt- oder Freifeldfrequenzgangs, diese Differenz ist das Bündelungsmaß des Mi­kro­ fons (siehe Kap. 4.1.2.7). Auf den Unterschied von Direkt- und Diffusfeldfrequenzgang hat das Empfängerprinzip sowie die Konstruktion der Mi­kro­fonkapsel Einfluss. Druckempfänger haben bei einem Membrandurchmesser um 16  mm,  sog. Kleinmem­ branmi­kro­fone, im Frequenzbereich um 10  kHz eine Anhebung des Übertragungsmaßes um etwa 6dB für Direktschall, der  senkrecht auf die Membran trifft. In diesem Frequenzbereich ist die Membranausdehnung in der Größenordnung der Wellenlänge des Schalls; deshalb wird die Schallwelle an der Membran reflektiert, der Schalldruck auf die Membran verdoppelt sich dabei, was der Anhebung von 6 dB entspricht. Dieser Anstieg kann durchaus erwünscht sein, da er eine gewisse Klangpräsenz fördert. Der Diffusfeldfrequenzgang zeigt demgegenüber einen Höhenabfall; Schallwellen kleiner Wellenlänge werden nicht mehr um die Mi­kro­fonkapsel herum gebeugt, das Mi­kro­ fon nimmt nicht  mehr  so viel rückwärtigen und  seitlichen Schall auf, es wird für höhere Frequenzen zum Richtmi­kro­fon. Der Höhenabfall wird dadurch reduziert, dass auch beim Diffusschall frontal eintreffende Schallanteile durch Reflexion um 6 dB angehoben werden.

146 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/4. Mi­kro­fon-Frequenzgänge eines Druckgradientenempfängers für verschiedene Einfallsrichtungen und für Diffusschall. Der 0°-Frequenzgang ist der in Datenblättern der Hersteller angegebene Frequenzgang.

Man linearisiert nun durch Filterung entweder den Direktfeld- oder den Diffusfeldfrequenzgang oder stellt einen Kompromiss her; Studiomi­kro­fone nach dem Druckempfängerprinzip haben also im Allgemeinen entweder –– einen geraden Direktfeldfrequenzgang, man nennt solche Mi­kro­fone „freifeldentzerrt“, –– einen geraden Diffusfeldfrequenzgang,  man nennt  solche Mi­kro­fone „diffusfeldentzerrt“, –– oder einen Kompromiss zwischen diesen Möglichkeiten. Abb.  4/5 zeigt ein Beispiel  mit Diffusfeldentzerrung und damit einen weitgehend geraden Diffusfeldfrequenzgang. Grenzflächenmi­kro­fone  sind ebenfalls Druckempfänger (siehe Kap.  4.2.2). Wegen der bündig in eine größere Fläche integrierten Membran  sind die Bedingungen für Schallreflexion, die bei üblichen Studiomi­kro­fonen nur bei höheren Frequenzen erfüllt  sind, bei diesen Mi­kro­fonen für den gesamten Übertragungsbereich gegeben. Bei Grenzflächenmi­kro­ fonen sind also Direkt- und Diffusfeldfrequenzgang weitgehend gleich, was so bei keinem anderen Mi­kro­fontyp zutrifft.

4.2 Mi­kro­fone 

 147

Bei Druckgradientenempfängern gibt es zwischen Direktfeld- und Diffusfeldfrequenzgang keine physikalisch bedingten Unterschiede. Moderne, hochwertige Studiomi­kro­fone haben deshalb zwischen den beiden Frequenzgängen nur geringe Abweichungen. Abb. 4/4 zeigt dies am Beispiel eines Studiomi­kro­fons; im Gegensatz zum Druckempfänger zeigt hier das Diffusfeld sogar einen geringen Höhenanstieg bei 10 kHz.

Abb. 4/5. Beispiel der Frequenzgänge eines Druckempfängers (Kleinmembran) im Direktfeld und Diffusfeld bei Diffusfeldentzerrung.

Auch Mi­kro­fonständer und -halterungen nehmen auf den Direktfeldfrequenzgang Einfluss. Durch Störungen des Schallfelds können kammfilterartige Störungen des Frequenzgangs von bis zu ± l dB entstehen. Nur die senkrechten Stangen im Bereich des Mi­kro­fons verursachen solche Störungen, durch ausgefahrene waagrechte Ausleger können sie vermieden werden. Frequenzgang bei Nahbesprechung von Druckgradientenempfängern Richtmi­kro­fone  mit Nieren- oder Achterrichtcharakteristik oder deren Zwischenformen – Super- und Hypernieren, Keulen –  sind  sog. Druckgradientenempfänger. Diese Mi­kro­fone haben für Mi­kro­fonstandorte im direkten Nahfeld einer Schallquelle einen anderen Frequenzgang als für weiter entfernte Standorte, nämlich eine Überbetonung tiefer Frequenzen; man nennt diese in der Physik der Schallwellen begründete Erscheinung den Nahbesprechungseffekt eines Mi­kro­fons. Die Tiefenanhebung beim Nahbesprechungseffekt ist umso größer, je tiefer die Frequenz und je kleiner der Mi­kro­fonabstand ist. Die Anhebung setzt etwa da ein, wo der Mi­kro­fonabstand kleiner als die Wellenlänge des auftreffenden Schalls wird. Sie kommt deshalb zustande, weil die Druckdifferenz zwischen Membranvorder- und -rückseite, die die Membran auslenkt, aus zwei Komponenten zusammengesetzt ist: –– die Fernfeldkomponente, das ist der Druckgradient, also die Druckdifferenz zwischen zwei Punkten im Schallfeld, die unabhängig von der Entfernung zur Schallquelle  mit fallender Frequenz abnimmt, –– die Nahfeldkomponente, die unabhängig von der Frequenz  mit zunehmender Entfernung von der Schallquelle abnimmt.

148 

 4 Mi­kro­fone und Lautsprecher

Dieser Tiefenabfall der Fernfeldkomponente wird im Mi­kro­fon elektrisch durch die Anhebung tiefer Frequenzen ausgeglichen. Die Nahfeldkomponente ist frequenzlinear, wird nun aber ebenfalls über die Tiefenanhebung der Fernfeldkomponente geführt. Daraus ergibt sich im Nahfeld eine ganz erhebliche Bassanhebung (Abb. 4/6); sie ist prinzipielle nicht vermeidbar.

Abb. 4/6. Fernfeld- und Nahfeldkomponenten des Druckgradienten einer Schallwelle.

Abb. 4/7 zeigt die Anhebung tiefer Frequenzen bei Nahbesprechung bei verschiedenen Mi­kro­ fonabständen, bei 54 cm, 10,8 cm und 5,4 cm. Sie ist bei Mi­kro­fonen mit Achterrichtcharakteristik um 6 dB höher als bei Nierenmi­kro­fonen. Nur bei Abständen unter 0,5 bis 1 m spielt der Nahbesprechungseffekt in der Praxis eine zu beachtende Rolle. Richtmi­kro­fone, die für den Einsatz bei geringen Entfernungen vorgesehen sind, müssen die Anhebung tiefer Frequenzen, die durch den Nahbesprechungseffekt verursacht wird, ausgleichen. Sie sind im Allgemeinen bezüglich ihres Frequenzgangs auf eine Entfernung von etwa 10 cm optimiert, genauere Angaben fehlen  meist in den Datenblättern der Hersteller. Sie heißen Solisten-, Gesangs- oder Nahbesprechungsmi­kro­fone. Universalmi­kro­fone haben oft einen Sprache/ Musik-Schalter, die Tiefen sind abgesenkt in Schalterstellung „Sprache“, linear ist der Frequenzgang in Stellung „Musik“. Bei sog. Zweiwegmi­kro­fonen gelingt es durch konstruktive Maßnahmen, den Nahbesprechungseffekt geringer zu halten. Nahbesprechungsmi­kro­fone haben für entfernte Schallquellen  selbstverständlich eine den Klang färbende Absenkung tiefer Frequenzen, die sie für größere Mi­kro­fonabstände ungeeignet machen; sie eignen sich aber besonders für die Nahbesprechung in lärmerfüllter Umgebung, weil sie den Raumlärm im Bereich tiefer Frequenzen zusätzlich dämpfen.

4.2 Mi­kro­fone 

 149

Abb. 4/7. Anhebung tiefer Frequenzen durch den Nahbesprechungseffekt.

4.2.1.4 Störpegel Mi­kro­fone geben grundsätzlich auch ohne Einwirkung von Schall eine geringe Spannung ab; sie wird generiert durch kleinste Bewegungen von Ladungsträgern in den Bauelementen des Mi­kro­fons, in Widerständen, Halbleitern usw. Vor allem das sog thermische Rauschen oder Wärmerauschen des hohen Widerstands des Impedanzwandlers des Kondensatormi­ kro­fons gibt ein nahezu Weißes Rauschen ab, dessen Stärke von der Umgebungstemperatur und der Größe des Widerstands abhängt. Es handelt sich also um einen auch bei sog. digitalen Mi­kro­fonen unvermeidlichen, in der Physik der Bauelemente des Mi­kro­fons begründeten Störpegel. Er ist keineswegs vernachlässigbar klein, sondern zählt zu den wichtigen Qualitätsparametern eines Mi­kro­fons. Ein Ersatzgeräuschpegel entspricht dem Pegel des Schalldrucks, gemessen in dBSPL (siehe Kap. 9.5) im Raum, in dem sich das Mi­kro­fon befindet. Diese Spannung unbewertet als Störpegel zu behandeln und einen Störpegelabstand etwa zu einem Nutzsignal bei Vollaussteuerung zu definieren,  macht keinen Sinn, weil dieses Rauschen zusammen mit dem akustischen Signal auftritt und damit nicht quantitativ,  sondern qualitativ nach  seiner Störwirkung in der Wahrnehmung durch das Gehör zu beurteilen ist. Dem Gehör bietet sich ein Geräusch, das sich in den aufzunehmenden Schall hineinmischt. Daher muss es auch subjektiv als Geräusch mit einer bestimmten Lautstärke behandelt werden, das unter Berücksichtigung der besonderen Eigenschaften des Gehörs zu erfassen ist; früher hat man deswegen auch den Begriff Ersatzlautstärke benutzt, er wurde anschaulich durch den Begriff Ersatzgeräuschpegel, auch Eigenrauschen, ersetzt. Ein weiterer Begriff hierfür ist der Äquivalentschalldruck bzw. -pegel. Tiefe und sehr hohe Frequenzen nimmt das Gehör weit schwächer wahr als den mittleren Frequenzbereich, wie die Kurven gleicher Lautstärkepegel zeigen (siehe Kap. 3.3.1, besonders Abb. 3/3 und 3/4). Bei Messungen wird das berücksichtigt durch vorgeschaltete Filter, die ein Spiegelbild darstellen zu den Kurven gleicher Lautstärkepegel. Hierfür gibt es verschiedene

150 

 4 Mi­kro­fone und Lautsprecher

Normen, die  sich genau (CCIR-bewertet bis 1991) oder weniger genau (A-bewertet) an die Kurven halten, demnach gibt es auch verschiedene Angaben für Messwerte für die Störpegel von Mi­kro­fonen. Folgende Messwerte werden heute bei Studiomi­kro­fonen angegeben: Ersatzgeräuschpegel bewertet nach CCIR Die Messung erfolgt unter Vorschaltung eines Filters nach [ITU-R BS.468], bis 1991 CCIR 468 – aber immer noch  meist  so zitiert – bzw. der identischen nationalen, aber zurückgezogenen Norm [DIN  45405] (1983)  mit Quasispitzenbewertung (siehe Abb.  9/9). Die zu erwartenden Werte liegen bei etwa 25 dB ± 3 bis 4 dB entsprechend einer sehr leisen Umgebung; sie sollten möglichst niedrig sein. Ersatzgeräuschpegel A-bewertet Die Messung erfolgt unter Vorschaltung eines Filters mit A-Bewertung nach [DIN EN 60268] (2003), früher IEC 268, als Effektivwert (siehe Abb. 9/13)). Die zu erwartenden Werte liegen etwa 10 dB, gelegentlich bis 13 dB [Schneider, 1998] niedriger, also etwa bei 12 bis 15 dB ± 3 bis 4 dB; sie sollten natürlich ebenfalls möglichst niedrig sein. Diese vorteilhaft erscheinenden Werte findet man vielfach bei sog. Musikermi­kro­fonen, also dynamischen Mi­kro­fonen. Geräuschpegelabstand nach CCIR Die absoluten Werte des Ersatzgeräuschpegels, die dem Schalldruckpegel von Störschall entsprechen,  sind für den Anwender nicht besonders anschaulich. Deshalb wurde auch ein Geräuschpegelanstand definiert, der  sich auf einen Bezugswert des Schalldrucks bezieht; man hat dafür den runden Wert eines auf das Mi­kro­fon einwirkenden Schalldrucks von 1 Pa gewählt [CCIR 468 bzw. ITU-R BS.468], das entspricht einem Schalldruckpegel von 94 dB. Dies ist der Schalldruckpegel eines sehr lauten Schallereignisses, z. B. in einer Diskothek, bei Aufnahmen kommen solche Pegel selten vor. Dieser Wert ergibt also einen sehr hohen Geräuschpegelabstand und ist  somit ein „geschönter“ Wert. Bei einem Ersatzgeräuschpegel von z. B. 25 dB liegen die zu erwartenden Werte des Geräuschpegelabstands bei 94 dB − 25 dB = 69 dB. In der Praxis vermindert er sich z. B. um ca. 30 dB, wenn man einen Sprecher in 30 cm Entfernung mit 65 dB als Bezug nimmt. Geräuschpegelabstand A-bewertet Die A-Bewertung des Ersatzgeräuschpegels mit Effektivwertmessung ergibt bereits einen sehr günstig erscheinenden Wert. Zusammen mit dem sehr hohen Bezugswert von 94 dB Schalldruckpegel ergeben sich entsprechend eindrucksvolle Werte für den Geräuschpegelabstand. Hier kommen gleich zwei Maßnahmen zusammen, die die Messwerte als sehr günstig erscheinen lassen. Die zu erwartenden Werte liegen um nun bei 94 dB – 15 dB = 79 dB. Dynamikumfang Gelegentlich findet man Angaben über den Dynamikumfang eines Mi­kro­fons. Dieser ist dann nicht wie der Geräuschpegelabstand auf 94 dB bezogen, sondern auf den Schalldruck, bei dem die Verzerrungen des Mi­kro­fonsignals einen Wert von 0,5 oder 1 % erreichen, das sind Werte im Bereich von 130 bis 150 dB. Dabei entstehen Dynamikumfänge üblicher Studiomi­kro­fone nach CCIR bzw. ITU-R BS.468 von weit über 100 dB, Werte, die keinen Bezug mehr haben zur Praxis.

4.2 Mi­kro­fone 

 151

Magnetfeldstörfaktor Bei dynamischen Mi­kro­fonen ist der störende Einfluss äußerer Magnetfelder von Interesse. Der Magnetfeldstörfaktor gibt die induzierte Spannung bei 5 μTesla und 50 Hz an. Mi­kro­fone geringer Magnetfeldempfindlichkeit haben 3 bis 5 μV/μT. 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze Anstelle des Klirrfaktors wird bei Mi­kro­fonen derjenige Schalldruck oder Schalldruckpegel angegeben, unterhalb dessen der Hersteller die Einhaltung eines bestimmten Klirrfaktors, meist 0,5 %, gelegentlich aber auch 1 %, bei 1 kHz, garantiert. Man bezeichnet diesen Schalldruck als Grenzschalldruck oder Aussteuerungsgrenze. Für Kondensatormi­kro­fone liegt er zwischen etwa 40 und 200 Pa; dem entspricht ein Schalldruckpegel von 126 bis 140 dB. Dynamische Mi­kro­fone können höchste Schalldrücke von etwa 150 bis 160 dB verarbeiten, ohne dass die Verzerrungen unzulässig ansteigen; deshalb wird bei ihnen oft auf die Angabe eines Grenzschalldrucks verzichtet. Die Verzerrungen entstehen nicht an der Mi­kro­fonkapsel, sondern beim Impedanzwandler/Verstärker, der ja auch für den Ersatzgeräuschpegel verantwortlich ist. Dynamische Mi­kro­fone haben keine elektronische Einheit und zudem eine robustere Membran. 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz Die Ausgangsimpedanz, Innen- der Quellwiderstand eines Kondensatormi­kro­fons, beträgt etwa 40 bis 50 Ώ, bei dynamischen Mi­kro­fonen liegt sie üblicherweise bei 200 bis 600 Ώ; die Angabe wird meist auf 1 kHz bezogen. Kondensatormi­kro­fone haben systembedingt einen spannungsversorgten Impedanzwandler, mit dem die niedrige Impedanz realisiert wird; damit können sie über Mi­kro­fonleitungen von  mehreren hundert Metern angeschlossen werden. Dynamische Mi­kro­fone haben keine Elektronik, ihre Spule bzw. ein Übertrager beim Bändchenmi­kro­fon liefert direkt das symmetrische, erdfreie Ausgangssignal, das einen um 10 bis 20 dB niedrigeren Pegel als bei Kondensatormi­kro­fonen hat; entsprechend sind längere Kabel störanfällig. Die Nennabschlussimpedanz eines Mi­ kro­ fons ist der elektrische WechselstromAbschlusswiderstand,  mit dem das Mi­kro­fon durch die Eingangsimpedanz des Mi­kro­fon­ verstärkers der Regieanlage mindestens abgeschlossen werden soll; die kleinste zulässigen Abschlussimpedanz ist zugleich die höchst zulässige Belastung. Nur wenn die Nennabschlussimpedanz  mindestens 10-mal höher ist als die Ausgangsimpedanz des Mi­kro­fons, wirken sich Frequenzabhängigkeiten der Impedanzen mit Sicherheit nicht auf den Frequenzgang des Mi­kro­fonsignals aus. Die vom Hersteller angegebenen Werte sollten also keinesfalls unterschritten werden. Beim Kondensatormi­kro­fon liegen  sie vielfach bei 1  kΩ, also rund dem 20-fachen der Abschlussimpedanz, bei dynamischen Mi­kro­fonen z. B. bei 2 kΩ, empfohlen wird minimal das 5-fache. 4.2.1.7 Richtcharakteristik Der Feld-Übertragungsfaktor oder die Empfindlichkeit von Mi­kro­fonen ist abhängig von der Richtung des eintreffenden Schalls, Mi­kro­fone haben demnach eine sog. Richtcharakteristik, die immer auch von der Frequenz abhängt. Diese Eigenschaft erhalten sie durch ihre

152 

 4 Mi­kro­fone und Lautsprecher

konstruktive Gestaltung, die Mi­kro­fone  mit  sehr unterschiedlichen Richtcharakteristiken ermöglichen. Die Konstruktion legt fest, ob ein Mi­kro­fon auf den Schalldruck anspricht und damit weitgehend kugelförmige Richtcharakteristik hat oder ob es auf den Druckgradienten, also auf die Differenz der Schalldrücke, die auf die Vorder- bzw. Rückseite der Mi­kro­ fonmembran einwirken, anspricht und damit nieren- oder achterförmige Richtcharakteristik bzw. deren Zwischenformen Super-, Hyperniere und Keule besitzt (siehe Kap.  4.2.1.8). Die Abhängigkeit der Mi­kro­fonspannung bzw. des Mi­kro­fonpegels von der Einfallsrichtung des Schalls wird durch verschiedene Begriffe erfasst, die [DIN 45590] definiert: Richtungsfaktor und Richtungsmaß Der Richtungsfaktor eines Mi­kro­fons für eine bestimmte Frequenz und Richtung ist das Verhältnis des Feld-Übertragungsfaktors für eine ebene Schallwelle, die das Mi­kro­fon aus einer bestimmten Richtung trifft, zu demjenigen aus der Bezugsrichtung (Richtung 0°, Bezugsachse, Symmetrieachse). Er ist dimensionslos. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Er wird in dB angegeben. Richtcharakteristik Erst die grafische Darstellung des Richtungsfaktors oder bevorzugt des Richtungsmaßes für alle Richtungen und einige wichtige Frequenzen, z. B. 125, 250, 500 Hz und 1, 2, 4, 8, 16 kHz, in einem Polarkoordinatensystem  macht die Richtwirkung eines Mi­kro­fons als Richtdiagramm für den Anwender anschaulich (Abb. 4/8). Da alle Richtcharakteristiken symmetrisch zur 0°-Richtung liegen, wird das Richtungsmaß vielfach für eine bestimmte Frequenz nur für eine Seite angegeben. Tatsächlich ist die Richtcharakteristik ein Schnitt durch eine dreidimensionale Darstellung, der rotationssymmetrisch zu der senkrecht die Membran schneidenden Achse verläuft. In Abb. 4/8 sind die Richtdiagramme auf Grund des Richtungsfaktors und Richtungsmaßes einander gegenübergestellt. Die Darstellung des Richtungsfaktors lässt die Richtcharakteristik deutlicher erscheinen als die Darstellung des Richtungsmaßes. Tab. 4/1 stellt einige Werte von Richtungsmaß und -faktor gegenüber. Tab. 4/1. Zusammenhang von Richtungsfaktor und Richtungsmaß bei Mi­kro­fonen. Richtungsfaktor

entspricht dem Richtungsmaß

1,0 0,7 0,5 0,3 0,25

0 dB – 3 dB – 6 dB – 10 dB – 12 dB

Mi­ kro­ fone  mit Richtwirkung werden eingesetzt, um Direktschall bevorzugt aus einer bestimmten Richtung aufzunehmen, den Diffusschall aus anderen Richtungen aber auszublenden. Um diese Eigenschaft  mit einem einzigen Zahlenwert ausdrücken zu können,

4.2 Mi­kro­fone 

 153

werden die Begriffe Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad verwendet, die aber ineinander umgerechnet werden können [DIN 45590].

Abb. 4/8. Richtdiagramme am Beispiel zweier Richtrohrmi­kro­fone: 1. Darstellung des Richtungsmaßes, 2. Darstellung des Richtungsfaktors.

Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad Diese drei Begriffe beziehen sich nur auf die Richtung vorne, also 0°, und erfassen die Richtwirkung eines Mi­kro­fons mit einer einzigen Zahl. Der Bündelungsfaktor gibt an, wievielmal größer der Besprechungsabstand eines Mi­kro­fons mit einer bestimmten Richtcharakteristik gegenüber dem eines Mi­kro­fons  mit kugelförmiger Richtcharakteristik  sein kann, um das gleiche Verhältnis von Direktschall zu Diffusschall zu erhalten. Das Bündelungsmaß ist der l0‑fache Zehnerlogarithmus des Bündelungsgrads; er wird in  dB angegeben. Der Bündelungsgrad schließlich betrachtet das Verhältnis der Schallleistungen, er ist das Quadrat des Bündelungsfaktors; für die praktische Betrachtung ist er am wenigsten anschaulich und nicht mit dem Bündelungsfaktor zu verwechseln. Tab. 4/2 zeigt die Zusammenhänge zwischen den drei Größen der Schallbündelung und wie sie sich auf den Mi­kro­fonabstand bzw. die Ausblendung des Diffusschalls auswirken. Richtcharakteristiken in der Praxis Abb.  4/9 zeigt in räumlicher Darstellung die Hauptformen der Richtcharakteristiken, Abb. 4/10 die Richtdiagramme der Grundformen Kugel, Niere und Acht sowie der Zwischenformen zwischen Niere und Acht, nämlich Superniere, Hyperniere und Keule, es handelt sich um idealisierte Darstellungen, die unberücksichtigt lassen, dass in der Praxis die Richtdiagramme Frequenzabhängigkeiten zeigen. Während Nieren und Achten sowie ihre Zwischenformen noch relativ frequenzunabhängige Richtdiagramme haben, sind Kugeln und Keulen für Direktschall vergleichsweise erheblich frequenzabhängig; die in Abb. 4/10 dargestellten Kurven gelten in dem Frequenzbereich bis 1 kHz.

154 

 4 Mi­kro­fone und Lautsprecher

Tab. 4/2. Bündelungsfaktor, -maß und -m für Richtmi­kro­fone. Richtcharakteristik

Bündelungsfaktor [dimensionslos] Vervielfachung des Mi­kro­fonabstands um den Faktor, verglichen mit einer Kugel

Bündelungsmaß [dB] Bündelungsgrad Pegel des Direktschalls [dimensionslos] über dem Pegel des Diffusschalls

Kugel breite Niere Niere Superniere Hyperniere Acht

1,0 1,4 1,7 1,9 2,0 1,7

0 dB 3,2 dB 4,8 dB 5,7 dB 6,0 dB 4,8 dB

1,0 2,0 3,0 3,7 4,0 3,0

Für den praktischen Einsatz der Richtmi­kro­fone ist zunächst wichtig, dass die Richtwirkung nur für Direktschall wirksam ist, also nicht über den Hallradius (siehe Kap. 1.2.4) hinaus. Nur im Freien oder in sehr trockenen Räumen kann demnach ein Mi­kro­fon aus größerer Entfernung Störschall aus anderen Richtungen als aus derjenigen der Schallquelle ausblenden. In sehr halligen Räumen können nur Keulen-Richtmi­kro­fone bis zum zwei- bis dreifachen Wert des Hallradius noch diffusen oder störenden Schall ausblenden. Die Ausblendung von Störschall bzw. Nachhall ist umso besser, je näher das Mi­kro­fon an die Schallquelle herangebracht wird.

Abb. 4/9. Hauptformen der Richtcharakteristik in idealisierter pseudo-dreidimensionaler Darstellung.

Das Verhältnis von Direktschall zu Diffusschall ist bei der Mi­kro­fonaufnahme ein wichtiges Kriterium für die Wahl der geeigneten Richtcharakteristik. In relativ halliger Umgebung

4.2 Mi­kro­fone 

 155

und/oder bei störenden Nebengeräuschen ist es bei Sprachaufnahmen praktisch immer, bei Musikaufnahmen vielfach wünschenswert, möglichst wenig Diffusschall aufzunehmen. Der Mi­kro­fonabstand ist bei Richtmi­kro­fonen für ein bestimmtes Verhältnis von Direkt- zu Diffusschall  stets größer als bei ungerichteten Mi­kro­fonen. Dieser Vergrößerungsfaktor ist in Abb. 4/11 für die verschiedenen Richtmi­kro­fone angegeben. Er ist gleich dem Bündelungsfaktor des Mi­kro­fons. Ein weiteres Kriterium für die Mi­kro­fonwahl ist das Maß der Ausblendung bzw. Dämpfung von Schallquellen, die seitlich oder hinter dem Mi­kro­fon sind; Direktschall von  solchen Schallquellen wird entsprechend Tab.  4/3 gegenüber dem Schall von vorne gedämpft aufgenommen. Demnach hat die Niere die beste Rückwärtsdämpfung bei nicht allzu großer Seitwärtsdämpfung. Die Acht bietet die beste Seitwärtsdämpfung, ist aber nach hinten ebenso empfindlich wie nach vorne. Super- und Hyperniere stellen als Zwischenformen Kompromisse zwischen diesen beiden Richtcharakteristiken dar: die Superniere verbindet recht gute Rückwärtsdämpfung mit geringerer Seitwärtsdämpfung, bei der Hyperniere ist dies umgekehrt. Somit steht für jede Aufnahmesituation eine zu bevorzugende Richtcharakteristik zur Verfügung.

Abb. 4/10. Richtdiagramme von Mi­kro­fonen (idealisierte Kurven).

156 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/11. Vergrößerungsfaktoren für die verschiedenen Richtmi­kro­fone bei gleichem Direktschall/ Diffusschall-Verhältnis wie bei einem ungerichteten Mi­kro­fon. Der Faktor ist bei Keulenrichtcharakteristik stark frequenzabhängig: für tiefe Frequenzen liegt er wie bei der Niere bei rund 1,7, bei hohen Frequenzen steigt er bis etwa 3,3.

Tab. 4/3. Spannungs- und Pegelverhältnisse für verschiedene Schalleinfallsrichtungen bei Richtmi­kro­fonen, theoretische Werte. Schalleinfall

von vorne (0°) seitlich (±-90°) von hinten (±180°) beste Eignung für die Aufnahme­ situation

Spannung, Pegel bezogen auf die Spannung bzw. den Pegel des Schalls von vorne Niere

Superniere

Hyperniere

Acht

100 %, 0 dB 50 %, − 6 dB 0 %, − ∞ dB Schall von hinten soll ausgeblendet werden

100 %, 0 dB 38 %, − 9 dB 25 %, − 12 dB Schall von der Seite und besonders von hinten soll ausgeblendet werden

100 %, 0 dB 25 %, − 12 dB 50 %, − 6 dB Schall besonders von der Seite und von hinten soll ausgeblendet werden

100 %, 0 dB 0 %, − ∞ dB 100 %, 0 dB Schall von der Seite soll ausgeblendet werden, Schall von vorn und hinten soll in gleicher Wiese aufgenommen werden

4.2.1.8 Bauformen von Mi­kro­fonen Im Studiobereich werden Kondensatormi­kro­fone und dynamische Mi­kro­fone eingesetzt, deren konstruktiver und elektrischer Aufbau in Kap. 4.2.1.9 behandelt werden. Auf Grund der gemeinsamen Empfängerprinzipien für Mi­kro­fone ergeben sich auch gemeinsame Kon­ struktionsmerkmale, bedingt durch die Akustik des Schallempfangs und unabhängig von der Konstruktion des eigentlichen akustisch-elektrischen Wandlers des Mi­kro­fons. Druckempfänger Abb. 4/12 zeigt ein schematisches Schnittbild des Aufbaus der Kapsel eines Druckempfängers. Das Innere der Kapsel ist durch die Membran von dem umgebenden Raum schalldicht getrennt; in der Kapsel herrscht wegen des Druckausgleichs durch eine kleine Öffnung der äußere Luftdruck, die raschen Druckschwankungen des Schalls werden dabei aber nicht ausgeglichen.

4.2 Mi­kro­fone 

 157

Abb. 4/12. Prinzip des Aufbaus der Kapsel eines Druckempfängers.

Die Membran wird immer dann bewegt, wenn der Druck von außen auf die Membran vom Kapselinnendruck abweicht. Auch von hinten oder von der Seite auf die Kapsel auftreffender Schall verursacht Änderungen des Schalldrucks vor der Membran, wenn die Schallwellen um das Mi­kro­fon gebeugt werden. Druck ist eine sog. skalare Größe, im Gegensatz zu vektoriellen Größen besitzt sie keine Richtungsinformation. Ein Druckempfänger nimmt Schallereignisse aus allen Richtungen in gleicher Weise auf, Druckempfänger haben also eine kugelförmige Richtcharakteristik. Die Richtcharakteristik erfährt durch drei Phänomene Abweichungen von ihrer idealen Form; sie wirken sich nur im Bereich höherer Frequenzen aus (Abb. 4/13): –– Abschattung: Schall, der rückwärtig oder von der Seite auf das Mi­kro­fon trifft, wird durch die Kapsel abgeschattet, –– Auslöschung: Schall, der  schräg auf die Membran auftrifft, löscht  sich ganz oder teilweise auf der Membran aus, –– Druckstau: Schall, der senkrecht auf die Membran auftrifft, wird reflektiert und erzeugt dabei einen Druckstau, das bedeutet eine Druckverdopplung.

Abb. 4/13. Richtcharakteristik eines Druckempfängers bei verschiedenen Frequenzen.

158 

 4 Mi­kro­fone und Lautsprecher

Abschattung: Schall wird nur dann um ein Hindernis gebeugt, wenn seine Wellenlänge groß verglichen mit dem Hindernis ist. Ist also die Wellenlänge des auf die Rückseite der Kapsel auftreffenden Schalls kleiner als der Durchmesser der Mi­kro­fonkapsel, so entsteht ein mit steigender Frequenz zunehmender Schallschatten vor der Membran; das führt  mit  steigender Frequenz zu einer Ausblendung rückwärtigen, i. A. diffusen Schalls. Auslöschung oder Interferenz: Von vorne ankommende Schallwellen treffen senkrecht auf die gesamte Membranoberfläche gleichphasig auf.  schräg ankommende Schallwellen hingegen treffen mit unterschiedlichen Phasenlagen auf die einzelnen Membranzonen, was zu einer teilweisen Aufhebung der Membranauslenkung, also zu einer teilweisen Auslöschung des Signals führt. Ist der Membrandurchmesser gleich der Wellenlänge, so wird exakt seitlich auftreffender Schall z. B. ganz ausgelöscht. Man nennt diesen Effekt Interferenz. Solche Auslöschungen engen also die Richtcharakteristik auf Keulenform ein. Bei Richtmi­kro­fonen mit Keulenrichtcharakteristik, den  sog. Richtrohrmi­kro­fonen, wird der Interferenzeffekt auf  mittlere Frequenzen ausgedehnt (siehe dazu unten). Schallabschattung und Auslöschungen ließen sich dadurch vermeiden, dass der Durchmesser der Membran kleiner gewählt wird als ein Viertel der Wellenlänge der höchsten zu übertragenden Frequenz, also kleiner als etwa 5 mm. Dem entgegen steht jedoch die Forderung nach einer möglichst großen Empfindlichkeit, die ihrerseits mit der Membrangröße zunimmt, so dass eine bestimmte Größe der Membran, das sind für Studiomi­kro­fone etwa 15 mm, nicht unterschritten wird. Bei Miniaturmi­kro­fonen kann man bei entsprechend geringerem Störabstand die Membran bis auf wenige mm verkleinern. Druckstau: Durch die Reflexion der Schallwelle an der Membran verdoppelt sich der Schalldruck auf die Membran und führt zu einem Höhenanstieg des Frequenzgangs um 6 dB, den Druckempfänger mit geradlinigem Diffusfeldfrequenzgang bei Schalleinfall von vorn grundsätzlich aufweisen. Der Höhenanstieg liegt mit seinem Maximum bei Mi­kro­fonen mit einer kleinen Membran von ca. 15  mm Durchmesser um 15  kHz, bei  sog. Großmembranmi­kro­ fonen mit ca. 30 mm bei 10 kHz. Druckgradientenempfänger Während die Membran des Schalldruckempfängers nur einseitig dem Schalldruck ausgesetzt wird, wirkt beim Druckgradientenempfänger der Schalldruck auf beide Seiten der Membran ein; nur wenn diese Drücke unterschiedlich sind, wird die Membran bewegt. Schall genau von der Seite z. B. bewegt die Membran nicht. Die Schalldruckdifferenz wird Schalldruckgradient oder Druckgradient genannt. Druckgradientenempfänger haben im Gegensatz zu Druckempfängern einen gerichteten Schallempfang; Gerichtete Mi­kro­fone  mit Ausnahme der Keule nützen die Eigenschaften dieses Empfängerprinzips. Der Druckgradientenempfänger in seiner einfachsten Form besteht also nur aus einer beidseitig für den Schall zugänglichen Membran. Eine solche Anordnung hat Achterrichtcharakteristik. Denn seitlich eintreffender Schall lässt keine Druckdifferenz an der Membran entstehen, Schall senkrecht von vorn oder hinten hingegen lenkt die Membran maximal aus. Durch Laufzeitglieder zwischen Membranvorderseite und -rückseite für den Schall oder durch Überlagerung von Achter- mit Kugelrichtcharakteristik können jedoch auch Mi­kro­fone nach dem Druckgradientenprinzip mit Richtcharakteristiken in Form von Nieren sowie sog. Super- und Hypernieren konstruiert werden. Bei jedem Schalldruckunterschied an der Membran entsteht eine Luftbe-

4.2 Mi­kro­fone 

 159

wegung in Richtung des niedrigeren Drucks: die Membran wird also analog zur Schallschnelle bewegt. Damit folgt auch die Spannung, die ein Druckgradientenmi­kro­fon abgibt, proportional der Schallschnelle. Gelegentlich werden deshalb Druckgradientenempfänger vor allem im Ausland auch als Schnelleempfänger, engl. als Velocity Microphones bezeichnet. Bei einer Druckamplitude, die für alle Frequenzen gleich ist,  steigen der Druckgradient und damit die Membranauslenkung zunächst mit der Frequenz an. Maximal ausgelenkt wird die Membran dann, wenn die mittlere Wegdifferenz zwischen Membranvorderseite A und -rückseite B einer halben Wellenlänge bzw. einer Phasendifferenz von 180° entspricht. Bei größerer Phasendifferenz wird die Auslenkung wieder geringer; bei 360° wird sie zu 0, um danach erneut anzusteigen (Abb. 4/14). Die mittlere Wegdifferenz ist abhängig von der Konstruktion der Mi­kro­fonkapsel. Ohne zusätzliche Maßnahmen ist die Membranauslenkung also frequenzabhängig, sie hat einen sog. Omega-Gang. Um zu einer Membranauslenkung zu gelangen, die von den tiefsten bis zu den höchsten zu übertragenden Frequenzen in einfacher Weise mit der Frequenz zunimmt, wird die mittlere Wegdifferenz zwischen Membranvorder- und -rückseite so festgelegt, dass sie etwa der halben Wellenlänge der höchsten zu übertragenden Frequenz entspricht. Damit arbeitet das Mi­kro­fon abgesehen von dem obersten Teil des Übertragungsbereichs im ansteigenden Teil der Frequenzkurve nach Abb. 4/14. Oberhalb der Frequenz fÜ wird das Druckgradientenprinzip unwirksam, das Mi­kro­fon wird zu einem Druckempfänger. Um das Ansteigen der Membranauslenkung von tiefen zu hohen Frequenzen zu korrigieren, wird nun eine Dämpfung eingesetzt, deren Wirkung ebenfalls mit der Frequenz zunimmt. Dafür werden nur akustischmechanische Maßnahmen angewendet, nämlich Massehemmung und Reibungshemmung.

Abb. 4/14. Entstehung von Schalldruckdifferenzen Δp1,2,3,4 und Phasendifferenzen φ zwischen zwei Punkten A und B bei vier verschiedenen Frequenzen in ebenen Schallwellen und Frequenzgang des Druckgradienten bzw. der Druckdifferenz Δp zwischen zwei Punkten mit dem Abstand 25 mm im ebenen Schallfeld.

160 

 4 Mi­kro­fone und Lautsprecher

Massehemmung entsteht dadurch, dass eine bewegte Masse ihrer eigenen Bewegung durch ihre Trägheit Widerstand entgegensetzt. Dieser Widerstand ist umso größer, je schneller die Bewegung erfolgt. Die Masse bildet die bewegte Membran selbst, sie setzt also der Bewegung einen zunehmenden Widerstand entgegen, der mit der Geschwindigkeit und somit mit der Frequenz ansteigt. Reibungshemmung entsteht dadurch, dass – verursacht durch die Membranbewegungen – Luft durch enge Öffnungen der Kapselrückseite strömt. Dabei reiben die Luftmoleküle an den Wänden. Durch diese Reibung wird der Luftströmung und damit der Membranbewegung Widerstand entgegengesetzt. Die Reibung ist umso stärker, je schneller die Luft durch die Öffnungen  strömt. Der Einfluss der Reibung auf die Luftbewegung und damit auf die Membran steigt also ebenfalls mit zunehmender Frequenz. Druckgradientenempfänger mit Achterrichtcharakteristik Die Mi­kro­fonkapsel des Druckgradientenempfängers  mit Achterrichtcharakteristik besteht aus einer beidseitig für den Schall frei zugänglichen Membran (Abb. 4/15).

Abb. 4/15. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Achterrichtcharakteristik.

Abb. 4/16. Richtcharakteristik eines Druckgradientenempfängers mit Achterrichtcharakteristik bei verschiedenen Frequenzen.

Bei seitlicher Beschallung der Membran entsteht zwischen Membranvorder- und Membranrückseite keine Druckdifferenz, das Mi­kro­fon ist für  seitlich auftreffenden Schall unempfindlich. Schall von vorn oder hinten führt dagegen zur größten Membranauslenkung. So

4.2 Mi­kro­fone 

 161

entsteht die achterförmige Richtcharakteristik (Abb. 4/16). Sie ist über den gesamten Übertragungsbereich hinweg weitgehend unabhängig von der Frequenz. Anders als bei Druckempfängern führt Schall, der auf die Membranrückseite trifft, verglichen  mit Schall von vorne zu gegenphasiger Auslenkung. Diese Gegenphasigkeit zwischen Schall von vorne und von hinten ermöglicht das Mi­kro­fonverfahren der MS-Stereoaufnahmetechnik (Kap. 5.3.2.2) und Mi­kro­fone, die in der Richtcharakteristik umschaltbar sind (Kap. 4.2.2.7). Mi­kro­fone, die nur Achterrichtcharakteristik besitzen, gibt es nur wenige auf dem Markt. Meist steht diese Richtcharakteristik bei Mi­kro­fonen zur Verfügung, die über umschaltbare Richtcharakteristiken verfügen. Die Achterrichtcharakteristik ist dann für den praktischen Einsatz vorteilhaft, wenn seitlicher Schall bestmöglich ausgeblendet werden  soll oder wenn zwei Sprecher oder Instrumente, die einander gegenüberstehen, mit nur einem Mi­kro­fon aufgenommen werden sollen. Druckgradientenempfänger mit Nierenrichtcharakteristik Nieren- oder Kardioidrichtcharakteristik eines Mi­kro­fons kann auf zwei verschiedene Arten realisiert werden: –– mit einem sog. Laufzeitglied für rückwärtig auf die Membran auftreffenden Schall, –– durch Überlagerung von Kugel- und Achterrichtcharakteristik. Die Konstruktion mit einem Laufzeitglied ist die am meisten angewendete Technik. Abb. 4/17 zeigt das Bauprinzip eines solchen Nierenmi­kro­fons. Dabei ist die Laufzeitdifferenz zwischen Membranvorder- und Membranrückseite von der Schalleinfallsrichtung abhängig.

Abb. 4/17. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied.

Bei Beschallung von vorn, unter 0̊°, hat der Schallanteil, welcher an die Rückseite der Membran gelangt, gegenüber dem auf die Vorderseite auftreffenden Schall eine Verzögerung, die durch die Wegdifferenz 2 1 bestimmt wird. Der so entstandene Druckunterschied führt zur Membranauslenkung (Abb.  4/18a). Bei Beschallung von hinten  sind die Laufzeiten zur Membranorderseite und -rückseite etwa gleich. Es entsteht keine Druckdifferenz; dadurch kommt es zu keiner Membranbewegung (Abb.  4/18b). Bei Beschallung aus  seitlicher Richtung, ± 90°, ist eine Laufzeitdifferenz vorhanden, die jedoch kleiner ist als die der Beschallungsrichtung 0° (Abb. 4/18c). Wird die Schallquelle von der Richtung 0° zur Rückseite, ± 180°, bewegt, so wird die Laufzeit- bzw. Druckdifferenz und damit die Membranauslenkung zunehmend geringer. So entsteht die nierenförmige Richtcharakteristik (Abb. 4/19).

162 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/18. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied bei verschiedenen Schalleinfallsrichtungen.

Abb. 4/19. Richtcharakteristik eines Druckgradientenmi­kro­fons mit Nierenrichtcharakteristik bei verschiedenen Frequenzen.

Eine nierenförmige Richtcharakteristik kann auch durch ein weiteres Verfahren erzeugt werden: Die Kugelrichtcharakteristik eines Druckempfängers und die Achterrichtcharakteristik eines Druckgradientenempfängers werden einander überlagert. Dies kann durch Addition der Signale eines eng benachbarten Kugel- und Achtersystems geschehen oder dadurch, dass ein Teil der Membran nur  mit der Vorderseite, der andere Teil beidseitig dem Schall ausgesetzt wird. Die Nierenrichtcharakteristik entsteht in beiden Fällen durch Überlagerung der Kugel- und Achterrichtcharakteristik (Abb. 4/20). Durch den Richtfaktor r in Polarkoordinaten ausgedrückt heißt das: –– Richtfaktor der Kugel: rK = 1/2 –– Richtfaktor der Acht: rA = 1/2 ⋅ cos φ –– Richtfaktor der Niere: rN = rK + rA = 1/2 ⋅ (1 + cos φ)

4.2 Mi­kro­fone 

 163

Abb. 4/20. Nierenrichtcharakteristik als Summe von Kugel- und Achterrichtcharakteristik.

Druckgradientenempfänger mit Super- und Hypernierenrichtcharakteristik Die Richtcharakteristik der Nierenmi­kro­fone kann durch einfache konstruktive Maßnahmen so verändert werden, dass die Ausblendung von seitlich auftreffendem Schall erhöht, zugleich aber von hinten auftreffender Schall weniger gedämpft wird als bei der Niere. Es entstehen damit Richtcharakteristiken, die zwischen Niere und Acht liegen. Diese Zwischenformen können bei der Anwendung eines Laufzeitglieds durch geringere Laufzeiten erreicht werden, bei der Überlagerung von Kugel- und Achterrichtcharakteristik durch einen größeren Anteil der Acht. Bei der Richtcharakteristik der Superniere ergibt seitlicher Schall 38 % bzw. – 9 dB der Spannung bei Schalleinfall von vorne, Schall von hinten 25 % oder – 12 dB; bei der Hyperniere gibt das Mi­kro­fon bei seitlichem Schall 25 % ab bzw. – 12 dB, bei Schall von hinten 50 % oder – 6 dB (Abb. 4/21, Tab. 4/2). Die Nierencharakteristik ist am günstigsten, wenn Schallquellen hinter dem Mi­kro­fon ausgeblendet werden  sollen. Die Hyperniere bevorzugt noch etwas  stärker den unter 0°, also von vorn einfallenden Schall gegenüber dem Diffusschall, vermag demnach z. B. den Direktschall eines Sprechers oder Solisten noch etwas mehr gegenüber dem Nachhall hervorzuheben. Niere und Acht verhalten sich bezüglich des Diffusschalls gleich, sie nehmen den diffusen Schall um nahezu 5 dB gedämpft auf, die Superniere um fast 6 dB, die Hyperniere schließlich um 6 dB. Denkt man sich den Aufnahmeraum durch eine Fläche in Vergrößerung der Mi­kro­fonmembran in einen vorderen und einen hinteren Halbraum geteilt, so stellt die Superniere den Sonderfall dar, bei dem der Unterschied der aus den beiden Halbräumen aufgenommenen Schallanteile am größten ist. Mit dem Richtmi­kro­fon kann man einen größeren Mi­kro­fonabstand wählen, ohne dass der Direktschallanteil und damit die Durchsichtigkeit und Präsenz leiden: Verglichen  mit einem Mi­kro­fon mit Kugelcharakteristik darf der Abstand für Niere und Acht das l,7-fache, für die Superniere das l,9-fache und für die Hyperniere das 2-fache betragen (Abb. 4/11), es

164 

 4 Mi­kro­fone und Lautsprecher

handelt sich um den Bündelungsfaktor (siehe Kap. 4.2.1.7). Die Schallanteile, die von hinten auf die Super- oder Hyperniere auftreffen, sind wie bei der Acht gegenüber Schallanteilen von vorn um 180° in der Phase gedreht.

Abb. 4/21. Richtcharakteristik, a. Niere, b. Hyperniere, c. Superniere.

Richtrohrmi­kro­fone oder Interferenzempfänger mit Keulenrichtcharakteristik Für den Fernsehton, für Beschallungen oder für Live-Aufnahmen auf der Bühne werden Mi­kro­fone  mit  möglichst hoher Richtwirkung benötigt. Solche Mi­kro­fone werden durch Anwendung des Interferenzprinzips  meist in Zusammenwirkung  mit einem Druckgradientenempfänger mit Nieren- oder Supernierencharakteristik verwirklicht. Vor der Membran ist ein Richtelement angeordnet. Das Richtelement besteht aus einem seitlich geschlitzten oder gelochten, vorne offenen Rohr (Abb. 4/22).

4.2 Mi­kro­fone 

 165

Abb. 4/22. Prinzipieller Aufbau des Interferenzempfängers.

Die Richtwirkung eines solchen Mi­kro­fons kommt dadurch zustande, dass Schallanteile aus Richtung der Rohrlängsachse kommend sich im Rohr gleichphasig addieren; Schallanteile, die aus anderen Richtungen eintreffen, werden in der Phase verschoben überlagert und löschen sich dadurch gegenseitig je nach Phasenlage mehr oder weniger aus. Die akustische Wirkungsweise des Richtrohrs ist also dieselbe wie bei den Auslöschungen von schräg auf die Membran eines Druckempfängers auftreffendem Schall (siehe Kap. 4.2.1.8), jedoch ist beim Richtrohr der Membrandurchmesser akustisch auf die Länge des Richtrohrs ausgedehnt. Die entstehende Keulenrichtcharakteristik und damit die Bündelungsfaktor ist abhängig vom Verhältnis der Länge des Richtelements zur Wellenlänge des aufgenommenen Schalls. Die Richtwirkung nimmt demnach mit der Länge des Richtrohrs und der Frequenz zu. Bei tiefen Frequenzen entspricht sie der Niere bzw. Superniere; mit steigender Frequenz engt  sie  sich zunehmend ein (Abb.  4/23). Wie die Super- und Hyperniere ist auch bei der Keule rückwärtig einfallender Schall in der Phase gedreht.

Abb. 4/23. Richtcharakteristik eines Druckgradientenempfängers mit Richtrohr.

166 

 4 Mi­kro­fone und Lautsprecher

Beim praktischen Einsatz der Interferenzempfänger oder meist bezeichnet als Richtrohrmi­ kro­fone sind einige Besonderheiten zu beachten: Die Richtwirkung kann sich wie bei allen Richtmi­kro­fonen nur  solange auswirken, wie für die Aufnahme noch ausreichend Direktschall zur Verfügung steht; im Fernfeld kann das Mi­kro­fon bei halligen Räumen also keinen Gewinn bringen. Auf Grund des engen Aufnahmebereichs und seiner starken Frequenzabhängigkeit kann der Einsatz bei bewegten Schallquellen vor allem bei geringerem Abstand zu Klangfarbenänderungen, abhängig von den Bewegungen, führen. Richtrohrmi­ kro­ fone sollten nur da verwendet werden, wo sie tatsächlich Vorteile zeigen. Superrichtrohrmi­kro­fon Eine erhebliche Verbesserung der Richtwirkung von Richtrohrmi­kro­fonen wird dadurch erzielt, dass dem Richtrohr ein zweites Mi­kro­fonsystem  mit Nierencharakteristik hinzugefügt wird, das, nach hinten gerichtet, Schall aufnimmt, der in einer digitalen Signalverarbeitung mit dem Schall des nach vorn gerichteten Systems verrechnet, also subtrahiert wird. So können Diffusschallkomponenten auch im tiefen und mittleren Frequenzbereich, wo das einfache Richtrohr nicht oder wenig wirksam ist,  stark unterdrückt werden. Im Ergebnis wird gerade in den Frequenzbereichen, in denen konventionelle Richtrohre unbefriedigende Ergebnisse liefern, das Direktschall-Diffusschallverhältnis erheblich verbessert. Erreicht wird damit in dem genannten Frequenzbereich eine Absenkung des Diffusschallpegels gegenüber einer Kugel um ca. 12  dB; die Hyperniere als die am  stärksten den Diffusschall unterdrückende Richtcharakteristik erreicht zum Vergleich einen Wert von ca. 6 dB. [Wittek, 2010] Druckgradientenempfänger als breite Niere Mit der sog. breiten Niere steht eine Richtcharakteristik zur Verfügung, die zwischen Niere und Kugel einzuordnen ist; eine zutreffendere Bezeichnung wäre wohl breite Kugel, denn in der Praxis ist diese Richtcharakteristik eher eine Alternative zur Kugel. Die breite Niere bietet bei weitgehend frequenzunabhängiger Richtcharakteristik (Abb.  4/24) vor allem in klangfarblicher Hinsicht interessante Vorteile: Die Aufnahme tiefer Frequenzen ist besser als bei Nieren, wenngleich nicht ganz so gut wie bei Kugeln als Druckempfänger; andererseits kann sie vorteilhaft eingesetzt werden bei stark tiefenbetontem Nachhall, den sie etwas abmildert. Der Nahbesprechungseffekt ist weniger ausgebildet als bei Nieren. Direkt- und Diffusfeld sind wie bei Nieren klangfarblich sehr ähnlich, weil der Richtfaktor weitgehend unabhängig von der Frequenz ist. Insgesamt ergibt dies einen wärmeren Klang der breiten Nieren. Die Dämpfung nach hinten liegt bei ca. 10 dB, im Vergleich zur Niere ist sie also deutlich geringer, seitlich verhalten sich breite Niere und Niere ganz ähnlich mit einer Dämpfung von rund 6 dB. Als Stützmi­kro­fon muss deshalb der Abstand etwas geringer als bei Nieren gewählt werden. Für das XY-Aufnahmeverfahren ist das Mi­kro­fon nicht geeignet, aber sehr vorteilhaft für das MS-Verfahren. 4.2.1.9 Wind- und Poppstörungen Wenn Wind oder allgemein bewegte Luft auf die Mi­kro­fonmembran trifft, aber auch, wenn ein Mi­kro­fon in ruhender Luft bewegt wird, also z. B. auch bei schnellen Bewegungen der Mi­kro­ fonangel, können Luftwirbel bzw. der Winddruck die Membran u. U. erheblich bewegen; das

4.2 Mi­kro­fone 

 167

führt zu gravierenden Störgeräuschen [Wuttke, 1985/1]. Solche Störungen bezeichnet man als Windstörungen. Wind in diesem Sinne kommt turbulent, also verwirbelt aus allen Richtungen, man kann ein Mi­kro­fon nicht aus dem Wind drehen.

Abb. 4/24. Richtcharakteristik der breiten Niere.

Bei Nahbesprechung dagegen entstehen impulsartige Luftströmungen bei sog. Popplauten, also Explosivlauten wie K, P, und T, die aus einer definierten Richtung kommen als gleichgerichtete, sog. laminare Strömung. Die dadurch verursachten Störungen werden Poppstörungen genannt. Nur bis ca. 10 cm vor dem Mund sind Poppstörungen laminar, bei größeren Entfernungen gehen sie in Turbulenz, also Windstörungen über. Im Bereich laminarer Strömung kann man das Mi­kro­fon aus dem Wind drehen, seine Membran also vorteilhaft parallel zur Windrichtung ausrichten. Schall von Wind- und Poppstörungen hat vor allem im Frequenzbereich bis 100  Hz, abnehmend bis 1 kHz hohe Pegel, aber auch im Infraschallbereich unter 16 Hz. Dies führt zu hohen Auslenkungen der Membran und damit zu hohen Aussteuerungen, die nur teilweise angezeigt werden oder hörbar sind, und damit zu starken Verzerrungen. Übertrager und andere Bauelemente werden übersteuert, in Pegelspitzen wird das Signal auch unterbrochen, man sagt, das Mi­kro­fon wird zugestopft. Ohne Wind- oder Poppschutz sind Druckempfänger wegen der stark gespannten Membran deutlich, um 10 bis 20 dB, unempfindlicher als Druckgradientenempfänger, am empfindlichsten sind ohne Gegenmaßnahmen dynamische Richtmi­kro­fone, da bei ihnen die Membran am weichsten eingespannt ist. Es gibt eine Reihe von wirksamen Gegenmaßnahmen gegen diese Störungen: Die Verwendung eines Windschutzes ist grundsätzlich empfehlenswert oder unerlässlich bei Aufnahmen im Freien, bei Verwendung der Mi­kro­fonangel und bei Nahbesprechung von Mi­kro­fonen. Allgemein sollten die Tiefen durch das Trittschallfilter am Mi­kro­fon bzw. Mi­kro­ fonverstärker auf die höchste einstellbare Frequenz eingestellt werden. Die  mechanischen Schutzvorrichtungen richten sich bei optimalen Einsatz nach dem Mi­kro­fontyp und der Situ-

168 

 4 Mi­kro­fone und Lautsprecher

ation: Kondensatormi­kro­fone sind zwar vom Prinzip her unempfindlicher, jedoch verfügen dynamische Mi­kro­fonkapseln grundsätzlich über einen integrierten Wind- und Poppschutz. Zur Verminderung der Störungen werden Wind- und Nahbesprechungsschutzkörbe verwendet (Abb.  4/25). Sie reduzieren die Windgeschwindigkeit und damit die Störungen, wirken dabei auf den Nutzschall verhältnismäßig wenig ein. Die Wirksamkeit eines Schutzkorbs  steigt  mit  seiner Größe, wobei die verwendeten Materialien ebenfalls von Bedeutung sind. In der Praxis können Dämpfungen der Windstörungen um 20 bis 30 dB erreicht werden. Wirksame Windschutzkörbe verändern die Richtcharakteristik und den Frequenzgang der Mi­kro­fone geringfügig. Zwischen Wind- und Nahbesprechungsschutz wird im Allgemeinen nicht unterschieden. Druckmi­kro­fone werden besser durch Vollschaumstoff, gerichtete Mi­kro­fone durch Hohlschaumstoff oder Körbe geschützt. Ein fellartiger sog. Windjammer über einen Korb gezogen ist der wirksamste Schutz. Im Studio  sind gegen Poppstörungen sog. Poppschirme am wirksamsten, sie beeinflussen den Klang praktisch nicht, können aber nur in Zusammenhang mit Mi­kro­fonständern eingesetzt werden, also bei statischen Aufnahmesituationen, nicht auf der Bühne. Ein Großmembranmi­kro­fon mit Poppschirm ist schon fast das Sinnbild für Gesangsaufnahmen im Studio.

Abb. 4/25. Verschiedene Ausführungen von Wind- und Poppschutzvorrichtungen.

4.2.1.10 Störungen durch Körperschall Schwingungen, verursacht durch Schritte, schlagende Türen, Verkehrsmittel u. ä. werden über den Fußboden und den Mi­kro­fonständer auf die Mi­kro­fonkapsel übertragen und bewegen den Mi­kro­fonkörper relativ zur Membran. Unabhängig von der genauen Ursache spricht man meist von Trittschall. Hoch gespannte Membranen wie bei der Druckkugel sind weniger empfindlich, sie folgen besser den Bewegungen des Gehäuses. Die Störungen betreffen wie bei Wind den tiefsten Frequenzbereich, daher die Bezeichnung Trittschallfilter für einen Hochpass. Maßnahmen gegen Trittschall sind Mi­kro­fonspinnen, in denen die Mi­kro­fone federnd gehalten werden und Gummifüße an Stativen; der höhenverstellbare Stab des Stativs darf den Boden nicht berühren. Reibgeräusche an der Kleidung und am Mi­kro­fonkabel  sind ebenfalls Körperschall. Gegen sie schützt am besten die Verwendung von Druckempfängern; durch die zu diesem Zweck  schwere Ausführung des Gehäuses dynamischer Mi­kro­fone verringert  sich deren Empfindlichkeit. Die Kabel sollten bei Handmi­kro­fonen stets mit Schlaufen, also entspannt, gehalten werden.

4.2 Mi­kro­fone 

 169

4.2.2 Kondensatormi­kro­fone Der in der Tonstudiotechnik am meisten eingesetzte Mi­kro­fontyp ist das Kondensatormi­kro­ fon oder elektrostatische Mi­kro­fon; es bietet eine Qualität der Schallwandlung und Schallübertragung, die an der Grenze des physikalisch Möglichen arbeitet. Kondensatormi­kro­fone haben einen weitgehend frequenzunabhängigen Übertragungsfaktor und geringe Verzerrungen und Körperschallempfindlichkeit, benötigen aber eine Betriebsspannung zum Erhalt der Ladung des Kondensators und zur Versorgung des Impedanzwandlers und Verstärkers im Mi­kro­fon. Konstruktiv bilden eine schwingungsfähige, vom Luftschall bewegte Membran als eine der Elektroden und eine feste Gegenelektrode zusammen einen Kondensator, dessen Kapazität sich entsprechend den Schwingungen der Membran ändert; denn die Kapazität eines Kondensators hängt u. a. vom Abstand der Kondensatorplatten ab. Die Membran besteht aus einer 1 bis 10 μm starken Metallfolie oder metallbedampften Kunststofffolie. Ihr Abstand von der festen Gegenelektrode beträgt 5 bis 50 μm. Ihr Gewicht bestimmt die Einschwingzeit, sie ist umso kürzer, je leichter die Membran ist. Das Gewicht der Membran von Kondensatormi­ kro­fonen liegt bei wenigen mg, was ganz wesentlich die hohe Qualität der Kondensatormi­ kro­fone begründet; die Membran dynamischer Mi­kro­fone hingegen wiegt etwa das 20-fache, entsprechend kann sie schnellen Einschwingvorgängen weniger folgen. Eine Variante des Kondensatormi­kro­fons ist das Elektretmi­kro­fon oder dauerpolarisierte Mi­kro­fon, das keine externe Spannungszuführung benötigt,  sondern lediglich eine Batterie zur Speisung des mit dem Mi­kro­fon konstruktiv vereinten Impedanzwandlers. Bei diesen Mi­kro­fonen ist die Ladung des Kondensators in Kunststofffolien „eingefroren“, ähnlich wie in einem Dauermagneten der Magnetismus. Elektretmi­kro­fone sind heute beherrschend in allen Bereichen der Sprachkommunikation, sie sind bei relativ guter Klangqualität vornehmlich als Miniaturmi­kro­fone in hohen Stückzahlen preisgünstig als sog. MEMS herzustellen. Im Tonstudiobereich konnten sich Elektretmi­kro­fone nicht durchsetzen. Sie finden da Verwendung, wo aus praktischen Gründen keine Mi­kro­fonspeisespannung zur Verfügung steht und dynamische Mi­kro­fone nicht benutzt werden können oder sollen. 4.2.2.1 Spannungsversorgung Die Kondensatormi­kro­fone werden über zweiadrige, geschirmte Mi­kro­fonkabel an die Mi­kro­ fonverstärker der Regieanlage angeschlossen. Die Versorgungsspannung für den Betrieb der Mi­kro­fone wird durch Mehrfachnutzung der Mi­kro­fonleitung, also ohne besondere Versorgungsleitungen bereitgestellt. Zwei verschiedene Speisungsarten  sind dabei  möglich: Phantom- oder Mittelpunktspeisung und Tonaderspeisung. Beide Speisungsarten haben bestimmte Vor- und Nachteile (Tab. 4.4). Nachdem die beiden Verfahren nach Entwicklung der ersten transistorisierten Mi­kro­fone in den 1960er Jahren zunächst konkurrierend nebeneinanderstanden, hat sich im Tonstudiobereich die Phantomspeisung mit 48 V (P 48) vollkommen durchgesetzt, da sie qualitativ und betrieblich überlegen ist, insbesondere geringere Störanfälligkeit zeigt und kompatibel ist  mit dem Anschluss dynamischer Mi­kro­fone. Die Tonaderspeisung hat im Studio keine Bedeutung mehr, wird aber für mobile Tonaufnahmen bei Film und Fernsehen als Tonaderspeisung mit 12 V (T 12) nach [DIN 45595] wegen

170 

 4 Mi­kro­fone und Lautsprecher

des 12-V-Batteriebetriebs noch verwendet. Röhrenmi­kro­fone (siehe Kap.  4.2.4.3) erfordern zur Erzeugung der benötigten Heiz-, Anoden- und Polarisationsspannungen stets ein eigenes Netzteil über spezielle mehradrige Kabel. Bei der Phantomspeisung nach [IEC 268-15/DIN 45596],  seit 2018 [DIN EN IEC 61938], wird die Versorgungsspannung des Mi­kro­fons von 12, 24 oder meist 48 V parallel über die beiden Adern hin und über den Kabelschirm zurück dem Mi­kro­fon zugeführt (Abb.  4/26). Beim Anschluss des Mi­kro­fons wird über die symmetrische Mi­kro­fonleitung eine Brückenschaltung hergestellt: die beiden Adern a und b bilden mit dem Kabelschirm einen Phantomkreis; vier gleichgroße Widerstände stellen den geforderten Brückenabgleich her und sollen bei der 48-V-Versorgung je 6,8 kΩ, bei der 12-V-Versorgung je 680 Ω betragen. [Wuttke, 1998] Tab. 4/4. Phantom- und Tonaderspeisung bei Kondensatormi­kro­fonen. technische Merkmale

Phantomspeisung nach IEC 268-15/DIN 45 596, seit 2018 DIN EN IEC 61938

Tonaderspeisung nach DIN 45 595

Spannungsversorgung

48 V (P 48), meist tolerant für 9 bis 52 V

12 V (T 12), auch 24 V (T 24)

Stromzuführung

gemeinsam über beide Adern, Rückführung über den Kabelschirm

nur über die a-Ader, Rückführung über die b‑Ader des Mi­kro­fonkabels, der Kabelschirm ist frei von Gleichstrom

Symmetrie

nur für symmetrischen Verstärkereingang

für symmetrischen und unsymmetrischen Verstärkereingang

Anschluss dynamischer Mi­kro­fone

ohne besondere Maßnahmen möglich, da keine Gleichspannung zwischen den beiden Adern des Mi­kro­fonkabels liegt

die Speisespannung muss abgeschaltet werden, da sie die Aufnahme verzerren und zur Beschädigung des Mi­kro­fons führen kann

Umpolen der Leitung

zulässig

nicht zulässig

Speisung mehrerer Mi­kro­ keine Weiche erforderlich fone aus einer Stromquelle

Speisungsweiche erforderlich

Störspannungen aus der Speisung

überlagern sich nicht der Modulation

überlagern sich direkt der Modulation

Strom maximal

10 mA

10 mA

Spannungszuführung über 2 mal 6,8 kΩ bei 48 V, gepaarte Widerstände 2 mal 680 Ω bei 12 V

2 mal 180 Ω

Die Versorgungsspannung von 48  V liegt also zwischen den Tonadern a bzw. b und dem Kabelschirm, zwischen a und b besteht keine Gleichspannung. Dynamische Mi­kro­fone können deshalb ohne weiteres in symmetrischer Schaltungstechnik angeschlossen werden, ohne dass die Versorgungsspannung abgeschaltet werden  muss; unsymmetrische dynamische Mi­kro­fone können nicht angeschlossen werden. Da keine Spannung zwischen den

4.2 Mi­kro­fone 

 171

Adern liegt, haben auch Schwankungen der Versorgungsspannung keinen Einfluss auf das Tonsignal; eine Restwelligkeit der Phantomspannung ist deshalb unschädlich. Auch Störspannungen, die in den Kabelschirm induziert werden, haben geringen Einfluss. An einem Speisegerät können ohne besondere Entkopplungsmaßnahmen  mehrere Mi­kro­fone angeschlossen werden. An die Brückenwiderstände werden bezüglich ihrer Toleranz keine hohen Anforderungen gestellt, ±  0 % sind zulässig. Jedoch sind die Anforderungen an die Gleichheit der Widerstände außerordentlich hoch, um Gleichspannungen zwischen den Adern zu unterbinden. Ist die Gleichheit der Widerstände nicht erfüllt, erhalten die Übertrager von Mi­kro­ fon und Regieanlage,  soweit vorhanden oder nicht durch Entkoppelungskondensatoren gleichstromgeschützt, eine Gleichspannung, die zu Verzerrungen führt. Die zulässige Größe der Restgleichspannung darf in der Praxis umso größer  sein, je größer die Eingangsübertrager dimensioniert sind. Auch wenn am Regiepulteingang Entkoppelungskondensatoren vorhanden  sind oder wenn die Eingangsschaltung ohne Übertrager aufgebaut ist, müssen die Widerstände exakt gepaart  sein, damit Störungen, die auf den Kabelschirm gelangen, weitgehend unwirksam bleiben und dadurch die besonderen Vorteile der Phantomspeisung erhalten bleiben.

Abb. 4/26. Schaltung der Phantomspeisung.

Bei der Tonaderspeisung nach [DIN 45595] werden für die Zuführung der Versorgungsspannung die beiden Tonadern a und b der Mi­kro­fonleitung benutzt. Damit nimmt der Versorgungsstrom denselben Weg wie der Tonfrequenzstrom. Über zwei gleich große Widerstände von je 180 Ω wird die Tonader a mit dem Pluspol, die Tonader b mit dem Minuspol des Mi­kro­ fonnetzgeräts verbunden. Um die auf den Tonadern befindliche konstante Gleichspannung von 12 V vom Eingangsübertrager des nachfolgenden Mi­kro­fonverstärkers fernzuhalten, sind Trennkondensatoren eingefügt. 4.2.2.2 Mi­kro­fon-Vorverstärker mit analogem Ausgang Die mechanischen Schwingungen der Membran des Kondensatormi­kro­fons müssen in elektrische Schwingungen umgewandelt werden. Der Mi­kro­fon-Vorverstärker ist konstruktiv mit dem eigentlichen, dem akustischen Schallempfänger vereint. Er hat die Aufgabe, ein für die

172 

 4 Mi­kro­fone und Lautsprecher

Weiterleitung geeignetes elektrisches Signal zur Verfügung zu stellen; bei der sog. Niederfrequenzschaltung gehört dazu auch eine Impedanzwandlung, bei der sog. Hochfrequenzschaltung eine Demodulation des über die Membran erzeugten elektrischen Signals. Dafür hat sich weitgehend die sog. Niederfrequenzschaltung durchgesetzt, daneben wird auch die Hochfrequenzschaltung verwendet. Für den Anwender ist dies unwesentlich, es handelt sich um herstellerspezifische Unterschiede. [Wuttke, 2000] Moderne Kondensatormi­kro­fone haben eine transformatorlose oder eisenlose Endstufe, was zu folgenden Vorteilen der Übertragungsqualität gegenüber älteren mit Ausgangstransformator bestückten Verstärkern führt: Die Verzerrungen im tiefen Frequenzbereich  sind ebenso gering wie im übrigen Übertragungsbereich; die Ausgangsimpedanz bleibt bis zur oberen Grenze des Übertragungsbereichs konstant; das Mi­kro­fon ist gegenüber äußeren Magnetfeldern unempfindlich; der Amplituden- und Phasenfrequenzgang sowie Verzerrungen sind gegenüber Schaltungen mit Transformator verbessert, schließlich sind solche Verstärkermodule kleiner und leichter. Niederfrequenzschaltung Bei dieser Schaltungsvariante wird die Mi­kro­fonkapsel über einen Widerstand auf eine feste Gleichspannung, die  sog. Polarisationsspannung, die zwischen 40 und 200  V liegen kann, aufgeladen. Trifft eine Schallwelle auf die Membran, so ändert sich die Kapazität des Kondensators im Rhythmus der Schallschwingungen. Das führt zu einem entsprechenden Ladungsausgleich und damit zu einer entsprechenden Wechselspannung am Widerstand R (Abb.  4/27). Der Spannungsabfall am Widerstand ist zur Änderung der Kapazität und zur angelegten Gleichspannung proportional.

Abb. 4/27. Prinzipschaltbild des Kondensatormi­kro­fons in Niederfrequenzschaltung.

Die Anordnung stellt eine RC-Schaltung als Hochpass dar, deren untere Grenzfrequenz unterhalb des Frequenzbereichs des Mi­kro­fons, also unter 20 Hz, liegen muss. Bei einer Kondensatorkapazität zwischen 100 und 20  pF  muss der Widerstand einen Wert zwischen 80 und 400  MΩ haben. An eine  so hochohmige Quelle kann wegen ihrer enormen Störanfälligkeit

4.2 Mi­kro­fone 

 173

keine längere elektrische Leitung angeschlossen werden; deshalb befindet  sich in jedem Kondensatormi­kro­fon ein Mi­kro­fon-Vorverstärker, der in erster Linie den Quellwiderstand herabsetzt, aber auch den Pegel anhebt. Die Speisespannung wird in der professionellen Technik dem Mi­kro­fon über das Mi­kro­fonkabel als Phantomspeisung (siehe Kap. 4.2.2.2) zugeführt und vom Mi­kro­fonverstärker der Tonregieanlage bzw. dem mobilen Aufnahmegerät geliefert. Um Schwingungen im Infraschallbereich vom Verstärker fernzuhalten, verfügt dieser meist über einen Hochpass, der mit wählbarer Grenzfrequenz als schaltbares Trittschallfilter ausgebildet ist. Weiterhin enthält der Vorverstärker meist eine Vordämpfung, die das Mi­kro­fon auch für hohe Schalldrücke geeignet macht. Der elektrische Aufbau des Verstärkers bestimmt die Mi­kro­ foneigenschaften wesentlich mit, besonders seinen Geräuschpegel. Hochfrequenzschaltung Bei der Hochfrequenzschaltung werden die Membranschwingungen durch die Verstimmung eines Schwingkreises umgesetzt. Die Kapazität der Mi­kro­fonkapsel steuert hier die Frequenz oder die Phase einer HF-Schwingung. Das Mi­kro­fon enthält dazu einen HF-Generator und einen Demodulator. Für den Anwender ist einem Mi­kro­fon nicht anzusehen, ob es in der HFoder NF-Schaltung arbeitet. Beide Schaltungsarten liefern höchste Qualität. 4.2.2.3 Mi­kro­fon-Vorverstärker mit digitalem Ausgang Mit der allgemeinen Digitalisierung der gesamten Tonstudiotechnik entstand auch eine Nachfrage nach  sog. Digitalmi­kro­fonen, die bereits ein digitales Signal liefern. Sie arbeiten  mit konventionellen Mi­kro­fonkapseln und einem Impedanzwandler bzw. Verstärker, der auch die Analog-Digitalumsetzung vornimmt. Obwohl führende Mi­kro­fonhersteller eine Palette von digitalen Mi­kro­fonen anbieten, wird in der Studiopraxis eine separate AnalogDigitalwandlung bevorzugt. [Becker-Foss, 2010] Mi­ kro­ fone bilden wie Lautsprecher die Schnittstelle zwischen der  stets analogen akustischen Welt und der heute weitgehend digitalen Welt der Tonstudiotechnik. Digitale Mi­kro­fone im eigentlichen Sinne kann es demnach nicht geben, korrekt gesagt gibt es nur Mi­kro­fone mit integriertem Analog-Digitalwandler oder A/D-Wandler. Wenn die Baugruppe A/D-Wandler in das Mi­kro­fongehäuse integriert ist, spricht man heute dennoch allgemein von Digitalmi­kro­fonen. Das digitale Ausgangssignal könnte, so wie die ersten sog. Digitalmi­kro­ fone, ausschließlich das Tonsignal nach dem üblichen digitalen Signalstandard AES/EBU, S/ PDIF oder USB enthalten. Sinnvoller ist es allerdings, nicht nur die Einstellmöglichkeiten, die bei analogen Mi­kro­fonen üblich sind, wie Vordämpfung, Trittschallfilter, Richtcharakteristik und Phase auch bei Digitalmi­kro­fonen beizubehalten, sondern auch Funktionen, die bisher von der Tonregieanlage wahrgenommen werden, z. B. die des Mi­kro­fonverstärkers und der Regelverstärker  sowie weitere Informationen, z.  B. über den Mi­kro­fontyp, die Aufnahmesitzung, die Zuordnung zu bestimmten Aufnahmepositionen u. a. in das Mi­kro­fon  selbst und seine Softwaresteuerung zu verlegen. Genau dies führt besonders bei Aufnahmen mit vielen Mi­kro­fonen aber zu einer sehr komplizierten Aufnahmesituation, dazu mehr unten. Für das sog. Digitalmi­kro­fon wurde der AES-Standard „Digital interface for microphones“ erarbeitet und im Jahr 2001 als [AES42-2001], 2006 überarbeitet als AES42-2006 veröffentlicht. Der Standard legt die Signalübertragung und Synchronisierung fest, beschreibt die Speisung

174 

 4 Mi­kro­fone und Lautsprecher

und definiert die Daten zur Fernsteuerung von Mi­kro­fonparametern (Tab. 4/5). Digitale Mi­kro­ fone gemäß [AES42-2001] übertragen die Modulation als AES/EBU-Datenstrom. Dieser kann von jedem entsprechenden Studiogerät empfangen und verarbeitet werden. Es bedarf nur einer Stromversorgung für das Mi­kro­fon, die als sog. digitale Phantomspeisung auf die symmetrischen Datenleitungen gegeben wird. Dies erfolgt z. B. mit Hilfe eines Steckernetzteils mit Einspeisung durch einen Zwischenstecker. Der Standard ist offen für die Integration heute typischer Mischpultfunktionen wie Equalizer, Kompressor, Limiter u. a., damit steht die Aufgabenverteilung zwischen Regieanlage und Mi­kro­fonen in Zukunft zur Disposition. Darüber hinaus werden  sog. Interfaces angeboten, die neben der Stromversorgung auch die komplette Fernsteuerbarkeit und Synchronisierung der Mi­kro­fone übernehmen. Anzeige und Fernsteuerung erfolgen über PC oder Mac-Rechner,  solange Mischpulte oder andere Studiogeräte noch über keine Mi­kro­foneingänge gemäß AES42 verfügen. Die Rechner können neben der Steuerfunktion für die Mi­kro­fone auch als Harddisc-Recorder verwendet werden. Digitale Mi­kro­fon-Interfaces können zwei- oder acht-kanalig  sein und können für einen höheren Kanalbedarf kaskadiert werden. Zur Wahl stehen sowohl komplette digitale Studiomi­kro­fone, bei denen die A/D-Wandlung fest eingebaut ist, als auch Digitalmodule, die mit von analogen Mi­kro­fonen vorhandenen Kapseln zu digitalen Mi­kro­fonen kombiniert werden können. Es gibt demnach drei Möglichkeiten des Einsatzes der Digitaltechnik bei Mi­kro­fonen (Abb. 4/28): –– analoges Mi­kro­fon mit Stage-Box mit A/D-Wandlung, –– digitales Mi­kro­fon mit Interface, –– digitales Mi­kro­fon ohne Interface. Tab. 4/5. Features und Festlegungen nach [AES42-2001]. Feature

Festlegung

abrufbare Informationen Anzeigen

Hersteller, Typ, Seriennummer, Hard- und Software-Version, implementierte Steuerfunktionen, Status u. a. Aussteuerung, individuelle Informationen über den Mi­kro­fonort (z. B. „Stützmi­kro­fon für …“) u. a. Richtcharakteristik, Trittschallfilter, Pegel, Vordämpfung, Mute, Phase, Signallicht, Synchronisationsmodus, auch weitere Funktionen wie Limiter, Kompressor, Delay u. a. zwei Betriebsarten: Mode 1: das Mi­kro­fon ist selbsttaktend und wird durch einen Abtastratenwandler im Empfänger synchronisiert, Mode 2: das Mi­kro­fon wird extern getaktet, synchron zum Studio-Wordclock digitale Phantomspeisung (DPP), 10 V, max. 250 mA XLR-Stecker und -Buchsen

Einstellungen Taktung

Phantomspeisung Anschlüsse

Der eigentliche Schallwandler, also der Schallempfang durch eine Membran und die Umsetzung von deren Schwingungen in ein analoges elektrisches Signal,  sind und werden aus heutiger Sicht Bestandteile auch der Digitalmi­kro­fone bleiben; deshalb werden die bisher verwendeten „analogen“ Kapseln auch in den Digitalmi­kro­fonen weiterverwendet oder mit

4.2 Mi­kro­fone 

 175

abweichender Anschlusstechnik angepasst. Die Kapseltechnik erfüllt auch heute  schon höchste Qualitätsansprüche,  sie bestimmt die wesentlichen Eigenschaften und Qualitäten eines Mi­kro­fons bezüglich des aufzunehmenden Schalls. Daher bieten Digitalmi­kro­fone gegenüber analogen Mi­kro­fonen zwar in klanglicher Hinsicht keine qualitativen Vorteile, jedoch im Umgang mit großen Dynamikbereichen. Bei A/D-Wandlung im Mi­kro­fon können nämlich notwendige Pegelanpassungen vorteilhaft in der digitalen Ebene vorgenommen werden. Dies ist dann ein mathematischer Prozess, der sich nicht auf die Signalqualität auswirkt, wie es bei analogen Mi­kro­fon-Vorverstärkern der Fall ist oder sein kann. Ein weiterer Vorteil der Digitalmi­kro­fone liegt in einer einfacheren und flexibleren Handhabung, wenn regieseitig die nötigen Voraussetzungen vorhanden sind, da das digitale Mi­kro­fon den A/D-Wandler und den Vorverstärker bereits beinhaltet und diese sonst dem Mi­kro­fon nachgeschalteten Geräte entfallen. Neben der Kostenersparnis kann der geringere Hardwareaufwand besonders bei  mobilem Einsatz vorteilhaft, weil Gewicht sparend sein.

Abb. 4/28. Anschlussmöglichkeiten digitaler Mi­kro­fone.

Aus heutiger Sicht werden auch in Zukunft analoge Mi­kro­fone in großem Umfang verwendet werden, das zeigt auch die große, eher zunehmende Beliebtheit „historischer“ Mi­kro­fone, die zuerst einen klanglichen Gestaltungswillen ausdrücken. In Verbindung mit abgesetzten A/D-Wandlern auf der Bühne, den sog. Stage-Boxen, können sie in der digitalen Tonstudiotechnik problemlos beibehalten werden, so dass ein Nebeneinander analoger und digitaler Mi­kro­fone zu erwarten ist. Auf der anderen Seite können mit Hilfe der digitalen Signalbearbeitung Eigenschaften im Mi­kro­fon verwirklicht werden, die analog nicht möglich sind. So

176 

 4 Mi­kro­fone und Lautsprecher

z.  B. eine Limiterfunktion, die automatisch, wirkungsvoll und unhörbar Übersteuerungen durch Popplaute verhindert. Auch wenn in Mischpulten  standardmäßig Kompressor- und Limiterfunktionen vorhanden sind, können entsprechende Störungen direkt an der Kapsel als Entstehungsort wirksamer bekämpft werden als weit hinten im Signalfluss, wo in den verschiedenen Schaltungsstufen bereits Sekundärstörungen entstanden sein können. Der Standard AES42 beschreibt zwei Arten der Synchronisation des Mi­kro­fonsignals mit dem Empfänger, also z. B. Mischpult oder einem Mi­kro­fon-Interface: –– Mode 1: Das Mi­kro­fon arbeitet unsynchronisiert mit der Abtastrate seines internen Quarz­ oszillators und benötigt auf der Empfängerseite einen Abtastratenwandler (Sample-RateConverter). Dieser Modus kann benutzt werden, wenn eine Synchronisation nach Mode 2 nicht möglich ist; Sample-Rate-Converter können die Signalqualität verschlechtern. –– Mode 2: Das Mi­kro­fon wird extern getaktet. Im AES42-Empfänger wird ein Frequenz/Phasenvergleich mit dem Master-Wordclock durchgeführt und ein Steuersignal erzeugt, das über den Fernsteuerdatenstrom zum Mi­kro­fon übertragen wird und dort die Frequenz des internen Quarzoszillators steuert. Für die Datenübertragung wurde der dreipolige XLR-Stecker beibehalten, der  somit in der analogen und digitalen Studiotechnik einheitlich verwendet wird. Es wird ein bidirektionales Signal gemäß AES42 übertragen, welches das  symmetrische digitale Mi­kro­ fonausgangssignal, die Phantom-Stromversorgung und einen Fernsteuerdatenstrom enthält. [Peus, 2001], [Becker-Foss, 2010] Vor- und Nachteile sowie Probleme digitaler und analoger Mi­kro­fone wurden in einem Weißbuch zusammengefasst, hier zitiert nach [Becker-Foss, 2010], das als Fazit aus Sicht der Anbieter erarbeitet wurde: Vorteile digitaler Mi­kro­fone: –– gut einsetzbar, wenn die Mi­kro­fonkabel in  starken elektromagnetischen Störfeldern liegen, –– bei heutigen digitalen Systemen  mit 24-bit-Schnittstelle ist keine Aussteuerung des Mi­kro­fons am Mi­kro­fonverstärker notwendig, –– diverse Fernsteueroptionen  stehen herstellerübergreifend zur Verfügung,  so dass z.  B. direkt aus der Mischpultoberfläche die Richtcharakteristik steuerbar wird, –– eine Signalisation, z. B. welches Mi­kro­fon gerade aktiv ist, ist möglich, –– hoher Bedienkomfort durch Anzeige von Mi­kro­fontyp, Hersteller und anderer Informationen, –– Individualisierungen von Mi­kro­fonen sind möglich, also ein persönliches Setup, Vorteile analoger Mi­kro­fone: –– viel einfachere Handhabung, bereits der Mi­kro­fontyp sagt dem erfahrenen Tonmeister, welcher Klang zu erwarten ist, –– ein Mi­kro­fonaustausch ist jederzeit  möglich, da es keine klanglichen Veränderungen gibt, die im Mi­kro­fon gespeichert sein könnten, –– es gibt kein Delay, es können beliebige analoge Mi­kro­fone verschiedenster Hersteller gleichzeitig betrieben werden, je nach Anwendungsfall und Aufstellungsort kann somit für jedes Instrument das dafür passende Mi­kro­fon verwendet werden,

4.2 Mi­kro­fone 

 177

–– keine inkompatiblen Softwareversionen der Schnittstelle, keine Softwareupdates der Mi­kro­fonsoftware notwendig, –– die Mi­kro­fonschnittstelle ist mit viel kleinerer elektrischer Leistung genormt, mit Hilfe analoger phantomgespeister Mi­kro­fone, sparsamen Mi­kro­fonverstärkern und energieoptimierten A/D-Wandlern wird erheblich weniger Energie verbraucht als bei digitalen Mi­kro­fonen, damit bessere Eignung für batteriebetriebene und mobile Systeme, –– moderne HF-feste Mi­kro­fone und  moderne Mi­kro­fonverstärkerarchitekturen gestatten heute auch bei  starken elektromagnetischen Störfeldern eine weitgehend ungestörte Audioübertragung bei analogen Mi­kro­fonen, –– höhere Dynamik als bei digitalen Mi­kro­fonen  möglich, AES42 begrenzt die Dynamik durch die 24-bit-Schnittstelle auf etwa 145 dB, analoge Mi­kro­fonverstärker der Spitzenklasse liegen oft über 155 dB, Die auf den ersten Blick verlockende Möglichkeit, gleich beginnend mit dem Mi­kro­fon digital zu arbeiten und viele Features des Mi­kro­fons fernsteuern zu können, führt leider bei umfangreichen, komplexen Systemen schnell zu einer Unübersichtlichkeit. Neue Probleme müssen bedacht werden, etwa: –– Wie wird synchronisiert? –– Wie groß ist die A/D-Wandlerlaufzeit in jedem Mi­kro­fon, stimmen die Laufzeiten überein? –– Gibt es Laufzeiten von Samplerate-Convertern zu berücksichtigen? –– Die Laufzeit digitaler Mi­kro­fone ist nicht  mehr nur  mit dem Maßband von der Schallquelle aus zu bestimmen. Sie ist generell von Mi­kro­foneigenschaften und Betriebsarten abhängig. Werden gleichzeitig verschiedene Mi­kro­fone oder auch gleiche Mi­kro­fone mit unterschiedlichen Einstellungen betrieben, muss auf einen Laufzeitausgleich geachtet werden. –– Wo  muss  mit zusätzlichem Delay die Ausbildung von Kammfiltereffekten verhindert werden? –– Welches Mi­kro­fon hat welche Einstellungen? Allein die Einstellmöglichkeiten nur eines Mi­kro­fons können umfangreiche Erläuterungen erfordern. –– Gibt es Mi­kro­fone, die  sich noch Einstellungen von früheren Produktionen gemerkt haben, beispielsweise noch aktivierte Limiter? Wer digitale Mi­kro­fone einsetzt, wird zwar von einfachen Aufgaben entlastet, muss sich aber dennoch mit eventuell viel komplexeren Aufgabenstellungen auseinandersetzen. Wenn man von einfachen Mi­kro­fonierungen absieht, z. B. zwei Mi­kro­fone ohne jede Fernsteuerung, dann kann die Vorbereitung einer Produktion, z. B. Orchesteraufnahme mit digitalen Mi­kro­fonen, erheblich mehr Zeit erfordern. Der Vorteil der ungeheuer vielen Möglichkeiten kann sich schnell in den Nachteil großer Unübersichtlichkeit und vieler Fehlerquellen verwandeln. 4.2.2.4 Druckempfänger Die Kapsel des Druckempfängers ist schalldicht geschlossen, damit keine Schallwellen an die Membranrückseite gelangen können und nur der absolute Druck der Luft Auslenkungen der Membran erzwingt (Abb.  4/29). Ohne weitere Maßnahmen würden deren Amplituden  mit 

178 

 4 Mi­kro­fone und Lautsprecher

steigender Frequenz abnehmen. Um nun eine von der Frequenz unabhängige, konstante Auslenkung der Membran und damit auch eine konstante, frequenzunabhängige Ausgangsspannung zu erreichen, nutzt man die ansteigende Flanke einer Resonanzkurve. Man legt deshalb die Eigenresonanz der Kapsel in den Bereich der höchsten zu übertragenden Frequenz. Dies wird erreicht durch eine sehr leichte, stark gespannte Membran und ein kleines im Zwischenraum zur festen Gegenelektrode eingeschlossenes Luftvolumen mit einer sehr geringen mitschwingenden Luftmasse und hoher Rückstellkraft;  man  sagt, die Membran  sei hoch abgestimmt. Im ansteigenden Teil der Resonanzkurve wird so die Membranauslenkung mit steigender Frequenz also zunehmend verstärkt. Um das Luftvolumen zwischen Membran und Gegenelek­ trode in erforderlichem Maß komprimierbar zu machen, wird die Gegenelektrode noch mit sog. Sacklöchern versehen. Dies macht die Rückstellkraft für den gesamten Frequenzbereich praktisch konstant, damit werden nichtlineare Verzerrungen vermieden, es gibt nur sehr geringe Phasenverzerrungen im gesamten Übertragungsbereich. Die geforderte frequenzunabhängige Membranauslenkung und Ausgangsspannung können sehr exakt erreicht werden (Abb. 4/13). Das Mi­kro­fon ist weitgehend unempfindlich für Körperschall. Bei Auslenkung der Membran mit fester Gegenelektrode wird die Luft auf der Seite zur Gegenelektrode verdichtet bzw. verdünnt,  mit wachsender Auslenkung entsteht also eine Bewegungshemmung. Eine interessante Lösung für den Kapselaufbau stellt deshalb die symmetrisch aufgebaute Kapsel mit zwei festen, aber gelochten Gegenelektroden dar, zwischen denen die Mi­kro­fonmembran schwingt. Das sorgt für eine erhöhte Linearität der Schwingungen, und so für eine weitere Reduzierung der ohnehin schon geringen Verzerrungen.

Abb. 4/29. Aufbau der Kapsel des Kondensator-Druckempfängers.

4.2.2.5 Druckgradientenempfänger Bei Druckgradientenempfängern  muss der Schall auch die Membranrückseite erreichen können, damit eine Druckdifferenz zwischen Vorder- und Rückseite entstehen kann, die dann die Membran auslenkt. Das kann entweder nach dem Überlagerungsprinzip oder mit einem Laufzeitglied geschehen. Beim Überlagerungsprinzip, das vor allem bei Mi­kro­fonen  mit Doppelmembran  mit umschaltbarer Richtcharakteristik angewendet wird (siehe auch Kap.  4.2.1.8, Druckgradientenempfänger mit Nierenrichtcharakteristik), werden Teilbereiche der Gegenelektrode mit durchgehenden Bohrungen zur Erzeugung einer Achterrichtcharakteristik, andere Bereiche mit Sacklöchern zur Erzeugung einer Kugelrichtcharakteristik versehen (Abb. 4/30). Da der Druckgradient bereits eine proportional zur Frequenz größer werdende Antriebskraft darstellt (Abb. 4/14), darf die Membran nicht wie beim Druckempfänger hoch abgestimmt sein.

4.2 Mi­kro­fone 

 179

Sie soll im Übertragungsbereich nur eine frequenzunabhängig wirkende Reibungshemmung besitzen. Praktisch wird die Membranresonanz, die sich aus der Membranmasse und -rückstellkraft ergibt, in die Mitte des Übertragungsbereichs gelegt. Die Resonanz wird durch die Luftreibung in den Vertiefungen und Durchbohrungen der Gegenelektrode  so bedämpft, dass sie sich nicht mehr auswirkt.

Abb. 4/30. Prinzipieller Aufbau des KondensatorDruckgradientenempfängers mit Nierenrichtcharak­ teristik nach dem Überlagerungsprinzip.

Vorherrschend bei Druckgradientenmi­ kro­ fonen  mit Nierenrichtcharakteristik oder  mit Hyper- bzw. Supernierenrichtcharakteristik  sind jedoch Konstruktionen, bei denen die Gegenelektrode zu einem Laufzeitglied erweitert und mit Bohrungen, Schlitzen und Hohlräumen versehen wird, die teils als akustische Energiespeicher, als akustische Induktivitäten und Kapazitäten, teils als Reibungswiderstände wirksam  sind; dadurch erhält die Gegenelektrode den Charakter eines akustischen Tiefpasses. Im Sperrbereich dieses Tiefpasses, also im oberen Frequenzbereich, über fü in Abb. 4/14, wird die Membran nur noch von dem von vorn auf die Membran treffenden Schall ausgelenkt; das Mi­kro­fon wird damit in diesem hohen Frequenzbereich zum Druckempfänger. Bei der Hyper- und Supernierencharakteristik wird die Laufzeit des Laufzeitglieds kürzer gemacht. Ein Beispiel für die mechanische Ausführung eines Nierenmi­kro­fons mit Laufzeitglied zeigt Abb. 4/31.

Abb. 4/31. Beispiel für den mechanischen Aufbau eines Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik mit einem Laufzeitglied.

180 

 4 Mi­kro­fone und Lautsprecher

Die Achterrichtcharakteristik erfordert eine beidseitig dem Schall ausgesetzte Membran; die Gegenelektrode darf demnach akustisch nicht wirksam werden. Mi­kro­fone nach diesem Prinzip werden wenig gebaut. Die Achterrichtcharakteristik  steht  meist nur bei Mi­kro­ fonen mit umschaltbarer Richtcharakteristik zur Verfügung (siehe Kap. 4.2.2.7). 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik Kondensatormi­kro­fone mit umschaltbaren Richtcharakteristiken können entweder durch die Kombination zweier Nierenmi­kro­fone als Doppelmembranmi­kro­fon oder durch rein mechanisch wirkende Elemente des Laufzeitglieds realisiert werden. Bei den meisten Herstellern hat sich die Lösung in der Ausführung als Doppelmembranmi­kro­fon durchgesetzt. Umschaltbare Kondensatormi­kro­fone nach dem Doppelmembranprinzip besitzen auf beiden Seiten der teils angebohrten, teils durchbohrten Gegenelektrode eine Membran. Sie vereinen zwei Mi­kro­fonsysteme  mit Nierencharakteristik, die in entgegen gesetzten Richtungen ausgerichtet  sind, jedes einzelne System arbeitet nach dem Überlagerungsprinzip (Abb. 4/32).

Abb. 4/32. Prinzipieller Aufbau des umschaltbaren Kondensatormi­kro­fons mit Doppelmembran.

Je nachdem, ob beide Membranen elektrisch wirksam werden und mit welcher Polarität sie zusammengeschaltet werden, kann ein  solches Mi­kro­fon Kugel-, Nieren- oder Achterrichtcharakteristik erhalten, außerdem alle gewünschten Zwischenformen wie Hyper- und Superniere (Abb. 4/34). Wird nur eine Membran der Kapsel  mit einer Spannungsquelle verbunden,  so hat die Kapsel Nierencharakteristik (Abb.  4/33, Schalterstellung 3). Werden beide Membranen  mit gleich großen Spannungen gleicher Polarität belegt,  so ergeben  sich zwei entgegengesetzt ausgerichtete Nieren, deren Spannungen  sich zu einer Kugelcharakteristik addieren (Abb. 4/33, Schalterstellung 1). Werden beide Membranen mit gleich großen Spannungen entgegengesetzter Polarität belegt (Abb. 4/33, Schalterstellung 2), so ergeben sich auch hierbei zwei Nierencharakteristiken, deren Spannungen sich jetzt jedoch subtrahieren, das Ergebnis ist eine achterförmige Richtcharakteristik. Sie kommt dadurch zustande, dass bei seitlicher Besprechung die beiden erzeugten Spannungen gegenphasig  sind und  sich  somit aufheben, während bei einer Besprechung von vorn oder hinten die volle Empfindlichkeit erhal-

4.2 Mi­kro­fone 

 181

ten bleibt. Der Umschalter in Abb.  4/33 kann durch ein Potentiometer ersetzt werden. Die Charakteristiken können dann stufenlos ineinander überführt werden. Dieses Potentiometer kann im Mi­kro­fongehäuse oder im Netzanschlussgerät eingebaut sein.

Abb. 4/33. Beschaltung eines Kondensatormi­kro­fons mit Doppelmembran.

Die Kugelcharakteristik des umschaltbaren Kondensatormi­kro­fons  mit Doppelmembran, die aus zwei Nierencharakteristiken gewonnen wird, zeigt eine andere Frequenzabhängigkeit der Richtwirkung als die Kugelcharakteristik des Druckempfängers. Der Schallschatten, der bei hohen Frequenzen hinter einem Druckempfänger entsteht und ihn in diesem Frequenzbereich eine der Nieren- bzw. Keulencharakteristik ähnliche Richtcharakteristik verleiht, existiert beim umschaltbaren Druckgradientenempfänger nicht, da beide Membranen wirksam sind. Dieses Mi­kro­fon ist nach dem Umschalten auf „Kugel“ von vorn und hinten für alle Frequenzen gleich empfindlich und geht für hohe Frequenzen eher in Richtung Achterrichtcharakteristik; dieses Phänomen ist bei Mi­kro­fonen mit großer Membran deutlicher, bei kleiner Membran eher gering. Somit kann die Kugelcharakteristik drei verschiedene Frequenzabhängigkeiten aufweisen (Abb. 4/35). 4.2.2.7 Stereomi­kro­fone Bei Aufnahmen in reiner Intensitätsstereofonie werden für das XY- und MS-Mi­kro­fonverfahren Mi­kro­fonanordnungen benötigt, bei denen zwei Richtmi­kro­fone an einem Punkt, in der praktischen Realisierung unmittelbar übereinander angeordnet  sind (siehe Kap.  5.3.2  ff.). Eine  solche Anordnung kann  man entweder  mit einem geeigneten Mi­kro­fonhalter und zwei Einzelmi­kro­fonen zusammenstellen oder – für den praktischen Gebrauch einfacher – durch die konstruktive Zusammenfassung zweier Mi­kro­fonsysteme. Solche Stereo- oder Koinzidenzmi­kro­fone vereinen dicht übereinander und gegeneinander drehbar zwei identische Mi­kro­fone mit örtlicher oder ferneinstellbarer Richtcharakteristik. Bei Fernumschaltung sind die Mi­kro­fonsysteme mit einer Doppelmembran aufgebaut, bei örtlicher Umschaltung stehen Mi­kro­fone mit Doppelmembran oder mit Einzelmembran und umschaltbarem Laufzeitglied zur Verfügung.

182 

 4 Mi­kro­fone und Lautsprecher

Zu den Stereomi­kro­fonen gehören auch Mi­kro­fonpaare mit Trennkörpern (Kap. 5.3.4.4) und der Kunstkopf (Kap. 4.2.4.1), sie werden aber eher als Aufnahmeverfahren gewertet und demnach in Kap. 5 behandelt.

Abb. 4/34. Mögliche Richtcharakteristiken eines Doppelmembran-Mi­kro­fons und ihr Zustandekommen aus der Überlagerung zweier Nierenrichtcharakteristiken.

4.2 Mi­kro­fone 

 183

Abb. 4/35. Verschiedene Typen der Frequenzabhängigkeit bei Kugelmi­kro­fonen, a. Druckempfänger, b. Druckgradientenempfänger mit kleiner Doppelmembran, c. Druckgradientenempfänger mit großer Doppelmembran.

Mi­kro­fonpaare mit variabler Richtcharakteristik Montiert  man ein Mi­kro­fon  mit Kugelcharakteristik (Kapsel 1) und eines  mit Achterrichtcharakteristik (Kapsel  2) dicht übereinander und  summiert deren Signale,  so erhält  man ein Monomi­kro­fon mit speziellen Eigenschaften: Zunächst kann durch die Einstellung der Pegel und Polarität von der Kugel über die Niere bis zur Acht jede gewünschte Richtcharakteristik einschließlich aller Zwischenformen eingestellt werden (Kugel = Kapsel 1, Niere nach vorn = Kapsel 1 + 2, Niere nach hinten = Kapsel 1 – 2), ebenso wie bei einem Doppelmembranmi­ kro­fon. Interessant wird das System aber erst bei Betrachtung der Frequenzgänge: die Kugel hat bis 20  Hz hinab einen ebenen Frequenzgang, die Acht hat unter 50  Hz praktisch kein Signal  mehr; nach Addition von Kugel und Acht erhält  man also eine Bassabsenkung um 6 dB bei gleichzeitiger Kugelrichtcharakteristik für den tiefsten Frequenzbereich. Ein Mi­kro­ fonpaar aus Kugel und Niere hat ebenfalls eine Bassabsenkung um 6 dB bei der Richtcharakteristik einer breiten Niere; diese Kombination wird gelegentlich als Straus-Paket bezeichnet. Die Mi­kro­fone sollen dabei in Reihe geschaltet werden, nicht parallel. Mit einem Mi­kro­fonpaar kann man aber auch weiter differenzierte Mi­kro­foneigenschaften herstellen: Ein als System auf dem Markt befindliches Produkt teilt die Übertragungsbereiche der beiden Mi­kro­fone in drei Frequenzbereiche, wobei für jeden Bereich eine eigene spezielle Kombination eingestellt werden kann, z. B. eine Kugel für tiefe Frequenzen, eine Niere für mittlere und eine Hyperniere für hohe Frequenzen. Für digitale Mi­kro­fone steht das System auch als App zur Verfügung. Wie bei jeder Differenzierung fordert allerdings auch dieses System eine große Sorgfalt bei der Einstellung und Auswahl und einen hohen Zeitaufwand. Sound Field-Technologie Eine interessante Form eines Koinzidenzmi­kro­fons ist auch das Mehrkapselsystem nach der Sound Field-Technologie nach Gerzon [Farrar, 1979]. Diese Technologie hat unter der Bezeichnung Ambisonics-Mi­kro­fon in jüngster Zeit wieder große Bedeutung erlangt. Es vereint nicht

184 

 4 Mi­kro­fone und Lautsprecher

nur zwei Mi­kro­fonkapseln wie das Koinzidenzmi­kro­fon,  sondern vier Nieren-Kapseln, die in einer festen, berechneten Position an den Ecken eines Tetraeders alle drei Raumebenen erfassen. Die Signale aller Kapseln können zu einem Monosignal, das alle Richtcharakteristiken erhalten und in verschiedene Richtungen ausgerichtet werden kann,  summiert werden, aber ebenso zu einem Stereo- oder Surroundsignal. Durch unterschiedliche Pegelanteile und Polungen der einzelnen Mi­kro­fonsignale werden die verschiedenen Richtcharakteristiken gewonnen. Der Anwender bewegt und steuert das Mi­kro­fon elektronisch über eine Steuereinheit vom Regieraum aus, entweder während der Aufnahme oder nach vierkanaliger Aufzeichnung erst bei der Abmischung. Abgesehen von den üblichen Parametern für die Mi­kro­foncharakteristik stehen zusätzliche Parameter zur Verfügung, die es sonst bei keinem Mi­kro­fonsystem gibt: Mit Azimuth wird das Mi­kro­fon elektronisch und stufenlos um 360 ° in der horizontalen Ebene gedreht, mit Elevation kann es elektronisch vertikal geneigt werden. Dieses komplexe Mi­kro­fonsystem wurde als Ambiophonics-System konkurrierend zur Technik der Quadrophonie in den 1970er Jahren entwickelt. Das Mi­kro­fon wird von verschiedenen Mi­kro­fonmanufakturen angeboten. Unter den in jüngerer Zeit entwickelten Systemen für einhüllende Klangdarstellung, den immersive sound, ist dieses Mi­kro­fon zu einem wichtigen Werkzeug der Tonaufnahme geworden (siehe dazu Kap. 5.5.3.2).

4.2.3 Dynamische Mi­kro­fone Dynamische Mi­kro­fone  sind elektrodynamische Wandler (siehe auch Kap.  4.1). Bei ihnen wird in einem durch einen Permanentmagneten erzeugten  magnetischen Feld beim Tauchspulmi­kro­fon eine kleine Spule bzw. beim Bändchenmi­kro­fon eine Leiterschleife über eine Membran von den Schallwellen bewegt. Dynamische Mi­kro­fone benötigen keine Speisespannung, sie sind robust und arbeiten auch bei hohen Schalldrücken der Schallquellen verzerrungsarm. Sie sind preisgünstig herzustellen. Verglichen mit Kondensatormi­kro­fonen ist die Feinstruktur des Frequenzgangs bei Tauchspulmi­kro­fonen unregelmäßiger, was aus den Datenblättern wegen der gemittelten Frequenzgänge nicht ersichtlich ist; ebenso ist ein Phasenfrequenzgang unvermeidlich. Wegen der verglichen mit Kondensatormi­kro­fonen wesentlich größeren bewegten Masse aus Membran und Schwingspule ist das Einschwingverhalten beim Tauchspulmi­kro­fon langsamer als bei Kondensatormi­kro­fonen. Bei hohen Qualitätsanforderungen werden deshalb Kondensatormi­kro­fone bevorzugt. Dennoch erreichen dynamische Mi­kro­fone heute einen beachtlichen Qualitätsstandard. Sie werden besonders auf der Bühne im Popmusiksektor wegen ihrer Robustheit und Betriebssicherheit geschätzt. Die Ausgangsspannung an den Klemmen einer Schwingspule oder eines Bändchens ist der Bewegungsgeschwindigkeit der Spule bzw. des Bändchens proportional, während die Spannung, die eine Kondensatorkapsel abgibt, zur Auslenkung der Membran proportional ist. Damit  muss die  mechanische Konstruktion, vor allem die Lage der Membranresonanz und die Bedämpfung der Membranschwingungen bzw. deren Verstärkung durch Resonanzen des konstruktiven Aufbaus bei dynamischen und Kondensatormi­kro­fonen unterschiedlich gestaltet werden. Bei dynamischen Druckmi­kro­fonen wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt und durch akustische Reibung bedämpft. Zusammen mit der Wirkung

4.2 Mi­kro­fone 

 185

weiterer Resonatoren von Hohlräumen in der Mi­kro­fonkapsel kann damit die Bewegungsgeschwindigkeit der Membran zum Schalldruck proportional gemacht werden. Dynamische Druckgradientenmi­ kro­ fone hingegen erfahren eine  mit der Frequenz ansteigende Krafteinwirkung; eine mit der Frequenz zunehmende Dämpfung würde die Ausgangsspannung zu gering werden lassen. Also wird die Membran tief abgestimmt; die Membranresonanz verstärkt die Bewegung im tiefen Bereich und nimmt  mit der Frequenz ab, wieder entsteht eine frequenzunabhängige Ausgangsspannung. Für die Praxis bedeutet die tiefe Membranabstimmung, dass Körperschall - Trittschall und Reibgeräusche - und Windgeräusche die Aufnahme erheblich  mehr  stören als bei höher abgestimmten Membranen; dies gilt vor allem für Bändchenmi­kro­fone. In dieser Hinsicht sind Kondensatormi­kro­fone nach dem Druckempfängerprinzip allen anderen Mi­kro­fonen überlegen; nur diese Mi­kro­fone haben eine hoch abgestimmte Membran. Tab.  4/6 fasst die Membranabstimmung bei den verschiedenen Mi­kro­fonprinzipien zusammen (siehe auch Kap. 4.2.1.8).

Tab. 4/6. Resonanzabstimmung der Membran bei Mi­kro­fonen.

Lage der Membranresonanz im Übertragungsbereich Störungen durch Trittschall, Wind- und Poppgeräusche

Kondensatormi­kro­fone

dynamische Mi­kro­fone

Kugel

Niere, Acht

Kugel

Niere, Acht

am oberen Ende

in der Mitte

in der Mitte

am unteren Ende

gering

mittelmäßig

hoch, sehr hoch beim Bändchenmi­kro­fon

4.2.3.1 Tauchspulmi­kro­fon Am Beispiel eines Tauchspulmi­kro­fons mit Kugelcharakteristik nach dem Druckempfängerprinzip zeigt Abb. 4/36 die Wirkungsweise des dynamischen Mi­kro­fons. An der Membran ist eine Spule befestigt, welche in den Luftspalt eines Topfmagneten eintaucht; dieser besteht aus einem Dauermagneten und einem Topf aus magnetisch leitendem Material (äußere Polplatte) und dem Kernpolschuh. Die Spule ist ohne Körper gewickelt und erhält ihre  mechanische Steifigkeit dadurch, dass ihre einzelnen Windungen miteinander verklebt sind. Sie ist meist so bemessen, dass ihre Impedanz bei 1 kHz 200 Ω beträgt. Die Größe der Signalspannung dieses Mi­kro­fons ist abhängig von der magnetischen Induktion, von der Dimensionierung der Spule und von der Geschwindigkeit, mit der die Spule im Magnetfeld bewegt wird. Die beiden erstgenannten Größen werden durch die Konstruktion festgelegt. Um eine frequenzunabhängige Signalspannung zu erhalten, sind besondere konstruktive Maßnahmen erforderlich: Die Geschwindigkeit einer Membran ohne Masse und damit die Signalspannung würde mit der Frequenz ansteigen. Durch die Masse der Membran einschließlich der  mitschwingenden Spule wird die Geschwindigkeit bedämpft. Der Einfluss dieser Dämpfung ist so stark, dass die Membrangeschwindigkeit mit steigender Frequenz abnimmt und sogar durch Resonanzen wieder angehoben werden  muss. Deshalb wird die Membranresonanz in die Mitte des Übertra-

186 

 4 Mi­kro­fone und Lautsprecher

gungsbereichs gelegt. Als weitere Resonatoren werden verwendet: das Luftvolumen zwischen dem stets integrierten Windschutzkorb und der Membran, das Luftvolumen zwischen Membran und Magnet, der Innenraum des Topfmagneten und der Innenraum des Gehäuses. Durch die Bemessung der Öffnungen und Kanäle, welche die Resonatoren miteinander verbinden, und durch dämpfende Filzscheiben z. B. werden diese aufeinander abgestimmt.

Abb. 4/36. Tauchspulmi­kro­fon nach dem Druckempfängerprinzip.

Tauchspulmi­kro­fone wurden aber hauptsächlich als Richtmi­kro­fone entwickelt. Sie unterscheiden sich von den ungerichteten Tauchspulmi­kro­fonen durch die tiefe Abstimmung der Membranresonanz und durch die Ausbildung des hinteren Kapselabschlusses als Laufzeitglied. Die Forderung nach tiefer Abstimmung der Membranresonanz ergibt sich daraus, dass die Antriebskraft des Druckgradienten mit fallender Frequenz abnimmt; zum Ausgleich verstärkt die Eigenresonanz der Membran die Bewegungsgeschwindigkeit. Die Membran sollte deshalb auf die tiefste zu übertragende Frequenz abgestimmt sein, was praktisch erhebliche Probleme mit sich bringt, da einerseits die Körperschall- und Windempfindlichkeit sehr groß wird, andererseits die Führung der Spule bei zu weicher Aufhängung nicht präzise genug ist. Deshalb wird die Membranresonanz etwas höher gelegt und die Antriebskraft dadurch gesteigert, dass für tieffrequenten Schall Schalleinlässe  mit größerer Verzögerung angebracht werden; akustische Filterelemente sorgen dafür, dass die Verlängerung des Laufzeitglieds nur für tiefe Frequenzen wirksam wird. Dieses Prinzip heißt Variable Distance-Prinzip. Eine konsequente Weiterentwicklung des Variable Distance-Prinzips führt zum ZweiwegTauchspulmi­kro­fon, bei dem, ähnlich wie bei Lautsprecherboxen, für den tieffrequenten und höherfrequenten Schall je ein eigenes Empfänger- und Wandlersystem zugeordnet ist, deren Laufzeitglieder viel besser auf den jeweils zu übertragenden Frequenzbereich abgestimmt werden können. Ein Vorteil dieser Technik ist auch, dass der Nahbesprechungseffekt praktisch unterdrückt wird.

4.2 Mi­kro­fone 

 187

Magnetische Störfelder, die von Netztransformatoren, Trenntransformatoren oder Motoren kommen können, induzieren in die Spule des Tauchspulmi­kro­fons Störspannungen. Um solche Störungen zu unterdrücken, ist nahe bei der Schwingspule eine feste Kompensationsspule untergebracht, die – mit der Schwingspule in Reihe geschaltet, aber entgegengesetzt gewickelt – magnetische Störfelder kompensiert. kro­ fone baut auf jahrzehntelanger Erfahrung und EntDie Technologie dieser Mi­ wicklung; der  mechanische Aufbau ist kompliziert, aber ausgereift. Tauchspulmi­kro­fone können sowohl in preiswerter Massenfertigung als auch mit hohem Qualitätsstandard hergestellt werden. 4.2.3.2 Bändchenmi­kro­fon Die Membran des Bändchenmi­kro­fons, eben ein Metallbändchen, ist gleichzeitig der elek­ trische Leiter, der im Magnetfeld eines starken Permanentmagneten bewegt wird. Eine 2 bis 3 μm dickes und 3 bis 4 mm breites Aluminiumbändchen von etwa 4 cm Länge mit vielen Querfalten ist lose zwischen den Magnetpolen aufgehängt (Abb. 4/37). Seine Eigenfrequenz liegt dabei am unteren Ende des Übertragungsbereichs. Diese Maßnahme und die Masse des Bändchens bewirken die Unabhängigkeit seiner Geschwindigkeit und damit der Ausgangsspannung von der zu übertragenden Frequenz. Die Impedanz dieses Mi­kro­fons wird durch den Widerstand des Bändchens gebildet und beträgt ca. 0,1 Ω. Ein im Mi­kro­fongehäuse untergebrachter Übertrager erhöht die Impedanz auf meist 200 Ω, damit wird gleichzeitig die Ausgangsspannung erhöht. Bändchenmi­kro­fone sind wie Tauchspulmi­kro­fone als Druckgradienten- oder Druckempfänger konstruierbar. Wegen der sehr geringen Masse des Bändchens und seiner weichen Aufhängung zeigt das Mi­kro­fon ein sehr gutes Impulsverhalten. Der Frequenzgang ist vom Prinzip her weitgehend linear, auch in  seiner Feinstruktur. Typisch ist eine mehr oder weniger deutliche Höhenanhebung, verursacht durch die Hohlraumresonanz des Topfmagneten. Wegen der tiefen Membranabstimmung sind Bändchenmi­kro­fone gegen Wind-, Popp- und Trittschall sehr empfindlich. Bändchenmi­kro­fone wurden in der Anfangszeit des deutschen Rundfunks ab 1924 verwendet, bis 1931 das von Neumann erfundene Kondensatormi­kro­fon eingeführt wurde. Vor allem aber in den USA blieb das „Bändchen“ das Standardmi­kro­fon bis in die fünfziger Jahre. So  sind die  meisten der berühmten Bigband-Aufnahmen der 1940er und 1950er Jahre  mit Bändchenmi­kro­fonen von RCA entstanden. Ähnlich wie Mi­kro­fone  mit Röhren gehört das Bändchenmi­kro­fon zu den Mi­kro­fonen, die nicht wegen  messtechnisch optimaler Eigenschaften geschätzt werden, sondern wegen ihres besonderen Klangs. So wird dem Bändchen besondere Klangtransparenz bei weichen Höhen nachgesagt; der Höhenabfall beginnt schon unter 10 kHz. Die geringe Ausgangsspannung des Bändchens führt zu erhöhtem Rauschen, weshalb das Mi­kro­fon vor allem für Aufnahmen im Nahbereich oder für laute Schallquellen, eben z. B. bei einer Big band, geeignet ist. Bändchenmi­kro­fone (ribbon mic) werden vor dem Hintergrund langer Zeit der Entwicklung und Erfahrung noch heute gefertigt und haben wie z. B. Röhrenmi­kro­fone ihren Kreis von Liebhabern.

188 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/37. Prinzip des Bändchenmi­kro­fons.

4.2.4 Spezialmi­kro­fone Neben den beschriebenen Mi­ kro­ fonen gibt es einige Spezialmi­ kro­ fone  mit besonderen Eigenschaften für besondere Einsatzsituationen, das Sound-Field-Mi­kro­fon wurde bereits als Stereomi­kro­fon beschrieben:

–– das Kardioidebenenmi­kro­fon mit einer speziellen Richtcharakteristik (Kap. 4.2.4.1), –– das Grenzflächenmi­kro­fon als Kugelmi­kro­fon  mit  speziellen Klangeigenschaften (Kap. 4.2.4.2), –– Großmembranmi­kro­fone und Röhrenmi­kro­fone (Kap. 4.2.4.3), –– Ansteckmi­kro­fone (Kap. 4.2.4.4), –– Kontaktmi­kro­fone (Kap. 4.2.4.5), –– Sound-Field-Mi­kro­fon, außer als Stereomi­kro­fon ein äußerst flexibles Monomi­kro­ fon (Kap. 4.2.2.7), –– Kunstkopf-Mi­kro­fon (Kap. 4.2.4.6).

4.2.4.1 Kardioidebenenmi­kro­fon Das Arbeitsprinzip des Richtrohrmi­kro­fons, nämlich die phasen- bzw. zeitverschobene Aufnahme schräg auftreffenden Schalls zur Erzielung einer stark eingeengten Richtwirkung zu nutzen (siehe Kap. 4.2.1.7), wird beim Kardioidebenenmi­kro­fon, kurz auch KEM, nur für von oben und unten eintreffenden Schall umgesetzt. Es entsteht dabei eine Richtcharakteristik, die in der horizontalen Ebene eine Niere darstellt, in der vertikalen Ebene aber eine Keule. Das Mi­kro­fon nimmt also Schall aus einem waagrechten Raumsegment auf, blendet aber Schall von oben und unten stark aus. Realisiert wird diese Richtcharakteristik durch ein  sog. Linearray;  mehrere Mi­ kro­ fone sind auf einer vertikalen Linie übereinander angeordnet. Ihre Signale werden in einem Zusatzgerät verzögert, im Pegel geregelt und addiert. Das KEM ist als feststehendes Rednermi­ kro­fon speziell für den Deutschen Bundestag entwickelt worden, wo es sich hervorragend

4.2 Mi­kro­fone 

 189

bewährt und sozusagen eine öffentliche Präsenz erhalten hat. Es gibt dem Redner seitliche Bewegungsfreiheit ohne Änderungen der Klangfarbe bei gleichzeitig guter Diffusschallausblendung (Abb.  4/38). Andererseits ist durch die  scharfe Bündelung in der horizontalen Ebene eine Anpassung des Rednerpults an die Körpergröße des Redners erforderlich; eine Bündelung in der vertikalen Ebene würde die Bewegungsfreiheit des Redners zur Seite hin einschränken, sich aber für jede Körpergröße eignen. Vorteilhaft kann das Mi­kro­fon in denjenigen kritischen Aufnahmesituationen eingesetzt werden, in denen eine breite oder sich bewegende Schallquelle bei maximaler Ausblendung von Schall aus anderen Richtungen aufgenommen werden soll. Neben dem Einsatz am Rednerpult hat es sich bewährt z. B. als Tischmi­kro­fon bei einem oder mehreren Sprechern, als Bühnenrandmi­kro­fon bei gleichzeitiger Beschallung, bei Fernsehproduktionen  sowie als Stützmi­kro­fon etwa für den Chor oder eine Instrumentengruppe bei Musikaufnahmen.

Abb. 4/38. Richtcharakteristiken des Kardioidebenenmi­kro­fons.

Eine Weiterentwicklung des Kardioidebenenmi­kro­fons behebt die nachlassende Bündelung bei tiefen Frequenzen und erhöht damit seine Eignung bei Musikaufnahmen. Denn im Gegensatz zu Sprachaufnahmen, wo eine generelle Bassabsenkung ratsam ist, soll hier der Bassbereich nicht bedämpft werden. Erreicht wird die über den gesamten Frequenzbereich nahezu konstante Bündelung durch eine zusätzliche sog. Delta-Mi­kro­fonkapsel hinter dem Lineararray, mit der die Bündelung bei den Tiefen erhöht wird. Die Delta-Kapsel ist für den Einsatz bei Sprachaufnahmen abnehmbar. 4.2.4.2 Grenzflächenmi­kro­fon Das Grenzflächenmi­kro­fon – auch PZM (Pressure Zone Microphone, geschützter Handelsname des Herstellers Crown) oder BLM (Boundary Layer Microphone) genannt – nutzt die besonderen akustischen Bedingungen, die an einer den Schall reflektierenden Grenzfläche herrschen. An oder ganz dicht vor reflektierenden Flächen haben alle Schallwellen, sowohl die des Direktschalls als auch die von ersten Reflexionen und Diffusschall, Druckbäuche, also den  maximalen Druck der Schallwelle, und damit einen doppelten Schalldruck oder um 6 dB erhöhten Schallpegel. Aus dieser Tatsache und aus der Ausstattung dieser Mi­kro­ fone mit einer kleinen Membran, schließlich aus der Bauweise als Kondensator-Druckemp-

190 

 4 Mi­kro­fone und Lautsprecher

fänger ergeben sich die besonderen Eigenschaften der Grenzflächenmi­kro­fone. Ihre Richtdiagramme sind weitgehend frequenzunabhängig halbkugelförmig, sowohl für Direkt- als auch für Diffusschall. Bei den ersten Konstruktionen wurde das Mi­kro­fon in geringem Abstand auf die Grenzfläche gerichtet. Durchgesetzt hat  sich dann aber eine Konstruktion, bei der das Mi­kro­fon quasi Teil der Grenzfläche selbst ist. Mehr oder weniger flach konstruiert, wird es einfach auf den Boden gelegt oder an einer Wand befestigt. Druckbäuche an Grenzflächen kommen nur dann zustande, wenn die Schallwelle reflektiert wird; dafür  muss die Auflagefläche  schallhart  sein und die Ausdehnung der reflektierenden Fläche  muss  mindestens die halbe Wellenlänge des reflektierten Schalls besitzen (Tab. 4/7). Die Einbauplatten der Mi­kro­fone sind im Allgemeinen für Frequenzen über 1  kHz ausreichend. Für tiefere Frequenzen  muss die Reflexionsfläche dadurch vergrößert werden, dass das Mi­kro­fon auf eine größere Fläche, z. B. auf den Boden, gelegt wird. Unterhalb der in Tab.  4/7 angegebenen Grenzfrequenz liefert das Mi­kro­fon 6  dB Pegel weniger. Auf die Reflexionswirkung der Fläche hat ihre mechanische Oberflächenstruktur Einfluss; je akustisch härter die Oberfläche ist, umso geradliniger ist der Frequenzgang des Mi­kro­fons. Gängige Fußbodenbeläge außer Teppichen und Wandoberflächen dürften im Allgemeinen für Grenzflächenmi­kro­fone geeignet sein, da im kritischen Frequenzbereich über 1 kHz die Einbauplatte des Mi­kro­fons ausreichend reflektiert. Tab. 4/7. Mindestausdehnung der Grenzfläche bei Grenzflächenmi­kro­fonen. untere Grenzfrequenz

notwendiger Durchmesser der Grenzfläche ca.

30 Hz 50 Hz 100 Hz 200 Hz 500 Hz 1.000 Hz

5 m 3 m 1,50 m 0,75 m 0,30 m 0,15 m

Da die Kanten und die Dicke der Einbauplatte das Schallfeld  stören,  muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen  möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen  möglichst breiten Frequenzbereich verteilt werden. Aus diesem Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. Auf Grund ihrer Richtcharakteristik einer Halbkugel eignen sich Grenzflächenmi­kro­fone vor allem für Laufzeitstereofonie. Aus dem praktischen Umgang haben sich größere Basisbreiten als bei der AB‑Mi­kro­fontechnik üblich ist, als günstig erwiesen, also das sog. GroßAB-Verfahren (siehe Kap.  5.3.3.2). Die Raumabbildung und die räumliche Durchsichtigkeit dieser Mi­kro­fone sind beeindruckend; sie zeigen ihre Vorteile deshalb bevorzugt in akustisch guten Räumen. Da sie auf Grund der Aufnahmetechnik in Laufzeitstereofonie in größerem Abstand von den Schallquellen aufgelegt werden, eignen sie sich vorwiegend für Aufnahmen

4.2 Mi­kro­fone 

 191

klassischer Musik. Dabei sind auch unkonventionelle Mi­kro­fonorte, z. B. bei Orgelaufnahmen, zu erwägen. Als Druckempfänger sind Grenzflächenmi­kro­fone wenig empfindlich für Körperschallund Windgeräusche. Trittschall stört deshalb auch bei der Auflage des Mi­kro­fons auf dem Boden meist nicht. Grenzflächenmi­kro­fone auf dem Boden werden leicht übersehen, deshalb haben die Mi­kro­fone trittstabile Schutzkörbe. Zusammenfassend hat das Mi­kro­fon also die folgenden, besonderen Eigenschaften: –– Störabstand: die Verdopplung des Schalldrucks an einer Grenzfläche und damit die Erhöhung der Empfindlichkeit um 6  dB ergibt theoretisch einen vergrößerten Störpegelabstand, der sich bei den Mi­kro­fondaten mit etwa 3 dB niederschlägt. Die Empfindlichkeit für Körperschall ist sehr gering. –– Richtcharakteristik: sie ist für Freifeld- und Diffusschall halbkugelförmig und in idealer Weise frequenzunabhängig, kein anderes Mi­kro­fon hat eine solche Richtcharakteristik. –– Klangfarbe: Direkt- und Diffusschall haben keine unterschiedlichen Klangfarben, was bei üblichen Druckempfängern unvermeidlich ist. –– Aufnahme bewegter Schallquellen: wegen der gleichen Klangfarben von Direkt- und Diffusschall  stören Bewegungen von Schallquellen nicht oder wenig, das Mi­kro­fon ist also besonders geeignet bei Aufnahmen im Sprechtheater oder bei Diskussionsrunden mit sich bewegenden Sprechern, vorausgesetzt, der Raum ist dabei nicht zu hallig; ein  sich abwendender Gesprächsteilnehmer z.  B. erfährt keine  starke Klangfarbenänderung durch wechselnde Anteile von Direkt- und Diffusschall. Das Mi­kro­fon wurde zunächst auch als Konferenzmi­kro­fon entwickelt. –– Keine Kammfiltereffekte: die insbesondere bei Stützmi­kro­fonen durch Reflexionen am Fußboden oder bei Tischmi­kro­fonen durch Reflexionen an der Tischoberfläche bzw. am Sprechertisch entstehen, können bei Grenzflächenmi­kro­fonen nicht auftreten. –– Praktischer Einsatz: bei Publikumsveranstaltungen ist die Betriebssicherheit u. U. nicht gegeben, da das Mi­kro­fon,  sofern es auf dem Boden liegt, leicht übersehen wird. Vor einer erhöhten Bühne ist das Mi­kro­fon nicht einsetzbar, auf der Bühne fehlt meist der Platz, Wände für eine Platzierung sind als Aufnahmeort meist ungeeignet. 4.2.4.3 Großmembran- und Röhrenmi­kro­fon Kondensatormi­kro­fone  sind  mit Membranen unterschiedlicher Größe auf dem Markt. Bei Kleinmembranmi­kro­fonen oder einfach Kleinmi­kro­fonen beträgt ihr Durchmesser 12 bis 17 mm, bei Großmembranmi­kro­fonen 28 bis 34 mm. Großmembranmi­kro­fone – oft in sogar historischer Schaltungstechnik der Jahre 1930 bis 1960  mit Elektronenröhren – genießen Ansehen und häufige Verwendung in Verbindung  mit einem Poppschirm bei Studioaufnahmen der Singstimme und Einzelinstrumente, nicht jedoch als Hauptmi­kro­fone. Es wird ihnen eine auffällige Präsenz, eingebettet in ein warmes, voluminöses Klangbild, nachgesagt. Neben dem Bestand historischer Mi­kro­fone, sog. vintages, sind Nachfolgemodelle, sog. Retro-Mi­kro­fone, auch mit modernster Technik, weiter in Herstellung und Entwicklung. Der  subjektiven Wertschätzung  stehen akustische Daten gegenüber, die keinesfalls optimal sind: Bässe werden grundsätzlich durch große Membranen nicht besser aufgenommen, die Richtcharakteristik ist deutlich frequenzabhängig, weil das Mi­kro­fon wegen seiner

192 

 4 Mi­kro­fone und Lautsprecher

Größe das Schallfeld verändert. Bei tiefen Frequenzen nehmen diese Mi­kro­fone Kugelcharakteristik an,  sie nehmen  mehr Diffusschall auf, was die Wärme und das Klangvolumen erklären könnte, in den Höhen  setzt die Richtwirkung und die durch die Reflexion des Schalls an der Membran bedingte Höhenanhebung früher ein als bei Kleinmi­kro­fonen, was die besondere Präsenz erklären kann. Im Übrigen gibt es für Kleinmi­kro­fone auch aufschiebbare Kugeln, die diesen Mi­kro­fonen einige der Eigenschaften von Großmembranmi­kro­fonen geben. Diese Einwände jedoch  sind wenig bedeutend bei Aufnahmen von Gesang im Nahbereich bei  statischen Aufnahmesituationen im Studio. Auch die optische Wirkung dieses beeindruckend großen Mi­kro­fons ist durchaus nicht zu unterschätzen. Meist erhält das Mikrofon noch einen Poppschirm gegen den Poppschall der Sänger, was auch noch zu einer auffälligen Optik beiträgt. Die elektrischen Schaltungen des Impedanzwandlers wurden bis 1960 als Röhrenschaltungen realisiert, denen man ähnliche Eigenschaften wie der Großmembran nachsagt. Bei dieser Technologie gibt es vermehrt nichtlineare Verzerrungen  mit  steigendem Pegel, verursacht durch eine nicht ganz gerade Kennlinie der Verstärkung. Bei der Stimme und z. B. Trompete erhöht dies durch Hinzufügen harmonischer Obertöne die Präsenz, auch entsteht eine geringe Kompressionswirkung, die die Instrumente „druckvoller“ macht. Betrachtet  man Großmembranmi­kro­fone und Röhrentechnologie als Mittel der Klanggestaltung, dann haben beide auch in der modernen Tonstudiotechnik ihren Platz und ihre Daseinsberechtigung. 4.2.4.4 Lavalier-Mi­kro­fon Sprecher, die während ihres Vortrags sich oder ihre Hände frei bewegen wollen, werden vorteilhaft  mit  sog. Lavalier-Mi­kro­fonen ausgestattet, ein Lavalier ist ein veralteter Ausdruck für einen ein Schmuckanhänger. Diese Mi­kro­fone – zumeist Druckempfänger, da diese wegen der hoch abgestimmten, also sehr straff gespannten Membran gegen Reibgeräusche unempfindlicher  sind – werden  mit einer um den Hals gehenden Schnur oder durch eine Klammer an der Kleidung befestigt und vor der Brust getragen. Ihr Wandlersystem ist gegen Körperschall-Übertragung durch das Gehäuse geschützt. Einige Lavalier-Mi­kro­fone weisen entsprechend ihrer besonderen Verwendung einen speziellen Frequenzgang auf. Das Übertragungsmaß steigt zu hohen Frequenzen hin um 8 bis 10 dB an, weil der Mund die höherfrequenten Schallanteile vorzugsweise in Sprechrichtung und weniger  stark zur Brust hin abstrahlt. Außerdem zeigt sich bei männlichen Sprechern bei 700 Hz, bei weiblichen bei etwa 800 Hz, eine resonanzartige Überhöhung im Frequenzgang, die durch vom Brustkorb abgestrahlten Schall zustande kommt (Abb. 2/7) und bei einigen Lavalier-Mi­kro­fonen akustisch oder elektrisch entzerrt wird (Abb. 4/39). Ob ein Mi­kro­fon eine spezielle Lavalier-Entzerrung besitzt oder nicht, kann nicht aus seiner Typenbezeichnung als Ansteck- oder Lavalier-Mi­ kro­fon geschlossen werden. Nach Lavalier entzerrte Mi­kro­fone sind nur entsprechend ihrer Zweckbestimmung verwendbar. Optimale Bewegungsfreiheit hat der Vortragende, wenn das Mi­kro­fonsignal drahtlos über einen Taschensender weitergeleitet wird. Lavalier-Mi­kro­fone können als Kondensatormi­kro­fone oder als dynamische Mi­kro­fone ausgeführt sein, im professionellen Bereich wird die Ausführung als hochwertiges Kondensatormi­kro­fon bevorzugt.

4.2 Mi­kro­fone 

 193

Abb. 4/39. Frequenzgang der Entzerrung des Lavalier-Mi­kro­fons.

Eine weitere Variante eines Nahfeldmi­kro­fons ist das Ohr- oder Nackenbügel-Mi­kro­fon, das mit einem Ohrbügel fixiert, seitlich neben dem Mund positioniert wird und sehr gute Klangqualität bietet; in dieser Position werden auch die gefürchteten Übersteuerungen durch Popplaute vermieden. Für Moderatoren von Radiosendungen empfehlen sich Headsets, eine Kombination von zumeist Elektretmi­kro­fonen mit Ohrbügel und Kopfhörern. Sie garantieren insbesondere einen definierten, auch bei Bewegungen unveränderten Mi­kro­ fonabstand, erreichen aber nicht die Klangqualität der Studiomi­kro­fone. 4.2.4.5 Kontaktmi­kro­fon Kontakt- oder Körperschallmi­kro­fone nehmen nur die Schwingungen von  schwingenden Festkörpern ab, z. B. Musikinstrumenten, aber keine Luftschwingungen. In der Studiotechnik haben sich Kontaktmi­kro­fone nur bedingt durchsetzen können. Einer der Gründe hierfür ist, dass der Körperschall der Instrumente andere Eigenschaften hat als der abgestrahlte Luftschall, dass die Instrumente also ungewohnt klingen. Sie arbeiten nach dem elektrostatischen Wandlerprinzip mit Elektretsystemen, die als flexible Bänder auf Resonanzflächen aufgeklebt werden, oder nach dem piezoelektrischen Prinzip. Körperschallmi­kro­fone werden bei Bass und Gitarre bevorzugt eingesetzt. Für Aufnahmen beim Fernsehen können sie dann vorteilhaft  sein, wenn Mi­kro­fone im Bild nicht  sichtbar  sein  sollen. Vorteilhaft  sind  sie besonders aber bei schwierigen Beschallungssituationen, da Rückkopplungen ausgeschlossen sind. Hauptsächlich finden diese Schallwandler jedoch als Schwingungsaufnehmer bei der Materialprüfung Anwendung. 4.2.4.6 Kunstkopf-Mi­kro­fon Ein interessanter und wichtiger Spezialfall der zweikanaligen Aufnahmeverfahren  stellt die  sog. kopfbezogene Stereofonie dar, auch als Kunstkopf-Aufnahmeverfahren bekannt (siehe hierzu ausführlich Kap.  5.5.5.1). Im Prinzip handelt es  sich um die verzerrungsfreie Übertragung und Reproduktion von den Schallsignalen an den menschlichen Trommelfellen [Platte, 1975]. Mi­kro­fonsysteme, die die Bedingungen beim natürlichen Hören nachahmen,

194 

 4 Mi­kro­fone und Lautsprecher

wurden bereits in der Frühzeit der Tonaufnahme entwickelt und seit den 1930er Jahren auch patentiert. Mit dem Hörspiel „Demolition“, einer Gemeinschaftsproduktion von RIAS, WDR und BR nach einem Science-Fiction-Roman von Alfred Bester wurde das Interesse in den 1970er Jahren wieder auf diese Technik gelenkt. Eine wichtige Fähigkeit des menschlichen Hörsystems besteht darin, Unterschiede der Informationen zu verarbeiten, die vom linken und rechten Ohr bereitgestellt werden. Diese binaurale Signalverarbeitung ist die Grundlage für das räumliche Hören, also für die Lokalisierung, Schallquellenauswahl und für die Mustererkennung. Auf Grund des räumlichen Abstands der beiden Ohren entstehen richtungs- und entfernungsabhängig unterschiedliche interaurale Laufzeit- bzw. Phasenbeziehungen. Die Ohrkanaleingänge liegen unsymmetrisch im Cavum Conchae, der trichterförmigen Vertiefung innerhalb der Ohrmuschel; dieses liegt ebenfalls unsymmetrisch innerhalb der Ohrmuschel, diese wiederum liegt unsymmetrisch nach hinten und unten versetzt am Kopf. Diese  mehrfachen Asymmetrien der äußeren Geometrie erzeugen auf Grund der Überlagerungen der Schallwellen, verursacht durch Beugungen und Reflexionen, für alle Schalleinfallsrichtungen unterschiedliche Übertragungsfunktionen oder HRTF (Head Related Transfer Function). Daher sind diese für alle Schalleinfallsrichtungen unterschiedlich und ermöglichen so, obwohl nur zwei Empfänger vorhanden sind, dem menschlichen Gehör das dreidimensionale, räumliche Hören. Die von der menschlichen Anatomie vorgegebene Geometrie erzeugt die sog. Außenohrübertragungsfunktion, dargestellt in Abb. 4/40.

Abb. 4/40. Modell zur Beschreibung der Entstehung der Außenohrübertragungsfunktion des Gehörs [Genuit, 1984].

Die Außenübertragungsfunktionen entstehen durch die Überlagerung von direkt einfallenden Schallwellen sowie deren Reflexionen und Beugungen an Ohrmuschel, Kopf, Schulter und Oberkörper, und den akustischen Resonanzen, erzeugt von den Hohlräumen des Cavum Conchae und des Ohrkanals. Die Außenohrübertragungsfunktion ist komplex und abhängig vom Einfallswinkel und im geringen Maß für Distanzen unter 3 m von der Entfernung. Sie wird für Direktschall bestimmt und heißt daher Freifeld-Außenohr-Übertragungsfunktion. Den Betrag von typischen Übertragungsfunktionen beim Menschen gemessen im Ohrkanaleingang für die vier Hauptschalleinfallsrichtungen zeigt Abb. 4/41.

4.2 Mi­kro­fone 

 195

Abb. 4/41. Betrag der Übertragungsfunktion des Außenohres für Schalleinfall von vorne 1. seitlich zugewandt, 2. hinten, 3. und seitlich abgewandt, 4. gemessen am menschlichen Ohr im Ohrkanaleingang [Genuit, 1984].

Grundsätzlich existieren drei unterschiedliche Arten von Kunstkopfsystemen: –– Systeme für Messungen der akustischen Übertragungseigenschaften von ohrnahen Schallquellen, –– Systeme als Stereomi­kro­fon zur authentischen Tonaufnahme z. B. von Musik, –– Systeme für Messungen der Geräuschqualität von Umweltgeräuschen, von technischen Einrichtungen und der Gestaltung des Sound-Design von Produkten. Als erstes erfolgte 1971 die Vorstellung des KEMAR-Kunstkopfs der Firma Knowles Electronics. Dieses System besaß eine  mechanische Nachbildung der Trommelfellimpedanz; das Einsatzgebiet fokussierte  sich auf die Messung der Übertragungseigenschaften von ohrnahen Schallquellen, z. B. Hörgeräten, Kopfhörern und  mobilen Telefonen; hierbei ist die Wechselwirkung zwischen der Ausgangsimpedanz der Quelle und der Belastungsimpedanz durch Ohrkanal und Trommelfell zu berücksichtigen. Für dieses Spezialfall werden spezielle Kunstkopfmesssysteme mit Ohrkanal und einer Nachbildung der Trommelfellimpedanz verwendet. Im Jahr 1975 stellte die Firma Neumann den ersten kommerziell erhältlichen Kunstkopf KU 80 speziell für den Einsatz für Tonaufnahmen vor der basierend auf den Untersuchungen

196 

 4 Mi­kro­fone und Lautsprecher

von Kürer, Plenge und Wilkens [Kürer, 1969] entwickelt wurde. Diese Autoren verfolgten noch den Ansatz, die Mi­kro­fonsignale an der Stelle aufzunehmen, wo beim Menschen das Trommelfell liegt. Das bedeutete aber eine zweifache Durchquerung − bei der Aufnahme wie auch bei der Wiedergabe − der Ohrmuschel und des Ohrkanals mit ihren aufgrund der Geometrie bedingten frequenzabhängigen Pegeländerungen. Zusätzlich verursachte die Ankopplung eines Studiomi­kro­fons  mit 20  mm Durchmesser an die Ohrkanalnachbildung  mit einem Durchmesser von 10 mm eine akustische Tiefpasswirkung oberhalb von 5 kHz. Deshalb wies der KU 80 klangliche Einschränkungen auf, die einer Verbreiterung des Kunstkopfverfahrens im Studiobereich entgegenstanden. In der Wissenschaft hielt sich lange die Annahme, für eine korrekte räumliche und klangliche Abbildung der akustischen Originalsituation bei Wiedergabe über Kopfhörer sei eine genaue Nachbildung der mensch­lichen Trommelfellimpedanz erforderlich, deren messtechnische Bestimmung wie auch deren Nachbil­dung nicht einfach ist [Hudde, 1980]. Für ein Kunstkopf-Aufnahmesystem, das nicht für die Bestimmung der Übertragungseigenschaften von ohrnahen Schallquellen eingesetzt werden soll, sondern für die Aufnahme einer akustischen Umwelt, zeigten erste experimentelle Untersuchungen eine Unabhängigkeit der Richtcharakteristik des Kunstkopfmi­kro­fons, die sog. monaurale Übertragungsfunktion, von den Übertragungseigenschaften des Ohrkanals und dem Abschluss  mit der Trommelfellimpedanz. Die Freifeldübertragungsfunktion eines Ohrs in Abhängigkeit der Schalleinfallsrichtung ändert sich zwar durch die Eigenschaften des Ohrkanals und dessen Abschluss mit einer Trommelfellimpedanz; bei Bezug der Außenohrübertragungsfunktionen im Freifeld in Abhängigkeit der Schalleinfallsrichtungen auf die Referenzbeschallung von vorne entsteht aber eine monaurale Richtcharakteristik, die unabhängig von Ohrkanal und dessen akustischen Abschluss, dem Trommelfell, ist. Somit konnte ein Kunstkopfaufnahmesystem ohne Nachbildung des Ohrkanals und des Trommelfells konstruiert werden, das aber nicht zur Bestimmung von ohrnahen Schallquellen geeignet ist, 1981 entstand das erste Kunstkopf-Messsystem mit zum menschlichen Gehör vergleichbaren Eigenschaften hinsichtlich Richtcharakteristik, Frequenzübertragungsbereich und Dynamik, das zusätzlich für den Einsatz in der akustischen Messtechnik freifeldentzerrt und kalibrierfähig war [Genuit, 1982]. Der Einsatz erfolgt vornehmlich zur Erfassung und Analyse im Bereich Geräuschqualität und Sound Design. Schallereignisse werden originalgetreu aufgezeichnet und über Kopfhörer beurteilt. So sind einerseits leicht gehörmäßige Vergleiche von verschiedenen Produkten oder die akustischen Auswirkungen von Modifikationen an Produkten möglich. Andererseits lassen sich mithilfe der Signalverarbeitung einzelne Komponenten im Zeit- oder Frequenzbereich manipulieren, um zu erkennen, wie ein gewünschter Sound zu erzielen ist. Das Einsatzgebiet dieser verbesserten Kunstkopfmesstechnik fokussierte sich zunächst auf den Automobilbereich, bald aber auch auf die Bestimmung der Geräuschqualität von Büro- und Haushaltsgeräten. Inzwischen ist die Anwendung ebenso in der Raum- und Bauakustik sowie zur Erfassung der akustischen Umweltbelastung etabliert. Der internationale Standard [ISO 12913] erfordert normativ den Einsatz der binauralen Messtechnik. Natürlich ließ  sich dieses Kunstkopfmesssystem auch hervorragend im Studiobereich einsetzen. Anfang der 1980er Jahre führte Neumann das Nachfolgeprodukt KU 81  mit Diffusfeldentzerrung [Theile, 1094] und später den KU 100 mit weiter verbesserten technischen

4.2 Mi­kro­fone 

 197

Eigenschaften ein. Mit diesem verbesserten Kunstkopf etablierte  sich für die Verwendung von Kunstkopfmi­ kro­ fonen eine weitere Entzerrungsart: die Diffusfeld-Entzerrung (DF) neben der bislang in der Messtechnik verwendeten Freifeld-Entzerrung (FF). Wenig später kam noch eine weitere Entzerrungsart hinzu [Genuit, 1987]: die richtungsneutrale Entzerrung (ID) (Independent on Direction). Freifeld-Entzerrung bedeutet, der Kunstkopf liefert bei frontalem Schalleinfall von vorne im Freifeld in 3 m Entfernung ein frequenzunabhängiges konstantes Übertragungsmaß vergleichbar mit einem Messmi­kro­fon. Die Freifeld-Entzerrung ist damit sehr genau definiert sowie reproduzierbar und ist damit Grundlage für akustische Messvorschriften. Bei der Diffusfeld-Entzerrung trifft der Schall aus allen Richtungen für alle Frequenzen  mit gleichen Pegeln auf das Messobjekt, also ein frequenzunabhängiges kon­ stantes Übertragungsmaß, vergleichbar zu typischen Studiomi­kro­fonen. Bei der ID-Entzerrung werden nur die richtungsunabhängigen Resonanzen innerhalb der Außenohrübertragungsfunktion entzerrt, im Wesentlichen sind das die Eigenschaften des Ohrkanals und der Cavum Conchae-Höhle. Eine Gegenüberstellung der drei Entzerrungsarten zeigt Abb. 4/42.

Abb. 4/42. Betragsverlauf der Entzerrungsfilter für einen Kunstkopf, 1. Freifeld, Schalleinfall nur von vorne (FF), 2. Diffusfeld, gleichmäßige Beschallung aus allen Richtungen (DF), 3. richtungsneutral, nur Berücksichtigung der Resonanzen (ID).

Alle drei Entzerrungsarten beinhalten die Korrektur des Einflusses durch die Resonanzen von Cavum Conchae und Ohrkanal. Insbesondere die Cavum Conchae-Resonanz  mit ca. 15  dB Pegelerhöhung war bei der ersten Kunstkopfgeneration verantwortlich für die deutlich wahrnehmbaren Klangfärbungen, sie werden aber durch alle drei Entzerrungsarten eliminiert, von daher sind die verbleibenden Unterschiede von untergeordneter Bedeutung. Normalerweise werden Kunstkopfaufnahmen über Kopfhörer abgehört. Solange dann bei Aufnahme und Wiedergabe kompatible Entzerrungen eingesetzt, ist die Auswahl derselben irrelevant. Aber es gilt

198 

 4 Mi­kro­fone und Lautsprecher

auch die Kreuzkompatibilitäten [Theile, 1985] zu berücksichtigen: wie klingt eine Kunstkopfaufnahme bei Wiedergabe über Lautsprecher, wie klingen konven­tionelle Produktionen über Kopfhörer und wo ergeben sich im Vergleich zu einem Messmi­kro­fon die geringsten Abweichungen, wenn die Kunstkopfsignale nicht nur zum Abhören Verwendung finden, sondern auch zur messtechnischen Analyse wie Schalldruckpegel und psychoakustischen Größen? In der Praxis liegen selten ein reines Freifeld oder Diffusfeld vor. Von daher sind Kompromisse erforderlich. In der Messtechnik hat sich einerseits auf Grund der bestehenden Messvorschriften die Freifeldentzerrung etabliert, bei Messungen, die nicht nach Vorschriften konform ablaufen  müssen, die ID-Entzerrung. Im Studiobereich dagegen findet die Diffusfeld-Entzerrung Verwendung. Der diffusfeldentzerrte Kunstkopf als binaurales Aufnahmeverfahren und zusammen mit dem diffusfeldentzerrten Kopfhörer als authentisches Hörerlebnis einer klangeinhüllenden Wiedergabe, einem Immersive Sound, wird in Kap. 5.5.5.1 behandelt. Die Eigenschaft der gehörrichtigen Übertragung von Schallereignissen, bei der Wiedergabe originalgetreue Hörereignisse zu gewährleisten, kann auch von Nachteil  sein, wenn die akustische Ausgangssituation nicht optimal ist. Das Zusammenschneiden von Kunstkopfaufnahmen ist deutlich kritischer, da das Gehör geringe Änderungen der akustischen Umwelt wahrnimmt. Bei Musikproduktionen besteht in der Regel der Wunsch, einzelne In­­ strumente hervorzuheben. Studiomi­kro­fone können einer Kunstkopfaufnahme gehörrichtig zugemischt werden [Gierlich, 1989], wenn die Signale von einzelnen Quellen winkel- und entfernungskorrekt  mit Filterung der Außenohrübertragungsfunktion versehen werden. Inzwischen ist die virtuelle Auralisierung  sehr weit fortgeschritten [Vorländer, 2021], eine beliebige Anzahl von Quellen in Verbindung mit den klanglichen Eigenschaften von Räumen können auch ohne Kunstkopfmi­kro­fon zu einer binauralen Aufnahme kombiniert und komponiert werden. Eine besondere Form der binauralen Aufnahmesysteme sind Ohrkanalmi­kro­fone. Dabei erfolgt die Aufnahme des Schalls mit Miniatur-Mi­kro­fonen im Ohrkanal einer Person. Diese Systeme sind deutlich kostengünstiger und bieten vor allem den Vorteil, an Orten Aufnahmen durchführen zu können, an denen kein Kunstkopf platziert werden kann, z. B. auf dem Fahrersitz eines Kraftfahrzeugs im Verkehr. Auch sind solche Ohrmi­kro­fone unauffällig einsetzbar. Nachteilig sind die in der Regel schlechteren technischen Eigenschaften sowie die fehlende korrekte Entzerrung. Zusätzlich darf die Person mit Ohrkanalmi­kro­fon keine Bewegungen und eigene Geräusche ausführen. Die Wiedergabe von binauralen Signalen erfolgt idealerweise über Kopfhörer, um die eindeutige Zuordnung von linken und rechten Mi­kro­fonsignalen zum linken und rechten Ohr der abhörenden Person zu ermöglichen. Grundsätzlich gibt es einige Parameter, die die perfekte Wiedergabe einschränken: –– Die individuellen Geometrien des Außenohrs sind unterschiedlich und daher mehr oder weniger abweichend zu der Richtcharakteristik des Kunstkopfs. –– Die Kopfhörerübertragungseigenschaften an den Ohren der abhörenden Personen sind ebenfalls individuell unterschiedlich. –– Die technischen Übertragungseigenschaften von unterschiedlichen Kopfhörern variieren  sehr  stark, hier lässt  sich nur  mit einer vorgeschalteten Entzerrungseinheit eine vergleich­bare, standardisierte und pegelrichtige Wiedergabe gewährleisten, die optional auch eine Individualanpassung zulässt.

4.2 Mi­kro­fone 

 199

–– Die fehlende Kopfdrehbewegungen erschweren insbesondere die Vorne-Lokalisation, bei der Wiedergabe erzeugen Kopfdrehungen eine Irritation, da sich das gesamte akustische Umfeld sich mitbewegt. Die Wiedergabe über Lautsprecher ist auf Grund der Entzerrung des Kunstkopf-Mi­kro­fons ohne klang­liche Einbußen  möglich, da jedoch beide Ohren von beiden Lautsprechern beschallt werden, ist die räumliche Klangabbildung nicht vergleichbar zur Kopfhörerwiedergabe. Mit Hilfe von  speziellen Kom­pensationsverfahren, die das Übersprechen verringern, lässt  sich eine Verbesserung des räumlichen Abbildes erzielen, allerdings mit der Einschränkung auf eine fixierte Abhörposition. Eine akzeptable Lautsprecherwiedergabe von binauralen Signalen wird auch mit einer vier Lautsprecherwiedergabe erzielt, wobei vor wie auch hinter den abhörenden Personen jeweils zwei stereofone Lautsprecher­paare installiert werden. Eine zusammenfassende Übersicht zur Kunstkopftechnik wurde in einer Mitteilung des Normenausschus­ses „Psychoakustische Messtechnik“ veröffentlicht [Fedke, 2007].

4.2.5 Mi­kro­fonständer Für die Aufstellung der Mi­kro­fone  stehen für jede denkbare Aufnahmesituation geeignete Ständer zur Verfügung (Abb. 4/43); bei ihrem Einsatz ist darauf zu achten, dass Trittschall nicht übertragen wird, d. h., der senkrechte Trägerstab soll niemals auf dem Boden aufstehen. Bei starkem Trittschall empfiehlt sich die Verwendung von Mi­kro­fonspinnen oder mit Gummibändern gefederte Mi­kro­fonhalter.

Abb. 4/43. Verschiedene Mi­kro­fonständer: 1. Mi­kro­fonwinde, 2. Mi­kro­fonboom, 3. Stativ, 4. Tischstativ, 5. Mi­kro­fonangel.

200 

 4 Mi­kro­fone und Lautsprecher

4 ­­­ .3 Einrichtungen für drahtlose Mi­kro­fone Oftmals sind Kabelverbindungen zum Mi­kro­fon eine unerwünschte Einschränkung der Aufnahmesituation, besonders bei bewegten Schallquellen wie agierenden Sängern, Schauspielern oder Moderatoren. Drahtlose Mi­kro­fone oder Funkmi­kro­fone gewährleisten die Mobilität der Agierenden auf und hinter der Bühne, im Studio oder bei Außenaufnahmen. Zur Sprachübertragung werden kabellose Mi­kro­fonverbindungen in Kongress- und Seminarräumen benutzt. Die Empfänger für die drahtlosen Mi­kro­fonsignale sind mobil, sie können z. B. in Videokameras oder, am Körper getragen, für  sog. In Ear-Monitoring eingesetzt werden. Drahtlose Mi­kro­fone werden auch für die Abnahme von Musikinstrumenten eingesetzt. Sie dürfen Kabelverbindungen qualitativ nicht oder nur unwesentlich unterlegen sein; gefordert wird deshalb bei  sehr hoher Übertragungssicherheit in Echtzeit ein Frequenzumfang der Übertragung bis 20 kHz Audiobandbreite und ein Dynamikumfang von 100 dB. Für die Erfüllung dieser Anforderungen  sind die Rahmenbedingungen entscheidend. Das Funkfeld wird von einer komplexen Vielfalt verschiedenster Funkdienste parallel genutzt; bei großen Bühnenereignissen können Hunderte von Funkübertragungsfrequenzen belegt sein. Neben den regulär genutzten Frequenzen muss die große Vielzahl ungewollter Störstrahlung beachtet werden; die Hochfrequenzstörleistung von Lichtsteuereffekten z. B. kann die Strahlungsleistung der drahtlosen Mi­kro­fone übertreffen. Die verwendeten Übertragungsfrequenzen müssen dann auf weniger gestörte Bereiche ausweichen. Es hat sich in der Praxis bewährt, die Systeme grundsätzlich redundant zu planen, um bei unerwartet auftretenden Herausforderungen über Reserven zu verfügen, das betrifft vor allem die Anzahl nutzbarer Kanäle und die Feldstärken an den Empfangsantennen. Ein besonderes Merkmal der Funkmi­kro­fontechnik sind die ständigen Veränderungen der Übertragungsbedingungen, wenn bei der Aufnahme oder Übertragung die Mi­kro­fone nicht ortsfest  sind. Feldstärkeschwankungen und gegenseitige Beeinflussung der Sender verlangen eine hoher Betriebssicherheit entsprechende Technik und von den Beteiligten Erfahrung. Im Folgenden wird der Weg des Audiosignals durch die Übertragungskette vom Sender über die Antenne, die Wellenausbreitung und den Empfänger dargestellt, es werden praktische Hinweise zur Vermeidung häufiger Fehler gegeben [Arasin, 2012]. Neben Funkmi­kro­fonsystemen in analoger Technik, deren Übertragung im Prinzip wie der analoge UKW-Funk arbeitet und im Folgenden beschrieben wird (Kap.  4.3.1 ff.), wurde eine digitale Übertragungstechnik entwickelt, die die analoge Technik ersetzen und große Vorteile in der Handhabung und Flexibilität bietet (Kap. 4.3.4). Die digitalen Systeme arbeiten mit unkomprimierter digitaler Signalübertragung und bieten störungsfreien Klang sowie große Dynamik. Dank besonders steilflankiger Filter lassen sich dabei die einzelnen Funkfrequenzen im verfügbaren Frequenzband sehr viel enger anordnen als bisher, ohne die Gefahr von Intermodulation.

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 201

4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 4.3.1.1 Sender Für die drahtlose Übertragung von Mi­kro­fonsignalen gibt es drei Varianten batteriegetriebener Sender: –– Handsender, die im Mi­kro­fonschaft untergebracht sind, –– Taschensender, die  meist  mit einem Clip am Gürtel befestigt werden (Bodypack, Beltpack) und über Kabel mit 3,5 mm-Klinken-, Mikrodot-, Mini-XLR- oder LEMO-Stecker mit dem Mi­kro­fon verbunden sind, –– Aufstecksender (Plug On)  mit XLR-Buchse und 48 V-Phantomspeisung, die in Verbindung mit jedem analogen Mi­kro­fon betrieben werden können. Die Betriebssicherheit und Studioqualität erfordern –– klangliche Neutralität, –– störsichere Hochfrequenzeigenschaften bei Einhaltung der Zulassungsvorschriften, –– mechanische Stabilität der Sender und der Steckverbindungen, –– ein Stromversorgungskonzept, das die Geräteleistung konstant hält, –– rechnergestützte Kontrolle aller Parameter.

Abb. 4/44. Blockschaltbild eines Taschensenders mit prozessorgesteuerter PLL (Phase-Locked Loop, Taktsynchronisation), Gleichspannungswandler und Infrarotdatenschnittstelle.

Das Blockschaltbild eines Senders zeigt Abb. 4/44. Das Mi­kro­fonsignal wird im Vorverstärker des Senders verstärkt und angepasst sowie zwei Maßnahmen unterzogen, die das Rauschen vermindernden: einer Dynamikkompression durch einen Kompander (Abb. 4/45) und einer Preemphasis. Die Preemphasis hebt wie beim UKW-Rundfunk den Frequenzbereich oberhalb

202 

 4 Mi­kro­fone und Lautsprecher

von ca. 2  kHz um 6  dB/Oktave an. Damit wird der bei ansteigender Frequenz  sich verringernde Rauschabstand kompensiert, weil Musik und Sprache mit zunehmender Frequenz im Pegel abnehmen.

Abb. 4/45. Kompandersystem des Senders und Empfängers.

Abb. 4/46. Preemphasis des Signalfrequenzgangs im Sender und Deemphasis im Empfänger um 6 dB/Oktave zur Rauschverminderung bei hohen Frequenzen.

Die international ähnlichen Einschränkungen der belegten HF-Bandbreite durch die Telekommunikationsbehörden erfordern für die Übertragung zusätzlich eine Kompression der Dynamik. Meistens wird die Eingangsdynamik des Audiosignals um den Faktor 2 komprimiert; ein Signal mit einem Pegel von z. B. 40 dB unter Vollaussteuerung komprimiert der Kompressor also auf 20 dB unter Vollaussteuerung (Abb. 4/46). Im Empfänger wird die kom-

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 203

primierte Dynamik dann wieder um den Faktor 2 expandiert, so dass am Empfängerausgang der ursprüngliche Pegel zur Verfügung steht. Ohne dieses Kompandersystem aus Kompressor und Expander kann Studioqualität im Rahmen der Beschränkungen der Zulassungsbehörden nicht erreicht werden. Das durch die Preemphasis linear verzerrte und komprimierte Signal wird in Frequenzmodulation (FM) einer Hochfrequenzträgerschwingung aufgeprägt und von der Senderantenne allseitig ins Funkfeld abgestrahlt. Der Rauschabstand des Übertragungssystems kann  statisch bis 120  dB betragen. In der Praxis  muss eine Aussteuerungsreserve vorgesehen werden, die Werte verbleiben deshalb meistens im Bereich von 70 bis 90 dB. Akustische Nebengeräusche auf der Bühne oder im Studio, z. B. durch Lüfter, Nebelmaschinen oder das Publikum, bestimmen meist den Geräuschpegelabstand in größerem Maße. Funkmi­kro­fone werden überwiegend im UHF-Bereich von 470 bis 2.480 MHz betrieben. Eine eigene, freie Frequenz ist grundlegende Voraussetzung für ungestörten Betrieb. Zwischen zwei Übertragungsfrequenzen ist ein sog. Selektionsabstand von ca. 400 kHz einzuhalten. Der Sender arbeitet wie der UKW-Rundfunk mit Frequenzmodulation (FM). Die Trägerfrequenz von z. B. 700 MHz wird durch ein Audiosignal ständig nach höheren und niedrigeren Frequenzen um die Mittenfrequenz verschoben. Der Änderungsbetrag, der sog. Hub der Funkfrequenz, übermittelt den Signalpegel, also die Lautstärke. Die Geschwindigkeit der Frequenzänderungen repräsentiert den Schwingungsverlauf des Audiosignals (Abb. 4/47).

Abb. 4/47. Frequenzverhältnisse bei der HF-Übertragung.

Ohne Audiosignal bleibt der Hochfrequenzträger konstant auf  seiner Frequenz, es liegt am Empfängerausgang kein Signal an. Die belegte Hochfrequenzbandbreite, der Hub,

204 

 4 Mi­kro­fone und Lautsprecher

nimmt  mit der Lautstärke zu. Die Regulierungsbehörde, in Deutschland die Bundesnetzagentur (BNetzA), legt die maximal zulässige belegte HF-Bandbreite fest, nicht den maximalen Hub. Bei voller Aussteuerung darf maximal nur ± 50 kHz um die Mittenfrequenz moduliert werden. Die BNetzA zertifiziert alle für den Betrieb zugelassenen Sender. Der Bedarf an HF-Bandbreite ist näherungsweise der maximale Hub plus die doppelte Audiobandbreite. Ein Funkmi­kro­fon belegt mit z. B. ± 50 kHz Frequenzhub und 2 mal 20 kHz Audiobandbreite, also 50 + 50 + 2 · 20 = 140 kHz HF-Bandbreite. Ein Funkmi­kro­fon darf nach in Europa harmonisierten Regeln  maximal 200  kHz HFBandbreite belegen. An den Grenzen des Bands muss das Funksignal bereits um 60 dB abgefallen  sein, also auf 1/1.000 seiner  maximalen Leistung. Die diesbezüglichen Vorschriften werden herausgegeben vom Europäischen Institut für Telekommunikationsnormen ETSI in Sophia Antipolis in Frankreich (European Telecommunications Standards Institute) und in Deutschland von der Bundesnetzagentur (BNetzA) überwacht. Die sog. ETSI-Maske definiert das Fenster, in dessen Rahmen das Sendersignal im HF-Spektrum auch bei Vollaussteuerung bleiben muss (Abb. 4/48). Übersteuerungen müssen unterdrückt werden durch einen „harten“ Limiter (Peak Limiter) ab 48 kHz Hub. Der Limiter ist Pflicht für jeden Sender mit dem CE-Zeichen und verhindert wirksam, dass er übermoduliert und damit zu viel Bandbreite im HF-Spektrum belegt.

Abb. 4/48. ETSI-Maske EN 300 zur Definition des HF-Übertragungskanals, fc = Trägerfrequenz (transmitter carrier frequency) = 800 MHz, B = belegte Bandbreite = 200 kHz.

Die einzustellende Vorverstärkung im Sender soll einerseits eine Übersteuerung, andererseits eine Untersteuerung, d. h., eine verrauschte Übertragung, verhindern. Der mittlere Pegel ist deshalb auf ca. 20 dB unter Vollaussteuerung einzustellen. Signale mit hohem Obertonanteil wie Applaus, Becken, Schellenring, Schlüsselbundklirren u. ä. sollten noch vorsichtiger ver-

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 205

stärkt werden, weil die Preemphasis die hohen Frequenzen überproportional anhebt und abgeschnittene Pegelspitzen durch den harten Limitereinsatz zu hörbaren Verzerrungen führen. Funkmi­kro­fonsender arbeiten mit HF-Leistungen zwischen 10 und 100 mW. Die abgegebene Leistung wird mit EIRP (Effective Isotropic Radiated Power) bezeichnet, das ist die Leistung, die von einer hypothetischen isotropen Antenne, einer allseitig strahlenden Antenne, ausgestrahlt werden müsste, um dasselbe Signalniveau in Richtung der maximalen Strahlung der jeweiligen Antenne zu erhalten. Die tatsächlich ins Funkfeld abgegebene Leistung liegt jedoch darunter, weil durch den körpernahen Einsatz die Antenne undefiniert verstimmt wird und Strahlungsenergie im Körper in Wärme umgewandelt wird. Dabei können Verluste von 3 bis 20 dB entstehen, also von 50 bis 99 % der HF-Leistung. Hohe Dämpfungen haben  selbstverständlich großen Einfluss auf die Reichweite und die Übertragungssicherheit. Ein größerer Abstand zum Körper reduziert die Antennenverstimmung und begünstigt die Abstrahlung erheblich. Schädigungen am menschlichen Körper durch die HF-Einstrahlung sind nicht beobachtet worden; die absorbierten Leistungen liegen deutlich unter den empfohlenen Grenzwerten des Bundesamtes für Strahlenschutz. Mehrere Sender, die eng benachbart zum Einsatz kommen, beeinflussen sich gegenseitig, indem die HF-Felder über die Sendeantennen auf die Endstufen einwirken und dabei neue, unerwünschte Sendefrequenzen erzeugen. Dieser physikalisch bedingte Vorgang wird Intermodulation, abgekürzt IM, genannt und lässt sich auf Grund der dynamischen Feldstärkesituation bei bewegten Verhältnissen z. B. auf der Bühne nicht immer vermeiden. Auch Sender mit einem hohen Intermodulationsabstand, abgekürzt IMA, können betroffen sein. Die möglicherweise auftretenden Störfrequenzen werden per Software vorausberechnet. Besonders kritisch sind die Intermodulationsprodukte dritter Ordnung, weil hier große Störpegel mit doppeltem Hub und Frequenzverdopplung auftreten. Vermeidet  man in  mehrkanaligen Funkmi­kro­fonsystemen diese Frequenzen mit ausreichendem Sicherheitsabstand, ist die Anlage intermodulationsfrei. Intermodulationsprodukte höherer Ordnung sind im Pegel schwächer und spielen meist eine untergeordnete Rolle. Alle Hersteller haben  sog. Frequenzbänke in den Empfängern gespeichert, deren Konfiguration sicheren, intermodulationsfreien Betrieb sicherstellt. Wesentliche Voraussetzung für eine sichere Übertragung ist eine Sichtverbindung zwischen Sende- und Empfangsantenne. Unter guten Bedingungen ist ein Betrieb bis mehrere km Entfernung  möglich. Die Sendeantenne hat einen Wirkungsgrad von bis zu 70  %. Bei Hand- und Taschensendern reduziert die Nähe zum Körper grundsätzlich die abgestrahlte HF-Leistung. Die Antenne wird verstimmt, ihr Wirkungsgrad lässt nach, und die abgestrahlte HF-Leistung wird oft zum großen Teil im Körper absorbiert. Zusätzlich werden die Funkwellen auf ihrem Weg zur Empfangsantenne situationsabhängig durch den Körper abgeschattet. Die Sendeleistung kann so u. U. bis 20 dB zurückgehen. Der tatsächlich erreichte Wert wird mit ERP (Effective Radiated Power) bezeichnet. und kann im ungünstigsten Fall zu sehr geringen Reichweiten von im Einzelfall nur 10 m führen. Zusammenfassend gelten die folgenden Faustregeln für die Praxis, damit ist auch ein gleichzeitiger Betrieb mit 100 oder mehr Funkmi­kro­fonen zuverlässig durchführbar: –– Sendeantennen nicht berühren, –– einen Mindestabstand von ca. 5 mm zwischen Haut und Sendeantenne vorsehen, –– ein Mindestabstand von ca. 4 m zu den Empfangsantennen einhalten, damit einzelne Trägerfrequenzen nicht zu stark einfallen.

206 

 4 Mi­kro­fone und Lautsprecher

4.3.1.2 Frequenzzuteilung Die Bundesnetzagentur (BNetzA) als staatliche Behörde teilt den verschiedenen Nutzergruppen von Funkdiensten bestimmte Frequenzbänder zu. Sie definiert die technischen Parameter von Sendern in Verwaltungsvorschriften. Dazu  müssen  sowohl eine große Zahl von verschiedenen Nutzergruppen und Diensten auf nationaler Ebene koordiniert als auch internationale Vereinbarungen berücksichtigt werden. Die Bereitstellung von funkübermittelten Internetdiensten in ländlichen Gebieten erforderte eine Neuzuteilung von Funkfrequenzen auch für Funkmi­kro­fone und In-Ear-Monitoring (IEM). Die früher von Funkmi­kro­fonen hauptsächlich genutzten Frequenzbänder zwischen 790 bis 814 MHz und 838 bis 862 MHz sind seit dem 3. 3. 2010 für die Nutzung des drahtlosen breitbandigen Internets freigegeben, für Funkmi­kro­fone stehen sie also nicht mehr zur Verfügung. Für Funkmi­kro­fone werden deshalb andere Frequenzbänder im UHF-Bereich bereitgestellt. Für den professionellen Einsatz bei Funkmi­kro­fonen im gewerblichen und fachmännisch ausgebildeten Einsatz  sind verschiedene Frequenzbänder reserviert. Sie werden nur auf Antrag und gegen Gebühr bei gegebener Möglichkeit von der BNetzA befristet zugeteilt. Der Einsatz umfasst professionelle Veranstaltungen wie Theater- und Opernaufführungen, Konzerte und  sonstige Einsätze in der Veranstaltungstechnik, den öffentlich-rechtlichen Rundfunk, private Rundfunkprogrammanbieter und Programmproduzenten. Generell muss je nach Ausbaugrad der Nutzung durch das drahtlose Internet  mit Störungen gerechnet werden. In den Bereichen 470 – 608 MHz und 614 – 694 MHz ist eine Allgemeinzuteilung von Funkfrequenzen anmeldefrei. Da die Funkfelder der Internetdienste diejenigen der Funkmi­ kro­fone an Stärke übertreffen können, ist ein Parallelbetrieb nicht sicher bzw. nur im Einzelfall möglich. Funkmi­kro­fone müssen ggf. auf ungestörte Frequenzen ausweichen. Drahtlose

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 207

Mi­kro­fone genießen keinerlei Schutz vor Beeinflussungen gegenüber gleichberechtigten Anwendern im gleichen Einsatzgebiet. Die verschiedenen Betreiber müssen den Einsatz der Mi­kro­fone untereinander selbst koordinieren. Zur Wahl des Frequenzbereichs für die verschiedenen Geräteklassen  stehen im Internet aktuelle und umfassende Informationen bereit, die in einem dynamischen Geschehen ständig aktuell gehalten werden, zuerst zu nennen  sind die Zuteilungen der Bundesnetzagentur, aber auch die Informationen der Firmen, die entsprechende Geräte vertreiben. Abb. 4/49 und Tab. 4/8 geben einen Überblick über die aktuelle Nutzung (2022) der Frequenzbänder. Tab. 4/8. Frequenzbereiche für Funkmi­kro­fone über 10 mW. Frequenzbereich

EIRP

Allgemeinzuteilung Nr.

befristet bis

174 - 230 MHz 470 - 608 MHz 614 - 694 MHz 823 - 826 MHz

50 mW 50 mW

59/2015 34/2020 anmeldefrei 2/2015

31.12.2025 31.12.2030 31.12.2025

3/2015

31.12.2025

826 – 832 MHz 1785 - 1805 MHz

Handgerät 82 mW Handgerät am Körper getragen 100 mW 100 mW 82 mW

Die Verwendung der Frequenzen in allen Bereichen der Medien, Prozesssteuerungen, der Kommunikation im Allgemeinen ist dynamischen Interessen und Ansprüchen an immer mehr Frequenzbereichen unterworfen, primär durch die Mobilfunkindustrie. Alle Anwender von

Abb. 4/49. Frequenzbereiche für drahtlose Übertragung, Funkmi­kro­fone sind mit dem Symbol „Mi­kro­fon“ gekennzeichnet, VvnömL: Verwaltungsvorschriften für Frequenzzuteilungen im nichtöffentlichen mobilen Landfunk­­­­, Stand 6/2022.

208 

 4 Mi­kro­fone und Lautsprecher

drahtlosen Mi­kro­fonen  sind auf freie Frequenzen angewiesen und haben deshalb Organisationen gegründet, um ihre Bedürfnisse den politischen Entscheidungsträgern deutlich zu  machen; wichtige Informationen werden von der „Association of Professional Wireless Production Technologies e. V.“ (APWPT) bereitgestellt, hier sind auch die zugelassenen Frequenzen für die wichtigsten Länder weltweit aufgeführt.

4.3.1.3 Stromversorgung In den Sendern werden vielfach zwei Alkaline-Mignon-Batterien in Reihenschaltung verwendet. In geladenem Zustand liefern sie zusammen eine Spannung von 3 bis 3,5 V. Die erforderliche Betriebsspannung von 6 V wird durch einen Spannungswandler erzeugt, der sie unabhängig vom Entladezustand der Batterien stabil hält. So bleiben die wichtigen technischen Daten wie Aussteuerungsbereich, Geräuschspannungsabstand und abgestrahlte Leistung über die gesamte Betriebszeit der Batterien konstant. Der Spannungswandler nutzt den Energievorrat der Batterien optimal aus. Er schaltet sich ab, wenn die Spannung unter ca. 2,2 V, also unter 1,1 V Spannung pro Batterie, der sog. Zellenspannung, abfällt. Typische Betriebszeiten mit einem Batteriesatz sind 6 bis 12 Stunden. Überzogene Stromsparkonzepte, d. h., Sender mit sehr langen Betriebszeiten, bergen die Gefahr von Instabilitäten in kritischen HFSituationen, wenn z. B. mehrere Sender einander sehr nahekommen. Eine Alternative ist der Einsatz von Akkus, im Routineeinsatz sind sie betriebssicherer als Batterien. Ein neuer Akku braucht einige Lade-Entlade-Zyklen, bis er  seine volle Leistung erbringt. Danach hält er über ca. 500 Zyklen konstant seine Leistung, bei sorgfältiger Behandlung kann  man  mit Li-Ionen-Akkus über 800  Zyklen erreichen. Im Laufe weiterer Perioden von Ladung und Entladung verliert ein Akkupack dann allmählich an Kapazität, ab 500 Zyklen rechnet  man noch  mit einem verbliebenen Energieinhalt von etwa 80  %. Die Langlebigkeit der Akkus wird durch  sorgfältigen Umgang erhöht. Im Alltagsbetrieb hat sich bewährt, dass ein Team möglichst immer mit demselben Satz von Funkmi­kro­fonen bzw. Akkus arbeitet; der Ladezustand ist hierbei an den Rhythmus der Einsätze gekoppelt, eine schädliche Überladung findet nur selten statt. Wird ein Drahtlos-Set dagegen von häufig wechselnden Teams benutzt, führt das erfahrungsgemäß zu einem schnellen Verschleiß der Akkus durch häufiges Überladen aus Unsicherheit über den Ladezustand. Digital arbeitende Sender verbrauchen deutlich mehr Leistung und sollten mit leistungsstarken Akkus betrieben werden. Optimal gepflegt werden Akkus durch Schnell-Ladegeräte, die  mit Pulsen  schonend laden und per Zustandserkennung rechtzeitig die Pulsabstände auf Erhaltungsladung reduzieren. Aber auch mit moderner Ladetechnik kann man überladen, wenn man volle Akkus immer wieder aus Unsicherheit über den Ladezustand nachlädt. Dabei entstehen Kerntemperaturen über 45 °C , die den Akku deutlich schneller altern lassen. 4.3.1.4 Antennen und Wellenausbreitung Antennen  sind Anpassglieder zwischen dem Hochfrequenzkabel und dem umgebenden Raum. Es sind zumeist Dipole, elektrisch leitfähige Gebilde in räumlicher Ausdehnung mit zwei freien Enden in den unterschiedlichsten Ausführungsformen. Der Abstand der freien

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 209

Enden oder Pole  steht  stets in Beziehung zur Wellenlänge der zu übertragenden Hochfrequenz, z. B. 1/4 der Wellenlänge, mit λ/4-Antenne bezeichnet. Aus der Lichtgeschwindigkeit c = 299.792.458 m/s und der Frequenz f von z. B. 800 MHz = 800.000.000 Hz errechnet sich dieser Abstand gerundet: λ = c/f = 300.000.000//800.000.000 = 3/8 m = 37,5 cm. Eine λ/4Antenne hat also eine Länge von knapp 10 cm. Für eine genaue Betrachtung müssten weitere Parameter beachtet werden. Die Antennen von Taschensendern haben nur ein Ende, sie scheinen nur einen Pol zu haben. Der zweite Pol wird hier durch das Metallgehäuse des Senders dargestellt, was auch als Gegengewicht bezeichnet wird. Funkmi­kro­fone haben stets abgestimmte Sendeantennen für einen bestimmten Frequenzbereich, angepasst für ein Fenster von ca. ± 2 % der Mittenfrequenz. Eine Taschensenderantenne für z. B. 800 MHz erbringt demnach in einer Bandbreite von 40 MHz, also von 780 bis 820 MHz ihre volle Leistung. Größere Schaltbandbreiten, damit  sind die durchstimmbaren Frequenzbereiche gemeint, von 90 MHz und mehr erfordern spezielle Antennenformen, z. B. mit einigen cm Durchmesser oder Wechselkonzepte. An den Bereichsgrenzen fällt die Leistung mit zunehmender Entfernung von der Mittenfrequenz allmählich ab. Falsch abgestimmte Sendeantennen können die zur Verfügung  stehende Leistung nicht voll in den Raum abstrahlen. Die HF wird hier ohne Vorzugsrichtung abgestrahlt und breitet  sich  mit ca. 300  m/μs aus. Allgegenwärtig  sind Dämpfungen und Reflektionen der ausgestrahlten Signale, sie sollten das Funkfeld nicht um mehr als ca. 80 dB dämpfen. Der Sender erzeugt ca. 1  V Spannung, davon  müssen  mindestens noch etwa 100  μV am Empfängereingang ankommen, um im Betrieb noch Reserven bei weiterer Signalschwächung zu haben. Die Feldstärkeanzeige am Empfänger endet oft bei 100 μV bzw. 40 dBμV. Der Vollausschlag sollte im Normalfall überwiegen. Die unmittelbare Umgebung der Sendeantenne hat umfassenden Einfluss bei der körpernahen Abstrahlung und den einwirkenden Verlusten durch Verstimmung, Absorption und Abschattung. Das Auffinden guter Positionen für Taschensender am Körper und Empfängerantennen – stets möglichst mit Sichtverbindung − ist wichtig für die Betriebssicherheit. Ausreichende HF-Pegel bei den Proben können während der Veranstaltung durch zusätzliche Absorptionseffekte durch das Publikums zusätzlich abnehmen. Reichweitentests unter betrieblich  schlechten, aber realistischen Bedingungen, z.  B.  mit von der Hand abgedeckten Sendeantennen, sind im Probebetrieb unerlässlich. Bei großen Veranstaltungen mit 30 Funkmi­kro­fonen und mehr werden die Auftrittsbereiche mit mehreren voll eingeschalteten Sendern abgeschritten, um drop outs zu erkennen und auszuschließen. Den Empfangsantennen kommt eine ebenso große Bedeutung zu. Aufsteckantennen, die direkt über BNC-Stecker an den Eingang des Empfängers angeschlossen werden, sind im Allgemeinen abgesetzten Antennen auf höher gelegenen Standorten unterlegen, weil die Sichtverbindung zu den Sendern fehlt und möglicherweise ein höheres Störstrahlungspotential vorliegt. Richtantennen haben mit ihrer Vorzugsrichtung meist einen Gewinn von ca. 10 dB gegenüber Rundstrahlern und ca. 10 dB Dämpfung für rückwärtig einfallende Signale. Diese Eigenschaft kann zum Abschwächen von Störquellen bei entsprechender Ausrichtung von Vorteil sein. Besonders hohe Sicherheit vermitteln sog. zirkular polarisierte Richtantennen für die Aussendung der Signale beim In-Ear-Monitoring. Antennenverstärker oder Booster kompensieren die Dämpfung von langen HF-Leitungen und von Verteilernetzwerken.

210 

 4 Mi­kro­fone und Lautsprecher

Die Wellenausbreitung im Frequenzbereich von 470 bis 1.805 MHz ist für körpernahe Sender die beste Wahl; die Funkfelddämpfung nimmt mit steigender Frequenz zu, die Reflektionsfreudigkeit an metallischen Strukturen ebenso. Bei Außenübertragungen sind die unteren Frequenzen wegen oft fehlender reflektierender Flächen um 500 MHz vorteilhaft, in Hallen haben die höheren Frequenzbereiche trotz höherer Funkfelddämpfung wegen  stärkerer Reflektionen kaum Nachteile. Abschattungseffekte und die Absorption von Funkwellen im Körper  steigen ebenso mit zunehmender Frequenz. Diese machen sich ab ca. 1.000 MHz deutlicher bemerkbar. 4.3.1.5 Empfänger Die HF-Eingangssignale am Empfänger sind großen Schwankungen unterworfen, wenn der Sender bewegt wird. 5 μV ist der kleinste Wert, der einen noch brauchbaren Störpegelabstand liefert, bei geringerer Spannung schaltet meist eine Rauschsperre – Squelch genannt – den NF-Ausgang ab (Mute). Nach oben findet man Werte bis 0,15 V entsprechend 150.000 μV, die bei zu geringem räumlichem Abstand zwischen Sender- und Empfangsantenne auftreten können, wobei das Risiko für Intermodulationsstörungen im Vielkanalbetrieb erhöht wird, besonders wenn gleichzeitig andere Empfänger des Systems  mit geringen Pegeln arbeiten  müssen. Die Übertragungssicherheit wächst, wenn extreme Werte vermieden werden. Die Antennenstandorte sind stets so zu wählen, dass kein Akteur sich ihnen weniger als ca. 4 m nähern kann. Der menschliche Körper verursacht ca. 20 dB Durchdringungsdämpfung, deshalb  sollten Antennen  möglichst ausreichend hoch angebracht werden, um eine  sog. „Radiosicht“ zu ermöglichen. Im Mittel soll der Bereich von ca. 100 bis 2.000 μV Eingangsspannung nicht verlassen werden. Bei Vielkanalbetrieb  sind große Unterschiede zwischen den empfangenen Pegeln die Hauptursache für Intermodulationsstörungen. Den täglichen Routineanforderungen auf der Bühne im Studio oder in der Außenübertragung werden Geräte mit hohem Intermodulationsabstand am besten gerecht. Werte ab 60 dB sind im professionellen Einsatz akzeptabel, hochwertige Empfänger erreichen ca. 86 dB. Der elektromagnetischen Verträglichkeit (EMV) kommt eine ständig wachsende Bedeutung zu. Auf der Bühne, im Studio oder an beliebigen Orten der Außenübertragung trifft der Anwender auf eine hohe Zahl digital arbeitender Hochfrequenzquellen  mit  starken Störsignalen, die  sich besonders in den Empfängern der Funkmi­kro­fone bemerkbar  machen können. DVB-T, DVB-H, Fernsehsignalgemische und Lichtwände, die aus Millionen getakteter LEDs mit breitbandigen Störspektren bestehen, erfordern sorgfältige Vorbereitung auf den Einsatz. Optimal sind fachkundige Messungen der HF-Situation während der Planung. Intermodulationsstörungen Intermodulationsstörungen treten auf, wenn gleichzeitig  mehrere Sender-Empfänger-Systeme betrieben werden, auch wenn diese im Einzelbetrieb störungsfrei arbeiten. Es können Zwitscher- und Pfeifgeräusche, auch Aussetzer entstehen, die unerklärlich erscheinen. Die Störungen entstehen dadurch, dass die Signale von Sender  I auch von Sender II empfangen und gemischt werden. Da die Signalverstärker nicht ideal linear arbeiten und die Filter nicht unendlich  steile Flanken haben, kommt es zu Mischprodukten aus den Frequenzen der beteiligten Systeme; es entstehen sog. Intermodulationsverzerrungen (siehe Kap. 9.2.2).

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 211

Dabei entstehen bei zwei Systemen mit den Frequenzen f1 und f2 neue Komponenten mit den Frequenzen m · f1 ± n · f2 mit m und n = 1, 2, 3… Während f1 ± f2 z. B. mit 501 MHz ± 500 MHz = 1.001  MHz bzw. 1  MHz ergibt und damit Signale  mit Frequenzen, die weitab liegen und nicht stören, ergeben z. B. die Signale mit 2 · 500 MHz - 1 · 501 MHz = 499 MHz ein neues Signal, das dicht bei den Signalen f1 und f2 liegt und damit Störungen, die sog. Intermodulationsstörungen 3. Ordnung, entstehen lässt. Eine zusätzliche Frequenz von 501 MHz entsteht aus 2  ·  501  MHz  –  500  MHz = 502  MHz. Kommen weitere Systeme hinzu, entstehen immer mehr neue Frequenzen und damit Störungen. Aus diesem Grund ist es ratsam, bei Mehrkanal-Setups die von den Herstellern vorprogrammierten Frequenz-Presets zu benutzen. Diese sind so berechnet. dass intermodulationsfreie Kombinationen zur Verfügung stehen. Müssen aus irgendeinem Grund die Frequenzen doch manuell gesetzt werden, hilft es, zunächst an den Rändern der zur Verfügung stehenden Frequenzbänder zu beginnen und  sich nach innen vorzuarbeiten. Diese Maßnahme lässt die Intermodulationen zunächst in der Mitte des Bandes auftauchen. Des Weiteren sollte man immer wiederkehrende, gleiche Frequenzabstände, wie beispielsweise 600, 601, 602, 603 MHz, vermeiden. Sicherheit bietet aber nur eine fachgerechte Berechnung oder die Nutzung der voreingestellten Presets. Hersteller von Funkmi­kro­fonen  stellen die dafür notwendige Software als kostenlosen Kundensupport im Internet zur Verfügung. 4.3.1.6 Diversity-Empfang Elektromagnetische Wellen erreichen die Empfangsantennen vielfach auf unterschiedlich langen Wegen mit allen möglichen Phasendifferenzen, denn außer dem direkten Weg erreichen  sie die Empfangsantenne auch auf Umwegen über Reflexionen an  metallischen Oberflächen. Die sich so überlagernden Reflexionen lassen an der Empfangsantenne durch gegenphasig eintreffende Signale auch Auslöschungen entstehen. Das häufig verwendete True Diversity-Verfahren kann diese Störungen beheben. Dabei werden zwei gleich aufgebaute Empfänger mit jeweils eigenen Antennen in räumlichem Abstand ständig hinsichtlich der HF-Eingangsspannung verglichen. Ein schneller Schalter wechselt bis ca. 1.000-mal pro Sekunde unhörbar zum jeweils stärker einfallenden Signal (Abb. 4/50). Aus Kostengründen eingesetzte Diversity-Verfahren mit nur einem Empfänger und zwei Antennen mit logischem

Abb. 4/50. True-Diversity-Empfang.

212 

 4 Mi­kro­fone und Lautsprecher

Umschaltverfahren sind dem True-Diversity in der Übertragungssicherheit unterlegen. Der Abstand zwischen den Antennen für True-Diversity beträgt für den besten Nutzen minimal 1/4 der Wellenlänge. Bei weitläufigen Aktionsflächen  sind größere Abstände nützlich, um Abschattungsrisiken zu verringern. Freie Frequenzen findet der Betreiber vor Ort am einfachsten durch die Abtastfunktion (Scan Mode) der Empfänger. Geeignete Frequenzkonfigurationen für den Mehrkanaleinsatz sind in vielen Geräten gespeichert. Alle Parameter von Multikanalsystemen werden zur besseren Übersichtlichkeit auf einem Rechnerbildschirm zusammengefasst und ggf. ferngesteuert. Mit der Einbindung in Rechnernetzwerke können die Anzeigeparameter wie NfAussteuerung, HF-Pegel, Senderbatteriezustand und Diversity-Umschaltung, aufgezeichnet und gleichzeitig an vielen Orten überprüft werden (Inspizientenpult, Backstage, Tonregie, Tonassistenz etc.), was die Betriebssicherheit erheblich verbessert und Optimierungen z. B. der Antennenstandorte erleichtert.

4.3.2 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung Der Übergang von der Analog- zur Digitaltechnik in der Tontechnik vollzieht sich seit vielen Jahren  schrittweise auch im Bereich drahtloser Mi­ kro­ fone. Deutliche Verbesserungen im Klang standen zunächst im Gegensatz zu den Anforderungen der Lizenzierungsbehörden nach ökonomischer Verwendung von Hochfrequenzbandbreite. Die Übertragungssicherheit auf das gleiche Niveau zu bringen, das von der analogen Technik gesetzt worden war, schien schwer lösbar. Anfangs war zuverlässige, digitale Funkmi­kro­fontechnik für den professionellen LiveEinsatz zudem teuer. Die richtigen technischen Lösungen mit Bedienkomfort sind mittlerweile in voller Breite verfügbar. Die digitale Funkstrecke klingt nunmehr fast wie eine kabelgebundene Anwendung und die Bedienung ist für den Toningenieur  spürbar vereinfacht worden. Insbesondere die Wahl der passenden Funkfrequenzen und deren Programmierung erfolgt auf einfachste Weise. Alle Parameter sind per App vom Smartphone aus kontrollierbar. Die digitale Übertragung bedingte eine grundlegende Neuentwicklung von Sendern und Empfängern. Das Störrisiko durch Intermodulation und die damit verbundene IM-vermeidende Frequenzkonfiguration sind nicht länger nötig. Ein TV-Kanal von 8 MHz Breite kann effizienter als zuvor von Funkmi­kro­fonen belegt werden. Mit einem Frequenzabstand von jeweils 600 kHz oder 400 kHz je nach Geräteserie darf der Fernsehkanal ohne weiteres mit bis zu 13 bzw. 20 Strecken ausgenutzt werden. Mit Abstrichen bei der Sendeleistung und einem auf 15 kHz reduzierten Frequenzgang wären bis zu 40 Funkmi­kro­fonkanäle in einem TV-Kanal möglich. In der analogen Welt waren 8 Strecken üblich, nur in Sonderfällen darüber mehr. Carrier/Interference Eine besondere Stärke der analogen FM-Übertragung ist die Toleranz gegenüber Störungen im gleichen Übertragungskanal. Es zeigt sich, dass Digitalsysteme empfindlicher sind gegenüber störenden Aussendungen anderer Quellen, die in den Übertragungskanal fallen, z. B. Lichtsteuerungen oder Schaltnetzteile. Wie  stark ein Störer im Verhältnis zum Träger der Nutzinformation werden darf, bevor die Audioübertragung zusammenbricht und der Empfänger stattdessen den Störer überträgt, wird mit dem Begriff Capture Ratio erfasst. Dieses

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 213

gefürchtete „Umklappen“ ist für die analoge, frequenzmodulierte Übertragung bei etwa 2 dB C/I (Carrier/Interference) zu erwarten. Nimmt der Störpegel weiter zu oder der Nutzträger ab, bricht der Störer in die Übertragung ein, und das Nutzsignal wird unterdrückt. Dieser Effekt erfolgt nicht überraschend,  sondern kündigt  sich durch einen nachlassenden Rauschabstand S/N des Audio-Nutzsignals an. Bei zunehmender Störfeldstärke wird bei ca. 10 dB C/I in einer unmodulierten Übertragung erhöhtes Rauschen hörbar, mit ca. 5 dB C/I verbleibt etwa 40 dB Rauschabstand. Die digitale Übertragung dagegen hält den Rauschabstand > 100 dB und schaltet bei zunehmender Störfeldstärke übergangslos das Nutzsignal ab. Solche Unterbrechungen sind der größte Störfall; die Wahrscheinlichkeit, dass er eintritt, ist in der digitalen Technik im Live-Betrieb höher und unberechenbarer als bei analoger Übertragungstechnik. Abb.  4/51 veranschaulicht die Unterschiede der Übertragungsverfahren in digital unkomprimierter (a), digital komprimierter (b) und analoger (c) Übertragungstechnik. Der Signal-Störabstand S/N bleibt zunächst für alle Verfahren über einen weiten Feldstärkebereich hoch. Je höher die Datenrate, umso besser muss das Verhältnis von Träger zu Störfeldstärke (C/I) bleiben für eine unterbrechungsfreie Verbindung. Bei analogen Verfahren sinkt der Rauschabstand S/N in der Übertragung ab einem Schwellwert proportional zum  sich vermindernden Wert von C/I. Die digitale Übertragung hält den Rauschabstand S/N konstant hoch und bricht ab,  sobald die Feldstärke den Schwellwert unterschreitet. Was bei analoger Technik nur ein Aufrauschen erzeugt, führt bei digitaler Technik zu unvorhersehbaren Aussetzern. Mittlerweile ist das sog. error concealment, also die Verdeckung von drop outs deutlich verbessert worden. Ebenso vereinzelt aufgetretene Aussetzer, die  mit einer speziellen Raumarchitektur und dem daraus resultierenden Gemisch an Reflexionen zusammenhängen, stellen den Anwender nicht länger vor Schwierigkeiten. Manche Empfänger sind mit einer dritten Anzeige ausgestattet; neben der Aussteuerung und der Feldstärke gibt es den LQI (Link Quality Indicator), der die Aktivität der Fehlerkorrektur angibt und auf Empfangsprobleme hinweist, obwohl die Feldstärkeanzeige ausreichende Pegel ausweist. Die Ursache kann in schädlichen Reflexionen begründet sein. Veränderte Antennenpositionen können helfen. Typische Werte für Rauschen und Störungen, die die Grundlage für den darstellbaren HF-Dynamikbereich bilden, schwanken je nach Belastung der Umgebung mit HF-Störern. In freien Gebieten ist die Empfindlichkeit des Empfängers von ca. 0,5 µV die einzige Grenze. Bei großen Veranstaltungen mit Videowänden von mehreren hundert Quadratmetern, die von Multiplexsignalen gesteuert werden, sind breitbandige Störfeldstärken von 5 µV gemessen worden. Dieser „Störteppich“ erhöht die für einen sicheren Betrieb minimal erforderliche Empfangsfeldstärke. In Abb. 4/51 wäre der entsprechende Minimalpegel für komprimierte Digitalsignale mindestens 10 dB höher, also 16 µV. Der unkomprimierte Modus in der Grafik, hat unter diesen Bedingungen eine untere Grenze von 90 µV. Unterhalb dieser Feldstärke wird die Übertragung stumm geschaltet. Die Mehrwegeempfangssituation der Funkwellen kann Auslöschungen zur Folge haben, so dass eine entsprechende Reserve einzukalkulieren ist. Die Erprobung aller Gegebenheiten vor einer Veranstaltung bleibt unerlässlich.

214 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/51. Zusammenhang des Nutz-Störspannungsverhältnisses S/N und des Verhältnisses Träger-Störfeldstärke C/I für die Übertragungsverfahren, a. digital unkomprimiert, b. digital komprimiert, c. analog.

Latenz Es ist bekannt, dass digitale Systeme allgemein auf Grund ihrer Komplexität Zeit benötigen, um die Signale zu verarbeiten, dies wird als Latenz bezeichnet. Bisher waren 3 bis 4 ms Latenz bei guter Übertragungssicherheit üblich. Einen großen Anteil verbraucht die Wandlung von analog in digital und zurück. Werte von unter 2 ms sind zum aktuellen Standard geworden, ohne die Betriebssicherheit einzuschränken. Die komplette Übertragungskette hat zusätzliche Latenzen im Mischpult und anderen Elementen der Signalverarbeitung und Übertragung. Für Live-Produktionen können Verzögerungen von ca. 10 ms und höher störend für manchen Künstler sein. Viele Bühnenschaffende haben die Vorteile des drahtlosen Monitorings über Ohrhörer (IEM) erkannt. Diese Technik verzichtet bislang überwiegend auf die Digitalisierung, weil sich die Beiträge zur Latenz kritisch erhöhen. Der Bluetooth Standard kommt für die Signalübertragung drahtloser Mi­kro­fone und in Ear-Monitoring im professionellen Umfeld nicht zum Einsatz kommen, da die Latenzen mit über 30 ms zu lange sind. Fernbedienung per Smartphone-App Alle Smartphones verfügen über eine Schnittstelle nach dem Bluetooth-Standard. Der verwendete Frequenzbereich 2.400  –  2.480  MHz ist weit entfernt von den Nutzfrequenzen der  meisten Funkmi­kro­fone (470  –  1.900  MHz) und  somit geeignet für die Fernbedienung aller Parameter von Empfänger und im Besonderen der Sender, die kein Display mehr benötigen. Einem Künstler z. B., der mit stummgeschaltetem Sender sich auf die Bühne bewegt, kann vom Pult aus ohne Aufsehen geholfen werden. Künftige Entwicklungen Der Einsatzbereich drahtloser Mi­kro­fone nimmt zu, die grundlegende Ressource freier Frequenzen jedoch nimmt ab. Frequenzeffizienz ist zunehmend gefragt und für die kommenden Jahre deutet sich eine andere Technik an.

4.4 Lautsprecher 

 215

Mit dem Übergang von Analog auf Digital haben Funkmi­kro­fone einen großen evolutionären Schritt gemacht. Ein weiterer Schritt steht bevor. Breitbandige Technologien, die im Mobilfunk bereits erfolgreich eingesetzt werden, können auch Einzug in die hochwertige Audioübertragung finden. Derzeit verwendet jedes Mi­kro­fon seine eigene Übertragungsfrequenz und jeder Sender benötigt einen eigenen Empfänger. Die Übertragung findet unidirektional  statt und ist verbindungslos – d. h. das Mi­kro­fon  sendet,  sobald es eingeschaltet wird, ohne vorher eine Verbindung zu einer Gegenstelle aufnehmen zu müssen. Dieser Mehrfachzugriff wird Frequency Division Multiple Access (FDMA) genannt, denn jedem Übertragungsweg wird eine Trägerfrequenz zugewiesen. Durch alternative Verfahren, wie das sog. Zeitschlitzverfahren − Time Division Multiple Access (TDMA) − lässt sich ein flexibleres, verbindungsorientiertes, bidirektionales System aufbauen. Alle Mi­kro­fone eines Systems arbeiten auf der gleichen Frequenz, teilen  sich jedoch die Zeit. Dadurch entstehen folgende Vorteile: –– Mit der Verwendung eines Breitbandkanals, beispielsweise ein gesamter 8  MHz TVKanals, wird das Problem der Auslöschung durch Mehrwegeempfang drastisch reduziert, weil die Wellenlängen nicht identisch  sind. Die Betriebssicherheit des Systems kann dadurch erhöht werden. –– Jedes Gerät ist ein Transceiver (Sender und Empfänger), es besteht eine permanente Kontrolle der Mi­kro­fone auch während einer Darbietung. –– Stationäre Geräte können  mehrere Mi­kro­fonsignale gleichzeitig empfangen, es wird nicht mehr ein Empfänger pro Funkstrecke benötigt. –– Drahtlose Kopfhörer sind ebenfalls im selben Kanal möglich. –– Der Quality of Service (QoS) in Form von Latenz, Audioqualität und Übertragungssicherheit kann in einem solchen System dem Bedarf der Künstler angepasst werden. Eine ideale Modulationstechnik für die Breitbandübertragung bietet die OFDM-Technik (Orthogonal Frequency Division Multiplexing). Sie gewährleistet eine effiziente Entzerrung der durch das frequenzselektive Fading entstandenen destruktiven Interferenzen. Die Zulassungsvorschriften sind kein Hindernis für diese Verfahren. In der harmonisierten ETSI-Norm ETSI EN 300 422 ist ein Kapitel zu Wireless Multichannel Audio Systems (WMAS) hinzugefügt worden, dessen neue Messvorschriften von vielen Regulierungsbehörden international bereits umgesetzt wurden.

4.4 Lautsprecher Lautsprecher sind elektroakustische Wandler, die elektrische Schwingungen in Schallwellen umwandeln [DIN EN 60268-5]. Mit dem Begriff Lautsprecher kann sowohl ein einzelnes Lautsprechersystem als auch eine Kombination mehrerer Lautsprechersysteme in einem gemeinsamen Gehäuse gemeint sein. Anordnungen zur Schallwiedergabe sind nur mit akustischen Schallführungen wie Schallwänden, Boxen oder Hörnern bzw. Trichtern qualitativ befriedigend realisierbar. [Stark, 2003], [Görne, 2007], [D’Appollito, 1999]

216 

 4 Mi­kro­fone und Lautsprecher

Lautsprecher werden nach mehreren Kriterien unterschieden: –– Wandlerprinzip: Man unterscheidet zwischen elektrodynamischen oder dynamischen Lautsprechern – dem wichtigsten Lautsprecherprinzip – und elektrostatischen Lautsprechern, in der Tonstudiotechnik keine Bedeutung haben piezoelektrische und magnetische Lautsprecher. –– Übertragungsbereich: Je nach Übertragungsbereich werden Breitbandlautsprecher, Tieftonlautsprecher, Mitteltonlautsprecher und Hochtonlautsprecher unterschieden, die jeweils ihre konstruktiven Besonderheiten haben. –– Schallabstrahlendes Element: Unterschiedliche Ausführungen der schallabstrahlenden Membran haben Konuslautsprecher, Kalottenlautsprecher, Flächenlautsprecher und Biegewellenlautsprecher. –– Antrieb der den Schall abstrahlenden Membran: Beim dynamischen Lautsprecher, auch elektro-dynamischen Lautsprecher, ist der zentrale Antrieb der steifen Membran (Konus- und Kalottenlautsprecher) oder der biegsamen Membran (Biegewellenlautsprecher) eine stromdurchflossene Tauchspule, die im Feld eines Dauermagneten schwingt. Beim Bändchenlautsprecher wird direkt eine  metallische Membran als Bändchen flächig im Magnetfeld beweg, sie wird auch als Magnetostat bezeichnet, weil wie beim Elektrostaten die gesamte Membran angetrieben wird. Beim elektrostatischen Lautsprecher, kurz Elektrostat oder ESL, wird die elektrostatische Anziehungskraft, die zwischen einer straff montierten Membranfolie und einer festen Gegenelektrode unter hoher konstanter Spannung und aufmodulierter Wechselspannung einwirkt, als Antrieb genutzt. –– Leistung und elektroakustische Qualität: Studio- oder Monitorlautsprecher, Beschallungslautsprecher, Kommandolautsprecher u. a. Für weitere umfangreiche Ausführungen zu Lautsprechern wird bezüglich Messungen an Lausprechersystemen auf Kap.  9.7 verwiesen, auf Kap.  10.3.1 in Zusammenhang  mit dem Einsatz bei der Beschallung und auf Kap.  19.6.1.5 zur auditiven Kontrolle und dem Abhör­ standard verwiesen.

4.4.1 Bauformen 4.4.1.1 Dynamische Lautsprecher Dynamische Lautsprecher arbeiten nach dem Prinzip der dynamischen Mi­kro­fone, jedoch in umgekehrter Richtung. Sie sind die am weitesten verbreiteten Wandler zur Wiedergabe von Musik und Sprache. Mit ihnen lassen sich im Gegensatz zu anderen Systemen verhältnismäßig einfach und wirtschaftlich große Schallpegel breitbandig bei relativ geringen Verzerrungen erzeugen. Der Wirkungsgrad ist außerordentlich gering, weil der Lautsprecher nahezu in einem akustischen Kurzschlussbetrieb arbeitet: der Membranschwingung wird ein  sehr geringer Luftwiderstand entgegengesetzt. Üblich sind Wirkungsgrade etwa zwischen 0,2 und 2 %, bei sehr hochwertigen Lautsprechern noch weniger, nur als Hornlautsprecher können Werte bis 10 % oder mehr erreicht werden, da hier über ein Schallhorn eine akustische Leistungsanpassung stattfindet. Verständlich, dass solche Werte keinen Eingang in Datenblätter finden. Eine Aussage über die erreichbare Lautstärke macht der Kennschalldruckpegel; er

4.4 Lautsprecher 

 217

gibt an, welchen Schalldruckpegel 1 W zugeführte elektrische Leistung in 1  m Entfernung vor dem Lautsprecher erzeugt, die Werte werden also in dB oder dBSPL angegeben; typische Werte liegen um 85 bis 95 dB entsprechend der Wirkungsgrade 0,2 bis 2 %. Fälschlicherweise wird der Kennschalldruckpegel oft als Wirkungsgrad bezeichnet. In ihrer Wirkungsweise beruhen dynamische Lautsprecher auf der Kraftwirkung, die ein von Strom durchflossener Leiter im Magnetfeld eines Dauermagneten erfährt. Diese Kraftwirkung wird zur Anregung von Membranen oder anderen zur Schallabstrahlung geeigneten Systemen genutzt. Zur Gruppe der dynamischen Lautsprecher gehören die Konus-, Kalotten-, Horn- und Bändchenlautsprecher  sowie verschiedene Flachmembranlautsprecher, dazu gehört der Biegewellenlautsprecher. Konuslautsprecher Abb.  4/52 zeigt den Querschnitt durch einen Konuslautsprecher, der  seinen Namen der konisch geformten Membran (10) verdankt. Die konische Form gibt der Membran die erforderliche Steifigkeit. Der Topfmagnet besteht aus dem Permanentmagneten (1), dem Joch (2), der Polplatte (3) und dem Polkern (4). Im Luftspalt, gebildet durch Polkern und Polplatte, befindet sich die auf den Schwingspulenträger (5) gewickelte Schwingspule (6), die von dem tonfrequenten Wechselstrom durchflossen wird. Hierdurch wird in der Spule ein  magnetisches Wechselfeld erzeugt, das im Zusammenwirken  mit dem permanenten Gleichfeld im

Abb. 4/52. Dynamischer Lautsprecher als Konuslautsprecher, 1 Permanentmagnet, 2 Joch, 3 Polplatte, 4 Polkern, 5 Schwingspulenträger, 6 Schwingspule, 7 Zentriermembran, 8 Staubschutzkalotte, 9 Schutzring, 10 Membran, 11 Sicken, 12 Litzen, 13 Lautsprecherkorb.

Luftspalt eine Bewegung der Schwingspule analog der Wechselspannung in Pfeilrichtung zur Folge hat. Die Schwingspule wird durch die Zentriermembran (7), eine radial steife, axial jedoch sehr weiche und nachgiebige Federmembran, geführt und in der Ruhelage gehalten. Die meist aus dünnem Pappguss, teils aus Kunststoffen oder Aluminium, auch mehrschichtige Membran (10) ist mit dem Schwingspulenträger fest verbunden und am äußeren Rand über konzentrisch verlaufende Sicken (11) oder über einen weichen Balg aus hochelasti-

218 

 4 Mi­kro­fone und Lautsprecher

schem Material im Lautsprecherkorb (13), der mit großen Durchbrüchen versehen ist, eingespannt. Eine Kalotte zum Staubschutz (8) und der Schutzring (9) verhindern das Eindringen von Fremdkörpern in den Luftspalt. Über die sehr flexiblen Litzen (12) erhält die Schwing­ spule den Wechselstrom des Tonsignals. Konuslautsprecher eigenen  sich als Tief- und Mitteltöner  sowie als Breitbandlautsprecher. Der Frequenzbereich des abgestrahlten Schalls ist nach tiefen Frequenzen hin durch die Resonanzfrequenz der Membran begrenzt. Man legt daher diese Resonanzfrequenz, die  sog. Eigenresonanz des Lautsprechers, an das untere Ende des Übertragungsbereichs, erreicht wird das u. a. durch eine sehr flexible Membranaufhängung. Bei  mittleren und höheren Frequenzen  schwingt die Membran nicht  mehr in ihrer Gesamtheit. Die Schwingspule regt vielmehr konzentrische Biegeschwingungen an, die vom Membranrand teilweise reflektiert werden, und so bildet sich eine komplexe Schwingungsverteilung aus. Dabei entstehen kreisförmige Knotenlinien zwischen ringförmig und  mit unterschiedlichen Phasen  schwingenden Zonen  mit partiellen Auslöschungen und Überlagerungen; bei  sehr hohen Frequenzen  schwingt praktisch nur noch die innerste Mem­ branzone. Dies wirkt sich ungünstig auf den Frequenzgang und die Richtcharakteristik aus. Man begegnet dem durch eine spezielle Formgebung der Membran, der sog. Nawi-Membran (Nicht abwickelbar). Sie weicht mit einem hyperbolischen Querschnitt von der Form eines Konus ab und erhält so eine größere Steifigkeit. Kalottenlautsprecher Der Kalottenlautsprecher ist im Wesentlichen ein Konuslautsprecher ohne Korb und Konusmembran, der Schall wird nur über die Kalotte abgestrahlt (Abb. 4/53. Die Kalotte mit angepressten Sicken (7) ist aus einem hinreichend steifen Material mit hoher innerer Dämpfung hergestellt. Ihr Durchmesser ist in den meisten Fällen kleiner als die zu übertragende Wellenlänge.

Abb. 4/53. Dynamischer Lautsprecher als Kalottenlautsprecher, 1 Ringmagnet, 2 Magnetplatte, 3 Polplatte, 4 Polkern, 5 Schwingspule, 6 Schwingspulenträger, 7 Kalotte mit Sicken, 8 Montageplatte, 9 Zuführungslitze.

Die Kalotte schwingt im gesamten Übertragungsbereich kolbenförmig, Partialschwingungen der Kalotte treten praktisch nicht auf. Die Abstrahlung erfolgt in einem breiten Winkelbereich gleichmäßig und gleichphasig. Kalottenlautsprecher werden deshalb bevorzugt als

4.4 Lautsprecher 

 219

Hochtonlautsprecher bei einem Kalottendurchmesser von 20 bis 25  mm eingesetzt. Aber auch für den Mitteltonbereich bis hinunter zu 400 Hz eignen sich Kalottenlautsprecher mit etwa 60 mm Durchmesser der Kalotten. Wegen der geringen Abmessungen der schwingenden Membran und der großen Luftspaltlänge sind besonders starke Permanentmagnete zur Erzeugung einer großen Luftspaltinduktion notwendig, um einen den Konuslautsprechern entsprechenden Wirkungsgrad zu erzielen. Kalottenlautsprecher dienen auch als Schallwandler von Hornlautsprechern. Hornlautsprecher Ein Kalottenlautsprecher, der über einen genau definierten, im Querschnitt zunehmenden Schalltrichter, dem Horn, an den umgebenden Raum angekoppelt wird, ist ein Hornlautsprecher, auch einfach Horn. Diese Form der Schallabstrahlung nutzten Blechblasin­ strumente seit der Zeit der ägyptischen Pharaonen, Megafone u. a.; immer geht es darum, Töne möglichst laut abzustrahlen. Hörner sind akustische Impedanzwandler, die die hohe akustische Impedanz  mechanischer Schwingungen, hier des Lautsprechersystems, an die niedrige Impedanz des umgebenden Raums anpassen und damit neben anderen Effekten durch Leistungsanpassung den Wirkungsgrad etwa verzehnfachen. Das Horn transformiert − vereinfacht gesagt − eine kleinere Fläche, die  mit größerer Amplitude  schwingt, in eine größere Fläche, die mit kleinerer Amplitude schwingt (Abb. 4/54). Die effektivste Form des Trichters ist das Exponentialhorn, eine Schallführung (siehe dazu Kap. 4.4.1.3), deren Querschnittsflächen pro Längeneinheit um einen konstanten Prozentsatz zunehmen. Dies ergibt einen Querschnitt entsprechend einer Exponentialfunktion. Diese Anordnung stellt einen akustischen Hochpass dar mit großer Flankensteilheit; seine untere Grenzfrequenz  sinkt  mit größer werdender Trichteröffnung. Das bedeutet, dass für tiefe Frequenzen sehr ausgedehnte Hörner notwendig sind, die in Studios und Wohnräumen nicht realisierbar  sind; hier können nur Hochtonsysteme als Hornlautsprecher verwendet werden. Mehrere nebeneinander angeordnete Hörner, wie sie bei großen Beschallungen verwendet werden, haben dieselbe Wirkung wie ein einzelnes Horn gleicher Gesamtgröße. Die Aufstellung in einer Raumecke verbessert die Wiedergabe tiefer Frequenzen erheblich. Bei rechteckigen Querschnitten kann das Horn mit akzeptablen Einschränkungen der Klangqualität zu einem sog. Falthorn werden, das in einem Gehäuse Platz findet. Neben dem Exponentialhorn gibt es weitere Hornformen. Eine Variante ist der Hornlautsprecher  mit Druckkammer, der Druckkammerlautsprecher, bei dem zwischen einer größeren Membran des Kalottenlautsprechers und dem eigentlichen Horn eine Druckkammer eingefügt wird (Abb. 4/54, 2), die den Wirkungsgrad nochmals erhöht; dieser Lautsprecher eignet  sich besonders für Alarm und Ansagen für große Flächen wie Stadions und für Verkehrsflächen wie Flughäfen und Bahnhöfe. Ein großer Vorteil des Hornprinzips ist, dass die Lautsprechermembran infolge der Transformation der Impedanz  sehr viel  stärker belastet wird und deshalb weniger weit ausschwingt. Somit produziert das Hornsystem geringere lineare Verzerrungen und – ein besonderer Vorteil – wesentlich geringere Intermodulationsverzerrungen. Die  systembedingte starke Schallbündelung und Richtwirkung spielt vor allem dort eine Rolle, wo Schall gezielt abgestrahlt werden  soll und/oder wo bestimmte Flächen nicht oder nur gering beschallt werden  sollen. Bei der professionellen Beschallung großer Flächen von Stadien

220 

 4 Mi­kro­fone und Lautsprecher

oder Sälen  sind Hornlautsprecher unverzichtbar; breitbandige Hörner werden auch als Musikhörner bezeichnet.

Abb. 4/54. Horn eines Hornlaut­ sprecher, 1 Membran des Kalottenlautsprechers, 2 Druckkammer, 3 Trichterhals, 4 Schalltrichter.

Bändchenlautsprecher Der Bändchenlautsprecher greift das Wandlersystem des Bändchenmi­kro­fons auf (siehe Kap.  4.2.3.2),  seine Funktionsweise ist jedoch die umgekehrte Richtung. Anstelle der  spulengetriebenen Membran schwingt ein Bändchen im Feld des Dauermagneten und wird als Ganzes angetrieben; man bezeichnet diesen Lautsprechertyp auch als Magnetostat in Anlehnung an den Elektrostaten (s. u.), wo ebenfalls die gesamte Membran angetrieben wird. Das Bändchenmi­kro­fon eignet sich besonders als Hochtonlautsprecher mit Bändchen von z. B. 25 mal 80 mm, als Mitteltöner hat das Bändchen die Maße von z. B. 60 mal 200 mm. Das Bändchen ist  senkrecht eingebaut, dadurch entsteht eine Richtcharakteristik, die horizontal breiter, vertikal jedoch schmäler ist; so wird in einem Raum etwas mehr Direktschall erzeugt und Reflexionen an Decke und Boden werden verringert. Der Lautsprecher soll deshalb nicht gekippt aufgestellt werden. Da das Bändchen aus Aluminium eine  sehr geringe Impedanz hat, muss ein Anpassverstärker oder Transformator vorgeschaltet werden. Normale Impedanz haben die sog. Folienmagnetostaten, bei denen das Bändchen aus einer Kunststofffolie  mit langen aufgeprägten Leiterbahnen besteht. Als Air-Motion-Transformer ist das Bändchen nach Art einer Ziehharmonika gefaltet und kann so bei geringerer Bewegung mehr Luft in Schwingungen versetzen. Biegewellenlautsprecher Im Gegensatz zum Konuslautsprecher, bei dem die Membran, die von einem elektrodynamischen Wandler angetrieben wird, steif sein muss, sind die Membranen von Biegewellenlautsprechern elastisch. Die Anregung in der Mitte der Membran führt zu Biegewellen, die von der Membranmitte nach außen laufen. Diese Wellen verlaufen auf der Membran also wie die Welle auf einer Wasseroberfläche, wenn man einen Stein ins Wasser wirft. Am Rand soll die

4.4 Lautsprecher 

 221

Membran mit ihrem Wellenwiderstand abgeschlossen werden, damit keine Wellen reflektiert werden. Der Biegewellenlautsprecher hat einen relativ breitbandigen Übertragungsbereich. Ein geringer Wirkungsgrad und bei höheren Pegeln eintretende Verzerrungen wurden diesem Konzept mitunter nachteilig angelastet, spielen aber bei moderneren Entwicklungen keine Rolle mehr. Das Prinzip lässt sich auch anwenden auf große Flächen, die mit mehreren Systemen angeregt werden. 4.4.1.2 Elektrostatischer Lautsprecher Bei elektrostatischen Lautsprechern − abgekürzt ESL − geht die Kraftwirkung von elektrisch entgegengesetzt geladenen Platten oder Membranen aus, die sich bei gleich gepolter Ladung gegenseitig anziehen bzw. bei entgegengesetzter Ladung abstoßen; elektrostatische Lautsprecher stellen also Kondensatoren dar. Die Anordnung besteht aus zwei festen Gitterelektroden (Statoren) und einer beweglichen Membran dazwischen (Abb.  4/55). Die Kraft, die auf die bewegliche Elektrode bzw. Membran ausgeübt wird, ist dem Quadrat der angelegten Spannung direkt und dem Quadrat des Elektrodenabstands umgekehrt proportional. Für den Betrieb ist eine hohe Vorspannung von einigen kV Gleichspannung erforderlich, damit die Tonsignalspannung im Vergleich klein ist. Der Abstand der Elektroden, der zur Vermeidung eines Aufschlagens der Membran relativ groß gewählt werden muss, fordert eine große Signal­­spannung bis zu einigen 100 V. Nur so ist eine ausreichende Kraftwirkung zu erzeugen. Bei großen Amplituden werden Abstände der Membran zu den beiden Elektroden deutlich ungleich, dadurch entstehen nichtlineare Verzerrungen.

Abb. 4/55. Prinzip des elektrostatischen Lautsprechers.

222 

 4 Mi­kro­fone und Lautsprecher

Für den Tieftonbereich ist der elektrostatische Lautsprecher weniger geeignet, was der aufwändigen Betriebsschaltung  mit der hohen Vorspannung und dem begrenzten Mem­ branausschlag im tieferen Frequenzbereich zuzuschreiben ist. Bereits im mittleren Frequenzbereich strahlt der Lautsprecher den Schall stark gebündelt ab, was bei der Stereowiedergabe zu sehr begrenzten Hörflächen, sog. Sweet Spots, führt, was durch unterschiedliche Lösungen wie eine gebogene Anordnung oder eine Segmentierung und weitere Entwicklungen verbessert wurde. Der Wirkungsgrad ist sehr gering; so werden für leistungsstarke Lautsprecher erhebliche Membrangrößen notwendig; es wurden Lautsprecher bis 2  m2 Membranfläche konstruiert. Ein weiteres Problem ist die bipolare Schallabstrahlung, also gleichzeitig nach vorn und hinten mit um 180° verschobener Phase, was zu einem akustischen Kurzschluss besonders bei tieferen Frequenzen führt. Wegen der sehr leichten Membran zeigt der Lautsprecher aber ein ausgezeichnetes Impulsverhalten; er kann auch sehr hohe Frequenzen bis 100 kHz wiedergeben. Meist wird der sehr flache Lautsprecher er mit einem Konuslautsprecher in einer Lautsprecherbox für die Bässe kombiniert. Generell konnte sich dieses Prinzip nicht in größerem Umfang durchsetzen, hat aber bei Liebhabern als Elektrostat oder ESL einen gewissen legendären Ruf. 4.4.1.3 Akustischer Kurzschluss und Lautsprecherboxen Bewegt sich die Membran eines Lautsprechers gemäß Abb. 4/56 in Pfeilrichtung, entsteht vor dem Lautsprecher eine Zone mit Überdruck, auf seiner Rückseite eine Zone mit Unterdruck. Ist der Membrandurchmesser klein gegen die Wellenlänge des abzustrahlenden Schalls, so gleichen sich die Zonen von Über- und Unterdruck über den Lautsprecherrand aus. Es entsteht ein sog. akustischer Kurzschluss, der Schall wird vernichtet; dadurch wird bei tiefen Frequenzen praktisch kein Schall mehr abgestrahlt.

Abb. 4/56. Akustischer Kurzschluss (a.) und seine Unterdrückung durch eine Schallwand (b.).

Zur Vermeidung dieses Kurzschlusses ist eine Schallführung erforderlich. In der einfachsten Form besteht sie aus einer Schallwand (Abb. 4/56, b), die bei ausreichender Größe den Druckausgleich verhindert. Die gebräuchlichsten Schallführungen sind hinten offene Gehäuse, die abgeknickte Schallwände darstellen, allseitig geschlossene Gehäuse wie bei Studio- und

4.4 Lautsprecher 

 223

Hi-Fi-Lautsprecherboxen und Hörner (siehe Kap. 4.4.1.1); zur Verbesserung der Abstrahlung tiefer Frequenzen werden Resonanzboxen oder Bassreflexboxen mit tief liegender Eigenresonanz und Boxen mit abgestimmter akustischer λ/4-Leitung, sog. Transmission-Line-Boxen verwendet. Wird ein Lautsprecher in eine sehr große Wand eingebaut, so sind die zwei Schallfelder auf beiden Membranseiten getrennt; die abgestrahlte Leistung wird bis zur Grenzfrequenz f0 hinab nur von den Eigenschaften des Lautsprechers bestimmt. In der Praxis sind unendliche Schallwände nicht notwendig, da Frequenzen unter 30 Hz nicht abgestrahlt werden müssen. Bei einer Grenzfrequenz f0 von 30  Hz für die Schallabstrahlung  sollte die Schallwand bei etwa  mittigem Einbau des Lautsprechers eigentlich einen Durchmesser von 6  m haben. Unterhalb der Grenzfrequenz f0 fällt der Frequenzgang mit 6 dB/Oktave ab. Allgemein gilt für die Mindestgröße einer Schallwand: f0 = Grenzfrequenz [Hz] c = Schallgeschwindigkeit = 340 m/s d = kürzester Abstand zwischen Lautsprecher und Schallwandkante [m] Wird der Lautsprecher nicht genau in die Mitte einer Schallwand eingesetzt, so verteilen sich die Frequenzgangeinbrüche. Der Tiefenabfall von 6 dB/Oktave bei nicht ausreichend großer Schallwand kann teilweise durch höhere Lautsprecherleistung in diesem Frequenzbereich ausgeglichen werden. Die Eigenresonanz des Lautsprechers soll dabei möglichst tief liegen. Unterhalb der Lautsprechereigenresonanz fällt der Pegel zusätzlich mit 12 dB/Oktave ab. Für Studiolautsprecher und Hi-Fi-Lautsprecher werden jedoch geschlossene Lautsprecherboxen verwendet. Bei ihnen wird das vom Lautsprecher nach hinten abgestrahlte Schallfeld durch absorbierendes Material vernichtet, akustischer Kurzschluss ist ausgeschlossen. Dafür  müssen Gehäuseresonanzen  sowie die durch die erhöhte Rückstellkraft des eingeschlossenen Luftvolumens heraufgesetzte Lautsprecherresonanz bedämpft werden. Das zu übertragende Frequenzband wird bei Studiolautsprechern und qualitativ anspruchsvolleren Lautsprecherboxen für den Heimtonbereich auf zwei (Zweiwegebox) oder drei Lautsprecher (Dreiwegebox) aufgeteilt. Damit sind die folgenden Vorteile verbunden: Es können Lautsprechersysteme verwendet werden, die in ihrem Frequenzgang, Wirkungsgrad und Schallbündelungsverhalten auf ein bestimmtes Frequenzband optimiert sind; weiterhin können Klangrauigkeiten und Intermodulationsverzerrungen dadurch wesentlich minimiert werden. Diese Übertragungsfehler kommen in einem Breitbandlautsprecher dadurch zustande, dass hohe und tiefe Frequenzen gleichzeitig von demselben Lautsprechersystem abgestrahlt werden. Zur Abstrahlung der höheren Frequenz bewegt sich die Membran mit kleiner Amplitude, zur Abstrahlung der tieferen Frequenz mit größerer Amplitude; die Gesamtbewegung ist derjenigen einer angeschlagenen Glocke ähnlich. Durch den dabei auftretenden Dopplereffekt wird die höhere Schwingung frequenzmoduliert, der höhere Ton wirkt rau, es entstehen Intermodulationsverzerrungen, die sehr störend wirken können, da Summen- und Differenztöne der Frequenzkomponenten entstehen. Bei Studio- oder Regielautsprechern werden mehrere Lautsprechersysteme kombiniert, ein Tieftöner, ein Mitteltöner und ein oder zwei Hochtöner. Die für die einzelnen Lautsprecher vorgesehenen Frequenzbänder werden bei Studiolautsprechern elektronisch ausgefiltert, verstärkt und den Lautsprechersystemen zugeführt. Der Lautsprechereingang ist für 6 dBu

224 

 4 Mi­kro­fone und Lautsprecher

ausgelegt. Lautsprecherboxen mit integrierten Verstärkern und Frequenzweichen benötigen eine eigene Stromversorgung, sie werden als Aktivboxen bezeichnet. 4.4.1.4 Regielautsprecher Regielautsprecher, auch Studiolautsprecher, Studiomonitore o. ä. genannt, sind Studio-Abhöreinrichtungen, die aus Lautsprechersystemen in einem Gehäuse einschließlich Verstärkern und Frequenzweichen bestehen und höchste Qualitätsanforderungen erfüllen, insbesondere bezüglich des Frequenzgangs, der Richtcharakteristik, nichtlinearer Verzerrungen u. a. Sie sollten stets den neuesten Stand der Entwicklung repräsentieren. Zur rein messtechnischen Bewertung kommt bei Lautsprechern wie bei Mi­kro­fonen stets auch eine subjektive Bewertung, in die die komplexen messbaren und nicht messbaren Eigenschaften eingehen. Die Anforderungen an Regielautsprecher sind in internationalen Empfehlungen erfasst, zu Details siehe ausführlich Kap.  19.6. Beschallungslautsprecher für die Bühnenbeschallung werden auch Monitorlautsprecher genannt: an sie werden solche Anforderungen nicht gestellt. Für eine hohen Anforderungen entsprechende Abhörsituation genügt es allerdings nicht, die Eigenschaften der Lautsprecher zu definieren, ebenso  muss die akustische Umgebung hohen Anforderungen genügen, insbesondere der Abhörraum und seine geometrische Form und seine akustischen Eigenschaften, die Aufstellung der Lautsprecher, der Abhörpegel und weitere Parameter, Details hierzu  siehe Kap.  19.6.1.5. Besondere Aufmerksamkeit hinsichtlich der Anordnung der Lautsprecher erfordert die Abhörsituation bei Mehrkanalstereofonie, siehe dazu Kap. 5.4.1.

4.5 Kopfhörer Für die auditive Kontrolle bei Aufnahmen und Übertragungen sind Kopfhörer im Tonstudio­ bereich verhältnismäßig  selten in Verwendung, Ausnahmen  sind akustisch ungeeignete, auch lärmbelastete Abhörsituationen bei Außenaufnahmen mit ungeeigneten Abhörräumen. Bei Musikgruppen, die mit Verstärkeranlagen arbeiten, und im Consumerbereich haben sie dagegen weite Verbreitung gefunden. Hinsichtlich ihrer elektroakustischen Eigenschaften  stehen gute Kopfhörer Studiolautsprechern nicht nach; hohe Qualität ist bei Kopfhörern  mit vergleichsweise geringem Aufwand realisierbar. Ein weiterer Vorteil ist die vollständige Unabhängigkeit beim Abhören mit mehreren Personen von den Eigenschaften des Wiedergaberaums und der Abhörplätze. Damit sind einheitliche Abhörsituationen praktisch nur mit Kopfhörern realisierbar, im Gegensatz zu Lautsprecherwiedergabe auch gleichzeitig für viele Zuhörer. Da hohe Lautstärken problemlos dargeboten werden können, kann eine große Dynamik verwirklicht und auch adäquat gehört werden. Schließlich wird das Hörerlebnis mit Kopfhörern als besonders intensiv empfunden. Diesen Vorteilen  stehen eine Reihe von Nachteilen gegenüber, die den Gebrauch im Tonstudio erheblich einschränken: Der Höreindruck bei Kopfhörerwiedergabe unterscheidet sich grundsätzlich von dem bei Lautsprecherwiedergabe. Wird nämlich beiden Ohrhörsystemen dasselbe Signal zugeführt – dies entspricht einem Mono- oder Stereomittensignal – nimmt der Zuhörer bei Kopfhörerwiedergabe den Ort der Schallquelle in der Mitte im Kopf

4.5 Kopfhörer 

 225

wahr, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei Lautsprecherwiedergabe hingegen wird die Schallquelle im Lautsprecher bzw. bei zweikanaliger Wiedergabe etwas erhoben in der Mitte zwischen den Lautsprechern, also vor dem Zuhörer, lokalisiert, bei Pegel- und/oder Laufzeitdifferenzen  seitlich verschoben. Bei reiner Intensitätsstereofonie und Kopfhörerwiedergabe werden die Seitenschallquellen unnatürlich dicht an den beiden Ohren gehört. Kopfhörer- und Lautsprecherwiedergabe unterscheiden sich also deutlich in der Wiedergabe der wahrgenommenen Schallquellenorte. Im Detail wird dazu auf Kap. 5.5.5 verwiesen, ebenda wird hier die Problematik der Frequenzgangs von Kopfhörern und seiner Messung besprochen. Erste Normen für Kopfhörer im Hi-Fi-Sektor (DIN 45500)  stammen aus den 1960er Jahren, sind aber nicht mehr zeitgemäß. Sie wurden 1996 durch die IEC 61305-1 bzw. DIN EN 61305, Hi-Fi-Geräte und ‑Anlagen für den Heimgebrauch, ersetzt, die nur noch Verfahren zur Messung und Angabe der Leistungskennwerte enthält, aber keine qualitativen Mindestanforderungen  mehr, da die ursprünglich genormten Anforderungen inzwischen auch von einfachen Geräten erfüllt werden können. Für den Studiobereich wurden deshalb neue Standards erarbeitet und in ITU-Empfehlungen [ITU-R BS.708] gefasst. Außer den Anforderungen an den Frequenzgang, der nicht auf das Direkt- oder Freifeld für Schalleinfall von vorne, sondern auf das Diffusfeld, also für gleichzeitig allseitig einfallenden Schall bezogen wird, musste insbesondere das Messverfahren mit Verwendung von Sondenmi­kro­fonen im Gehörgang definiert werden, da der Kopfhörer zusammen mit dem Außenohr eine Einheit darstellt und andere akustische Bedingungen bietet als die Lautsprecherwiedergabe mit offenem Ohr. Es sei darauf hingewiesen, dass die Verwendung des Begriffs Studiokopfhörer o. ä. nicht an die Erfüllung der genannten besonderen Empfehlungen gebunden ist. [Theile, 2015] Kopfbezogene binaurale Übertragung ist ein Tonübertragungssystem, das aufnahmeseitig mit einem Kunstkopf – deshalb auch Kunstkopf-Verfahren genannt – und wiedergabeseitig mit diffusfeldentzerrten Kopfhörern arbeitet. Bei diesem eigenständigen, qualitativ hervorragenden Verfahren kommen ausschließlich Kopfhörer zum Einsatz. Das Verfahren wird in Kap. 5.5.5.1 f. beschrieben.

4.5.1 Bauformen von Kopfhörern Ein Kopfhörer besteht aus zwei elektroakustischen Wandlern, verbunden  mit einem zur Anpassung an die individuelle Kopfform verstellbaren Kopfbügel. Die Anordnung wird durch leichtes Anklemmen am Kopf des Zuhörers gehalten. Da es auch spezielle Ausführungen mit nur einem Hörer gibt, wird die beschriebene Bauform normgemäß [DIN 45580] und exakt als sog. Doppelkopfhörer bezeichnet. Als Wandlersysteme finden elektrodynamische Wandler Verwendung, selten magnetische oder elektrostatische. Man unterscheidet zwischen offenen,  sog.  supraauralen, und geschlossenen,  sog. circumauralen Kopfhörern. Bei den offenen oder halboffenen Hörern liegen die Wandler auf den Ohrmuscheln auf, oder die Wandler werden durch sog. Ohrkissen, einer akustisch voll durchlässigen Schaumstoffzwischenlage, in definiertem Abstand zu den Ohrmuscheln

226 

 4 Mi­kro­fone und Lautsprecher

gehalten. Der Benutzer offener Kopfhörer ist gegen Schall aus dem umgebenden Raum nur wenig abgeschirmt; erst oberhalb 5 kHz wird Fremdschall um etwa 10 dB bedämpft. Der geschlossene Kopfhörer umschließt das gesamte äußere Ohr mit einem kalottenförmigen Gehäuse, das über einem weichen Dichtungsrand am Kopf anliegt. Es wird daher kein Druck auf die Ohrmuscheln ausgeübt. Die typische Schalldämmung geschlossener Kopfhörer gegen Außengeräusche steigt von etwa 5 dB bei 100 Hz auf 40 dB bei 10 kHz. Beim geschlossenen Kopfhörer sind die Wandler sehr definiert über ein vorgegebenes Volumen an das Ohr angekoppelt, während beim offenen Hörer die Systeme mehr oder weniger frei abstrahlen. Geschlossene Kopfhörer verhindern den akustischen Kurzschluss, der bei offenen Hörern durch aufwändigere Konstruktionen ausgeglichen werden muss. Eine Sonderform ist der Ohrhörer, ein sog. In-Ohr-Kopfhörer oder engl. in Ear-Monitor. Das Wandlersystem wird hier in eine Silikon- oder Schaumstoff-Ohrplastik (Otoplastik) eingearbeitet, es wird in den Gehörgang eingeschoben und sollte bei professioneller Verwendung individuell angepasst werden. Das in Ear-Monitoring (IEM), wie das Beschallen bzw. Abhören mit solchen Hörern bezeichnet wird, wird in jüngster Zeit vorwiegend an Stelle konventioneller Kopfhörer bei der der Beschallung der Musiker vor allem bei Live-Beschallungen eingesetzt. In Verbindung mit drahtlosen Übertragungssystemen bietet es große Vorteile im praktischen Betrieb (siehe Kap. 4.5.3). Die weiteste Verbreitung als Wandler bei Kopfhörern haben die elektrodynamischen Systeme gefunden. Ihre Wirkungsweise entspricht derjenigen von dynamischen Lautsprechern (siehe Kap.  4.4.1.1). Sie zeichnen  sich durch gute Übertragungseigenschaften aus. Mit sehr kleinen elektrischen Leistungen lassen sich große Lautstärken bei geringen Verzerrungen erzeugen; bereits mit 1 mW elektrischer Leistung kann ein Schalldruck von 1 Pa bzw. 94 dBSPL am Ohr erreicht werden. Elektrostatische Kopfhörersysteme arbeiten nach dem gleichen Prinzip wie elektrostatische Lautsprecher (siehe Kap. 4.4.1.2). Die Übertragungseigenschaften sind ausgezeichnet. Jedoch erfordert die Bereitstellung der notwendigen Kondensatorvorspannung von mehreren hundert Volt, die auch z.  B. aus dem niederfrequenten Nutzsignal gewonnen werden kann, gegenüber den anderen Systemen einen erheblich größeren technischen Aufwand und damit auch höhere Kosten.

4.5.2 Einrichtungen für drahtlose Kopfhörer Akteure auf der Bühne oder Backstage, aber vor allem Musiker und Sänger benötigen für das  musikalische Zusammenwirken  mit ihren Partnern bei hohen Anforderungen an ihre Mobilität eine  spezielle Abmischung, den Monitormix, vom Mischpult. Dieser kann über Monitorlautsprecher auf der Bühne realisiert werden, drahtlos in Stereo auf Kopfhörer oder bevorzugt und weitgehend unsichtbar über Ohrhörer in das Ohr. Für die Akteure bei Film, Funk und Fernsehen ist diese Kommunikationsmethode seit vielen Jahrzehnten als „Rückkanal“, „Talk back“ oder auch „Reportercue“ in Mono für ein Ohr im Einsatz. In vielen Musikgenres vor allem bei sich bewegenden Künstlern ist die zuverlässige Funktion der drahtlosen HF-Übertragung überhaupt Bedingung für die Qualität des Zusammenspiels. Die Übertra-

4.5 Kopfhörer 

 227

gungssituation ist kritischer einzuschätzen als die der Funkmi­kro­fone (siehe hierzu auch Kap. 4.3), weil die Empfänger meistens keinen True Diversity-Empfang haben. Auf Bühnen wird heute die Beschallung mit Bühnen- oder Monitorlautsprechern, die oft  schwierige Bedingungen für die Tontechnik und die Musiker darstellen, zunehmend durch das in Ear-Monitoring oder IEM oder Wireless Monitoring ersetzt. Im Gegensatz zu Bühnenlautsprechern treten hier keine Rückkopplungen auf, und die Akteure erhalten ein präzises und konstantes, vom Standort auf der Bühne unabhängiges Hörbild. Zudem ist ein in Ear-Set, das neben den Ohrhörern aus einer Sendestation und einem am Körper zu tragendem Empfänger (Bodypack) besteht, wesentlich leichter zu transportieren und zu installieren ist als eine herkömmliche Monitoranlage aus Lautsprechern. Nachteilig ist die Tatsache, dass der Klangeindruck bei Bewegung oder Drehung nicht entsprechend der Raumsituation  mitgeht, was zu Orientierungsschwierigkeiten im Raum führen kann. Mancher Künstler fühlt sich zu sehr vom Publikum entkoppelt und benötigt die Einspielung in seinen Monitormix. Spielt das optische Auftreten der Künstler keine Rolle wie etwa bei Studioaufnahmen, so sind geschlossene kabelgebundene Kopfhörer vorteilhafter. Vielfach wird gleichzeitig zum Ear-Monitoring-Empfänger am Körper in direkter Nähe ein Hand- oder Taschensender des drahtlosen Mi­kro­fons betrieben, eine kritische Situation, die durch den  sog. Blockingeffekt gefährdet ist. Der IEM-Empfänger verliert an Empfindlichkeit, und eine akzeptable Qualität der Übertragung mit gutem Störabstand ist auf nur wenige Meter Entfernung zur Ear-Monitoring-Sendeantenne beschränkt. Die Durchführung der Messung des Blocking zeigt Abb. 4/57. Der unmodulierte Sender wird im Pegel so weit angehoben, bis der Störabstand des Empfängers von ca. 20 dB, bedingt durch das geringe Signal des Senders von 1,5 μV auf 10  dB abgesunken ist. Das Pegelverhältnis der beiden Sender gibt den Wert für das Empfängerblocking an: 15 mV : 1,5 μV = 10.000 entsprechend 80 dB. Blocking wird durch einen Frequenzabstand von mindestens 8 MHz zwischen dem Mi­kro­fonsender und der Ear-Monitoring-Strecke weitgehend vermieden. Eine klare Abgrenzung der Systeme gewährleistet sicheren Betrieb.

Abb. 4/57. Messung des Blocking.

228 

 4 Mi­kro­fone und Lautsprecher

Beim Einsatz von mehr als zwei Kanälen entstehen leicht Intermodulationsstörungen, weil HF-Leistung in die Ausgangsstufen der  stationären Sender eindringt und neue Träger  mit doppeltem Hub und Audiofrequenzverdopplung entstehen (Birdies). Hier ist ein intermodulationsfreies Frequenzraster nach Herstellerempfehlungen  mit Frequenzabstand zu den Funkmi­kro­fonen zu verwenden. Das Ear-Monitoring im Vielkanaleinsatz muss 200 kHz Sicherheitsabstand von Intermodulationsfrequenzen 3. Ordnung einhalten, d. h., die Packungsdichte im UHF-Kanal kann nicht so dicht sein wie bei Funkmi­kro­fonen, die schon ab 50 kHz Abstand zu Intermodulationsprodukten sicher arbeiten. Der Einsatz von Antennen-Combinern unterbindet die IMStörungen und versammelt alle angeschlossenen Sendesignale ohne Leistungseinbußen auf einen Antennenausgang. Der interne Leistungsverlust von 10  dB (90  %) beim Zusammenführen der Einzelsignale wird  mit vorgeschalteten Verstärkern kompensiert. Diese  sorgen auch dafür, dass keine HF-Leistung rückwärts in die angeschlossen Sender fließt. Störende Signale werden von den Sendern ferngehalten (Abb. 4/58). Sendercombiner sind für bis zu acht Sender in einer Höheneinheit verfügbar. Im Allgemeinen sind Richtantennen und kurze Kabelwege zu empfehlen. Stets  sind erhöhte Standorte vorteilhaft. Eine deutliche Verbesserung in  schwierigen Übertragungssituationen bieten zirkular polarisierende Antennen. Auf keinen Fall dürfen Empfangsantennenverstärker zum Ausgleich von Leitungsverlusten auf Sendewegen eingesetzt werden, weil die Eingangspegel viel zu hoch  sind und besonders mehrere Sendersignale den Verstärker übersteuern und zum Aussenden von Störspektren zwingt.

Abb. 4/58. Funktionsweise des Antennen-Combiners, 4 Sender mit je 20 mW HF-Leistung sind rückwirkungsfrei zusammengeschaltet und arbeiten mit einer gemeinsamen Antenne.

In Ear-Monitoring-Systeme  sind  stereofon nach dem Verfahren des UKW-Rundfunks ausgelegt. Für den gleichen Störpegelabstand wie im Monobetrieb ist im Stereobetrieb ca. 20 dB mehr Antenneneingangspegel erforderlich. Bei nicht ausreichendem Rauschabstand kann deshalb auch auf Monobetrieb umgeschaltet werden. Komplexe Vielkanalsysteme, die

Literatur 

 229

an wechselnden Einsatzorten betrieben werden,  sind am einfachsten an wechselnde HFUmfelder anzupassen, wenn die Parameter über spezielle Rechnersteuerungen wie auch die Funkmi­kro­fone verwaltet werden.

Standards [AES42-2001] [DIN 45405] [DIN 45590] [DIN 45595] [DIN 45596] DIN EN IEC 61938] [DIN EN 61672] [DIN EN IEC 61938] [DIN EN 60268-5] [DIN IEC 651] [ISO 12913] [ITU-R BS.468-4] [ITU-R BS.708]

AES standard for acoustics – Digital interface for microphones, Audio Engineering Society, 2001, revidierte Ausgabe 2006 Störspannungsmessung in der Tontechnik, zurückgezogen Mikrophone; Begriffe, Formelzeichen, Einheiten Anschluß von Transistormi­kro­fonen mit Tonaderspeisung Mi­kro­fone; Phantomspeisung, ersetzt DIN 45 96 IEC 61 672-2003 bzw. [DIN EN 60268-4] Elektroakustische Geräte – Mi­kro­fone Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Schallpegelmesser Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Elektroakustische Geräte - Teil 5: Lautsprecher Schallpegelmesser Akustik - Soundscape Measurement of audio frequency noise voltage level in sound broadcasting Determination of the electro-acoustical properties of studio monitor headphones

Literatur [D’Appolito, 1999] [Arasin, 2007] [Becker-Foss, 2010] [Farrar, 1979] [Fedke, 2007] [Genuit, 1981] [Genuit, 1984] [Genuit, 1087] [Gierlich, 1989] [Görne, 2004] [Görne, 2007] [Hudde, 1980]

D’Appolito, J.: Lautsprecher-Messtechnik. PC-gestützte Analyse analoger Systeme, 1999, Elektor Arasin, P. und Hoemberg, M.: Funkmi­kro­fone und Wireless Monitoring, Grundlagen, unmittelbare Praxis-Tipps, 2007, Sennheiser-Firmenschrift Becker-Foss, Cl., Stephan Flock, St., Jahne, H., Langen, Ch., Werwein, M., Wittek, H.: White Paper „Digitale Mi­kro­fone und AES42“, Version 2.1, 11. 05. 2010, www.hauptmi­kro­fon.de, Zugriff 30.6.2010 Farrar, K.: „Soundfield microphone“, in: Wireless World 1979, S. 48ff. Fedke, T. et.al.: Kunstkopftechnik - eine Bestandsaufnahme, Acustica Vol. 93, 2007 Genuit, K.: „Optimierung eines Kunstkopf-Aufnahmesystems“, in: Bericht 12. Tonmeistertagung München 1981, S. 218 ff. Genuit, K.: Ein Modell zur Beschreibung der Außenohrübertragungseigenschaften, Diss. 1984, RWTH Aachen Genuit, K.: Verfahren zur Filterung von Schallsignalen, Patent DE 3709397, 1987 Gierlich, H. W., Genuit, K.: „Processing Artificial Head Recordings”, in: J. Audio Eng. Soc., Vol 37, No. 1/2, 1989, S. 34 ff. Görne, Th. und Bergweiler, St.: Monitoring. Lautsprecher in Studio- und HiFi-Technik, 2004, ppv Medien Görne, Th.: Mi­kro­fone in Theorie und Praxis, 2. Aufl. 2007, Elector-Verlag Hudde, H.: „Messung der Trommelfellimpedanz des menschlichen Ohres bis 19 kHz, Diss. 1980, Universität Bochum

230 

 4 Mi­kro­fone und Lautsprecher

[Kürer, 1969] Kürer, R., Plenge, G., Wilkens, H.: „Correct Spatial Sound Perception Rendered by a Special Two-Channel Recording Method”, 37. AES Convention, New York 1969 [Lerch, 2009] Lerch, R., Sessler, G. und Dietrich Wolf, D.: Technische Akustik. Grundlagen und Anwendungen: Grundlagen und Anwendungen, 2009, Springer [Möser, 2009] Möser, M.: Technische Akustik, 8. Aufl., 2009, Springer [Peus, 2001] Peus, S.: „The digitally interfaced microphone“, preprint 110. AES-Convention Amsterdam 2001 [Platte, 1975] Platte, H.-J., Laws, P., vom Hövel, H.: „Anordnung zur genauen Reproduktion von Ohrsignalen“, in: DAGA 1975 Braunschweig, S. 361 ff. [Schneider, 1998] Schneider: „Eigenrauschen und Dynamikumfang von Mi­kro­fonen und Aufnahmekette“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, Saur, 1999 [Schneider, 2008] Schneider, M.: „Mi­kro­fone“, in: Weinzierl, St.: Handbuch der Audiotechnik, 2008, Springer, S. 313ff. [Stark, 2003] Stark, B.: Lautsprecher-Handbuch. Theorie und Praxis des Boxenbaus, 8. Aufl. 2003, Pflaum [Theile, 1984] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wieder­gabe“, Bericht 13. Tonmeistertagung München 1984, S. 112 ff. [Theile, 1985] Theile, G.: „Beurteilungskriterien für Kopfhörer unter Berücksichtigung verschiedener Anwen­dungsbereiche“, in: NTG-Fachtagung Hörrundfunk, Mannheim 1985, S. 290 ff. [Theile, 2015] Theile, Günther: „Der Studio-Kopfhörer“, in: VDT-Magazin 2015, H. 2, S. 9 ff. [Vorländer, 1989] Vorländer, M.: „Virtuelle akustische Welten in Forschung und Praxis“, in: Akustik Journal der DEGA 02/2021 [Wittek, 2010] Wittek, H. et alii: „Neuartiges Richtrohrmi­kro­fon-Prinzip mit erhöhter Richtwirkung“, Bericht 26. Tonmeistertagung, 2010 [Wuttke, 1981] Wuttke, J.: „Mi­kro­fondaten und ihre Bedeutung in der Praxis“, in: Bericht 12. Tonmeistertagung, 1981, Saur [Wuttke, 1985/1] Wuttke, J.: „Betriebsverhältnisse von Mi­kro­fonen bei Wind und Popp“, in: Bericht 14. Tonmeistertagung, 1985, Saur [Wuttke, 1985/2] Wuttke, J.: „Kondensatormi­kro­fone mit Kugelcharakteristik“, in: Bericht 13. Tonmeistertagung, 1985, Saur [Wuttke, 1997] Wuttke, J.: „Wie universell kann ein Mi­kro­fon sein“, in: Bericht 19. Tonmeistertagung, 1997, Saur [Wuttke, 1998] Wuttke, J.: „Die 48 V-Phantomspeisung und ihre Geister“, in: Mi­kro­fon Spezial, Sonderheft Studio Magazin 1998 [Wuttke, 2000] Wuttke, J.: Mi­kro­fonaufsätze, 2000, Firmenschrift, Schoeps [Zollner, 1993] Zollner, M. und Zwicker, E.: Elektroakustik, 3. Aufl. Berlin

5 Tonaufnahme und Tonwiedergabe Günther Theile Florian Camerer (5.6.5), Michael Dickreiter (5.3, 5.6.1, 5.6.2, 5.6.3.7), Harald Fuchs und Yannik Grewe (5.5.2), Wolfram Graul (5.6.3), Yannik Grewe (5.5.1.1), Hans-Joachim Maempel (5.6.4), Jörn Nettingsmeier (5.5.3.2), Lasse Nipkow (5.4.5.3, 5.5.6.2, 5.5.6.3) mit Günther Theile (5.4.3), Gerhard Spikofski (5.5.5.1) Bis in die 1990er Jahre war es angemessen und üblich, die Verfahren der damals zweikanaligen Stereofonie getrennt von ihrer Wiedergabe über Lautsprecher oder Kopfhörer zu behandeln. Mit fortschreitender Entwicklung kamen jedoch neue Systeme der Tonübertragung hinzu, die die Frage einer systemgerechten Wiedergabe eng an die Aufnahmetechnik gebunden haben, so dass sie in diesem Kapitel zusammengeführt werden. In Kap. 5.1 werden die Grundprinzipien der räumlichen Übertragung mit der Wiedergabe über Lautsprecher und Kopfhörer dargestellt, Kap. 5.2 behandelt die Phänomene der Lautsprecherwiedergabe und ihren psychoakustischen Aspekten vor allem bei Zwei-, aber auch der Mehrkanal-Stereofonie. Kap. 5.3. beschäftigt sich mit der Aufnahmetechnik für Zweikanal-Stereofonie, Kap. 5.4 für Mehrkanal-Stereofonie in der zweidimensionalen Klangdarstellung, aber auch mit zusätzlichen Höhenlautsprechern; Kap. 5.3 und 5.4 widmen sich also den eingeführten und vielfach bewährten Techniken der Tonübertragung. Kap. 5.5 schließlich erschließt die dreidimensionale, den Hörer reproduzierter Klänge räumlich einhüllende Klangdarstellung – Stichworte immersive  sound und 3D – und  stellt damit die aktuellen Entwicklungen der Tonübertragungstechnik mit Lautsprechern und der Binauraltechnik mit Kopfhörern systematisch dar.

5.1 Prinzipien der räumlichen Tonübertragung Bei der Tonwiedergabe gibt es für die Darstellung der räumlichen Eigenschaften von Schallquellen, also ihre Platzierung im Raum bezüglich Richtung, Entfernung und Ausdehnung, sowie die Darstellung des Raums und seiner Akustik drei grundsätzlich unterschiedliche Prinzipien: –– Lautsprecher-Stereofonie: Wiedergabe von Mikrofonsignalen aus dem Aufnahmeraum durch Lautsprecher, also die allgemein verbreitete Form der Tonwiedergabe (Kap. 5.2 bis 5.5.2), –– Synthese des umgebenden Schallfelds bei der Wiedergabe: Wellenfeldsynthese (WFS) und Higher-order Ambisonics (HOA) reproduzieren in der Nähe des Hörers das Schallfeld aus dem Aufnahmeraum (Kap. 5.5.3), –– Binaurale Reproduktion der Ohrsignale: Kopfhörerwiedergabe der Ohrsignale aus dem Aufnahmeraum, bekannt als Kunstkopf­verfahren (Kap.  5.5.5); Binauralisierung ist die Kopfhörerwiedergabe der Ohrsignale aus dem Lautsprecher-Wiedergaberaum (Kap. 5.5.6). Alle bekannten räumlichen Tonübertragungs- bzw. Tonwiedergabeverfahren lassen  sich auf diese drei Methoden zurückführen oder  stellen Mischformen daraus dar  mit dem Ziel, https://doi.org/10.1515/9783110759921-005

232 

 5 Tonaufnahme und Tonwiedergabe

bestimmte Vorteile einzelner Methoden – abhängig vom praktischen Anwendungsbereich – zu nutzen bzw. ihre Nachteile zu umgehen.

5.1.1 Lautsprecher-Stereofonie Die Abbildung eines akustischen Geschehens durch Lautsprecher gewinnt  mit der Stereotechnik an Durchsichtigkeit, Räumlichkeit und Klangfülle gegenüber der Abbildung  mit Monotechnik. Mit Durchsichtigkeit wird die Möglichkeit, eine einzelne Schallquelle bzw. einzelne Schallquellen eines Klangkörpers herauszuhören, also getrennt zu lokalisieren und zu verfolgen, bezeichnet. Außerdem erweitert die Stereofonie die Möglichkeiten, Bewegungsabläufe bei Fernsehtonaufnahmen, Hörspielen und Musikaufnahmen akustisch abzubilden oder rein elektronisch in einer Nachbearbeitung zu erzeugen und Schallquellen  mit den Mitteln der Tonregie in gewünschte Positionen zu bringen. Die Vermittlung der Raumillusion wird gegenüber der Monofonie entscheidend verbessert. Stereofonie – der Wortbedeutung nach „räumlicher Schall“ – werden die Übertragungsverfahren genannt, die durch Verwendung von zwei und  mehr Übertragungskanälen die räumliche Dimension des Klangbilds übertragen. Zu der räumlichen Dimension gehören die Positionen der Schallquellen im Raum, ihre Ausdehnung und Entfernung, aber auch die Richtungsverteilung der ersten Raumreflexionen und des Nachhalls. Stereofonie beruht auf den Gesetzmäßigkeiten der Lokalisierung in den  sich überlagernden Schallfeldern zweier Lautsprecher. Die Richtungsdarstellung erfolgt in der Abbildungsebene zwischen zwei benachbarten Lautsprechern. Die Wahrnehmung des natürlichen Raumeindrucks und der räumlichen Tiefe ist mit der einfachen Zweikanal-Stereofonie, der  sog. 2/0-Stereofonie, nicht erreichbar,  sondern nur eine perspektivische Darstellung, ähnlich der perspektivischen Darstellung in einem flächigen Bild [Theile, 1980, 1991]. Bei der sog. 3/2-Stereofonie – ein Verfahren mit drei frontalen und zwei seitlichen sog. SurroundLautsprechern – kann mit Hilfe der seitlichen Lautsprecher, der Surround-Kanäle, die Abbildungsebene zwischen den frontalen Lautsprechern zu den Seiten hin vergrößert werden. Daraus ergeben sich Möglichkeiten für die Reproduktion des frühen Seitenschalls zur Darstellung der räumlichen Tiefe sowie des Nachhalls zur Darstellung des Raumeindrucks und der Umhüllung [Theile, 2001/1]. Eine besondere Einschränkung zeigt sich bei der 3/2-Stereofonie für die Darstellung der akustischen Nähe. Wie bei der konventionellen Zweikanal-Stereofonie ist es normalerweise nicht möglich, im Bereich zwischen dem Hörer und den Lautsprechern Hörereignisse abzubilden bzw. zu lokalisieren. Die Entfernung einer Phantomschallquelle zum Hörer kann nicht kleiner sein als diejenige zu den wiedergebenden Lautsprechern. Aus diesem Grund ist die Darstellung einer sehr nahen akustischen Umgebung trotz sehr nah aufgestellter Mikrofone problematisch. Eine überzeugende akustische Einhüllung des Hörers ist oft schwierig und gelingt selten so überzeugend, wie das etwa mit der Kunstkopftechnik möglich ist, z. B. der Applaus in einem Konzertsaal. Ein weiterer Nachteil der Lautsprecherstereofonie betrifft die begrenzte Abhörzone, die sich einerseits aus der geringen Richtungsstabilität der Phantomschallquelle ergibt – der Hörer darf den optimalen Hörplatz nicht verlassen –, andererseits aus der stark platzabhän-

5.1 Prinzipien der räumlichen Tonübertragung 

 233

gigen Lautstärkebalance der Wiedergabekanäle. Die geringe Stabilität der Richtungsabbildung ist auf die Laufzeitverschiebungen zurückzuführen, die sich von Ort zu Ort ändert. Verschiebungen der Lautstärkebalance machen sich für die Surround-Kanäle besonders schnell bemerkbar, wenn das Pegelverhältnis von direktem zu indirektem Schall betroffen ist. Dieses Problem lässt sich dadurch reduzieren, dass man die Entfernung der Lautsprecher zum Hörer vergrößert. Auf Einzelheiten wird in den Kap. 5.2 bis 5.5 ausführlich eingegangen.

5.1.2 Synthese des umgebenden Schallfelds Neben Lautsprecher-Stereofonie ist die Darstellung virtueller Schallquellen und Räume durch ein akustisch korrektes Schallfeld bei der Wiedergabe in der Umgebung des Hörers möglich. Dieses anspruchsvolle Ziel wird auf zwei ähnlichen Wegen verfolgt, mit der Weiterentwicklung der Ambisonics-Mikrofontechnik [Gerzon, 1975/1], [Fellgett, 1974, 1975], [Craven, 2009] hin zum Higher-order Ambisonics-Verfahren (HOA,  siehe Kap.  5.5.3.2)  sowie  mit der Entwicklung der Wellenfeldsynthese (WFS) [Berkhout, 1993], [Boone, 1995], siehe Kap. 5.5.3.1. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das  mit einem entsprechenden realen Schallfeld identisch ist. Die für das Hörereignis wirksamen Ohrsignale entstehen

Abb. 5/1. Vergleich der Ohrsignale einer Phantomschallquelle im überlagerten Schallfeld bei ZweikanalStereofonie mit den Ohrsignalen der virtuellen Schallquelle bei Wellenfeldsynthese bei gleicher Hörereignisrichtung [Theile, 1980/1].

234 

 5 Tonaufnahme und Tonwiedergabe

also im Gegensatz zur Binauraltechnik auf natürlichem Wege im Schallfeld, nicht nur an den Ohren. Der Hörer kann  sich in der gesamten Hörzone wie gewohnt frei bewegen, wobei die virtuellen Schallquellen an ihrem Ort  stabil lokalisierbar bleiben und eine natürliche Perspektive wahrgenommen wird. Diese ist mit den Mitteln der Stereofonie nicht möglich [Theile, 2002], [Wittek, 2004]. Abb. 5/1 zeigt eine Phantomschallquelle bei Zweikanal-Stereofonie im Vergleich mit einer virtuellen Schallquelle in einer Wellenfeldsynthese. Die resultierenden Ohrsignalspektren, interauralen Signaldifferenzen und -korrelationen sind völlig unterschiedlich, obwohl in beiden dargestellten Fällen die Hörereignisse bezüglich Klangfarbe, Richtung und Entfernung ähnlich sind. Nur bei idealer Wellenfeldsynthese entspricht das synthetische Wellenfeld-Schallfeld dem einer entsprechenden Realschallquelle, was beim Schallfeld bei Stereofonie nicht zutrifft, Einzelheiten dazu in Kap. 5.5.3.1 sowie in [Wittek, 2007].

5.1.3 Binaurale Reproduktion der Ohrsignale Die ursprüngliche Ausführung dieser Methode ist die bekannte Kunstkopfstereofonie. Dabei wird nicht versucht, am Ort der Wiedergabe ein geeignetes Schallfeld zu reproduzieren, vielmehr werden die Ohrsignale eines künstlichen Kopfs, eines Kunstkopfs, im Aufnahmeraum aufgenommen und grundsätzlich durch Kopfhörer wiedergegeben. Im Idealfall  sind die reproduzierten Kunstkopfsignale identisch  mit den individuellen Ohrsignalen, die der Hörer im Aufnahmeraum am Ort des Kunstkopfs empfangen würde. Das virtuelle Hörereignis im Kopfhörer entspricht dem realen Schallereignis im Aufnahmeraum. Einzelheiten werden in den Kap. 5.5.5 und 5.5.6 behandelt. Für den praktischen Einsatz dieses Verfahrens gibt es aber leider gravierende Einschränkungen: –– Die Reproduktion der Ohrsignale  muss  sehr genau erfolgen, Unterschiede des individuellen Außenohrs zum Kunstkopf-Außenohr verursachen bereits Beeinträchtigungen. Auch wirken Eingriffe wie Dynamikeinengung, Lautstärkeeinstellung und Störgeräusche nachteilig auf die Wiedergabe ein. –– Die Ohrsignale  müssten fortlaufend an die  momentane Kopfhaltung des Hörers angepasst werden − man nennt das head tracking, insbesondere um die korrekte Lokalisierung in der senkrechten Ebene, der sog. Medianebene (siehe Kap. 3.4) sicherzustellen. [Mackensen, 1998]. –– Die Reproduktion der Ohrsignale  muss grundsätzlich über Kopfhörer erfolgen. Sog. Transauralisationsverfahren, die für die Lautsprecherwiedergabe vorher eine inverse Filterung der Übertragungsfunktion des Außenohrs durchführen, sind nicht genau genug und schränken die Hörzone auf wenige Zentimeter ein. –– Eine künstlerische Gestaltung des Klangbilds ist nur in sehr engem Rahmen möglich. Das gilt für die klangliche und räumliche Balance z. B. der Instrumente ebenso wie für die Darstellung des Raums und der den Hörer einhüllenden raumakustischen Atmosphäre. Die Abhängigkeit von den Gegebenheiten der Aufführung ist sehr groß und meist nicht praktikabel. –– Ein gelungenes Klangbild für die Kopfhörerwiedergabe stellt die Abbildung eines Hörerplatzes im Aufnahmeraum, z. B. einem Konzertsaal, dar. Bei Lautsprecherwiedergabe in einem Wohnraum widerspricht die optische Wahrnehmung der akustischen Wahrnehmung.

5.2 Stereofonie 

 235

5.2 Stereofonie Bei der üblichen Stereoanordnung, bei der zwei Lautsprecher mit dem Hörer ein gleichseitiges oder nahezu gleichseitiges Dreieck bilden (Abb. 5/2, siehe auch Abb. 5/1), ergeben sich ganz andere Verhältnisse als beim „natürlichen“ Hören. Sie  sind wesentlich komplexer und werfen eine Reihe von Fragen auf. Zunächst werden deshalb nur die Hörphänomene beschrieben, die  mit der Bildung der für Stereowiedergabe wesentlichen Phantomschallquellen zusammenhängen,  sowie die  sich daraus ergebenden Möglichkeiten der Anwendung. Danach wird in Kap. 5.2.3 auf Fragen zu den Ursachen dieser Phänomene der Stereofonie näher eingegangen. Darauf aufbauend werden im folgenden Kap. 5.2.4 die Prinzipien der räumlichen stereofonen Abbildung dargestellt, die Möglichkeiten und Grenzen der konventionellen Zweikanal-Stereofonie einerseits und der Mehrkanal-Stereofonie andererseits. Kap. 5.5.4 geht auf die psychoakustischen Phänomene sowie auf praktische Konsequenzen ein, die mit der Wiedergabe der stereofonen Signale über Kopfhörer zusammenhängen.

5.2.1 Phantomschallquellen Stellt man – wie in Abb. 5/2 dargestellt – zwei Lautsprecher L1 und L2, die gleichzeitig exakt dasselbe Signal abstrahlen, in einem bestimmten Abstand, der Basis b, zueinander auf, so lokalisiert ein Hörer H nicht zwei getrennte Schallquellen bei L1 bzw. L2, sondern nur eine einzige fiktive Schallquelle, eine  sog. Phantomschallquelle oder virtuelle Schallquelle in der Mitte der Basis. Sie ist fiktiv oder virtuell, weil an diesem Punkt keine wirkliche Schallquelle existiert, der Ort der Schallquelle also nur in der auditiven Verarbeitung der Ohrsignale durch den Hörer gebildet wird. Erzeugt und verändert man innerhalb bestimmter Grenzen kontinuierlich Pegel- oder/und Laufzeitdifferenzen zwischen den Signalen an L1 und L2, so wandert die fiktive Schallquelle S entlang der Lautsprecherbasis zur Seite, bis sie schließlich in einem der beiden Lautsprecher stehen bleibt. Dieser Effekt ist grundlegend für die stereofone Schallwiedergabe, er macht die Illusion einer räumlichen Schallwiedergabe erst möglich.

Abb. 5/2. Standard-Lautsprecheranordnung in einem gleichschenkligen Dreieck mit dem Hörer für Zweikanal-Stereowiedergabe.

236 

 5 Tonaufnahme und Tonwiedergabe

Während bei der Lokalisierung einer realen Schallquelle das Schallsignal nur von einem Punkt ausgeht, der Richtungseindruck also aus einem einzigen Schallsignal gewonnen wird, überlagern  sich bei der  stereofonen Lautsprecherwiedergabe die Signale von zwei Schallquellen bzw. Lautsprechern. Hierbei erhält jedes Ohr von jedem der beiden Lautsprecher einen bestimmten Schallanteil, woraus das Gehör den Richtungseindruck der fiktiven Schallquelle ableitet. Abb. 5/3 zeigt für einige spezielle Fälle schematisch die Signalkonfigurationen an den Ohren des Hörers. Daraus wird ersichtlich, dass sich bei jedem Ohr zwei Signale überlagern, die aber zu einer einzigen Wahrnehmung führen. Voraussetzungen für die einwandfreie Lokalisierbarkeit  sind, dass die Lautsprecher von derselben Schallquelle  stammende,  sog. kohärente Signale ohne Phasenumkehrung abstrahlen, dass die Pegel- und/ oder Laufzeitdifferenzen innerhalb bestimmter Grenzen bleiben und dass sich der Hörer in einer bestimmten geometrischen Position zu den Lautsprechern befindet, nämlich innerhalb der sog. Stereohörfläche oder -hörzone (Abb. 5/9). Je nach angewandtem Aufnahmeverfahren treten Pegel- und Laufzeitdifferenzen zwischen den Lautsprechersignalen L1 und L2 allein oder gleichzeitig auf.

Abb. 5/3. Signalkonfigurationen an den Ohren bei Stereowiedergabe nach Abb. 5/2.

Als erster erkannte und patentierte Alan D. Blumlein 1931 die Möglichkeiten,  stereofone Klangbilder auf Grund von Phantomschallquellen zu übertragen. Bereits 1933 wurde ein Konzert stereofon von Philadelphia nach Washington übertragen und über zwei Lautsprecher  stereofon wiedergegeben. Die ersten klassischen Versuche zur Abbildung von Phantomschallquellen wurden 1940 von de Boer durchgeführt; danach wurden die Versuche von zahlreichen Autoren unter verschiedenen Versuchsbedingungen fortgeführt [Blauert, 2000]. 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen Strahlen bei einer Wiedergabeanordnung nach Abb.  5/2 die beiden Lautsprecher dasselbe Signal phasengleich ab, so wird bei gleichem Pegel von L1 und L2 eine fiktive Schallquelle S genau in der Mitte der Basis b lokalisiert. Bei Pegeldifferenzen wandert die fiktive Schallquelle auf der Basis seitlich aus, um bei einer Pegeldifferenz von 15 bis 25 dB ganz an dem

5.2 Stereofonie 

 237

Ort des Lautsprechers mit dem höheren Pegel stehen zu bleiben. Bereits bei nur 12 bis 15 dB Pegeldifferenz befindet sich die fiktive Schallquelle so nahe an diesem Lautsprecher, dass in der Praxis eine Pegeldifferenz von etwa 15 dB zur Lokalisierung „ganz seitlich“ führt. Die Abbildungsrichtungen der Phantomschallquellen, die durch Pegeldifferenzen bedingt sind, sind in relativ geringem Maß von der akustischen Gestalt des Signals und von anderen Bedingungen abhängig. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Pegeldifferenz ΔL zeigt Abb. 5/4. Angegeben sind die Auslenkungen der Phantomschallquelle relativ zur Lautsprecher-Basisbreite. In der Standard-Lautsprecheranordnung auf den Ecken eines gleichseitigen Dreiecks gemäß Abb. 5/2 entsprechen 100 % Auslenkung der Phantomschallquellenrichtung ± 30°. Man erkennt, dass im Bereich um die Mitte der Lautsprecherbasis die Kurven weitgehend linear verlaufen. Bis zu einer Auslenkung von 75  % wird im Folgenden ein Auslenkungskoeffizient von 7,5 %/dB zu Grunde gelegt. Die Tatsache, dass die Auslenkungen der Phantomschallquellen relativ zur Basisbreite weitgehend unabhängig vom Basisöffnungswinkel sind, wird im Kap. 5.2.3 näher erläutert. Das ist nicht nur hinsichtlich der Bewegungsfreiheit des Hörers nach vorne und hinten von großer praktischer Bedeutung, sondern auch bei der Mehrkanal-Stereofonie, bei der mit Hilfe des Center-Kanals C die Lautsprecherbasis zwischen L und R in die Sektoren L bis C und C bis R geteilt ist, so dass an Stelle von einer Basis mit Basisöffnungswinkel 60° nebeneinander zweimal eine Basis mit jeweils 30° Basisöffnungswinkel vorhanden ist. In allen Abbildungsbereichen gelten dieselben Gesetzmäßigkeiten.

Abb. 5/4. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Pegeldifferenz ΔL. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], C nach [Brittain, 1956], D nach [Simonson, 1984].

Die Pegeldifferenzen, die zu einer bestimmten Abbildungsrichtung der Phantomschallquelle führen, sind deshalb auch nicht identisch mit den resultierenden Pegeldifferenzen zwischen

238 

 5 Tonaufnahme und Tonwiedergabe

den beiden Ohren beim „natürlichen“ Hören, wenn sich die reale Schallquelle am Ort der Phantomschallquelle befinden würde (siehe Kap. 5.1 und 5.2.3). Dies gilt sinngemäß auch für Phantomschallquellen bei Zeitdifferenzen, siehe dazu unten. Es ist also  möglich, durch reine Pegeldifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür ausschließlich entsprechende Pegeldifferenzen zwischen dem linken und rechten Kanal L und R erzeugt werden, man nennt dieses Aufnahmeverfahren Intensitätsstereofonie (siehe Kap. 5.3.2). 5.2.1.2 Phantomschallquellen bei Zeitdifferenzen Bei der Stereowiedergabe nach Abb.  5/2 führen auch Laufzeitdifferenzen zwischen 0 und etwa 1 ms zwischen identischen Lautsprechersignalen zu Phantomschallquellen auf der Stereobasis. Die Wirkung von Laufzeitdifferenzen zwischen 3 und 30 ms beschreibt das sog. Gesetz der ersten Wellenfront, auch als Haas-Effekt oder Precedence-Effekt bekannt, wonach bei breitbandigen Signalen nur derjenige Lautsprecher als Ort der Schallquelle gehört wird, der das Schallsignal zuerst abstrahlt, auch wenn der andere Lautsprecher einen höheren Pegel hat. Bei Laufzeitdifferenzen von  mehr als 30 bis 90  ms – je nach Art des Schall­signals – werden schließlich zwei in ihrer Richtung und zeitlich getrennte Signale gehört. Der Übergang zwischen diesen Zeitbereichen ist gleitend und von der Art des Signals abhängig. Laufzeitdifferenzen im Übergangsbereich können Hörereignisse hervorrufen, die über die ganze Basis ausgedehnt erscheinen. Ab einer Laufzeitdifferenz von etwa 0,6 ms bis hin zu Echos erzeugenden Verzögerungszeit von ca. 40 ms bewirken Kammfiltereffekte am Ohr des Hörers eine Verfärbung des Klangbilds; sie hängen stark von der Art des Schalls und von der Anzahl von Reflexionen in der Aufnahme ab. Abb. 5/5 fasst die verschiedenen Wirkungen der Laufzeitdifferenzen zusammen.

Abb. 5/5. Wirkungen der Zeitverzögerung zwischen identischen Signalen an den Lautsprechern L1 und L2 nach Abb. 5/2.

Anders als bei Phantomschallquellen, die durch Pegeldifferenzen ausgelenkt werden, können Laufzeitdifferenzen die Richtungsstabilität der Phantomschallquelle mit steigender Zeitdifferenz beeinträchtigen; ab etwa 0,5 ms steigt die Unsicherheit der Richtungswahrneh-

5.2 Stereofonie 

 239

mung an, stark von der Art des Schalls abhängig. Bei Sprache genügen schon verhältnismäßig geringe Laufzeitdifferenzen zwischen den Lautsprechersignalen, bei tiefen sinusförmigen Dauertönen sind vergleichsweise große Laufzeitdifferenzen zur Auslenkung notwendig. Sinusförmige Dauertöne im  mittleren Frequenzbereich werden insofern nicht eindeutig abgebildet, weil einer Abbildungsrichtung zwei oder  mehr unterschiedliche Phasen- bzw. Laufzeitdifferenzen zuzuordnen sind. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Laufzeitdifferenz Δt zeigt Abb. 5/6. Angegeben sind auch hier die Auslenkungen der Phantomschallquellen relativ zur Lautsprecher-Basisbreite. Man erkennt, dass im inneren Bereich der Lautsprecherbasis die Kurven wie bei Pegeldifferenzen weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 13 %/0,1 ms zu Grunde gelegt. Es ist also möglich, durch reine Laufzeitdifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür auch reine Laufzeitdifferenzen zwischen dem linken und rechten Kanal erzeugt werden,  man nennt dieses Aufnahmeverfahren Laufzeitstereofonie (siehe Kap. 5.3.3).

Abb. 5/6. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Laufzeitdifferenz Δt. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], D nach [Simonson, 1984], E nach [Sengpiel].

5.2.1.3 Phantomschallquellen beim Zusammenwirken von Pegel- und Laufzeitdifferenzen Reine Intensitätsstereofonie benutzt nur Pegeldifferenzen zwischen den Lautsprechersignalen, reine Laufzeitstereofonie nur Laufzeitdifferenzen. Es gibt aber auch Aufnahmeverfahren, bei denen Pegel- und Laufzeitdifferenzen gleichzeitig und gleichsinnig auftreten. Dazu gehören alle Verfahren, die  mit unterschiedlich ausgerichteten und zugleich distanzierten

240 

 5 Tonaufnahme und Tonwiedergabe

Richtmikrofonen arbeiten, sowie alle Verfahren, bei denen zwischen ungerichteten Mikrofonen Trennkörper eingefügt werden, den sog. Trennkörperverfahren. Bei diesen sog. gemischten Aufnahmeverfahren wirken Pegel- und Laufzeitdifferenzen gleichgerichtet zusammen. Die Auslenkung der Phantomschallquelle ist bei solchen Bedingungen größer als sie es auf Grund von Pegel- oder Laufzeitdifferenzen allein wäre. Der Frage, in welcher Weise gleichsinnige Laufzeit- und Pegeldifferenzen auf die Abbildungsrichtung der Phantomschallquelle wirken, wird ausführlich im Kap. 5.2.2 im Zusammenhang mit der Bestimmung des Aufnahmewinkels oder -bereichs eines Stereomikrofons nachgegangen. Bezüglich der Lokalisierungsschärfe  sind Pegel- und Laufzeitdifferenzen im Bereich kleiner Werte der Auslenkung der Phantomschallquelle gleichwertig. Dagegen gibt es Unterschiede im Bereich größerer Auslenkungen: Eine wachsende Pegeldifferenz führt zu einer Zunahme, eine wachsende Laufzeitdifferenz zu einer Abnahme der Lokalisierungsschärfe. Mikrofonanordnungen der „gemischten“ Aufnahmeverfahren, deren Anteile aus Pegelund Laufzeitdifferenzen ungefähr gleichgewichtig  sind, nehmen eine gewisse Sonderstellung ein, offenbar kann die Lokalisierungsschärfe in diesem Fall ein Optimum erreichen. Eine solche Anordnung zweier Mikrofone kann als Äquivalenzmikrofon bezeichnet werden. Gegensinnige Pegel- und Laufzeitdifferenzen können nur begrenzt zu einer Aufhebung der Auslenkungen führen, vielmehr aber zu einer starken Abnahme der Lokalisierungsschärfe. 5.2.1.4 Seitliche Phantomschallquellen Auf Grund praktischer Erfahrungen und Untersuchungen weiß  man, dass Phantomschallquellen mit zwei Lautsprechern seitlich vom Hörer äußerst instabil und empfindlich bezüglich des Abhörpunkts sind, auch hinsichtlich des Signalspektrums. Stereofonie funktioniert nur dann in der gewohnten Weise, wenn die zwei an der Bildung der Phantomschallquellen beteiligten Lautsprecher weitgehend symmetrisch zum Hörer, genauer zur Medianebene des Hörers, angeordnet sind. Dreht der Hörer seinen Kopf im Referenzpunkt der Anordnung geringfügig,  so verändern  sich die Auslenkung der Phantomschallquelle und die Lokalisierungsschärfe nur unwesentlich. Dreht der Hörer seinen Kopf jedoch so weit, dass einer der Lautsprecher hinter der Ohrenachse liegt und einer davor,  so werden die Lokalisierungskurven steiler und die Lokalisierungsschärfe geringer. Ein Lautsprecherpaar, das seitlich genau  symmetrisch zur Ohrenachse aufgestellt ist, ermöglicht keine  stabile Lokalisierung,  seitliche Phantomschallquellen werden nicht gebildet. Die Versuchsergebnisse für verschiedene Ausrichtungen eines Lautsprecherpaars, das mit dem Hörer ein gleichseitiges Dreieck bildet, zeigt Abb. 5/7. Testergebnisse für die Lautsprecheranordnung für Surround-Stereofonie nach dem Standard 5.1 im Studio mit einem Lautsprecherabstand zum Hörer von 2,5 m zeigt Abb. 5/8. Die wahrgenommenen Richtungen sind als Funktion der Pegeldifferenzen der Lautsprecherbasis C-L sowie die Lautsprecherbasis L-LS dargestellt.

5.2 Stereofonie 

 241

Abb. 5/7. Auslenkung der Phantomschallquellen mit ihren Unschärfebereichen bei Pegeldifferenzen in Abhängigkeit von dem Ausrichtungswinkel zum Hörer [Theile, 1976].

Die in Abb.  5/8 eingetragenen Streuungen  sind für die Lautsprecherbasis L-LS wesentlich größer als für die Basis C-L. Sie zeigen, dass  selbst im Referenzpunkt die Lokalisierung der seitlichen Phantomschallquelle verschwommen und instabil ist. Ferner besteht im Seitenbereich keine ausreichende Richtungsstabilität. Bewegt  sich der Hörer nur gering vom Referenzpunkt weg,  so führt das zu gravierenden Richtungsverzerrungen, die Lokalisierungskurve ist wesentlich steiler als im Bereich der vorderen Lautsprecher L-C-R, es besteht die Gefahr eines „Lochs an der Seite“. In der Mischung  sind die beiden  seitlichen Abbildungsbereiche L‑LS und R‑RS nicht  so nutzbar wie der vordere Abbildungsbereich L-C-R. Mit Ausnahme von bewegten Schallquellen kann also nicht mit einer Richtungsabbildung von seitlichen Schallquellen gerechnet werden.

242 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/8. Wahrnehmung von seitlichen Phantomschallquellen beim SurroundStandard 5.1in Abhängigkeit von deren Pegeldifferenz. 1: Versuchspersonen im Referenzpunkt, 2: ein Sitz links vom Referenzpunkt, 3: ein Sitz vor dem Referenzpunkt [Zieglmeier, 1996].

Eigenschaften und Einsatz der Phantomschallquellen Phantomschallquellen weisen in der Regel eine größere Ausdehnung auf als Realschallquellen. Die Ausdehnung und Unschärfe  steigen  mit Abnahme des Korrelationsgrads der  stereofonen Signale. Frequenzanteile unterhalb von 500 Hz führen zu einer stärkeren Ausdehnung der Phantomschallquelle in diesem Teilbereich, da dort die Lokalisationsreizselektion nicht mehr möglich ist [Silzle, 1990]. Sind mehr als zwei Lautsprecher an der Ausbildung der Phantomschallquelle beteiligt, entsteht eine Phantomschallquelle  mit noch größerer Ausdehnung. Die Phantomschallquelle weist geringfügige Klangverfärbungen im Vergleich zu einer Realschallquelle auf, beispielsweise im Vergleich der Lautsprecherwiedergabe einer Sprachaufnahme im Center vorne mit der entsprechenden Phantomschallquelle der Stereoanordnung [Silzle, 1990]. Hörerfahrungen  mit weniger trockenen Aufnahmen zeigen, dass die gefundene Klangverfärbung der Phantomschallquelle besonders bei Aufnahmen mit hohem

5.2 Stereofonie 

 243

Anteil an indirektem, diffusem Schall weit weniger wahrnehmbar ist. Die Klangfarbe wird bei solchen Aufnahmen vorwiegend durch den unkorrelierten Anteil des stereofonen Signals bestimmt. Bereits der Standard ITU-R BS. 775-1 von 1992/1994 definiert neben dem 5.1-Format das 7.1-Format, das  mit zwei zusätzlichen Kanälen die Möglichkeiten  seitlicher Abbildungen verbessern kann. In jüngerer Zeit  sind diverse Mehrkanal-Tonformate etabliert worden, die  mit größeren Lautsprecher-Setups eine wesentlich  stabilere Abbildung im gesamten oberen Halbraum  möglich  machen (vergl. Kap.  5.5.1.1). Bei verschiedenen Mischungen ist für bestimmte Einzelquellen die Richtungswahrnehmung von untergeordneter Bedeutung. Besonders die größeren Lautsprecher-Setups erlauben es deshalb, diese Quellen direkt auf die Lautsprecher zu routen, so dass dafür eine maximale Richtungsstabilität und Lokalisationsschärfe sichergestellt sind und zudem die klanglichen Vorteile von Realschallquellen gewonnen werden. 5.2.1.5 Stereohörzonen Bei den bisherigen Ausführungen wurde davon ausgegangen, dass der Hörer sich genau im Referenzpunkt der  stereofonen Lautsprecheranordnung gemäß Abb.  5.2 befindet, also  mit den Lautsprechern ein gleichschenkliges Dreieck bildet. Dies ist aber in der Praxis selten der Fall. Deshalb ist es wichtig, die Robustheit der Wiedergabeeinrichtung gegenüber Abweichungen vom Bezugshörort zu kennen. Darauf basierend kann man im Rahmen bestimmter Toleranzen die Stereohörflächen oder -hörzonen einer Lautsprecheranordnung festlegen, so dass verschiedene zwei- und  mehrkanalige Wiedergabeeinrichtungen diesbezüglich vergleichbar sind. Verlässt der Hörer die Symmetrieachse der Lautsprecheranordnung, entstehen Verzerrungen der Richtungsdarstellung. Diese sog. Abbildungsverzerrungen – angegeben in % – ergeben sich, weil die von den Lautsprechern abgestrahlten Signale mit zusätzlichen Laufzeitdifferenzen beim Hörer eintreffen und damit ein Auswandern der Phantomschallquellen in Richtung des näheren Lautsprechers verursachen. Die resultierende Auslenkung lässt sich den in Abb.  5/6 gezeigten Kurven entnehmen. Bei nur 10  cm  seitlicher Abweichung des Hörers aus der Mitte der Standard-Stereoanordnung ergibt sich eine Zeitdifferenz von 0,3 ms und daraus nach Maßgabe des Auslenkungskoeffizienten von 13 %/0,1 ms eine Richtungsverschiebung der Mitten-Phantomschallquelle um 39 %. Für die Standard-Stereoanordnung mit einem Basisöffnungswinke vonl 60°  sind dies etwa 12°. Bezieht  man diese Auslenkung auf die gesamte Abbildungsbreite, so ergibt sich daraus eine Abbildungsverzerrung, die in diesem Beispiel 20 % beträgt. Die Abbildungsverzerrung bezieht sich auf die Mitten-Phantomschallquelle, hier ist die Wirkung dieser ungewollten Laufzeitdifferenzen am größten. Die Breite der Hörfläche oder Hörzone ist bei der Zweikanal-Stereofonie sehr gering. Sie beträgt 20  cm, wenn eine Abbildungsverzerrung von 20  % zugelassen wird. Zu beachten ist, dass dies im Prinzip unabhängig von der Breite der Lautsprecherbasis gilt. Eine kleinere Lautsprecherbasis führt theoretisch nicht zu einer entsprechend schmäleren Hörzone. Dies  scheint der praktischen Erfahrung z. B.  mit Nahfeldlautsprechern zu widersprechen; Ursache hierfür ist die Wirkung des reflektierten Schalls im Wiedergaberaum auf die Ausdehnung der Phantomschallquelle. Die Lokalisierungsschärfe ist im Nahfeld der Lautsprecher

244 

 5 Tonaufnahme und Tonwiedergabe

besonders groß [Barron, 1981] und daher auch die Empfindlichkeit des Gehörs für Abbildungsverzerrungen [Theile, 2001/1], [Herrmann, 1999]. Es ist nicht sinnvoll, die Hörzone mit Hilfe besonders breit strahlender Lautsprecher zu Ungunsten der Lokalisierungsschärfe zu vergrößern, da hierdurch der nun vermehrt reflektierte Schall des Wiedergaberaums die Abbildung des Aufnahmeraums in den meisten Fällen beeinträchtigen wird. Die Mehrkanal-Stereofonie erzielt die gewünschte Verbreiterung der Stereohörfläche bei gleichzeitiger Verbesserung der Lokalisierungsschärfe. Zusätzliche Lautsprecher zwischen L und R bewirken, dass der Abbildungsbereich in  stereofone Teilbereiche aufgeteilt wird. Wendet man auf die Teilbereiche den Zusammenhang zwischen Hörzonenbreite und Abbildungsverzerrungen an,  so ergeben  sich brauchbare Hörzonenbreiten bereits für zwei oder drei Teilbereiche, siehe dazu die Kap. 5.2.2. und 5.4.2. Abb. 5/9 zeigt die Hörzonen für stereofone Wiedergabeanordnungen mit zwei, drei und vier Lautsprechern. Man erkennt, dass die Hörzonenbreite überproportional mit der Lautsprecheranzahl wächst. Da die Hörzonenbreite nicht von der Abbildungsbreite B abhängt, müsste die Lautsprecheranzahl mit B wachsen, wenn das Verhältnis Abbildungsbreite zu Hörzonenbreite etwa konstant sein sollte. Auch aus diesem Grund haben deshalb im Kino mit großer Leinwand Tonsysteme mit beispielsweise fünf Lautsprechern im vorderen Abbildungsbereich ihre Berechtigung. In der Praxis sind die Hörzonen oft etwas breiter, weil der Raumanteil im stereofonen Signal die Ausdehnung der Phantomschallquelle vergrößert. Darüber hinaus bezieht sich der Grenzwert der Abbildungsverzerrung auf den kritischsten Fall der Phantomschallquelle in der Mitte eines stereofonen Teilbereichs. Alle anderen Hörereignisrichtungen, insbesondere diejenigen in der Nähe der Lautsprecher, sind stabiler. Beim 5.1-Mehrkanal-Standard (siehe Kap. 5.4.1) hat sich in der Praxis gezeigt, dass schon ein einziger Center-Lautsprecher die Stabilität der Abbildungen in den beiden stereofonen Teilbereichen ausreichend erhöht. Das gilt auch für bildbezogene Tondarstellungen, da bei normalem Programmmaterial die Toleranzschwelle des Hörers höher liegt, einerseits wegen der Ablenkung durch den Programminhalt, andererseits wegen der assoziativen Verknüpfung von Seh- und Hörereignis mit der Ausdehnung der Quelle.

Abb. 5/9. Hörzonenbreiten für Stereofonie mit zwei, drei oder vier Lautsprechern. Hörzonenbreite im Referenzpunkt etwa 20 cm, 60 cm bzw. 150 cm bei einer zugelassenen Abbildungsverzerrung von 20 %. Die Hörzonenbreiten sind von der Abbildungsbreite B unabhängig.

5.2 Stereofonie 

 245

Bei der Mehrkanal-Stereofonie entstehen natürlich auch Abbildungsverzerrungen, wenn sich der Hörer vom Referenzpunkt – beispielsweise auf der Symmetrielinie – nach vorn oder hinten bewegt. Speziell in der Konfiguration L-C-R verursachen Laufzeitunterschiede ein Auswandern der Phantomschallquellen in den Teilbereichen L-C bzw. C-R. Diese Abbildungsverzerrungen begrenzen jedoch in der Praxis nicht die Hörflächen nach vorne und hinten,  sondern vielmehr beschränken die dabei entstehenden Verschiebungen der Lautstärkebalance zwischen den vorderen Lautsprechern und den Surround-Lautsprechern die Hörfläche. Sie können z. B. besonders die beabsichtigte Wirkung des indirekten Schalls bei Musikaufnahmen beeinträchtigen, siehe dazu auch die Kap. 5.2.4 und 5.4.3. Die Stereo-Standard-Abhörposition  sieht bei Zweikanal-Stereofonie ein gleichseitiges Dreieck vor, entsprechend ist der sog. Sweet Spot bei Mehrkanal-Stereofonie definiert (siehe Kap. 5.4.1). In der Praxis der Tonaufnahme beurteilen in der Regel zumindest zwei Personen das Klanggeschehen, Tonmeister und Toningenieur; beide können  sich nicht zugleich am optimalen Abhörpunkt befinden. Wie wirkt sich dies auf die Hörzone aus? Sitzen beide hintereinander um den optimalen Platz, so gibt es – auch bei drei Zuhörern – keine Einschränkungen der Beurteilungsfähigkeit. Hingegen ist eine Klangbeurteilung bei Plätzen nebeneinander unbrauchbar. Bei einer Aufnahme in Laufzeitstereofonie  mit 40  cm Mikrofonbasis z. B. bewirkt eine Deplatzierung aus der Mitte um nur 5 bis 10 cm bereits eine inakzeptable Verschiebung des Klangbilds. Bei einer Aufnahme in Intensitätsstereofonie ist diese Verschiebung zwar geringer, aber dennoch inakzeptabel. Ein Ausgleich des Abbildungsfehlers bei der Wiedergabe über den Abhörbalancesteller ist nicht zulässig. Bei Mehrkanal-Stereofonie gilt im Prinzip dasselbe, wenn auch der Einfluss der seitlichen Verschiebung deutlich geringer ist; dafür wird aber der Einfluss der Verschiebung vorne/hinten in geringem Umfang wirksam.

5.2.2 Aufnahmewinkel eines Stereomikrofons Stereomikrofone – Mikrofonsysteme, die aus zwei einzelnen Mikrofonen zusammengesetzt  sind – erzeugen Pegel- und/oder Laufzeitunterschiede, die die Phantomschallquelle nach Maßgabe der in Kap. 5.2.1 behandelten Lokalisierungskurven seitlich auslenken. Entspricht ein bestimmter Schalleinfallswinkel einer Schallquelle α am Stereomikrofon beispielsweise einer Laufzeitdifferenz von 0,4 ms, so ergibt sich dadurch gemäß Abb. 5/6 eine Auslenkung der Phantomschallquelle um 50  % der Lautsprecherbasisbreite, was in der Standard-Zweikanalanordnung einer Richtungsverschiebung um 15° entspricht, die Phantomschallquelle wird auf der Lautsprecherbasis also halb seitlich abgebildet. Man kann mit dieser Methode für beliebige stereofone Mikrofonanordnungen, die von der Frequenz unabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, Abbildungskurven bestimmen, die den Zusammenhang zwischen dem Schalleinfallswinkel α und der Phantomschallquellenauslenkung direkt beschreiben. Abbildungskurven von Stereomikrofonen, die frequenzabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, z.  B. Trennkörper­ verfahren (dazu Kap. 5.3.4) werden durch Messungen im Experiment mit Testhörern ermittelt.

246 

 5 Tonaufnahme und Tonwiedergabe

5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen Abb. 5/10 zeigt beispielhaft eine Abbildungskurve eines zweikanaligen Mikrofons; die Schallquellenrichtung α  =  20° ergibt hier eine Auslenkung der Phantomschallquelle von 50  % entsprechend einer Abbildungsrichtung von 15° in der konventionellen Zweikanal-Stereoanordnung. Man erkennt, dass nur die Schallquellen aus Richtungen bis maximal ± 45° zwischen dem linken bzw. rechten Lautsprecher abgebildet werden, sie befinden sich innerhalb des sog. Aufnahmewinkels oder Aufnahmebereichs, in diesem Beispiel beträgt er 90°. Innerhalb dieses Bereichs findet eine ausgeglichene Richtungsabbildung statt. Schallquellen, die außerhalb ± 45° liegen, erzeugen zu große Signalunterschiede und erscheinen in den Lautsprechern L bzw. R. Die Lokalisierungskurven für Pegel- bzw. Laufzeitdifferenzen (Abb. 5/4 bzw. 5/6) zeigen in den inneren Bereichen bis zu einer Auslenkung von 75 % einen weitgehend linearen Verlauf. Für diese Bereiche gelten Auslenkungskoeffizienten von 7,5  %/dB bzw. 13  %/0,1  ms. Diese Linearität findet sich in den Abbildungskurven der Stereomikrofone wieder, siehe Abb. 5/10. Für größere Werte gibt es Übergangsbereiche, die durch eine unsichere Wahrnehmung der Richtung nahe den beiden Lautsprechern gekennzeichnet  sind; auch ist dieser Winkelbereich in der Praxis für die Abbildung des stereofonen Klangbilds nicht sehr wichtig. Um für Mikrofonanordnungen zuverlässige und eindeutige Angaben über deren Aufnahmebereich zu machen, wurde deshalb vorgeschlagen, als Aufnahmewinkel 75 % bzw. recording angle 75 % für den Winkelbereich der Lautsprecherbasis von ± 75 % einzuführen [Williams, 1987]. Der Aufnahmewinkel 75 % ist in der Abbildungskurve in Abb. 5/10 eingetragen, er beträgt in diesem Beispiel 60°. Dies ist der Bereich, in dem die einzelnen Schallquellen linear und deutlich lokalisierbar abgebildet werden, der also eine gute Basis für die Planung einer Aufnahme darstellt.

Abb. 5/10. Abbildungskurve und Aufnahmewinkel eines zweikanaligen Stereomikrofons. Schallquellen in den schraffierten Richtungsbereichen werden in den Lautsprechern L bzw. R abgebildet.

5.2 Stereofonie 

 247

5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen Es besteht im Auslenkungsbereich ± 75 % eine Gleichwertigkeit von Pegel- und Laufzeitdifferenzen gemäß der beiden Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms: 1 dB Pegelunterschied erzeugt demnach etwa dieselbe Auslenkung wie 60  μs Laufzeitdifferenz (Abb. 5/11). Für Auslenkungsbereiche über 75 %, also für die äußeren Flanken der Stereobasis, sind diese Äquivalenzen nicht mehr anwendbar. Tragen die Pegel- und Laufzeitdifferenzen etwa gleich viel zur Abbildungsrichtung bei, so spricht man auch von Äquivalenzmikrofonverfahren. Die Abbildungskurven und Aufnahmewinkel oder -bereiche sind auch für Stereomikrofone bestimmbar, bei denen Pegel- und Laufzeitdifferenzen gleichsinnig zusammenwirken. Eine wichtige Regel lautet: Wird eine Phantomschallquelle auf Grund von Pegeldifferenzen ΔL gebildet und zusätzlich um Laufzeitdifferenzen Δt in gleicher Richtung ausgelenkt, so ist die gesamte Auslenkung etwa gleich der Summe der beiden einzelnen Auslenkungen.

Abb. 5/11. Äquivalenzen von Laufzeit- und Pegeldifferenzen bei der Auslenkung von Phantomschallquellen, zugehöriger Lautsprecherwinkel ± 75 % um die Mitte.

248 

 5 Tonaufnahme und Tonwiedergabe

Auf dieser Grundlage und in Kenntnis der Mikrofon-Richtcharakteristiken, der daraus resultierenden Pegeldifferenzen, der durch den Abstand zweier Mikrofonkapseln gegebenen Laufzeitdifferenzen sowie der in Kap. 5.2.1 angegebenen Lokalisierungskurven können die Abbildungskurven und Aufnahmewinkel von Stereomikrofonanordnungen bestimmt werden. Prinzipiell existiert eine riesige Anzahl  möglicher Kombinationen von Mikrofonanordnungen. Einige davon werden in Kap. 5.3.4 vorgestellt. Für jede Anordnung lässt sich der Aufnahmewinkel bestimmen. Systematisch hat Michael Williams ihn für alle Richtmikrofontypen errechnet mit dem Ergebnis der sog. Williams-Diagramme [Williams, 1987]. Abb. 5/12 zeigt die Zusammenhänge der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nieren. Als Beispiel sind die Werte für die ORTF-Anordnung (siehe Kap. 5.3.4) eingetragen, die Mikrofonbasis beträgt hier 17,5 cm und die Mikrofon-Versatzwinkel ± 55°, der Mikro­ fon-Öffnungswinkel zweimal 55°  =  110°. Man findet im Diagramm einen Aufnahmewinkel von etwa 95°. Der Versatzwinkel ist der Winkel, um den ein Mikrofon aus der Hauptrichtung, der Richtung zur Schallquelle oder zum Zentrum der Schallquelle, ausgeschwenkt wird.

Abb. 5/12. Williams-Diagramme, Zusammenhang von Aufnahmewinkel oder -bereich, Versatzwinkel und Mikrofonbasis für zwei Nierenmikrofone nach Williams [Williams, 1987], die sog. ORTF-Anordnung ist als Beispiel eingetragen, Einstellungen in den schraffierten Flächen sind für Aufnahmen ungeeignet.

5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen Die Kenntnis des Aufnahmewinkels des einzusetzenden Stereomikrofons hat in der Praxis eine große Bedeutung. Das trifft ebenso für Mehrkanal-Aufnahmen zu, denn auch bei Anwendung von dreikanaligen Stereomikrofonen möchte man die Ausdehnung des Klangkörpers oder die Richtungsverteilung der aufzunehmenden Schallquellen mit Hilfe des Aufnahmewinkels optimal abbilden.

5.2 Stereofonie 

 249

Abb. 5/13. Abbildungskurven für die stereofonen Teilbereiche L­-C und C-R eines dreikanaligen Stereomikrofons und resultierender Aufnahmewinkel oder -bereiche.

Wie bereits in Kap.  5.2.1.5 erläutert, ist der vordere Abbildungsbereich in zwei nebeneinander liegende  stereofone Teilbereiche L-C und C-R aufgeteilt,  so dass die Lokalisierungskurven für Pegel- und Laufzeitdifferenzen (Abb. 5/6 bzw. 5/8) ihre Gültigkeit behalten. Die gesamte Abbildungsebene L-R  setzt  sich aus dem linken und rechten Bereich zusammen. Die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, jedoch mit dem Vorteil der vergrößerten Stereohörfläche, wie in Kap. 5.2.1 erläutert. Man erkennt in Abb. 5/13, dass die Richtungsübersetzung eines geeigneten dreikanaligen Mikrofons nach Maßgabe der für die Teilbereiche relevanten Abbildungskurven erfolgt, siehe auch Abb. 5/10. Das setzt allerdings voraus, dass die äußeren Mikrofonkapseln L und R einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Dies ist möglich und wird in Kap. 5.4.2 näher erläutert. 5.2.2.4 Berechnungswerkzeuge Ein nützliches Werkzeug zur Berechnung der Abbildungskurven und Abbildungswinkel für beliebige zwei- oder dreikanalige Anordnungen mit Mikrofonen unterschiedlicher Richtcharakteristiken ist der Image Assistant (Abb. 5/14); er wurde von Helmut Wittek entwickelt und in Hörversuchen bestätigt [Wittek, Image Assistant], [Wittek, 2002]. Er ist aktuell im Internet frei verfügbar als „SCHOEPS Image Assistant v3“ als browser-Version und im Apple app store frei verfügbar. Es bietet zusätzlich die Berechnung der vom Schalleinfallswinkel abhängigen Pegel- und Laufzeitdifferenzen zwischen den Kanälen, den Gesamtschallpegel für jede Zweikanal- oder Dreikanal-Mikrofonanordnung in Abhängigkeit von den Richtcharakteristiken Kugel, breite Niere, Niere, Superniere und Acht.

250 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/14. Screenshot des Image Assistant 2.1 (www.hauptmikrofon.de). Die Abbildungskurve sowie der Aufnahmewinkel oder -bereiche einer beliebigen zwei- oder dreikanaligen Mikrofonanordnung kann grafisch dargestellt werden, hier ist die ORTF-Anordnung dargestellt [Wittek, Image Assistant].

Grundlage der Berechnung  sind die bei der jeweiligen Mikrofonanordnung auftretenden Pegel- und Laufzeitdifferenzen. Aus ihnen wird auf Grund der in Kap.  5.2.1 beschriebenen Gesetzmäßigkeiten die Abbildungskurve ermittelt. Gleichzeitig wird der Aufnahmewinkel und der Aufnahmewinkel 75 % angegeben. Dieses Hilfsmittel hilft nicht nur dem Tonmeister bei der Auswahl und Platzierung der Mikrofone,  sondern vermittelt auch die grundlegenden Eigenschaften der verschiedenen Stereomikrofontechniken wie z. B. die Gleichmäßigkeit oder die Stabilität der Abbildung. Außerdem können mit Hilfe des Werts Aufnahmewinkel 75 % verschiedene, im Hinblick auf die Abbildungskurve gleichwertige Anordnungen ermittelt werden. Der Tonmeister kann  somit fundierter entscheiden, welche dieser Anordnungen seinem Ziel am nächsten kommen, indem er weitere Qualitätsaspekte berücksichtigt wie Klangfarbe, Stabilität, Abbildungsschärfe und oft auch die physische Größe der Mikrofonanordnung.

5.2 Stereofonie 

 251

5.2.3 Theorien zur Lokalisierung von Phantomschallquellen Zur Erklärung der Phänomene der Lokalisierung von Phantomschallquellen wurde bisher i. Allg. die sog. Theorie der Summenlokalisierung (Kap. 5.2.3.1) herangezogen. Sie kann einige Phänomene der Wahrnehmung zufriedenstellend erklären, andere Phänomene  sind im Rahmen dieser Theorie nicht schlüssig zu interpretieren. Dabei bleibt eine Reihe von Fragen völlig offen; insbesondere ist ihr grundsätzlicher Mangel, dass sie nur für Lautsprecherwiedergabe gilt, für andere Phänomene der Richtungs- und Entfernungswahrnehmung aber keine Erklärungen bietet. 1980 hat Günther Theile [Theile, 1980/1] ein Assoziationsmodell der Wahrnehmung vorgestellt, das eine große Zahl unterschiedlicher Phänomene der Richtungs- und Entfernungswahrnehmung bei Lautsprecher- und Kopfhörerdarbietung  sowie beim natürlichen Hören in einheitlich mit einer einzigen Theorie erklären kann (Kap. 5.2.3.2). Theile geht gegenüber früheren Theorien, die mehr an nachrichtentechnischen Modellen orientiert sind, von einem gestaltpsychologischen Ansatz aus, der die Hörerfahrung und Lernprozesse des Hörens zum Ausgangspunkt nimmt. 5.2.3.1 Summenlokalisierung Die Summenlokalisierung geht von der Annahme aus, dass bei der Wahrnehmung von Phantomschallquellen bei Lautsprecherdarbietung aus den Schallfeldüberlagerungen an den beiden Ohren Summensignale resultieren, deren Komponenten das Gehör nicht trennen kann. Es wird vermutet, dass die Signale an den beiden Ohren bei der Lokalisierung einer Phantomschallquelle und bei der Lokalisierung einer entsprechenden realen Schallquelle an demselben Ort gleichwertig sind, obwohl sie nicht identisch sind, wie Abb. 5/1 deutlich zeigt. In der Literatur werden verschiedene Theorien hierzu beschrieben, die jedoch nur einzelne Bereiche der räumlichen Wahrnehmung erfassen, eine allgemein gültige Theorie ist nicht aufgestellt worden [Blauert, 2000]. Ausgehend von Tonimpulsen, die entweder mit einer Pegeldifferenz oder mit einer Zeitdifferenz von zwei Lautsprechern in Stereoanordnung abgestrahlt werden, und den dazugehörigen Reizmustern an den beiden Ohren (Abb. 5/3), liegt zunächst die Vermutung nahe, dass der am Ohr jeweils zuerst eintreffende Impuls bzw. bei gleichzeitigem Eintreffen der lautere Impuls die Richtungswahrnehmung bestimme; demgegenüber konnte in Versuchen gezeigt werden, dass auch die weiteren, später eintreffenden Impulse von Einfluss auf die Richtungswahrnehmung  sind. Bei Dauertönen kann eine für die  stereofone Übertragung brauchbare Zuordnung von Lautsprecher- und Ohrsignalen nur unter etwa 800 Hz bestehen. Ein wesentlicher Einwand gegen die Summenlokalisierung bezieht sich auf die wahrgenommene Klangfarbe der Phantomschallquellen. Da es an den Ohren zu einer Überlagerung zweier zeitverzögerter Signale kommt, die auf den unterschiedlichen Abstand der beiden Ohren zu jeweils einem Lautsprecher zurückzuführen  sind (Abb.  5/3),  müssten Phantomschallquellen eigentlich eine Klangfärbung aufweisen, wie sie durch ein Kammfilter erzeugt wird. Abb.  5/1, linkes Bild unten, zeigt den Frequenzgang am linken Ohr, wie er durch die Überlagerung der beiden identischen, gleichzeitig abgestrahlten Lautsprechersignale entsteht. Zu sehen ist ein Pegeleinbruch von mehr als 10 dB bei 2 kHz. Die beiden Ohrsignale 

252 

 5 Tonaufnahme und Tonwiedergabe

sind identisch. Trotz dieser objektiv vorhandenen deutlichen linearen Verzerrung wird eine Klangfärbung kaum wahrgenommen. Dies weist auf Wirkungsmechanismen der Wahrnehmung von Phantomschallquellen hin, die die Theorie der Summenlokalisierung nicht erklären kann. 5.2.3.2 Assoziationsmodell Das Assoziationsmodell von Theile ermöglicht eine weitgehend einheitliche Erklärung aller wichtigen Phänomene des räumlichen Hörens [Theile, 1980/1, 1980/2, 1981/1]. Es macht auch den Einwand der Klangfärbung bei der Wiedergabe von Phantomschallquellen gegenstandslos. Das Modell geht von der Hypothese aus, dass die Wahrnehmung von Ort und Klanggestalt eines Hörereignisses stets durch einen Vergleich mit gespeicherten Mustern erfolgt. Die dabei ablaufende  spontane assoziative Mustererkennung ist ein Prozess, der ein eintreffendes akustisches Muster mit einem im Gehirn gespeicherten Muster vergleicht, selbst dann, wenn nur Teile des gespeicherten Musters im eintreffenden akustischen Muster enthalten  sind. Dieser Mustervergleich läuft z. B. auch bei einem Telefonat ab, bei dem der Anrufer – wenn bekannt – bereits beim ersten Wort automatisch identifiziert wird. Die räumliche Wahrnehmung resultiert dabei grundsätzlich aus zwei unterschiedlichen, nacheinander ablaufenden Verarbeitungsprozessen: Entsprechend den beiden grundlegenden und getrennten Hörereigniseigenschaften Ort und Gestalt durchläuft ein akustischer Reiz in der ersten Stufe eine Ortsassoziation, in der zweiten Stufe eine Gestaltassoziation. Beide Prozesse bestimmen stets gemeinsam die Hörereigniseigenschaften. Abb. 5/15 zeigt das Prinzip des Assoziationsmodells. Das Assoziationsmodell führt die Lokalisierung auf einen Prozess zur Decodierung eines Lokalisierungsreizes zurück. Ein Lokalisierungsreiz liegt vor, wenn hinreichend breitbandige Ohrsignale sich hinsichtlich der Zeit- und spektralen Merkmale einem einzigen Schallereignisort zuordnen lassen. Im überlagerten Schallfeld  sind unter bestimmten Bedingungen gleichzeitig mindestens zwei Lokalisierungsreize unterscheidbar. Sowohl in der Situation bei Phantomschallquellen als auch in Experimenten zur Lateralisation, also der Lokalisierung von Hörereignisorten im Kopf, führen zwei unterschiedliche Lokalisierungsreize zu einem einzigen Hörereignisort.

Abb. 5/15. Assoziationsmodell der Hörwahrnehmung nach [Theile, 1980/1].

Die Funktion des Gehörs bei der Lokalisierung einer Schallquelle kann nur unter Lokalisierungsbedingungen untersucht werden. Das setzt voraus, dass das Schallereignis ein ausrei-

5.2 Stereofonie 

 253

chend breitbandiges Spektrum aufweist. Der Wahrnehmungsprozess, der zur Lokalisierung führt, ist nur möglich, wenn spektrale Merkmale die Zuordnung der Hörereignisentfernung zulassen. Diese Modellvorstellung kann Erklärungen einiger wichtiger Hörphänomene liefern: Stereofone Lautsprecherwiedergabe Bei  stereofoner Lautsprecherwiedergabe treten Hörereignisse auf, die  sich ebenso  mit entsprechend zugeordneten realen Einzelschallquellen im freien Schallfeld erzeugen lassen. Es ist aber nicht  möglich, den in beiden Fällen identischen Hörereignissen entsprechend auch identische Ohrsignale zuzuordnen. Relativ große Unterschiede der Ohrsignalmerkmale hinsichtlich des Spektrums und interauralem Kohärenzgrad führen zu dem Schluss, dass keine Summenlokalisierung stattfindet: Die Phantomschallquelle lässt sich nicht als Ersatzschallquelle auffassen. Vielmehr  muss angenommen werden, dass die Schallsignale auf Grund der unterschiedlichen Sendeorte im Gehör zunächst räumlich entschlüsselt werden als Wirkung der Ortsassoziationsstufe. Erst nach erfolgter Decodierung des Orts verschmelzen die Reize als Wirkung der Gestaltassoziationsstufe, weil die Lautsprecher hinreichend ähnliche Signale abstrahlen. Phantomschallquellen und Gesetz der ersten Wellenfront Die Grenze für den Bereich der Gültigkeit des Gesetzes der ersten Wellenfront (siehe Kap. 3.4.1) wird zu kleinen Verzögerungszeiten hin durch den Übergang zur Bildung der Phantomschallquellen definiert. Beide Phänomene lassen sich zurückführen auf die zeitabhängige Bewertung nacheinander eintreffender Reizantworten der Ortsassoziationsstufe an der Gestaltassoziationsstufe. Die Ortsassoziationsstufe wirkt im überlagerten Schallfeld als Filter zur Befreiung der Sendesignale von der räumlichen Information,  man kann von einer räumlichen Decodierung  sprechen,  so dass in der darauffolgenden Gestaltassoziationsstufe nur die Sendesignalbeziehung bewertet wird. Zwei Sendesignale mit Laufzeitdifferenzen führen dazu, dass zwei Lokalisierungsreize nicht zeitgleich eintreffen. Die Gesetzmäßigkeiten für die daraus resultierenden Hörereignisorte, nämlich Phantomschallquellen, und das Gesetz der ersten Wellenfront, lassen sich als „Gesetz des ersten Lokalisierungsreizes“ verstehen. Cocktailparty-Effekt Dieser Effekt besagt, dass ein Nutzsignal, das aus einer bestimmten Richtung eintrifft, von einem Störsignal, das aus einer anderen Richtung eintrifft, bei zweiohrigem Hören weniger stark verdeckt wird als bei einohrigem Hören. Der Effekt ist zurückzuführen auf die Wirkung der Ortsassoziationsstufe: Zwei Schallquellen rufen normalerweise nicht nur zwei verschiedene Ortsassoziationen, sondern zusätzlich zwei verschiedene Gestaltassoziationen hervor. Die resultierenden beiden Hörereignisse treten dann also nach zweistufiger Selektion auf, woraus  sich die größtmögliche Auflösung ergibt. Bei einohrigem Hören geht die Selektionswirkung der Ortsassoziationsstufe zumindest teilweise verloren, weil die ortsbestimmenden Reizmuster unvollständig vorliegen. Die gemeinsame Wirkung der beiden Verarbeitungsstufen, die von elementaren Hörerfahrungen geprägt werden, kommt besonders deutlich durch den Cocktailparty-Effekt zum Ausdruck. Er wurde 1953 von C. Cherry erstmals wissenschaftlich beschrieben, nachdem er Konversationen auf Partys monofon aufgenommen hatte und die Sprachverständlichkeit überraschend schlecht war.

254 

 5 Tonaufnahme und Tonwiedergabe

Lateralisation bei Kopfhörerdarbietung Lateralisation ist die seitliche Verschiebung einer „Schallquelle im Kopf“ bei Kopfhörerwiedergabe. Experimente zur Lateralisierung geben also Aufschlüsse über die Auswertung interauraler Signalunterschiede bei Kopfhörerwiedergabe, bei der die Signale nur jeweils ein Ohr erreichen. Sie geben nur Auskunft über die Funktion der Gestaltassoziationsstufe, weil die beiden Sendesignale unabhängig von der Senderentfernung einzeln entschlüsselt und der Gestaltassoziationsstufe zugeführt werden. Experimente zur Lateralisation lassen deshalb grundsätzlich keine Rückschlüsse zu auf die Funktion des Gehörs bei der Lokalisierung einer Einzelschallquelle. Sie führen vielmehr zu Gesetzmäßigkeiten einer „Phantomschallquelle im Kopf“, siehe auch Kap. 5.5.4.1. Eine „Ersatzschallquelle im Kopf“ gibt es nicht. Die Auswertung unterschiedlicher Ohrsignale, die das Gehör bei der Lokalisierung einer Schallquelle vornimmt, lässt sich prinzipiell nicht mit zwei hinreichend nahe an den Ohren befindlichen Schallquellen untersuchen. Hörversuche mit Kopfhörern sind Hörversuche mit zwei Schallquellen – es sei denn, es werden Kunstkopfsignale dargeboten, in diesem Fall existiert eine Ersatzschallquelle. Das aus dem Assoziationsmodell gewonnene Verständnis der Funktion des Gehörs beim räumlichen Hören hat maßgeblich zu verschiedenen Entwicklungen und Anwendungen im Bereich der stereofonen Aufnahme- und Wiedergabetechnik beigetragen. Dazu gehören die Weiterentwicklung der Kunstkopftechnik (siehe Kap.  5.5.5.), die Diffusfeldentzerrung für Studio-Kopfhörer (siehe Kap.  5.5.4.2), die Entwicklung des Kugelflächenmikrofons (siehe Kap. 5.2.4 und 5.3.4.3), das Konzept der raumbezogenen Stütztechnik (siehe Kap. 5.2.4 und 5.3.5), Konzepte der Verbindung von Wellenfeldsynthese und Stereofonie (siehe Kap. 5.5.3.1).

5.2.4 Räumliche stereofone Abbildung Das Gehör wertet verschiedene Merkmale des Schallfelds zu räumlichen Hörereignismerkmalen aus, dazu gehören neben der Hörereignisrichtung einschließlich ihrer Erhebung die Entfernung, die räumliche Tiefe, der Raumeindruck und die Umhüllung. Der Begriff Raumeindruck umfasst zwei Attribute des Klangbilds: Das erste ist „Räumlichkeit“, eine räumliche Verbreiterung des Hörereignisses, verursacht durch frühe Reflexionen mit einer Verzögerung von 10 bis 80 ms. Das zweite ist „Halligkeit“, eine zeitliche Verwischung des Hörereignisses, verursacht von späten Reflexionen und Nachhall. In Tab. 5/1 ist  schematisch dargestellt, welche Bedeutung der Direktschall, die frühen Reflexionen, der Nachhall und der umhüllende Schall für die einzelnen Klangbildattribute besitzen. Der umhüllende Schall kann sowohl umgebenden diffusen Schall, in der Praxis meist „Atmo“ genannt; als auch den hörbar ausklingenden Nachhall enthalten. Siehe auch Kap. 1.2. Die Wirkung des reflektierten Schalls ist in Abb. 5/16 dargestellt. Man erkennt, dass das natürliche Muster der frühen Reflexionen  mit einer Verzögerung von 15 bis 50  ms für das räumliche Hören eine besonders wichtige Rolle spielt. Die Attribute Entfernung, räumliche Tiefe, Räumlichkeit − in der Literatur auch apparent source width, scheinbare Quellenausdehnung genannt −  sind von diesem Schallanteil beeinflusst. Das Gehör entnimmt den frühen Reflexionen auch die Informationen über die Größe des Raums. Besonders dieser Teil des reflektierten Schalls erfordert für die Aufnahme Kenntnis und Sorgfalt.

5.2 Stereofonie 

 255

Tab. 5/1. Zusammenhang von Klangbildattributen und Schallfeldtypen. Attribute des Klangbilds

Richtung und Erhebung

Komponenten des Schallfelds Direktschall

frühe, sog. erste Reflexionen

●●



Entfernung, Tiefe

●●

Räumlichkeit

●●

Halligkeit

umhüllender Schall

● ●●

Raumeindruck

●●

●●



●●

Umhüllung Klangfarbe

Nachhall

● ●●

●●

Abb. 5/16. Zuordnung der Klangbildattribute zum zeitlichen Ablauf des Raumschalls.

Hinzu kommt, dass die Möglichkeiten der räumlichen Darstellung bei Anwendung stereofoner Verfahren mehr oder weniger eingeschränkt sind, besonders bei der Zweikanal-Stereofonie. Die Kenntnis auch darüber ist hilfreich, um das gewünschte Klangbild im gegebenen Rahmen zufriedenstellend realisieren zu können. In den folgenden beiden Kapiteln werden die entsprechenden Eigenschaften der Zwei- und Mehrkanal-Stereofonie erläutert. 5.2.4.1  Prinzipien der Zweikanal-Stereofonie Welche Qualität der  stereofonen Darstellung eines räumlichen Klangbilds ist grundsätzlich möglich bei zweikanaliger Lautsprecherwiedergabe, welche stereofonen Lautsprecher­ signale benötigt das Gehör dazu? Die Antworten lassen sich so zusammenfassen: Entfernung der Phantomschallquelle Die Entfernung der Phantomschallquelle ist gleich der mittleren Entfernung der beiden Stereo-Lautsprecher. Phantomschallquellen außerhalb der stereofonen Lautsprecherbasis sind nicht möglich. Verfahren, welche durch Kompensation der interauralen Übersprechanteile der Lautsprecher die kopfbezogene Reproduktion binauraler Signale anstreben, arbeiten nicht mit Phantomschallquellen.

256 

 5 Tonaufnahme und Tonwiedergabe

Akustisches Umfeld Alle Schallfeldanteile – Direktschall, frühe Reflexionen und Nachhall – erreichen den Hörer nur aus dem vorderen Abbildungssektor ±  30° und erzeugen nur vor ihm ein  stereofones Klangbild. Die räumliche und zeitliche Auflösung des in Abb. 5/16 dargestellten Direktschalls und der frühen Reflexionen zeigt Abb. 5/17. Die im Originalraum vorhandenen Richtungen der frühen Reflexionen  sowie die Richtungsdiffusität des Nachhalls  sind auf den Abbildungssektor ±  30° zusammengedrängt. Das akustische Umfeld des Hörers ist allein durch den Wiedergaberaum festgelegt und für die Darstellung des Originalraums normalerweise nicht oder nur sehr bedingt geeignet.

Abb. 5/17. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie. Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.

Räumliche Tiefe Die räumliche Perspektive wird lautsprecherbezogen, d. h., in einer Simulationsebene zwischen den Lautsprechern dargestellt, ähnlich der perspektivischen Darstellung auf einem Bild. Die reale Entfernung der  stereofonen Abbildungsebene entspricht der realen Entfernung eines Bilds (Abb. 5/18). Im Bild wird räumliche Tiefe durch visuelle räumliche Merkmale dargestellt. In ähnlicher Weise werden Tiefe und Entfernung in der stereofonen Abbildungsebene durch räumliche Merkmale eines Schallfelds dargestellt, v. a. also durch frühe Reflexionen, Nachhall, Lautstärkenverhältnisse und Klangfarbe. Darstellung der räumlichen Perspektive Die Darstellung der räumlichen Perspektive in der Simulationsebene gelingt umso besser, je genauer die interauralen Signaldifferenzen beim natürlichen Hören durch die Unterschiede der Lautsprechersignale nachgebildet werden. Das Gehör erkennt die Beziehungen zwischen linkem und rechtem Lautsprechersignal und wertet sie gemäß seiner Hörerfahrung aus.

5.2 Stereofonie 

 257

Abb. 5/18. Simulation von räumlicher Tiefe in einer Abbildungsebene. Der Abstand des Bilds kann mit dem Abstand von Stereolautsprechern vor dem Zuhörer verglichen werden.

Zusammenfassend ist somit festzustellen, dass die zweikanalige stereofone Abbildung auf der direkten Auswertung der Beziehungen der Lautsprechersignale durch das Gehör beruht, nicht die resultierenden Unterschiede der Ohrsignale beim Hörer im Wiedergaberaum sind entscheidend. Vielmehr lassen sich die räumlichen Eigenschaften des Klangbilds optimieren, indem sowohl das Hauptmikrofon als auch die Verarbeitung der Stützsignale möglichst natürliche interaurale Signaldifferenzen erzeugen (siehe auch Kap.  5.3.4.3  sowie 5.3.5.3). Besonders die reine Intensitätsstereofonie sowie die gebräuchliche Intensitätsstütztechnik erfüllen diese Forderung ohne unterstützende Signalverarbeitung nicht ausreichend. 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie Durch den Einsatz zusätzlicher Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers wird eine weitere Dimension hinzugefügt, so dass sich das akustische Umfeld des Hörers real gestalten lässt. Die zwei Surround-Kanäle im 3/2-Standardformat ermöglichen es, die Richtungsverteilung von Direktschall und reflektiertem Schall zweidimensional zu reproduzieren. Das in Abb. 5/16 gezeigte Reflexionsmuster wirkt – im Gegensatz zur ZweikanalStereofonie – in der notwendigen Richtungsauflösung, siehe Abb. 5/19. Die dargestellte Richtungsverteilung basiert auf stereofoner Wiedergabe der Reflexionen. Die für die Seiten mangelhafte Stabilität von Phantomschallquellen (siehe Kap. 5.2.1) ist hier nicht  störend, weil die von allen Seiten am Surround-Mikrofon eintreffenden Reflexionen ganz unterschiedliche Laufzeitdifferenzen in den Kanälen aufweisen. Der gewünschte Effekt ist in der Hörzone deshalb weitgehend unabhängig vom Hörerplatz. Die stereofone Qualität ändert sich von einem simulierten hin zu einem wirklichen Eindruck räumlicher Tiefe, wenn die  seitlichen Reflexionen tatsächlich den Zuhörer von der Seite erreichen. Sie erzeugen eine natürliche raumspezifische interaurale Dekorrelation der beiden Ohrsignale und damit Tiefe und Räumlichkeit. Man weiß aus der Raumakustik von Konzertsälen, dass  seitliche Reflexionen besonders wichtig  sind. In Vergleich dazu  sind

258 

 5 Tonaufnahme und Tonwiedergabe

frühe Reflexionen aus der Medianebene, in einem Konzertsaal Reflexionen von der Decke, eher schädlich.

Abb. 5/19. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Mehrkanal-Stereofonie 5.1 Surround). Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.

Die Erweiterung um eine zweite Dimension bedeutet, dass die Anzahl der im  stereofonen Signal für Zweikanal-Wiedergabe enthaltenen Reflexionen  sich nicht erhöht. Vielmehr werden diese Reflexionen nun räumlich verteilt abgebildet, wie in den Abb. 5/16 und 5/19 dargestellt. Das hat Konsequenzen für die Aufnahme. Es ist in Hinblick auf korrekte Abbildung der frühen Reflexionen wichtig, dass die Mikrofon-Konfiguration diese Trennung der Abbildungsrichtungen weitgehend gewährleistet. Geschieht das nicht, so ist die reproduzierte Reflexionsdichte zu hoch, da einzelne Reflexionen  mehrfach abgebildet werden. Näheres dazu in Kap. 5.4.3. Bei der Wiedergabe  seitlicher Reflexionen werden die Lautsprecher des linken und rechten Surroundkanals LS und RS nicht als solche seitlich wahrgenommen, sondern sie verbessern die Qualität der stereofonen Abbildung vor dem Hörer durch Schaffung von Tiefe − ein alter Wunsch in der Zweikanal-Stereofonie. Der eigentliche stereofone Abbildungsbereich vergrößert sich dadurch nicht. Auch bezüglich der Wirkung des Nachhalls sind die Lautsprecher bei richtiger Handhabung der Aufnahmetechnik (siehe Kap. 5.4) nicht als Schallquellen wahrnehmbar. Ausreichende Dekorrelation des Nachhalls und des umgebenden diffusen

5.2 Stereofonie 

 259

Schalls in den vier Kanälen L, R, LS und RS ermöglicht im Bereich der Hörzone eine ausgewogene Umhüllung. Insgesamt geht durch das Hinzufügen der Surround-Lautsprecher die Darstellung räumlicher Attribute des Klangbilds von der Qualität einer Simulation in die Qualität einer realen Wahrnehmung über. Der Hörer fühlt sich in das akustische Geschehen einbezogen. Das akustische Umfeld des Hörers ist nicht durch den Wiedergaberaum geprägt, vielmehr kann es bei der Aufnahme durch den Tonmeister gestaltet werden im Sinne einer optimalen Reproduktion räumlicher Attribute oder zur Erzeugung eines neuen künstlichen Raums.

5.2.5 Begriffe zur stereofonen Richtungsabbildung In Tab. 5/2 sind die Begriffe zur stereofonen Richtungsabbildung, so wie sie in Kap. 5.2 eingeführt und erläutert wurden, mit kurzen Definitionen zusammengestellt. Sie gelten übergreifend für Stereofonie bei Lautsprecherwiedergabe, für die Aufnahmetechnik der ZweikanalStereofonie ebenso wie für die Aufnahmetechnik der Mehrkanal-Stereofonie.

Tab. 5/2. Begriffe zur stereofonen Richtungsabbildung.

Lautsprecherwiedergabe

Begriff

Definition

Basisbreite, Lautsprecherbasis

Abstand zwischen zwei Lautsprechern, die zusammen Phantomschallquellen bilden

Basisöffnungswinkel

Winkel, unter dem die zwei Lautsprecher, die Phantomschallquellen bilden, vom Hörort aus erscheinen, bei Zweikanal-Standardanordnung 60°

Zweikanal-Standardan­ ordnung

Anordnung der Stereolautsprecher in einem gleichseitigen Dreieck mit dem Hörer, Basisöffnungswinkel also 60°

Referenzpunkt, Sweet Spot

Position des Hörers bei der Zweikanal-Standardanordnung, Referenzpunkt und Lautsprecher bilden ein gleichseitiges Dreieck

Abbildungsverzerrungen

Verfälschung der Auslenkung der Phantomschallquellen durch Hörposition außerhalb des Referenzpunkts

Auslenkung der Phantomschallquelle (phantom source shift)

Auslenkung der Phantomschallquelle aus der Mitte in % der halben Basis, Auslenkung bis in den Lautsprecher gleich 100 %, bei gegebenem Basis­ öffnungswinkel auch in ° angegeben, bei Zweikanal-Standardanordnung 30°

Auslenkungskoeffizient

Auslenkung der Phantomschallquelle aus der Mitte der Lautsprecherbasis in % bei Pegel- oder Laufzeitdifferenzen: – Pegeldifferenzen: 7,5 %/dB, – Laufzeitdifferenzen: 13 %/0,1 ms

260 

 5 Tonaufnahme und Tonwiedergabe

Mikrofonaufnahme

Stereomikrofon

Mikrofonsystem, das von zwei (Zweikanal-Stereofonie) oder mehr (Mehrkanal-Stereofonie) einzelnen Mikrofonen gebildet wird

Basis, Mikrofonbasis (base)

Abstand zwischen zwei Mikrofonen bzw. Mikrofonkapseln einer Stereomikrofonanordnung

Abbildungskurve (localisation curve)

Zusammenhang zwischen Schalleinfallswinkel am Stereomikrofon und der Auslenkung der Phantomschallquellen

Aufnahmewinkel, Aufnahmewinkel 100 % (recording angle), Aufnahmebereich

gesamter Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schalleinfallsrichtungen gemäß der Abbildungskurve abgebildet werden, Schallquellen außerhalb dieses Bereichs erzeugen Signale in den Lautsprechern L bzw. R

Aufnahmewinkel 75 % (recording angle 75 %)

Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schallquellen im Auslenkungsbereich ± 75 % abgebildet werden

Schalleinfallswinkel (input source angle)

Winkel, unter dem sich eine Schallquelle vom Mono- oder Stereomikrofon aus gesehen befindet, bezogen auf dessen Mittelachse

Versatzwinkel (epsilon), Winkelabweichung der Mikrofon-Mittelachsen von der Mittelachse einer Stereo-Mikrofonanordnung Achsenwinkel, nicht für Achtermikrofone Äquivalenzmikrofon­ anordnung

Mikrofonanordnung, die Pegel- und Laufzeit­ differenzen liefert, die gleichsinnig und etwa mit gleichen Beträgen zur Auslenkung der Phantomschallquelle beitragen

5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum,  seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber keine Räumlichkeit.

5.2 Stereofonie 

 261

Tab. 5/3 fasst die Ergebnisse für den Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Auslenkung der Phantomschallquellen, wie in Kap. 5.2 erläutert, zusammen, auch sie gilt für Zwei- und Mehrkanal-Stereofonie in gleicher Weise. Tab. 5/3. Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und der Auslenkung der Phantomschallquellen, Werte teilweise gerundet. Laufzeitdifferenzen für 100 % Auslenkung sind nicht eindeutig definiert, siehe oben Kap. 5.2.1.2. Tab. 5/ Signaldifferenzen für die Auslenkungen

Auslenkungskoeffizienten Pegeldifferenzen Laufzeitdifferenzen Äquivalenz von Pegelund Laufzeitdifferenzen

1 dB bewirkt 7,5 % 0,1 ms bewirkt 13 % 0,06 ms entspr. 1 dB

± 50 %

± 75 %

± 100 %

± 7 dB ± 0,4 ms ± 0,4 ms oder ± 7 dB

± 10 dB ± 0,6 ms ± 0,6 ms oder ± 10 dB

± 15 dB (± 1 ms) ±1 ms oder ± 15 dB

Aus diesen Gesichtspunkten heraus ergeben  sich grundsätzliche Zuordnungen zwischen Aufnahmetechniken sowie ihren Klangergebnissen und die bevorzugte Zuordnung zu Programmsparten (Tab. 5/4). Tab. 5/4. Eigenschaften des Klangbilds bei den verschiedenen Mikrofonverfahren bei Stereoaufnahmen und ihre Eignung für verschiedene Programmsparten. Eigenschaften des Klangbilds bei der Wiedergabe

Intensitätsverfahren (MS, XY)

Einzelmikrofon- Laufzeitverfahren verfahren (AB)

gemischte Verfahren nach den WilliamsDiagrammen (z. B. ORTF, EBS, KFM)

Stützmikrofonverfahren

gute Abbildung der Richtung















gute Präsenz der Schall­ quellen gute Tiefenstaffelung der Schallquellen





guter Raumeindruck





besonders geeignet für aktuelles und dokumentarisches Wort





Hörspiel





populäre Musik





Jazz





klassische Musik













262 

 5 Tonaufnahme und Tonwiedergabe

Natürlich wirken in der Praxis viele weitere Faktoren auf die optimale Mikrofonaufstellung ein, dazu gehört die Akustik des Raums, gewohnte Sitzanordnungen, Sichtprobleme, Lautstärkenbalance, musikalische, künstlerische Erfordernisse u. v. m., aber auch Gesichtspunkte wie Möglichkeiten für Soundchecks bzw. ihr Fehlen, die im Einzelfall die hier angeführten grundsätzlichen Gesichtspunkte relativieren. Jede Aufnahme ist ein hoch komplexes Zusammenwirken unterschiedlichster Bedingungen, die in jedem einzelnen Fall berücksichtigt und gegeneinander abgewogen werden müssen. Ziel einer Aufnahme ist nicht die Erfüllung von aufnahmetechnischen Grundsätzen, sondern die Realisierung des gewünschten Klangbilds. Das kann auf Grund der sehr komplexen Bedingungen bei Aufnahmen auch zu unkonventionellen Lösungen führen, für die es zunächst keine technische Plausibilität zu geben scheint. Die Aufnahmetechnik ist im besonderen Maß der Bereich der Tonstudiotechnik, der kreatives Engagement erlaubt.

5.3 Zweikanal-Stereofonie Bei der Zweikanal-Stereofonie wird das aufgenommene Klangbild zwischen zwei Lautsprechern vor dem Hörer abgebildet. Grundlage für die Beurteilung der im Folgenden erläuterten Aufnahme- und Mikrofonverfahren und ihrer räumlichen Wiedergabe sind festgelegte und damit reproduzierbare Abhörbedingungen. Nur so kann die Gestaltung einer Tonaufnahme und die Kontrolle ihrer Qualität durch Abhören gewährleistet werden. Die Wiedergabe erfordert geeignete, qualitativ hochwertige Studiolautsprecher, einen akustisch geeigneten Abhörraum sowie die Festlegung der Geometrie der Anordnung von Hörer und Lautsprecher. Siehe hierzu Kap. 5.4.1 sowie umfassend Kap. 19.6 und 19.7. Als internationale Empfehlung der EBU sind die Kriterien für die Qualitätskontrolle in EBU R22, „Listening conditions for the assessment of sound programme material“ und wichtige Details in EBU Tech 3276 vereinbart worden. Suppl. 1 zu Tech 3276 legt die Geometrie der Abhörsituation fest: Die zwei Lautsprecher und der optimale Abhörplatz bilden zusammen ein gleichseitiges Dreieck (siehe Abb. 5/2), vom Hörer aus beträgt die Lautsprecherbasis demnach 60°, ihre Breite soll zwischen 2,0 und 4,0 m liegen. Die Lautsprecher sollen mindestens 1,2  m über dem Fußboden aufgestellt oder aufgehängt  sein, ihre Achsen  sind auf den festgelegten Abhörplatz gerichtet, wobei bei höherer Hängung eine Neigung von 10° in der vertikalen Achse nicht überschritten werden  soll. Lautsprecher  sollen an einer Wand oder  mit einem Abstand von höchstens 1  m vor einer Wand  montiert werden. Der Abhörplatz soll mindestens 1,5 m von Wänden entfernt sein. Für die Kontrolle der Kompatibilität einer Aufnahme wird ein Mittenlautsprecher auf der Lautsprecherbasis empfohlen.

5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren Die Zweikanal-Stereofonie – in diesem Kapitel vielfach verkürzt  mit Stereofonie bezeichnet – ermöglicht es, den Teilschallquellen eines  mit zwei oder  mehr Mikrofonen aufgenommenen Klangbilds eine Richtungseinordnung bei der Wiedergabe durch Unterschiede oder Differenzen zwischen dem linken Kanal L und dem rechten Kanal R zuzuweisen; die Schallquellen erscheinen als Real- oder Phantomschallquellen (siehe Kap. 5.2.1) in bzw. zwi-

5.3 Zweikanal-Stereofonie 

 263

schen den beiden Lautsprechern L und R der Wiedergabeanordnung. Diese Differenzen der Lautsprechersignale können bei der sog. Intensitätsstereofonie ausschließlich durch Pegeldifferenzen, bei der Laufzeitstereofonie ausschließlich durch Laufzeitdifferenzen oder aber durch deren Kombination bei den gemischten Verfahren realisiert werden. Man unterscheidet dabei Aufnahme- und Mikrofonverfahren. Die Aufnahmeverfahren definieren die akustischen Grundlagen für die Verfahren der Tonaufnahme, die Mikrofonverfahren beschäftigen sich mit den Details der Mikrofonwahl und Mikrofonanordnung. Die Mikrofonverfahren legen die Richtcharakteristik, die Ausrichtung und die Anordnung der Mikrofone innerhalb des Aufnahmeverfahrens fest. Tab. 5/5 gibt einen Überblick über die gebräuchlichen Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie und ihre Kombinationsmöglichkeiten; Abb.  5/20  stellt die Prinzipien der Verfahren dar. Man unterscheidet die Hauptmikrofonverfahren von den Einzelmikrofonverfahren. Bei der Laufzeitstereofonie gibt es nur verschiedene Hauptmikrofonverfahren, bei der Intensitätsstereofonie gibt es neben verschiedenen Hauptmikrofonverfahren auch das sog. Einzelmikrofonverfahren. Mit einem Hauptmikrofon versucht man, die gesamte Schallquellenanordnung, z. B. einen Chor, mit einem einzigen Mikrofonsystem für stereofone Aufnahme aufzunehmen, in der Regel besteht es aus zwei zusammengehörigen Einzelmikrofonen. Bei den Einzelmikrofonverfahren wird aus den Signalen mehrerer oder vieler Einzelmikrofone das stereofone Klangbild in der Tonregie durch den Tonmeister erstellt. Tab. 5/5. Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie.

Aufnahmeverfahren

Mikrofonverfahren

Bemerkungen, Erläuterungen

Intensitätsstereofonie: nur Pegeldifferenzen zwischen L und R

Hauptmikrofonverfahren: − XY-Verfahren, − MS-Verfahren Einzelmikrofonverfahren

auch Koinzidenz-Mikrofonverfahren genannt

Stützmikrofonverfahren

Laufzeitstereofonie: nur Laufzeitdifferenzen zwischen L und R

Hauptmikrofonverfahren: − AB-Verfahren

gemischte Stereoverfahren: Kombination aus Intensitäts- und Laufzeitstereofonie, sowohl Pegel- als auch Laufzeitdifferenzen zwischen L und R,

Hauptmikrofonverfahren: − Anordnungen nach den Williams-Diagrammen, − Anordnungen  mit Trennkörper

Sonderfall Äquivalenzverfahren: Pegel- und Laufzeitdifferenzen von L und R sind äquivalent

Stützmikrofonverfahren

Stützmikrofonverfahren

auch Poly- oder Multimikrofonie genannt Kombination aus dem XY- oder MS-Verfahren mit dem Einzel­ mikrofonverfahren

Kombination aus dem AB-Verfahren mit dem Einzelmikrofonverfahren

z. B. ORTF-, EBS-, NOS-Verfahren z. B. Kugelflächenmikrofon, Jecklinscheibe Kombination eines Hauptmikrofon­ verfahrens mit dem Einzelmikrofonverfahren

264 

 5 Tonaufnahme und Tonwiedergabe

Das bei reiner Intensitätsstereofonie als Hauptmikrofon verwendete Mikrofonsystem besteht aus zwei einzelnen Mikrofonen, die beim MS-Verfahren dicht übereinander, beim XY-Verfahren meist dicht nebeneinander als Einzelmikrofone oder als komplettes, intergrierendes System, als  sog. Koinzidenz-Mikrofon, angeordnet  sind, es handelt  sich dann um ein  sog. Stereomikrofon. Völlig anders konzipiert ist das Einzelmikrofonverfahren bei Intensitätsstereofonie, bei dem im Nahbereich der Teilschallquellen, z.  B. bei Einzelinstrumenten, ein Mikrofon aufgestellt wird, dessen Abbildungsrichtung in der Tonregie mit dem sog. Panorama-Potentiometer oder Pan-Pot eingestellt wird; es erzeugt geeignete, von der Position der Schallquelle im Gesamtklangbild definierte Pegeldifferenzen bei der Zumischung in die Kanäle L und R. Schließlich kann eines der Hauptmikrofonverfahren mit dem Einzelmikrofonverfahren kombiniert werden zu dem bei großen Klangkörpern viel angewendetem Hauptmikrofon-Stützmikrofonverfahren oder einfacher Stützmikrofonverfahren; hierbei ergibt die Gewichtung des Hauptmikrofons gegenüber der Gesamtheit der Stützmikrofone wieder unterschiedliche Lösungen der Aufnahmetechnik.

Abb. 5/20. Aufnahmeverfahren der Zweikanal-Stereofonie mit verschiedenen Mikrofonverfahren, Δp = Pegeldifferenzen, Δt = Laufzeitdifferenzen.

Die Laufzeitstereofonie gewinnt das  stereofone Klangbild  mit dem AB-Mikrofonverfahren ausschließlich aus Laufzeitdifferenzen zwischen den Signalen zweier Einzelmikrofone, die einen Abstand zueinander haben, die sog. Mikrofonbasis. Die geschätzte Qualität dieses Verfahrens ist der gute Raumeindruck, weniger eine exakte Lokalisierbarkeit der Schallquellen. Ein Einzelmikrofonverfahren in reiner Laufzeitstereofonie müsste jedem einzelnen Mikrofon die notwendige Laufzeitdifferenz zwischen L und R zuweisen, was in der Aufnahmepraxis nicht realisiert wird, weil die Wahrnehmung der Richtung bei Laufzeitdifferenzen nicht deutlich ist. In der Praxis wird das AB-Verfahren deshalb vielfach mit Stützmikrofonen in Intensitätsstereofonie ergänzt.

5.3 Zweikanal-Stereofonie 

 265

Bei den gemischten Stereoaufnahmeverfahren wirken Intensitäts- und Laufzeitdifferenzen zwischen L und R gleichgerichtet zusammen. Die Intensitätsdifferenzen können unabhängig von der Frequenz sein, wie bei den Anordnungen nach den Williams-Diagrammen, z.  B.  mit dem ORTF-Verfahren, oder abhängig von der Frequenz wie bei den Trennkörperverfahren, z. B. dem Kugelflächenmikrofon. Tragen die Intensitäts- und Laufzeitdifferenzen etwa in gleichem Maß zur Auslenkung der Phantomschallquellen bei, so werden die Verfahren als Äquivalenz-Mikrofonverfahren bezeichnet. Gemeinsam ist allen Hauptmikrofonverfahren, dass die Auswahl des Mikrofontyps, der Aufstellungsort, die Einstellungen der Richtcharakteristiken und die Ausrichtung der Mikro­ fone  sorgfältiger Vorüberlegung und Planung bedürfen, um optimale Ergebnisse zu erhalten; die dazu notwendigen Kenntnisse vermitteln die folgenden Kapitel. Eine Einstellung mit dem Gehör  sollte nur in Korrekturen bestehen oder im Vergleich  mehrerer Alternativen, die stets möglich sind. Beim Einzelmikrofonverfahren hingegen führt Erfahrung und Wissen über die Eigenschaften der Instrumente und Stimme und eine sorgfältige Abhörkontrolle und Wahl des Mikrofontyps, seines Standorts und seiner Ausrichtung zu einem guten Ergebnis. Sind die Einzelmikrofone Bestandteil des Stützmikrofonverfahrens,  so  soll zunächst das Hauptmikrofon für sich allein ein optimales Klangbild liefern, erst dann werden die Stütz­ mikrofone optimiert und zugemischt. Mangelhafte oder ungeeignete Einstellungen des Hauptmikrofons sollten niemals durch Stützmikrofone korrigiert oder verschleiert werden. Die folgenden Begriffe werden für die Beschreibung der Mikrofonverfahren verwendet (siehe dazu auch Tab. 5/2): –– Mikrofonbasis: das ist der Abstand zwischen zwei Mikrofonen, die gemeinsam eine Anordnung nach dem AB- oder den gemischten Aufnahmeverfahren bilden. –– Aufnahmebereich: dies ist der gesamte Winkelbereich um die Mittelachse der Aufnahmeanordnung, der bei der Abhöranordnung durch Real- und Phantomschallquellen in ihrer Richtung korrekt abgebildet wird. –– Aufnahmewinkel oder -bereich: dieser Begriff wird normalerweise mit dem Aufnahmebereich gleichgesetzt, wird aber gelegentlich nur dem halben Aufnahmebereich, von der Mitte bis zu einer Seite, gleichgesetzt. –– Versatzwinkel: dies ist derjenige Winkel, um den ein einzelnes Mikrofon aus der Mittelachse, der Hauptrichtung der Aufnahme, nach außen gerichtet wird, bei einer Stereoanordnung mit zwei Mikrofonen wird der Versatzwinkel vielfach auch durch „±“ auf beide Mikrofone bezogen; er ist stets der halbe Achsenwinkel. –– Achsenwinkel oder Öffnungswinkel: das ist der Winkel zwischen zwei Mikrofonen, die jedes einzeln nach außen, also nach links bzw. rechts, gedreht werden; er wird also zwischen den Achsen, die die Mikrofone bilden, gemessen und ist damit der doppelte Versatzwinkel. Die Feststellungen der folgenden Kapitel zu den Aufnahmewinkeln der einzelnen Mikrofonverfahren  sind vorwegnehmend an Beispielen in Tab.  5/6 zusammengeführt;  sie beruhen auf den in Kap. 5.2 dargelegten und in Tab. 5/2 zusammengefassten Zusammenhängen zwischen Pegel- und Laufzeitdifferenzen mit der Auslenkung der Phantomschallquellen (siehe Kap.  5.2.2). Die genannten Winkelgrade  sind errechnete Werte, die in der Praxis  so genau nicht eingehalten werden können und  müssen. [Dickreiter, 2011], [Edenhof, 2020], [Hoeg, 1970, 1975], [Pawera, 2004]

266 

 5 Tonaufnahme und Tonwiedergabe

Tab. 5/6. Mikrofonverfahren und ihre Aufnahmebereiche mach [Wittek, Image Assistant] bei 5 m Abstand zur Schallquelle. Mikrofonverfahren

Mikrofonbasis Richtcharakteristik

Versatzwinkel, halber Achsenwinkel

Aufnahmebereich 75 % 100 %

XY

0 cm

Niere/Niere

45° 60° 75° 90°

142° 108° 84° 66°

180° 146° 116° 92°

Superniere/Superniere

35°

128°

152°

Acht/Acht (Blumlein-Verfahren)

45°

58°

72°

AB

30 cm 40 cm 50 cm 60 cm

Kugel/Kugel

 0°

84° 60° 48° 40°

180° 98° 74° 60°

gemischte Verfahren nach den WilliamsDiagrammen Beispiele:

beliebig zwischen etwa 10 und 30 cm 10 cm 20 cm 25 cm 30 cm 17 cm

Niere/Niere, Superniere/Superniere, Hyperniere/Hyperniere Niere/Niere Niere/Niere Niere/Niere Niere/Niere Niere/Niere

69° 50° 45° 25° 55°

70° 66° 60° 64° 68°

100° 100° 90° 100° 102°

20 cm 18 cm

Kugel Kugel

EBS ORTF mit Trennkörper Kugel, Durchmesser

90° 120°

Die verschiedenen Aufnahme- und Mikrofonverfahren zeigen unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch gute Lokalisierbarkeit und Präsenz der Phantomschallquellen aus, während der Raumeindruck, also die Wahrnehmung des Raums, seiner Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren; sie bilden die Aufnahmesituation weitgehend getreu ab. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, stellt aber den Raum kaum dar; das Klangbild muss durch die Tonregie zusammengesetzt werden. Als Mikrofontyp für Hauptmikrofonverfahren werden allgemein Kleinmembranmikrofone mit einem Membrandurchmesser von etwa 1/2“ = 12,7 mm verwendet, da deren Richtcharakteristiken weniger von der Frequenz abhängen, besonders im oberen Frequenzbereich,

5.3 Zweikanal-Stereofonie 

 267

als die Richtcharakteristiken der Großmembranmikrofone  mit einem Membrandurchmesser von etwa 1“ = 25,4 mm. In der Anfangszeit der Aufnahmetechnik standen zunächst nur Großmembranmikrofone zur Verfügung, aufgenommen wurde zunächst monofon in der One point-Technik – Aufnahme  mit einem Kugelmikrofon, vielfach dem legendären M 50 von Neumann, dann aber auch als AB-Anordnung mit denselben Mikrofonen. Erst mit dem Aufkommen des Fernsehens entstand der Wunsch nach kleinen, unauffälligen Mikrofonen, das KM 53 aus dem Jahr 1953 von Neumann, ein Kugelmikrofon wie das M 50, war das erste Kleinmembranmikrofon. Großmembranmikrofone haben sich bis heute mit einer Tonabnahme im Nahbereich bewährt, bevorzugt in der Musikproduktion populärer Musik.

5.3.2 Intensitätsstereofonie Bei Intensitätsstereofonie bestehen zwischen den Stereosignalen L und R für die Erzeugung von seitlichen Phantomschallquellen ausschließlich Pegeldifferenzen, keine Laufzeit- bzw. Phasendifferenzen; bei mittigen Phantomschallquellen sind die Pegel von L und R gleich. Aufnahmen in dieser Technik sind daher grundsätzlich monokompatibel. Nach Einführung der Stereofonie in den späten 1950er und frühen 1960er Jahren war die Frage der Kompatibilität eine zentrale Frage der Aufnahmetechnik, da zunächst noch überwiegend Monogeräte in den Haushalten existierten. Damit empfahl sich die Intensitätsstereofonie vor allem im Bereich des öffentlich-rechtlichen Rundfunks als Aufnahmetechnik erster Wahl. Bei der Schallplattenproduktion konnte  man  mit der neuen Technik hingegen werben. Der allgemein eingeführte Begriff Intensitätsstereofonie ist zwar nicht falsch, aber im Hinblick darauf, dass man stets von Pegeln spricht, etwas verwirrend. Bei der Intensitätsstereofonie gibt es drei Mikrofonverfahren, genauer Hauptmikrofonverfahren [Theile, 1984], [IRT]: –– das Hauptmikrofonverfahren in XY-Technik (Kap. 5.3.2.1), –– das Hauptmikrofonverfahren in MS-Technik (Kap. 5.3.2.2), –– das Einzelmikrofonverfahren (Kap. 5.3.6). –– das Stützmikrofonverfahren als Kombination aus einem der Hauptmikrofonverfahren und dem Einzelmikrofonverfahren (Kap. 5.3.5). Die Genauigkeit der Lokalisierung ist beim Hauptmikrofonverfahren in MS- und XY-Technik gut, sie liegt in der Praxis bei Standard-Lautsprecheranordnung, d. h. 60° Öffnungswinkel zu den Lautsprechern aus der Sicht des Hörers im Bereich von ± 5° auf jeder Seite; damit können einschließlich der Mittenposition bis zu sieben Positionen der Phantomschallquellen auf der gesamten Basis beim Abhören ausreichend unterschieden werden; dazu kommen die zwei Positionen der seitlichen Realschallquellen. Es ergeben sich also maximal neun unterscheidbare Positionen der Schallquellen auf der Lautsprecherbasis. Die Tiefenstaffelung, also die Wahrnehmung der Entfernung, ist weniger deutlich als bei den Hauptmikrofonverfahren der Laufzeit- und gemischten Verfahren; Entfernungen, die kleiner sind als der Abstand der Lautsprecher zum Hörer, können nicht dargestellt werden. Das Einzelmikrofonverfahren bietet durch die getrennte Aufnahme der Schallquellen bei guter Lokalisierbarkeit größere Freiheit bei der Gestaltung des Klangbilds: Die Position

268 

 5 Tonaufnahme und Tonwiedergabe

der Phantomschallquellen kann unabhängig von ihrer Position im Aufnahmeraum regietechnisch weitgehend frei bestimmt werden. Wichtiger ist aber, dass die Balance der Pegel bzw. Lautstärken der Einzelschallquellen  sowie ihre jeweiligen klanglichen Eigenschaften getrennt gewählt und eingestellt werden können, die Abbildung der Raumakustik des Aufnahmeraums ist dabei nur eingeschränkt möglich. Vielfach angewendet, hauptsächlich bei klassischer Musik und großen Klangkörpern, wird das sog. Stützmikrofonverfahren, mit dem die Qualitäten von Hauptmikrofonverfahren in Intensitätsstereofonie XY, MS oder in Laufzeitstereofonie AB und das Einzelmikrofonverfahren kombiniert werden. 5.3.2.1 XY-Mikrofonverfahren Das XY-Mikrofonverfahren verwendet ein Stereomikrofon oder zwei Einzelmikrofone in gleicher Anordnung, dessen bzw. deren Mikrofone dieselbe Richtcharakteristik haben, entweder Niere, Superniere, Hyperniere oder Acht, nicht aber Kugel. Sie liefern direkt die Signale L und R oder I und II, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale X und Y bezeichnet. Ihre Summe M = L + R ergibt ein einwandfreies Monosignal. Die Achsen der Hauptempfindlichkeit der Systeme liegen gekreuzt und symmetrisch zur fiktiven, auf das Zentrum des Klangkörpers gerichteten Mittelachse. Sie schließen den sog. Achsen- oder Öffnungswinkel ein, der Winkel jedes der Mikrofone schließt mit der Mittelachse den Versatzwinkel ein, also den halben Achsenwinkel. Die folgenden Begriffe werden für die Beschreibung der Anordnung der Mikrofone und für den Winkelbereich verwendet, innerhalb dessen eine korrekte Aufnahme stattfindet, dargestellt in Abb. 5/21: –– Mikrofon oder System: I, X oder L ist im Aufblick auf die Schallquellen nach links gerichtet, Mikrofon oder System II, Y oder R nach rechts. –– Achsenwinkel, auch Öffnungswinkel: der Winkel zwischen den Achsen der Mikrofone in XYTechnik, zugleich zwischen den Richtungen maximaler Empfindlichkeit der Mikrofone, in Abb. 5/21 ist das der Winkel δx + δy. –– Versatzwinkel: der halbe Achsenwinkel, also der Winkel zwischen jedem der Mikrofone und der Mittenachse der Anordnung, der Winkel, um den jedes der Mikrofone aus der Mitte versetzt ist, lso in Abb. 5/21 δx bzw. δy. –– Aufnahmewinkel oder Aufnahmebereich: der gesamte Winkelbereich, innerhalb dessen die Schallquellen korrekt auf der Basis zwischen den Lautsprechern abgebildet werden, also φ1 + φ2. Für die Abbildung in einem der Lautsprecher ist eine Pegeldifferenz von  mindestens 15  dB erforderlich, angegeben werden auch 18, aber auch 12 dB. Betrachtet man aber Abb. 5/21, so ergibt sich für die Position der Schallquelle ganz rechts bei 135°, dass System I aus dieser Richtung kein Signal aufnimmt, System II gibt einen Pegel von – 6 dB bezogen auf den Maximalpegel des Systems ab; die Pegeldifferenz ist demnach unendlich groß, nicht aber 15 dB, wie für die Abbildung ganz seitlich benötigt würde. Auch eine unendlich große Pegeldifferenz führt zur Abbildung ganz seitlich, also im Lautsprecher L bzw. hier R, aber auch alle Pegeldifferenzen über 15 dB ergeben diesen Abbildungsort, somit wird der ganze Außenbereich im Lautsprecher zusammengefasst, während der Bereich um die Mitte korrekt abgebildet wird. Die Abbildung

5.3 Zweikanal-Stereofonie 

 269

des Klangbilds wird damit erheblich verzerrt. Um dies zu vermeiden, wird der Aufnahmebereich oder ‑winkel ermittelt und definiert. Stellt man bei der Aufnahme sicher, dass der Aufnahmebereich und die Ausdehnung der Schallquelle übereinstimmen, werden alle Schallquellen durch die Phantomschallquellen bei der Wiedergabe so gut, wie das Verfahren es zulässt, abgebildet. Der Aufnahmebereich definiert also den Winkelbereich, den das Mikrofonverfahren für die korrekte Aufnahme und Abbildung der Phantomschallquellen erfassen muss.

Abb. 5/21. Mikrofonanordnung in XY-Technik aus zwei gekreuzten Nieren mit den Versatzwinkeln φx bzw. φy, dem Achsenwinkel φ = φx + φy, dem Aufnahmebereich oder -winkel 100 %.

Die Auslenkung der Phantomschallquelle der Anordnung nach Abb. 5/21 zeigt Abb. 5/22. Man erkennt, dass die Anordnung einen Aufnahmebereich α von nur 180° besitzt. Der Aufnahmebereich wird ermittelt auf Grund der in Versuchen ermittelten Zusammenhänge für die Abbildung von Phantomschallquellen (siehe Kap. 5.2.2). Für die Position der Phantomschallquelle ganz  seitlich auf der Lautsprecherbasis gilt der Aufnahmebereich 100 % − hier also 180°, halb seitlich oder 50 % liegt hier bei 100°; der Aufnahmebereich 75 % bei 142° definiert die Position dreiviertel seitlich, dies ist zugleich der Aufnahmebereich, innerhalb dessen die Phantomschallquellen sicher und korrekt analog der Aufnahmesituation abgebildet werden. In der Praxis der Aufnahme  sollte also bevorzugt der Aufnahmebereich 75  %  mit der Ausdehnung des Klangkörpers in Übereinstimmung gebracht werden. Tab. 5/7 nennt die Aufnahmebereiche 50 %, 75 % und 100 % für einige Versatzwinkel/Achsenwinkel der XY-Anordnung Niere/Niere, Superniere/Superniere und Acht/Acht. Aufnahmebereich und Versatzwinkel verlaufen entgegengesetzt: Mit kleiner werdendem Versatzwinkel wird der Aufnahmebereich größer. Die Kombination Niere/Niere erlaubt – wie aus Tab. 5/7 ersichtlich – einen Aufnahmebereich 75 % zwischen ca. 65° und ca. 140°. Bei den praxisnahen Aufnahmebereichen von 85° bis 110° ist der Versatzwinkel von ca. ± 75° bis ± 60° allerdings sehr groß, d. h., dass die Mikrofone, weil sie weit nach außen gedreht sind, nicht mehr auf die Schallquelle gerichtet  sind und damit vom Schall aus Richtungen getroffen werden, in denen  sie bezüglich

270 

 5 Tonaufnahme und Tonwiedergabe

ihres Frequenzgangs je nach Typ möglicherweise nicht optimal arbeiten. Die Kombination Niere/Niere eignet sich demnach besonders für größere Aufnahmewinkel oder, anders ausgedrückt, für geringere Entfernungen von der Schallquelle.

Abb. 5/22. Abbildungskurve für die XY-Anordnung Niere/Niere mit dem Versatzwinkel ± 45° entsprechend Abb. 5/21 [Wittek, Image Assistant].

Die Kombination Superniere/Superniere erlaubt wie aus Tab.  5/7 ersichtlich kleinere Aufnahmebereiche. Bei den praxisnahen Aufnahmebereichen 75 % von ca. 75° bis 105° ist der Versatzwinkel mit rund ± 60° bis ± 45° zwar kleiner als bei der Kombination Niere/Niere, aber auch hier sind die Mikrofone nicht direkt auf die Schallquelle gerichtet. Tab. 5/7. Zusammenhang von Versatzwinkel und Aufnahmebereich für die Anordnungen Niere/Niere, Superniere/Superniere und Acht/Acht [Wittek, Image Assistant]. Richtcharakteristik Niere/Niere

Superniere/Superniere

Acht/Acht Blumleinverfahren

Versatzwinkel oder Achsenwinkel ± 45° / 90° ± 60° / 120 ± 75° / 150° ± 90° / 180° ± 30° / 60° ± 45° / 90° ± 60° / 120° ± 75° / 150° ± 30° / 60° ± 45° / 90° ± 60° / 120°

Aufnahmebereich 50 % empfohlen: 75 %

100 %

142° 108° 84° 66° 142° 104° 76° 54° 87° 58° 36°

180° 146° 116° 92° 166° 130° 98° 72° 102 72° 46°

100° 76° 56° 44° 108° 76° 52° 38° 66° 42° 24°

5.3 Zweikanal-Stereofonie 

 271

Die Kombination Acht/Acht erlaubt – wie aus Tab.  5/7 ersichtlich – die kleinsten Aufnahmebereich 75 %, sie bietet also die höchste Richtungsauflösung. Bei den praxisnahen Aufnahmebereichen zwischen ca. 60° und 90° ist der Versatzwinkel mit ± 45° bis ± 30° relativ klein, die Mikrofone sind gut auf die Schallquelle gerichtet. Besonders für kleinere Aufnahmebereiche bzw. für größere Entfernungen von der Schallquelle eignet sich die Kombination Acht/Acht, die in der Praxis zu wenig Beachtung findet, besonders gut. Zwei unter einem Versatzwinkel von ±  45°, also Achsenwinkel 90°, rechtwinklig gekreuzte Achten ergeben einen Aufnahmebereich 100 % von 72°, diese Anordnung heißt Blumlein-Verfahren; es ist ein präzises Verfahren für kleine Aufnahmewinkel 75  % von 58° bzw. größere Entfernungen der Mikrofone von den Schallquellen. Die Befürchtung, diese Anordnung nehme zu viel Diffusschall von hinten auf, ist unbegründet, denn dieser Anteil ist ebenso groß wie bei der Anordnung Niere/Niere. 5.3.2.2 MS-Mikrofonverfahren Das MS-Mikrofonverfahren, engl. Mid/Side-Stereofonie, wurde schon in den frühen 1930er Jahren von Alan Blumlein entwickelt als ein bis heute etabliertes Stereoverfahren für Aufnahme und Übertragung der Stereosignale; heute versteht man aber unter Blumleinverfahren des ebenfalls von Blumlein vorgeschlagene Verfahren in XY-Aufnahmetechnik mit zwei gekreuzten Achten (siehe Kap. 5.3.2.1). Das MS-Verfahren verwendet wie das XY-Mikrofonverfahren ein Stereomikrofon oder eine äquivalente Anordnung aus zwei Einzelmikrofonen. Die Systeme I und II geben aber nicht unmittelbar die Signale L und R ab, sondern die Signale M und S: –– M-Signal, auch Monosignal, Mittensignal, Summensignal, Tonsignal, –– S-Signal, auch Stereosignal, Seitensignal, Differenzsignal, Richtungssignal. Erst durch Summen- und Differenzbildung werden die Signale L und R aus M und S gewonnen. Da die Summe zweier zwar unterschiedlicher Signale L und R, aber mit gleichem Pegel, eine Erhöhung des Gesamtpegels um 3 dB ergibt, muss bei der Addition der Summenpegel um 3 dB bedämpft werden. Die Umsetzung kann durch Übertrager, durch Differentialverstärker oder mit digitaler Verarbeitung erfolgen. Der Zusammenhang zwischen den Signalen M, S, L und R ist also L = M + S R = M – S M = L + R S = L – R

L = linker Kanal R = rechter Kanal M = Mono- oder Mittensignal S = Stereo- oder Seitensignal

Das M-Signal wird von System I, der feststehenden Kapsel eines Stereomikrofons, geliefert, es ist unmittelbar das Monosignal, das also im Gegensatz zum XY-Verfahren von einem einzigen Monomikrofon stammt, das vorteilhaft auf das Zentrum des Klanggeschehens gerichtet ist. Jede einstellbare Richtcharakteristik ist möglich, also Kugel, Nieren, Acht, auch alle Zwischenformen. Das S-Signal  stammt von System II, der drehbaren Kapsel eines Stereomikrofons;  sie ist stets auf Achterrichtcharakteristik und einen Versatzwinkel von - 90°, mit Blick vom Mik-

272 

 5 Tonaufnahme und Tonwiedergabe

rofon auf die Schallquelle also nach links, einzustellen. Wenn die positive Seite der Acht nach rechts anstatt nach links ausgerichtet ist, ergibt sich ein Seitentausch. Abb. 5/23 zeigt eine MS-Mikrofonanordnung mit Niere und Acht.

Abb. 5/23. MS-Mikrofonanordnung aus Niere und Acht.

Der Aufnahmebereich hängt vom Pegelverhältnis von M- zum S-Signal ab, er wird also bestimmt von den eingestellten Verstärkungen der Mikrofone und von der Richtcharakteristik des M-Signals. Er kann somit von der Regie aus, auch bei laufender Aufnahme, eingestellt oder verändert werden, wohingegen dies beim XY‑Verfahren stets am Mikrofon selbst durch Veränderung des Versatzwinkels geschehen  muss. Der Aufnahmebereich einer MS-Anordnung ist zunächst grundsätzlich der Winkelbereich, innerhalb dessen das M-Signal größer oder gleich groß wie das S-Signal ist. Allerdings heißt das, dass die Ränder des Aufnahmebereichs in dem jeweiligen Lautsprecher zusammengefasst werden, solange die Pegeldifferenz zwischen L und R größer 15 dB ist; deshalb ist der Aufnahmebereich etwas kleiner als es die Schnittstellen von M- und S-Signal vorgeben. Anstatt auf theoretische Überlegungen zu bauen, wird empfohlen, im Bewusstsein dieser Tatsache gehörmäßig in der Regie durch Pegeleinstellung des S-Signals den angemessenen Aufnahmebereich zu bestimmen. Besondere Beachtung bei der Anwendung des Verfahrens muss dem Winkelbereich, bei dem das S-Signal größer als das M-Signal wird, gewidmet werden, in Abb.  5/23 die  seitlichen Bereiche außerhalb der Schnittpunkte von M- und S-Signal. Wird M sehr klein gegen S und somit vernachlässigbar, so wird L = + S und R = − S, ein identisches, jedoch verpoltes Signal für L und R, das bei Monobildung M = L + R = + S – S = 0 ausgelöscht wird, also aufnahmetechnisch inakzeptabel ist, da nicht monokompatibel. Zu 0 kann M werden nur bei der Niere bei 180° und bei der Acht bei ± 90°. In der Aufnahmepraxis ist also stets besondere Aufmerksamkeit auf die Bereiche zu richten, in denen das S-Signal größer als das M-Signal ist. Ein besonderer Fall ist die MS-Kombination Acht/Acht, hier wird der rückwärtige Bereich grundsätzlich verpolt abgebildet, also diffus ohne Richtungsinformation, z. B. der Beifall von Publikum, der bei Monowiedergabe dann also teilweise ausgelöscht wird. 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren XY- und MS-Mikrofonverfahren  sind unter der Annahme idealer Richtcharakteristiken verlustfrei äquivalent, d. h., sie können in beiden Richtungen nach den obigen Formeln ineinander umgewandelt werden. Jede MS-Anordnung kann grundsätzlich, aber mit praktischen

5.3 Zweikanal-Stereofonie 

 273

Einschränkungen, in eine gleichwertige XY-Anordnung umgewandelt werden und umgekehrt. Diese Umwandlung wird als Stereomatrix oder Stereoumsetzung bezeichnet. Da M und S nach derselben Beziehung aus L und R gewonnen werden wie L und R aus M und S, kann die Umwandlung in beiden Richtungen mit demselben Gerät, dem Richtungsmischer, auch Stereomatrix, Stereoumsetzer, Differentialübertrager oder Summen-Differenzübertrager genannt, erfolgen; auch die Betriebsrichtung Eingang-Ausgang ist dabei dieselbe. Zu Details zum Richtungsmischer siehe die Kap. 6.1.2 und 8.8.2. Eine  schematische Zuordnung von XY- und MS-Richtcharakteristik-Kombinationen ist unter der Annahme idealer Richtcharakteristiken  mathematisch  schlüssig. Allerdings gibt es eine unüberschaubare Zahl von Kombinationen, da z. B. bei MS nicht nur die Richtcharakteristik des M-Signals, sondern auch das Pegelverhältnis M zu S zu berücksichtigen ist. In der Praxis erhebt sich die Frage nach äquivalenten Richtcharakteristiken indessen kaum, da man es nicht mit idealen Richtcharakteristiken zu tun hat und die Entscheidung für ein Verfahren im Vorfeld getroffen wird. 5.3.2.4 Praktischer Einsatz von Stereomikrofonen Ergänzend zu den obigen grundlegenden Ausführungen werden im Folgenden noch einige praktische Hinweise angefügt, die sowohl für das XY- als auch das MS-Verfahren gelten: Empirische Ermittlung des Aufnahmebereichs Möchte  man bei Verwendung reiner Intensitätsstereofonie für eine gegebene Aufnahmesituation in der Praxis den optimalen Aufnahmebereich einstellen, so kann man anstatt die vorhandenen Kenntnisse oder Hilfsmittel zu nutzen, ihn auch in der praktischen Situation empirisch finden, allerdings  mit geringerer Genauigkeit, weil die Raumakustik das Ergebnis mehr oder weniger beeinflusst: Man stellt z. B. ein Metronom auf den seitlichsten Punkt der Schallquelle, z. B. eines Chors, und zieht bei einer MS-Anordnung den S-Pegel solange hoch, bis die Pegeldifferenz zwischen L und R 15 dB erreicht, wobei der Korrelationsgrad in jedem Fall positiv bleiben muss. Bei der XY-Anordnung müssen die Mikrofonkapseln symmetrisch nach außen verdreht werden, bis eine Pegeldifferenz von 15  dB erreicht wird. Möchte man umgekehrt den Aufnahmebereich eines Stereomikrofons in der jeweiligen Situa­ tion ermitteln, geht man unter Hinwendung zum Mikrofon sprechend oder mit einer kleinen Schallquelle, z.  B. einem Metronom, den Winkelbereich vor dem Mikrofon ab, beobachtet den Aussteuerungsmesser und bestimmt den Ort links und rechts für das Erreichen einer Pegeldifferenz von 15 dB, auch hier ergibt sich ein brauchbares Ergebnis. Schall aus Richtungen außerhalb des Aufnahmebereichs Bei der Auswahl der Mikrofonanordnung in XY bzw. MS ist auch die Frage wichtig, wie Schallquellen aus dem Bereich außerhalb des Aufnahmebereichs auf der Lautsprecherbasis abgebildet werden. Die MS-Anordnungen Kugel/Acht sowie die XY-Anordnung mit zwei Nieren mit dem Versatzwinkel ± 90° − Achsenwinkel 180° − nehmen Schall von vorne und von hinten mit gleicher Empfindlichkeit auf, der rückwärtige Bereich wird seitenrichtig nach vorne geklappt und den vorderen Schallquellen überlagert. Demgegenüber nehmen die

274 

 5 Tonaufnahme und Tonwiedergabe

Anordnungen Niere/Acht in MS und zwei Nieren mit Versatzwinkeln unter etwa 60° in XY Schall von hinten deutlich vermindert seitenrichtig auf. Mit besonderer Sorgfalt  sind die Kombinationen Acht/Acht in MS und als Blumleinverfahren von XY einzusetzen, da rückwärtige Schallquellen hier  mit derselben Empfindlichkeit, aber seitenverkehrt eingeordnet werden. Kritisch sind seitliche Schallquellen: Sie erscheinen, wenn das S-Signal größer als das M-Signal ist, bzw. wenn beim XY-Verfahren zwischen L und R gegenphasige Signale auftreten, nicht oder diffus lokalisierbar als verpolte Signale. Diese Mikrofonanordnungen sind also ungeeignet bei Schallquellen außerhalb des Aufnahmebereichs, auch bedarf der Nachhall hier einer besonderen Aufmerksamkeit. Ausrichtung des Stereomikrofons Stereomikrofone bestehen aus zwei gegeneinander drehbaren, dicht nebeneinander oder auf einer gemeinsamen Achse dicht übereinander montierten Mikrofonkapseln. Alle möglichen Richtcharakteristiken können eingestellt werden. Die feststehende, mit dem Verstärker fest verbundene Kapsel von System I gibt das X- bzw. M-Signal ab; sie ist beim XY-Verfahren bei Blick auf das Klanggeschehen nach links ausgerichtet, beim MS-Verfahren auf die Mitte bzw. auf das Zentrum der Schallquelle, die Ausrichtung des Mikrofons wird durch einen Punkt, eine Leuchtdiode oder das Firmenzeichen markiert. Die drehbare Kapsel von System II gibt das Y- bzw. S-Signal ab; sie ist beim XY-Verfahren  spiegelbildlich zum X-System um den Versatzwinkel nach rechts gerichtet. Beim MSVerfahren – System II ist hier stets eine Acht – ist die Kapsel stets mit ihrer positiven Seite nach links, unter – 90̊° zur Achse des M-Signals ausgerichtet; ihre positive Seite ist ebenfalls durch einen Punkt o. ä. markiert. Bei hängendem Mikrofon – drehbare Kapsel unten, Kabelanschluss oben herausgeführt – ändert sich für das M-Signal nichts, das drehbare System II muss wieder nach links nachgeführt werden. Laufzeitdifferenzen zwischen den beiden Mikrofonsystemen des Stereomikrofons und dadurch hervorgerufene Phasendifferenzen zwischen den Stereosignalen können das Klangbild bei hohen Frequenzen insbesondere bei Stereomikrofonen mit großen Membranen, verfälschen. Schräger Schalleinfall ist demnach bei der Ausrichtung des Mikrofons zu vermeiden; eine sorgfältige Ausrichtung ist also nicht nur in der horizontalen Ebene, sondern auch in der vertikalen Ebene zu beachten. Doppel-Stereomikrofone Eine interessante Möglichkeit, ausgedehnte Klangkörper aufzunehmen, ist das Doppelstereoverfahren. Hierbei wird der gesamte Aufnahmebereich in zwei Sektoren aufgeteilt, links bis Mitte und Mitte bis rechts. Diese Sektoren lassen sich dann getrennt regietechnisch bzw. künstlerisch gestalten, hierzu Näheres in Kap. 5.4.2.1.

5.3.3 Laufzeitstereofonie Bei der Wahrnehmung der Richtung beim natürlichen Hören (siehe Kap.  3.4) wertet das Gehör Pegelunterschiede und Laufzeitunterschiede der Signale an den Ohren aus. Die Intensitätsstereofonie nutzt nur die Pegelunterschiede, die Laufzeitstereofonie nur die Laufzeitun-

5.3 Zweikanal-Stereofonie 

 275

terschiede. Die gemischten Mikrofonverfahren basieren auf der Kombination beider Unterschiede (Kap. 5.3.4). Das Mikrofonverfahren der Laufzeitstereofonie ist das sog. AB-Verfahren. Zwei Mikrofone werden in einem bestimmten Abstand zueinander, der Mikrofonbasis, nebeneinander vor der Schallquelle aufgestellt (Abb. 5/24). Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale A und B bezeichnet.

Abb. 5/24. Prinzip des AB-Mikrofonverfahrens mit der Laufzeitdifferenz Δ l der Schallwege A – P und B – P.

Wenn zwischen einem Punkt P des Klangkörpers und den beiden Mikrofonen A und B eine Wegdifferenz Δl entsteht, ergeben sich Laufzeitdifferenzen zwischen den Mikrofonsignalen, die bei Lautsprecherwiedergabe Phantomschallquellen bilden (siehe Kap. 5.2.1.2). Die geringen Pegeldifferenzen, die sich wegen der unterschiedlichen Wege ergeben, sind in der Praxis bedeutungslos.  A und B  sind Monomikrofone  mit bevorzugt Kugelrichtcharakteristik von Druckempfängern, aber auch parallel ausgerichtete Nieren- oder Achterrichtcharakteristiken sind möglich; beide Mikrofone haben immer die gleiche Richtcharakteristik. Vorteilhafte Eigenschaften des AB-Mikrofonverfahrens  sind in erster Linie die Darstellung räumlicher Merkmale einer Aufnahme,  soweit dies in Zweikanal-Stereofonie  möglich ist, dazu gehört eine gute Tiefenstaffelung der Schallquellen, also eine bessere Unterscheidbarkeit der Entfernungen der Schallquellen und eine bessere Raumdarstellung als bei Intensitätsstereofonie. In der Praxis unterscheidet  man zwischen Klein-AB und Groß-AB. Während Klein-AB ein aufnahmetechnisch und in der Theorie einwandfreies, korrektes Klangbild ergibt, ist Groß-AB durch die Theorie nicht gedeckt, findet dennoch durch sein besonderes, beeindruckendes Abbild des Raumklangs vielfach Zustimmung, vor allem in Kombination mit dem Stützmikrofonverfahren. 5.3.3.1 Klein-AB Wie beim Stereomikrofon in XY oder MS der Zusammenhang von Versatzwinkel und Aufnahmebereich Grundlage der Mikrofoneinstellung ist, so ist beim Hauptmikrofon in Klein-ABTechnik der Zusammenhang von Mikrofonbasis und Aufnahmebereich Grundlage der Mikro­ foneinstellung. Sollen die vorteilhaften Eigenschaften einer Laufzeitmikrofonanordnung genutzt und gleichzeitig eine ausgewogene Richtungsabbildung des Klangkörpers erzielt werden, so müssen demnach die bekannten Gesetzmäßigkeiten des Aufnahmebereichs für Laufzeitstereofonie beachtet werden.

276 

 5 Tonaufnahme und Tonwiedergabe

In Tab.  5/8  sind die Aufnahmebereiche 50 %, 75 % und 100 % für Werte der Mikrofonbasis zwischen 25 und 40 cm angegeben. Auch bei Laufzeitstereofonie müssen vor allem die 75 % Werte beachtet werden. Für größere Aufnahmewinkel, also gerade den 100 %-Wert, machen komplexe Phänomene eine eindeutige Definition der Abbildungsrichtung gerade im Randbereich nur eingeschränkt möglich. Man sieht, dass die Breite der Mikrofonbasis sehr sensibel auf den Aufnahmebereich einwirkt, schon kleine Änderungen zeigen beachtliche Auswirkungen. Bei Werten unter 25 cm und über 40 cm ist das AB-Mikrofonverfahren, soweit eine korrekte Abbildung der Phantomschallquellen überhaupt erreicht werden soll, ungeeignet. Allgemein beim AB-Verfahren spielen der subjektive Klangeindruck und das Experimentieren allerdings eine wichtigere Rolle als bei Intensitätsstereofonie; z. B. kann die präzise Abbildung der Phantomschallquellen nicht alleiniges Ziel einer Aufnahme  sein, insofern kann die Mikrofonbasis auch Werte über 40 cm haben, vielfach werden gerade Werte zwischen 40 und 80  cm oder größer bevorzugt. Bei einer Orgelaufnahme etwa, wo –  bedingt durch die Konstruktion des Instruments – die Töne der Pedalregister abwechselnd auf den linken und rechten Pedalturm verteilt sind, ist eine Richtungsinformation nicht primär, vielleicht sogar verwirrend. Hier spielt die Einbeziehung des Raums eine besondere, bevorzugte Rolle, die durch den Aufnahmebereich nicht beschrieben wird. Überhaupt ist die Übertragung der Raumakustik gerade bei klassischer Musik – besonders hier wird AB eingesetzt – ein Qualitätsfaktor, der nicht unterschätzt werden darf. Sollen auch tiefe Frequenzanteile des Raumschalls beeindruckend übertragen werden, ist eine eigentlich korrekte Mikrofonbasis nicht mehr hilfreich. Um die Korrelation von Signal A und B aufzuheben, muss eine Phasendifferenz von 90° entsprechend 1/4 der Wellenlänge für ganz seitliche Schallquellen realisiert werden, Dazu ist für 100 Hz eine Mikrofonbasis von 82 cm erforderlich, für 50 Hz von 165 cm. Eine für eine optimale Wiedergabe des Raumschalls wünschenswerte Phasendifferenz von 90° erfordert hingegen schon bei 33 Hz eine Mikrofonbasis von 2,50 m, eine auch nur annähernd korrekte Abbildung der Phantomschallquellen ist dabei unmöglich. Tab. 5/8. Zusammenhang von Mikrofonbasis und Aufnahmebereich für die Anordnungen Kugel/Kugel bei 5 m Abstand zur Schallquelle [Wittek, Image Assistant]. Mikrofonbasis 25 cm 30 cm 32,5 cm 35 cm 37,5 cm 40 cm

Aufnahmebereich 50 % empfohlen: 75 % 62° 50° 46° 44° 40° 38°

108° 84° 76° 70° 66° 60°

100 % 180° 180° 136° 116° 106° 98°

Gelegentlich wird die Meinung vertreten, der Abstand der Ohren mit 17,5 cm sei eine optimale, „natürliche“ Mikrofonbasis. Dies entspricht einer  maximal  möglichen Laufzeitdifferenz für  seitliche Schallquellen unter ±  90° zur Blickrichtung eintreffenden Schall von 0,5 ms, zu kurz für eine Abbildung der Phantomschallquellen seitlich auf der Lautsprecherbasis. so dass der Ohrabstand keine brauchbare Mikrofonbasis darstellt. Wählt man dennoch

5.3 Zweikanal-Stereofonie 

 277

eine solche Mikrofonbasis, so müssen wie beim natürlichen Hören zusätzlich zu den Laufzeitdifferenzen auch Pegeldifferenzen hinzukommen, erzeugt durch gerichtete Mikrofone. Das führt dann aber zu den sog. gemischten Stereoverfahren, im Fall des Ohrabstands als Mikrofonbasis zum ORTF- und EBS-Mikrofonverfahren. Diese Verfahren werden unten in Kap. 5.3.4 besprochen. 5.3.3.2 Groß-AB Vielfach werden Kugelmikrofone, im Allgemeinen Druckempfänger, mit relativ großer Mikro­ fonbasis aufgestellt, z. B. 1,5 bis 3 m, oft auch als Grenzflächenmikrofone. Bei diesem Mikro­­ fonverfahren erzeugen Schallquellen um die Mitte des Aufnahmebereichs vorwiegend Laufzeitdifferenzen, Schallquellen in den Randzonen des Aufnahmebereichs bei vergleichsweise sehr großen Laufzeitdifferenzen zusätzlich Pegeldifferenzen, hervorgerufen durch die unterschiedlichen Entfernungen zu den Mikrofonen. Die Laufzeitdifferenzen führen nur in einem schmalen Bereich um die Mitte zu Phantomschallquellen, dabei wird dieser Bereich bei der Wiedergabe  stark gespreizt. Bei einem Mikrofonabstand zur Schallquelle von z. B. 6  m und einer Mikrofonbasis von 2  m wird nur ein Bereich von ca. ±  7° auf der gesamten Lautsprecherbasis abgebildet, die übrigen Schallquellen jeweils außen. So entsteht eine sehr verzerrte, ungleichmäßige Verteilung der Schallquellen auf der Basis, die so nicht akzeptabel ist. Um dem entgegenzuwirken, wird oft ein drittes Mikrofon in der Mitte der Mikrofonbasis aufgestellt. Da dieses Mikrofon auf den linken und rechten Kanal eingemischt wird, entstehen u. U. erhebliche Klangfärbungen durch Kammfiltereffekte. Das Mehrkugelverfahren wird meist mit dem Einzelmikrofonverfahren zum Stützmikrofonverfahren kombiniert, hierbei wird es vor allem die Rauminformationen aufnehmen und den Stützmikrofonen hinzufügen, eigentlich handelt es  sich dann um ein Einzelmikrofonverfahren  mit Raumstützmikrofonen; in diesem Fall ist die große Mikrofonbasis richtig, Kammfiltereffekte entstehen beim Raumschall nicht. Als Hauptmikrofonverfahren ist Groß-AB also nur geeignet, wenn die Übertragung des Raumschalls eindeutig im Vordergrund steht und der Abstand der ABAnordnung relativ groß ist Für Groß-AB werden oft Grenzflächenmikrofone (siehe Kap. 4.2.2) eingesetzt. Sie benötigen eine akustisch nicht oder wenig absorbierende Auflagefläche  mit einer Ausdehnung von mindestens 1,5 m, die der Mikrofonmembran die notwendige akustisch wirksame Ausdehnung verleiht. Meist wird dafür der Fußboden des Aufnahmeraums, evtl. auch  seine Wände verwendet. Grenzflächenmikrofone bieten die Übereinstimmung und Linearität von Direktfeld- und Diffusfeldfrequenzgang in idealer Weise. Da sie zudem noch Klangfärbungen durch wenig verzögerte Reflexionen am Boden vermeiden, erfüllen  sie besonders gut die Anforderungen der Laufzeitstereofonie, bei der ja in weit höherem Maße Raumschall aufgenommen wird als bei Intensitätsstereofonie. Die Bedingungen zum Einsatz von Grenzflächenmikrofonen  sind in der Praxis nicht immer erfüllbar: Oft  stehen in angemessener Entfernung nicht genügend große reflektierende Flächen zur Verfügung. Zudem verdecken z. B. Musiker der ersten Reihe diejenigen der zweiten. Bei öffentlichen Veranstaltungen kann das Verhalten des Publikums bei dieser Mikrofontechnik nicht akzeptable Nebengeräusche bedingen. Die auf dem Boden liegenden Mikrofone stellen außerdem bei Anwesenheit von

278 

 5 Tonaufnahme und Tonwiedergabe

Publikum ein gewisses Risiko für die Betriebssicherheit dar,  siehe zu diesem Mikrofontyp ausführlich Kap. 4.2.4.2. 5.3.3.3 Decca-Tree Der sog. Decca-Tree oder das Decca-Dreieck ist eine Stereo-Aufnahmeanordnung, die schon in der Versuchsphase stereofoner Aufnahmetechniken im Jahr 1953 bei Sitzungen der Aufnahmen der Firma Decca empirisch entwickelt und später bei vielen Decca-Aufnahmen eingesetzt wurde,  sich aber nicht in die theoretischen Überlegungen zur Mikrofonierung einfügen lässt. In der Anordnung eines Dreiecks oder auf den Kopf gestellten T werden drei Mikrofone, im Allgemeinen Druckkugeln, entsprechend Abb. 5/40 angeordnet. Das Mittenmikrofon C befindet sich typischerweise 1,5 m vor der Mikrofonbasis aus den Mikrofonen L und R mit einem gegenseitigen Abstand von ca. 2,0 m. Minimal sollten die Abstände 1,25 m nicht unterschreiten, eine Standardisierung fand nicht statt. Bevorzugt wurde das System bei großen Orchesteraufnahmen eingesetzt, wo die Anordnung in das Orchester in einer Höhe von 3 bis 4 m hineinragt. Das Decca-System bildet hauptsächlich und deutlich die Positionen links – Mitte – rechts ab und zeichnet sich durch einen beeindruckenden Raumklang aus. Es gilt nicht als abgewandeltes Groß-AB-Verfahren. Das System ist offen für zahlreiche Varianten wie die Verzögerung des Mittenmikrofons, Richtungsregelung der AB-Anordnung und Unterstützung durch Stützmikrofone [Gernemann, 2002/1]. Eine Renaissance erlebt der Decca-Tree als raumbetonte Aufnahmetechnik für Surround Sound-Aufnahmen, wo es direkt die Signale L, R und C liefert (siehe Kap. 5.4.2.3). 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie Ergänzend zu den grundsätzlichen Darlegungen zur Laufzeitstereofonie werden nachfolgend einige Hinweise für den praktischen Einsatz gegeben: Bedeutung der Raumakustik Bei der Mikrofonaufstellung für eine Aufnahme in Laufzeitstereofonie handelt es  sich wie beim Aufnahmeverfahren in XY- oder MS-Technik um ein Hauptmikrofonverfahren. Das bedeutet, dass  mit nur einem Mikrofonpaar das gesamte Klanggeschehen aufgenommen wird. Die Klangbalance kann hierbei aber nur dann gewahrt werden, wenn der Abstand der Mikrofone zur Schallquelle nicht kleiner ist als dessen Ausdehnung; anderenfalls werden die Abstände zu den Einzelschallquellen zu unterschiedlich. Damit befindet sich das Mikrofonsystem nicht mehr im Nahbereich der Schallquellen mit überwiegend Direktschall, sondern in einem Bereich, in dem Diffusschall einen relativ großen Anteil haben kann, je nach der Akustik, speziell der Nachhallzeit des Raums. Gerade die bei Laufzeitstereofonie vorteilhafte und übliche Verwendung ungerichteter Mikrofone ergibt einen größeren Diffusschallanteil als bei dem XY- bzw. MS-Mikrofonverfahren der Intensitätsstereofonie; deshalb sind parallel ausgerichtete Richtmikrofone durchaus eine bedenkenswerte Möglichkeit. So erhält die Akustik des Aufnahmeraums eine weit größere Bedeutung bei der Laufzeitstereofonie, als ihr bei den Verfahren der Intensitätsstereofonie zukommt: Das AB-Verfahren eignet sich deshalb

5.3 Zweikanal-Stereofonie 

 279

nur bei akustisch guten Räumen, das Hinzufügen künstlichen Nachhalls sollte sich bei ABAufnahmen also weitgehend erübrigen. Mikrofonauswahl Einer der Vorteile des AB-Mikrofonverfahrens, die gute Wiedergabe des Raumeindrucks des Aufnahmeraums, beruht wesentlich auf der Wiedergabe des Diffusschalls. Die adäquate Aufnahme des Diffusschalls erfordert im Allgemeinen Mikrofone  mit Kugelcharakteristik. Grundsätzlich können besonders bei übermäßig halligen Räumen aber auch parallel ausgerichtete Richtmikrofone verwendet werden. Hierbei ist zunächst an die breite Niere mit ihrer weitgehend frequenzunabhängigen Richtcharakteristik zu denken, aber auch an die Niere, es gelten dabei praktisch die Aufnahmebereiche für Kugeln (Tab. 5/8). Bereits in der Zeit der Monofonie wurden Druckempfänger bei Verwendung nur eines Mikrofons aus klanglichen Gründen gegenüber Druckgradientenempfängern bevorzugt. Das AB-Mikrofonverfahren ist die stereofone Weiterentwicklung dieser Klangästhetik. Maßgeblich dafür ist die technisch nicht vollständig zu dokumentierende Klangqualität dieser Mikro­ fone. Sie beruht wohl besonders auf der guten Aufnahme tiefer Frequenzen. Im hohen Frequenzbereich sind Druckmikrofone dadurch gekennzeichnet, dass zwischen Direktfeld- und Diffusfeldfrequenzgang ein Unterschied besteht, der auch durch Filterung nicht zu beseitigen oder herzustellen ist (siehe Kap. 4.2.1). Es gibt vier Typen von Kugelmikrofonen: –– diffusfeldentzerrte Druckempfänger mit linearem Diffusfeldfrequenzgang und Frei- oder Direktfeldfrequenzgang mit Höhenanhebung, –– frei- oder direktfeldentzerrte Druckempfänger  mit linearem Frei- oder Direktfeldfrequenzgang und Diffusfeldfrequenzgang mit Absenkung der Höhen, –– frei- oder direktfeldentzerrte Druckempfänger mit leicht ansteigendem Frei- oder Direktfeldfrequenzgang und leicht abfallendem Diffusfeldfrequenzgang, –– Grenzflächenmikrofone mit linearem Frei- oder Direktfeld- und linearem Diffusfeldfrequenzgang. Welchem Typ der Entzerrung im Einzelfall der Vorzug gegeben wird, ist keine aufnahmetechnische Entscheidung, sondern eine Frage der Klanggestaltung, abhängig von vielen Faktoren wie der Art der Schallquellen und dem Stil der Darbietung sowie der Raumakustik. Da sich die genannten Mikrofontypen nur in der Entzerrung ihres Frequenzgangs unterscheiden, können die verschiedenen Entzerrungen auch mit einem Filter z. B. aus einem diffusfeldentzerrten Mikrofon nachgebildet werden: eine Höhenabsenkung um 6  dB ergibt ein freifeldentzerrtes Mikrofon, eine Absenkung um 3 dB ein solches mit leichtem Höhenanstieg; nicht jedoch nachgebildet werden kann die unterschiedliche Entzerrung von Direkt- und Diffusfeld z. B. bei einer Niere. Abstand von der Schallquelle Der Abstand des Mikrofonpaars von der Schallquelle wirkt sich bei gleichbleibender Mikro­ fonbasis in folgender Weise auf das Klangbild aus: Je größer der Abstand ist, umso  mehr Raumschall erhält das Klangbild, umso schmaler wird die Schallquelle abgebildet und umso geringer wird die Tiefenstaffelung ausgedehnter Klangkörper wie Orchester. Andererseits

280 

 5 Tonaufnahme und Tonwiedergabe

gewinnt eine Aufnahme mit zunehmendem Mikrofonabstand an Homogenität. Da mit wachsendem Abstand sich die Klangqualitäten einer Aufnahme teils verbessern, teils verschlechtern, ist stets nach einem optimalen Kompromiss zu suchen, der nicht in einer allgemeinen Empfehlung ausgedrückt werden kann. Die Abbildungsbreite kann durch die Mikrofonbasis optimiert werden, so dass Hallanteil und Tiefenstaffelung die wesentlichen Gesichtspunkte für die richtige Wahl des Mikrofonabstands von der Schallquelle sind. Um eine räumliche Auflösung der Schallquellen bei der Wiedergabe zu realisieren, muss das Mikrofonpaar in einem Abstand von der Schallquelle aufgestellt werden, bei dem noch ein hörbarer Direktschallanteil vorhanden ist, also innerhalb des Hallradius (siehe Kap.  1.2,4). Bei Verwendung von Kugelmikrofonen ist der Bereich um die Schallquelle, in dem der Direktschallanteil überwiegt, deutlich kleiner als bei Verwendung von gerichteten Mikrofonen (siehe Abb. 5/29), wenn er z. B. bei der Kugel 5 m beträgt, erhöht er sich bei der Niere um den Faktor 1,7, also auf 8,5 m. Das Laufzeitverfahren kann mit den Aufnahmeverfahren der Intensitätsstereofonie ohne weiteres kombiniert werden. Da das AB-Mikrofonverfahren ein Hauptmikrofonverfahren ist, bietet sich insbesondere die Kombination mit dem XY-Verfahren für kleinere Untergruppen oder mit dem Einzelmikrofonverfahren für einzelne Instrumente als Stützmikrofone an. Es ergeben sich dabei Verfahren, die gleichzeitig Intensitäts- und Laufzeitdifferenzen enthalten; diese Verfahren werden im nachfolgenden Kapitel behandelt.

5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie Die Aufnahmeverfahren der Intensitäts- und Laufzeitstereofonie können nicht nur einzeln für sich angewendet werden, sondern führen gerade in ihrer Kombination zu den aufnahmetechnisch sehr interessanten sog. gemischten Verfahren, bei denen das XY- mit dem ABVerfahren in einem Hauptmikrofonverfahren kombiniert wird. Es geht nicht darum, die Verfahren zu addieren,  sondern tatsächlich um ein Zusammenführen, ein Verschmelzen von AB und XY, nicht aber MS. Die gemischten Aufnahmeverfahren können die Qualitäten von Intensitätsstereofonie – präzise Phantomschallquellen auf der Lautsprecherbasis – und der Laufzeitstereofonie – guter Raumeindruck und Tiefenstaffelung –  miteinander verbinden. Die Laufzeitdifferenzen sorgen auch im tiefen Frequenzbereich bei Diffusschall für die Bildung von Phantomschallquellen und damit für eine Abbildung des Raums auf der Stereobasis; die Pegeldifferenzen sichern im höheren Frequenzbereich, wo Laufzeitdifferenzen zu unklaren, mehrdeutigen Abbildungen führen können, deutlich wahrnehmbare Phantomschallquellen,  so ergänzen  sich die Verfahren. Diese Aufnahmeverfahren werden deshalb auch oft erfolgreich verwendet. In der Praxis lassen  sich allerdings die Anteile von Laufzeit- und Pegeldifferenzen an der Stereoabbildung  meist nur grob abschätzen, da zu viele Faktoren darauf Einfluss nehmen. Wenn Intensitäts- und Laufzeitverfahren gleichgewichtig sind, spricht man von Äquivalenzverfahren. Bei XY bzw. MS und AB gibt es im Idealfall keine Abhängigkeiten der Signalpegel von der Frequenz, in der Praxis sind sie relativ gering. Da aber beim natürlichen Hören Laufzeit- und Pegeldifferenzen kombiniert auftreten, hier aber die Pegeldifferenzen  mehr oder weniger frequenzabhängig sind, liegt es nahe, auch bei den gemischten Verfahren bewusst mit fre-

5.3 Zweikanal-Stereofonie 

 281

quenzabhängigen Pegeldifferenzen zu arbeiten. Diese Verfahren werden  mit einem Trennkörper zwischen den Mikrofonen einer AB-Anordnung realisiert,  man nennt  sie deshalb zusammenfassend Trennkörper-Mikrofonverfahren oder kurz Trennkörperverfahren. Für die Formgebung der Trennkörper gibt es eine große Palette von Möglichkeiten: flache Scheiben, Zylinderabschnitte, Kugeln, Keile u. a. in verschiedenen Größen, aber eben auch eine Kopfnachbildung. Einige Trennkörper werden mit Grenzflächenmikrofonen kombiniert. Gemeinsam ist allen Trennkörpern, dass sie sich in ihren Dimensionen an der Größe des Kopfs orientieren, also an den Gegebenheiten des natürlichen Hörens. Ausgehend von theoretischen Überlegungen, aber auch auf Grund praktischer Experimente wurde eine große Anzahl von Mikrofonverfahren der gemischten Aufnahmetechnik entwickelt, einige der wichtigsten Verfahren werden unten besprochen. Man kann die Verfahren in zwei Gruppen einteilen: –– Verfahren ohne Frequenzabhängigkeit der Pegeldifferenzen mit gerichteten Mikrofonen und einer Mikrofonbasis, besprochen werden die Anordnungen nach den Williams-Diagramme (Kap. 5.3.4.1) sowie als deren spezielle, vielfach genutzte Lösungen das ORTF-, das EBS- und das NOS-Verfahren (Kap. 5.3.4.2), –– Verfahren  mit Frequenzabhängigkeit der Pegeldifferenzen,  sog. Trennkörperverfahren,  mit gerichteten oder ungerichteten Mikrofonen, die durch einen Körper getrennt werden, besprochen wird das Kugelflächenmikrofon (Kap. 5.3.4.3), auf andere Trennkörper wird hingewiesen (Kap. 5.3.4.4). Das Verfahren mit einer exakten Kopf- und Ohrnachbildung, das Kunstkopfverfahren, ist nicht ohne weiteres ein brauchbares Hauptmikrofonverfahren, da eine befriedigende Lautsprecherwiedergabe nicht direkt  möglich ist; ganz große Bedeutung erlangt das Kunstkopfverfahren im Rahmen von 3D‑Audio, also den Verfahren der dreidimensionalen Klangwiedergabe (siehe Kap. 5.5.5). Für die Anwendung der gemischten Aufnahmeverfahren gilt wie generell für die Hauptmikrofonverfahren der XY-, MS- und AB-Aufnahmetechnik: Sie  sind bevorzugt geeignet für in  sich klanglich ausgewogene Ensembles in akustisch guten Räumen, also besonders für Aufnahmen im Bereich der klassischen Musik und für in der Aufnahmetechnik vergleichbare Aufnahmen, nicht jedoch im Bereich populärer Musik, Jazz, Theater u. ä. Allen Verfahren der Trennkörperstereofonie ist gemeinsam, dass sie, anders als AB, XY und MS, einen fest dem Verfahren zugeordneten Aufnahmebereich haben, der also nur über die Entfernung von der Schallquelle angepasst werden kann. Der Abstand der Anordnung zur Schallquelle sollte nicht zu gering  sein,  schon damit die positiven Eigenschaften des AB-Anteils zur Geltung kommen. Weiterhin hat es sich als günstig erwiesen, die Wirkungen der Laufzeit- und Pegeldifferenzen ähnlich groß zu wählen, also die sog. äquivalenten Mikrofonverfahren zu bevorzugen. Ein weiterer Vorteil der gemischten Verfahren ist ihre gute bis ausreichende Monokompatibilität, da trotz vorhandener Laufzeitdifferenzen bei der Monobildung die sonst unvermeidlichen Auslöschungen bzw. Kammfiltereffekte gering ausfallen. Ursache hierfür  sind die  stets  mit zunehmenden Laufzeitdifferenzen ebenfalls zunehmenden Pegeldifferenzen, die nur geringe, in der Praxis nicht oder kaum hörbare Klangfärbungen erzeugen; sie treten erst oberhalb etwa 1 kHz auf.

282 

 5 Tonaufnahme und Tonwiedergabe

5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz Wie in Kap.  5.2.2.2 erläutert, können Pegeldifferenzen unabhängig von der Frequenz und Laufzeitdifferenzen auch zu einer weiteren Gruppe von Aufnahmeverfahren kombiniert werden. Diese  sog. gemischten Verfahren beruhen auf einer wählbaren Mikrofonbasis bis höchstens 40 bis 50 cm und einem wählbaren Versatzwinkel der Mikrofone, woraus sich der Aufnahmebereich ergibt. Es gibt naturgemäß eine sehr große Zahl von Kombinationsmöglichkeiten dieser Größen. Im Prinzip handelt es  sich um drei Größen – Aufnahmebereich, Mikrofonbasis, Versatzwinkel −, jeweils zwei davon können gewählt werden und bestimmen den Wert einer dritten Größe. Gewählt werden kann z. B. der Aufnahmebereich, der sich aus der Ausdehnung des aufzunehmenden Klangkörpers und der Entfernung des Mikrofonsystems hierzu ergibt, und die Mikrofonbasis, daraus errechnet sich dann der Versatzwinkel. Die Zusammenhänge können nicht im Kopfrechnung ermittelt werden, sondern dazu bedarf es einer Berechnung, die am einfachsten mithilfe der von M. Williams berechneten Diagrammen vorgenommen werden kann [Williams, 1987]. Diese sog. Williams-Diagramme sind systematisch für alle Richtmikrofontypen errechnet worden und zeigen in Diagrammen die Zusammenhänge zwischen den Größen Aufnahmebereich, Mikrofonbasis und Versatzwinkel. Abb. 5/12 zeigt als Beispiel die Zusammenhänge für zwei Nieren. Eine Vergrößerung der Mikrofonbasis ergibt eine eindrucksvollere Raumdarstellung, eine Verkleinerung eine präzisere Lokalisierbarkeit und Präsenz. Praktisch kann man z. B. von der beabsichtigten Mikro­ fonbasis ausgehen, ermittelt dann den Aufnahmebereich anhand der Aufnahmesituation und bestimmt schließlich den Versatzwinkel. Ein sehr nützliches Hilfsmittel für die Berechnung ist der im Internet frei verfügbare Image Assistant von Wittek [www.hauptmikrofon.de], auch als einfaches Handwerkzeug das sog. Tonmeister Survival Kit [Dickreiter, 2011]. Tab. 5/9. Aufnahmebereich, Mikrofonbasis und Versatzwinkel für ausgewählte Hauptmikrofonvarianten nach Williams für zwei Nieren [Williams, 1987]. Aufnahmebereich 100 % empfohlen: 75 %

Mikrofonbasis 10 cm

Versatzwinkel

100°

70° 66° 64°

10 cm 20 cm 30 cm

± 69° ± 50° ± 25°

90°

62° 60° 58°

10 cm 20 cm 30 cm

± 78° ± 58° ± 35°

80°

54° 54° 52°

10 cm 20 cm 30 cm

± 87°  ± 69° ± 48°

In Tab. 5/9 sind zur Orientierung eine Auswahl weiterer praxisbezogener Kombinationsmöglichkeiten mit zwei Nieren zusammengestellt, geordnet in der Reihenfolge Aufnahmewinkel, Mikrofonbasis, Versatzwinkel; hier beginnt man mit der Festlegung des Standorts des Hauptmikrofons bzw.  seines Abstands zum Klangkörper, wählt die Mikrofonbasis und  stellt den Versatzwinkel ein. Die Winkelangaben sind berechnet und nicht gerundet. Angegeben sind

5.3 Zweikanal-Stereofonie 

 283

die Aufnahmebereich 100 % und 75 %. Es sei daran erinnert, dass die 100 %-Werte in der angegebenen Genauigkeit theoretische Werte sind, da die Phantomschallquellen nahe bzw. in den Lautsprechern in der Wahrnehmung etwas problematisch  sind; deshalb  sind vor allem die Aufnahmewinkel 75 % zu beachten (siehe dazu Kap. 5.2.2.1), innerhalb derer eine zuverlässige Zuordnung von Schallquellen und Phantomschallquellen gegeben ist. 5.3.4.2 ORTF-, EBS- und NOS-Verfahren Um innerhalb der großen Vielfalt  möglicher Anordnungen nach Williams praxisgerechte Lösungen herauszugreifen, wurden drei Anordnungen quasi  standardisiert, zumindest  mit Namen versehen. Eines der am häufigsten benutzten Mikrofonverfahren ist das sog. ORTF-Verfahren. Es vereint das AB-Mikrofonverfahren mit einer Mikrofonbasis, die – beabsichtigt oder nicht – mit 17 oder 17,5 cm dem Ohrabstand entspricht, mit dem XY-Mikrofonverfahren mit zwei Nieren bei einem Versatzwinkel von ± 55°; der Aufnahmebereich 75 % entspricht 68°, bei nur 10 cm Mikrofonbasis steigt der Aufnahmebereich 75 % auf 90° (Abb. 5/25, siehe auch Tab. 5/6).

Abb. 5/25. ORTF-Mikrofonverfahren, Realisierung mit Einzelmikrofonen und einer Spezialhalterung bzw. mit einem Zwillingsmikrofon.

Das Verfahren erhielt den Namen der ehemaligen staatlichen Rundfunkorganisation Frankreichs, von wo aus es seine Verbreitung gefunden hat. Laufzeit- und Pegeldifferenzen sind bei ORTF etwa gleichgewichtig, ein Äquivalenzverfahren also und einer der Gründe für die

284 

 5 Tonaufnahme und Tonwiedergabe

gute Qualität dieser Anordnung. Zu Laufzeitunterschieden von höchstens 0,5 ms kommen hierbei frequenzunabhängige Pegeldifferenzen bis  maximal etwa 6  dB, da die verwendeten Mikrofone Nierencharakteristik haben und um ±  55° nach außen gedreht  sind. Diese bewährte Mikrofonaufstellung kann auch variiert werden: Einerseits kann durch eine andere Ausrichtung der Mikrofone die Pegeldifferenz vergrößert oder verkleinert werden, andererseits kann die Laufzeitdifferenz durch eine größere Mikrofonbasis erhöht werden, Für die Mikrofonaufstellung nach dem ORTF-Verfahren gibt es geeignete Halterungen für die Mikrofone oder fest montierte Zwillingsmikrofone (Abb. 5/25). Eine weitere einfach handzuhabende und praxisgerechte Anordnung ist das EBS-Verfahren nach EBerhard Sengpiel. Es besteht aus zwei Kleinmembranmikrofonen mit Nierencharakteristik mit einer Mikrofonbasis von 25 cm und nach außen gerichteten Versatzwinkeln von ±  45°, also einem Achsenwinkel von 90°, und einem damit übereinstimmenden Aufnahmebereich von ebenfalls 90°. Es ähnelt dem ORTF-System, bietet aber die Besonderheit, dass der Aufnahmebereich mit dem Achsenwinkel übereinstimmt, der Aufnahmebereich wird so anschaulich von den Mikrofonen markiert und kann im Gegensatz zum ORTF-Verfahren ohne Hilfsmittel bereitgestellt werden, der 90°-Winkel wird nach Augenmaß eingestellt, die Basis 25 cm entspricht meist einer Handspanne, die einmal individuell ermittelt wird. Ein ähnliches System, das NOS-System, wurde empirisch  mit zwei Kleinmembranmikrofonen  mit Nierencharakteristik von Toningenieuren der Stiftung des niederländischen öffentlich-rechtlichen Rundfunks NOS entwickelt. Bei einem Achsenwinkel von ebenfalls 90° und einer Mikrofonbasis von 30 cm ergibt sich ein Aufnahmebereich von 81°, die Laufzeitanteile sind hier also etwas größer als beim EBS- oder auch ORTF-Verfahren. 5.3.4.3 Kugelflächenmikrofon Mikrofonanordnungen mit Trennkörpern bieten Laufzeitdifferenzen, die wie bei AB von der Mikrofonbasis bzw. der Wegdifferenz zu den Mikrofonen abhängig sind, und Pegeldifferenzen, die wegen Abschattungen durch einen Trennkörper mit steigender Frequenz zunehmen. Die ursprüngliche Idee dabei war, sich an den Verhältnissen beim natürlichen Hören mit dem Trennkörper Kopf zu orientieren und dafür vereinfachte technische Lösungen zu realisieren. Bei Anordnungen mit Trennkörpern werden grundsätzlich Druckmikrofone verwendet, weil die besonderen klanglichen Eigenschaften – hervorragende Tiefenwiedergabe, natürliche Präsenz, und guter Raumeindruck – hier ohne Einschränkung genutzt werden können. Ansonsten ist Stereofonie mit Druckempfängern nur in Laufzeitstereofonie möglich, wobei Einschränkungen der Lokalisierbarkeit hingenommen werden müssen. Schon in den 1930er Jahren wurde mit Kugeln als Trennkörper experimentiert, aber erst ein Vorschlag von Theile 1986 mit einem Pflichtenheft mit präzisen Anforderungen führte zu einem System, das objektive Qualitätskriterien im Rahmen der Trennkörpersysteme erfüllt, eben dem Kugelflächenmikrofon mit integrierten Grenzflächenmikrofonen, auch kurz KFM genannt [Theile, 1987], [Wuttke, 1993]. Die Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel  mit 17,5 cm Durchmesser – dem Durchmesser eines durchschnittlichen Kopfs – zeigt Abb. 5/26. Man erkennt, dass  mit zunehmend zur Seite wandernder Schallquelle die Pegeldifferenz zunächst bis zu einem Einfallswinkel von ca. ± 50° ansteigt, dann aber wieder bis ± 90° auf

5.3 Zweikanal-Stereofonie 

 285

Grund von Beugungseffekten zurückfällt, und dies bei einer  starken Frequenzabhängigkeit. D. h., dass für die Entwicklung eines qualitativ hochwertigen Kugelflächenmikrofons weitere Entwicklungsschritte nötig waren, um zu den in Abb. 5/27 gezeigten gleichmäßigen Frequenzgängen zu kommen. Anders gesagt, eine einfache selbst gebaute Vorrichtung kann die Erwartungen an das System nicht erfüllen.

Abb. 5/26. Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser.

Abb. 5/27. Frequenzgänge des Kugelflächenmikrofons bei Direktschall für Schalleinfallswinkel ± 20° und ± 60°.

286 

 5 Tonaufnahme und Tonwiedergabe

Schall, der seitlich eintrifft, erfährt eine Höhenanhebung (Abb. 5/27), zunehmend mit ansteigender Frequenz. Dies ist notwendig, um die ebenfalls  mit ansteigender Frequenz zunehmenden Abschattungen der Kugel am gegenüberliegenden Mikrofon auszugleichen. Die Summe der Klangfärbungen aus den beiden entsprechenden Richtungen bleibt klangneutral. Nur so kann auch der Diffusfeldfrequenzgang linear sein, eine ganz wichtige Forderung an ein Hauptmikrofon, das in größerem Abstand zur Schallquelle aufgestellt wird und damit verhältnismäßig viel Diffusschall aufnimmt. Dies kann  systembedingt für  seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. Vermieden wird diese durch einen größeren Abstand des KFMs zur Schallquelle und damit einem höheren Anteil von Hall. Abb. 5/28 zeigt den mechanischen Aufbau des Systems. In einer Kugel von 20 oder 18 cm Durchmesser sind seitlich mit ihrer Membran bündig zwei Druckempfänger eingebaut, also Grenzflächenmikrofone.

Abb. 5/28. Kugelflächenmikrofons oder KFM, mechanischer Aufbau.

Beim Kugelflächenmikrofon oder KFM sind also die folgenden Anforderungen realisiert, die zugleich die wichtigsten Kriterien für den Mikrofoneinsatz ergeben: –– Die Laufzeit- und Pegeldifferenzen an den beiden Mikrofonen  sind denjenigen beim natürlichen Hören ähnlich und etwa gleichwertig im Hinblick auf die Auswanderung der Phantomschallquelle, es handelt sich also um ein Äquivalenzmikrofon. –– Der Frequenzgang des direkten Schalls von vorn ist über den gesamten Übertragungsbereich linear. –– Der Frequenzgang des diffusen Schalls, also des Halls, ist ebenfalls linear. Dies ist wichtig, da ein Hauptmikrofon durch seine größere Entfernung von den Schallquellen relativ viel Diffusschall aufnimmt.

5.3 Zweikanal-Stereofonie 

 287

–– Schall, der seitlich eintrifft, erfährt eine Höhenanhebung, zunehmend mit ansteigender Frequenz. Dies kann für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. –– Die Richtcharakteristik des KFMs ist nahezu ideal kugelförmig,  mehr noch als diejenige eines Druckempfängers. Der damit verbundene große Diffusschallpegel, der in allen Richtungen nur 3 dB niedriger liegt als der Direktschallpegel bei 0°, macht es zur Bedingung, ausschließlich in akustisch guten Räumen aufzunehmen. Kein Mikrofontyp nimmt so viel Diffusschall verglichen mit dem Direktschall auf wie das KFM. Man kann das KFM ein „ehrliches Mikrofon“ nennen. –– Durch den bündigen Einbau der Mikrofone in die Kugeloberfläche gibt es keinerlei Kammfiltereffekte, die bei anderen Trennkörperverfahren auftreten. –– Die Klangfärbung  seitlichen Schalls nimmt  mit der Entfernung kontinuierlich ab, während der Hallanteil klanglich gleichbleibt,  so wie bei diffusfeldentzerrten Druckempfängern. Damit erhält jede  seitliche Schallquelle eine für die Entfernung typische Klangfärbung, möglicherweise auch einer der Gründe für die gute Darstellung der Tiefenstaffelung. –– Durch den Kugeldurchmesser von 20 cm bzw. 18 cm entsteht ein fester Aufnahmebereich von 90° bzw. 120°, nur durch die Wahl der Entfernung kann also der Aufnahmebereich an die Aufnahmesituation angepasst werden. –– Bei der Kombination mit Stützmikrofonen gehen die besonderen und guten Eigenschaften des KFM erfahrungsgemäß schneller verloren als bei anderen Hauptmikrofonverfahren. –– Stehende Wellen liegen vielfach im Bereich tiefer Frequenzen, die das System wegen der verwendeten Druckempfänger besonders gut aufnimmt. Deshalb  muss  stets auch  mit kleinen Verschiebungen des KFMs nach einer optimalen Position, auch in der Höhe, gesucht werden. 5.3.4.4 Andere Trennkörper Bei der Wahl der Trennkörper gibt es eine große Vielfalt an denkbaren Formen, und so wurde gerade hier viel experimentiert. Da alle Trennkörper Laufzeit- und Pegeldifferenzen liefern, überraschen solche Anordnungen zunächst durchaus mit einer eindrucksvollen Abbildung des Raums. Erst bei genauerer Untersuchung zeigen Formen wie Keile, flache oder dicke Scheiben gerade bei ihren Frequenzgängen erhebliche Mängel, dies trifft auch auf das OSSVerfahren zu, das neben dem KFM bekannteste Trennkörperverfahren. Beim OSS-Verfahren (OSS = Optimales Stereo-Signal), auch Jecklin-Scheibe, befindet  sich als akustische Trennung zwischen den Mikrofonen − grundsätzlich diffusfeldentzerrte Druckempfänger − eine den Schall absorbierende Scheibe. Bei einer ersten Version ist die Mikrofonbasis mit 17,5 cm gleich dem Ohrabstand, die Scheibe hat einen Durchmesser von 30 cm; in einer zweiten Version beträgt der Abstand der Mikrofone zueinander 36 cm, der Scheibendurchmesser 35 cm. Neben den eingeführten Trennkörperanordnungen KFM und OSS sind weitere Anordnungen  mit unterschiedlichen Trennkörpern und Größenverhältnissen  möglich. Die definierte akustische Qualität des Kugelflächenmikrofons erreichen  sie nicht;  sie können im  semi-

288 

 5 Tonaufnahme und Tonwiedergabe

professionellen Bereich oft als Eigenbau  mit überraschendem Erfolg eingesetzt werden. Zunächst können dicke Scheiben, die den Raum zwischen den Mikrofonen ausfüllen und z.  B. aus Schall  schluckender Steinwolle bestehen, verwendet werden, weiterhin einfache oder doppelte Keile, ebenfalls Schall schluckend. Grenzflächenmikrofone werden bei schallharten Trennkörpern verwendet, sie finden z. B. in der Trennkörperanordnung des Systems SASS von Crown und Clara nach Peters Anwendung. Der Kunstkopf als Aufnahmesystem wird allgemein nicht zu den Trennkörperverfahren gerechnet, obwohl er eigentlich diesen zuzuzählen ist. Seine Zielsetzung ist aber nicht die Zweikanal-Stereofonie für Lautsprecherwiedergabe,  sondern die Kopfhörerwiedergabe  mit klangdokumentarischer oder messtechnischer Zielsetzung (siehe Kap. 4.2.4.6). Die Entwicklung von 3D-Audio hat den KK als binaurale kopfbezogene Übertragungstechnik eine neue Aktualität verschafft, auch die Möglichkeiten ihrer Lautsprecherwiedergabe wird wieder diskutiert, hierzu wird auf Kap. 5.5.5 verwiesen.

5.3.5 Stützmikrofonverfahren Aufnahmen ausgedehnter Klangkörper, z. B. Orchester, gerade mit Chor und Solisten, stellen hohe Anforderungen an die Durchsichtigkeit und Brillanz des Klangs, an die gleichmäßige Ausnutzung der gesamten Stereobasis, an gute und eindeutige Richtungsauflösung und an die übermittelte Raumillusion. Um das gewünschte Klangbild für den Hörer verwirklichen zu können, werden besonders bei akustisch unbefriedigenden Räumen, vielfach ergänzend zum Hauptmikrofon  mehrere Stützmikrofone eingesetzt. Auch  mehrere Hauptmikrofone können  sinnvoll  sein, wenn ein einziges Hauptmikrofon zu weit entfernt aufgestellt werden müsste, um das gesamte Klangbild erfassen zu können. Als Stützmikrofone können Monomikrofone für einzelne oder wenig ausgedehnte Schallquellen (siehe dazu Kap. 5.3.5.1) oder Stereomikrofone für ausgedehnte Schallquellen bzw. -gruppen verwendet werden (Kap. 5.3.5.2). Nimmt man den Anteil eines Hauptmikrofons an einer Aufnahme immer mehr zurück, bleibt zunehmend nur noch das Klangbild der Stützmikrofone, das Aufnahmeverfahren wird damit zum Einzelmikrofonverfahren. Somit gibt es einen gleitenden Übergang vom Stütz- zum Einzelmikrofonverfahren, siehe hierzu Kap. 5.3.6. Wenn mit einem oder auch mehreren Hauptmikrofonen nicht das gewünschte Klangbild realisiert werden kann, kann es neben anderen die folgenden Gründe geben: –– Der Klangkörper in sich nicht ausbalanciert, d. h., die Lautstärkeverhältnisse zwischen den Teilschallquellen, z.  B. Gesangssolisten,  sind unausgeglichen. Die Stützmikrofontechnik bietet die Möglichkeit, die Klangbalance zwischen den einzelnen Schallquellen herzustellen; einerseits können unterschiedliche Lautstärken angeglichen werden, andererseits kann durch Hervorhebungen eine Partitur nach  musikalischen Gesichtspunkten in die Aufnahmetechnik übersetzt werden. –– Der Saal ist akustisch ungeeignet, d. h., es kommen zu starke und/oder zu frühe oder zu späte erste Reflexionen zum Mikrofon und/oder der Nachhall überzeugt nicht, weil er unangemessen lang, zu dumpf oder zu hart ist oder Echos auftreten. –– Unabhängig von Saal, Gesamtklang und der klanglichen Balance  soll ein besonderes Klangbild geschaffen werden. Die Aufnahme soll z. B. Grundlage von Fernsehtonaufnah-

5.3 Zweikanal-Stereofonie 

 289

men sein, wobei einzelne Instrumente zeitweise groß ins Bild kommen sollen und dabei akustisch unterstützt werden müssen. –– Es besteht nicht die Möglichkeit, ein Hauptmikrofon an einem geeigneten Ort zu platzieren, z. B., wenn ein Orchester im Orchestergraben eines Opernhauses spielt. Die Stützmikrofontechnik hat die Fähigkeit, in den genannten Fällen Abhilfe zu  schaffen. Kennzeichen der Stützmikrofontechnik ist, dass einigen oder allen Schallquellen zusätzlich zum Hauptmikrofon in relativ geringem Abstand ein weiteres Mikrofon zugeordnet wird. Stereomikrofone  müssen dabei einen größeren Abstand haben als Monomikrofone, da  sie ausgedehnte Schallquellen aufnehmen. Der Abstand von Monostützmikrofonen wird im Allgemeinen zwischen 0,5 und 2 m liegen. Dabei erfordern Klangkörper aus Schallquellen sehr unterschiedlicher Lautstärke, wie Unterhaltungsorchester, Gruppen  mit populärer Musik, Bigbands, auch Jazzgruppen, weit mehr Stützmikrofone als ein in sich ausgeglichener konventioneller Klangkörper, wie z.  B. Kammermusikensembles oder das klassische Sinfonieorchester; diese traditionellen Ensembles  spielen Kompositionen, die für eine Aufführung ohne Korrekturen der Klangbalance konzipiert sind. Die Stützmikrofontechnik  steht aufnahmetechnisch zwischen den Hauptmikrofonverfahren und dem Einzelmikrofonverfahren. Sie kann einerseits ein Hauptmikrofonverfahren unterstützend optimieren, andererseits das Hauptmikrofon dominieren, dazwischen gibt es einen gleitenden Übergang. Das Hauptmikrofon hat beim Stützmikrofonverfahren eine integrierende, homogenisierende Aufgabe, bei geringen Anteilen stellt es u. U. nur noch ein Raummikrofon dar zur Aufnahme des Raumschalls. Grundsätzlich  sollte das Stützmikrofonverfahren nicht dazu dienen, ein unkorrekt eingesetztes Hauptmikrofon zu korrigieren. Jede Aufnahmesituation, in der die Stütztechnik geplant ist,  sollte also  mit der optimalen Einstellung des Hauptmikrofons beginnen. Danach erfolgt die Zumischung der Stützsignale. Dominieren diese, so dient das Hauptmikrofon nur noch der Aufnahme des Raumeindrucks, wofür dann wieder andere Kriterien maßgeblich sind. Stützmikrofone liefern in erster Linie Direktschall. Wegen des geringeren Mikrofonabstands verglichen mit dem Hauptmikrofon trifft Direktschall bei den Stützmikrofonen aber früher ein als beim Hauptmikrofon. Im Ergebnis bilden die Stützmikrofone die Lokalisierung, das Einschwingen und die Präsenz ab, das Hauptmikrofon liefert den Raumeindruck. Nachteilig an der konventionellen Stützmikrofontechnik ist demnach, dass die Schallquellen dabei ohne Entfernungsmerkmale abgebildet werden, die Aufnahme also ohne Tiefenstaffelung bleibt. Diesen Mangel kann eine zeitverzögerte und ggf. verhallte Zumischung der Stützmikrofone beseitigen helfen (siehe dazu Kap. 5.3.5.3). Die Stützmikrofone werden in Übereinstimmung mit der Richtung der Schallquelle aus der Perspektive des Hauptmikrofons mit dem Panorama-Potentiometer in das Gesamtklangbild eingegliedert; sie stellen – sofern sie nicht ganz seitlich eingeordnet sind – Phantomschallquellen mit reinen Pegeldifferenzen dar und sind dadurch gut auf der Stereobasis lokalisierbar.

290 

 5 Tonaufnahme und Tonwiedergabe

5.3.5.1 Monostützmikrofone Als Monostützmikrofone eignen sich Richtmikrofone am besten, da über ein Stützmikrofon nur Direktschall der jeweiligen Schallquelle aufgenommen werden soll. Neben der Nierenrichtcharakteristik, die die beste Ausblendung des Direktschalls nach hinten bietet, kommen dafür die Super- und Hypernierenrichtcharakteristik in Betracht, die bei etwas geringerer Rückwärtsdämpfung eine erhöhte seitliche Ausblendung des Direktschalls bieten. Die Achterrichtcharakteristik hat die beste Ausblendung für seitlichen Schalleinfall, hat aber nach hinten dieselbe Empfindlichkeit wie nach vorne, sie eignet sich also besonders dann, wenn die Instrumente oder Stimmen in nur einer Reihe nebeneinander aufgestellt sind; für Diffusschall sind diese Mikrofone ebenso empfindlich wie die Nieren. Ein Stützmikrofon mit Kugelrichtcharakteristik ist nur in sehr geringem Abstand sinnvoll; ein Grund für die Verwendung eines Kugelmikrofons kann aber der Wunsch sein, mit Druckempfängern zu arbeiten, die u. a. eine besonders gute Wiedergabe tiefer Frequenzen bieten. Abb. 5/29 veranschaulicht die Fähigkeit gerichteter Mikrofone, Diffusschall auszublenden. Z. B. kann man eine Acht oder Niere um den Faktor 1,7 weiter entfernt von der Schallquelle aufstellen, ohne dass sie mehr Diffusschall aufnimmt als eine Kugel in einfacher Entfernung. Mit der Super- und Hypernieren kann man den Abstand in etwa verdoppeln. Aber bereits die breite Niere kann in vielen Fällen bei einem etwas geringeren Abstand als die Niere ein klanglich sehr ausgewogenes Stützmikrofon sein.

Abb. 5/29. Gleiches Verhältnis von Direkt- zu Diffusschall bei unterschiedlichen Mikrofonabständen.

5.3 Zweikanal-Stereofonie 

 291

5.3.5.2 Stereostützmikrofone Stereostützmikrofone  sind nur dann  sinnvoll, wenn räumlich ausgedehnte Klanggruppen gestützt werden  sollen, die in  sich ausbalanciert  sind. Da Stereo-Stützmikrofone in aller Regel gerichtete Schallempfänger  sein  müssen, kommen nur die Aufnahmeverfahren in Betracht, die dies leisten: die XY-Verfahren mit Nieren- und Supernierenmikrofonen und ihre äquivalenten Anordnungen in MS, also XY nicht mit Achten und MS nicht mit Kugel für das M-Signal, sowie gemischte Verfahren mit gerichteten Mikrofonen, z. B. ORTF oder EBS. Beim Einsatz mehrerer Stereomikrofone, egal ob als gleichberechtigte Hauptmikrofone oder als Stützmikrofone, kommt es stets darauf an, die Perspektiven der einzelnen Mikrofone in Übereinstimmung zu bringen, um mehrfache Abbildungen der Schallquellen zu vermeiden. Erfasst z. B. ein Hauptmikrofon über dem Dirigenten das gesamte Orchester, so muss ein Stereostützmikrofon für die Holzbläsergruppe bei der Abbildung zwischen den Lautsprechern auf die Breite eingeengt werden, wie sie sie vom Hauptmikrofon aus gesehen in Bezug auf das Gesamtklangbild einnimmt. 5.3.5.3 Verzögerte und raumbezogene Stützmikrofone Eine Möglichkeit, die den Klang bestimmende Funktion des Hauptmikrofons zu unterstützen, besteht darin, das zeitliche Voreilen der Stützmikrofone durch Verzögerung ihrer Signale aufzuheben,  sie also zeitlich nach dem Signal des Hauptmikrofons einzuordnen. Hierzu schätzt man die Differenz der Strecken Hauptmikrofon – Schallquelle und Stützmikrofon – Schallquelle ab und rechnet sie in die Verzögerungszeit um, für 1 m rechnet man mit 3 ms Laufzeit. Ein Beispiel: Abstand Hauptmikrofon – Hörnergruppe = 10 m, Abstand Stützmikrofon – Hörnergruppe 3 m, die Differenz sind 7 m entsprechend 21 ms. Es hat sich in der Praxis als günstig erwiesen, dem so errechneten Wert nochmals etwa 15 ms hinzuzufügen, in dem Beispiel ergeben sich damit 35 bis 40 ms Verzögerung des Stützmikrofons. In Abwandlung dieser einfachen Verzögerung der Stützmikrofone ist die raumbezogene Stützmikrofontechnik, eine Stütztechnik, die ohne Pan-Pots arbeitet; als Stützmikrofone werden Monomikrofone verwendet. Wie bereits oben erläutert, liefern Stützmikrofone in erster Linie Direktschall, der vor dem Signal des Hauptmikrofons wiedergegeben wird und damit eine Abfolge von Direktschall, ersten Reflexionen und Nachhall ergibt, die in ihrer zeitlichen Struktur nicht der Realität entspricht (Abb.  5/30). Der  starke Anteil von Direktschall und weitgehend fehlende Merkmale der Schallquellenentfernung führen dabei zu dem Gehöreindruck, dass alle Schallquellen „wie auf einer Schnur“ in gleichem Abstand vor dem Hörer zwischen den Lautsprechern aufgereiht  sind. Der konventionellen Stützmikro­ fontechnik fehlt also Raumtiefe. Das wird in vielen Fällen durchaus erwünscht, kann doch nur so eine für alle Schallquellen geltende Präsenz der Aufnahme realisiert werden. Eine andere Aufnahmephilosophie ist die von Theile vorgeschlagene raumbezogene oder panpotfreie Stütztechnik [Theile, 1984]. Sie geht davon aus, dass die Stützmikrofone zeitlich nicht vor den Signalen des Hauptmikrofons,  sondern danach eingeordnet werden. Damit wird nicht nur das Voreilen des Direktschalls der Stützmikrofone ausgeglichen, was schon früher gefordert bzw. praktiziert wurde, vielmehr wird das Signal des Stützmikrofons nach den Direktschall des Hauptmikrofons gesetzt und somit nicht als Direktschall, sondern als erste Reflexion behandelt. Die so gewonnene künstliche erste Reflexion erhöht zunächst die

292 

 5 Tonaufnahme und Tonwiedergabe

Lautstärke der Schallquelle; dieses Phänomen ist auch aus der Raumakustik bekannt und wird entsprechend z. B. zur Verbesserung der Sprachverständlichkeit in einem Saal genutzt. Diese Reflexion schafft aber keine Lokalisierbarkeit der Schallquelle. Diese kommt vielmehr vom Direktschallanteil des Hauptmikrofons. Entsprechend den natürlichen Bedingungen in einem Raum ist es günstig, die künstliche erste Reflexion des Stützmikrofons nicht als korreliertes Signal abzubilden, also eine lokalisierbare Phantomschallquelle zu schaffen, sondern das Stützmikrofon in den beiden Kanälen zu dekorrelieren, also etwas unterschiedlich zu verzögern, z. B. mit einem Zeitabstand von 3 bis 5 ms.

Abb. 5/30. Vergleich der konventionellen und raumbezogenen Stützmikrofontechnik: oben: nur Hauptmikrofon, Mitte: zusätzlich Stützmikrofon ohne Verzögerung, unten: zusätzlich Stützmikrofon mit Verzögerung.

Die Grundverzögerung der Stützmikrofone  sollte  so gewählt werden, dass  sie etwa 20 bis 30 ms nach den Signalen des Hauptmikrofons eintrifft. Eine Einordnung dieser Signale über Panoramapotentiometer entfällt also. Diese Stützmikrofontechnik hat die natürlichen Ver-

5.3 Zweikanal-Stereofonie 

 293

hältnisse in einem Raum als Vorbild. Abb. 5/30 demonstriert den Unterschied zwischen den Verhältnissen bei einem Hauptmikrofon, zusätzlich  mit konventioneller und  mit raumbezogener Stützmikrofontechnik. Mit dieser Stützmikrofontechnik ist  selbstverständlich ein Verlust an Lokalisierbarkeit verbunden. Gewonnen ist eine Annäherung an die Hörbedingungen, die beim natürlichen Hören herrschen. Ob dies wünschenswert ist oder den Aufwand rechtfertigt, hängt von der jeweiligen klangästhetischen Zielsetzung ab. Zu prüfen ist hier auch, ob bei der Monobildung Kammfiltereffekte hörbar werden.

5.3.6 Einzelmikrofonverfahren Beim Einzelmikrofonverfahren werden für jede Einzelschallquelle eines Klangkörpers üblicherweise gerichtete Mikrofone eingesetzt, deren Einzelsignale in der Regieeinrichtung durch geeignete Einstellung von Pegel und Abbildungsrichtung zu einem stereofonen Klangbild zusammengesetzt werden. Es handelt sich also um ein Aufnahmeverfahren reiner Intensitätsstereofonie. Mikrofon I wird z. B. ausschließlich dem linken, Mikrofon III dem rechten Kanal zugeordnet, während Mikrofon II als Mittensignal gleichmäßig auf beide Kanäle aufgeteilt wird. Voraussetzung für das einwandfreie Funktionieren des Einzelmikrofonverfahrens ist eine gute gegenseitige akustische Trennung der Mikrofone; so wird erst die von den Positionen der Schallquellen im Aufnahmeraum unabhängige Richtungszuordnung ermöglicht. Zwei Einzelmikrofone können dann als ausreichend akustisch getrennt angesehen werden, wenn ihre Übersprechdämpfung mindestens 12 bis 15 dB beträgt. Dieser Wert muss nur für die den Richtungseindruck bestimmenden ersten Wellenfronten gelten; der mit dem Aussteuerungsmesser abgeschätzte Wert kann also im Allgemeinen geringer sein, weil bei ihm auch Diffusschall gewertet wird; in der Praxis kommt man deshalb mit einem Wert um 10 dB aus, weicht die Aufstellung wenig von der Anordnung der Klangquellen auf der Lautsprecherbasis ab, können auch schon 6 dB ausreichend sein. Die akustische Trennung der Schallquellen wird durch distanzierte Anordnung der Klangquellen, durch Verwendung gerichteter Mikrofone und durch Trennwände und Kojen erreicht, durch geschickte Anordnung der Schallquellen − laute Schallquellen zu lauten, leise zu leisen − noch verbessert. Durch Einsatz von Filtern, die nur den Frequenzbereich der zugeordneten Schallquellen passieren lassen, kann sie u. U. noch weiter verbessert werden. Das Einzelmikrofonverfahren ist also vorteilhaft dann anzuwenden, –– wenn die einzelnen Schallquellen sich in ihrer natürlichen Lautstärke stark unterscheiden und von sich aus kein ausbalanciertes Gesamtklangbild ergeben, –– wenn die gewünschte Anordnung der Schallquellen im stereofonen Klangbild nicht der tatsächlichen Anordnung im Aufnahmeraum entspricht, –– wenn an den Einzelschallquellen unterschiedliche Manipulationen durch die Tonregie vorgenommen werden  sollen, also unterschiedliche Klangbeeinflussung, Verhallung, Verzögerung usw., –– wenn aus derselben Aufnahme unterschiedliche Abmischungen gewonnen werden sollten, z. B. für den Hörfunk, die Schallplatte oder das Fernsehen; in diesem Fall ist das Verfahren unverzichtbar.

294 

 5 Tonaufnahme und Tonwiedergabe

Durch den geringen Mikrofonabstand kommt der Akustik des Aufnahmeraums beim Einzelmikrofonverfahren eine geringe Bedeutung zu, sofern nicht die Nachhallzeit besonders lang oder der Raum besonders klein ist. Das Verfahren ist bei Musikaufnahmen in der Regel an die künstliche Verhallung gebunden. Es fordert von der Tonregie in hohem Maß die Gestaltung eines Klangbilds, das in der akustischen Realität des Aufnahmeraums nicht vorhanden ist. Tonmeister und Toningenieur werden gerade bei dieser Aufnahmetechnik künstlerische Mitgestalter. Die Richtcharakteristik der Instrumente und Sänger wirkt  sich bei diesem Aufnahmeverfahren wegen des geringen Mikrofonabstands  so  stark aus wie bei  sonst keinem Aufnahmeverfahren. Der Aufstellungsort des Mikrofons ist deshalb in besonderem Maß an die Klangabstrahlung der Instrumente und Sänger gebunden (siehe Kap.  2.3.3). Bei gleicher Richtcharakteristik der Mikrofone ist die Wahl des geeigneten Mikrofonorts von größerem Einfluss auf den Klang als die Wahl eines klanglich optimalen Mikrofons. Die Suche nach dem geeigneten Mikrofonort ist immer primär, erst danach kann eine geeignete Filtereinstellung vorgenommen werden. Grundsätzlich wird  so wenig Diffusschall aufgenommen wie  möglich. Niere und Acht nehmen den gleichen Diffusfeldanteil auf, die Ausblendung des Diffusschalls verbessert sich demgegenüber bei Supernieren, Hypernieren bzw. Keulen,  solange am Mikrofonort der Direktschall größer als der Diffusschall ist, also innerhalb des jeweils gültigen Hallradius. Abb. 5/29 zeigt, um wieviel die Mikrofonabständen verglichen mit Kugelcharakteristik vergrößert werden können. Als Spezialmikrofone für besondere Anwendungen stehen Ansteckmikrofone zur Verfügung (siehe Kap. 4.2.4.4). Sie werden vor allem bei Saiteninstrumenten, aber auch bei Blasund Schlaginstrumenten eingesetzt und ergeben einen Klang mit interessanter Präsenz. Bei Streich- und Zupfinstrumenten werden die Mikrofone meist am Steg befestigt, beim Flügel am Gussrahmen. Bei Blasinstrumenten  sind Ansteckmikrofone problematisch, weil die Klangstrahlung in starkem Maße frequenzabhängig auf die einzelnen Teile der Instrumente verteilt ist. Durch die Mischung der Mikrofonsignale liegt die Gesamtheit der Einzelpegel erheblich über den Pegeln der Einzelsignale. Aus diesem Grund muss die Aussteuerung in den Einzelkanälen reduziert werden. Bei der Mischung zweier Mikrofone mit gleichem Pegel entsteht ein durchschnittlich um 3 dB höherer Gesamtpegel, in Pegelspitzen kann er aber durchaus 6  dB höher liegen; bei vier Mikrofonen ergibt  sich durchschnittlich ein um 6  dB erhöhter Gesamtpegel. Bei acht Mikrofonen mit gleichem Pegel liegt die Aussteuerung des Einzelkanals deshalb bereits bei ca. − 9 dB oder weniger.

5.3.7 Überwachung der Stereosignale Für die umfassende Qualitätskontrolle  steht an erster Stelle die Kontrolle  mit dem Gehör. Dazu gibt es weitere optische Kontrollinstrumente, die die Beurteilung erleichtern oder ein schnelleres und sichereres Urteil ermöglichen, diese Instrumente werden umfassend in Kap. 19.4 behandelt. Tab. 5/10 fasst ihre Anwendungsbereiche zusammen.

5.3 Zweikanal-Stereofonie 

 295

Korrelationsgradmesser oder Goniometer und Stereosichtgerät  sind nur für Aufnahmen in reiner oder annähernd reiner Intensitätsstereofonie vorgesehen, bei Laufzeitstereofonie  sind ihre Anzeigen unbrauchbar, ja irreführend, und dürfen deshalb nicht beachtet werden. Dies gilt auch für die gemischten Verfahren, mit der Einschränkung, dass hier die Anzeigen immerhin Hinweise geben für Aufnahmefehler, die im Einzelfall oft  schwer zu bewerten sind. Das wichtigste Instrument zur Überwachung der Stereosignale beim Laufzeitverfahren ist das Gehör. Tab. 5/10. Kontrollinstrumente für die Tonaufnahme. Aussteuerungsmesser

Korrelationsgrad- Stereosichtgerät messer, Goniometer

anzuwenden

bei allen Verfahren nur bei Intensitätsstereofonie

Pegelkontrolle



Abhöreinheit

bei Abhörkontrolle

Kompatibilität



(●)



Breite des Klangbilds

















Kap. 19.4.4

Kap. 19.4.4.1

Kap. 8.12., 19.3

Richtungsverteilung Phasenlage/Verpolung Details in

Kap. 19.4

Korrelationsgradmesser Der Korrelationsgrad r ist ein Maß für die Gleichartigkeit der Signale im linken und im rechten Kanal, unabhängig vom jeweiligen Pegel (siehe auch Kap. 19.4.4). Wird bei einer Stereoaufnahme der Aufnahmebereich immer mehr eingeengt, so nimmt damit ihr monofoner Charakter mehr und mehr zu; gleichzeitig werden die Stereosignale L und R immer ähnlicher und damit nimmt auch der Korrelationsgrad r zu. Die Bedeutung von r fasst Tab. 5/11 zusammen. Tab. 5/11. Bedeutung des Korrelationsgrads r. Korrelationsgrad

Klangbild

stets 1 stets 0 > 0 oder um 0 1,2 m ± 15°

Abb. 5/32. 3/2-Referenz-Lautsprecheranordnung mit den Lautsprechern L-C-R und den SurroundLautsprechern LS und RS.

Auch die reguläre kreisförmige Anordnung der Lautsprecher gestaltet  sich in vielen praktischen Situationen  schwierig. Sollte eine kreisförmige Anordnung der Lautsprecher nicht möglich sein, schreiben die Empfehlungen vor, dass die Lautsprechersignale entsprechend verzögert werden. Entfernungsunterschiede lassen  sich für Center und Surround dadurch in gewissen Grenzen kompensieren (Abb.  5/33). Jedoch gibt es für die SurroundLautsprecher in der Praxis relativ große Toleranzen in Bezug auf Richtung und Entfernung.

5.4 Mehrkanal-Stereofonie 

 301

Abb. 5/33. Kompensation der Entfernung des Centerlautsprechers durch Verzögerung, 2,94 ms für 1 m „zu nahe“.

Optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern nach Abb. 5/34 bieten die Möglichkeit, die stereofone Qualität bei der seitlichen Abbildung zu verbessern und die Hörzone zu erweitern. Interessante Abbildungsbereiche sind L-LL und R-RR, z.B. um das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt  sich eine größere Freiheit für die räumliche Darstellung, insbesondere bei wichtigen seitlichen Hörereignissen.

Abb. 5/34. Standard 3/2- und optionale 3/4-Lautsprecheranordnung gemäß [ITU-R BS.775-18].

Um eine größere Hörzone bzw. verbesserte Einhüllung beim 3/2-Format zu erzeugen, kann man auch weitere Surround-Lautsprecher mit den zwei Standard-Kanälen LS und RS betreiben. Bei größeren Wiedergaberäumen wie z. B. Kinos ist dies unbedingt notwendig. In diesem Fall ist eine ausreichende Dekorrelation der zusätzlich angeschlossenen Lautsprecherkanäle wünschenswert, z. B. durch geeignete Verzögerungen, sowie der Anschluss über geeignete Signalverteiler (Matrizen) oder Prozessoren. 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme Das 3/2-System ist in eine Hierarchie von Mehrkanal-Tonformaten eingebettet. Für eine derartige Hierarchie, abwärtskompatibel bis zum Monoformat, sind einfache Bedingungen der Matrizierung zur Addition von Teilsignalen an den Übertragungs- und Speicherungs- oder

302 

 5 Tonaufnahme und Tonwiedergabe

Wiedergabestufen einer Signalkette in der internationalen Empfehlung [ITU-R BS.775-1] angegeben, wodurch die technische Kompatibilität zwischen den Kanalformaten ermöglicht wird. Das 3/1-Format z. B., also drei Frontsignale und ein Surround-Kanal, ist in diese Hierarchie integriert und kann mit der 3/2-Konfiguration wiedergegeben werden; in diesem Fall speist das monofone Surround-Signal S beide Surround-Lautsprecher LS und RS, die Verstärkung der Surround-Kanäle wird dabei um 3 dB reduziert. Systeme mit mehr Kanälen als beim 3/2-Format sind möglich und können an dieses angepasst werden, z. B. 3/3, 5/2, 5/4 usw. Diese Formate sind aber nicht im ITU-Standard enthalten. Formate mit fünf Frontlautsprechern werden im Filmbereich verwendet, natürlich sollte bei der Produktion beachtet werden, dass  sie zu den 3/2- und 2/0-Formaten abwärts­ kompatibel sind. Für alle möglichen Formatkombinationen sollte die Referenz­konfiguration 3/2 die Grundlage darstellen. 5.4.1.3 Tieftonwiedergabe Um Verwechslungen zu vermeiden, wird hier unterschieden zwischen einem Signal zur Erweiterung des Tieffrequenzbereichs, das über einen  separaten  sog. LFE-Kanal (low frequency effect) in einem Übertragungs- oder Aufzeichnungssystem übertragen wird, und einer  separaten Abstrahlung des tieffrequenten Programminhalts über Tieftonlautsprecher, sog. Subwoofer. LFE-Kanal Im Filmbereich wurde ein spezieller Übertragungskanal für den Bassbereich von 20 Hz bis etwa 80 bis120  Hz eingeführt, um den tieffrequenten Übertragungsbereich der Filmtonsysteme praxisgerecht zu erweitern. Dieser wurde in die Standards [ITU-R  BS.775-1] und [SMPTE RP-173] übernommen. Er kann optional als Ergänzung der Formate im Studio oder im Heim verwendet werden. Die Bezeichnung wird wegen des schmalen benutzten Frequenzbereichs mit „0.1“ oder „…/1“ abgekürzt. Daher sind die Bezeichnungen 5.1 bzw. 3/2/1 oder 7.1 bzw. 5/2/1 in Gebrauch. Die Nutzung des LFE-Kanals ist optional. Sie kommt in Betracht, wenn ergänzend zur Tonmischung in den Hauptkanälen tieffrequente Effekte hinzukommen  sollen. Dies trifft für Musik normalerweise nicht zu. EBU- und SMPTE-Dokumente [ITU-R 10C//11, 1987] und [EBU R22] zum Mehrkanalton enthalten einige Anmerkungen über die Verwendung des LFE-Kanals, das SMPTE-Dokument führt dazu aus: „Soll ein Tonprogramm, das ursprünglich für Filmtheaterversionen produziert wurde, in Consumer-Medien übertragen werden, wird der LFE-Kanal  meist von dem  speziellen Kino-Subwooferkanal abgeleitet. Im Kino erfolgt eine Wiedergabe stets über den speziellen Subwooferkanal, daher kann bei Filmabmischungen der LFE-Kanal zur Übertragung von wichtigem tieffrequenten Programminhalt benutzt werden. Sollen Programme, die ursprünglich für den Film produziert wurden, z. B. über Fernsehen, DVD oder streaming-Dienste übertragen werden, kann es notwendig sein, Anteile vom Inhalt des Subwooferkanals wieder in die Kanäle mit voller Bandbreite einzumischen. Es ist wichtig, dass jegliche Anteile tiefer Frequenzen, die für die Vollständigkeit des Programminhaltes sehr bedeutsam sind, nicht in dem LFE-Kanal untergebracht werden. Der LFE-Kanal sollte Programminhalten mit sehr tiefen Frequenzen sowie sehr hohen Pegeln

5.4 Mehrkanal-Stereofonie 

 303

unter 120 Hz vorbehalten bleiben, deren Fehlen bei der Wiedergabe die künstlerische Vollständigkeit des Programms nicht beeinträchtigt. Bei Kinowiedergabe ist die innere Verstärkung im LFE-Kanal üblicherweise 10 dB kleiner als die der anderen einzelnen Kanäle. Gemäß SMPTE [ITU-R 10C//11, 1987] wird dies durch eine Pegelerhöhung des Wiedergabekanals kompensiert. Dies muss aus Gründen der Kompatibilität im Studiobereich auch bei der Heimwiedergabe beachtet werden. Separate Tieftonlautsprecher oder Subwoofer Es kann nützlich  sein, zusätzlich zu den Hauptlautsprechern L, C, R, LS und RS Subwoofer, also Bass-Strahler, zur Erweiterung des Tieftonbereichs aufzustellen, so dass die untere Grenzfrequenz der fünf Hauptlautsprecher auf etwa 80 Hz erhöht und dementsprechend ihre Volumina reduziert werden können. Ein Bass-Management-System in der Wiedergabeanlage des Hörers gemäß Abb. 5/35 ermöglicht es normalerweise, dass der oder die Subwoofer sowohl 5.1-Filmton mit LFE-Signal als auch 3/2-Formatmaterial ohne separates LFE-Signal wiedergeben.

Abb. 5/35. Ableitung von kombinierten Subwoofer- und LFE-Signalen.

Natürlich können auch  mehrere Subwoofer für  spezifische einzelne Kanäle eingesetzt werden, z. B. einer für die Front- und einer für die Surround-Kanäle. Dies bietet den Vorteil, dass Subwoofer und Hauptlautsprecher näher beieinanderstehen können und deshalb die im unteren Frequenzbereich fehlende Kanaltrennung auch bei höheren Übergangsfrequenzen nicht wahrgenommen wird. Nichtlineare Verzerrungen des Subwoofers können im starken Maße dazu beitragen, dass Lokalisierungsfehler auftreten. Untersuchungen haben gezeigt,

304 

 5 Tonaufnahme und Tonwiedergabe

dass Eigengeräusche, Verzerrungen, und Informationen über 120 Hz, die vom Ort des Subwoofers abgestrahlt werden, ihn lokalisierbar machen können. Die getrennte Wahrnehmung eines Subwoofers ist zudem stark vom Programmmaterial abhängig. Über die optimale Aufstellung eines einzelnen Subwoofers in einem Abhörraum gibt es unterschiedliche Auffassungen, obgleich die Anordnung eines einzelnen Subwoofers in einer Raumecke den günstigsten Frequenzgang ergibt [Noussaine, 1997]. Lautsprecher, die in den Ecken angeordnet werden, können eine merkliche Bassverstärkung aufweisen und sind gut an die meisten Raumresonanzen, auch Moden genannt, anzukoppeln. Einige Subwoofer sind speziell für die Anordnung an besonderen Orten geeignet, während für andere subjektiv der optimale Aufstellungsort zu  suchen ist,  meist können befriedigende Ergebnisse erzielt werden. Es sind u. U. notwendig, den Frequenzgang zu entzerren, um einen flachen Gesamtfrequenzgang am Hörort zu erhalten. Teils werden Phasenverschiebungen oder Verzögerungen vorgenommen, um die Zeitbeziehungen zwischen dem Subwoofer und den anderen Lautsprechern zu korrigieren. Eine Phasenverschiebung beim Subwoofer wird mitunter auch angewendet, um die Pegelsumme des Subwoofers und der Hauptlautsprecher im Übergangsbereich in Bezug auf einen flachen Frequenzgang zu optimieren [Kügler, 1992]. Fullrange-Lautsprecher für alle Kanäle Die Verwendung von Breitband- oder Fullrange-Lautsprechern für alle Kanäle hat  signifikante Vorteile: Die tiefen Frequenzen im Bereich um 100  Hz werden bei der Wiedergabe gleichmäßiger im Raum verteilt und regen deshalb Raummoden weniger stark an als dies ein einzelner Subwoofer, insbesondere in einer Raumecke platziert, tun würde. Weiter können die einzelnen Lautsprecher Raumsignale mit einer Korrelation bis zu den tiefsten Frequenzen um Null herum aus den vorgesehenen Richtungen wiedergeben; Bass-Management-Systeme reduzieren die Richtungen der tiefen Frequenzen auf genau eine Richtung, und zwar auf diejenige, in der der Subwoofer aufgestellt ist. Damit geht ein wichtiges Phänomen der Umhüllung verloren: tieffrequente Fluktuation [Griesinger, 2018].

5.4.2 Stereofonie in den Sektoren L-C und C-R Aufgabe des zusätzlichen Center-Kanals C ist es, die Richtungsstabilität der Abbildung zu verbessern und die Hörzone zu vergrößern, wie in Kap. 5.2.1 beschrieben. Die für die ZweikanalStereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, denn es bestehen zwischen den Lautsprecherpaaren in den stereofonen Sektoren L-C und C-R die gleichen Möglichkeiten wie in der Stereobasis L-C. Hinsichtlich der Klangfarbe gibt es einen zusätzlichen Vorteil: Ein diskretes Dreikanalsystem wird im Vergleich zu einem Zweikanalsystem bezüglich Klarheit und Klangfarbe der Mittenabbildung vom Hörer bevorzugt, selbst wenn er sich genau auf der Mittelachse befindet. Man vermutet, dass der Centerlautsprecher als Realschallquelle an Stelle einer Phantomschallquelle „einfacher“ zu hören ist, außerdem verursacht eine Phantomschallquelle als Mitte nachweislich Klangfärbungen [Griesinger, 1992]. Prinzipiell werden für die L-C-R-Lautsprecheranordnung zwei verschiedene Aufnahmephilosophien angewendet (Abb.  5/36): Im linken Bild bietet der Centerkanal  C eine wach-

5.4 Mehrkanal-Stereofonie 

 305

sende Richtungsstabilität der kompletten L-C-R-Stereoabbildung. Dabei werden die psychoakustischen Prinzipien der Lautsprecherstereofonie in den  stereofonen Teilbereichen L-C und C-R angewendet. Das  stereofone Klangbild  setzt  sich aus zwei Bereichen zusammen (siehe Kap.  5.2.2). Theoretisch kann auf diese Weise  mit dem zusätzlichen Center-Kanal ein stereofones Klangbild geschaffen werden, das mit einer entsprechenden zweikanaligen Aufnahme identisch ist. Dieser „unaufdringliche“ Centerkanal hat allein die Funktion der Richtungsstabilisierung für Hörer außerhalb der Symmetrielinie.

Abb. 5/36. Wiedergabe mit zwei bzw. drei Frontkanälen: Durch den Centerkanal C wird die Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L-C und C-R mit je 30° aufgeteilt.

Die zweite Möglichkeit ist rechts in Abb. 5/36 dargestellt. Der Centerkanal C wird zur Stabilisierung der Mittenabbildung verwendet, z. B. für einen Solisten, zusätzlich zur üblichen Darstellung des Klangkörpers mit Zweikanaltechnik. Diese Technik hat sich seit langer Zeit in der Film- und Fernsehmischung bewährt. Dort werden Phantomschallquellen nur sehr selten für wichtige bildbezogene Quellen wie z. B. Dialoge verwendet; dieser wird in der Regel dem Centerkanal C zugeordnet. Stereofone Signale wie z. B. Musik, Atmo u. a. werden über L-R verteilt ohne besondere Berücksichtigung einer stabilen Lokalisierung. Im Gegensatz zum Konzept der stereofonen Teilbereiche sind die Signale von benachbarten Lautsprechern kaum korreliert. In der Praxis können und werden bei Musikaufnahmen beide Verfahren benutzt oder auch miteinander kombiniert. 5.4.2.1 Doppel-Stereoverfahren Die konsequente Umsetzung der L-C-R-Stereofonie bei der Aufnahme von größeren Klangkörpern wird mit einer in Abb. 5/38 dargestellten Anordnung verfolgt. Zwei getrennte Zweikanalhauptmikrofone werden jeweils für den linken bzw. rechten Teil des Orchesters ver-

306 

 5 Tonaufnahme und Tonwiedergabe

wendet. Da der Centerkanal Signale von zwei Mikrofonen erhält, sollte die Summe um 3 dB bedämpft werden. Eine dabei entstehende Richtungsverschiebung der Phantomschallquellen kann z. B. durch eine entsprechende Verzögerung kompensiert werden. Kritisch könnte allerdings der überlappende Bereich der zwei Aufnahmewinkel (vgl. auch Kap. 5.2.2) sein. Eine Schallquelle in der Mitte der Bühne wird von beiden Hauptmikrofonen gleichstark aufgenommen. In der Praxis hat sich allerdings gezeigt, dass weder die Lokalisierungsschärfe noch die Klangfarbe beeinträchtigt wird. Positiv wirkt  sich hier der große Abstand zwischen den zwei Hauptmikrofonen aus.

Abb. 5/37. Links: „echte“ L-C-R-Stereofonie, rechts: L-R-Stereofonie mit zusätzlichem Centerkanal C.

Abb. 5/38. Doppel-Stereo: Zwei Hauptmikrofone werden weit voneinander aufgestellt, um jeweils die linke bzw. rechte Hälfte des Orchesters wie gewohnt aufzunehmen. Überlappende Aufnahmewinkel sollten vermieden werden.

5.4 Mehrkanal-Stereofonie 

 307

Der Einsatz von zwei getrennten Zweikanal-Hauptmikrofonen hat den Vorteil, dass Orte und Aufnahmewinkel der zwei Stereomikrofone entsprechend der Situation im linken und rechten Aufnahmebereich individuell optimiert werden können. Die Hauptmikrofone müssen nicht in einer Linie stehen. Alle für die Zweikanal-Stereofonie praktizierten gestalterischen Maßnahmen lassen  sich bei jedem der beiden Hauptmikrofone anwenden wie bei nur einem Hauptmikrofon. Beispielsweise werden Stützmikrofone im linken Bühnenbereich dem linken Hauptmikrofon hinzugefügt, Stützmikrofone im rechten Bühnenbereich dem rechten Hauptmikrofon. [Gernemann, 2002/2] 5.4.2.2 Mehrfach-AB-Verfahren Die Mehrfach-AB-Konfiguration (Abb. 5/39) beruht auf der Laufzeitstereofonie. Fünf Mikrofone werden entlang der Bühne in einer Linie verteilt aufgestellt, wobei die Abstände zwischen benachbarten Mikrofonen im Bereich um 2  m oder  mehr liegen. Man erhält zu den Realschallquellen L, C und R je eine Phantomschallquelle zwischen L und C  sowie C und R. Die großen Abstände der einzelnen Mikrofone bewirken Laufzeitverhältnisse, die das Problem der mehrfachen Abbildung von Phantomschallquellen nach dem Gesetz der ersten Wellenfront verringern.

Abb. 5/39. Mehrfach-AB: Fünf Mikrofone werden in einer Linie weit voneinander aufgestellt und  stellen so fünf wenig korrelierte Signale bereit, um drei stabile Quellen und zusätzlich zwei Phantomschallquellen für die Richtungsabbildung zu erzeugen.

308 

 5 Tonaufnahme und Tonwiedergabe

Bei der Wiedergabe  sind fünf deutlich lokalisierbare Quellen für die Richtungsabbildung des Klangkörpers vorhanden. Obwohl dies nur einen Kompromiss darstellt, ergibt sich eine recht stabile und ausgewogene Stereoabbildung, verbunden mit den typischen klanglichen und räumlichen Eigenschaften der Laufzeitstereofonie. Durch Positionierung der Mikrofone kann in gewissen Grenzen auf die Hallbalance und die Balance der einzelnen Orchesterelemente zueinander Einfluss genommen werden. Es können auch Nierenmikrofone benutzt werden, um den Pegel des indirekten Schalls in den Frontkanälen zu reduzieren. Erfahrungsgemäß kann diese Konfiguration nur für größere Klangkörper benutzt werden. Sowohl die Doppel-Stereo- als auch die Mehrfach-AB-Anordnung führen bei kleineren Besetzungen meist nicht zu befriedigenden Ergebnissen. 5.4.2.3 Decca-Tree Für diverse Anwendungen wird ein echtes dreikanaliges Stereo-Hauptmikrofon benötigt. In diesem und dem folgenden Kapitel werden mit dem Decca-Tree und dem OCT-Verfahren zwei völlig unterschiedliche Dreikanal-Verfahren beschrieben. Schon lange bekannt und bereits für Zweikanal-Aufnahmen eingesetzt, siehe Kap. 5.3.3.3, ist die Hauptmikrofonanordnung des Decca-Tree [Streicher, 1999]. Die drei Mikrofone werden in Form eines Dreiecks bzw. entsprechend einem umgedrehten T aufgestellt, jedoch in relativ großem, durch das Verfahren nicht festgelegten Abstand zueinander unter Verwendung von Kugelmikrofonen (Abb. 5/40). Das Centermikrofon bewirkt eine Verbesserung der Laufzeitstereofonie, indem das „Loch in der Mitte“ mit einer stabilen Mitteninformation gefüllt wird. Auf Grund der räumlichen Trennung von L, C und R kommt es auch zu keinen  störenden Kammfiltereffekten, die bei der Zweikanalwiedergabe entstehen können, wenn das Mitten­­signal zu L und bzw. R gemischt wird. Der Decca-Tree wird gerne verwendet, wenn das offene, räumliche Klangbild des AB-Laufzeitverfahrens in Kombination mit einer dominierenden Mittenabbildung erwünscht ist. Nachteilig  sind die weit voneinander aufgestellten Mikrofone in Bezug auf Richtungsabbildung. Das erkennt man deutlich bei Betrachtung der Abbildungskurven für die Mikrofonpaare L-C und C-R, die sich mit Hilfe des Berechnungswerkzeugs [Image Assistant] leicht bestimmen lassen (siehe Kap.  5.2.2.4). Abb.  5/41 zeigt die Kurven. Man erkennt, dass auf Grund der Laufzeitverhältnisse die Mikrofonpaare L‑C und C‑R eine sehr starke Konzentration zur Mitte bewirken. Alle Schalleinfallsrichtungen im Bereich ± 45° erscheinen im CenterLautsprecher oder sehr nah bei ihm. Dieser Mitteneffekt kann durch ein Delay im Centerkanal etwas gemildert werden. Schallquellen außerhalb des Aufnahmebereichs 120° werden ausschließlich in L bzw. R wiedergegeben. Neben den Mikrofonpaaren L-C und C-R liefert das Mikrofonpaar L-R natürlich ebenfalls einen Beitrag zum Klangbild. Dieser ergibt sich hinsichtlich des Diffusschalls aus den Eigenschaften des Groß-AB-Verfahrens (siehe Kap.  5.3.3.2). Dagegen wirkt hinsichtlich des Direktschalls infolge des Gesetzes der ersten Wellenfront nicht die Groß-AB-Abbildungskurve (in Abb.5/41 L-R, gestrichelt eingetragen). Diese Abbildungskurve kann unberücksichtigt bleiben, da die L-R-Informationen etwa 3 bis 5 ms später eintreffen als L‑C bzw. C‑R und folglich die Richtungswahrnehmung nicht beeinflussen. Nur die Kurven L‑C und C-R können in Bezug auf die Lokalisierung herangezogen werden.

5.4 Mehrkanal-Stereofonie 

 309

Abb. 5/40. Decca-Tree: Drei Mikrofone mit Kugelcharakteristik werden in relativ großen Abständen zueinander in Form eines Dreiecks aufgestellt.

Abb. 5/41. Abbildungskurven des Decca-Tree.

Insgesamt liegen die Stärken der Decca-Tree-Konfiguration in den klanglichen Eigenschaften der Kugelmikrofone und der Wirkung von Laufzeitverfahren im diffusen Schallfeld. Eine ausgewogene Abbildung der Richtungsverteilung der aufzunehmenden Schallquellen ist wegen der starken Mittenkonzentration nicht möglich. In vielen Aufnahmesituationen möchte man den Pegel des direkten Schalls im Verhältnis zum indirekten Schall anheben, besonders in Räumen mit kleinem Hallradius und bei Einsatz von Raummikrofonen für die Surround-Kanäle. In diesen Fällen können die Kugelmikrofone des Decca-Tree durch Nierenmikrofone ersetzt werden, wobei bei jedem Mikrofon der Versatzwinkel 0° betragen  sollte, die Mikrofone also nach vorne ausgerichtet werden. Dies ändert die Richtungsabbildung nur unwesentlich, aber der Schallpegel des indirekten Schalls ist theoretisch 4,8 dB niedriger, bei Hypernieren sogar 5,7 dB. Im Zusammenhang mit dem Decca-Tree ist das Aufnahmekonzept Stereo+C zu nennen, weil die Anordnung gewisse Ähnlichkeiten zeigt. Stereo+C geht von allen bewährten Anordnungen der Zweikanal-Aufnahmetechnik mit Hauptmikrofon aus, nämlich von AB, MS, XY und den gemischten Verfahren − nicht aber von Groß-AB wie der Decca-Tree, denen es ein Centermikrofon hinzufügt, das nicht vor der Zweikanal-Anordnung platziert wird, sondern

310 

 5 Tonaufnahme und Tonwiedergabe

ca. 2 m über ihr auf einer Verlängerung des Mikrofonständers. Es wird mit einer Verzögerung von minimal 20 ms zugemischt [Gernemann, 2001]. 5.4.2.4 OCT-Verfahren Im Kap.  5.2.2.3 wurde bereits erläutert, dass ein optimales dreikanaliges L-C-R-Stereomikrofon die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften gewährleisten soll, jedoch  mit dem Vorteil größerer Richtungsstabilität in einer breiteren Stereohörfläche. Dazu müssen für die stereofonen Teilbereiche L-C und C-R zwei entsprechende Abbildungskurven dergestalt realisiert werden, dass im Idealfall Schallquellenrichtungen im linken Sektor nicht in der rechten Teilzone abgebildet werden und Schallquellenrichtungen im rechten Sektor nicht in der linken Teilzone. Die äußeren Mikrofonkapseln L und R  sollen dabei einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Diese Vorgaben verdeutlicht Abb. 5/42. Es gibt prinzipiell in allen Fällen, in denen drei Mikrofone  mit Kugelcharakteristik verwendet werden, ein Übersprechen zwischen den Kanälen, das  mehr oder weniger zu einer Beeinträchtigung der Richtungsübersetzung, Lokalisierungsschärfe, Klarheit und Klangfarbe führt. Jede beteiligte Zweikanal-Stereobasis C-L, C-R und L-R erzeugt ihre eigenen Phantomschallquellen, welche an unterschiedlichen Orten erscheinen würden. Es ist nicht möglich, eine geometrische Anordnung der Mikrofone zu finden, bei der die drei Phantomschallquellen für jede Richtung übereinstimmen. Aus diesem Grund muss mit Hilfe richtender Mikrofone eine ausreichende Kanaltrennung realisiert werden, 15 dB sind dabei ausreichend.

Abb. 5/42. Übersprechen von Phantomschallquellen bei Dreikanal-Stereomikrofonen. In diesem Beispiel sind die Phantomschallquellen C-R und L-R unerwünscht.

Eine geeignete Konfiguration ist das  sog. OCT-Verfahren (Optimised Cardioid Triangle) [Theile, 2000]. Die prinzipielle Anordnung ist in Abb. 5/43 dargestellt. Als Mikrofoncharakteristiken für L und R werden Supernieren verwendet, welche um jeweils 90° nach außen gerichtet sind, um eine größtmögliche Übersprechdämpfung zu erhalten. Sie sollten für den

5.4 Mehrkanal-Stereofonie 

 311

Schalleinfallswinkel α = 30° freifeldentzerrt sein. Als Centermikrofon findet die Nierencharakteristik Anwendung, es ist um den Abstand h = 8 cm nach vorn versetzt, für Superniere ist h  =  12  cm. Die Basisbreite b ist wählbar und bestimmt den Aufnahmebereich der OCTAnordnung gemäß Tab. 5/12.

Abb. 5/43. OCT-Anordnung (Optimised Cardioid Triangle). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 8 cm, Basisbreite b: variabel, siehe Tab. 5/12.

Tab. 5/12. Aufnahmebereich der OCT-Mikrofonanordung (h = 8 cm).

Basis b

Aufnahmebereich empfohlen: 75 %

100 %

85 cm

72°

102°

70 cm 50 cm

80° 96°

118° 144°

Die Basisbreite b = 85 cm ergibt beispielsweise etwa die gleichen Aufnahmebereich wie ein ORTF-Mikrofon (vgl. Kap.  5.3.4.1) oder eine Klein-AB-Konfiguration  mit der Mikrofonbasis 38 cm (vgl. Kap. 5.3.3.1). Auch die Abbildungskurven entsprechen den in Kap. 5.2.2.3 geforderten Verläufen. Der Centerkanal ermöglicht eine natürliche und ausgewogene Verteilung von Schallquellen über die stereofone Basis L-C-R. In der Mitte des Aufnahmesektors (α = 0°) beträgt die Übersprechdämpfung in den Kanälen L und R gegenüber dem Centerkanal C ca. 10 dB. Sie wird zur Seite hin größer und ist bei α = ± 30° bereits größer als 18 dB. Damit ist das Übersprechen vernachlässigbar klein, die Lokalisierungskurve L-C ist nur für den linken Bereich wirksam, und L-R nur für den rechten Bereich. Auch die Eigenschaften insbesondere hinsichtlich Klang- und Raumeindruck lassen sich mit zusätzlichen Maßnahmen optimieren.

312 

 5 Tonaufnahme und Tonwiedergabe

OCT2, Raumeindruck und Abwärtskompatibilität Eine Modifikation gemäß Abb.  5/44 ermöglicht es, die oft gewünschte klangliche Wirkung von Laufzeitverfahren im diffusen Schallfeld zu erzielen, vergleichbar beispielsweise  mit Klein-AB oder dem Decca-Tree. Gleichzeitig wird erreicht, die Wiedergabequalität zu erhalten, wenn im Falle des Downmix für Zweikanal-Wiedergabe der Center mit − 3 dB den Kanälen L und R zugemischt wird, siehe Kap. 5.4.5. Das Center-Mikrofon befindet sich 40 cm vor der Mikrofonbasis. Um die Abbildungskurven weitgehend unberührt zu lassen, wird das Centersignal um 1 ms verzögert. Man kann sich mit Hilfe des [Image Assistant] überzeugen, dass die sog. OCT2-Konfiguration im Prinzip identische Eigenschaften bezüglich der Richtungsabbildung hat wie die ursprüngliche OCT-Version. Die Aufnahmewinkel sind jedoch kleiner bei gleicher Basisbreite, siehe Tab. 5/13.

Abb. 5/44. OCT2-Anordnung (Optimised Cardioid Triangle, Version 2). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 40 cm, Basisbreite b: variabel, Delay Δt: 1 ms.

Tab. 5/13. Aufnahmebereichl der OCT2-Anordung (h = 40cm, t = 1 ms)

Basis b 70 cm 50 cm 35 cm

 Aufnahmebereich empfohlen: 75 %

100 %

66° 74° 82°

90° 100° 111°

5.4 Mehrkanal-Stereofonie 

 313

Aufnahme tiefer Frequenzen Druckempfänger zeichnen sich durch ihren hervorragenden Frequenzgang im tieffrequenten Bereich aus. Um diese Eigenschaft in der OCT-Konfiguration zu nutzen, gibt es zwei Möglichkeiten, sie sind in Abb. 5/45 dargestellt. In den Konfigurationen A werden die Supernieren L und R mit zwei Kugeln ergänzt, wobei die Signale mit jeweils einem Tiefpass begrenzt sind, so dass die systembedingten Schwächen im Bassbereich der Supernieren aufgehoben werden. Die Kugeln können bei Bedarf mit größerer Basisbreite angeordnet sein. Dies hat den Effekt, dass auch der aufgenommene tieffrequente diffuse Schall eine Dekorrelation aufweist. Konfiguration B erspart zwei zusätzliche Mikrofone, liefert aber lediglich ein  monofones tieffrequentes Signal im Center-Kanal. Die Abbildungskurven gemäß Abb.  5/13 in Kap.  5.2.2.3 bleiben weitgehend erhalten. Der Anteil des Diffusschalls im Center-Kanal wird allerdings um etwa 5 dB erhöht.

Abb. 5/45. OCT-Anordnung mit optimierter Tiefenwiedergabe. Mikrofon C1: Niere, Mikrofone L1 und R1: Superniere, Mikrofone L2 und R2: Kugel mit Tiefpass, Mikrofon C0: Kugel.

Im praktischen Einsatz erfordert die OCT-Anordnung eine genaue Einhaltung der Mikrofon­ abstände und die  sorgfältige Wahl der Positionierung und der Einstellung des Aufnahmewinkels. Da die gewünschte Balance zwischen Direkt- und Diffusschall, auch als R/D-Ratio bezeichnet, wegen der gegebenen Richtcharakteristiken der Mikrofone nur durch die Wahl der Entfernung zum Klangkörper hergestellt werden kann, muss dies der erste Schritt sein. Steht die Entfernung fest, wird daran der Aufnahmewinkel angepasst. Platziert  man das Hauptmikrofon hoch, können bei einem tief gestaffelten Klangkörper die akustischen Ungleichheiten zwischen nahen und entfernten Schallquellen verringert werden.

314 

 5 Tonaufnahme und Tonwiedergabe

5.4.3 Einsatz der Surround-Kanäle Mit den Surround-Kanälen ergeben sich in vielerlei Hinsicht besondere künstlerische Möglichkeiten der Klangdarstellung. Das betrifft nicht nur die räumliche Auffächerung von lokalisierbaren statischen und bewegten Schallquellen außerhalb der stereofonen Abbildungsebene L-C-R bei Musik, Hörspiel, Off-Effekten im Film u. a. Oft von größerer Bedeutung sind die erreichbaren Wiedergabequalitäten für verschiedene Attribute des Hörens, beispielsweise reale räumliche Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung, die vom akustischen Ambiente geprägt sind (vgl. Kap. 5.2.4). Hinsichtlich der Aufnahmetechnik  sind zwei Arten des darzustellenden akustischen Ambientes zu unterscheiden: indirekter Schall aus Reflexionen und Nachhall und Atmo aus direktem, aber diffus eintreffenden, nicht reflektierten Schall und nicht lokalisierbaren Quellen. Indirekter Schall, Reflexionen und Nachhall Die indirekten Schallanteile dienen der Darstellung bzw. Simulation des Aufnahmeraums und können eine „akustische Transformation“ des Hörers aus dem Wiedergabe- in den Aufnahmeraum ermöglichen, wenn die Surround-Kanäle hierzu eingesetzt werden. Besonders für Aufnahmen klassischer Musik besteht – verstärkt durch die Möglichkeiten der Mehrkanal-Stereofonie – häufig der Wunsch, die Natürlichkeit eines akustisch guten Raums adäquat abzubilden oder zu generieren. Die verschiedenen Wege, einen solchen Surround zu realisieren, entsprechen dabei den bekannten Techniken, z. B. mit Hilfe von Raummikrofonen im Aufnahmeraum oder durch die künstliche Nachbildung der indirekten Schallanteile mittels digitaler Effektgeräte. Diese Raumprozessoren basieren  meistens auf Faltungstechniken, wobei die Rauminformationen entweder aus Messungen in bestehenden, als akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. Atmo, diffuser nicht reflektierter Schall und nicht lokalisierbare Quellen Damit sind Umgebungsgeräusche gemeint, die keinen Beitrag für raumbezogene Attribute des Klangbilds liefern, allgemein  spricht  man hier von der vom Filmton bekannten Atmo. Das akustische Ambiente wird gebildet aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen. Beispiele dafür sind das Blätterrauschen des Walds, Publikumsgeräusche und -reaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Im Gegensatz zum indirekten Schall kann dieser Anteil des akustischen Ambientes nicht  mit Effektgeräten hergestellt werden. Für die Aufnahme gibt es oft besondere Anforderungen, die sich nicht mit denen für die Aufnahme der Rauminformationen decken. Sowohl für die Wiedergabe der Rauminformation als auch der Atmo werden die Surround-Kanäle LS und RS in Verbindung mit den vorderen Lautsprechern L und R eingesetzt, d. h., stereofone Beziehungen in den Signalpaaren L-LS bzw. R-RS sind notwendig für eine überzeugende Darstellung der räumlichen Situation (Abb. 5/46). Fehlen diese Signalbeziehungen, so kann der Höreindruck auseinander fallen in ein vorderes und ein hinteres Klangbild. Wie in Kap.  5.2.1.5 gezeigt, gewährleistet allerdings der  seitliche Abbildungsbereich der 3/2-Lautsprecheranordnung nicht die  stereofonen Darstellungsmöglichkeiten wie der

5.4 Mehrkanal-Stereofonie 

 315

vordere Abbildungsbereich L-C-R: Seitliche Phantomschallquellen sind instabil. Die Darstellung der Räumlichkeit setzt im Gegensatz zur Phantomschallquelle keine wahrgenommene Abbildung voraus, da die Signale eine Korrelation um Null aufweisen. Die Qualität der stereofonen Darstellung ist in Bezug auf räumliche Tiefe, der scheinbaren Schallquellenbreite, des räumlichen Eindrucks und der Umhüllung weitgehend unabhängig von der Position des Hörers im Wiedergaberaum.

Abb. 5/46. Anwendung der seitlichen stereofonen Bereiche für die räumliche Darstellung.

Vollkommen dekorrelierte Signale, die von zwei Lautsprechern wiedergegeben werden, erzeugen  sehr präzise Hörereignisse in den beiden Lautsprechern, weil keine Phantomschallquellen entstehen. Sind diese dekorrelierten Signale von unterschiedlicher Gestalt [Theile, 1981/1], spricht man von zwei getrennten Hörereignissen, zum Beispiel das eine in L und das andere in LS. Reproduzieren die Lautsprecher jedoch Nachhall mit einer Korrelation um Null herum, entsteht eine auditive Verbindung zwischen zwei Lautsprechern;  sie wird als „Wolke“ zwischen den Lautsprechern wahrgenommen. Dieses stereofone Phänomen ist stabil, es enthält aber keine Abbildung.

Abb. 5/47. Verwendung von vier stereofonen Bereichen zur Darstellung von Raumeindruck, Halligkeit und Umhüllung.

Die Situation ändert sich auch nicht, wenn vier Lautsprecherpaare gemäß Abb. 5/47 anstatt zwei verwendet werden, um weitgehend dekorrelierten Nachhall wiederzugeben. Der Hörer hat das Gefühl, von Raumschall umhüllt zu  sein, als  sei er im akustischen Geschehen, jedoch  sind keine  scharf lokalisierbaren Schallquellen zu hören. Vollständige Inkohärenz

316 

 5 Tonaufnahme und Tonwiedergabe

zwischen den Frontsignalen und den Surround-Signalen bedeutet, dass die seitlichen stereofonen Bereiche nicht für die Wiedergabe der Reflexionsmuster genutzt werden. Aus der Raumakustik weiß man, dass die natürlichen Reflexionsmuster in den seitlichen Bereichen L-LS und R-RS besonders wichtig sind. Daher ist es unerlässlich, eine auditive Verbindung zwischen der Front und Surround herzustellen, indem für alle vier beteiligten Lautsprecher Raumsignale aus dem Aufnahmeraum verwendet werden. Um mit der Aufnahme von diffusem, einhüllendem Schall optimale subjektive Diffusität und  subjektive Umhüllung zu erzielen,  sollten für die vier Mikrofone geeignete Abstände gewählt werden. Abb.  5/48 zeigt experimentelle Ergebnisse  mit durch einen Bandpass auf 0,25 bis 2,5 kHz begrenztem Rauschen zur Wirkung der Kohärenz zwischen den Kanälen in einer quadratischen Lautsprecheranordnung [Theile, 2000]. Man erkennt, dass der Grad der subjektiven Diffusität oder der subjektiven Umhüllung vom Abstand d der quadratischen Mikrofonanordnung abhängt. Ist d zu groß, folgt daraus eine Verminderung der  subjektiven Umhüllung. Die ausgewogene Verteilung der umhüllenden Quellen bricht ein und es bilden sich „Hörereigniswolken“ in den Bereichen um die Lautsprecher. Ist d allerdings zu klein,  so wird eine instabile Phantomquelle über dem Kopf des Hörers wahrnehmbar und die  subjektive Umhüllung verschwindet entsprechend. Es ist zu beachten, dass insbesondere tiefe Frequenzen unterhalb von 200 Hz einen großen Einfluss auf das Maß der Umhüllung haben [Griesinger, 1998]. Dies hängt damit zusammen, dass tiefe Frequenzen zu einer ausgeprägteren auditiven Verbindung führen als hohe Frequenzen; bei Zweikanal-Stereo ist dies u. a. an den ausgeprägten Verdeckungseffekten tiefer Frequenzen zu erkennen. Damit tiefe Frequenzen eine Korrelation um Null aufweisen,  sind allerdings wesentlich größere Abstände zwischen den Mikrofonen notwendig [Nipkow, 2012]. Zudem ist es zielführend, Mikrofone mit Kugelcharakteristik zu verwenden, damit auch tiefste Frequenzen unter 50 Hz uneingeschränkt eingefangen werden können.

Abb. 5/48. Auswirkung der Kohärenz auf die subjektive Diffusität [Theile, 2000]. Richtungswahrnehmung in einem diffusen Schallfeld, welches durch das abgestrahlte Rauschen (0,25 bis 2,5 kHz) von vier Lautsprechern mit Kohärenzfaktoren k = 0,2 und k = 0,35 erzeugt wurde. Das Rauschen wurde in einem Hallraum mittels verteilter Kugelmikrofone, Abstände d = 60 und 25 cm aufgenommen. Dunklere Bereiche markieren höhere statistische Häufigkeiten von Hörereignissen mit Richtungsinformationen.

5.4 Mehrkanal-Stereofonie 

 317

Prinzipiell sind wenigstens vier äquivalente stereofone Kanäle anzustreben, um einen realistischen Raumeindruck und eine überzeugende Umhüllung zu erreichen. Das gilt auch für Aufnahmen, die mit einem zusätzlichen Raummikrofonen gemacht werden. Die Größe der Hörzone innerhalb eines Lautsprecher-Setups ist einerseits abhängig von der Raumakustik – je trockener der Wiedergaberaum ist, desto kleiner ist die Hörzone, andererseits von der Anzahl der Lautsprecher, die Diffusschall  mit gleichem Pegel abstrahlen. Die  mindestens notwendige Lautsprecheranzahl für eine umhüllende Wirkung ist vier,  sie erlaubt jedoch nur eine kleine Hörzone (Abb. 5/49, links). Außerhalb der Hörzone führen Lautstärkenunterschiede zur Lokalisation des näheren Lautsprechers, so dass der Höreindruck der Umhüllung verloren geht. Eine höhere Anzahl von Lautsprechern vergrößert die Hörzone, dargestellt mit 12 Lautsprechern in Abb. 5/49 (rechts). Zu achten ist auf ausreichend geringe Korrelation zwischen den einzelnen Kanälen.

Abb. 5/49. Umhüllung ist mit vier Lautsprechern nur für eine kleine Hörzone darstellbar. Eine größere Lautsprecheranzahl, z. B. 12, vermindert die Gefahr der Lokalisation von Lautsprechern außerhalb des Sweetspots.

5.4.3.1 Surround Sound-Hauptmikrofone Der Begriff Hauptmikrofon wird heutzutage in verschiedenen Bedeutungen benutzt und die Gewichtung der charakteristischen Eigenschaften kann in Zwei- oder Fünfkanalanwendungen unterschiedlich sein. Im Prinzip sollte das 3/2-Stereo-Hauptmikrofon zwei psychoakustische Funktionen kombinieren: –– Abbildung der Richtung: Aufnahme des Direktschalls für die Richtungsdarstellung der aufgenommenen Schallquellen gemäß der Abbildungskurve, –– Abbildung des Raums: Aufnahme des indirekten und diffusen Schalls für die Darstellung räumlicher Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung. Diese Doppelfunktionen kann bei konventioneller Zweikanal-Stereofonie  mit einem geeigneten Stereo-Hauptmikrofon  mit guten Ergebnissen bewältigt werden. Auch für Mehrkanalhauptmikrofone gibt es Lösungen. Im Folgenden werden zwei Lösungen erörtert, welche

318 

 5 Tonaufnahme und Tonwiedergabe

auf den in Kap.  5.4.2 gezeigten L-C-R-Konfigurationen basieren. Voraussetzungen für gute Aufnahmen sind immer geeignete Aufnahmebedingungen und der richtige Mikrofonstandort, der eine adäquate Richtungsabbildung wie auch die adäquate Balance zwischen Direktschall und indirekten Schallanteilen ermöglicht, die sog. R/D-Ratio. Fukada-Tree Der  sog. Fukada-Tree (Abb. 5/50) basiert für die Abbildung des Klangkörpers auf der Dreiecksaufstellung L‑C‑R, die eine modifizierte Variante des Decca-Tree darstellt, wobei an Stelle der Kugelcharakteristik Nieren benutzt werden [Bruck, 1998]. Dies reduziert den Pegel des diffusen Schallfelds. Auf Grund der großen Mikrofonabstände gibt es wie beim Decca-Tree keine brauchbare Abbildungskurve (Kap. 5.4.2.3). Als Folge des Gesetzes der ersten Wellenfront werden alle Schallquellen von der linken Seite links und Schallquellen von der rechten Seite rechts lokalisiert. Schallquellen im Aufnahmewinkelbereich um ±  35° werden in der Nähe des Centers wiedergegeben, Schallquellen außerhalb des Bereichs ± 55° im oder nahe der Lautsprecher L oder R, der Abbildungsbereich beträgt 110°.

Abb. 5/50. Fukada-Tree, Mikrofone L, C, R, LS, RS: Niere, Mikrofone LL und RR: Kugel.

Die räumliche Darstellung wird durch die Mikrofone L, R, RS, LS realisiert, die ein ca. 1.8 m großes Quadrat bilden: Ihre Abstände können je nach Gegebenheiten variiert werden. Die 45°-Ausrichtungen der L- bzw. R‑Nieren bewirken einerseits eine Reduktion des Übersprechens um etwa 4 bis 6 dB, abhängig von der Schalleinfallsrichtung, und andererseits eine gute Erfassung der Seitenbereiche. Die 135°-Ausrichtungen der LS- bzw. RS‑Nieren dient

5.4 Mehrkanal-Stereofonie 

 319

ebenfalls zwei Zwecken: Der Direktschall wird um 8 bis 18 dB bedämpft, abhängig von der Schalleinfallsrichtung. Gleichzeitig arbeiten die Mikrofonpaare L-LS bzw. R-RS für den wichtigen Seitenschall quasi als Groß-AB-Anordnung, die Richtcharakteristiken erzeugen nur kleine Pegeldifferenzen bis  maximal etwa 3  dB. Zusätzlich ergänzen die Kugelmikrofone LL und RR die Seiten LL und RR. Sie werden den Signalpaaren L-LS bzw. R-RS vorsichtig zugemischt, um die Orchesterbreite zu vergrößern und die klangliche Verbindung zwischen Front- und Surround-Lautsprechern zu verstärken. Diese Anordnung mit großen Mikrofonabständen liefert zwar keine ausgewogene Richtungsabbildung, jedoch ein offenes Klangbild, das durch räumliche Tiefe, Raumeindruck und Umhüllung gekennzeichnet ist. Der Aufstellungsort für diese Konstellation liegt normalerweise einige Meter über und hinter dem Dirigenten, wobei der genaue Standort – wie allgemein üblich – durch kritisches Hören optimiert werden muss. OCT-Surround Ergänzt man die OCT- bzw. die OCT2-Mikrofonanordnung mit Surround-Mikrofonen LS und RS mit Nierencharakteristik gemäß Abb. 5/51, so lassen sich Vorteile der ausgewogenen stabilen Richtungsabbildung und des variablen Abbildungsbereichs vereinen mit guten räumlichen Abbildungseigenschaften. Es ist wichtig, dass das Direktsignal von vorne in den Surround-Kanälen möglichst weitgehend unterdrückt wird. Aus diesem Grund sind die Nieren LS und RS nach hinten ausgerichtet, die damit erzielte Unterdrückung ist für alle Richtungen im Abbildungsbereich der OCT-Anordnung größer als 15 dB.

Abb. 5/51. OCT-Surround, Mikrofone L und R: Superniere, Mikrofon C: Niere, Mikrofone LS und RS: Niere.

Gleichzeitig ermöglicht die Anordnung der Nieren LS und RS in Verbindung  mit L und R eine stereofone Aufnahme der ersten Reflexionen aus dem seitlichen und hinteren Richtungsbereich. Der mit 40 cm relativ nahe Abstand von LS und RS zu den vorderen Mikrofonen L und R führt zu den gemäß Lokalisierungskurven gewünschten Laufzeitdifferenzen. Betrachtet man das seitliche stereofone Paar L-LS oder R-RS unter der Annahme einer seitlichen Reflexion, so

320 

 5 Tonaufnahme und Tonwiedergabe

ergibt sich aus der Richtcharakteristik der Mikrofone ein Pegelunterschied von 6 dB. Die geometrische Konfiguration bewirkt jedoch, dass seitliche Reflexionen etwa 0.3 ms später von den Mikrofonen L bzw. R aufgenommen werden. Damit kompensiert das Delay den um 6 dB kleineren Pegel in LS bzw. RS. Im rückseitigen stereofonen Mikrofonpaar LS-RS beträgt die Pegeldifferenz immer ΔL = 0 dB, d. h., für die rückseitige Aufnahme ist eine reine AB-Mikrofonierung mit dem Mikrofonabstand b + 20 cm wirksam. Insgesamt erfüllt das OCT-Surround-Hauptmikrofon die oben gestellten Anforderungen hinsichtlich Richtungs- und Räumlichkeitsabbildung. Die natürliche Pegelbalance von Direktschall, frühen Reflexionen von allen Seiten und Nachhall bleiben erhalten, der Pegel des Diffusschalls ist in allen Kanälen ausgeglichen, eine genügende Korrelation ist sichergestellt. Wie bei allen Mikrofonierungen hängt beim OCT-Surround-System der Erfolg von der richtigen Positionierung ab, die viele Parameter berücksichtigen und in Übereinstimmung bringen muss wie Lautstärke- und Richtungsbalance, Direkt-Diffusschall-Verhältnis (R/D-Ratio), Klangfarbe, Breite des Klangkörpers, Applaus, Atmo des Publikums usw. Ein variabler Aufnahmebereich erleichtert diese Aufgabe. Damit kann zunächst der optimale Mikrofonstandort hinsichtlich R/D-Ratio und Klangfarbe gewählt werden. Erst wenn dieser gefunden ist, wird der Aufnahmewinkel entsprechend der gegebenen Ausdehnung des Klangkörpers eingestellt. Doppel-MS Das MS-Mikrofonverfahren (siehe Kap.  5.3.2.2) bietet gewisse Vorteile gegenüber diskreten Mikrofonierungen. Sie bestehen v. a. in der Flexibilität des Formats und der Möglichkeiten der Bearbeitung in der Postproduktion. Es liegt nahe, diese Vorteile auch bei Mehrkanaltonaufnahmen zu nutzen. Weitere Argumente sind die hohe Kompaktheit des Aufbaus und die perfekte Monokompatibilität. Daher wurde in den 1990er Jahren eine MS-Aufnahmetechnik für Surround entwickelt, die später den Namen Doppel-MS-Technik erhielt, man kann auch von einem Mehrkanal-Koinzidenzmikrofon  sprechen. Bei dieser Technik wird einem nach vorne gerichteten MS-Mikrofonpaar, bestehend aus Niere und Acht eine weitere, nach hinten gerichtete Niere hinzugefügt. Diese Niere bildet mit derselben Acht ein weiteres MS-Mikrofonpaar, daher der Name Doppel-MS-Technik. Aus drei Mikrofonen werden also zwei MSPaare gebildet. Abb. 5/52 veranschaulicht das Prinzip.

Abb. 5/52. Doppel-MS-Mikrofonanordnung.

Die praktische Realisierung dieser Mikrofontechnik erfordert hinreichend kleine Mikrofone und eine geeignete Aufhängung, um größere Abstände zwischen den Kapseln und damit

5.4 Mehrkanal-Stereofonie 

 321

Kammfiltereffekte im hörbaren Bereich zu vermeiden. Abb. 5/53 zeigt als Beispiel eine solche Standardaufhängung für Doppel-MS-Aufnahmen. Analog zur Zweikanal-MS-Technik müssen die drei Mikrofonsignale durch Summen- und Differenzbildung zu diskreten Signalen dematriziert werden. Die einfachste und am meisten verbreitete Methode ist eine  separate Decodierung der Mikrofonpaare vordere Niere/Acht, die L und R ergibt, und hintere Niere/Acht, die LS und RS ergibt. Das Signal der vorderen Niere kann außerdem dem Centerkanal zugeführt werden.

Abb. 5/53. Realisierungsbeispiel der Doppel-MS-Technik mit gemeinsamer, gefederter Aufhängung von Kompaktmikrofonen.

Eine verbesserte Decodierung hinsichtlich der Signaltrennung und der Vermeidung von Übersprechen zwischen den decodierten Lautsprechersignalen kann erreicht werden, wenn jeweils alle drei Mikrofone zur Decodierung herangezogen werden. Dies löst ein grundsätzliches Problem der MS-Technik: Bei der konventionellen Zweikanal-MS-Aufnahme hängen Versatzwinkel und Richtcharakteristik der dematrizierten virtuellen Mikrofone voneinander ab, denn eine Zumischung des Achtermikrofons bewirkt stets sowohl die Vergrößerung des Versatzwinkels als auch die Veränderung der decodierten Richtcharakteristik. Bei der Doppel-MS-Technik hingegen kann jedes virtuelle Mikrofon jede beliebige Ausrichtung und Richtcharakteristik erhalten. Hierdurch verbessert  sich die Signaltrennung und dies führt zu einer Verringerung der Korrelation der Kanäle mit klanglichen Vorteilen. Die Doppel-MSTechnik wird vielfach bei Reportagen und Dokumentationen eingesetzt, wo es auf Kompaktheit des Mikrofonsystems, einfache Handhabbarkeit und Flexibilität besonders ankommt. Näheres dazu in Kap. 5.4.3.3. KFM-Surround Diese Aufnahmetechnik für Mehrkanalton basiert auf einer Variante des Kugelflächenmikrofons, dem KFM 360 [Bruck, 1998]. Eigenschaften des Kugelflächenmikrofons, wie die

322 

 5 Tonaufnahme und Tonwiedergabe

besonders natürliche räumliche Abbildung (siehe Kap. 5.3.4.3), sollen so auf Mehrkanalton übertragen werden. Die vorderen und rückwärtigen Signale werden dadurch erzeugt, dass die beiden Mikrofone des KFM zusammen  mit jeweils einem Achtermikrofon ein MS-Paar ergeben. Die Summe der Mikrofonsignale ergibt jeweils den vorderen Kanal, die Differenz den hinteren Kanal. Dies ist für die rechte Seite der Aufnahmezone in Abb. 5/54 veranschaulicht, eine konkrete Realisierung zeigt Abb. 5/55.

Abb. 5/54. Die Lautsprechersignale entstehen beim KFMSurround durch Dematrizierung analog zur MS-Technik

Wie bei der MS-Technik kann mit diesem System die Dematrizierung abgestuft erfolgen und eine flexible Mischung auch in der Postproduktion erstellt werden. Die hierdurch entstehenden Mikrofoncharakteristiken sind – wie die seitlichen Achten – nach vorn und hinten ausgerichtet. Sie lassen sich jeweils über die Niere bis zur Acht variieren, wobei die Charakteristik der beiden rückwärtigen Kanäle eine andere sein kann als bei den vorderen. Das erlaubt eine auch nachträgliche flexible Anpassung an die Aufnahmesituation.

Abb. 5/55. Realisierung des KFM-Surround-Verfahrens  mit dem KFM 360.

5.4 Mehrkanal-Stereofonie 

 323

Die vier so erhaltenen Kanäle ergeben eine Surround-Wiedergabe ohne Center-Kanal. Dieser kann in verschiedenen Fällen auch entbehrlich sein, wenn zusätzliche Stabilität im vorderen Abbildungsbereich keinen Vorteil bringt. Er kann auch zusätzlich gewonnen werden, beispielsweise durch Zumischung eines Solistenmikrofons. Die Nutzung des Centerkanals allein für die  stabile und präzise Darstellung eines Solisten ist  sicherlich lohnend. Jedoch  sollte nicht übersehen werden, dass zu diesem Zweck mit studiotechnischen Mitteln ein passender Entfernungs- und Raumeindruck geschaffen werden  muss,  so dass  sich der Solist harmonisch in das akustische Umfeld einfügt (siehe Kap. 5.4.4). 5.4.3.2 Raummikrofone Im vorangegangenen Kapitel ist deutlich geworden, dass 3/2-Stereo-Hauptmikrofone nur sinnvoll eingesetzt werden können, wenn die Schallfeldverhältnisse bei der Aufnahme sowohl Richtungsabbildung als auch Raumdarstellung zulassen. Es  muss ein Mikrofon-Standort existieren, wo der Direktschall eine ausgewogene Richtungsabbildung und gleichzeitig der indirekte und diffuse Schall die Darstellung der räumlichen Tiefe, der Räumlichkeit, der Halligkeit, des Raumeindrucks und der Umhüllung ermöglichen. Wesentlich flexiblere Lösungen bilden aber die Verfahren, die das Hauptmikrofon lediglich zur Richtungsdarstellung in der L-C-R-Abbildungsebene einsetzen und  separat davon spezielle Raummikrofon-Anordnungen für die räumlichen Eigenschaften des Klangbilds nutzen. Grundsätzlich ist aus den in Kap. 5.4.3 behandelten Gründen als Raummikrofon nur eine vierkanalige Konfiguration zu empfehlen, wobei die Signale der rückwärtigen Mikro­­fone auf die Surround-Kanäle LS bzw. RS gegeben und die des vorderen Raumikrofonpaars den Kanälen L bzw. R beigemischt werden. Welche Konfiguration eines VierkanalRaummikrofons geeignet ist, hängt von der Schallfeldsituation und von den praktischen Gegebenheiten ab. Hamasaki-Square Hervorragend bewährt hat  sich bei diversen Konzertsaal-Aufnahmesituationen der  sog. Hamasaki-Square [Hamasaki, 2000], entsprechend Abb. 5/56. Er besteht aus vier in einem Quadrat angeordneten Mikrofonen mit Achtcharakteristik, die Mikrofonabstände d betragen 1 bis 3 m. Die Mikrofonachsen liegen quer zur Bühne, um den Pegel des Direktsignals so weit wie möglich zu reduzieren. Die Unterdrückung ist im vorderen Schalleinfallsbereich bei ± 15° größer als 12 dB. Sie nimmt zur Seite hin ab, bei ± 30° sind es nur noch 6 dB. Die Mikrofone LB und RB können den Kanälen L und R zugeordnet oder zwischen L‑LS bzw. R‑RS eingeordnet werden. Ebenso wird der rückwärtige Direktschall stark abgeschwächt, dies hat manchmal Vorteile in Hinblick auf Geräusche aus dem Auditorium. Auch weiß man, dass erste Reflexionen aus der Medianebene eher schädlich als nützlich sind. Zur Seite hin wirken die Mikrofonpaare LS-LB bzw. RS-RB wie Groß-AB-Anordnungen. Hierin liegen die besondere Eigenschaft und der große Vorteil bei Aufnahmen im Konzertsaal, nur der Seitenschall wird erfasst, dies geschieht mit Groß-AB-Laufzeitstereofonie.

324 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/56. Raummikrofon-Konfiguration Hamasaki-Square.

Abb. 5/57. Berücksichtigung von psychoakustischen Phänomenen für natürliche Aufnahmen. Phänomene beim Hawasaki-Square.

Abb. 5/57 zeigt das Zusammenwirken der zwei Werkzeuge, das L-C-R-Hauptmikrofon für die Richtungsabbildung des Klangkörpers und die separate Konfiguration LB, RB, RS, LS für die räumliche Abbildung. Die Kanäle LF und LB werden kombiniert zu L, die Kanäle RF und RB zu R. Das L‑C‑R-Hauptmikrofon wie auch die Raummikrofonkonfiguration lassen sich unabhängig voneinander nach der jeweiligen künstlerischen Absicht positionieren. Das Raummikrofon kann beispielsweise problemlos weit entfernt vom Hallradius entfernt aufgestellt werden, um frühe Reflexionen, ein optimales R/D-Verhältnis, adäquate Dichte und Klangfarbe zu erhalten, aber auch weit entfernt vom Auditorium, um Störgeräusche zu vermeiden. Die optimale Verzögerung zwischen Haupt- und Raummikrofonanordnung ist ebenfalls konfigurier-

5.4 Mehrkanal-Stereofonie 

 325

bar, ohne dass die stereofone Information des Hamasaki-Square verändert werden muss (vgl. Kap. 5.4.4). Dies gilt für jede räumlich getrennte Hauptmikrofonanordnung. Es ist zu beachten, dass die Verwendung von Mikrofonen mit Richtcharakteristik Acht zu einem Abfall tiefer Frequenzen führt, weil es sich um reine Druckgradientenempfänger handelt. Die Signale des Hamasaki-Square weisen deshalb bei tiefen Frequenzen eine wesentlich weniger stark ausgeprägte Umhüllung auf. Theile-Trapez In vielen Aufnahmesituationen haben die frühen  seitlichen Reflexionen nur eine geringe oder keine Bedeutung. Beispielsweise geht es bei der Aufnahme von Live-Popmusik eher darum, die Reaktion des Publikums und das akustische Ambiente darzustellen. Dabei muss ebenfalls der Direktschall, der in diesem Fall von der Beschallungsanlage kommt,  möglichst stark unterdrückt werden, und eine korrekte Richtungsabbildung ist meistens unwesentlich. Daher kann die Anordnung aus vier richtenden Mikrofonen so konfiguriert und ihre Platzierung  so gewählt werden, dass das akustische Ambiente einerseits ohne  störenden Direktschall bleibt und andererseits eine zufriedenstellende akustische Umhüllung erzeugt wird. Beim Theile- oder Nieren-Trapez weisen alle Nieren nach hinten, um Direktschall aus dem vorderen Halbraum auszublenden (d = 60 cm). Ein Beispiel dafür zeigt Abb. 5/58. Die nach rückwärts ausgerichteten Nieren in der trapezförmigen Anordnung bewirken, dass Schall aus dem vorderen Halbraum weitgehend ausgeblendet wird. Die Unterdrückung ist im Schalleinfallsbereich ±  45° größer als 15  dB und damit wesentlich wirkungsvoller im Vergleich zum oben erläuterten Hamasaki-Square. Der Pegel einer Schallquelle, die von hinten nach vorne wandert, nimmt kontinuierlich ab gemäß der Richtwirkung der Niere, also bezogen auf die Richtung von hinten nach vorne, beginnend hinten bei 180° mit 0 dB, bei 120° mit – 3 dB, bei 60° mit – 11 dB, bei 30° mit – 18 dB. Alle drei Stereo-Mikrofonpaare LB-LS, LS-RS und RS-RB wirken dabei in identischer Weise als reine Klein-AB-Anordnungen, aus den Abständen d = 60 cm ergibt sich ein Aufnahmebereich von 60° für jeden der drei Aufnahmesektoren.

Abb. 5/58. Theile-Trapez für Atmo-Aufnahmen aus dem rückwärtigen Halbraum.

326 

 5 Tonaufnahme und Tonwiedergabe

5.4.3.3 Reportage und Dokumentation Für Surround-Aufnahmen der akustischen Atmosphäre, der Atmo, sind verschiedene, mindestens vierkanalige Mikrofon-Konfigurationen geeignet. Um die gewünschte Umhüllung gemäß Abb. 5/57 zu erreichen, muss nicht der Centerkanal einbezogen werden, denn eine richtungsstabile Abbildung von Schallquellen ist nicht wichtig. Vielmehr geht es um die Darstellung umgebender Geräusche und diffusen Schalls, wobei alle vier Seiten eine gleichwertige Bedeutung haben. In der Praxis der Atmo-Aufnahme kommt es zudem darauf an, dass die Mikrofon-Konfigurationen möglichst kompakt und einfach handhabbar sind. Doppel-MS Diesbezüglich besonders geeignet ist die in Kap.  5.4.3.1 bereits beschriebene Doppel-MSTechnik. Sie wird in der Praxis besonders da eingesetzt, wo die Möglichkeit der flexiblen Bearbeitung in der Nachbearbeitung, Kompaktheit – die gesamte Anordnung lässt  sich in einem Windkorb unterbringen –  sowie Monokompatiblität vorrangig  sind. Dies ist hauptsächlich bei Filmton und Sportübertragungen  sowie für Publikums-Atmo in TV-Shows der Fall, aber auch bei Hörspielen, Features und Dokumentationen. Das Doppel-MS-Verfahren kann auch mit einem Richtrohr aufgebaut werden, das beim Filmton für die Dialogaufnahme Standard ist. Da bei Dokumentationen und in der aktuellen Berichterstattung kein separates Atmo-Mikrofon möglich ist, wird der Mehrkanalton aus dem Richtrohr und zwei an ihm angebrachten Kompaktmikrofonen gebildet. Abb. 5/59 zeigt diese Speziallösung.

Abb. 5/59. Beispiel einer Mikrofonanordnung in Doppel-MS-Technik mit einem Richtrohr.

IRT-Kreuz Ein Alternative für die Atmo-Aufnahme ist das  sog. IRT-Kreuz (Abb.  5/60). Die vollkommen symmetrische Kapselanordnung gewährleistet für die Signalpaare L-R, R-RS, RS-LS und LS-L eine gleichwertige Korrelation im diffusen Schallfeld sowie eine gute stereofone Qualität der umgebenden Geräusche. Die Versatzwinkel zwischen den Mikrofonachsen betragen 90°. Der Abstand der Mikrofone sollte 25 cm betragen, damit sich für jedes der Mikrofonpaare ein Abbildungswinkel von 90° ergibt. Besonders bewährt hat  sich das kompakte Atmo-Kreuz bei Sportübertragungen, Talkshows und im Bereich der Dokumentation, wobei der Centerkanal frei bleibt und eine separate Handhabung von Kommentar, Dialog oder anderen, z. B. bildbezogenen Signalquellen

5.4 Mehrkanal-Stereofonie 

 327

erlaubt. Für den Einsatz als Raummikrofon im Konzertsaal ist die Anordnung weniger geeignet, da der Direktschall des Klangkörpers nicht unterdrückt wird. Für den Einsatzbereich einer wirklichkeitsnahen Dokumentation der akustischen Umgebung ist die Positionierung des Atmo-Mikrofons in den  meisten Situationen unkritisch. Die folgenden Einschränkungen sind zu beachten: –– Im Fall einer Bilddokumentation besteht die Gefahr einer Diskrepanz zwischen akustischer und optischer Richtung, wenn das Mikrofon bildbezogene Quellen aufnimmt. Besonders störend ist eine Seitendiskrepanz, z. B. wenn eine linke Bildquelle akustisch rechts erscheint und umgekehrt. Generell sollten Richtungsdarstellungen für bildbezogene Quellen vermieden werden. –– Schallquellen in der Nähe des Atmo-Mikrofons  sollten bei einem Mindestabstand von 3 m vermieden werden. Eine Quelle nahe am Mikrofon wird bei der Wiedergabe ähnlich nahe am Lautsprecher wahrgenommen. Für die realitätsnahe Umhüllung, d. h., für die Illusion einer kopfnahen akustischen Umgebung ist dies problematisch, weil die Lautsprecherentfernung verstärkt als Grenze des Hörereignisraumes wahrgenommen werden kann. Beispielsweise würde beim Applaus der Hörer um sich herum leicht eine „akustisch leere Blase“ empfinden, wenn das Atmo-Mikrofon zu nahe am Publikum aufgestellt wäre.

Abb. 5/60. IRT-Kreuz für Atmo-Aufnahmen

5.4.4 Verwendung von Delay Die natürliche Abbildung der Tiefe und der Räumlichkeitseindruck erfordern eine sorgfältige Handhabung der Verzögerungssituation; darauf beruht das Prinzip der raumbezogenen Stütztechnik [Theile, 1984], [Wöhr, 1991], [Theile, 1991], [Hugonnet, 1998], das in Kap. 5.3.5.3 beschrieben wurde. Dies gilt entsprechend für die Mehrkanaltechnik, jedoch muss sichergestellt sein, dass das Raummikrofon die im vorangegangenen Abschnitt beschriebene Abbildung des indirekten Schalls auch hinsichtlich der zeitlichen Struktur gewährleistet. Die Verzögerungen werden so gestaltet, dass sie dem Reflexionsmuster des Aufnahmeraums bzw. eines anderen Raums bei künstlicher Verhallung entsprechen. Dies unterstützt die Natürlichkeit des Raumeindrucks und die Darstellung räumlicher Tiefe. Hervorzuheben ist, dass dieses Konzept nicht auf das Haupt-Stützmikrofonverfahren beschränkt ist,  sondern auch

328 

 5 Tonaufnahme und Tonwiedergabe

entsprechend für die Einzelmikrofonverfahren (Kap. 5.3.6) angewendet werden kann [Noussaine, 1997], [Zacharov, 1998], [Griesinger, 2000].

5.4.4.1 Delay bei Einsatz von Hauptmikrofonen Am Beispiel der Aufnahme eines Orchesters mit einem Hauptmikrofon, einem Raummikrofon und Stützmikrofonen. zeigt Abb.  5/61 das Grundkonzept notwendiger Verzögerungen. Für die nicht verzögerten Mikrofonsignale ergeben  sich die fehlerhaften Zeitverhältnisse, dargestellt in der oberen Grafik. Nach korrekt eingesetzten Verzögerungen ergibt  sich das gewünschte Reflexionsmuster in der unteren Grafik. Man erkennt, dass das Stützmikrofonsignal in der ursprünglichen Situation, wie oben dargestellt, früher wiedergegeben wird als das entsprechende Hauptmikrofonsignal. Als Folge davon interpretiert das Gehör das Stützmikrofonsignal als den Direktsignal, so dass die Lokalisierung und die bevorzugten Abbildungseigenschaften des Hauptmikrofons verloren gehen. Solche Aufnahmen klingen unnatürlich, ohne räumliche Tiefe und ohne adäquaten Raumeindruck. Dem lässt  sich entgegenwirken, indem jedes Stützmikrofonsignal bezüglich Zeit- und Pegelverhältnissen als eine Anzahl von frühen Reflexionen dargestellt wird. Die Verzögerungen werden  so gestaltet, dass das resultierende Stütz-Reflexionsmuster in den Bereich der frühen Reflexionen fällt, die vom Haupt- oder Raummikrofon aufgenommen werden. Um Klangfärbungsprobleme zu vermeiden und die Wahrnehmung der räumlichen Tiefe und des Raumeindrucks wirkungsvoll zu unterstützen, sollten mindestens vier räumlich und zeitlich verteilte Seitenreflexionen generiert werden. Die Qualität des Raumeindrucks für die gestützte Schallquelle kann ferner durch Hinzufügen eines adäquaten Nachhalls optimiert werden. Auf diese Weise kann die räumliche Qualität der stereofonen Aufnahme erhalten bleiben, und zugleich trägt das Stützmikrofonsignal zur gewünschten Klangbalance von Lautstärke, Transparenz usw. bei.

Abb. 5/61. Raumbezogene Stütztechnik für Haupt-, Stütz- und Raummikrofone.

5.4 Mehrkanal-Stereofonie 

 329

Da das Stützmikrofonsignal in Form einer Anzahl von verzögerten Reflexionen dem stereofonen Hauptmikrofonsignal hinzugefügt wird, ändert sich nicht die vom Hauptmikrofon gegebene Richtungsinformation. Folglich ist die raumbezogene Stütztechnik nicht geeignet, um die eventuell unbefriedigende Richtungsabbildung eines bestimmten Hauptmikrofons oder gravierende Mängel in der Lautstärkebalance zu verbessern. Vielmehr muss in diesen Fällen das Stützmikrofon den Direktschall des Hauptmikrofons ersetzen, d. h., mit Hilfe einer geeigneten Nachbearbeitung muss der passende indirekte Schall erzeugt werden, so dass er sich in das Reflexionsmuster des übrigen Klangkörpers einfügt. Da die Signale des Stützmikrofons und die entsprechenden Signalanteile des Hauptmikrofons inkohärent  sind, gibt es keine Klangfärbungsprobleme durch Kammfiltereffekte. Das gestützte Instrument entspricht  mit der raumbezogenen Nachbearbeitung bezüglich Entfernung und Klangfarbe dem gesamten Klangbild und kann problemlos mit der gewünschten Balance zugemischt werden. Auf diese Weise können beliebig viele Teile des Klangkörpers gestützt werden. Im Extremfall entfällt das Hauptmikrofon, die raumbezogene Stütztechnik wird dann durch das Einzelmikrofonverfahren ersetzt. Auch ohne Hauptmikrofon kann die gewünschte zeitliche Struktur von Direktschall, frühen Reflexionen und Nachhall für den gesamten Klangkörper hergestellt werden. Das ist mit den heutigen technischen Möglichkeiten in vielen Situationen ein praktikabler und sinnvoller Weg, denn er bietet Flexibilität und macht von den gegebenen raumakustischen, aufführungs- und produktionsbedingten Realitäten in hohem Maße unabhängig.

Abb. 5/62. Setzen des Bezugspunkts für den Delay-Plan.

Die Wahl der Positionierung des Raummikrofons ist bestimmt durch die Optimierung der frühen Reflexionen, des R/D-Verhältnisses und der Diffusität hinsichtlich räumlicher Tiefe, Raumeindruck und Umhüllung. Dies kann unabhängig von der Entfernung zum Hauptmi­ krofon geschehen. Wie aus Abb. 5/62 hervorgeht, wird zur Vermeidung von Echowirkungen die zu große Entfernung korrigiert, indem  sowohl das Stützmikrofonsignal als auch das

330 

 5 Tonaufnahme und Tonwiedergabe

Hauptmikrofonsignal so weit verzögert werden, dass der fiktive Abstand etwa 10 m beträgt, entsprechend einer Verzögerung von ca. 30 ms. 5.4.4.2 Delay-Plan Erfahrungen haben gezeigt, dass die genaue Beachtung der Zeitverhältnisse unerlässlich ist, um räumliche Tiefe und Raumeindruck zu gewährleisten. Dazu ist die Erstellung eines DelayPlans für alle beteiligten Mikrofone enorm hilfreich. Im ersten Schritt ist dazu festzulegen, welches Mikrofonsignal den Direktschall bei der Wiedergabe erzeugen und damit die Richtungsabbildung leisten  soll. Im Beispiel gemäß Abb.  5/62 ist dies das L-R-Hauptmikrofon. Die Zeit- oder Verzögerungswerte beziehen sich auf den Bezugszeitpunkt dieses Mikrofons (t = 0 ms), alle weiteren Mikrofone liefern entweder vor- oder nacheilende Signale. Der Delay-Plan enthält die individuellen Delays der Mikrofonsignale, die sich am Reflexionsmuster der konkreten Situation im Saal orientieren. Es werden darin die zeitliche Reihenfolge und die räumliche Zuweisung festgelegt. Ein Beispiel zeigt Tab. 5/14, es entspricht der in Abb.  5/62 gezeigten Aufnahmesituation  mit einem L‑C‑R-Hauptmikrofon und einem vierkanaligen Raummikrofon. Es wird angenommen, dass sich das Raummikrofon etwa 20 m hinter dem Hauptmikrofon befindet und dass drei Stützmikrofone A, B und C eingesetzt sind. Tab. 5/14. Delay-Plan für die Mikrofonsignale, Beispiel für die in Abb. 5/62 gezeigte Aufnahmesituation, 1 m entspricht ca. 3 ms, 1 ms entspricht ca. 0,33 m. 1

2

3

4

5

6

Mikrofone

Entfernungskompensation [ms]

Abstand vom Direktschall [ms]

Kompensation + Abstand [ms]

benötigtes Routing Delay [ms]

Hauptmikrofon

L C R

0 0 0

0 0 0

0 0 0

– 35 – 35 – 35

L C R

Stützmikrofon A

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 25 – 25 – 25 – 25

– 22 – 19 – 27 – 30

– 47 – 44 – 52 – 55

– 82 – 79 – 87 – 90

L R LS RS

Stützmikrofon B

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 35 – 35 – 35 – 35

– 29 – 31 – 32 – 35

– 64 – 66 – 67 – 70

– 99 – 101 – 102 –105

L R LS RS

Stützmikrofon C

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 45 – 45 – 45 – 45

– 27 – 21 – 29 – 33

– 72 – 66 – 74 – 78

– 107 – 101 – 109 –113

L R LS RS

Raummikrofon

L R LS RS

+ 60 + 60 + 60 + 60

– 25 – 25 – 25 – 25

+ 35 + 35 + 35 + 35

0 0 0 0

L R LS RS

5.4 Mehrkanal-Stereofonie 

 331

Von jedem Stützmikrofonsignal werden hier vier virtuelle frühe Reflexionen abgeleitet, Spalte 2 zeigt zusätzlich die Laufzeit zwischen Stütz- und Hauptmikrofon bzw. Haupt- und Raummikrofon. Spalte 3 enthält die beabsichtigten und frei gewählten zeitlichen Abstände der frühen Reflexionen, sie sollten im Bereich 20 bis 50 ms liegen. Daraus resultieren für die Stützen die individuellen Delays, bezogen auf das Hauptmikrofon. Da die vom Hauptmikrofon aufgenommenen Reflexionen auf Grund der Entfernung von 20 m vom Hauptmikrofon zu spät eintreffen, muss der Ausgleich durch zusätzliches Delay für Haupt- und Stützmikrofone erfolgen, in diesem Fall sind es 35 ms (Spalte 4, vgl. auch Abb. 5/61). Daraus ergeben sich die individuell einzustellenden Gesamtdelays in Spalte 5. Spalte 6 zeigt das beabsichtigte Routing. In diesem Fall werden die vier abgeleiteten Signale eines Stützmikrofons auf die Kanäle L, R, RS, LS gegeben, so dass sich neben der zeitlichen Verteilung auch eine Richtungsverteilung ergibt. Der Delay-Plan enthält keine Pegelanpassungen; diese können nun innerhalb eines breiten Bereichs in bestimmten Grenzen variiert werden, ohne die Wahrnehmung von Richtung und räumlicher Tiefe zu verändern. 5.4.4.3 Digitale Signalverarbeitung Anstelle des einfachen Routings eines Stützsignals auf die vier Kanäle L, R, RS, LS kann mit der heutigen digitalen Signalverarbeitung das Stützsignal-Reflexionsmuster wesentlich feiner dargestellt werden. Schon ältere Untersuchungen  mit Zweikanal-Stereofonie [Wöhr, 1991] haben gezeigt, dass das vom Hauptmikrofon gewonnene Klangbild eines Instruments im Saal im Prinzip ebenso mit einem geeignet nachbearbeiteten Stützmikrofonsignal hergestellt werden kann und ein derartiges Stützsignal einen hohen „Stützgewinn“ bei hervorragender Einfügung in das gesamte Klangbild hinsichtlich Tiefenstaffelung und Raumeindruck gewährleistet. Entsprechende Mischpulte  sind  seit einigen Jahren verfügbar. Die digitalen Signalverarbeitungen erlauben z. B. eine hohe Anzahl von räumlich verteilten Reflexionen pro Stützmikrofon, ergänzenden adäquaten Nachhall und „Entfernungsequalizing“, d. h. Berücksichtigung von spektralen Veränderungen auf Grund der Absorption während der Schallausbreitung. Im Prinzip ermöglichen die digitalen Werkzeuge ein „natürliches“ Panning der Richtung und Entfernung der gestützten Schallquelle. In der Fortführung dieser Entwicklung können Einzelmikrofonverfahren prinzipiell ein  sehr ähnliches klangliches Ergebnis hervorbringen wie die raumbezogene Stütztechnik. Dazu muss theoretisch jedes „trockene“ Einzelmikrofonsignal mit den entsprechenden Raumimpulsantworten gefaltet werden, welche mit der Haupt- und Raummikrofon-Konfiguration im Saal gemessen werden. Hier eröffnen sich bisher nicht realisierte Möglichkeiten der kreativen räumlichen Gestaltung stereofoner Aufnahmen. Sie sind nicht gebunden an raumakustische Bedingungen im Aufnahmeraum oder an aufführungspraktische Gegebenheiten.

5.4.5 Einsatz von Höhenlautsprechern Seit Verabschiedung des internationalen Standards [ITU-R BS. 775-1] im Jahr 1992 verging viel Zeit bis zur Etablierung entsprechender Übertragungstechnik in wichtigen Medien und bis zur Erlangung ausreichender Erfahrung bei der Produktion. Die Umstellung der Aufnahme-

332 

 5 Tonaufnahme und Tonwiedergabe

technik von 2.0 auf 5.1 war ein erster wichtiger Schritt, weg von reiner Stereofonie zwischen zwei Lautsprechern vor dem Hörer, hin zur Reproduktion einer real wirkenden akustischen Umgebung. Der 5.1-Standard ist noch ein Kompromiss, er war damals notwendig wegen gegebener Rahmenbedingungen, wegen der Kompatibilität mit 2.0-Stereo und mit Kino-Formaten und wegen maximal 6 Übertragungskanälen. Die Verbesserungen beschränken sich deshalb im Wesentlichen auf zwei Punkte [Theile, 2000/2]: –– Vergrößerte Hörzone  sowie verbesserte Stabilität und Qualität des  stereofonen Klangbilds vor dem Hörer durch Aufteilung der Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L‑C und C‑R mit je 30°. –– Einsatz der zwei zusätzlichen Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers, so dass sich das akustische Umfeld des Hörers in bestimmten Grenzen real gestalten lässt. Inzwischen ist das technische Umfeld für 5.1 bei Produktion, Distribution und Endgeräten nahezu durchgehend eingeführt. Auch akzeptiert der Konsument weitgehend eine höhere Zahl von Lautsprechern, zumindest in Verbindung  mit der Fernsehanlage, vermarktet als Heimkino. Festzustellen ist aber auch, dass tatsächlich nur wenige Hörer die mit SurroundSound erreichbare Wiedergabequalität realisieren. Ungünstige geometrische und akustische Raumbedingungen beim Hörer, Schwierigkeiten bei der praktischen Handhabung, aber auch ein Mangel an überzeugenden 5.1-Surround-Produktionen  machen den Einsatz von alternativen Wiedergabetechniken attraktiv, insbesondere der „Soundbars“ (Surround-Wiedergabe mittels virtueller Lautsprecher, vgl. Kap. 5.5.2.6). Überzeugende 5.1-Surround-Produktionen erfordern auf der Wiedergabeseite vom Konsumenten Akzeptanz für ein Wohnzimmer mit Heimkino-Outfit. Auf der Produktionsseite sind neben dem passenden Equipment vor allem Erfahrung und besondere Sorgfalt erforderlich, um für Konzerte, Dokumentationen, Reportagen, Spielfilme, Talkshows usw. die Illusion eines realen akustischen Umfelds zu erzeugen oder spannende Richtungseffekte zu generieren. Die Darstellungsmöglichkeiten des 5.1-Formats sind begrenzt: Mangelhafte Rundumabbildung, fehlende Einbeziehung der Höhe und der Kopfnähe, eingeschränkte Möglichkeiten für die Entfernungsdarstellung. Sie lassen sich teilweise mit einer Steigerung der Zahl der Übertragungskanäle und Lautsprecher beseitigten. Bereits der Standard [ITU-R BS. 775-1] enthält optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern. Sie bieten die Möglichkeit, die stereofone Qualität bei seitlicher Abbildung zu verbessern, die Hörzone zu vergrößern und das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung stationärer seitlicher Hörereignisse oder die wichtigen seitlichen Reflexionen. All diese Surround-Formate basieren im Prinzip auf Stereofonie, d. h., die Quellenabbildung geschieht kanalbasiert (siehe Kap. 5.5.1) mit Phantomschallquellen zwischen zwei benachbarten Lautsprechern. Im  seitlichen Bereich ist die Phantomschallquellenrichtung vom Hörerplatz abhängig und instabil, weshalb hier praktisch nur die Orte der Lautsprecher die Richtungsdarstellung übernehmen. Auch die Balance der Lautstärkeverhältnisse ist platzabhängig, besonders auffallend für das Verhältnis Front-Surround. Daher bezwecken

5.4 Mehrkanal-Stereofonie 

 333

zusätzliche Kanäle in der Horizontalebene eine größere Hörzone bzw. eine homogenere und stabilere Richtungsauflösung. In alternativen Anwendungen zusätzlicher Kanäle wird die Horizontalebene verlassen. Lautsprecheranordnungen in der Ebene oberhalb des Hörers vervollständigen den räumlichen Gestaltungsbereich und ermöglichen in bestimmten Grenzen den Aufbau eines dreidimensionalen Klangbilds. Vor fast 20 Jahren hatte Dabringhaus mit seiner 2+2+2-recordingTechnik die ersten Musikaufnahmen auf den Markt gebracht; es handelt sich um 5.1 ohne Centerkanal und Subwoofer, dafür mit zwei Lautsprechern oberhalb L und R. Das Konzept war für die Audio-DVD ausgelegt und darauf, ein möglichst authentisches Klangbild aus dem Konzertsaal zu reproduzieren und deshalb zugunsten der Lautsprecher für die Höheninformationen auf Center und Subwoofer zu verzichten. Im Jahr 2006 stellte Wilfried Van Baelen das sog. Auro-3D-Format vor, das die Höhe konsequent mit vier zusätzlichen Kanälen einbezieht. In der Basisversion Auro 9.1 ergänzen die Höhenlautsprecher das 5.1-Format, sie befinden sich über den Lautsprechern L, R, RH, LH (Abb. 5/63).

Abb. 5/63. Basis-Konfiguration Auro 9.1 nach [Van Baelen, 2010], abwärtskompatibel mit [ITU-R BS. 775-1].

In ähnlicher Weise berücksichtigt Holman mit zwei hoch angeordneten Lautsprechern schräg rechts und links vor dem Hörer die dritte Dimension. Seine sog. 10.2-channel surround soundKonfiguration beansprucht allerdings 8 Kanäle in der Horizontalebene und ist ursprünglich für Kino- und Heimkino-Anwendung gedacht [Holman, 2007]. Für das Ultra High-Definition TV in Japan stellte Kimio Hamasaki das 22.2 Multichannel Sound System vor, das neben 10 Lautsprecherkanälen in der Horizontaleben weitere 9 „Upper Layer“-Kanäle sowie 3 „Lower Layer“-Kanäle vorsieht [Hamasaki, 2007]. Ab dem Jahr 2012 begann Dolby, mit einer Vielzahl von Lautsprecherkonfigurationen  mit bis zu 64 Kanälen die „Atmos“-Technologie in Filmtheatern zu etablieren [Hidalgo, 2012]. Für die Heimkino- und Musikproduktionen-Szene entstanden verschiedene Lautsprecherformate, üblicherweise mit bis zu 16 Kanälen in den zwei Technologien „Atmos“ und „Auro-3D“, die nur teilweise und bedingt miteinander kompatibel sind.

334 

 5 Tonaufnahme und Tonwiedergabe

5.4.5.1 Nutzen der Höhenlautsprecher Die Erweiterung des Darstellungsbereichs nach oben bietet Möglichkeiten, das akustische Umfeld des Hörers in bestimmten Grenzen besonders real zu gestalten. Eine Konfiguration gemäß Abb. 5/62 bildet eine einem Kubus ähnliche Anordnung von acht Lautsprechern, so dass für die Wiedergabe der frühen Reflexionen der gesamte obere Halbraum einbezogen werden kann und sich die subjektive räumliche Diffusität des Nachhalls in ausreichendem Maße reproduzieren lässt. Damit  sind wiedergabeseitig gute Voraussetzungen für die Darstellung von Umhüllung, Räumlichkeit und räumlicher Tiefe geschaffen. Zusätzlich bieten die oberen Lautsprecher die gleichen Möglichkeiten der stereofonen Quellenabbildung wie die ITU-Anordnung ohne Centerlautsprecher. Phantomschallquellen zwischen den unteren und oberen Lautsprechern, also stabile stationäre Hörereignisrichtungen mit Elevation zwischen 0° und 30° sowie direkt über dem Hörer sind allerdings praktisch nicht realisierbar. Bestimmte Schwächen des 5.1-Surround-Formats können mit einem 9.1-Surround-Format beseitigt oder gemildert werden, andere nicht. In Tab. 5/15 sind verschiedene Attribute des reproduzierten Klangbilds aufgeführt. Die ersten vier betreffen den Direktschall, meist mit Panning gestaltet, die nächsten vier betreffen Wirkungen des indirekten Schalls,  mit Aufnahmetechnik und Processing gestaltet. Mit den Attributen lassen sich die Leistungsprofile der unterschiedlichen Verfahren einigermaßen  sachgerecht charakterisieren und vergleichen, unter dem Vorbehalt, dass wiedergabeseitig die Empfehlungen korrekt realisiert und aufnahmeseitig die passenden Mikrofon- und Mischtechniken eingesetzt werden. Tab. 5/15 zeigt, dass 9.1‑Surround verglichen mit den anderen Lautsprecherverfahren bei einigen Attributen prinzipielle Vorteile aufweist. Dies lässt sich auf andere Formate übertragen, die 2D Surround-Wiedergabesysteme mit Quadrofonie-ähnlichen Lautsprecheranordnungen in der Ebene über dem Hörer ergänzen. Tab. 5/15. Leistungsprofile der Verfahren im Vergleich, geeignete Aufnahme- und Wiedergabetechnik vorausgesetzt. * horizontale Arrays, ** simulierte Tiefe bzw. Räumlichkeit, *** nur im Sweet Spot, sonst instabil. Attribute des reproduzierten Schalls

2.0Stereo

5.1Surround

9.1Surround

Wellenfeldsynthese

binaurale Verfahren mit head tracking

Richtung vorne



●●

●●

●●*

●●





●●*

●●

Richtung rundum Elevation

(●)***

Höhe

●●

●●

●●

Nähe am Kopf

●*

●●

Intra-aktive Perspektive

●●*

Räumlichkeit

(●) **

(●)**

Umhüllung Klangfarbe

●●



●●

●● ●●*

Entfernung, Tiefe



●●

●*

●●



●●

●*

●●

●●

●●

●*

●●

5.4 Mehrkanal-Stereofonie 

 335

5.4.5.2 Anwendung der Höhenlautsprecher Die Lautsprecher in der oberen Ebene weisen dieselben Abbildungseigenschaften auf wie die in der Horizontalebene ohne den Center-Lautsprecher. Die stereofone Darstellung im Bereich L-C-R wird durch Zweikanal-Stereo in der Basis Lh-Rh der oberen Etage ergänzt, und ebenso können die oberen zusätzlichen Surround-Lautsprecher ebenso genutzt werden wie die unteren. Allein daraus ergibt sich eine beachtliche Erweiterung des Gestaltungsspielraums. Interessant  sind die Möglichkeiten, die  sich aus dem Zusammenwirken beider Ebenen ergeben, einerseits hinsichtlich Quellendarstellung in der von den fünf Lautsprechern vor dem Hörer aufgespannten Fläche, andererseits hinsichtlich der Reproduktion von Reflexionen und diffusem Schall im dreidimensionalen Surround. Die Fläche vor dem Hörer zwischen L-R und Lh-Rh lässt sich am unteren und oberen Rand zur stereofonen Darstellung lokalisierbarer Quellen wie gewohnt nutzen. Die Lokalisierung von Phantomschallquellen zwischen den unteren und oberen Lautsprechern ist sehr instabil bezüglich Laufzeitdifferenzen und auch abhängig vom Spektrum. Schon kleine Laufzeitdifferenzen führen zu einer Auswanderung der Phantomschallquelle nach oben oder unten. Ein Delay von 0,5 ms reicht aus, um das Hörereignis in den einen oder anderen Lautsprecher zu verschieben, verbunden mit Klangverfärbung. Diesbezüglich ist die Hörzone in der Tiefe und in der Höhe stark eingeschränkt, wie Abb. 5/64 illustriert.

Abb. 5/64. Laufzeitdifferenzen bei Hörpositionen abweichend vom Sweet Spot.

Die Elevation einer stationären Quelle ist mit Hilfe der oberen Lautsprecher praktisch nicht erreichbar, besonders bei Berücksichtigung der Forderung einer großen Hörzone. Panning zu diesem Zweck funktioniert nicht, es stellen sich unkontrollierbare klangliche und räumliche Effekte ein. Die Verhältnisse stellen sich ähnlich dar wie bei den seitlichen Lautsprecherpaaren L‑LS bzw. R‑RS: Stabile Quellenpositionen sind allein die Lautsprecher. In bestimmten Grenzen sind jedoch bewegte Quellen darstellbar. Wesentlich günstigere Verhältnisse findet  man bei der Reproduktion vieler einzelner, in ihrer Gesamtheit nicht individuell lokalisierbarer, aber räumlich verteilter Schallquellen wie z. B. Reflexionen. Sie ähneln den Eigenschaften einer Groß-A-B-Konfiguration oder eines Decca-Tree: Obwohl die Richtungsabbildung wegen viel zu steiler Abbildungskurven nicht praktikabel ist, ermöglichen sie dennoch eine platzunabhängige, klanglich ausgewogene Darstellung beispielsweise eines großen Klangkörpers und des reflektierten Schalls. Die Gefahr des „Lochs in der Mitte“ ist in vielen Aufnahmesituationen nicht gravierend, vor

336 

 5 Tonaufnahme und Tonwiedergabe

allem wenn der diffuse Schallanteil das Klangbild dominiert. Das Füllen der Flächen in der Höhe ist also möglich und ein wichtiges Gestaltungselement. Die frühen Reflexionen lassen sich auf diese Weise vorteilhaft in der Höhe verteilen. Die vielen unterschiedlichen Laufzeitdifferenzen individueller Reflexionen an den Mikrofonen bewirken dies. Die Reflexionen fallen in natürlicher Weise auch aus oberen Richtungen ein. Die bessere Verteilung der Reflexionen vermindert ihre räumliche Dichte,  somit kann das Gehör die räumlichen Informationen besser erkennen. Abb. 5/65 veranschaulicht den Effekt beim Übergang von 2.0 über 5.1 nach 3D-Audio (9.1-Surround). Wichtig ist dabei auch eine günstige Auswirkung auf die Klangfarbe, die mit einer verbesserten Wahrnehmung der Reflexionen verbunden ist.

Abb. 5/65. Räumliche Verteilung der Reflexionsmuster in 2.0, 5.1 und 3D-Audio (9.1-Surround). Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen (vgl. Abb. 5/18 und 5/19).

Will man die oben geforderte räumliche Auflösung der Direktschallkomponenten, der Atmo, des Diffusschalls und/oder der Reflexionen erzeugen,  so  muss die Mikrofonanordnung eine ausreichende akustische Kanaltrennung am Ort des Hörers gewährleisten (Abb. 5/66). Andernfalls wäre die räumliche Anordnung mehrerer Lautsprecher nur wenig nützlich. Die Realisierbarkeit der notwendigen akustischen Kanaltrennung für die RaummikrofonVerfahren ist umso schwieriger, je mehr Kanäle für die Wiedergabe vorgesehen sind. Die Gefahr von unerwünschtem Übersprechen, also korrelierten Inhalten auf drei oder  mehr Lautsprechern, steigt. Die Folge ist eine deutliche Klangverfärbung, die auch noch von der Hörerposition im Abhörraum abhängt. Eine Hauptmikrofonanordnung ohne störenden Crosstalk ist aber bei neun Kanälen äußerst schwierig zu bewerkstelligen. Es gibt zwei Möglichkeiten, die auch in 5.1 funktionieren: Entweder muss das Übersprechen durch optimierte Verfahren wie OCTSurround (siehe Kap. 5.4.3.1, Abb. 5/51) weitgehend vermieden oder durch größere Abstände der Mikrofone zueinander die Abbildungseigenschaften einer A/B-Konfiguration (siehe Kap. 5.3.3) erzielt werden. Anordnungen mit hoher Kanaltrennung sind nicht nur bezüglich der Lokalisation vorteilhaft (siehe Kap. 5.4.2.4), sondern ebenso bezüglich der räumlichen Transparenz, der realitätsnahen Wiedergabe insbesondere der frühen Reflexionen.

5.4 Mehrkanal-Stereofonie 

 337

Abb. 5/66. Ausreichende akustische Trennung der Mi­­krofonsignale ist erforderlich für die realitätsnahe räumliche Wiedergabe

Abb. 5/67. Reflexionsmuster im Sweetspot eines 9.1 Lautsprecher-Auro-3D-Setups, erzeugt mit zwei verschiedenen 3D‑Mikrofon-Arrays [Wittek, 2012].

Abb. 5/67 zeigt beispielhaft die Reflexionsmuster im Vergleich, die mit zwei unterschiedlichen Mikrofon-Setups in einem Saal vom Typ Schuhschachtel aufgenommen und im Sweet-

338 

 5 Tonaufnahme und Tonwiedergabe

spot einer 9.1 Auro-3D-Lautsprecheranordnung gemessen wurden [Wittek, 2012]. Das obere Bild enthält die Reflexionsmuster, die  mit einer 9-Kanal-Anordnung  mit hoher Kanaltrennung erzeugt werden (OCT  sowie vier nach oben gerichtete Supernierenmikrofone,  siehe Abb.  5/69). Direktschall und die frühen Reflexionen werden deutlich detektierbar aus den Richtungen wiedergegeben, die mit dem Aufnahmeraum übereinstimmen. Das zweite Bild zeigt das entsprechende Ergebnis mit einem 9-kanaligen Groß-A/B-Setup in ähnlicher Mikro­ fonanordnung, die Frontmikrofone L-C-R bilden einen Decca-Tree (vgl. Kap. 5.4.2.3). Offensichtlich gibt es kaum verwertbare diskrete Reflexionen, jeder der neun Kanäle enthält alle Erstreflexionen aus sämtlichen Richtungen, sozusagen ein „neunfaches Mono“. Das resultierende Klangbild kann für bestimmte Aufnahmen erwünscht sein, in Räumen mit langem Hall, in denen das Diffusfeld das Hörerlebnis dominiert, beispielsweise in einer Kirche. Jedoch wird der natürliche Raumeindruck eines Saals nicht erreicht. Stabile transparente Lokalisation der Quellen und realitätsnahe Wahrnehmung der Entfernungen und der Tiefe gelingen nur mit ausreichender Vermeidung des Übersprechens. Mit heutigen Technologien sind Lösungen denkbar, die auf Faltungstechniken basieren, wobei die Rauminformationen entweder aus Messungen im aktuellen Aufnahmeraum oder in bestehenden, akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. 5.4.5.3 Höhenlautsprecher für immersiven Sound Der diffuse Schall, also Nachhall oder Atmo, muss auch diffus beim Hörer ankommen. Dies kann gelingen, wenn die zusätzlichen Lautsprecher auch geeignet beschickt werden. Es ist notwendig, dass die diffusen Signale auf allen Lautsprechern ausreichend verschieden sind, also im gesamten Frequenzbereich weitgehend dekorreliert [Nipkow, 2019]. Gerade bei tiefen Frequenzen ist ausreichende Unabhängigkeit wichtig, da davon die Wahrnehmung der Umhüllung abhängt [Griesinger, 1998]. Es ist jedoch nun aufnahmeseitig durch die größere Anzahl der Kanäle, die unabhängig sein sollen, wesentlich schwieriger geworden. Da man mit Mikrofonen erster Ordnung in Bezug auf die Erzeugung dekorrelierter Signale sehr schnell an  seine Grenzen kommt, führt dies dazu, dass der Mikrofonaufbau größer wird, da nur dadurch eine Dekorrelation durch Pegel- und Laufzeitdifferenzen erreicht wird. Richtungsdiffuser Direktschall: Atmo Das akustische Ambiente einer Szene wird aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen gebildet. Beispiele dafür sind das Blätterrauschen des Walds, entfernte Stimmen, Verkehrslärm, Publikumsreaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Dieser Schallanteil trägt beim natürlichen Hören in vielen Situationen im besonderen Maß zum immersiven Hörendruck bei. Die hohe Relevanz dieser Schallanteile wurde lange unterschätzt, tatsächlich ist dieser Aspekt im Gegensatz zur Richtungsabbildung oft der wichtigere [Theile, 2012]. Dies trifft besonders für 3D-Audio Aufnahmen zu; eine geeignete Mikrofonierung und/oder sinnvolle Mischung ist von großer Bedeutung. Die Eigenschaften diverser Mikrofontechniken für AtmoAufnahmen werden in [Wittek, 2012] detailliert beschrieben.

5.4 Mehrkanal-Stereofonie 

 339

Eine besonders für Sportreportagen bewährte Atmo-Anordnung für acht Kanäle ist das ORTF-3D Verfahren. Ursprung ist die Doppelung einer modifizierten Version des IRT-Kreuzes (siehe Kap.  5.4.3.3) auf zwei Ebenen (Abb.  5/68). Je vier Supernieren für die untere und die obere Ebene sind in einem Rechteck übereinander angeordnet. Die Kapseln sind jeweils um 45° nach oben bzw. unten geneigt, um auch in der vertikalen Ebene für maximale Signaltrennung zu sorgen. Es entsteht also eine 8-kanalige Anordnung, deren Abbildungseigenschaften innerhalb der horizontalen Ebenen in etwa dem IRT-Kreuz entsprechen. Die Abbildungseigenschaften in den vertikalen Richtungen entsprechen in etwa den Verhältnissen im seitlichen Bereich des 5.1‑Formats (siehe Kap. 5.4.3, Abb. 5/46). Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS in der unteren Ebene und Lh, Rh, LSh, RSh in der oberen Ebene geroutet.

Abb. 5/68. Ambience Supernieren Würfel [Theile, 2012]. Jedes Stereo-Mikrofonpaar hat eine Basis von 10 bis 20 cm und einen Achsenwinkel von 90°.

Zur Verbesserung der praktischen Handhabung kann auf den Abstand zwischen der oberen und unteren Mikrofonebene verzichtet werden [Wittek, 2016]. Die Abbildung in den vertikalen Lautsprecherpaaren wird allein durch die aus der Neigung der Mikrofone entstehenden 90°–X/Y-Paare aus zwei Supernieren erzeugt. Durch die hohe Richtwirkung der Supernieren ergibt  sich eine ausreichende Dekorrelation in der Vertikalebene,  sie ist im Diffusfeld weniger relevant ist als in der Horizontalebene. Insgesamt dieser 8-kanalige ORTF-3D-Ambience-Mikrofon-Set hohe Signaltrennung, optimale Diffusfeld-Dekorrelation und gute immersive 3D-Abbildung bei hoher Stabilität im Wiedergaberaum. Auch für Aufnahmen im Saal liegt es nahe, eine für die Surround-Aufnahme eingesetzte Mikrofon-Konfiguration so zu ergänzen, dass die Atmo dreidimensional erfasst werden kann (vgl. Kap. 5.4.3). Hier ist es wichtig, dass sowohl das Mikrofonarray für die untere Ebene als auch das für die obere Ebene den Direktschall weitgehend unterdrückt, um den ambienten richtungsdiffusen Schall realitätsnahe abbilden zu können. Durch sorgfältiges Ausprobieren und mit einiger Erfahrung lassen sich mit der Wahl der Kapsel-Richtcharakteristiken sowie Ihrer Positionierungen die Balance, beispielsweise unten/oben, zwischen Nachhall und Applaus und Publikumsgeräusch realitätsgetreu gestalten.

340 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/68 zeigt die entsprechende Konfiguration eines 9-kanaligen Hauptmikrofon-Sets. Die für 5.1-Surround konzipierte OCT-Konfiguration (siehe Kap. 5.4.2.4) ist mit vier nach oben gerichteten Supernieren ergänzt, sie werden auf die vier Höhenlautsprecher geroutet. Somit enthält der bei der Wiedergabe von oben abgestrahlte Schall keinen Direktschall, sondern vorwiegend den indirekten Schall des Saals. Die Wiedergabe geschieht aus allen vier oberen Raumecken und damit ausreichend richtungstransparent (vgl. Kap. 5.4.5.2). Dieses bewährte OCT-3D Mikrofon-Set gewährleistet eine natürliche und stabile räumliche Abbildung.

Abb. 5/69. OCT-3D Mikrofon-Konfiguration. Für die Wiedergabe der indirekten Schallanteile über Höhen-Lautsprecher ist die OCT-Anordnung mit vier nach oben gerichteten Supernieren ergänzt [Theile, 2012].

Für Musik mit synthetischen Klängen können vereinzelt auftretende, helle Drum-Sounds wie z.  B. Becken und rhythmisches Zischen eingesetzt und vorzugsweise aus der oberen Lautsprecherebene wiedergegeben werden. Dies verleiht der Musik mehr Feinstruktur und eine gesteigerte Aufmerksamkeit des Hörers; die Durchhörbarkeit ist besser, weil die unteren Lautsprecher in der Regel Schallanteile mit tiefen und mittleren Frequenzen abstrahlen, die Schallanteile mit hohen Frequenzen etwas verdecken können. Reflexionen im oberen Halbraum Die von den vorderen Lautsprechern aufgespannte Ebene ermöglicht die räumlich transparente Wiedergabe der frühen Reflexionen, Abb.  5/70 zeigt eine geeignete Strategie für die Mikro­­fonierung. Das Hauptmikrofon liefert Direktschall und frühe Reflexionen für die unteren Frontlautsprecher, Raummikrofone an den Seitenwänden in Bühnennähe vorwiegend Signale  mit frühen  seitlichen Reflexionen; dadurch entsteht für das Gehör eine Verbindung zwischen der unteren und oberen Lautsprecher-Ebene. Der Direktschall führt zu einer  stabilen Lokalisation des Klangkörpers in der unteren Ebene. Die Wiedergabe der frühen Reflexionen aus dem oberen Bereich haben den Effekt, dass der Klangkörper  mit einer Höhenausdehnung wahrgenommen wird, was den realen Verhältnissen entspricht. Bei Aufnahmen in Konzertsälen lassen sich frühe seitliche Reflexionen mit Mikrofonen an den Seitenwänden in Bühnennähe einfangen. Sie eignen  sich gut, um die gewünschte auditive Verbindung in Kombination  mit dem Direktschall herzustellen. Hauptmikrofone nehmen neben Direktschall immer auch frühe Reflexionen auf. Es ist vorteilhaft, die Signale des Hauptmikrofons für die unteren Front-Lautsprecher zu verwenden und die Signale mit

5.4 Mehrkanal-Stereofonie 

 341

vorwiegend seitlichen Reflexionen für die oberen Front-Lautsprecher. Dies bewirkt bei Aufnahmen in gut klingenden Räumen, dass das Fundament des Klangkörpers  stabil in der unteren Höhenebene lokalisiert wird und die frühen seitlichen Reflexionen dem Klangkörper einen attraktiv klingenden Glanz verleihen. Dieses Gefüge zerfällt, wenn die beiden Höhenebenen zu weit auseinander positionier/ sind bzw. wenn der Elevationswinkel 35° überschreitet [Van Baelen, 2011/2]

Abb. 5/70. Einbeziehung der Höhe für die Wiedergabe der frühen Reflexionen.

Umhüllung und Räumlichkeit Geben alle Lautsprecher eines 9.0 Setups diffusen Raumschall  mit einer Korrelation von etwa Null wieder, führt dies zu einer Empfindung der Umhüllung, die einzelnen Lautsprecher werden nicht als Einzelschallquellen wahrgenommen (Abb. 5//71). Die Pegel des diffusen Raumschalls in allen Kanälen müssen ausbalanciert sein, um die auditive Verbindung zwischen den Seiten und oben und unten sicherzustellen. Eine Korrelation von 1, d. h. aus allen Lautsprechern identische Signale, birgt die Gefahr von hörbaren Kammfiltereffekten, insbesondere für statische breitbandige Signale wie Rauschen oder Applaus. Tiefe Frequenzen unter 200 Hz, die von allen Lautsprechern eines 3D-Audio Lautsprecher-Setups mit einer Korrelation um Null wiedergegeben werden, unterstützen den Umhüllungseindruck und das immersive Hörerlebnis, sich im Aufnahmeraum zu befinden. Für eine optimale Umhüllung  muss besonders die Balance zwischen vorne und hinten ausgeglichen sein. Je mehr Raumsignale von hinten wiedergegeben werden, desto schwächer ausgeprägt ist die hörbare Verbindung zwischen vorne und hinten. Geben die Lautsprecher in der Front keinen Raumschall wieder, treten zwei verschiedene Hörereignisse auf; es besteht keine auditive Verbindung zwischen vorne und hinten. Dagegen können die Pegel zwischen den oberen und unteren Lautsprechern variieren. Dies kann genutzt werden, um die Durchhörbarkeit anderer Sounds zu verstärken. Beispielsweise werden zur Steigerung der klanglichen Transparenz des „Stage Sounds“ die Pegel des Raumschalls in den unteren Frontlautsprechern reduziert,  siehe Abb.  5/72. Die Feinstruktur des Direktschalls wird durch Raumschall beeinträchtigt. Soll eine  möglichst hohe Transparenz des Klangkörpers erreicht werden, ist eine Überlagerung von Direkt- und Raumschall aus derselben Richtung zu vermeiden.

342 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/71. Einbeziehung aller Lautsprecher für Schall mit Korrelation um Null.

Abb. 5/72. Balanceeinstellung des Raumschalls zugunsten der Durchhörbarkeit, hier Solisten aus der Richtung der unteren Solisten Front-Lautsprecher (‚Stage Sound’).

Vordergrund und Hintergrund: Tiefe Räumliche Tiefe ist ein wichtiges Gestaltungselement (siehe Kap. 5.2.4). Der diffuse Schall unterstützt den Eindruck der Tiefe, wenn die akustische Szene Objekte im Vordergrund enthält. Ein lokalisiertes Objekt befindet sich im Vordergrund, wenn Nachhall oder nichtreflektierter Diffusschall vorhanden ist. Die Unterscheidbarkeit zwischen Vorder- und Hintergrund kann variieren; in diesem Zusammenhang spricht man von räumlicher Kontur [Terhardt, 1989]. Ist die Kontur  stark ausgeprägt, wirkt das resultierende Klangbild plastisch, da sich die Schallquellen im Vordergrund stark vom akustischen Hintergrund abgrenzen – dieses Phänomen ist vergleichbar mit einem Portraitfoto, bei dem der visuelle Hintergrund komplett unscharf ist. Die räumliche Kontur tritt insbesondere in großen Aufnahmeräumen wie Kirchen oder Konzertsälen mit langer Nachhallzeit auf: Dort wird der Raumschall über die Zeit  stark „verschmiert“ und  somit impulsartige Klänge  maximal verschliffen. Durch den größeren zeitlichen Abstand zwischen Direkt- und Raumschall als in kleineren Räumen treten zudem weniger stark wirkende Verdeckungseffekte auf. Bewegt  sich zudem der akustische Hintergrund gegenüber den  statisch positionierten Schallquellen, wird die Kontur noch ausgeprägter; unser Gehör kann somit die Schallquellen

5.5 Verfahren der räumlichen Tonübertragung 

 343

im Vordergrund besser unterscheiden als bei einem statischen Hintergrund, die Entfernung des Hintergrundes gegenüber dem Vordergrund wird deutlicher hörbar. Bewegte Räumlichkeit entsteht durch zufällig wirkende Bewegungen, Fluktuationen, des Hintergrunds und wird als angenehm empfunden. Es ist deshalb zweckdienlich, Fluktuation in die 3D-Audio Produktion einzubauen.

5.5 Verfahren der räumlichen Tonübertragung 5.5.1 Kanalbasierte Verfahren Der Begriff ‚kanalbasierte Verfahren‘ oder ‚kanalbasierte Aufnahme und Wiedergabe’ entstand in den letzten Jahren in Abgrenzung zu  sog. ‚objektbasierten Verfahren‘ bzw. ‚zur objektbasierten Aufnahme und Wiedergabe‘ und zur Schallfeldsynthese. Die kanalbasierten Verfahren bzw. die räumliche Darstellung ist dadurch gekennzeichnet, dass die Kanalzuordnung an die Lautsprecheranordnung gebunden ist und nicht geändert werden kann. Eine bei der Produktion gewählte Lautsprecheranordnung legt also die Kanalkonfiguration für Verteilung und Wiedergabe fest. Ebenso festgelegt ist damit das Klangbild, das aufnahmeseitig mit der Wahl und der Positionierung geeigneter zwei- bzw. mehrkanaliger stereofoner Mikrofonanordnungen realisiert wird. Einzelheiten der Gestaltungsmöglichkeiten für die verschiedenen Formen der Stereofonie werden in den Kap. 5.2 bis 5.4 behandelt. Kanalbasierte Formate beinhalten standardisierte und etablierte Anordnungen der Lautsprecher und entsprechende Bezeichnungen der Kanäle, sie machen den einfachen Produktionsaustausch innerhalb der Verteilungswege bis hin zum Endverbraucher  möglich. Produktions- und wiedergabeseitig werden die gleichen Lautsprecheranordnungen eingesetzt und standardisierte Downmix-Regeln befolgt, beispielsweise die Abwärtskompatibilität für den Downmix vom 5.1-Format nach 2.0-Stereo gemäß ITU-R BS. 775-1. 5.5.1.1 Nomenklatur und Notation Mit dem Aufkommen der vielen Mehrkanal-Tonformate, verstärkt  seit Einbeziehung des gesamten oberen Halbraums für immersiven Sound, wächst durch die Entwicklung von 3D-Audiosystemen die Anzahl genutzter Lautsprecherkanäle und Wiedergabeformate. So werden bei 3D-Audio-Wiedergabesystemen die bekannten Stereo- oder Surroundanordnungen durch zusätzliche Wiedergabequellen über oder unter der Höhenposition der Ohren erweitert. Beispielsweise handelt es sich beim 5.1+4H-Format um ein 3D-Audio-Format, welches im Vergleich zum 5.1-Format vier zusätzliche Höhenlautsprecher enthält (siehe Kap. 5.4.5.2). Dadurch ist die Klassifizierung und Zuordnung von Kanälen sowohl produktions- und wiedergabeseitig als auch die Positionierung von Lautsprechern komplexer geworden. Falsche Kanalzuordnungen oder fehlerhafte Wiedergabe durch falsch interpretierte Wiedergabeformate führen zu Missachtungen künstlerischer Intentionen.  Über die Jahre wurde eine Vielzahl von 3D-Audiosystemen und deren Wiedergabelayouts vorgeschlagen, beispielsweise Dolby Atmos, MPEG-H 3D Audio, Auro 3D oder DTS:X. Oft bleibt jedoch die konkrete Anzahl von Wiedergabekanälen, deren Kanalzuordnung und die

344 

 5 Tonaufnahme und Tonwiedergabe

empfohlene, optimale Positionierung der Lautsprecher unklar. Häufig führen unterschiedliche Sachverhalte und Begriffe für dieselbe Sache − oder gravierender − die gleichen Begriffe für unterschiedliche Sachverhalte der an Produktion, Übertragung und Wiedergabe beteiligten Personen zu Verwirrung. 5.1 oder 3/2, 7.1 mit fünf Front-, mit vier Surroundlautsprechern oder sogar mit Höhenlautsprechern? Was ist 2+2+2, 9.1, 13.1, 22.2 oder 9.1.6? Rvss, TpSiR und U-90 sind reguläre Lautsprecherbezeichnungen, doch was bedeuten sie?  Es gibt eine Vielzahl von Standards, Organisationen und Hersteller, die unterschiedliche Bezeichnungen für Lautsprecher und deren Positionen benutzen. Eine weit verbreitete Nomenklatur für 3D-Audio-Formate ist m.n + hH oder m.n.h, welches unter anderem im Kontext von MPEG-H 3D-Audio oder Dolby Atmos zu finden ist.  Hier bedeutet m die Anzahl der Lautsprecher in der horizontalen Ebene, n die Anzahl der LFE-Kanäle und h die Anzahl der Decken- oder Höhenlautsprecher. Einige Konfigurationen sind komplexer und folgen nicht dieser Konvention, wie z. B. die Konfigurationen 22.2 und 10.2. Weitere Verfahren wie z. B. Auro 3D bevorzugen die traditionelle Schreibweise aus Anzahl der Lautsprecher und LFE, getrennt durch einen Punkt, z. B. Auro 3D 9.1 oder Auro 3D 13.1. In den MPEG-Normen werden Mehrdeutigkeiten bei Lautsprecherkonfigurationen durch die Verwendung einer Index-Tabelle in der MPEG-Norm für kodierungsunabhängige Codepunkte (CICP) definiert, siehe [ISO/IEC 23091]. Im Tab. 5/16 wird beispielhaft ein Auszug der Kanal- und Lautsprecherbezeichnungen aktuell relevanter Standards für das 22.2 Lautsprecherlayout dargestellt. Die Nummerierung der Kanäle (Wiedergabekanal 1 bis 24) bezieht  sich auf den jeweiligen Standard. Hier ist besonders zu beachten, dass sich die Reihenfolge der Lautsprecher in der Wiedergabe von Standard zu Standard unterscheidet. Außerdem zeigt Tab. 5/17 Wiedergabeformate mit den zugehörigen Codierformaten ohne Anspruch auf Vollständigkeit.  Tab. 5/16. Kanal- und Lautsprecherbezeichnung mit unterschiedlichen Nomenklaturen in relevanten Standards für das 22.2 Lautsprecherlayout. Wieder­gabekanal

ITU-R BS. 2051

ISO/IEC 23091-3

ITU-R BS. 2159-8

ISO/IEC 23008-3 ETSI TS 103 190-2 (MPEG-H 3D Audio) (Dolby AC-4)

1

M+000

Center Front ‚C‘

Front left ‚FL‘

CH_M_L060

Left ‚L‘

2

M+030

Left Front Center ‚Lc‘

Front right ‚FR‘

CH_M_R060

Right ‚R‘

3

M-030

Right Front Center ‚Rc‘

Front center ‚FC‘

CH_M_000

Center ‚C‘

4

M+060

Left Front ‚L‘

LFE-1 ‚LFE1‘

CH_M_LFE2

Low-Frequency Effects ‚LFE‘

5

M-060

Right Front ‚R‘

Back left ‚BL‘

CH_M_L135

Left Surround ‚Ls‘

6

M+090

Left Side Surround ‚Lss‘

Back right ‚BR‘

CH_M_R135

Right Surround ‚Rs‘

7

M-090

Right Side Surround Front left center ‚Rss‘ ‚FLc‘

CH_M_L030

Left Back ‚Lb‘

5.5 Verfahren der räumlichen Tonübertragung 

8

M+135

Rear Left Surround ‚Lsr‘

9

M-135

10

Front right center ‚FRc‘

 345

CH_M_R030

Right Back ‚Rb‘

Rear Right Surround Back center ‚Rsr‘ ‚Bc‘

CH_M_180

Top Front Left ‚Tfl‘

M+180

Rear Center ‚Cs‘

LFE-2 ‚LFE2‘

CH_M_LFE3

Top Front Right ‚Tfr‘

11

LFE1

Left Front LFE ‚LFE‘

Side left ‚SiL‘

CH_M_L090

Top Back Left ‚Tbl‘

12

LFE2

Right Front LFE ‚LFE2‘

Side right ‚SiR‘

CH_M_R090

Top Back Right ‚Tbr‘

13

U+000

Center Front Vertical Height ‚Cv‘

Top front left ‚TpFL‘

CH_U_L045

Top Side Left ‚Tsl‘

14

U+045

Left Front Vertical Height ‚Lv‘

Top front right ‚TpFR‘

CH_U_R045

Top Side Right ‚Tsr‘

15

U-045

Right Front Vertical Height ‚Rv‘

Top front center ‚TpFC‘

CH_U_000

Top Front Center ‚Tfc‘

16

U+090

Left Vertical Height Side Surround ‚Lvss‘

Top center ‚TpC‘

CH_T_000

Top Back Center ‚Tbc‘

17

U-090

Right Vertical Height Side Surround ‚Rvss‘

Top back left ‚TpBL‘

CH_U_L135

Top Center ‚Tc‘

18

T+000

Top Center Surround Top back right ‚Ts‘ ‚TpBR‘

CH_U_R135

Low-Frequency Effects 2 ‚LFE2‘

19

U+135

Left Surround Vertical Height Rear ‚Lvr‘

Top side left ‚TpSiL‘

CH_U_L090

Bottom Front Left ‚Bfl‘

20

U-135

Right Surround Vertical Height Rear ‚Rvr‘

Top side right ‚TpSiR‘

CH_U_R090

Bottom Front Right ‚Bfr‘

21

U+180

Centre Vertical Height Rear ‚Cvr‘

Top back center ‚TpBC‘

CH_U_180

Bottom Front Center ‚Bfc‘

22

L+000

Centre Front Vertical Bottom front Bottom center ‚Cb‘ ‚BtFC‘

CH_L_000

Back Center ‚Cb‘

23

L+030

Left Front Vertical Bottom ‚Lb‘

Bottom front left ‚BtFL‘

CH_L_L045

Left Wide ‚Lw‘

24

L-030

Right Front Vertical Bottom ‚Rb‘

Bottom front right ‚BtFR‘

CH_L_R045

Right Wide ‚Rw‘

346 

 5 Tonaufnahme und Tonwiedergabe

Tab. 5/17. Unterschiedliche Wiedergabesysteme mit assoziiertem Codec und Markennamen. Anzahl der Wiedergabekanäle

zugeordnetes Wiedergabeformat

Bezeichnung nach ITU-R BS.2051

Markennamen und Codecs

1

Mono

1.0

0+1+0

2

Stereo

2.0

0+2+0

mp3, (xHE-)AAC

6

3/2 (ITU-R BS.775)

5.1

0+5+0

Dolby Digital, Dolby Pro Logic II, MPEG Surround, HE-AAC

8

7.1 Surround

7.1

0+7+0

8

5/2 (7.1)

7.1

0+7+0

Dolby 7.1, Dolby Digital Plus, DTS-HD Sony SDDS

10

9.1

9.1

4+5+0

Auro 3D 9.1, DD+JOC (Atmos), Dolby AC-4, MPEG-H

12 12

11.1 11.1

11.1 11.1

5+5+1 4+7+0

Auro 3D 11.1 MPEG-H, Dolby Digital+JOC (Atmos), Dolby AC-4

14 14

13.1 13.1

13.1 13.1

6+6+0 5+5+3

Auro 3D 13.1 Sony 360 Reality Audio, MPEG-H

24

NHK 22.2

22.2

9+10+3

MPEG-H, Dolby AC-4

5.5.2 Objektbasierte Verfahren Objektbasiertes Audio ist eine Audiodarstellung, bei der die Elemente der auditiven Szene voneinander getrennt sind und durch beschreibende Metadaten begleitet werden. Ein Renderer am Empfangsgerät interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die Ausgangssignale, die für das zur Verfügung stehende Wiedergabesystem am besten geeignet sind. Metadaten können sich im Laufe der Zeit ändern, zum Beispiel um Bewegungen von Audioobjekten zu realisieren. Außerdem kann ein objektbasierter Ansatz es ermöglichen, den Benutzer mit den Audioinhalten interagieren. Im Folgenden sind Grundprinzipien der objektbasierten Audiowiedergabe erläutert. Weitere Ausführungen finden  sich in Kap. 13.2.5 und Kap. 18.6 wieder. 5.5.2.1 Grundprinzipien von objektbasierten Verfahren Objektbasiertes Audio führt neue Konzepte in die Audioproduktion ein, mit Konsequenzen für die gesamte Verarbeitungskette von der Produktion bis zur Wiedergabe, dementsprechend auch für Codierung und Übertragung der Audiosignale. Objektbasiertes Audio erweitert die bekannte kanalbasierte Wiedergabe (siehe Kap. 5.5.1). Werden bei kanalbasierten Systemen Audiosignale zu Lautsprechersignalen gemischt, übertragen und wiedergegeben,  so werden bei objektbasiertem Audio, Audioelemente als einzelne Objekte mit beschreibenden Metadaten erzeugt und an einen Renderer übergeben. Das Ergebnis einer objektbasierten Produktion ist, im Gegensatz zu einer traditionellen kanalbasierten Produktion, kein final abgemischtes Signal für ein bestimmtes Lautsprecherfor-

5.5 Verfahren der räumlichen Tonübertragung 

 347

mat, beispielsweise Stereo oder 5.1, sondern eine flexibel definierbare Anzahl von Signalen zusammen mit einer Beschreibung ihrer Eigenschaften mit Hilfe sog. Objektmetadaten (siehe Kap. 5.5.2.4). Der Renderer generiert auf Basis der beschreibenden Metadaten in Abhängigkeit des verfügbaren Wiedergabesystems etwa die Position der Objekte im Raum oder die Lautsprechersignale. So kann eine Produktion aus einer bestimmten Anzahl, z. B. 16 oder 24, von Objektsignalen bestehen, die einzelne Instrumente oder Singstimmen abbilden. Audioobjekte können  sowohl Mono-Punktschallquellen  sein, welche  mit Eigenschaften wie Position, Pegel, Ausdehnung und Wichtigkeit beschrieben werden, als auch  mehrkanalige Signale, die gemeinsam ein Objekt bilden, das wieder mit Eigenschaften wie Position, etc. beschrieben wird. Wichtig hierbei ist, dass Audioobjekte nur dann als Objekte bezeichnet werden können, wenn ihre beschreibenden Metadaten von Produktion bis Wiedergabe am Endgerät vorhanden bleiben. Die Positionierung eines Audiosignals in einem Raum, beispielsweise mit Hilfe eines 3D-Panners, kann nur dann objektbasiert sein, wenn die Positionsdaten bis zu dem Renderer verfügbar sind. Werden bereits in der Produktion Lautsprechersignale erzeugt, spricht man weiterhin von kanalbasierten Verfahren.  Ein weiteres Beispiel ist ein hybrider Ansatz aus einer kanalbasierte Basismischung, dem sog. „Bed“, z. B. im 5.1 oder 5.1+4H Format, in Kombination mit zusätzlichen Objektsignalen z. B. für Sprache. Hierbei werden die Objekte separat vom kanalbasierten Bed, jedoch im gleichen Übertragungsstrom zum Wiedergabesystem transportiert, was eine Nutzerinteraktion ermöglichen kann. Beispielsweise kann der Dialog am Empfangsgerät im Pegel oder Position verändert werden, ohne das kanalbasierte Bed zu beeinflussen, um dadurch die Sprachverständlichkeit zu beeinflussen (siehe Kap. 13.4.6.4 oder Kap. 18.8.7). Objektbasiertes Audio bietet also eine weitreichende Flexibilität in der Produktion, die dadurch nicht direkt auf ein bestimmtes Zielformat ausgerichtet ist. Ein Vorteil dieses Konzepts ist, dass das übertragene Signal auf der Decoder-Seite flexibler auf unterschiedliche Wiedergabesituationen angepasst werden kann als eine auf ein bestimmtes Lautsprecherformat festgelegte Produktion. Dies ist vor allem bei immersiven, 3D-Audio-Produktionen von Vorteil, insbesondere bei der Wiedergabe über Kopfhörer, Soundbars, oder Multi-Lautsprechersysteme (siehe Kap. 5.5.2.6). 5.5.2.2 Die Aufgaben des Renderers Ein wichtiges neues Element, das bei objektbasiertem Audio benötigt wird, ist der  sog. Audio-Renderer im Empfangsgerät, bzw. im Decoder (siehe Kap.  13.4.6.1 oder Kap.  18.8.7) und während der Produktion als Teil des Monitorings. Der Renderer interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die sog. gerenderten Signale, also die Signale für das zur Verfügung stehende Wiedergabesystem. Jedes Empfangsgerät verfügt über einen eigenen Renderer, der für dieses Gerät die bestmöglichen Wiedergabesignale erzeugt. Beispielsweise benötigt eine Heimkinoanlage einen flexiblen Renderer, da  mehrere Lautsprecher an verschiedenen Positionen im Raum aufgestellt  sein können, während bei einem Fernsehgerät die internen Lautsprecher an bekannten Positionen fixiert sind. Audio-Renderer beinhalten typischerweise unterschiedliche Module, die auf Basis der Eingangssignale und deren Metadaten aktiviert werden. Neben objektbasierten Audioin-

348 

 5 Tonaufnahme und Tonwiedergabe

halten können Audio-Renderer auch kanalbasierte Signale verarbeiten. Dabei wird mittels Metadaten definiert, welches Modul die Eingangssignale  mit welchen Eigenschaften auf ein zur Verfügung stehendes Wiedergabesystem rendert. So kann eine 3D-Audio Produktion an alle Arten von Empfangsgeräten gleichermaßen übertragen werden. Der Audio-Renderer übernimmt die Audiosignale vom Decoder und passt die Ausgangssignale auf Basis der Metadaten an das Zielformat an, unabhängig davon, ob beispielsweise bei einer kanalbasierten Produktion die Lautsprechersignale im Empfangsgerät direkt als Ausgangssignale verwendet werden können oder über einen Downmix in ein niedriges Kanalformat angepasst werden müssen. Je nach Audiosystem können die Metadaten auch Informationen über die Downmix-Parameter beinhalten, um  somit produktionsseitig das Rendering zu beeinflussen. Eine 3D-Audio Produktion kann somit an alle Empfangsgeräte gleichermaßen übertragen werden, und in diesem kann dann das Rendern in die Ausgangssignale mittels Metadaten gesteuert werden (siehe auch  Kap. 5.5.2.4). Ein weiteres Beispiel  sind dynamische  Pegelsequenzen, die produktionsseitig definierte Lautstärkeautomation beinhalten. Die Pegel der Audioelemente können im Audio-Renderer gesteuert werden, um unterschiedliche dynamische Mischungen von Kanälen und Objekten zu ermöglichen, die während der Wiedergabe je nach persönlicher Präferenz oder den Abhörbedingungen manuell oder automatisch gewählt werden können. So kann das sog. Ducking über Metadaten dazu verwendet werden, die Lautstärke eines Elements der Audioszene, z. B. das kanalbasierte Bed automatisch zu verringern, damit ein weiteres Element, z. B. der Dialog, besser zu hören ist. Im Renderer werden außerdem auf Basis der gemessenen Programmlautheit meist nach ITU-R BS.1770-4  die Wiedergabesignale in eine Ziellautheit normalisiert. In Abhängigkeit der Einstellungen am Empfangsgerät, z. B. − 31 LUFS für Heimkinoanlagen, − 24 LUFS für Fernsehgeräte, − 16 LUFS für mobile Geräte oder unterschiedliche Profile wie „Late Night“ oder „Noisy Environment“ kann somit der Dynamikumfang eingeschränkt und individuell angepasst werden. Für das Rendern von Objektsignalen können unterschiedliche Prinzipien zur Generierung der Ausgangssignale eingesetzt werden. Gängige Verfahren, die auch in der Praxis eingesetzt werden, sind beispielsweise Vector Base Amplitude Panning (VBAP) [Pulkki, 1997], PositionBased Panning, z. B. Triple-Balanced Panning [Tsingos, 2018] oder Polygon-Based Panning, z. B. Edge Fading Amplitude Panning (EFAP) [Borss, 2014]. Ein Ziel haben alle Objektrenderer gemeinsam: die Generierung der Ausgangssignale auf Basis des zur Verfügung  stehenden Wiedergabesystems in Abhängigkeit der Metadaten. Objektmetadaten können hier, neben Positionsdaten in einem kartesischen Koordinatensystem mit x-, y- und z-Achse oder einem Polarkoordinatensystem mit Azimut, Elevation und Distanz, auch Informationen über Pegel, Wichtigkeit und Dynamic Range Control beinhalten (siehe Kap. 13.2.4). Für die Kopfhörerwiedergabe oder auch bei der Wiedergabe über Soundbars oder smart speaker kann als Nachverarbeitung noch ein Binaural-Renderer (siehe Kap.5.5.5) oder ein Virtualisierer folgen (siehe Kap. 5.5.2.6). Alternativ kann auch ein für den Anwendungsfall optimierter Renderer eingesetzt werden, der die Objektsignale direkt für Kopfhörer bzw. für eine Soundbar aufbereitet. Während der Produktion spielt der Audio-Renderer im Monitoring eine wichtige Rolle, um das Ausgangssignal abhören zu können und die verschiedenen Wiedergabesituationen, wie sie in den Endgeräten auftreten können, zu kontrollieren. 

5.5 Verfahren der räumlichen Tonübertragung 

 349

5.5.2.3 Personalisierung und Interaktion Ein weiterer wesentlicher Vorteil von objektbasiertem Audio ist die Möglichkeit zur Interaktion im Endgerät. Dadurch kann die Wiedergabe personalisiert werden, beispielsweise kann der Dialog für eine bessere Sprachverständlichkeit herausgehoben werden. Anweisungen an das Endgerät in Form der Objekt-Metadaten sorgen dafür, dass die Art und der Umfang der Personalisierung nicht unkontrolliert sind, sondern nur in einem während der Produktion vorgegebenem Rahmen vorgenommen werden kann. Während des Monitorings ist es wichtig, dass das Verhalten des Endgeräts  simuliert werden kann. Dabei können die Auswirkungen der Nutzerinteraktivität kontrolliert werden und alle  möglichen Varianten abgehört werden. Falls dabei ein unerwünschtes Verhalten hörbar wird, beispielsweise ein zu starker Eingriff in das Mischungsverhältnis von Dialog mit dem restlichen Signal, können die Metadaten entsprechend geändert und die Änderungen sofort wieder überprüft werden. Digitale Audioworkstation Metadatenerstellung / Rendering Aufnahme

Schnitt

Klangbearbeitung

3D Panning Kanal-Bed Objekte

Erstellung weiterer Metadaten

Monitoring Renderer

Export des Masters

Master Wellenform + Metadaten

Lautsprecher Kopfhörer

Abb. 5/73. Signalfluss für Objektsignale in der Produktion, von den Quellensignalen, über Panner, Renderer, Erstellung von Metadaten, über das Monitoring bis zum Ausgabeformat, dem Masterformat.

5.5.2.4 Metadaten Ein wesentliches Element bei objektbasiertem Audio  sind beschreibende Metadaten, welche während aller Verarbeitungsschritte eng  mit den einzelnen Audiosignalen verknüpft sein müssen. Metadaten können sowohl statisch sein, z. B. semantische Informationen wie „Dialog“, als auch dynamisch, wie z. B. eine sich zeitlich verändernde Positionsbeschreibung für eine räumlich angepasste Wiedergabe. Im Wiedergabegerät dienen diese Metadaten einerseits als Anweisungen für den Audio-Renderer (siehe Kap 5.5.2.2), andererseits beschreiben sie die Interaktionen, die im Wiedergabegerät zur Personalisierung möglich und zulässig sind. Alle Metadaten entstehen während der Produktion (siehe Abb.  5/73), z. B. die Positionsdaten im 3D-Panner bei der räumlichen Anordnung der Objektsignale, und werden im Renderer angewandt, damit die Gesamtmischung sofort auf dem Ausgabesystem abgehört werden kann (Monitoring). Am Ende des Produktionsprozesses werden die Metadaten zusammen  mit den Audiodaten der Objektsignale in einem Masterformat gespeichert. Ein Beispiel, das in Masterformaten zur Metadatenbeschreibung verwendet wird, ist das „Audio Definition Model“ (ADM), das unten noch genauer beschrieben wird.

350 

 5 Tonaufnahme und Tonwiedergabe

Ausgehend vom Masterformat müssen die Metadaten während der Codierung und Übertragung erhalten bleiben (siehe auch Kap. 13.2.5 und Kap. 18.8.7) und stets mit dem dazugehörigen Audiosignal verknüpft bleiben. Audiocodecs für objektbasiertes Audio benötigen also zwingend ein Metadatenmodell (siehe Kap. 13.2.5), das die Metadaten aus der Produktion abbildet und so als Teil des codierten Bitstroms bis zum Wiedergabegerät und AudioRenderer transportiert. Die Metadaten für objektbasiertes Audio können in folgende Hauptkategorien eingeteilt werden: Quellenbeschreibende Metadaten: –– Positionsdaten, entweder auf den Zuhörer bezogen (egozentrisch) in Polarkoordinaten (Azimut, Elevation, Distanz) oder auf den Wiedergaberaum bezogen (allozentrisch) in kartesischen Koordinaten (x-, y-, z-Achse), –– Lautstärke, –– weitere Eigenschaften, wie eine virtuelle Ausdehnung einer Quelle, im Gegensatz zu Punktquellen. Inhaltliche und strukturelle Metadaten: –– Art des Objekts, z. B. Dialog, –– Gruppenzuordnungen: Kombination  mehrerer Objekte/Signale, die als eine Einheit behandelt werden sollen, –– Zusammenstellungen aller Objekte bzw. Signale sowie Mischungsverhältnisse zu einer Auswahlkombination für eine Wiedergabesituation, je nach Metadatenmodell werden dafür unterschiedliche Begriffe verwendet, in ADM „audioProgramme“ (siehe unten), in MPEG-H 3D Audio „Preset“ (siehe Kap.  13.4.6), oder in AC-4 „Presentation“ (siehe Kap. 13.4.7.4). –– Textuelle Beschreibungen aller Objekte, Gruppen bzw. Vorauswahlvarianten, die während der Wiedergabe zur Personalisierung angezeigt werden können. Metadaten zur Steuerung der Wiedergabe: –– Erlaubnis, bzw. Verhinderung nutzerseitiger Eingriffe, z. B. die Lautstärke oder Position einzelner Objekte innerhalb vorgegebener Grenzen während der Wiedergabe zu verändern, –– Zuordnung von Objekten zu einer Auswahlgruppe, aus der während der Wiedergabe genau ein Objekt gewählt werden kann. Objekte, die durch diese Metadaten beschrieben werden, können neben Mono-Punktquellen auch mehrkanalige Untermischungen sein, die im Raum frei platziert bzw. bewegt werden können, bis hin zu kanalbasierten Basismischungen, die an einer festen Raumposition verankert sind. Alle quellenbeschreibenden Metadaten können  sowohl  statisch, zeitlich unverändert, als auch dynamisch, also zeitlich veränderbar sein. Die Metadaten der anderen oben genannten Kategorien sind typischerweise für eine komplette Produktion, bzw. einen Produktionsabschnitt unverändert, also statisch. Beispiele zeigt Tab. 5/18.

5.5 Verfahren der räumlichen Tonübertragung 

 351

Tab. 5/18. Beispiele für Metadaten basierend auf der ADM-Syntax nach ITU-R BS. 2076. Beispiele für Quellen beschreibende ADM-Metadaten position width, height, depth, diffuse channelLock zoneExclusion screenRef importance integratedLoudness mute

statische Lautsprecherposition für kanalbasierte Audiosignale dynamische Positionsdaten für objektbasierte Audiosignale Ausdehnung und Korrelationseigenschaften eines Objekts Bevorzugung der Wiedergabe eines Objekts über einen Einzellautsprecher gegenüber dessen Wiedergabe über mehrere Lautsprecher Definition von Raumbereichen für die Wiedergabe eines Objekts Objekt mit Bezug zum Bildschirminhalt Wichtigkeit eines Objekts für die Audioszene Lautheit eines Objekts Aktivität eines Objekts

Beispiele für strukturelle und inhaltliche ADM-Metadaten dialogue audioProgramme audioContent audioObject

Beschreibung der Art eines Objekts Zusammenstellung vorhandener Objektgruppen zu einer Auswahlkombination Definition von Objektgruppen, die typischerweise in Kombination mit anderen Objektgruppen innerhalb einer Audioszene wiedergegeben werden. Definition von Objekten durch Verknüpfung von Audiosignalen mit Metadaten

Beispiele für ADM-Metadaten zur Wiedergabesteuerung gain, positionOffset gainInteractionRange positionInteractionRange

Veränderung von Lautstärke und Position eines Objekts Definition von Grenzen für die zulässige Lautstärkeänderung eines Objekts Definition von Grenzen für die zulässige Positionsänderung eines Objekts

Eine  standardübergreifende Beschreibung von Metadaten für objektbasiertes Audio liefert das sog. Audio Definition Model (ADM), das von der ITU-R in der Empfehlung BS.2076 spezifiziert wurde. Tab 5/18 zeigt einige Beispiele von ADM Metadaten, welche auch auf objektbasierte Audiocodecs abgebildet werden können (siehe Kap. 13.4.6 und Kap. 13.4.7.4). 5.5.2.5 Universelle Übertragung Die traditionelle Übertragung von Stereosignalen verwendet eine gut definierte Infrastruktur von Produktion bis hin zur Wiedergabe meist über Fernsehgeräte, Lautsprecher oder Kopfhörer. Neuartige Übertragungswege, sowie neue Klassen von Wiedergabegeräten in Kombination  mit kanal- und objektbasiertem 3D-Audio lassen jedoch zukünftig eine Vielzahl an Interpretationen während der Produktion zu. Beispielswiese betrifft die folgenden Aspekte: –– Wie ist das Produktionslayout der 3D-Audio Produktion? –– Wie wird das Produktionslayout im Endgerät wiedergegeben? –– Unter welchen Abhörbedingungen bzw. an welchem Ort werden die Inhalte wiedergegeben? –– Welches Gerät wird zur Wiedergabe verwendet, z. B. Fernsehgerät, Smartphone, Tablet, Soundbar oder Car-Audio?

352 

 5 Tonaufnahme und Tonwiedergabe

–– Welche Interaktionsmöglichkeiten während der Wiedergabe  sind  mittels Audioobjekten möglich? –– Werden die Signale über Rundfunk oder Streaming empfangen? Neue Klassen von Wiedergabegeräten und Übertragungsplattformen bzw. -infrastrukturen haben an Bedeutung gewonnen und entwickeln  sich  ständig weiter. Aus Konsumentensicht sollten die Eigenschaften der Audioinhalte den individuellen Hörbedingungen und Vorlieben entsprechen, unabhängig von Produktionsverfahren und Übertragungskanal.  Eine Entkopplung des Produktions- und Monitoringformats vom Wiedergabeformat in den Endgeräten ermöglicht eine flexible Anpassung der Audioinhalte und hilft somit mit dieser großen Variabilität der Hörumgebungen und Wiedergabesituationen umzugehen. Statt einer Vielzahl von dedizierten Mischungen und Ausgangsformaten wie Stereo, 5.1 oder immersiv wird nur ein einziges, universelles Masterformat erzeugt, aus dem dann vom Audiocodec ein einziger Bitstrom erzeugt wird (siehe Kap. 13.4.6 und Kap. 13.4.7.4), der an alle unterschiedlichen Endgeräte übertragen werden kann. Die Kombination aus dem Renderer (siehe Kap. 5.5.2.2) und Metadaten (siehe Kap. 5.5.2.4) nimmt hier eine zentrale Rolle, sowohl in Produktion als auch Wiedergabe, ein. Bereits während der Produktion ist es entscheidend, die unterschiedlichen Renderingsignale der möglichen Wiedergabesysteme, z. B. 3D-AudioFormate, 5.1 oder Stereo abhören zu können. Von Bedeutung ist daher die Erstellung der Metadaten am Ort der Produktion, um das Rendererverhalten im Endgerät zu  simulieren. Produktionswerkzeuge für die Erstellung der Metadaten, sowohl in Live- als auch in der Postproduktion, beinhalten deshalb einen universellen Renderer, der dem eines Endgeräts entspricht. Der Renderer im Endgerät erzeugt auf Basis der Eingangssignale und Metadaten die Ausgangssignale, zur optimalen Wiedergabe in Abhängigkeit des verfügbaren Wiedergabesystems und äußeren Einflüssen, wie Umgebungsgeräusche oder Nutzerpräferenzen (siehe auch Kap. 5.5.2.2). 5.5.2.6 Flexible Wiedergabemöglichkeiten 3D-Audiosysteme ermöglichen  mit immersiven und ggf. auch interaktiven Audioinhalten einen deutlichen Mehrwert für allen Arten von Audioinhalten. Neben den konventionellen Ansätzen zur Wiedergabe, welche die Installation einer hohen Anzahl von Lautsprechern und technisches Wissen für den Aufbau erfordert, werden vermehrt auch Soundbars oder Smartspeaker zur Wiedergabe verwendet. Diese Geräte sind einfach zu installieren und integrieren alle Komponenten, die für die Audiowiedergabe nötig  sind, z. B. Schnittstellen zu externen Wiedergabegeräten über HDMI oder Streaming, Sprachsteuerung, Decoder, Verstärker und Lautsprecher. Viele Soundbars sind mit einem externen Subwoofer ausgestattet, einige Modelle bieten zudem zusätzliche, drahtlos angebundene Satelliten-Lautsprecher. Die  speziellen Geräteklassen der 3D-Soundbars und 3D-Smartspeaker  haben zumeist eine höhere Anzahl an Lautsprechertreibern als herkömmliche Stereo- und Surroundgeräte  sowie eine erweiterte Signalverarbeitung. Ihr Ziel ist es, das Klangbild eines 3D-Lautsprecher-Setups virtuell nachzubilden. Um dies zu erreichen, können akustische und psychoakustische Methoden Anwendung finden.

5.5 Verfahren der räumlichen Tonübertragung 

 353

Systeme, die auf akustischen Prinzipien basieren, nutzen üblicherweise die akustischen Eigenschaften des Raums, in welchem das Wiedergabegerät platziert wird. Die akustische Energie der verschiedenen Signale wird entweder direkt über eine Vielzahl an Lautsprechern, die in verschiedene Richtungen weisend im Gehäuse angeordnet sind, oder durch Nutzung von Array-Processing in die gewünschten Richtungen verteilt. Eine gängige Methode hierfür ist z. B. Beamforming. Durch Nutzung der schallreflektierenden Eigenschaften der Decke und der Wände des Wiedergaberaums ist es möglich, den Klang auch aus anderen Richtungen als nur vom Wiedergabegerät kommend an den Hörort zu bringen. Um die individuellen Raumeigenschaften optimal zu nutzen, verwenden einige Hersteller automatisierte Einmessroutinen.  Systeme, die auf psychoakustischen Prinzipien basieren, zielen darauf ab, an den Ohren des Hörers Signale zu erzeugen, welche den Ohreingangssignalen entsprechen, die von einem Lautsprecher oder einem Audioobjekt an der  simulierten Position erzeugt würden. Eine gängige Methode hierfür ist z. B. Binauralwiedergabe mittels Crosstalkcancelation. Die Feinabstimmung einer  spezifischen Methode oder die Kombination verschiedener Methoden  sowie die charakteristische Ausgestaltung aller Einflussfaktoren bieten Herstellern einen großen Spielraum. [Olivera, 2019]

5.5.3 Schallfeldsynthese Die in Kap.  5.4 beschriebenen  mehrkanaligen  stereofonen Verfahren haben verschiedene Nachteile, wie beispielsweise die instabile Lokalisierung der Phantomschallquellen, insbesondere in  seitlichen und vertikalen Richtungen und ihre Abhängigkeit vom Standort des Hörers, oder die Größe der Hörzone, abhängig von der Aufnahmetechnik, und auch die Unmöglichkeit, den Abbildungsbereich zwischen Lautsprechern und Hörer zu nutzen. Ebenso existieren für die Binauraltechnik (Kap.  5.5.5) grundlegende Nachteile, vor allem ausschließliche Verwendung von Kopfhörern. Diese Nachteile kann die Schallfeldsynthese großenteils vermeiden. Die physikalische Synthese eines Schallfelds kann prinzipiell und mit praxisbedingten Einschränkungen mit einem Ensemble von Lautsprechern ein akustisch korrektes Schallfeld und entsprechende virtuelle Schallquellen und Räume erzeugen. Anstelle von Phantomschallquellen bilden virtuelle Schallquellen die Grundlage der räumlichen Darstellung (siehe Kap. 5.1.2., Abb. 5/1), und anstelle der Binauraltechnik mit Kopfhörer­wiedergabe entstehen die für das Hörereignis erzeugenden Ohrsignale auf natürlichem Wege im realen Schallfeld. Die eingesetzten Verfahren sind Wellenfeldsynthese (WFS) [de Vries, 2000], [Horbach, 2000], [Pellegrini, 2002]  sowie Higher-order Ambisonics (HOA) [Berkhout, 1993], [Olivera, 2019]. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch bzw. weitgehend identisch ist.

354 

 5 Tonaufnahme und Tonwiedergabe

5.5.3.1  Wellenfeldsynthese Prinzip der Aufnahme und Wiedergabe Die Wellenfeldsynthese oder abgekürzt WFS ist ein Verfahren, mit dem ein Schallfeld eines Raums in einem anderen Raum realistisch und weitgehend identisch nachgebildet werden kann. Wegen der Ähnlichkeit mit der optischen Holografie spricht man bei der WFS auch von Holofonie. Während bei Zwei- oder Mehrkanal-Stereofonie die Schallquellen als Phantomschallquellen auf den Linien zwischen den Lautsprechern erscheinen, wird mit der WFS ein akustischer Raum mit virtuellen Schallquellen erzeugt; diese haben prinzipiell die gleichen akustischen Eigenschaften wie reale Schallquellen. Virtuelle Schallquellen werden überall in der Hörzone ortsstabil und realistisch abgebildet und lokalisiert, auch außerhalb der Lautsprecheranordnung. Die virtuellen Schallquellen können bei entsprechenden Anlagen selbst durch den Raum wandern, sie können aber auch bedingt umwandert werden. Was das binaurale Verfahren mit Kunstkopfaufnahme und Kopfhörerwiedergabe leistet, nämlich die realistische Simulation von Hörereignissen, leistet die WFS für Lautsprecherwiedergabe. Das Verfahren wurde ab 1988 an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Weitere Forschungen und Entwicklungen erfuhr die WFS mit dem 2001 bis 2003 von der EU geförderten Projekt CARROUSO, an dem  mehrere Universitäten, Institute und Firmen beteiligt waren. In den vergangenen Jahren wurden im öffentlichen Bereich verschiedene WFS-Systeme installiert, z. B. für die Bregenzer Festspiele und die Seefestspiele Mörbisch sowie an verschiedenen Universitäten; die TU Berlin verfügt in einem Saal mit 650 Plätzen über eine Anlage mit 2.700 Lautsprechern. Die Wellenfeldsynthese ist eine Simulation auf einer horizontalen Fläche im Raum. Eine große Zahl von Lautsprechern ist auf Kopfhöhe angeordnet, optimal als Lautsprecherkreis. Der Bereich, in dem die Hörbedingungen optimal sind, die Hörfläche, ist begrenzt durch die endliche Zahl an Lautsprechern,  sie ist aber  sehr groß verglichen  mit herkömmlicher Stereofonie, bei der optimale Hörbedingungen nur an einem einzigen Ort, dem Sweet Spot, bestehen. Die vertikale Dimension wird bei der WFS derzeit aus praktischen Gründen und wegen des hohen Aufwands nicht realisiert, auch weil die Richtungswahrnehmung in der Vertikalen deutlich geringer ausgebildet ist als in der Horizontalen. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt; so wurde schon 1965 im physikalischen Institut der Universität Göttingen ein System mit 65 Lautsprechern in einer Halbkugelanordnung realisiert. Das physikalische Prinzip der WFS ist das sog. Huygens-Prinzip, das der niederländische Universalgelehrte Christian Huygens im 17. Jahrhundert für die Ausbreitung des Lichts entdeckt hatte. Danach kann jede von einer Quelle beliebiger Form und Ausdehnung erzeugte Wellenfront – und damit auch sich ausbreitender Schall – als Summe von unendlich vielen Einzel- oder Elementarwellen betrachtet werden, die sich, jede für sich, kugelförmig ausbreiten. Durch Überlagerung aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Wellenfront identisch ist. Sind Schalldruck und Schallschnelle aller Punkte der Umgrenzung einer geschlossenen Fläche bekannt – oder eines Volumens im dreidimensionalen Modell, kann der Schalldruck jedes Punkts in dieser Fläche bzw. in diesem Volumen berechnet werden. Jedes Schall­feld kann demnach theoretisch durch unendlich viele Laut-

5.5 Verfahren der räumlichen Tonübertragung 

 355

sprecher nachgebildet werden. In der Nachbildung ergibt sich die ursprüngliche Schallquelle als sog. virtuelle Schallquelle. Der sog. akustische Vorhang zeigt nochmals anschaulich das Prinzip der WFS: Wenn in die Wand zwischen einem Aufnahmeraum und einem Wiedergaberaum dicht nebeneinander Löcher gebohrt würden,  so könnte  man die Schallereignisse durch diese Wand perfekt hören. Man kann nun jedes dieser Löcher durch ein Mikrofon und einem Lautsprecher mit gleichen Richtcharakteristiken ersetzen, das ergibt den sog. akustischen Vorhang (Abb. 5/74).

Abb. 5/74. Prinzip des akustischen Vorhangs.

Anders als beim Prinzip des akustischen Vorhangs werden bei der Wellenfeldsynthese aber nicht die einzelnen Signale des Mikrofonarrays übertragen,  sondern getrennt die trocken, also ohne Raumanteile, aufgenommenen Signale der Schallquelle und die des Raumanteils. Vor oder nach der Aufnahme wird zur Ermittlung der akustischen Eigenschaften des Aufnahmeraums eine  sog. Raumimpulsantwort aufgenommen, gemessen und abgespeichert (Abb.  5/75, oben). Regt  man einen Raum  mit einem Knall, einem  sog. Dirac-Impuls, zum Schwingen an, so gibt der Raum darauf eine Impulsantwort, er hallt nach. Diese Impulsantwort stellt quasi einen Fingerabdruck des Raums dar. aus dem alle wichtigen akustischen Kriterien des Raums wie Nachhallzeit, Klarheitsmaß usw. abgeleitet werden können. Der Raum wird also bei der WFS getrennt von der Gestalt der Schallquelle übertragen, man spricht von objektorientierter Übertragung. Die Aufnahme des Direktschalls erfolgt nahe an der Schallquelle. Durch die Trennung von Gestalt und Raum oder Direkt- und Diffusschall kann der Aufnahme auch die Akustik eines anderen Aufnahmeraums zugeordnet werden, die Schallquellen sozusagen in einen akustisch besser geeigneten Raum versetzt werden. Wiedergabeseitig werden Klanggestalt und Raum im Wave Field-Synthesizer durch einen  mathematischen Prozess wieder zusammengefügt (convolution). Das „trockene“ Quellsignal wird dabei mit der vorliegenden Impulsantwort des Raums verrechnet, man sagt

356 

 5 Tonaufnahme und Tonwiedergabe

gefaltet (FIR-Filterung) und den Lautsprecherkanälen zugeführt (Abb.  5/75, unten). Die Schallquelle erhält also ihre ursprünglichen räumlichen Eigenschaften im Prinzip vollständig zurück.

Abb. 5/75. Prinzip der Wellenfeldsynthese.

Die Raumimpulsantworten können auch nach Maßgabe eines raumakustischen Modells dynamisch berechnet und ebenso wie gemessene Raumdaten abgespeichert werden. Im Gegensatz zum datenbasierten Verfahren, welches die Reproduktion der originalen Raumakustik erlaubt, erzeugen die modellbasierten Verfahren mit berechneten Raumimpulsantworten synthetische Räume. Im wiedergabeseitigen WFS-Prozessor können Impulsantwor-

5.5 Verfahren der räumlichen Tonübertragung 

 357

ten beliebiger Räume als Datensätze gespeichert vorliegen und wahlweise eingesetzt werden. [Berkhout, 1993], [Boone, 1995], [Horbach, 2000], [de Vries, 2000], [Pellegrini, 2002], [Theile, 2002], [Wittek, 2004]. Fähigkeiten der Wellenfeldsynthese Die Wellenfeldsynthese ist ein leistungsfähiges System für eine räumliche, perspektivisch überzeugende Gestaltung der akustischen Szene. Die typischen Schwächen der konventionellen Lautsprecher-Stereofonie gibt es grundsätzlich nicht, ihre besonderen Merkmale sind:

Abb. 5/76. Die WFS ermöglicht die Wiedergabe sowohl von ortsfesten Punktquellen (PQ 1, PQ 2) als auch von stabilen Einfallsrichtungen ebener Wellen im gesamten Bereich der Hörfläche.

–– Virtuelle Punktschallquellen können an jedem Ort im Wiedergaberaum an der gleichen Stelle der Szene wie im Aufnahmeraum lokalisiert werden, auch im Bereich zwischen dem Hörer und den Lautsprechern,  solange  sich der Hörer innerhalb der Hörfläche bewegt. In Abb. 5/76 sind die Hörereignisrichtungen an unterschiedlichen Orten für zwei Punktquellen PQ 1 und PQ 2 angedeutet. –– Es können ebene Schallwellen entsprechend einer unendlich großen Entfernung der virtuellen Quellen erzeugt werden. Die Hörereignisrichtung ist an jedem Ort der Hörfläche dabei dieselbe,  sie wandert  mit dem Hörer wie die Sonne (Abb.  5/76). Dabei wird die Richtung ebenso präzis wahrgenommen wie bei Punktschallquellen.

358 

 5 Tonaufnahme und Tonwiedergabe

–– Es entsteht eine realistische Perspektive durch ortsfeste Punktschallquellen und Präsenz in der virtuellen akustischen Szene. –– Der Hörer wird umhüllt durch einen realistisch empfundenen Raumeindruck mit einer ausgewogenen Hallbalance in weiten Bereichen der Hörzone mit Hilfe der Synthese von ebenen Wellen für die Wiedergabe des Nachhalls bzw. der Atmo. Insgesamt ist die Synthese komplexer akustischer räumlicher Szenen möglich, die der Hörer besonders realistisch erleben kann, wenn er in der Hörzone umherwandert. Abb. 5/76 deutet an, in welcher Weise sich der Höreindruck bei Wechsel des Hörorts verändert. Darüber hinaus hat sich gezeigt, dass im Vergleich zur Stereofonie die Wellenfeldsynthese eine gesteigerte räumliche Transparenz gewährleisten kann. Einschränkungen in der Praxis Die theoretischen Möglichkeiten der Wellenfeldsynthese sind in der Praxis nicht ohne Einschränkungen realisierbar. Aufnahme- und wiedergabeseitig gibt es praktische Zwänge und technische Unzulänglichkeiten, die das Ergebnis in vielen Situationen negativ beeinflussen. Die folgende Aufzählung lässt erkennen, dass das System in der Theorie zwar hervorragende Eigenschaften zeigt, eine praktische Umsetzung mit ihren Einschränkungen aber noch viele Forschungsaufgaben bereithält: –– Spatial Aliasing: Der unvermeidbare Abstand der Array-Lautsprecher voneinander verursacht oberhalb einer Grenzfrequenz räumliche und  spektrale Fehler. Oberhalb dieser Spatial Aliasing-Frequenz kann das Schallfeld physikalisch bedingt nicht  mehr korrekt  synthetisiert werden. Beträgt der  minimale gegenseitige Abstand für größere Lautsprecher z. B. 20 cm, so ist die Grenzfrequenz 1 kHz. Nur das Spektrum unterhalb dieser Frequenz kann vom Gehör für die Lokalisierung der virtuellen Schallquellen ausgewertet werden. –– Spatial Truncation: Die Theorie geht von einem unendlich langen Lautsprecher-Array aus. Bei begrenzten Array-Abmessungen entstehen von den Rändern her Beugungswellen, die sich als Nach- und Vorechos bei fokussierten Schallquellen bemerkbar machen und Klangverfärbungen verursachen können. Es gibt jedoch Methoden zur Reduzierung dieser Effekte, z. B. die Anwendung von tapering windows, welche die Amplituden der äußeren Lautsprechersignale reduzieren. Dies verkleinert allerdings auch die Hörfläche. –– Spatial Interference: Ein WFS-Array kann das angestrebte Schallfeld nicht optimal synthetisieren, wenn  störende Reflexionen des Wiedergaberaums hinzukommen. Dies wirkt  sich besonders aus auf die Wahrnehmung von Entfernungen, der räumlichen Tiefe sowie des Raumeindrucks. Das Gehör ist äußerst empfindlich und erkennt die reale Situation von Lautsprecher und Wiedergaberaum bevorzugt, auch auf Grund visueller Informationen. Das „Eigenleben“ des Wiedergaberaums muss stark unterdrückt werden, damit die virtuellen Schallquellen und der virtuelle Raum nicht verdeckt werden. –– Beschränkung auf die horizontale Ebene: Die durch die praktische Realisierbarkeit bedingte Beschränkung auf die horizontale Ebene hat verschiedene Nachteile. Zunächst ist klar, dass in einer horizontalen Anordnung der Arrays nur virtuelle Quellen in der Horizontalebene  synthetisiert werden können. Auch die Reproduktion des indirekten Schalls ist auf die horizontale Ebene beschränkt, obwohl zur Messung der Raumimpul-

5.5 Verfahren der räumlichen Tonübertragung 

 359

santwort bei den üblichen Methoden nahezu alle Reflexionen im oberen und unteren Halbraum erfasst werden. Das nur zweidimensionale Reflexionsmuster ist entsprechend ungenau und kann die Wahrnehmung von Raumeindruck und Umhüllung negativ beeinflussen. Hinzu kommt, dass eine Kugelwelle oder ebene Welle nur dreidimensional generiert werden kann. Eine mit einem Linienarray erzeugte ebene Welle beispielsweise hat dann die Form eines Zylinders, der das Array umgibt. Deshalb nimmt im Gegensatz zu einer idealen ebenen Welle ohne Pegelabnahme der Pegel mit der Entfernung um 3 dB bei Verdopplung der Entfernung ab. –– Erforderliche Übertragungskapazität: Bei der Wellenfeldsynthese  steigt die Zahl der erforderlichen Übertragungskanäle etwa proportional  mit der Anzahl der zu übertragenden Schallquellen. Für den erfolgreichen Einsatz der WFS müssen in der Mehrzahl der Anwendungen deshalb Methoden entwickelt werden, die die Zahl der erforderlichen Kanäle für die Übertragung und Speicherung begrenzen, ohne dabei gleichzeitig die Qualität zu beeinträchtigen. –– Übertragung ausgedehnter Schallquellen: Am Beispiel der Übertragung eines Chors wird deutlich, dass das Konzept der getrennten Übertragung von Klanggestalt und Raum nicht immer praktikabel ist. Die Qualität der Aufnahme würde im Vergleich zu einer stereofonen Aufnahme nicht wachsen, wenn die Zahl der Stützmikrofone, d. h., die Zahl der zu übertragenden „trockenen“  monofonen Quellsignale der Chormitglieder oder Chorgruppen, beliebig gesteigert werden könnte. Sie wäre wahrscheinlich selbst dann nicht optimal, wenn jedes Chormitglied ein eigenes Stützmikrofon bekäme, wovon die Theorie ausgeht. Hinzu kommt, dass für jedes der Stützmikrofone die Raumimpulsantworten gemessen und diese Datensätze übertragen werden  müssten. Auf der Wiedergabeseite  müssen entsprechend viele der rechenintensiven Operationen durchgeführt werden. Ebenso anspruchsvoll ist beispielsweise die Übertragung eines Klaviers im Konzertsaal. Ein Klavierklang setzt sich aus vielen räumlich verteilten Klangelementen zusammen, es ist keine punktförmige Schallquelle. Die reine Lehre der Wellenfeldsynthese wird dieser Aufgabe nicht gerecht. –– Übertragung der Atmo: Auch Atmo, Umgebungsgeräusche aller Art, setzen sich aus vielen räumlich verteilten Quellen zusammen, beispielsweise Applaus im Konzertsaal. Hunderte von Einzelschallquellen, die im ganzen Raum fern und nah verteilt sind, formen das Hörerlebnis Applaus oder Atmosphäre. Mit dem Konzept der binauralen Reproduktion der Ohrsignale (Kunstkopftechnik, siehe Kap. 5.5.5) ist im Prinzip eine realitätsgetreue Übertragung erreichbar. Mit Einschränkungen gilt das ebenso für Verfahren der Mehrkanal-Stereofonie. Das Konzept der Aufnahme trockener Einzelschallquellen bei der WFS kann dies aber nicht leisten. Virtual Panning Spot Die genannten praktischen Einschränkungen der Wellenfeldsynthese lassen  sich zum Teil mit technischen Maßnahmen mildern, das trifft besonders für die o. g. Punkte 1 bis 4 zu. Die Punkte 5 bis 7 dagegen zeigen, dass die getrennte Übertragung von Einzelquellen und Rauminformationen offenbar in vielen Fällen wenig  sinnvoll ist. Die Lautsprecher-­ Stereofonie besitzt aber erstaunlicherweise gerade dort Stärken, wo das WFS-Übertragungsverfahren die o. g. prinzipiellen Schwächen aufweist.

360 

 5 Tonaufnahme und Tonwiedergabe

Um die Vorteile der herkömmlichen Zwei- oder Mehrkanal-Stereofonie nutzen und mit der WFS kombinieren zu können, werden sog. Virtual Panning Spots (VPS) eingeführt. Das Prinzip ist in Abb. 5/77 dargestellt. Obgleich neben dem Solisten ein Chor mit vielen Einzelschallquellen aufgenommen werden soll, werden insgesamt nur vier virtuelle Schallquellen vorgesehen. Eine davon repräsentiert den Solisten nach dem Prinzip der WFS, also  separate Übertragung der Nahfeld-Aufnahme und der dazugehörigen Raumimpulsantwort. Für die Aufnahme des Chors ist dagegen eine konventionelle stereofone Technik vorgeschaltet (L-C-R). Die Mischung sollte so beschaffen sein, dass sie einerseits wenig Rauminformation enthält, andererseits aber die flächige Verteilung der Chormitglieder in dem genannten Beispiel adäquat wiedergibt. Das dreikanalige stereofone Signal des Chors wird in der folgenden WFS-Übertragungskette wie drei diskrete Einzelquellensignale behandelt, also ebenfalls zusammen  mit den zugehörigen Raumimpulsantworten übertragen. Die drei WFS-Signale repräsentieren somit virtuelle Lautsprecher, welche das stereofone Klangbild des Chors im Aufnahmeraum wiedergeben.

Abb. 5/77. Virtuelle Panning Spots (VPS) zur Nutzung stereofoner Verfahren.

Da die Virtual Panning-Spots virtuelle Quellen darstellen, müssen wiedergabeseitig natürlich auch die passenden Raumimpulsantworten zur Verfügung  stehen. Diese können im Ursprungsraum gemessen oder synthetisiert werden. In der Praxis müssen Messungen einzelner Raumimpulsantworten bestimmter Räume nicht für jede Aufnahme neu gemessen

5.5 Verfahren der räumlichen Tonübertragung 

 361

werden, sondern stehen in einer Datenbank zur Verfügung. Das Beispiel in Abb. 5/77 stellt den Chor  mit drei VPS dar, die per Wellenfeldsynthese wiedergeben werden und dadurch hinsichtlich Lokalisierung, Ausdehnung und Entfernung relativ frei konfigurierbar sind. Die stereofone Aufnahme des Chors erzeugt im Gesamtbild einen großen Klangkörper, denn es existiert eine Abbildung zwischen den VPS nach den Gesetzen der Stereofonie. Die „Lautsprecher“  sind virtuelle Quellen, per WFS generiert und  mit den räumlichen Eigenschaften des Aufnahmeraums versehen. Die Orte der VPS verhalten sich für den Bereich der Hörzone richtungsstabil. Die bekannten Nachteile der Lokalisierung der Phantomschallquellen, insbesondere die geringe Richtungsstabilität, lassen sich leicht vermeiden, indem eine ausreichende Anzahl von VPS gesetzt wird, z. B. drei bis fünf VPS für den vorderen Abbildungsbereich. Dies ist nur eine Frage der technischen Möglichkeiten während der Aufnahme und der verfügbaren Übertragungskapazität, nicht aber eine Frage der Lautsprecheranordnung beim Hörer. Das VPS-Konzept hat für die WFS-Übertragung wesentliche prinzipielle Vorteile, sowohl hinsichtlich der Wiedergabequalität als auch bezüglich der Handhabung der Aufnahmetechniken. Es basiert auf der Anwendung stereofoner Techniken, es gibt keine völlig neuen Konzepte der Mikrofonierung, die Abmischung auf die VPS-Positionen benötigt keine neuen Methoden. Neu ist allerdings, dass die Entfernungsdarstellung einfach mit der Festlegung der VPS-Positionen vollzogen wird. Wie bereits erwähnt, befindet  sich die Schallquelle bei ebenen Wellen theoretisch unendlich weit entfernt. Diese Eigenschaft ist günstig für die Darstellung von Atmo oder Umhüllung durch Nachhall. Es hat sich gezeigt, dass bereits wenige ebene Wellen aus unterschiedlichen Richtungen ausreichen, um einen als subjektiv diffus empfundenen Nachhall zu erzeugen. Schon mit heute üblichen Hallgeräten lassen sich unkorrelierte Nachhallfahnen mit mindestens vier Kanälen herstellen, die dann als ebene Wellen über das Lautsprecherarray synthetisiert werden. Virtuelle Lautsprecher Einen wichtigen Sonderfall für die VPS-Anwendung  stellt eine  spezielle wiedergabeseitige Voreinstellung der VPS dar, die die Wiedergabe von konventionellen Mehrkanal-Aufnahmen in einem virtuellen Abhörraum ermöglicht. Zu diesem Zweck sind für den wiedergabeseitigen WFS-Decoder zwei Maßnahmen vorgesehen (Abb. 5./78): –– Die Konfiguration der VPS hinsichtlich Raumimpulsantworten und räumlicher Anordnung erfolgt nicht nach Maßgabe der im WFS-Kanal übertragenden Informationen, sondern gemäß der voreingestellten Darstellung virtueller Lautsprecher in einem virtuellen Abhörraum. Beliebige Anordnungen der virtuellen Lautsprecher können voreingestellt  sein und abhängig vom wiederzugebenden Stereofonie-Format aktiviert werden. –– Die virtuellen Quellsignale werden nicht aus dem WFS-Übertragungskanal empfangen, sondern vom wiedergabeseitigen Mehrkanaldecoder, z. B. einem DVD-Player. Die WFS-Wiedergabeanlage arbeitet hier völlig losgelöst von einer WFS-Übertragung, kann aber in diesem Modus prinzipiell bereits einige attraktive Vorteile im Vergleich mit einer konventionellen Wiedergabeanlage bieten:

362 

 5 Tonaufnahme und Tonwiedergabe

–– Diverse  stereofone Mehrkanal-Formate lassen  sich problemlos durch Wahl einer VPSVoreinstellung optimal wiedergeben, ohne die Lautsprecheranordnung z. B. im Wohnzimmer entsprechend anpassen zu müssen. –– Auch in beengter Raumsituation ist durch die größeren Entfernungen der virtuellen Lautsprecher die Hörzone für Mehrkanal-Stereofonie ausreichend groß. –– Ebene Wellen für die Surround-Signale vergrößern die Hörzone, weil der Schalldruckpegel bei Verdopplung der Entfernung nur um 3 dB abnimmt und die Hörereignisrichtung in der Hörzone ortsunabhängig ist. –– Eine hochwertige WFS-Wiedergabeanlage erlaubt eine elektronische Kompensation verschiedener Mängel des Wiedergaberaums, insbesondere die Reduktion der Wirkung von frühen Reflexionen sowie den Ausgleich unsymmetrischer Anordnungen der Lautsprecherarrays.

Abb. 5/78. VPS als virtuelle Lautsprecher für konventionelle Mehrkanalformate.

Diese rein wiedergabeseitige Anwendung der Wellenfeldsynthese für Mehrkanal-Stereofonie könnte aus technischer und praktischer Sicht der erste Schritt für die Einführung auf dem Markt sein. Interessant ist hier die Entwicklung der MAP-Technologie [Bauck, 1996], [Boone, 2004]. Diese flachen, mit einer Glasfaser gespeisten Panels sind in Wohnräumen meistens besser zu integrieren als Lautsprecherboxen. Die Praktikabilität der Panels, verbunden mit den oben dargestellten Vorteilen der WFS-gestützten virtuellen Lautsprecher, könnte schon in naher Zukunft zum ersten Markterfolg der Wellenfeldsynthese führen. Dabei ist nicht

5.5 Verfahren der räumlichen Tonübertragung 

 363

nur an die Anwendung im Heim als Home Theatre gedacht, sondern auch an den Einsatz in Kinos, Theatern oder ähnlichen Wiedergaberäumen. Verfahren der echten WFS-Übertragung werden wohl erst später folgen. Wichtige Faktoren für die Akzeptanz der Wellenfeldsynthese in den verschiedenen Anwendungsbereichen werden die Praktikabilität sowie die tatsächlich erreichbare Wiedergabequalität sein, dies nicht nur hinsichtlich räumlicher Merkmale wie Lokalisierung, räumliche Tiefe, Perspektive und Transparenz,  sondern insbesondere auch bezüglich der Klangfarbe. Virtueller Kopfhörer Die binauralen Signale einer Kunstkopfaufnahme werden über Lautsprecher mit einem sog. crosstalk cancellation-Filter (XTC) wiedergegeben, um die Beschallung des jeweils abgewandten Ohrs zu verhindern [Weissgerber, 2009]. Dazu müssen die Übertragungseigenschaften dieser Wege gemessen oder berechnet werden, das Filter hat dann dementsprechend inverse Filterkennlinien für alle Richtungen, diese  müssten durch head tracking  mit jeder Kopfdrehung nachgestellt werden, was mit realen Lautsprechern kaum zu verwirklichen ist. Die WFS hingegen kann die Lautsprecher durch virtuelle Punktschallquellen ersetzen. Wenn diese nahe bei den Ohren des Hörers positioniert werden, kann eine stabile virtuelle Kopfhörersimulation erreicht werden ohne XTC-Filter. Anstelle einer linearen WFS-Standardanordnung bietet eine Kreisanordnung über dem Hörer einen konstanten Abstand zwischen den Ohren, den virtuellen Schallquellen und den Lautsprechern, dies wieder führt zu einer konstanten und hohen Aliasing-Frequenz und stark reduzierten Klangfärbungen während der Kopfbewegungen. Die tiefen Frequenzen werden über Subwoofer abgestrahlt, der Lautsprecherkreis kann unsichtbar über dem Kopf des Hörers angebracht werden. Binaural Sky Eine mögliche Anwendung des virtuellen Kopfhörers ist der Binaural Sky, ein neuartiges Wiedergabesystem speziell für die binauralen Signale einer Kunstkopfaufnahme, wobei die Wellenfeldsynthese und die dynamische Kompensation des Übersprechens bei Lautsprecherwiedergabe kombiniert werden. Der 2005 entwickelte Prototyp besteht aus einem über dem Kopf des Hörers befestigten Lautsprecherring. Mit Hilfe der Wellenfeldsynthese werden damit Quellen in Ohrnähe fokussiert, wodurch Ohrsignale  so reproduziert werden können, dass eine dreidimensionale Abbildung von Schallereignissen ohne die Verwendung von Kopfhörern oder im Sichtfeld aufgestellten Lautsprechern möglich ist. Unabhängig von der Akustik des jeweiligen Abhörraums kann z. B. in einem kleinen Übertragungswagen die Akustik der gewohnten Tonregie simuliert werden. Die Basis des Systems bildet das Verfahren der Binauralen Raumsynthese (binaural room scanning, BRS), das Mitte der 1990er Jahre am IRT entwickelt wurde. Ein realer Abhörraum wird mit Hilfe eines Kunstkopfs vermessen, die binauralen Raumimpulsantworten des Raums (binaural room impulse response, BRIR) werden für jeden einzelnen der beteiligten Lautsprecher und für verschiedene Ausrichtungen des Kunstkopfs gemessen und gespeichert. Für die Wiedergabe wird der aktuelle Drehwinkel des Kopfs mittels eines head tracking-Systems ermittelt, so dass für die Faltung auf den passenden Satz Impulsantworten aus der Datenbank zugegriffen werden kann. Mit dem BRS-System ist es  möglich, eine beliebige LautsprecherAbhörsituation mit Hilfe von Kopfhörern zu virtuell darzustellen, Näheres in Kap. 5.5.6.1.

364 

 5 Tonaufnahme und Tonwiedergabe

Grundsätzlich funktioniert der Binaural Sky wie ein Kopfhörer, d. h., es gibt zwei Ausgangskanäle, deren Signale direkt am rechten und linken Ohr wiedergegeben werden. Besonders interessant ist aber das komplette System, also die Wellenfeldsynthese mit Übersprechkompensation in Kombination  mit der Binauralen Raumsynthese, weil es faszinierende Möglichkeiten eröffnet: Es lassen sich stabile dreidimensionale Abhörsituationen mit beliebigen Quellenkonstellationen realisieren und zwar ohne störende Kopfhörer oder im Sichtfeld befindliche Lautsprecher. Der Hörer kann damit in eine virtuelle akustische Umgebung versetzt werden. Das System eignet sich daher speziell für virtual reality-Anwendungen oder z. B. für Computerspiele. Durch eine subjektive Beurteilung in Hörversuchen zeigte sich, dass das System eine stabile räumliche Abbildung von binauralen Signalen mit einer sehr guten Lokalisierungsschärfe bietet. Bis etwa 7 kHz ist das System weitgehend ohne Klangfärbungen, darüber machen sich wegen Alias-Effekten der WFS geringe Klangfärbungen bemerkbar. [Horbach, 1999], [Menzel, 2005/1, 2]. 5.5.3.2 Ambisonics Das Aufnahme- und Wiedergabesystem Ambisonics wurde Anfang der 1970er Jahre durch Gerzon [Gerzon, 1973], Fellgett et al. [Fellgett, 1974, 1975] als Alternative unter dem Begriff Ambiophonie zu den damals populären, aber psychoakustisch wenig fundierten und untereinander inkompatiblen Quadrophonie-Formaten entwickelt. Das Verfahren erlaubt bereits mit vier Kanälen eine vollständige 3D-Darstellung, allerdings bei sehr kleiner Hörzone und geringer räumlicher Auflösung. Durch das Hinzufügen weiterer Kanäle können diese Einschränkungen entsprechend den Anforderungen vergrößert werden. Diese Erweiterung heißt ‚Higher-order Ambisonics‘ [Daniel 2001]. Ambisonics ist isotrop, das bedeutet, dass die Aufnahme- und Wiedergabequalität einer Quelle unabhängig von ihrer Richtung ist. Dank dieser Eigenschaft kann ein AmbisonicsSignal ohne Qualitätsverlust beliebig rotiert werden, was für Anwendungen  mit head tracking sehr nützlich ist. Ein weiterer Vorteil liegt in der Entkopplung von Signal und Wiedergabesystem – eine Ambisonics-Aufnahme wird zum Abspielen decodiert und kann innerhalb gewisser Grenzen über verschiedene Lautsprecheranordnungen befriedigend wiedergegeben werden; auch eine Binauralisierung ist möglich. Signalformat und Mikrofontechnik Ambisonics erster Ordnung lässt sich als Erweiterung der MS-Stereofonie verstehen, siehe Kap. 5.3.2.2. Die Basis bildet eine ungerichtete Druckkomponente, früher mit W, heute mit der Ambisonic channel number ACN 0 bezeichnet, und dem bekannten links/rechts-Gradienten Y bzw. ACN 1. Fügt  man nun einen oben/unten-Gradienten Z bzw. ACN 2 und einen vorn/ hinten-Gradienten X bzw. ACN 3 hinzu, hat man in einem kleinen Bereich um den Messpunkt den Schalldruck und in allen drei Raumdimensionen die Schallschnelle beschrieben. Das resultierende Signal heißt B-Format. [Gerzon, 1975/1], [Chapman, 2009] Ein entsprechendes Mikrofonarray aus einer Kugel und drei Achten in koinzidenter Anordnung wird als ‚natives B-Format-Array‘ bezeichnet. Eine perfekte Koinzidenz ohne Laufzeiteffekte lässt sich aber wegen der Größe der Kapseln nur für bestimmte Einfallsrichtungen erzielen; Schall aus anderen Richtungen ist mit unterschiedlich großen Laufzeitfehlern behaftet,

5.5 Verfahren der räumlichen Tonübertragung 

 365

was der Zielsetzung der Isotropie widerspricht. Daher wird das native Array üblicherweise nur in der dreikanaligen Version für 2D-Anwendungen benutzt und die Kapseln werden übereinander so angeordnet, dass sie für horizontal einfallenden Schall koinzident sind [Benjamin 2005]. Es entspricht damit dem Doppel-MS-Mikrofon [Wittek 2006]. Für 3D-Aufnahmen kommt überwiegend eine Anordnung von breiten Nieren [Farrar 1979] oder Nieren auf den vier Ecken eines Tetraeders zur Anwendung (siehe auch Kap. 4.2.2.8). Die vier Kanäle dieses Tetraeder-Mikrofons lassen sich durch eine einfache Matrix-Operation in die B-Format-Komponenten überführen. ACN 0 entspricht dabei der Summe aller Kapseln, für ACN 1 werden die beiden linken Kapseln addiert und die rechten subtrahiert. ACN 2 und 3 werden in gleicher Weise aus den oben/unten- und vorn/hinten-Differenzen gewonnen. Die unvermeidlichen Koinzidenzfehler durch unterschiedliche Laufzeiten werden durch eine möglichst kompakte Bauweise minimiert und sind recht gleichmäßig über alle Richtungen verteilt. Die resultierenden Kammfilterverfärbungen im Hochtonbereich können daher durch eine Diffusfeld-Entzerrung der Mikrofonsignale korrigiert werden [Gerzon 1975/2]. Voraussetzung für die Isotropie ist, dass die Komponenten jeder Ordnung zusammen den umgebenden Raum tatsächlich gleichmäßig abtasten. Für die ideale Kugelcharakteristik der „nullten“ Ordnung ist dies unmittelbar einsichtig. Aber auch die drei idealen Achtercharakteristiken der ersten Ordnung ergeben über alle Richtungen summiert wieder eine Kugel. Diesem Kriterium folgend könnte auch die tetraedrische Anordnung von vier Nieren als Grundlage der Schallfeldbeschreibung dienen. Es ist aber vorteilhaft, dass die Komponenten einer Ordnung darüber hinaus jeweils linear unabhängig sind, also im mathematischen Sinn einen minimalen Satz Basisfunktionen zur Zerlegung der Kugeloberfläche bilden. Das B-Format erfüllt dieses zusätzliche Kriterium. Im Gegensatz zur Stereofonie, die psychoakustische Reize durch Laufzeit- und Pegelunterschiede nachbildet, die sich über die Mikrofonauswahl und -position willkürlich kontrollieren und damit frei gestalten lassen, beschreibt Ambisonics das physikalische Schallfeld am Aufnahmeort. Dessen Zerlegung in die Komponenten des B‑Formats lässt sich als räumliche Abtastung verstehen. Panning Genau wie bei Stereoproduktionen können Monosignale von elektronischen oder nah mikro­ fonierten akustischen Quellen mit einem geeigneten Panner in einer B-Format-Summe positioniert werden. Dazu wird das Monosignal mit passenden Gain-Koeffizienten auf die Komponenten des B-Formats verteilt (encodiert). Wenn S das  monofone Eingangssignal, 0 ≤ θ ≤ 360° der gewünschte Azimut- oder Horizontalwinkel und −90° ≤ ϕ ≤ 90° der gewünschte Elevations- oder Vertikalwinkel ist, dann ergeben sich für die Komponenten bis zur ersten Ordnung die folgenden Beziehungen, in der Praxis nötige konstante Normalisierungskoeffizienten sind hier vernachlässigt: ACN 0 = W = S ACN 1 = Y = sin θ⋅ cos φ ACN 2 = Z = sin φ ACN 3 = X = cos θ ⋅cos φ

366 

 5 Tonaufnahme und Tonwiedergabe

Wenn man diese Gleichungen über alle Azimut- und Elevationswinkel dreidimensional darstellt, ergeben sich die Graphen nullter und erster Ordnung aus Abb. 5/79, Panning ist also das „Aufnehmen“ des Quellsignals  mit den virtuellen „Mikrofonen“ der jeweiligen Komponenten. Die zum Encodieren nötigen Operationen  sind, genau wie die Rotation um die Z-Achse, trivial. Rotationen um andere Achsen sind wegen der Mischung der Dimensionen geringfügig komplexer, der Rechenaufwand ist aber in beiden Fällen gering. Higher-order Ambisonics Ambisonics erster Ordnung ist in seiner räumlichen Auflösung durch die Richtcharakteristik des Gradientenempfängers erster Ordnung, der Acht, begrenzt. Die Betrachtung ihres Polardiagramms zeigt, dass eine Ortsveränderung der Quelle um 45° aus der Achse nur eine Pegelabschwächung von 3  dB bewirkt. Dies verdeutlicht die geringe Lokalisationsschärfe. Eine weitere Konsequenz ist die geringe Größe der Hörzone, also jenes Bereichs, in dem das Schallfeld hinreichend genau beschrieben und rekonstruiert werden kann. Soll die räumliche Auflösung erhöht und damit die Hörzone vergrößert werden, benötigt man feiner auflösende Basisfunktionen, die ebenfalls die Kugeloberfläche gleichmäßig abtasten. Die Komponenten nullter und erster Ordnung sind der Beginn einer unendlichen Folge von  sogenannten  spherical harmonics,  mit denen ein Schallfeld im Prinzip beliebig genau beschrieben werden kann. Der Name, sinngemäß Kugeloberwellen, lässt sich so verstehen, dass sie den Eigenresonanzen einer vibrierenden Kugeloberfläche ähneln.

Abb. 5/79. Spherical harmonics 0. bis 5. Ordnung [Zotter, 2012].

Für jede neue Ordnung gilt, dass die Summe ihrer Komponenten über alle Raumrichtungen wieder eine Kugel ergibt. Genau wie die Dipole der ersten Ordnung zur Unterscheidung von vorn und hinten die nullte Ordnung als Polaritätsreferenz benötigen,  sind die Multipole der höheren Ordnungen nur in Bezug auf die Komponenten darunter eindeutig bestimmt.

5.5 Verfahren der räumlichen Tonübertragung 

 367

Wenn man von einem B-Format n-ter Ordnung spricht, sind also die Komponenten aller niedrigeren Ordnungen immer eingeschlossen. Die Zone nahezu perfekter Rekonstruktion hat nach [Ward, 2001] einen Radius von r0 ≈  N · c / 2π · f , wobei N die Ordnung des Systems, c die Schallgeschwindigkeit und f die Frequenz ist. In einem System dritter Ordnung wird also ein etwa kopfgroßes Volumen bis 1,7 kHz nahezu perfekt rekonstruiert. Eine subjektiv befriedigende Lokalisation wird wegen der Bandbegrenztheit der Lokalisationsreize aber ohne weiteres über mehrere Meter erreicht; in der Praxis ist der limitierende Faktor die Annäherung eines Hörorts außerhalb der Mitte an den nächstgelegenen Lautsprecher, der irgendwann die Lokalisierung dominiert [Nettingsmeier, 2011]. Mikrofone höherer Ordnung werden in der Regel aus einer großen Anzahl von Druckempfängern realisiert, die in eine schallharte Kugel eingebaut sind [Meyer 2004], aber auch offene Konstruktionen [Plessas 2009] und solche aus reinen Druckgradienempfängern sind möglich [Craven, 2009]. Allen Anordnungen ist gemeinsam, dass die Richtcharakteristiken höherer Ordnung durch Differenzbildung der Kapselsignale gewonnen werden. Die höhere Auflösung von Higher-order-Mikrofonen wird also erkauft durch einen Anstieg des Grundrauschens. Dazu kommt, dass der unvermeidliche Bassabfall von Druckgradientenmikrofonen, der  mit zunehmender Ordnung steiler wird, durch teilweise extreme Anhebungen des Frequenzgang kompensiert werden muss. Die aufwändige Kalibrierung der Kapseln und die Entzerrung der Komponenten höherer Ordnung  sind erst durch die Digitaltechnik praktikabel geworden. Dennoch sind Higher-order-Mikrofone sowohl im Rauschabstand als auch in der Klangfarbe konventionellen Mikrofonen unterlegen, und in der Praxis nimmt die Bandbreite zu höheren Ordnungen hin schnell ab. Ungeachtet dessen ist Higher-order Ambisonics durch die Möglichkeit, Einzelsignale präzise zu pannen, als Produktions- und Wiedergabeformat sehr nützlich. Das B-Format kann dann auf ein gewünschtes Layout wie 5.1 oder 7.1.4 vorgerendert werden. Idealerweise wird es jedoch bis zum Endverbraucher beibehalten. Letzteres ist bei Binauralwiedergabe mit HeadTracking oder für Großbeschallungen  mit immersiven Inhalten  sinnvoll. In der Forschung ist Higher-order Ambisonics als Beschreibungs- und Analysewerkzeug für Schallfelder allgegenwärtig. Decodierung Ähnlich wie MS-Aufnahmen vor der Wiedergabe in ein linkes und ein rechtes Lautsprechersignal umgeformt werden müssen, bedarf ein Ambisonics-Signal zur Wiedergabe der Decodierung auf die gegebene Lautsprecher-Anordnung. Analog zur Encodierung eines Monosignals im Panner gewinnt man die Lautsprechersignale durch eine Matrixoperation, die allerdings bei niedrigen Ordnungen noch psychoakustisch optimiert wird; wegen der Frequenzabhängigkeit der Lokalisationsreize ist es vorteilhaft, den Anteil der Schallschnelle im tiefen Frequenzbereich unter Beibehaltung der spektralen Ausgewogenheit etwas zu erhöhen [Gerzon, 1980] [Heller, 2008]. Da das im B-Format räumlich kontinuierlich beschriebene Schallfeld jetzt über einzelne Punktschallquellen rekonstruiert werden  muss, entsteht ein  sog. Diskretisierungsfehler. Außerdem ist durch den üblicherweise geringen Abstand zu den Lautsprechern die Krümmung der Wellenfronten nicht zu vernachlässigen und muss besonders

368 

 5 Tonaufnahme und Tonwiedergabe

bei höheren Ordnungen durch eine Nahfeldkompensation korrigiert werden [Daniel, 2003], [Adriaensen, 2006]. Regelmäßige Anordnungen der Lautsprecher sind nur realisierbar, wenn sie auf die Ecken von platonischen Körpern gesetzt werden, dabei handelt es sich um die fünf allein möglichen Körper, die aus gleichseitigen Vielecken gebildet werden; die meisten Ecken hat mit 20 der Dodekaeder. Damit sind in einer gleichmäßigen Anordnung maximal 20 Kanäle möglich. Für nicht perfekt regelmäßige Lautsprecheranordnungen ist die Berechnung einer Decodierungsmatrix kompliziert. Es existieren aber effiziente Optimierungsalgorithmen für nahezu beliebige Anordnungen, die auch eine Abschätzung der Richtungs- und Pegelfehler bei der Wiedergabe ermöglichen [Heller, 2010], [Zotter, 2012]. Sind die Matrixkoeffizienten einmal errechnet, ist der Rechenaufwand für die eigentliche Dekodierung vernachlässigbar. Für die Konzertbeschallung mit Höheninformation haben sich hemisphärische Anordnungen als praktikabel erwiesen. Konzert-Wiedergabesysteme ab der dritten Ordnung, also 16 B-Format-Kanälen aufwärts, haben  sich in der Praxis bewährt [Zotter, 2010], [Rudrich, 2016], [Nettingsmeier, 2010]. Dabei ist es vorteilhaft, durch eine einfache Neuberechnung des Decoders auf Änderungen des Lautsprecher-Layouts reagieren zu können, ohne das Originalmaterial neu mischen zu müssen. Die Anzahl der Wiedergabekanäle sollte sich an der Ordnung des Ambisonics-Quellmaterials orientieren. Genau wie die Bandbreite eines PCM-Signals durch die endliche Abtastfrequenz begrenzt ist, ist die räumliche Genauigkeit des Systems durch die Ordnung und damit das Auflösungsvermögen der B-Format-Komponenten bestimmt. Wird ein räumlich hochaufgelöstes Signal über zu wenige Lautsprecher wiedergegeben, stellt sich analog zum spektralen Aliasing eines PCM-Systems das auch bei der Wellenfeldsynthese zu beobachtende räumliche Aliasing in Form von Nebenkeulen und Fehllokalisationen ein. Um dies zu vermeiden, können im einfachsten Fall die Komponenten höherer Ordnungen vor der Dekodierung vollständig verworfen werden, was einer räumlichen Tiefpassfilterung entspricht. Moderne Decoder können einen Teil der zusätzlichen Information außerdem zur Kompensation von Unregelmäßigkeiten des Wiedergabelayouts verwenden. Dies ist besonders bei den stark anisotropen n.1-Systemen interessant [Wiggins, 2007]. Bei der Wiedergabe über zu viele Lautsprecher ähneln sich deren Signale stark und es entstehen vermehrt Kammfilter und Phasing-Effekte. In der Praxis ist die Hörzone bei Ambisonics erster Ordnung auf eine Person im Zentrum des Wiedergabesystems beschränkt. Durch stark korrelierte Lautsprechersignale kann es bei Bewegung des Kopfes zu Phasing-Artefakten im Hochtonbereich kommen. Vorteilhaft ist, dass bei korrekter Wiedergabe auch in erster Ordnung bereits eine brauchbare Lokalisation erzielt wird. Der Richtungsvektor der Schallschnelle wird im unteren Frequenzbereich, also dort, wo interaurale Zeitdifferenzen (ITD) das Richtungshören dominieren, zufriedenstellend wiedergegeben. Im mittleren und oberen Frequenzbereich ist das Volumen korrekter Schallfeldrekonstruktion kleiner als der menschliche Kopf. Der resultierende Schallschnellevektor wird dadurch weitgehend zufällig, ist aber psychoakustisch auch weniger relevant. Der Richtungsvektor der Schallenergie hingegen ist hier hinreichend genau, um Lokalisation über die bei höheren Frequenzen  maßgeblichen interauralen Pegeldifferenzen (ILD) zu ermöglichen [Gerzon, 1992]. Das reproduzierte Hörereignis [Blauert, 1974] ist jedoch in der Regel von größerer Ausdehnung und geringerer Schärfe als das aufgezeichnete Schallereignis. Die

5.5 Verfahren der räumlichen Tonübertragung 

 369

physikalisch nicht korrekte und stark aliasing-behaftete, aber ästhetisch vielfach präferierte Räumlichkeit von AB-Mikrofonen lässt sich mit Ambisonics-Wiedergabe nicht ohne weiteres erzeugen. ITD-Stimuli sind aber im rekonstruierten Schallfeld prinzipiell gegeben [Lipshitz, 1985]. Neben der Decodierung auf Lautsprecherwiedergabe ist die Binauralisierung ein wichtiges Anwendungsgebiet. Durch einen head tracker gemessene Kopfbewegungen lassen sich durch entsprechende Gegenrotationen des B-Formats einfach kompensieren, wodurch die Hörereignisrichtungen  stabil bleiben. Ein weiterer Vorteil der Kopfhörerwiedergabe ist, dass sich der Hörort immer exakt im Zentrum, also dem Bereich optimaler Rekonstruktion, befindet. Die Binauralisierung (siehe Kap. 5.5.6) kann über virtuelle Lautsprecher oder eine direkte Konversion der B-Format-Komponenten erfolgen [McKeag, 1996], [Zaunschirm, 2018].

5.5.4 Kopfhörerwiedergabe Es gibt drei Arten der Kopfhörerdarbietung,  man unterscheidet dabei zwischen Kopf- und Ohrhörern (Tab. 5/19): Tab. 5/19. Darbietungsarten von Tonsignalen über Kopf- bzw. Ohrhörer. Darbietungsart

Bezeichnung

nur ein Ohrhörer erhält ein Signal beide Ohrhörer erhalten dieselben Signale die beiden Ohrhörer erhalten unterschiedliche Signale

monotisch diotisch dichotisch

Obwohl Lautsprecherwiedergabe im Tonstudiobereich die übliche Wiedergabeform ist, bietet Kopfhörerwiedergabe Vorteile, die in bestimmten Situationen eine echte Alternative zur Lautsprecherwiedergabe darstellen können. Die nach 1970 eingeführte Kunstkopfstereofonie ist prinzipiell nur mit Kopfhörern wiederzugeben, wenn die speziellen Vorteile dieser Übertragungstechnik zur Geltung kommen sollen (siehe Kap. 5.5.5). Kopfhörer können bei wesentlich geringerem Aufwand zumindest dieselbe Bandbreite, Freiheit von nichtlinearen und linearen Verzerrungen und am Ohr denselben  maximalen Schalldruck erreichen wie Lautsprecher. Besonders vorteilhaft bei Kopfhörerwiedergabe ist, dass die Akustik des Wiedergaberaums ohne Einfluss auf die Wiedergabe ist. Es hat sich gezeigt, dass bestimmte Störgeräusche oder andere Audioartefakte, wie z. B. Bitfehler oder Artefakte der Codierung  mit Kopfhörern besser erkannt werden können, das kann für die auditive Kontrolle vorteilhaft, aber für das Zuhören durchaus störend sein. Ein entscheidender Faktor ist die größere Abbildungsschärfe. Sie kennzeichnet die erreichbare räumliche Auflösung des Klangbilds. Der Tonmeister weiß, dass bereits Nearfield-Monitoring die Transparenz erhöht, weil der Einfluss des indirekten Schalls im Wiedergaberaum reduziert wird. Dieser Effekt ist besonders deutlich bei Kopfhörerwiedergabe, wie entsprechende Hörtests auch quantitativ nachgewiesen haben. Abb. 5/80 zeigt die relative Anzahl der richtig erkannten Unterschiede von Testsignalen für Kopfhörerwiedergabe

370 

 5 Tonaufnahme und Tonwiedergabe

im Vergleich zur Lautsprecherwiedergabe. Man sieht, in welchem Maß der Kopfhörer eine höhere Abbildungsschärfe als Lautsprecher im Regieraum gewährleisten kann, besonders im Vergleich zu einer üblichen Anordnung in einem gleichseitigen Dreieck mit 3 m Kantenlänge.

Abb. 5/80. Abbildungsschärfe bei Wiedergabe mit Kopfhörer und mit Lautsprechern im Regie­rau; Nachhallzeit 0,4 s, Stereoanordnung 1 m bzw. 3 m. Erkannte Unterschiede in % beim Vergleich des Referenzsignals A (Kreuz­korrelationsgrad kA = 1,0) mit einem Vergleichssignal B (Kreuzkorrelationsgrade kB) [Ripka, 1987].

Auch hinsichtlich der Klangfarbe ist die Kopfhörerwiedergabe wegen der Unterschiedlichkeit der Lautsprecher und der Abhör- und Regieräume unerreichbar. Die mit ITU-R Recommendation BS.1116-1 festgelegten Mindestanforderungen für Hörtest-Abhörräume liegen deshalb unter den Möglichkeiten des Kopfhörers. Für die sog. Operational room response curve am Hörort wird hier im Frequenzbereich 250 Hz bis 2 kHz ein Toleranzschlauch von ± 3 dB zugelassen, doppelt so breit wie für Kopfhörer (Abb. 5/81), und daher nicht geeignet, um Klangfärbungen auszuschließen. Hinzu kommen notwendige Toleranzen für die Raumgröße und ‑geometrie, Nachhallzeit, frühe Reflexionen, die in der Praxis nur schwer einzuhalten sind. Aus diesem Grund wird in diesem Standard alternativ die Kopfhörerwiedergabe gemäß ITU-Rec.BS.708 empfohlen. Die Kopfhörerwiedergabe ist prinzipiell als Alternative zur Lautsprecherwiedergabe geeignet, nicht nur bei schlechten Abhörbedingungen, sondern auch für gut reproduzierbare Beurteilungen kritischer Signale. Schließlich können mit Kopfhörern an verschiedenen Orten und/oder für größere Hörerzahlen absolut gleiche und im Rahmen der Kopfhörerwiedergabe optimale Abhörbedingungen geschaffen werden. Ein grundsätzlicher Unterschied zur Laut-

5.5 Verfahren der räumlichen Tonübertragung 

 371

sprecherdarbietung ist, dass jedem Ohr ganz definiert ein elektroakustischer Wandler zugeordnet ist, der praktisch nicht auf das jeweils andere Ohr einwirkt, Gegebenheiten, die bei der üblichen Lautsprecherwiedergabe nicht realisierbar  sind. Nachteilig ist bei Kopfhörerwiedergabe, soweit es sich nicht um Kunstkopfaufnahmen handelt, die Lokalisiertheit des Hörereignisses im oder am Kopf, also die sog. Im-Kopf-Lokalisierung oder IKL. Dazu kommen eine gewisse Lästigkeit des Tragens des Kopfbügels und das Mitwandern des Klangbilds bei Kopfdrehungen, also die Kopfbezogenheit des Klangbilds, sofern diese nicht durch das relativ aufwändige head trackingverfahren überwunden wird (siehe hierzu Kap. 5.5.5.1).

Abb. 5/81. Frequenzgang-Toleranzen im Vergleich: Lautsprecher: Für den Schallpegel am Referenzpunkt in einem Abhörraum gemäß ITU-Rec.BS.1116, gestrichelt, Kopfhörer: Für das Diffusfeld-Übertragungsmaß eines Studio-Kopfhörers nach ITU-Rec.BS.708, durchgezogen.

5.5.4.1 Phantomschallquellen im Kopf Wird eine Zweikanal-Stereoaufnahme über Kopfhörer abgehört, so entsprechen den Phantomschallquellen auf der Lautsprecherbasis Phantomschallquellen im Kopf auf einer Verbindungslinie zwischen den Ohren. Die Auslenkung eines Hörereignisses auf dieser Linie wird als Lateralisation bezeichnet. Diese Linie ist nach oben gebogen, so dass Mittenschallquellen erhöht zur Schädeldecke hin erscheinen. Wie bei den Phantomschallquellen bei Lautsprecherwiedergabe führen Pegel- und/oder Laufzeitdifferenzen zur Auswanderung des Hörereignisorts. Während bei Lautsprecherwiedergabe der Hörereignisort bereits bei rund 15 dB Pegeldifferenz zwischen den Lautsprechersignalen ganz zur Seite der Lautsprecherbasis auswandert, wird bei Kopfhörerwiedergabe eine größere Pegeldifferenz für eine Abbildung ganz seitlich benötigt. Auch nimmt die Lateralisationsunschärfe zu. Bei monotischer Darbietung wird das Hörereignis am Ohreingang lokalisiert, was oft als unangenehm empfunden wird. 5.5.4.2 Entzerrung der Kopfhörer Beim natürlichen Hören werden die spektralen Merkmale der Ohrsignale, die sich aus der Richtcharakteristik des Außenohrs ergeben, im Lokalisierungsprozess so verrechnet, dass sie nicht als Klangfarbenmerkmal in Erscheinung treten. Die Wahrnehmung der Klangfarbe ist

372 

 5 Tonaufnahme und Tonwiedergabe

vom Ort der Schallquelle weitgehend unabhängig. Diese sog. inverse Filterung der Außenohr-Übertragungsfunktion durch das Gehör [Theile, 1986] erfolgt jedoch nur dann, wenn die Wirkung des Außenohrs auf die Bildung der Ohrsignale erkannt und als solche gedeutet wird; dies ist beim natürlichen Hören normalerweise der Fall. Bei der Kopfhörerwiedergabe dagegen wird die Außenohr-Übertragungsfunktion durch die Kopfhörer- Übertragungsfunktion ersetzt. Würde die Kopfhörer-Übertragungsfunktion eine bestimmte richtungsspezifische Außenohr-Übertragungsfunktion exakt nachbilden – z. B. die Freifeld-Übertragungsfunktion für vorne –, so würden für ein Monosignal der Lokalisierungsprozess und damit die inverse Filterung stattfinden. Damit würde das Hörereignis am Bezugsort, also vorne auftreten. Wegen der inversen Filterung würde die Freifeld-Übertragungsfunktion des Kopfhörers keine Klangfarbenfehler verursachen. Jedoch lässt sich aus verschiedenen Gründen mit Hilfe einer Kopfhörerentzerrung praktisch keine Außer-Kopf-Lokalisierung erzielen. Insbesondere bei der Wiedergabe stereofoner Signale erzeugt eine richtungsspezifische Kopfhörerentzerrung  spektrale Ohrsignalmerkmale, die nicht zu den interauralen stereofonen Merkmalen passen und nicht zur räumlichen Wahrnehmung beitragen. Sie werden infolgedessen vom Gehör nicht im Sinne einer inversen Filterung verarbeitet, so dass Klangfarbenfehler die Folge sind. Bei der Kopfhörerwiedergabe existiert keine bevorzugte Schalleinfallsrichtung. Sie lässt sich mit Hilfe der Kopfhörerentzerrung auch nicht simulieren. Deshalb muss für die Entzerrung an Stelle eines richtungsspezifischen Bezugs ein richtungsneutraler Bezug zu Grunde gelegt werden. Damit ist ein Kopfhörer-Übertragungsmaß, das die Ankopplung des Kopfhörers an den Ohrkanaleingang ohne lineare Verzerrungen sicherstellt, physikalisch definiert: Das Kopfhörer-Übertragungs­ maß muss übereinstimmen mit demjenigen Außenohr-Übertragungsmaß, welches in einem richtungsneutralen Schallfeld gemessen wird. In einem richtungsneutralen Schallfeld ist die Richtcharakteristik des Außenohrs ebenso wirkungslos wie bei der Kopfhörerwiedergabe; dies ist z. B. im diffusen Schallfeld eines Hallraums der Fall. Die Forderung eines frequenzunabhängigen Diffusfeld-Übertragungsmaßes für Kopfhörer, die unabhängig von der Aufnahmetechnik Klangfarbenfehler vermeidet, bedeutet also, dass das Kopfhörer-Übertragungsmaß und das Außenohr-Übertragungsmaß im diffusen Schallfeld übereinstimmen  müssen. Nicht ein bestimmtes Freifeldübertragungsmaß für eine bestimmte Richtung, sondern der Durchschnittswert über alle Richtungen, also das Diffusfeld­übertragungsmaß von Kunstkopf und Kopfhörern muss einen frequenzunabhängigen Verlauf aufweisen. Allgemein  stellt die Diffusfeldentzerrung die aufnahme- und wiedergabeseitig gültige Lösung des Entzerrungs­problems dar, das an der Schnittstelle Aufnahme–Wiedergabe auftritt, sobald kopfbezogene Signale über Lautsprecher oder raumbezogene Signale über Kopfhörer wiedergegeben werden sollen. Die Situation ist in Abb. 5.82 skizziert: Die diagonalen Verfahren Lautsprecherstereofonie–Lautsprecherwiedergabe als raumbezogenes Verfahren und Kunstkopfstereofonie–Kopfhörerwiedergabe als kopfbezogenes Verfahren sind definitionsgemäß verträglich. Die Wahl der Entzerrung an der Schnittstelle Aufnahme-Wiedergabe ist im Prinzip beliebig. Im Prinzip unverträglich dagegen sind die Verfahren Lautsprecherstereofonie–Kopfhörerwiedergabe, ebenso wie Kunstkopfstereofonie–Lautsprecherwiedergabe, hier setzen sich die Strecken aus je Teilen eines raumbezogenen und eines kopfbezogenen Verfahrens zusam-

5.5 Verfahren der räumlichen Tonübertragung 

 373

men. Für beide Übertragungsfälle darf für die Entzerrung von Kunstköpfen und Kopfhörern nicht eine einzige Bezugsrichtung zu Grunde gelegt werden, sondern es muss als richtungsneutraler Bezug das Integral über alle Freifeldübertragungsfunktionen des Außenohres zu Grunde gelegt werden, um Klangfarbenfehler zu vermeiden [Theile, 1986]. Für die Lautsprecherwiedergabe von Kunstkopfsignalen und für die Kopfhörerwiedergabe von raumbezogenen Signalen ergibt sich damit größtmögliche Klangneutralität.

Abb. 5.82. Kompatibilitätsproblem an der Schnittstelle von raum- und kopfbezogenen Übertragungsverfahren.

Zumindest für hochwertige Studiokopfhörer hat sich die Diffusfeldentzerrung – durch ITUEmpfehlung [ITU-R BS.708] auch international standardisiert – weitgehend durchgesetzt; sie werden oft mit einem Zusatz wie „Monitor“, „Studio“ oder „nach IRT-Norm“ gekennzeichnet (siehe auch Kap. 19.6.2). Das in [ITU-R BS.708] festgelegte enge Toleranzfeld gewährleistet die Reproduktion eines einheitlichen und unverfälschten Klangbilds. Entsprechend entzerrte Studiokopfhörer  stellen daher einen  sinnvollen alternativen Abhörstandard dar [Theile, 2016], dies sowohl für den nationalen und internationalen Programmaustausch als auch für die Beurteilung der Tonqualität in standardisierten Hörtests; eine Kopfhörerwiedergabe wird auch in der diesbezüglichen [ITU-R BS 562-1] empfohlen. Lineare Verzerrungen bei Kopfhörerwiedergabe  sind physikalisch definiert als Abweichung des Kopfhörerübertragungsmaßes vom Außenohrübertragungsmaß im diffusen Schallfeld. Sie werden durch Schalldruckmessung im Gehörgang von Versuchspersonen mit Hilfe eines Sondenmikrofons gemessen. Lautstärke-Vergleichsmessungen verursachen aus psychoakustischen Gründen  systematische Fehler und  sind daher prinzipiell ungeeignet. Die physikalische Messung gemäß [ITU-R BS.708] unterscheidet das direkte Verfahren und das indirekte Verfahren. Das direkte Verfahren geht vom Vergleich der vom Bezugsschallfeld

374 

 5 Tonaufnahme und Tonwiedergabe

und vom Kopfhörer erzeugten Schalldrücke im Gehörgang aus; das indirekte Verfahren sieht an Stelle des Schallfelds einen nach der direkten Methode kalibrierten Bezugskopfhörer vor [Spikofski, 1988].

5.5.5 Binaurale Verfahren 5.5.5.1 Kopfbezogene Übertragung Das Verfahren der kopfbezogenen binauralen Übertragung, die kopfbezogene Stereofonie oder Kunstkopfstereofonie, ist vom Prinzip her das Übertragungsverfahren, das am besten eine originalgetreue Übertragung ermöglicht; es ist ein übertragungstechnisch einfaches und logisches Verfahren. Das Schallfeld, das im Aufnahmeraum am Ort der beiden Ohren eines Hörers herrscht, wird mit einem sog. Kunstkopf aufgenommen und an den Ohren des Hörers  mit Hilfe von Kopfhörern reproduziert. Der Kunstkopf ist hinsichtlich  seiner Formgebung und dementsprechend  seiner akustischen Eigenschaften wie Richtcharakteristik, Pegel- und Laufzeitdifferenzen dem  menschlichen Kopf  so gut wie  möglich nachgebildet. Statt Trommelfellen trägt der Kunstkopf an entsprechender Stelle Mikrofone, zum Kunstkopf siehe Kap. 4.2.4.6. Das Kunstkopfverfahren bietet dem Hörer ein Hörereignis, das idealerweise dem der Originaldarbietung exakt entspricht. Anders als bei anderen Stereoübertragungsverfahren können alle Richtungen im oberen Halbraum und besonders gut unterschiedliche Entfernungen bei der Wiedergabe korrekt und überzeugend abgebildet werden. Ebenso sind der Raumeindruck und die Umhüllung sehr gut; der Hörer hat das Gefühl, selbst im Aufnahmeraum zu sein, was mit anderen stereofonen Aufnahme- und Wiedergabeverfahren, sowohl bei Lautsprecher- als auch bei Kopfhörerwiedergabe, so nicht erreicht werden kann. Experimente mit einem Kunstkopf wurden nach ersten Versuchen in den 1930er Jahren in größerem Umfang in den 1970er Jahren  mit dem Kunstkopf KU 80 der Firma Neumann durchgeführt. Neben der durchaus beeindruckenden Wiedergabe insbesondere des Raumeindrucks und der Entfernungen der Schallquellen zeigten sich aber auch erhebliche Mängel: –– die Klangfarbe war unbefriedigend, –– die Lokalisierung von Schallquellen im Frontalbereich war oft nicht möglich – die Hörereignisse wurden hinter dem Kopf lokalisiert, –– die Wiedergabe über Lautsprecher war insbesondere bezüglich der Klangfarbe und Richtungstreue unbefriedigend, Aufnahmen mit dem Kunstkopf KU 80 sind praktisch nicht kompatibel. Gerade die letztgenannte Einschränkung wiegt im Bereich von Hörfunk und Fernsehen schwer; deshalb blieb die Anwendung des Kunstkopfverfahrens auf einzelne Sendungen des Hörfunks vor allem auf die Bereiche Feature und Hörspiel beschränkt. Das erste im deutschen Rundfunk ausgestrahlte Hörspiel in Kunstkopfstereofonie war zur Funkausstellung 1973 in Berlin die RIAS/BR/WDR-Produktion „Demolition“ nach dem Science-Fiktion-Roman von Alfred Bester „The Demolished Man“, 1951. In einer  spannenden Darstellung wurden dabei die dramaturgischen Möglichkeiten des Kunstkopfverfahrens eindrucksvoll genutzt:

5.5 Verfahren der räumlichen Tonübertragung 

 375

überzeugend reale Abbildung außerhalb des Kopfs, Gedanken im Kopf, nahe Geräusche und Flüstern direkt am Ohr, Schallereignisse ohne Ort. Durch Verbesserungen, die erstmalig beim Kunstkopf KU 81 wieder von Neumann und anderen vergleichbaren Kunstköpfen realisiert wurden, stehen seit den 1980er Jahren Kunstköpfe zur Verfügung, bei denen die genannten Mängel weitgehend beseitigt werden konnten. Folgende Maßnahmen wurden u. a. getroffen: –– Die durchschnittlichen Kopfmaße einschließlich der Details der Ohr- und Kopfform wurden nochmals sorgfältig ermittelt und nachgebildet. –– Als Ergebnis theoretischer Überlegungen von Theile [Theile, 1981] kann dabei aber auf die genaue Nachbildung der Gehörgänge und Trommelfell verzichtet werden. –– Als Schnittstelle zwischen Kunstkopfmikrofon und Kopfhörer wird die Entzerrung des Frequenzgangs unter Bezug auf das diffuse Schallfeld als sog. Diffusfeldentzerrung definiert. Durch diese Entzerrung des Kunstkopfmikrofons konnte insbesondere die Kompatibilität zur Lautsprecherwiedergabe erreicht werden. –– Umgekehrt muss auch der Kopfhörer diffusfeldentzerrt sein; nicht nur, um die optimale Anpassung an den diffusfeldentzerrten Kunstkopf zu gewährleisten, sondern auch, um eine klangneutrale Wiedergabe „normaler“  stereofoner Aufnahmen  sicherzustellen. Die Messung des Kopfhörer-Übertragungsmaßes erfolgt  mit Hilfe eines Sondenmikrofons im Ohrkanal, Einzelheiten dazu legt die internationale Empfehlung [ITU-R BS.708] fest, siehe dazu Kap. 5.5.4.2. Tab. 5/20. Attribute der räumlichen Abbildung und prinzipielle Möglichkeiten der Übertragungsverfahren. Attribute der räum- 2/0-Stereofonie lichen Abbildung

5/0- und 5/1Stereofonie

Kunstkopfstereofonie ohne head tracking

horizontale Richtungen

+30° bis − 30°, keine anderen Richtungen

+30° bis − 30°, Einschränkungen für den Surroundbereich

alle Richtungen, Einschränkungen für den Frontbereich

alle Richtungen

vertikale Richtungen

eingeeingeschränkt möglich schränkt möglich

möglich, Einschränkungen für die Medianebene

möglich

Entfernungen nahe am Kopf

nicht möglich

nicht möglich

möglich

möglich

Entfernung, Tiefe

simuliert

simuliert

möglich, Einschränkungen bei bewegtem Kopf

möglich

Raumeindruck

möglich

möglich

möglich

möglich

Umhüllung

eingeeingeschränkt möglich schränkt möglich

möglich

möglich

mit head tracking

376 

 5 Tonaufnahme und Tonwiedergabe

In Tab. 5/20 sind die prinzipiellen Möglichkeiten der Kunstkopftechnik den Möglichkeiten der Zwei- und Mehrkanal-Stereofonie gegenübergestellt. Das dort genannte Head-Tracking bezeichnet ein Verfahren zur Erfassung der Position und der Bewegungen des Kopfs, um eine mit dem Kopf erfolgende Steuerung des Frequenzgangs zu ermöglichen. Die Erkennung kann beispielsweise durch am Kopf befestigte Sensoren oder durch eine oder mehrere auf den Kopf gerichtete Kameras erfolgen. Das Tracking muss präzis erfolgen und eine geringe Latenzzeit von höchstens 80 ms aufweisen [Mackensen, 2004]. Selbst bei optimaler Diffusfeldanpassung des Kunstkopfmikrofons an den Kopfhörer gemäß ITU-R BS.708 kann bei der Kunstkopfstereofonie ohne head tracking nicht für alle Hörer ein optimales Hörerlebnis garantiert werden; Schwierigkeiten bereitet weiterhin die Ortung frontaler Schallquellen, die teilweise hinter oder über dem Kopf lokalisiert werden. Dafür seien hier zwei wichtige Lösungsansätze genannt: Individualanpassung und Head Tracking. Wichtige Aufgaben erfüllt der Kunstkopf aber auch auf ganz anderen Gebieten wie Car-HiFi, Materialprüfung, Geräuschmessungen u.a., siehe Kap. 4.2.4.6. Individualanpassung Im Idealfall arbeitet das Verfahren bei völliger Übereinstimmung der akustischen Eigenschaften von Kunstkopf und Kopf des Hörers. Der Kunstkopf ist zwar nach Durchschnittsmaßen gearbeitet, fußt aber in der Regel dennoch auf der Kopie eines bestimmten repräsentativen Kopfs, von dem die individuellen Kopfmaße eines Hörers mehr oder weniger abweichen. Der zweite Aspekt  sind interindividuelle Unterschiede der Außenohr- bzw. resultierenden Kopfhörerübertragungsmaße, die u. a. von Kopfform und Kopfhörerbauart abhängen. Das entsprechend [ITU-R BS.708] gemessene Diffusfeldübertragungsmaß eines individuellen Kopfhörers bezieht sich auf den Mittelwert über 16 Probanden. Individualanpassung würde in diesem Zusammenhang bedeuten, dass die ermittelten Unterschiede zwischen Mittelwert und individuellem Diffusfeldübertragungsmaß des Kopfhörers korrigiert werden. Nachführung der Kopfdrehung: head tracking Untersuchungen am Institut für Rundfunktechnik (IRT) haben gezeigt [Mackensen, 1989], dass die fehlende Individualanpassung nicht die wesentliche Ursache für die Probleme der Lokalisierung in der Medianebene darstellt. Besonders gravierend macht sich die Tatsache bemerkbar, dass das Gehör kleinste Änderungen der binauralen Signaleigenschaften der Ohrsignale auswertet, die durch Kopfdrehungen entstehen. Bewegt der Hörer den Kopf, so erwartet das Gehör die damit einhergehenden natürlichen Änderungen insbesondere der interauralen Ohrsignalbeziehungen, die ein starr aufgestellter Kunstkopf nicht liefern kann. Die Wirkung des head tracking zeigen die in Abb. 5/83 dargestellten Untersuchungsergebnisse. Treten beim starren Kunstkopf noch Richtungsvertauschungen und IKL, also Im-KopfLokalisiertheit, auf,  so  sind diese bei der Verwendung von Head Tracking verschwunden. Die aus den Kopfdrehungen resultierende dynamische Anpassung der binauralen Signale an die momentane Kopfausrichtung des Hörers mittels head tracking ist eine wichtige Voraussetzung für die optimale Kunstkopfübertragung.

5.5 Verfahren der räumlichen Tonübertragung 

 377

Abb. 5/83. Lokalisation in der Medianebene, links mit und rechts ohne head tracking [Mackensen, 1998].

5.5.5.2 Praktische Anwendung Das Kunstkopfverfahren simuliert die Situation des „natürlichen“ Hörens von allen Verfahren elektroakustischer Signalübertragung am besten. Es fordert demgemäß einen adäquaten Standort des Kunstkopfs bei der Aufnahme. Adäquat heißt, dass derjenige Ort im Aufnahmeraum für die Aufstellung des Kunstkopfs gesucht werden sollte, an dem beim natürlichen Hören ein optimaler Klangeindruck entsteht. Bei Kunstkopfaufnahmen ist die Wahl der Abhörlautheit wesentlich wichtiger als bei Aufnahmen in raumbezogener Stereofonie. Sie ist so genau wie möglich der Lautheit am Ort des Kunstkopfs anzupassen. Bewährt hat es sich, für die Kalibrierung des Wiedergabepegels einen Sprecher aufzunehmen, der z. B. in 1  m Abstand  seitlich des Kunstkopfs eine kurze Ansage macht. Der Hörer kann auf Grund seiner großen Erfahrung mit dem Klang und der Lautheit des gesprochenen Worts den korrekten Wiedergabepegel mit einer Genauigkeit von ca. ±  1  dB reproduzieren. Effektgeräte im Übertragungsweg wie z. B. Kompressoren beeinträchtigen das optimale Hörereignis und sollten deshalb nicht verwendet werden. 5.5.5.3 Lautsprecherwiedergabe Eine optimale Wiedergabe der binauralen Signale ist nur über Kopfhörer oder Kopfhörer nachbildende Anordnungen möglich. Eine korrekte und stabile Reproduktion der binauralen Signale über Lautsprecher ist problematisch, da das System voraussetzt, dass Signale vom linken Kunstkopfmikrofon nur an das linke Ohr gelangen, entsprechend rechts. Um zu verhindern, dass Anteile des linken binauralen Signals das rechte Ohr erreichen und umgekehrt, werden den Lautsprechern  sog. Crosstalk Cancellation-Filter oder Transaural-Filter vorgeschaltet, die die Übersprechanteile an den beiden Ohren aufheben. Die Vorfilterungen sollen bewirken, dass die bei der Überlagerung der Lautsprechersignale an den Ohren des Hörers entstehenden Übersprechanteile unterdrückt werden. Die Anzahl und Position der beteiligten Lautsprecher beeinflusst die Qualität der Übersprechkompensation. Das einfachste Verfahren verwendet die Standard-Lautsprecheranordnung für Zweikanal-Stereofonie. Durch zusätzliche Lautsprecher lassen sich jedoch die Qualität und die Stabilität der Übersprechkompensation erhöhen. Die Filter, die die Kompensationssignale erzeugen,  sind bei einer gegebenen Lautsprecheranordnung nur für eine bestimmte Kopfposition und Kopfausrich-

378 

 5 Tonaufnahme und Tonwiedergabe

tung gültig. Soll sich der Hörer in diesem Umfeld bewegen können, müssen die momentane Position und Ausrichtung des Kopfs durch head tracking laufend ermittelt und die Filter dementsprechend kontinuierlich angepasst werden. Entsprechende Wiedergabesysteme mit dynamisch veränderbaren Filtern wurden bereits für entsprechende Experimente entwickelt, können aber derzeit noch nicht als praxistauglich bezeichnet werden. Verzichtet  man bei der Lautsprecherwiedergabe auf die Anwendung der Übersprechkompensation,  so arbeitet der Kunstkopf als ein Stereomikrofon in gemischter Stereofonie,  siehe Kap.  5.3.5. In dieser Anwendung entfalten die interauralen Signalunterschiede des Kunstkopfs die Wirkung stereofoner Lautsprechersignale. Jedoch werden die binauralen Übertragungsfunktionen des Außenohrs des Kunstkopfs dabei nicht mehr für das räumliche Hören ausgewertet. Sie verursachen prinzipiell sogar Klangverfärbungen, wenn der Kunstkopf richtungsspezifisch entzerrt wird, z. B. freifeldentzerrt für 0°, also für vorne (siehe hierzu Kap. 5.5.4.2). Nur bei richtungsneutraler, d. h. bei der Diffusfeldentzerrung, tritt diese Beeinträchtigung bei der Reproduktion von Kunstkopfsignalen über Lautsprecher nicht auf, in diesem Fall ist Kompatibilität mit Standard-Stereo­mikrofonen gewährleistet.

5.5.6 Binauralisierung Besonders das Aufkommen  mehrkanaliger immersiver Verfahren  der Lautsprecherwiedergabe sowie die in der Praxis  stark zunehmende Beliebtheit  mobiler Endgeräte haben das Hören mit Kopfhörern attraktiv gemacht. Wesentlich dazu beigetragen haben auch Verfahren, die das typische Klangbild bei Kopfhörerwiedergabe von stereofonen Signalen, die für Lautsprecher vorgesehen sind, mehr oder weniger beseitigen; es ist durch Im-Kopf-Lokalisation (IKL) und kopfbezogenes räumliches Hören geprägt. Eine solche Kopfhörerwiedergabe ist unvollständig bezüglich diverser Attribute wie Entfernung, Tiefe, Raumeindruck und Umhüllung. Kopfhörerwiedergabe ist nicht uneingeschränkt tauglich für die vollständige Beurteilung einer  stereofonen Mischung, auch z. B. hinsichtlich Lautstärke- und Hallbalance. Der Mangel ist besonders gravierend, wenn nur der einfache zweikanalige Downmix einer Mehrkanal-Aufnahme beurteilt werden kann, denn die technischen und künstlerischen Probleme für den Downmix verfälschen das Klangbild zusätzlich. 5.5.6.1 Binaurale Raumsynthese Moderne Faltungstechnik ermöglicht die realitätsgetreue Darstellung eines virtuellen 3D-Audio-Studios  mit Kopfhörern. „Binaural Room Synthesis“-Systeme (BRS) gewährleisten virtuelle Mehrkanal-Lautsprecher­wiedergabe in professioneller Qualität, sie lassen sich problemlos für 3D-Lautsprecher-Konfigurationen (vgl. Kap.  5.4.5) einsetzen, die Zahl und Anordnung der Lautsprecher ist theoretisch unbegrenzt. Die 3D-Audio-Signale werden mit gemessenen oder  modellierten binauralen Impulsantworten (BRIR) eines hochwertigen Studios gefaltet (Prinzipdarstellung  siehe Abb.  5/84). Die Datenauswahl für die Faltung geschieht  mittels head tracking in Abhängigkeit von der aktuellen horizontalen Kopfausrichtung,  so dass der Hörer die virtuellen Lautsprecher unabhängig von der Kopfhaltung raumbezogen lokalisiert [Horbach, 1998, 1999]. Dabei ist – je nach Anwendungsfall – eine

5.5 Verfahren der räumlichen Tonübertragung 

 379

horizontale Bewegungsfreiheit des Kopfs bis zu ± 180° realisierbar. Die dynamische head tracking-gesteuerte BRIR-Zuordnung reproduziert die Wirkung der spontanen Kopfbewegungen des Hörers und verhindert dadurch die kunstkopftypischen vorn/hinten-Inversionen (vgl. Kap. 5.5.5.1), darüber hinaus bleibt der virtuelle Abhörraum auch bei Kopfdrehungen stabil. Er ist nicht kopfbezogen, sondern raumbezogen, vorne bleibt bei Kopfdrehung vorne. Das Tracking  muss präzis erfolgen und eine geringe Latenzzeit aufweisen, höchstens 80  ms [Mackensen, 2004]. Der Kern des BRS-Verfahrens ist eine Datenbank von binauralen Raumimpulsantworten (BRIR), die vorab am linken und rechten Ohr einer Person oder eines Kunstkopfs gemessen und katalogisiert werden. Die Messung erfolgt für jeden der Lautsprecher im Abhörraum und für verschiedene Kopfausrichtungen. Der Head-Tracker am Kopfhörer detektiert den Drehwinkel des Kopfs, so dass abhängig davon auf die aktuell relevanten BRIR-Datensätze zugegriffen und daraus die Faltungen berechnet werden können. Dieser Prozess muss ausreichend genau, schnell und störgeräuschfrei erfolgen, um eine realitätsgetreue Wiedergabe zu gewährleisten (vgl. Kap. 5.5.5.1).

Abb. 5/84. Binaural Room Synthesis (BRS).

Einfache BRS-Geräte arbeiten ohne Head-Tracker, so dass das kopfbezogene Klangbild erhalten bleibt und deshalb die spontane stabile Vorne-Lokalisation nicht möglich ist. Eine praxisgerechte und besonders hochwertige Lösung basiert auf einer personalisierten Messung der Raumimpulsantworten einschließlich der Kopfhörerübertragungsfunktionen, so dass nicht mit den Ohren eines Kunstkopfs gehört wird, sondern mit den eigenen Ohren [Smyth, 2007]. Head Tracking bewirkt die Abkehr von der kopfbezogenen zugunsten der raumbezogenen Wiedergabe. Sie erzielt nicht nur ein wünschenswerten Klangerlebnis, das trotz der Kopfhörerwiedergabe der Center-Lautsprecher bei Kopfdrehung vorne bleibt. Vielmehr benötigt das Gehör die feinen dynamischen Ohrsignalmerkmale, die beim natürlichen Hören durch kleine  spontane Drehbewegungen des Kopfs vorhanden  sind. Ausgewertet werden  sowohl für den Direktschall als auch für die frühen Reflexionen die  monauralen Veränderungen im Frequenzspektrum der Ohrsignale, besonders aber die Veränderungen der interauralen Zeit- und Pegeldifferenzen. Das Gehör benötigt Übereinstimmung der binauralen Informati-

380 

 5 Tonaufnahme und Tonwiedergabe

onen  mit der taktilen Information über die Kopfbewegung. Bei herkömmlichen Kunstkopf­ aufnahmen mit starrem Kunstkopf sind derartige Peil- oder Korrekturbewegungen des Kopfs nicht möglich. Daher können Phänomene wie Im-Kopf-Lokalisiertheit oder – beim Fehlen passender interauraler Merkmale – eine Vertauschung vorn-hinten auftreten (vergl. Abb. 5/83). Diese Technologie erlaubt es,  selbst im Ü-Wagen oder unter anderen ungünstigen Abhörbedingungen 3D-Aufnahmen zu reproduzieren. Der Tonmeister kann seine gewohnte Abhörumgebung überall hin mitnehmen. Er kann per Knopfdruck zwischen verschiedenen Abhörsituationen wählen, um beispielsweise das Klangbild außerhalb des Sweetspots zu überprüfen oder verschiedene Lautsprecher oder Wiedergaberäume zu vergleichen. Beim Konsumenten erlaubt BRS die weit bessere 3D-Wiedergabequalität als mit Lautsprechern im Wohnzimmer. Der Hörer ist zudem, völlig unabhängig von der Wahl der Lautsprecherkonfiguration, ein BRS-Prozessor kann bei geeigneter Signalisierung im Prinzip für jedes Mehrkanal-Format die passende Wiedergabeanordnung zur Verfügung stellen, dies ohne die vielen praktischen Probleme bei der korrekten Lautsprecher-Installation in der Wohnung. 5.5.6.2 Externalisierung Systeme ohne Head Tracking erzielen keine oder keine stabile Lokalisation in der Medianebene. Darüber hinaus gewährleisten technisch einfachere Geräte keine vollständige AußerKopf-Lokalisation (AKL). Die erzielbare AKL tritt auf Grund verschiedener Ohrsignalmerkmale auf, die gleichzeitig vorliegen und die das Gehirn mit unterschiedlichem Gewicht auswertet [Werner, 2018]. Abhängig vom Grad der Vollständigkeit und Stimmigkeit der Merkmale entsteht daraus der mehr oder weniger klar lokalisierte Hörereignisort außerhalb des Kopfs. Die Qualität und Stimmigkeit der reproduzierten Ohrsignalmerkmale sind maßgeblich für den Grad der sog. Externalisierung verantwortlich. Vollständige Externalisierung liegt vor, wenn das Gehör die vom Außenohr verursachten Signaleigenschaften, die Lokalisierungsreizmerkmale, vollständig einem Hörereignisort außerhalb des Kopfs bezüglich Richtung und Entfernung zuordnen kann [Theile, 1980]. Monoaufnahmen bestehen aus identischen Signalen, die mit Kopfhörer kohärent direkt an den Ohren wiedergegeben werden. Diese diotische Hörsituation tritt beim natürlichen Hören praktisch nie auf. Direkt- und Raumschall erscheinen als Hörereignis in Kopfmitte. Konventionelle Stereoaufnahmen beruhen größtenteils auf Mikrofon-Systemen, die weitgehend frequenzunabhängige Signale  mit Pegel- und/oder Laufzeitdifferenzen erzeugen. Sie  sind nicht durch die BRIR geprägt, enthalten keine binauralen Merkmale, wie  sie der Kunstkopf erzeugt. Deshalb wird damit das Hörereignis im Kopf lediglich zum linken oder rechten Ohr ausgelenkt. Man nennt das Lateralisation, im Gegensatz zur Lokalisation, die außerhalb des Kopfs stattfindet; sie ist zu verstehen als stereofone Wiedergabe mit Lautsprechern an den Ohren (vgl. Kap. 5.5.3.2). [Buff, 2020] Reine Koinzidenzmikrofone oder übliche Balance-Regler ermöglichen  mit Kopfhörern lediglich eine Darstellung im Kopf; sie folgt denselben Gesetzmäßigkeiten wie die Phantomschallquelle zwischen zwei entfernt aufgestellten Stereo-Lautsprechern. Außerkopf-Lokalisation gelingt umso besser, je genauer das Stereomikrofon die natürlichen interauralen Zeitdifferenzen aufnimmt. Deshalb funktioniert das Kugelflächenmikrofon (siehe Kap.  5.3.4.1) diesbezüglich optimal.

5.5 Verfahren der räumlichen Tonübertragung 

 381

Höherwertige Externalisierungs-Prozesse können zumindest in Teilen des oberen Halbraums dreidimensionale, immersive virtuelle Umgebungen darstellen. Eine vollständige und robuste vorne-hinten-Externalisierung ist in der Praxis allerdings nur erreichbar, wenn die natürlichen Lokalisationsreize weitgehend vollständig vorhanden sind. Dabei haben für die Lokalisation in der Medianebene vorne-hinten die  spontanen Kopfdrehungen die wesentliche Bedeutung, die Wirkung der dynamischen binauralen Merkmale im Zeitbereich ist weit größer als die Wirkung der entsprechenden binauralen  spektralen Merkmale (vergl. Kap. 5.5.5.1). Für eine binaurale Musikwiedergabe ohne head tracking fällt die Unterscheidung zwischen vorne und hinten  schwer, weil die kleinen  spontanen Kopfdrehungen des Hörers nicht die adäquaten natürlichen Änderungen der binauralen Ohrsignalmerkmal erzeugen. In diesem Fall stellen Filter mit der Außenohr-Übertragungsfunktion oder HeadRelated Transfer Function (HRTF) der eigenen Ohrmuscheln, also die Individualentzerrung einen besonders wichtigen Faktor für vollständige Externalisierung dar. Bei Kopfhörerwiedergabe mit genau passenden HRTFs sind Schallquellen außerhalb des Kopfs vor oder hinter einer Hörperson wahrnehmbar. Abhängig von verschiedenen Faktoren ist die Externalisierung in der Nähe der Medianebene jedoch  mehr oder weniger  schwach ausgeprägt. Bewegt sich die Schallquelle zwischen vorne und hinten, fällt die Unterscheidung leichter. Ist der Schallquellenort dagegen statisch, fällt die Unterscheidung schwerer. Dies besonders, wenn die Quelle ein schmalbandiges Signal abstrahlt und kein gut unterstützender reflektierter Schall vorhanden ist. Unterstützend sind vor allem klar strukturierte frühe Reflexionen aus seitlichen Richtungen, auch korrekt verzögerter und gepegelter Hall. Man kennt diese Wirkung auch bei Lautsprecherstereofonie bei der Simulation der räumlichen Tiefe (vergl. Kap. 5.2.4). Die Komponenten Direktschall und Nachhall bzw. Diffusschall können als Vordergrund und Hintergrund verstanden werden [Griesinger, 1997]. Sie unterscheiden  sich bezüglich Lokalisierung voneinander: Der Direktschall einer Schallquelle hat eine eindeutige Richtung; eine Schallquelle ist  mit frei beweglichem Kopf besonders gut lokalisierbar, da das Gehör die dadurch verursachten kleinsten Änderungen der  monauralen Spektren und der binauralen Pegel- und Zeitdifferenzen auswertet. Diffusschall enthält dagegen keine Lokalisationsreize, eine Hörereignisrichtung existiert nicht. Es gibt einen kritischen Punkt, an dem die Richtung des Direktschalls nicht  mehr eindeutig wahrgenommen werden kann, weil der Direktschallanteil von den späten Reflexionen und dem Nachhall zu stark verdeckt ist. Bewegte Schallquellen im Vordergrund erzeugen in ähnlicher Weise wie Kopfdrehungen dynamische Lokalisationsreize, sie heben sich wesentlich deutlicher vom statischen Hintergrund ab als unbewegte, ihre Lokalisation ist stabiler (vergl. Kap. 5.5.5.1). 5.5.6.3 Werkzeuge für Binauralisierung Es  sind Werkzeuge zur Binauralisierung  mit  sehr unterschiedlichen Eigenschaften und Anwendungszwecken entwickelt worden. Produktionsseitig kommen sowohl solche Verfahren zum Einsatz, die zwar ohne Head Tracking, jedoch mittels gemessenen oder gerechneten binauralen Impulsantworten (BRIR) eines realen 3D-Lautprecher-Setups eine virtuelle binaurale 3D-Reproduktion der Lautsprecherwiedergabe anstreben. Dies gelingt aus verschiedenen Gründen unterschiedlich. Aber auch Werkzeuge, die lediglich mittels Externalisierung

382 

 5 Tonaufnahme und Tonwiedergabe

den gewöhnlichen Im-Kopf-Gestaltungsbereich nach außen vergrößern, haben ihre Berechtigung, beispielsweise im Bereich der Popmusik-Produktion. Generell kann zwischen zwei Anwendungsfällen in der Praxis unterschieden werden: Binauralisierung als integrierte Klangeffekte in Stereoproduktionen für Konsumenten und Binauralisierung als Ersatz für eine Lautsprecherwiedergabe als „binauraler Downmix“. Kopfhörer-optimierte Stereoproduktionen Mit dem Aufkommen von portablen Wiedergabegeräten wie Walkman und später Smartphones haben sich die Gehörgewohnheiten von der Wiedergabe über Lautsprecher drastisch zur Wiedergabe über Kopfhörer verschoben. In der Folge und mit Aufkommen von 3D-Audio haben Produzenten besonders der Popmusik damit begonnen, mit Hilfe spezieller Werkzeuge zur Externalisierung die Stereoproduktionen für die Kopfhörerwiedergabe zu optimieren. Üblicherweise geschieht das  mit Plugins, welche die klanglichen Eigenschaften der Lautsprecherwieder in Stereo wie druckvolle Tieftonwiedergabe und minimale Klangverfärbung erhalten und gleichzeitig die räumliche Transparenz auf Bereiche außerhalb des Kopfs erweitern wollen. Diese Systeme arbeiten mit HRTFs oder BRIRs aus gerechneten oder modellierten Abhörsituationen, jedoch abweichend von BRS-Systemen (vgl. Kap. 5.5.6.1) ohne Head tracking. Maximale Kompatibilität  mit Lautsprecherwiedergabe in Stereo lässt  sich  mit einem Kugelflächenmikrofon bzw.  mit den BRIRs des Kugelflächenmikrofons erzielen. Werkzeuge mit dieser Qualität können in der Frontalebene sehr gute Externalisierung erreichen, räumliche Transparenz und immersives Hören, weitgehend ohne klangliche Verfärbung. Die Unterscheidbarkeit vorne-hinten fehlt, da hier zugunsten der Lautsprecherkompatibilität die Wirkung der Ohrmuscheln auf das Spektrum vermieden wird. Dieser Verzicht erweist sich in der Praxis für Kopfhörerwiedergabe sogar als vorteilhaft, denn ohne Tracking wertet das Gehör die spektralen Merkmale nicht vollständig aus, was sich ungünstig auf die Klangfarbe auswirkt. Eine vollständige, verfärbungsfreie Auswertung würde den Einsatz der persönlichen Ohren und präzise Einhaltung der Entzerrung des Kunstkopfs und des Kopfhörers erfordern. Eine Soundcard für Externalisierung ohne Tracking wäre demnach besonders verfärbungsarm, wenn auf die vorne-hinten-Unterscheidung verzichtet wird, also die binauralen Impulsantworten des Kugelflächenmikrofons zu Grunde liegen und nicht die des Außenohrs. Im Gegensatz dazu, getrieben vom Trend zum Kopfhörer beim mobilen Musikhören und in Anwendungsbereichen Virtual Reality und Game, gibt es in vielen Produktionsstudios auch das Bestreben, sich primär auf maximale klangliche Qualität für die Kopfhörerwiedergabe zu konzentrieren, wenn erforderlich eher zuungunsten der Lautsprecherwiedergabe. Hier ist es eine zeitgemäße Musikproduktion, „wenn die Kopfhörerversion die erste und beste Version ist.“ [Buff, 2021] Multichannel-Produktionen Auf der Wiedergabeseite gibt es seit langer Zeit sehr gut funktionierende Prozessoren für die Binauralisierung auf Tracking- Basis. Produktionsseitig werden sie bevorzugt eingesetzt, um den hohen studioseitigen Aufwand für eine immersive Wiedergabe zu vermeiden, beispielsweise im Ü-Wagen. Ähnliches gilt auf der Consumer-Seite. Marktgerechte Tracking-Kopfhörersysteme ermöglichen dem Konsumenten das volle immersive Erlebnis einer realistischen virtuellen 3D-Lautsprecherwiedergabe, nicht nur im Heimkino, sondern auch im normalen

5.6 Gestaltung des Klangbilds 

 383

Wohnzimmer oder beim mobilen Empfang. Leistungsstarke Geräuschunterdrückungstechniken vergrößern in lärmbelasteten Situationen den Dynamikbereich und lassen eine detailreiche 3D-Audio Wiedergabe zu. Head tracking-basierte Binauralisierungs-Prozessoren überführen die mehrkanaligen Lautsprechersignale in ein binaurales Kopfhörersignal. Dieser spezielle Downmix ist nicht standardisiert, im Gegensatz zu den Downmix-Regeln für 2.0-Stereo-Lautsprecherwiedergabe, beispielsweise gemäß 5.1-Mehrkanal-Standard ITU-R BS.775. Zumindest für die Produktionsseite ist ein Studiostandard denkbar, der diverse Lausprecherformate in einem Referenzabhörraum virtuell darstellt. Die Reproduzierbarkeit eines solchen BRS-Kopfhörerstandards ist höher als zurzeit mit der Standardisierung von Lautsprechern und Abhörräumen möglich [Theile, 2015]. Hersteller von Geräten für den Konsumenten sind meist weniger an engen Toleranzen eines Standards interessiert, sie verfolgen eigene Strategien hinsichtlich Marktakzeptanz, die auch wirkungsvolle klangbildändernde Software-updates einschließen, beispielsweise Änderung der Klangfarbe, der Entfernungswahrnehmung, der räumlichen Transparenz. Event-Beschallung Werkzeuge zur Binauralisierung können prinzipiell Lautsprecher-Setups beliebiger Konfiguration nachbilden. Ihre Anwendung im Bereich der Beschallung von Konzerten, Theatern etc. ist vorteilhaft, weil für die Produktion nicht der reale Raum zur Verfügung stehen muss. Die Kreation der räumlichen Szene geschieht in einem beliebigen Ort virtuell per BRS TrackingKopfhörersystem und visueller Darstellung der Lautsprecherpositionen Lautsprecherpositionen. Auf der linken Seite des Bildschirms des Graphical User Interface-PlugIns (GUI) sind die in der Mischung verwendeten Klangobjekte aufgelistet und die dazu gehörenden einstellbaren räumlichen Parameter. Auf der rechten Seite ist das Ergebnis visuell überprüfbar und auch bearbeitbar. Die Klangobjekte sind als farbige Punkte im Raum dargestellt, wo sie bei der Lautsprecher-Wiedergabe vor Ort oder virtuell, binaural, abgebildet werden sollen. Sind die Tonschaffenden nach Beendigung der Produktion im Studio vor Ort, überprüfen sie lediglich auf dem vorgesehenen Wiedergabesystem die Mischung und passen  sie dort bei Bedarf an. Auch Änderungen des Lautsprecher-Setups vor Ort müssen keine Änderungen der erstellten Mischung nach sich ziehen; es muss lediglich die bestehende Mischung mit dem angepassten Lautsprecher-Setup neu gerendert werden.

5.6 Gestaltung des Klangbilds Die Ton- und Übertragungstechnik steht im Dienst von Inhalten, die sie mit ihren medienspezifischen Mitteln darstellt, übermittelt und bewahrt. Es ist deshalb gerechtfertigt, in diesem Handbuch über die Technik der Aufnahme, Speicherung, Übertragung und Wiedergabe von Klangereignissen hinaus den Blick auch auf die Darstellung und Gestaltung der Inhalte zu lenken. Denn jedes zu übertragende Klangereignis vermittelt einerseits Informationen, Bedeutungen, Botschaften und emotionale Inhalte, andererseits ist es gestaltet nach ästhetischen Richtlinien, nach dramaturgischen Grundsätzen und künstlerischen Intentionen. Viele Produktionen sind rein handwerklicher Art, gekennzeichnet durch eine möglichst fehlerlose Technik und eine Klanggestaltung, die allgemeine Erfahrungen berücksichtigt, Erwartungen

384 

 5 Tonaufnahme und Tonwiedergabe

erfüllt und die klangliche Darstellung in Übereinstimmung bringt mit allgemein anerkannten Prinzipien der Gestaltung; diese können beschrieben werden (Kap. 5.6.1). Die klangliche Darstellung beschränkt sich aber nicht auf diese „handwerklichen“ Klangprodukte, sondern reicht hin bis zur Schaffung von hörbaren Kunstwerken, bis zu künstlerischen Werken eines Urhebers und geistigen Eigentümers. Während bei der Tongestaltung (Kap.  6) die Klangeigenschaften einzelner Elemente des Klangs bearbeitet werden, also z. B. die Klangfarbe, der zeitliche Verlauf einzelner Töne oder der Raumeindruck, wird die Klanggestaltung als übergreifend aufgefasst, sie hat das Gesamtklangbild und dessen zeitlichen Ablauf als Ganzes im Blick, also etwa die Dynamik, die Balance zwischen Teilen des Klangs, den Bezug zum dargestellten Raum usw. Klangdramaturgie kann verstanden werden als eine dem Gesamtklangbild noch übergeordnete Ordnungs- und Gestaltungsebene, die die künstlerische Umsetzung  mitbestimmt. Der Mittler zwischen Technik und Musik ist der Tonmeister und/oder Tonregisseur, im Wortbereich der Regisseur. Die folgenden Ausführungen müssen sich bevorzugt auf die handwerkliche Ebene beziehen, also auf beschreibbare, anerkannte Grundsätze und Möglichkeiten der Gestaltung; Ton- und Klanggestaltung gehen da fließend ineinander über. Mit klanglichen Aspekten der Aufnahmen von Wortproduktionen befasst sich Kap. 5.6.2, von klassischer Musik Kap. 5.6.3, von populärer Musik Kap. 5.6.4 und von Fernsehtonproduktionen Kap. 5.6.5.

5.6.1 Grundsätze klanglicher Gestaltung Die Gestaltungsdimensionen, die bei der Klanggestaltung zur Verfügung stehen, spielen sich bei Zweikanal-Stereofonie zwischen den beiden Abhörlautsprechern ab, bei Mehrkanal-Stereofonie zwischen allen beteiligten Lautsprechern, es sind also zunächst die Orte und Dimensionen des Raums, die es zu besetzen gilt. Dazu gehört im erweiterten Sinn auch die Darstellung des Raums, in dem das Klanggeschehen stattfindet. Bei der klassischen Zweikanal-Stereofonie etwa ist die Frage zu beantworten nach der Verteilung der Schallquellen zwischen den beiden frontalen Lautsprechern, bei der Mehrkanal-Stereofonie kommen Fragen der Zuweisung von Schallquellen oder Rauminformationen an die seitlichen Surround-Lautsprecher hinzu. Die  möglichen Schallquellenorte der Real- und Phantomschallquellen bei der Wiedergabe, ihre symmetrische oder unsymmetrische Anordnung zueinander und die Einbettung in einen Raum können so gekennzeichnet und bewertet werden: Mittenschallquelle Die Mitte einer Darstellung oder Klangdarstellung, ist ein hervorgehobener Ort, der  seine Bevorzugung aus den Erfahrungen und Gewohnheiten des Alltags bezieht. Was für uns wichtig ist, das sehen wir an, es steht also in unserer Wahrnehmung in der Mitte, eine tiefe Erfahrung, an der keine Gestaltung vorbei gehen kann, der allerdings auch bewusst zuwidergehandelt werden kann. Es ist unüblich, den Gesangssolisten eines Titels der Populärmusik oder einen Instrumentalsolisten in einem klassischen Konzert außerhalb der Mitte anzuordnen, hier werden Erwartungen erfüllt und es wird den Erfahrungen des Hörers gefolgt. Nachteilig ist bei Zweikanal-Stereofonie, dass die Mittenschallquelle eine Phantomschallquelle darstellt mit all ihren Nachteilen: sie erscheint nur dann in der Mitte, wenn auch

5.6 Gestaltung des Klangbilds 

 385

der Hörer innerhalb der Hörzone – eigentlich genau in der Mitte zwischen den Lautsprechern – ist,  sie  scheint eine geringere Präsenz zu haben und unterscheidet  sich  mit ihrer etwas dunkleren Klangfarbe von einer Realschallquelle, sie ist weniger real und weniger direkt, sie ist über die Verbindungslinie der Lautsprecher erhoben (siehe Kap. 5.2.1). Aus diesen Nachteilen ergibt  sich ein  ständiger Konflikt  mit den oben genannten gestalterischen Gesichtspunkten. Die Mehrkanal-Stereofonie  mit einem Centerlautsprecher hebt die genannten Einwände auf; dieses Problem wurde beim Filmton schon früh erkannt und durch den sog. Dialogkanal behoben. Frontale Seitenschallquellen Frontale Seitenschallquellen  sind bei allen Arten der Stereofonie grundsätzlich Realschallquellen, d. h., sie kommen nur aus einem der Lautsprecher und behalten auch außerhalb der Hörzone ihren ursprünglichen Ort, sie stabilisieren die räumliche Dimension einer Aufnahme. Seitenschallquellen  machen eine Aufnahme also auch bei  schlechten oder untauglichen Abhörbedingungen zu einer Stereoaufnahme, allerdings eingeschränkt, weil die Phantomschallquellen in dem jeweils näheren Lautsprecher verschoben werden. Als Realschallquellen haben Seitenschallquellen eine besondere Präsenz und eine klangliche Glaubwürdigkeit. Bisweilen wird ein stereofones Klangbild, das sich stark auf Seitenschallquellen stützt, abwertend als Ping-Pong-Stereofonie bezeichnet, in Erinnerung an die Anfangszeit der Stereofonie, als ihre neuen Fähigkeiten durch ein Tischtennismatch deutlich demonstriert werden sollten. Wenn sich ein stereofones Klangbild tatsächlich auf die Wiedergabe der Seitenschallquellen beschränkt, wird die Leistungsfähigkeit des Systems nicht voll genutzt, andererseits  sollte die klangliche Qualität von Realschallquellen durchaus bedacht und gewürdigt werden (siehe auch Kap. 5 2 1). Phantomschallquellen vorne Phantomschallquellen stellen – wie Mittenschallquellen bei Zweikanal-Stereofonie – an den Hörer immer die Forderung, sich innerhalb der Hörzone aufzuhalten und den Kopf symmetrisch zu den Lautsprechern zu halten, für viele praktische Hörsituationen zu Hause sicher eine vielfach unerfüllte Forderung. Ungeachtet dessen muss bei der Aufnahme von weitgehend optimalen, zumindest guten Aufnahmebedingungen ausgegangen werden (Kap. 5.2.3). Tiefenstaffelung Die Tiefenstaffelung einer Aufnahme erweitert den darstellbaren Klangraum, sie schafft die Möglichkeit, auch Bedeutungsebenen zuzuweisen, das Wichtigste nahe, Begleitendes weiter entfernt, oder auch: das Besondere vorne, das Allgemeine weiter entfernt. Da die Dimension der Entfernung bei Lautsprecherstereofonie nur simuliert werden kann wie auf einem zweidimensionalen Bild, ist ihre Darstellbarkeit nicht sehr differenziert. Zwei bis drei Entfernungsebenen  sind  mit einiger Sicherheit unterscheidbar. Kunstkopfstereofonie bietet hier weitaus bessere Bedingungen. Symmetrie Ein allgemein über die Geschichte der Kunst hinweg erfolgreicher Gestaltungsansatz ist die Symmetrie und Unsymmetrie, in diesem Fall des Klangs. Sie ist eine der Platzierung der

386 

 5 Tonaufnahme und Tonwiedergabe

Schallquellen übergeordnete Gestaltungsdimension. Sie kann bei Musik z.  B.  so realisiert werden, dass links und rechts gleich hohe, gleich bedeutende, gleich laute Musikinstrumente gesetzt werden. Aber bereits eine starke, wichtige Mittenschallquelle schafft eine Symmetrieachse, die ein Minimum von Symmetrie vermittelt. So zeigt sich, dass neben der Zweiteiligkeit gerade eine Dreiteiligkeit von Klanggruppen auf klassische Art symmetrisch sein kann. Einen ersten Konflikt gibt es bei vier Klanggruppen, weil hier unter dem Gesichtspunkt der Symmetrie die Mitte unbesetzt bleibt. Fügt man diesen Überlegungen eine weitere, weiter entfernte, dahinter liegende Ebene hinzu, so gelten für diese zunächst dieselben Überlegungen. Sie steht aber nun in Beziehung zur vorderen Ebene: so könnte der Konstellation hoch– tief–hoch in der zweiten Ebene ein tief–hoch–tief in der ersten Ebene zur Seite stehen. Es gibt gut lokalisierbare Musikinstrumente wie etwa ein Klavier oder ein Snare Drum, andere Instrumente wie ein Base Drum oder eine Pauke  sind auf Grund ihrer Klangeigenschaften schwerer zu lokalisieren; es ist sinnvoll – wenn die Möglichkeit besteht – gut lokalisierbare Instrumente für die Darstellung der Symmetrie zu nutzen, also seitlich anzuordnen, und weniger gut lokalisierbare Instrumente in der Mitte zu platzieren. Verallgemeinernd bedeutet das, dass die weniger gut lokalisierbaren tiefen Instrumente eher als Phantomschallquellen in der Mitte angeordnet werden, die besser lokalisierbaren hohen Instrumente eher seitlich; auch bei dieser Überlegung ergibt sich ein Konflikt zu dem Grundsatz, dass der Solist in der Mitte zu platzieren sei. Aber gerade die Konflikte bei den Gestaltungsgrundsätzen sind es, die kreative Lösungen fordern und die Klanggestaltung vor Routine bewahren. Die genannten räumlichen Gestaltungsprinzipien  stellen  meist noch keine künstlerischen Entscheidungen dar,  sondern gehören zum Handwerk,  sie können deshalb auch konkret beschrieben werden und spielen bei den meisten Wortaufnahmen (Kap. 5.51) eine tragende Rolle. Bei Musikaufnahmen behalten sie ihre Geltung, sind aber einbezogen in ein komplexes Gewebe von Gestaltungskriterien. Kap. 5.5.2 versucht, einige Gesichtspunkte für die Aufnahme klassischer Musik zusammenzustellen; wegen des zunehmenden Einflusses künstlerischer Intentionen wird es dabei schon schwieriger, konkrete Gestaltungsgesichtspunkte zu beschreiben, Ähnliches gilt für Fernsehtonaufnahmen (Kap.  5.6.3). Der Bereich populärer Musik bleibt in diesem Zusammenhang unberücksichtigt. Wie bei klassischer Musik ist die Komplexität der Thematik beachtlich, die Möglichkeiten, die Phänomene und Vorgänge in Worten darzustellen, beschränkt. Gerade bei populärer Musik  spielen zudem Entwicklungen, Trends, Moden, individuelle Ausprägungen eine solche Rolle, die Verallgemeinerungen kaum zulassen und die Möglichkeiten eines Handbuchs überschreiten, denn hierfür müssten in erster Linie Klangbeispiele stehen. Raumschall Zunächst stellt sich die Frage, ob der Raum der Aufnahme überhaupt übertragen werden soll oder nicht. Bei Aufnahmen von Schallquellen, die im  meist kleinen, akustisch trockenen Wiedergaberaum denkbar wären oder Platz finden würden, ist zu erwägen, ob der Aufnahmeraum überhaupt übertragen werden soll, die Aufnahme also ganz „trocken“ sein soll oder nicht. Am deutlichsten wird die Frage bei Sprachaufnahmen, die meist ohne eigene Raumakustik aufgenommen werden. Die Wiedergabelautsprecher vertreten die Schallquelle, die Aufnahme wirkt glaubhaft und natürlich. Soll aber z. B. ein öffentlicher Vortrag mit Publikum aufgenommen werden, so gehört die akustische Atmosphäre dazu, sie vermittelt dokumenta-

5.6 Gestaltung des Klangbilds 

 387

risch die besondere Situation der Aufnahme. Auch eine Schallquelle wie eine Gitarre könnte einerseits ohne, aber auch mit der Akustik des Aufnahmeraums übertragen werden, denn der Gitarrist könnte durchaus in einem üblichen Wiedergaberaum spielen, die Lautsprecher könnten ihn vertreten. Anders stellt sich die Situation etwa bei einem großen Orchester oder Chor, bei einer Blaskapelle oder einem populären Musiktitel dar, solche Schallquellen sind im Wiedergaberaum nicht denkbar, sie müssen die Raumakustik mit der Aufnahme mitbringen, der Hörer wird mit in den Konzertsaal genommen. Über die Phänomene der Wahrnehmung des Raumschalls, wie sie in Kap. 1.2.2 beschrieben wurden, hat der Raum aber eine weitergehende Bedeutung bei der Aufnahme, vielleicht vergleichbar der Beleuchtung einer Szene oder eines Gegenstands, treffend kann er auch als das „Kleid der Musik“ [Blaukopf, 1956] umschrieben werden. Ein kleiner Raum – hörbar durch die wenig verzögerten Reflexionen, vermittelt Privatheit, Intimität, aber auch Eingeschlossenheit, vielleicht auch Einsamkeit. Der große Raum verleiht Öffentlichkeit, Festlichkeit, Feierlichkeit und aus religiöser Erfahrung die Würde eines  sakralen Raums – hörbar durch länger verzögerte Reflexionen und langen Nachhall. Der Nachhall gibt durch  seine Dauer, Feinstruktur und Klangfärbung Auskunft über die Beschaffenheit der Raumoberfläche (siehe Kap.  1.1.2.4), ob es  sich eher um die  stoffbezogenen Wände eines Opernhauses handelt, den holzverkleideten Konzertsaal oder die  steinerne Kirche. Diese akustischen Eigenschaften transportiert der Raumschall für den Hörer wohl meist nicht bewusst wahrnehmbar, aber auch stark abhängig von der Hörerfahrung und einer differenzierten Wahrnehmungsfähigkeit des Hörers.

5.6.2 Klangliche Aspekte von Wortproduktionen Wortproduktionen sind Aufnahmen, bei denen das gesprochene Wort im Mittelpunkt steht. Es kann sich dabei z. B. um Nachrichten, Interviews, die Lesung eines einzelnen Sprechers oder auch um die  szenische, künstlerisch anspruchsvolle Darstellung eines Hörspiels  mit Musik- und Geräuscheinblendungen handeln. Der Ablauf einer Wortproduktion muss nicht in der endgültigen Reihenfolge ihrer Teile erfolgen. Oft unterteilt man das Manuskript oder Textbuch aus Gründen rationeller Produktion in mehrere Abschnitte: Diejenigen Szenen oder Sequenzen werden nacheinander aufgenommen, die mit denselben Sprechern besetzt sind. Wenn alle Teilaufnahmen vorliegen, werden  sie in der richtigen Reihenfolge zusammengesetzt, ggf. auch nachträglich  mit Geräuschen gemischt. Zum Aufnahmeteam eines aufwändigen Hörspiels gehören Regisseur, Regieassistent, Toningenieur und Tontechniker, eventuell mit Assistenten. Für einfache Wortaufnahmen sind nur der Regisseur oder Aufnahmeleiter und ein Tontechniker erforderlich, Interviews o. ä. werden auch vom Reporter ohne technische Assistenz durchgeführt. Jede Rundfunkanstalt verfügt über für Wortaufnahmen geeignete Studios, vom einfachen Sprecherstudio bis hin zum Hörspielkomplex mit Aufnahmeräumen, die verschiedene raumakustische Eigenschaften haben. Die Nachbearbeitung liegt – bedingt durch die Entwicklungen der digitalen Tontechnik – schon weitgehend in der Hand der Programmmitarbeiter, sofern es sich um einfache Wortaufnahmen handelt. Das Manuskript für eine Wortproduktion ist das vollständige Textbuch, versehen mit allen Angaben über szenische Abläufe, Ausdrucksvarianten, Originalgeräusche, Geräuscheinblen-

388 

 5 Tonaufnahme und Tonwiedergabe

dungen usw. Es wird aus einer Idee über ein Exposé, also einem kurzen Handlungsaufriss, und das Treatment, ein ausführlicher Handlungsaufriss, hin zum vollständigen Textbuch entwickelt. Nachdem es der zuständige Redakteur redigiert hat, wird es zur Aufnahme freigegeben. In Tab.  5/21  sind wichtige Stilformen von Wortproduktionen aufgezählt. Die Hauptkategorien  sind informierende Darstellungen, Meinungen äußernde Darstellungsformen und künstlerische, phantasiebetonte Darstellungsformen. Die Grenzen zwischen den einzelnen Stilformen sind unscharf. Tab. 5/21. Stilformen von Wortproduktionen. Kategorie

Begriff

Definition

Erläuterungen

Information

Nachricht

nach bestimmten Regeln gestaltete aktuelle Information über Ereignisse und Sachverhalte

Man unterscheidet „harte“ und „weiche“ Nachrichten. Harte Nachrichten sind knapp und prägnant formuliert, sie informieren über die „vier Ws. einer Nachricht“: das Was, Wer, Wie und Wo eines Ereignisses oder Sachverhalts. Die Teile der Nachricht sind meist nach ihrer Wichtigkeit geordnet, so dass sie von ihrem Ende her gekürzt werden können. Weiche oder leichte Nachrichten sind in einem persönlicheren, farbigeren Ton gehalten.

Reportage

tatsachenorientierter, aber auch persönlich gefärbter Erlebnisbericht eines Reporters, der meist als Augenzeuge berichtet

Kennzeichnend ist eine Vielfalt von Stilmitteln, die häufig wechseln. Bei der Reportage werden vor allem sichtbare Ereignisse durch das Wort beschrieben.

Interview

Befragung eines oder mehrerer Gesprächspartner durch einen Reporter, bei der Tatsachen und Meinungen wiedergegeben werden

Oft handelt es sich dabei um die Befragung bekannter Persönlichkeiten, auch per Telefon, aber z. B. auch von Straßenpassanten, zu aktuellen Themen.

Statement

kurze Erklärung oder Stellungnahme einer Person zu einem bestimmten Thema

Im Gegensatz zum Interview tritt kein befragender Reporter in Erscheinung.

Gesprächsrunde, Roundtable

Gespräch von Politikern, Journalisten, Wissenschaftlern usw. mit unterschiedlichen Ansichten

Es soll dem Hörer ein breit gefächertes Meinungsspektrum zu einem Thema bieten. Spannend und interessant werden Diskussionen durch Konflikte zwischen den Verfechtern unterschiedlicher Meinungen.

Glosse

kurzer meinungsbetonter, Meist wird eine überspitzte Argumentation vielfach witziger Beitrag verwendet.

Meinung

5.6 Gestaltung des Klangbilds 

Kunst

 389

Kommentar

sachbezogene Form der Meinungsäußerung

Es werden Tatsachen erläutert und interpretiert, Hintergründe dargelegt sowie Meinungen begründet oder widerlegt.

Feuilleton

betont persönliche Form der Darstellung von Nebensächlichkeiten und Kleinigkeiten des Lebens

Es versucht, diesen Dingen eine bewegende, interessante, über sich hinausweisende Bedeutung abzugewinnen.

Feature

Sammelbegriff für journalistischen Stilformen, die nicht nur sachliche Informationen geben

Es handelt sich um eine Dokumentation, die durch verschiedene Sprecher, durch erdachte Szenen, durch Einblendung von Kurzinterviews, Statements, Originalgeräuschen, Musik usw. eine hörfunkspezifische Form darstellt. Durch die umfangreiche Verwendung von Originaltönen neben Informationen durch das gesprochene Wort werden besondere Stimmungen, Atmosphäre und andere nichtverbale Informationen übermittelt. Das Feature vereint also Information, Dokumentation, Meinung und Unterhaltung.

Hörspiel

eine für die dramatischen Möglichkeiten des Hörfunks bzw. eines reinen Hörmediums entwickelte Kunstform, vergleichbar einem Schauspiel ohne szenische Darstellung

Der Autor nutzt allein die Aussagekraft des Hörbaren, also des gesprochenen Worts, von Geräuschen und Musik unter Verzicht auf das Sichtbare und fordert die Vorstellungskraft des Hörers.

5.6.2.1 Sprachaufnahmen Bereits bei einfachen Sprachaufnahmen in Stereo werden dramaturgische Prinzipien angewendet: Ein einzelner Sprecher wird stets in der Mitte der Abhörbasis abgebildet, also als reine Phantomschallquelle, obwohl dies im Prinzip für die Klangdarstellung keine optimale Lösung ist, denn der Sprecher wandert auf der Lautsprecherbasis, wenn sich der Hörer aus der Mitte der Abhörbasis entfernt. Klanglich günstiger wäre die Abbildung eines einzelnen Sprechers seitlich als Realschallquelle in einem der Lautsprecher, das indessen widerspricht der Erwartung des Hörers, einen Sprecher in der Mitte vor sich, in Blickrichtung, zu haben. Von der Möglichkeit, Sprecher in den Lautsprechern als Realschallquellen abzubilden, wird deshalb nur bei zwei Sprechern Gebrauch gemacht. In der Praxis werden auch diese oft etwas zur Mitte hin verschoben, aus dem Bedenken heraus, zwischen den Sprechern könne zu viel Abstand entstehen. Bei drei Sprechern bietet sich die Lösung links–Mitte–rechts ohne Alternative an. Abhörlautstärke Zwischen der Abhörlautstärke, der natürlichen Lautstärke der Sprecher und einer möglichen Klangfärbung besteht bei Tonaufnahmen ein Zusammenhang, der bei Sprache besonders deutlich wahrgenommen wird, weil der Klang der menschlichen Stimme zu den tiefsten und

390 

 5 Tonaufnahme und Tonwiedergabe

genauesten Erfahrungen des Menschen gehört. Die Lautstärke der Klangkomponenten der Stimme ist unterhalb etwa 100 Hz bei Männern und 200 Hz bei Frauen relativ unabhängig von der Sprechlautstärke (siehe Kap. 2.2), wird also hauptsächlich von der Entfernung zum Sprecher bestimmt. Bei jeder elektroakustischen Wiedergabe, bei der die Abhörlautstärke aber von der natürlichen Lautstärke am Mikrofonort abweicht, muss sich somit eine unnatürliche Wiedergabe der Tiefen ergeben; bei unnatürlich lautem Abhören dröhnt die Stimme, weil die tiefen Komponenten relativ zu den höheren zu stark sind, bei unnatürlich leiser Wiedergabe wird ihr Klang flach, weil die Tiefen fehlen. Sinnvoll ist es deshalb, die Abhörlautstärke an die natürliche Lautstärke anzupassen, also der Lautstärke, die herrschen würde, wenn sich die Sprecher am Ort der Abhörlautsprecher befinden würden. Störungen Bei normaler Sprechweise herrscht in einer Entfernung von etwa 60 cm vom Sprecher ein Schalldruckpegel von rund 60 dB, der sich bei Annäherung auf etwa 30 cm um rund 4 dB auf 64 dB erhöht; wird laut gesprochen, erhöht sich der Pegel um jeweils nochmals etwa 6 dB. Damit ergibt sich in einem Studio, das den an ein Rundfunkstudio gestellten Anforderungen gerecht wird (siehe Kap. 1.3 und 19.6.1), ein Störpegelabstand zu dem allgemeinen Studiound Mikrofongeräusch von rund 50 dB. Dabei bestimmt das Eigenrauschen des Mikro­­fons vor allem den erreichbaren Geräuschpegelabstand. Kürzere Pausen in Sprachaufnahmen bestehen aus einer Aufnahme der akustischen Studioatmosphäre, auch „Atmo“ oder „Raum statisch“; es empfiehlt sich deshalb bei hohen Anforderungen, zu einer Sprachaufnahme stets noch einige Sekunden Atmo als Mischung aus Studio- und Mikrofongeräusch für evtl. einzufügende Pausen aufzunehmen. Bei geringem Mikrofonabstand – unter 30 bis 50  cm – ruft der Nahbesprechungseffekt (siehe Kap. 4.2.1) durch eine hörbare Anhebung der Tiefen ein unnatürliches Dröhnen hervor; für diesen Fall stehen Mikrofone mit einschaltbarer Bassabsenkung zur Verfügung bzw. Mikrofone mit einer festen Bassabsenkung, sog. Solistenmikrofone; selbstverständlich kann auch eine Filterung in der Tonregie erfolgen. Bei der vielfach vor allem im Studio üblichen Entfernung von etwa 60 cm spielt der Effekt keine nennenswerte Rolle. Störender sind bei geringerem Mikrofonabstand Poppeffekte durch die Explosivlaute des Sprechers; ein Windschutz  schafft hier Abhilfe (siehe Kap.  4.2.1.8). Störende Klangfärbungen entstehen, wenn das Mikrofon zugleich  mit dem Direktschall Reflexionen vom Sprechertisch oder Manuskript aufnimmt. Je nach Anordnung lassen  sich  solche Reflexionen jedoch vermeiden (Abb. 5/85). Klangfärbungen machen sich vor allem dann störend bemerkbar, wenn die durch die Reflexion entstehende Kammfilterkurve ihre Klangfärbung verändert, was  sich durch Bewegungen des Sprechers ergibt. Im Gegensatz zu Hörspielstudios benötigen reine Sprecherstudios keine Mindestgröße; durch Festlegung des Sprechplatzes und des Mikrofonorts kann die raumakustische Gestaltung alle akustischen Anforderungen erfüllen. Die Nachhallzeit beträgt im Allgemeinen etwa 0,2 bis 0,3 s; erste Reflexionen werden dabei so weit wie möglich unterdrückt. Nachrichten Nachrichten werden sachlich, ohne persönliche Anteilnahme des Sprechers gelesen. Ziel ist eine  möglichst hohe Wortverständlichkeit. Sie wird nicht nur durch angemessene Sprech-

5.6 Gestaltung des Klangbilds 

 391

geschwindigkeit erreicht,  sondern vor allem auch durch einen  möglichst gleichmäßigen Verlauf des Pegels, d. h., ohne  stark betonte Wörter oder in der Lautstärke zurückgenommene Satzenden, Satzteile oder Wörter. Auch bei Einsatz eines Kompressors müssen diese Grundsätze beachtet werden.

Abb. 5/85. Vermeidung von Klangfärbungen bei Wortaufnahmen.

Interview und Reportage Das Interview-Mikrofon wird zunächst nach  seiner Richtcharakteristik ausgewählt: Die Kugelrichtcharakteristik eignet sich, wenn zugleich mit einem Interview oder einer Reportage die akustische Atmosphäre übertragen werden soll; sofern es sich um Druckempfänger handelt, sind Kugelrichtmikrofone zudem weniger wind- und handempfindlich als Richtmikrofone. Die Niere eignet sich für Aufnahmesituationen, in denen Nebengeräusche ausgeblendet werden und nur der Reporter und der Befragte aufgenommen werden sollen; das Störgeräusch entscheidet über die Haltung bzw. Führung des Mikrofons (Abb. 5/86). Eine Acht blendet Störgeräusche ebenso gut wie die Niere aus; sie kann deshalb bei zwei Gesprächspartnern gut eingesetzt, ohne bewegt zu werden, muss allerdings fast in Höhe des Munds gehalten werden.

Abb. 5/86. Mikrofonhaltung bei Interviews und Reportagen.

Grundsätzlich ist ein Wind- und Poppschutz zu empfehlen (siehe Kap.  4.2.1.8). Bei Mikrofonabständen weniger als 30 cm sollte bei der Verwendung von Richtmikrofonen ein Nah-

392 

 5 Tonaufnahme und Tonwiedergabe

besprechungsmikrofon gewählt werden; dieser Mikrofontyp verfälscht aber die akustische Atmosphäre, indem er die Tiefen bedämpft. Bei geringem Besprechungsabstand wird die Mikrofonmembran nicht frontal angesprochen,  sondern zur Vermeidung von Übersteuerungen durch Popplaute  schräg. Da Richtmikrofone ziemlich empfindlich gegen Körperschall sind, müssen Reibgeräusche am Mikrofon und am Mikrofonkabel unbedingt vermieden werden. Dafür ist es nützlich, das Kabel mit einer Schlaufe durch die Hand zu ziehen, wie in Abb. 5/63 dargestellt. 5.5.2.2 Gesprächsrunden Für eine Gesprächsrunde oder Roundtable gelten zunächst dieselben Gesichtspunkte bezüglich Schallpegel, Studiogeräusch, Nahbesprechungseffekt und Klangfärbung durch Reflexionen wie bei einem Einzelsprecher. Bei der Mikrofonaufstellung kommen zwei Möglichkeiten in Betracht: Zunächst kann jedem Gesprächspartner nach dem Einzelmikrofonverfahren ein Mikrofon zugeteilt werden, das dann bei Stereoaufnahmen in der Tonregie durch Panorama-Potentiometer in  seine Abbildungsrichtung eingeordnet wird. Dieses Verfahren bietet zugleich die Möglichkeit, die Mikrofone nur bei Bedarf zu öffnen. Diese Funktion kann auch ein Schwellwertschalter (Noise Gate) übernehmen; ein Expander reduziert ebenfalls unnötige Geräusche in Pausen. Um in Gesprächspausen kein akustisches Loch entstehen zu lassen, muss zusätzlich ein Raummikrofon aufgestellt werden.

Abb. 5/87. Mikrofonaufstellung bei Gesprächsrunden, 1. MS: Acht/Acht, XY: Acht/Acht unter ± 45°, 2. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90°, 3. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90°, 4. Torus für Monowiedergabe, gekreuzte Achten unter 90° Phasenverschiebung.

5.6 Gestaltung des Klangbilds 

 393

Einen besseren Eindruck von der akustischen Atmosphäre im Gesprächsraum gibt eine Aufnahme  mit einem oder zwei Stereomikrofonen in etwas größerem Abstand. Dabei können die Gesprächsteilnehmer auf einem Kreisbogen von 270° angeordnet werden, in XY-Aufnahmetechnik werden dann zwei Nieren unter ± 45° eingestellt. Sitzen die Teilnehmer im Kreis, können zwei Nieren mit ± 90° in XY‑Technik aufgestellt werden. Die Verwendung von zwei Stereomikrofonen „Rücken an Rücken“ ist nicht sinnvoll. Gelegentlich wird für Monoaufnahmen ein Stereomikrofon  mit unter 90° gekreuzten Achten verwendet, die über ein sog. 90°-Filter zusammengeschaltet werden; es entsteht dabei die Richtcharakteristik einer rotierten Acht, ein  sog. Torus, der waagrecht allseitig gleich empfindlich ist, aber diffusen Schall von oben und unten ausblendet (Abb. 5/87, 4). Auch mit Grenzflächenmikrofonen (siehe Kap.  4.2.4.2) werden gute Erfahrungen gemacht;  sie  sind unauffällig und zeigen besonders auch bei sich vom Mikrofon abwendenden Sprechern gute Ergebnisse, da bei diesen Mikrofonen zwischen Direkt- und Diffusschall keine Klangfarbenunterschiede bestehen.

5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik Die Klangästhetik von Musikaufnahmen ist wie die Ästhetik anderer Kunstformen einer ständigen Veränderung unterworfen. Neben allgemeinen Strömungen gibt es auch kurzlebige Trends oder spezielle Anforderungen der Produzenten. Dennoch soll versucht werden, einige klassische Prinzipien der Klangästhetik von Musikaufnahmen darzustellen. Klangästhetische Überlegungen werden umso wichtiger, je komplexer und je räumlich ausgedehnter eine Komposition oder Aufführung angelegt ist. So ist es bei der Aufnahme eines Sängers mit Gitarrenbegleitung dem Geschmack überlassen, ob der Sänger links oder rechts von der Gitarre abgebildet wird oder ob die Gitarre in genau derselben oder in unterschiedlicher Entfernung wie der Sänger wiedergegeben wird. Bei der Aufnahme eines großen Werks mit Gesangsolisten, Soloinstrumenten, Orchester und Chor hingegen wird die Klangästhetik zu einer künstlerischen Frage größter Wichtigkeit, die, ebenso wie die Darbietungen der Sänger und Musiker, Teil der musikalischen Interpretation des Werks ist. Klangästhetische Entscheidungen sind schon bei kleinen Besetzungen zu treffen. Sie folgen den Vorgaben der Partitur und berücksichtigen aufführungspraktische Notwendigkeiten, tragen also vielfach einen gewissen Kompromisscharakter. Die traditionellen Platzierungsschemata  sind auch unter klangästhetischen Gesichtspunkten entstanden; ein gutes Beispiel hierfür ist die sog. deutsche Orchesteraufstellung, die durch räumliche Klangsymmetrie gekennzeichnet ist. Andere Orchesteraufstellungen folgen vielleicht eher aufführungspraktischen Aspekten, wie z. B. die amerikanische Orchesteraufstellung, die wegen der Verteilung von hohen Streichern links nach tiefen Streichern rechts für Stereoaufnahmen eine gewisse Problematik darstellt. Zur Beschreibung des Klangbilds bei Aufnahmen klassischer Musik dienen im Wesentlichen drei Parameter: Richtung, Tiefenstaffelung und Räumlichkeit. Im Aufnahmeraum spielen die Akustik des Aufnahmeraumes, die Orchesteraufstellung und die Größe des Ensembles eine zentrale Rolle für ein der Komposition angemessenes Klangbild. Die Grundlage für alle Entscheidungen einer künstlerischen Klangdramaturgie bildet die Partitur. Hier ist die Vorstellung des Komponisten festgelegt. Es bleibt aber über das Noten-

394 

 5 Tonaufnahme und Tonwiedergabe

bild hinaus ein Spielraum, in welcher Weise die musikalischen Vorgaben von den Künstlern, aber auch vom Tonmeister umgesetzt werden sollen: –– Der  musikalische Verlauf  mit Haupt- und Nebenstimmen  muss plastisch dargestellt werden. –– Die Akustik eines weitgehend guten Aufnahmeraums soll vorteilhaft dargestellt werden, Schwächen eines Raums dagegen unterdrückt werden. –– Die natürliche Balance des Ensembles soll erhalten bleiben. –– Überall dort, wo Unterstützung nötig ist, kann und muss die Aufnahmetechnik unterstützend eingreifen. Das Pult des Dirigenten im Orchester steht an einem akustisch eher ungünstigen Ort. Die vorderen Streicher sind hier überproportional stark, andere Teile des Orchesters möglicherweise zu schwach hörbar. Ein guter Dirigent korrigiert diesen Nachteil für sich selbst durch seine Erfahrung. Eine zusätzliche fachliche Beratung durch den Tonmeister, der sich im Studio, aber auch im Saal einen Eindruck verschaffen kann, ist für das Gelingen einer guten Aufnahme oftmals willkommen. Wenn es die Produktionszeit zulässt, ist der auditive Vergleich des Klangeindrucks zwischen Saal und Lautsprecherwiedergabe zudem ein wichtiges Hilfsmittel für die Klangbildeinstellung. Hohe Produktionskosten, insbesondere bei Aufnahmen mit großen Besetzungen, geben allerdings zunehmend einen knappen Zeitrahmen vor. Für Klangvergleiche oder Probeaufnahmen klanglich  schwieriger Passagen  steht vielfach keine Zeit zur Verfügung. Deshalb ist es zwingend notwendig, die Anordnung und Typenauswahl des Hauptmikrofonsystems und der Stützmikrofone vor Beginn der Aufnahme sorgfältig zu planen. Notwendige Korrekturen der Klangbalance werden überwiegend am Mischpult realisiert, ohne während der Aufnahmesitzungen, z. B. durch zeitaufwändige Änderungen der Sitzordnung im Orchester, in die Balance eingreifen zu müssen. Deshalb werden Aufnahmen häufig auf Mehrspursystemen aufgezeichnet. Die Option für spätere Klangkorrekturen ohne Zeitdruck im Rahmen der Nachbearbeitung wird somit ermöglicht. [Schlemm, 1997] 5.6.3.1 Aufnahmeräume Viele Kompositionen klassischer Musik sind für bestimmte Räume komponiert worden. Bis ins 19. Jahrhundert haben die Komponisten überwiegend für Kirchen, Opernhäuser und höfische Räume geschrieben. Die Raumgrößen waren sehr unterschiedlich, vielfach nur für wenige Dutzend oder hundert Hörer gemacht. Der Redoutensaal in Wien von 1752 mit etwa 1.500 Plätzen z. B., in dem viele Werke der Wiener Klassik aufgeführt wurden, war mit seiner Größe  schon eher eine Ausnahme; demgegenüber ist das berühmte Alte Gewandhaus in Leipzig von 1781  mit rund 400 Plätzen, nach einem Umbau 1842  mit 570  Plätzen, in dem viele Werke der deutschen Romantik uraufgeführt wurden, auffallend klein. Der weltberühmte Goldene Saal des Wiener Musikvereins wurde 1870 eröffnet. Er hat heute 1744 Sitzplätze sowie zusätzlich rund 300 Stehplätze. Erst  seit dem ausgehenden 19. Jahrhundert  stehen Konzertsäle im heutigen Sinn für öffentliche Aufführungen, oft nach dem Vorbild des Musikvereinsaals oder des Neuen Gewandhauses in Leipzig – das heute nicht mehr existiert – in der Form einer Schuhschachtel

5.6 Gestaltung des Klangbilds 

 395

gestaltet, zur Verfügung; sie werden vielfach auch für Aufnahmezwecke genutzt. [Beranek, 2010], [Forsyth, 1992], [Meyer, 2002, 2004], siehe hierzu insbesondere Kap. 1.2. Die Verteilung des Direkt- und des Diffusschalls in einem Konzertsaal ist durchaus ortsabhängig, es gibt akustisch gute und weniger gute Plätze. Durch die Richtwirkung der Instrumente und Schallreflexionen an Wandoberflächen kann der Schall eines Instruments in  seiner Richtung akustisch anders wahrgenommen werden als die tatsächliche Position dieses Instruments zum Hörer; gerade in Opernhäusern, in denen das Orchester unterhalb der Bühne in einem Orchestergraben sitzt, erreicht der Schall den Hörer teils erst über die Seitenwände  sowie die Untersicht des oberen Abschlusses der Bühne, den Soffitten. Dem Hörer im Konzert gibt dessen Auge die korrekte Position eines Instruments an. Die Wahrnehmung des Ohrs wird in der Regel der des Auges untergeordnet. Bei Aufnahmen aber kann diese Fehlortung zu einem akustischen Problem werden. Ein allgemein gültiges Prinzip der Klangästhetik bei Lautsprecherwiedergabe ist, dass der Hörer die Darbietung wie auf dem besten Platz eines Konzertsaals wahrnehmen  soll. Das Fehlen der optischen Information des Aufnahmeraums bei der Wiedergabe in anderen Räumen muss durch genaue, in manchen Fällen möglicherweise durch eine verdeutlichend übertriebene Richtungs- und Entfernungswiedergabe bei der Aufnahme ersetzt werden; eine u.  U. überzogene Verdeutlichung der Darstellung rechtfertigt  sich auch durch die vielfach nicht idealen Wiedergabebedingungen beim Hörer. Dem Tonmeister stehen hierfür vielfache Gestaltungsmittel zur Verfügung. Wichtig ist eine dem Werk und dem Raum adäquate Mikrofonierung. In aller Regel besteht ein Mikrofon-Setup aus einer stereofonen Hauptmikrofonanordnung, z. B. Klein-AB, Groß-AB oder einer der anderen Hauptmikrofonanordnungen und zusätzlichen Stützmikrofonen (siehe Kap. 5.3, besonders 5.3.5). Während das Hauptmikrofonsystem in einer ausgewogenen Distanz zum Klangkörper und in der Nähe, innerhalb des Hallradius’ positioniert ist, befinden sich die Stützmikrofone im Nahfeld der Instrumente. Das Hauptmikrofonsystem soll Direktschall und Raumanteile des Saals möglichst homogen aufnehmen, während die Stützmikrofone wichtige musikalische Details der Partitur erfassen. Bei kleinen Besetzungen in einem gut und ausgewogen klingenden Raum kann häufig eine einzige Hauptmikrofonanordnung in einer  sorgfältig erarbeiteten Distanz vom Klangkörper bereits ein sehr gutes Ergebnis liefern. Ist die Akustik des Aufnahmeraums jedoch problematisch oder steht wenig Zeit für die Einstellung des Klangbilds zur Verfügung, werden zusätzliche Stützmikrofone an geeigneten Positionen platziert. Bei ungünstigen akustischen Verhältnissen sei es in zu halligen Räumen oder bei störenden Nebengeräuschen, muss möglicherweise ohne Hauptmikrofon, d. h., nach dem Einzelmikrofonverfahren aufgenommen werden (Kap.  5.3.6). Auf elektronischem Weg können dann nach Bedarf erste Reflexionen und Nachhall dem Klangbild zugemischt werden. In einem zu kleinen Aufnahmeraum entstehen frühe erste Reflexionen, die den räumlichen Eindruck entscheidend prägen. Diese störenden frühen Reflexionen können im Klangbild nicht eliminiert werden, gerichtete Mikrofone und ein relativ geringer Mikrofonabstand sind mögliche Gegenmaßnahmen. Es ist unter dieser Voraussetzung schwierig, einen adäquaten Raumeindruck zu realisieren, es besteht die Gefahr eines zweiräumigen Klangeindrucks. Bei Aufnahmen in Räumen mit zu viel Nachhall ist der Hallradius klein und die Nachhallzeit lang, der Diffusschallpegel ist bezogen auf den Direktschallpegel hoch. Der Raum-

396 

 5 Tonaufnahme und Tonwiedergabe

eindruck kann mittels geschickter Wahl der Mikrofonpositionen günstig beeinflusst werden, indem der Abstand von der Hauptmikrofonanordnung zum Orchester wie auch der Abstand der Stützmikrofone zu den einzelnen Schallquellen kleiner gewählt wird, um das Verhältnis von Direktschall zu Raumanteil zugunsten des Direktschalls zu erhöhen. Die natürliche Nachhallzeit bleibt so erhalten, aber das Klangbild wird durchsichtiger. 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis Kammermusikensembles Die Basisbreite bei der  stereofonen Abbildung der Instrumente  soll der Logik der räumlichen Perspektive nicht widersprechen. Große Klangkörper werden stets so breit wie möglich abgebildet, kleinere können entsprechend auch  schmaler abgebildet werden. Unabhängig von der Abbildungsbreite soll der Raumschall immer die ganze Basisbreite einnehmen. Die Position eines kleineren Klangkörpers auf der Stereobasis ergibt  sich in der Regel aus der Sitzordnung des Ensembles. Bei einem Streichtrio z. B. mit Geige, Violoncello und Bratsche ist es vorteilhaft, die Geige im Klangbild links oder halblinks, das Violoncello in der Mitte und die Bratsche rechts bzw. halbrechts abzubilden. Bedingt durch das Abstrahlverhalten der Instrumente erreicht man mit dieser Aufstellung eine klare Richtungsabbildung auf der Stereobasis. Die Tiefenstaffelung spielt in der Kammermusik eine eher untergeordnete Rolle. Eine natürliche und ausgeglichene Balance lässt  sich bei kleineren Besetzungen bereits durch unterschiedliche Sitzpositionen der Musiker zum Hauptmikrofon finden, auf Stützmikrofone kann dann meist verzichtet werden. Orchester Groß besetzte Orchesterwerke weisen mehrere Klangebenen auf. Neben einer differenzierten Richtungsabbildung der verschiedenartigen Instrumente kommt als weitere Dimension die Tiefenstaffelung hinzu. Vorne sind die Streichinstrumente abgebildet, etwas entfernter die Holz- und Blechbläser, und sofern vorhanden, dahinter der Chor. Solistische Darbietungen werden noch vor den Streichern im Vordergrund positioniert. Es gibt in der Aufführungspraxis klassischer Musik verschiedene Orchesteraufstellungen, deren Unterschiede sich vor allem in der Anordnung der Streichergruppen darstellen. Die drei gebräuchlichsten Varianten sind die deutsche, die amerikanische und die gemischte Aufstellung, alle drei Sitzordnungen werden heute nebeneinander praktiziert [Meyer, 2015]. Streichinstrumente: Im Sinne eines ausgewogenen Klangbilds hat die deutsche Aufstellung (Abb.  5/89), von der  sog. Mannheimer Schule um 1750 entwickelt, den Vorteil räumlicher Klangsymmetrie: Die Tonlagen der hohen Streichinstrumente kommen  seitlich von links und rechts, während die tiefe Tonlage der Violoncelli und der Kontrabässe sich um die Mitte gruppieren. Diese Sitzordnung wirkt sich nicht nur vorteilhaft für die Aufnahme im Sinne einer Klangsymmetrie, sondern ebenso für die Wiedergabe im Saal aus. Die Violoncelli und Bässe strahlen direkt in den Saal und werden mit einem idealen Abstand vom Hauptmikrofon abgebildet. Oft kann man daher bei dieser Sitzordnung auf Stützmikrofone für die beiden Gruppen verzichten.

5.6 Gestaltung des Klangbilds 

 397

Die deutsche Aufstellung der Streicher war im 19. und beginnenden 20. Jahrhundert allgemein üblich; diese Anordnung lag zu jener Zeit auch den Klangvorstellungen der Komponisten zu Grunde. So spielen beispielsweise im Vorspiel zur Oper Lohengrin von Richard Wagner in den ersten 34 Takten ausschließlich die vierfach geteilten Violinen  mehr als drei Minuten lang zu Beginn des Werks. Sind die Streicher nach der deutschen Aufstellung angeordnet, füllen die ersten und zweiten Violinen vorteilhaft die gesamte Basisbreite aus, während  sich bei den beiden anderen Varianten die Wiedergabe dieser Musik nur auf die linke Hälfte der Stereobasis beschränkt. Beispiele ähnlicher Art, die die deutsche Anordnung zur Voraussetzung haben, finden sich in großer Zahl beginnend bei Ludwig van Beethoven bei allen wichtigen Komponisten der Orchestermusik des 19. Jahrhunderts [Meyer, 2015]. Es ist unabhängig von der Orchesteraufstellung für die Streicher sinnvoll. pro Instrumentengruppe mit zwei Stützmikrofonen zu arbeiten. Dies unterstützt eine ausgedehnte Abbildung jeder Streichergruppe und sorgt für einen homogenen Klang.

Abb. 5/88. Anordnung der Streicher bei der deutschen Orchesteraufstellung.

Abb. 5/89. Anordnung der Streicher bei der amerikanischen Orchesteraufstellung.

398 

 5 Tonaufnahme und Tonwiedergabe

Bei der sog. amerikanischen Aufstellung (Abb. 5/89), von Leopold Stokowski in den ersten Jahrzehnten des 20. Jahrhunderts entwickelt mit dem Ziel eines präzisen Zusammenspiels der beiden Violingruppen nach dem Vorbild der Streichquartettaufstellung eingeführt, ist die Klangverteilung der hohen Tonlagen von links nach tiefen Tonlagen rechts gestaffelt. Da in allen Orchesteraufstellungen auch die hohen Holzbläser mit Flöten, Klarinetten und oft auch die Trompeten auf der linken Seite platziert sind, erreicht man hier statt eines Mischklangs ein Tonlagengefälle von links nach rechts, von hoch nach tief. Die Hauptabstrahlrichtung der Violoncelli und Kontrabässe ist in dieser Sitzordnung auf die gegenüberliegende Seite der Bühne gerichtet. Diese Instrumente werden mit ihren hohen Frequenzanteilen sowohl im Saal als auch über die Hauptmikrofone weniger stark wahrgenommen, fehlende Präsenz der tiefen Streicher kann daraus folgen. Die dritte Variante, von Wilhelm Furtwängler bei den Berliner Philharmonikern eingeführt, gleicht den Nachteil des Tonlagengefälles der amerikanischen Sitzordnung teilweise aus. Hier  sind die Positionen der Bratschen und der Violoncelli gegenüber der amerikanischen Anordnung vertauscht; die Violoncelli spielen nun vorteilhaft in Richtung des Saals. Für die Bässe bleibt der Nachteil der amerikanischen Aufstellung bestehen (Abb. 5/90).

Abb. 5/90. Mischform der Aufstellung der Streicher im Orchester nach Furtwängler.

Holz- und Blechbläser: Für die Anordnung der Holz- und Blechbläser findet man ebenfalls zahlreiche Varianten. Diese kommen oft aus der Tradition der Orchester oder ergeben sich aus den Bedingungen des Saals. Üblicherweise wird bei der Aufnahme allen Gruppen ein Stützmikrofon für je zwei Spieler zugewiesen. Sind zusätzliche Sonderinstrumente wie z. B. Englischhorn, Bassklarinette oder Kontrafagott besetzt, werden auch hierfür meist Stützmikrofone verwendet, um deren Klanganteile präsent zu beleben. Da die Blechbläser in der Regel kräftig genug spielen, kann bei guter Raumakustik manchmal auf Stützmikrofone verzichtet werden. Abb. 5/91 zeigt in einer ersten Variante eine kompakte Anordnung der Bläser. Der für das Zusammenspiel wichtige Kontakt der Musiker untereinander ist hier sehr gut. Die entfernten Seiten- und Rückwände erzeugen darüber hinaus vorteilhafte Reflexionen für die Hörner auf der linken Orchesterseite und unterstützen einen instrumententypischen Klang. Problematisch aus Sicht der Aufnahme ist das Übersprechen der Trompeten und Posaunen in die Mikro­­fone der Holzbläser.

5.6 Gestaltung des Klangbilds 

 399

In der Variante nach Abb.  5/92 ist das Übersprechen der Blechblasinstrumente in die Mikrofone der Holzbläser ebenfalls von Nachteil. Hinzu kommt, dass die Hörner direkt in Richtung der Oboen und Fagotte abstrahlen und von diesen zusätzlich bedämpft werden. Auch entsteht der unerwünschte Effekt, dass die Hörner in die Stützmikrofone der Oboen und Fagotte übersprechen.

Abb. 5/91. Anordnung der Blasinstrumente im Orchester, Variante 1.

Abb. 5/92. Anordnung der Blasinstrumente im Orchester, Variante 2.

Eine günstige Anordnung für die Aufnahme der Holzblasinstrumente zeigt Abb.  5/93. In dieser Variante ist das Blech neben den Holzbläsern aufgestellt, ein Übersprechen auf Stützmikrofone wird dadurch weitgehend vermieden. Hinter den Stufen für die Holzbläser bleibt das Podium frei, erst dahinter sind die Pauken und das Schlagzeug angeordnet. Diese Distanz zu den Holzbläsern wirkt sich positiv auf das Übersprechen aus. Wie in der Variante 1 sitzen auch hier die Hörner auf dem akustisch günstigsten Platz hinsichtlich deren Abstrahlcharakteristik und Klangfarbe.

Abb. 5/93. Anordnung der Blasinstrumente im Orchester, Variante 3.

Ferne Instrumente Gelegentlich findet  man bei Kompositionen Anweisungen wie „hinter der Bühne“, „von Ferne“ oder „vorbeiziehend“. Die einfachste und oft wirkungsvollste Möglichkeit, den

400 

 5 Tonaufnahme und Tonwiedergabe

gewünschten akustischen Effekt zu erzielen, ist die Aufstellung der Musiker in tatsächlicher räumlicher Entfernung. Hat  man die Möglichkeit, die Musiker außerhalb des Aufnahmeraums, z. B. im Foyer oder einem Nebenraum zu platzieren, erhält man durch den Öffnungswinkel der dazwischen liegenden Türen eine natürliche Regelmöglichkeit für einen variablen Entfernungs- und Lautstärkeeindruck. Setzt man Stützmikrofone für die fernen Instrumente ein, lässt  sich der vor dem Regler ausgekoppelte Hallanteil für den Ferneffekt nutzen. Oft liefert auch eine Kombination der beiden Techniken ein gutes Ergebnis. Opern und Chorwerke Zu den genannten Aspekten bei Orchesteraufnahmen kommen bei großen Werken mit Chor und Gesangssolisten die Fragen der Präsenz gerade der Solisten, die Sprachverständlichkeit bei Sängern und Chor und das Klangverhältnis von Chor zu Orchester hinzu. Oft unterscheidet sich diese Darstellung deutlich von der Klangbalance der Aufführung im Saal. Die Intention einer besonders prominenten Wiedergabe des Solisten – verursacht auch durch auf die Künstler bezogene Vermarktungsstrategien – birgt nicht nur die Gefahr,  mögliche Schwächen der Stimmen überproportional offen zu legen,  sondern verhindert vielfach auch ein angemessenes Verhältnis der Instrumente zu den Gesangsstimmen. Wichtig ist, dass die in der Partitur vorgegebenen musikalischen Stimmverläufe nachvollziehbar bleiben. Stützmikrofone für den Chor  sind wegen der Textverständlichkeit in der Regel unverzichtbar. Günstig für die Tiefenstaffelung ist es, wenn die Mikrofone im Bezug zum Hauptmikrofon verzögert zugemischt werden. Die Obergrenze im Verhältnis der Stützmikrofone zur Hauptmikrofonanordnung ist dann erreicht, wenn der Chor im Klangbild zu dicht nach vorne kommt oder die Homogenität des Chorklangs leidet, weil Einzelstimmen hervortreten. Generell können bei Chor-/Orchesteraufnahmen bessere Ergebnisse erzielt werden, wenn der Chor in Blockaufstellung singt, statt in der gemischten Aufstellung. Bei der Blockaufstellung werden Sopran, Alt, Tenor und Bass als Gruppen nebeneinander aufgestellt im Gegensatz zur gemischten Choraufstellung mit Sopran und Alt vor Tenor und Bass. Die Stützmikro­ fone lassen sich in der Blockaufstellung leichter zuordnen, bei Bedarf kann z. B. der Tenor gestützt werden, ohne andere Stimmengruppen anzuheben. Eine der anspruchsvollsten Aufgaben eines Tonmeisters besteht in der Aufnahme szenischer Aufführungen in einem Opernhaus. Hier muss man zunächst die Inszenierung kennen lernen und danach ein Konzept für die Mikrofonpositionen auf der Bühne und deren Anordnung auf der Stereobasis erstellen. Ziel einer guten Opernaufnahme ist die Darstellung der räumlichen Disposition, d. h., die  seitlichen und in die Tiefe gehenden Wege der Solisten auf der Bühne korrekt nachzubilden. Es ist sinnvoll, nur die momentan für die Abbildung benötigten Stützmikrofone aufzuziehen. Dies hilft der Präsenz und Sprachverständlichkeit der Sänger und vermeidet andererseits das Entstehen von Kammfiltereffekten durch Übersprechen. Eine Alternative bieten Ansteckmikrofone für die Solisten, die in der Regel in der Frisur versteckt angebracht werden. Nachteilig allerdings ist die ortsfeste Position der Solisten bei der Wiedergabe, die mit dem bewegten Geschehen auf der Theaterbühne nichts mehr gemein hat. Für Fernsehübertragungen  mag das noch hinnehmbar  sein, die gleichbleibend nahe Wahrnehmung der Stimmen wirkt aber leicht unnatürlich und ist ermüdend für den Hörer. Eine lebendige Abbildung einer Vorstellung kann so kaum erreicht werden.

5.6 Gestaltung des Klangbilds 

 401

Klassik-Open Air Bei Aufführungen im Freien erzeugt eine Schallquelle praktisch keine Reflexionen und keinen Nachhall, eine Durchmischung der Instrumentalklänge auf der Bühne findet nicht  statt. Daher macht der Einsatz von Hauptmikrofonen bei Open Air-Veranstaltungen meist wenig Sinn. Wenn  man allerdings das Schallfeld einer Beschallungsanlage als Ersatz der Raumakustik auffasst, kann der Einsatz von Hauptmikrofonen durchaus einen wünschenswerten Effekt haben. Die musikalische Balance und die räumliche Disposition der Instrumente werden synthetisch am Mischpult erzeugt. Das Klangbild entsteht nahezu ausschließlich nach dem Einzelmikrofonverfahren mit Hilfe einer Vielzahl von Mikrofonen (siehe Kap. 5.3.6). Die eigentlich dem Dirigenten zustehende Aufgabe, für eine partiturgerechte und raumbezogene Klangbalance des Orchesters zu  sorgen, geht hier nahezu vollständig auf den Tonmeister über. Daher muss die Klangvorstellung des Tonmeisters für die jeweilige Partitur besonders detailliert erarbeitet werden. Gelegentlich kann es wegen einer sehr großen Anzahl von Mikrofonen notwendig sein, dass zwei Tonmeister gleichzeitig am Mischpult arbeiten. Nicht selten arbeiten z. B. bei aufwändigen Popkonzerten die Tonmeister an mehreren Mischpulten mit geteilten Verantwortlichkeiten. Bei der Mikrofonierung eines großen sinfonischen Klangkörpers bei Oper oder Konzert werden üblicherweise Stützmikrofone  mit Nierencharakteristik je Pult im Nahfeld platziert. Damit wird das Übersprechen anderer Schallquellen weitgehend vermieden. Für eine Orchesterdarbietung ist eine Größenordnung von mehr als 60 Mikrofonen keine Seltenheit. Der Einsatz von entsprechenden Hall- und Verzögerungsgeräten ist hier besonders wichtig. Die räumliche Tiefenstaffelung kann bei diesem Verfahren nur über Verzögerung der rückwärtigen Mikrofone erreicht werden. 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds Das Klangbild und der Raumeindruck einer Orchesteraufnahme werden durch Schallinformationen über die Richtung und Entfernung geprägt. Die Tiefenstaffelung, d. h. die räumliche Darstellung von Instrumenten in ihrer Entfernung zum Hauptmikrofon, kann umso differenzierter sein, je größer die Besetzung und je größer der erwünschte hörbare Raum sein soll. Das Hauptmikrofonsystem empfängt Schall räumlich ausgedehnter Klangkörper aus unterschiedlichen Richtungen und Entfernungen. Eine natürliche Tiefenstaffelung ergibt sich bereits durch die Laufzeitunterschiede von Schallquellen mit unterschiedlichem Abstand zum Hauptmikrofon. Um die gewünschte Raumillusion bei Lautsprecherwiedergabe verwirklichen zu können, ist es erforderlich, neben dem Hauptmikrofon mehrere Stützmikrofone zu verwenden und diese mit Entfernungsmerkmalen zu versehen, z. B. mit Laufzeit- und Hallanteilen. Während der Hörer im Saal das Ohr auf ein bestimmtes Klangereignis konzentrieren kann, das ist der  sog. Cocktailpartyeffekt, ist dies bei der Lautsprecherwiedergabe nur bedingt  möglich. Spielt beispielsweise ein Instrument oder eine Instrumentengruppe zu schwach, muss der Tonmeister während der Aufnahme eine Korrektur der Klangbalance vornehmen. Für diese Aufgabe verwendet  man bei Aufnahmen  mit größeren Besetzungen Stützmikrofone. Das Pegelverhältnis zwischen Hauptmikrofon und Stützmikrofon prägt die natürliche Tiefenstaffelung wesentlich. Liegt der Pegel des Stützmikrofons etwa 6 dB unter

402 

 5 Tonaufnahme und Tonwiedergabe

dem des Hauptmikrofons, tritt keine Beeinflussung der Entfernungswahrnehmung ein. Muss aber das Stützmikrofon z. B. aus Gründen der Klangbalance mit einem höheren Pegelanteil zugemischt werden, besteht die Gefahr, dass das gestützte Instrument aus dem Klangbild hervortritt. Durch eine entsprechende Verzögerung dieses Signals, die mindestens der Laufzeit des Schalls für die Entfernung von der Schallquelle zum Hauptmikrofon entspricht, wird der unerwünschte Effekt gemindert. Tatsächlich entspricht der akustische Blick des Hauptmikrofons bzw. des Dirigenten auf das Orchester einem Weitwinkelobjektiv, es übertreibt die Entfernungsunterschiede zu den einzelnen Instrumenten und damit auch die Lautstärkeunterschiede verglichen mit dem akustischen Blick eines Hörers im Saal. 5.5.3.4 Wiedergabedynamik Ein schwieriges und nahezu unlösbares Problem ist die allseits befriedigende Wiedergabedynamik von Aufnahmen bei Lautsprecherwiedergabe. Die Originaldynamik von Schallereignissen aus großen Konzertsälen, Opernhäusern und Musikstudios erreicht oftmals Werte über 70  dB. Für eine adäquate Wiedergabe im Wohnraum  muss diese hohe Dynamik entsprechend angepasst werden. Ist die erwünschte Wiedergabedynamik kleiner als die Originaldynamik,  so wird eine Dynamikeinengung auf die  sog. Programmdynamik notwendig. Diese soll so groß sein, dass ohne Änderung der Einstellung am Lautstärkeregler die Wiedergabe  sowohl  sehr leiser als auch  sehr lauter Stellen zu Hause  möglich ist. Die Wiedergabedynamik wird einerseits bei den kleinen Pegeln durch häusliche Störgeräusche wie eindringender Straßenlärm begrenzt. Für eine durchschnittliche Abhörsituation  muss ein Störpegel von 35 bis 40 dB angenommen werden. Andererseits muss bei einem Mehrfamilienhaus angenommen werden, dass der Nutzpegel nach dem Wanddurchgang zum Nachbarn von diesem als Störpegel aufgefasst wird und dort somit nicht lauter als etwa 35 dB sein darf. Bei einer Wanddämpfung von 40 bis 50 dB ergibt sich dann ein maximal zulässiger AbhörSchalldruckpegel von 75 bis 85 dB. Eine sinnvolle Wiedergabedynamik liegt demnach ebenfalls bei nur 40 bis 50 dB. Siehe hierzu im Detail Kap. 19.5. Für eine gut ausgesteuerte Aufnahme, die nichts von ihrer emotionalen Wahrnehmungsqualität einbüßen soll, sind ein ausgewogenes Klangempfinden des Tonmeisters und die einfühlsame Vorwegnahme zu hoher Pegeldifferenzen während der Aufnahme gefordert. Neben der Pegelbeeinflussung am Mischpult helfen auch technische Geräte wie Kompressoren und Begrenzer große Pegelsprünge auszugleichen. Die Einstellungen der Regelkennlinien erfordern dabei einen behutsamen Umgang. Siehe hierzu ausführlich Kap. 6.2. 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie Bei Aufnahmen für mehrkanalige Stereowiedergabe gelten grundsätzlich dieselben ästhetischen Kriterien wie für die stereofone Wiedergabe: Symmetrie der Schallverteilung über die Stereobasis, Transparenz der Klangebenen, Richtungs- und Tiefenstaffelung der Schallinformationen. Das Ziel, Musik nach den Vorgaben der Partitur in einer dem Wiedergaberaum zuträglichen Perspektive abzubilden, gilt bei den erweiterten Möglichkeiten der Mehrkanaltechnik ganz besonders. Die mehrkanalige Wiedergabe ermöglicht durch den Einsatz von Surround-Mikrofonen das natürliche Schallfeld des Aufnahmeraumes weitgehend abbilden

5.6 Gestaltung des Klangbilds 

 403

zu können. Daher können Schallereignisse bei entsprechender Lautsprecheranordnung aus allen horizontalen Richtungen realistisch wiedergegeben werden, siehe Kap. 5.4. Bei stereofoner Zweikanalwiedergabe finden die Klangereignisse auf der Basis zwischen den beiden Lautsprechern und dem dahinter liegenden virtuellen Raum statt. Die Richtungswahrnehmung bleibt  somit begrenzt auf ein  schmales zweidimensionales Band zwischen den Frontlautsprechern. Bei der  mehrkanaligen Wiedergabe erweitert  sich der Hörbereich über die Basis zwischen den Frontlautsprechern hinaus zu den rückwärtigen oder seitlichen Surround-Lautsprechern bei abnehmender Lokalisierungsschärfe, siehe Kap. 5.2. Die Wiedergabe einer Surround-Aufnahme über drei Frontlautsprecher links  - Mitte  rechts und zwei rückwärtig angeordnete Lautsprecher bezieht den Hörer in den Aufnahmeraum ein. Der Center-Lautsprecher hat überwiegend die Aufgabe, aus der Mitte kommende Schallanteile richtungsstabil abzubilden. Der  sog. Effektkanal LFE als  sechster Kanal der Übertragungskette in einem 5.1-System wird bei klassischer Musik nur selten z. B. für besonders tieffrequente Effekte wie die Kanonen bei der Ouvertüre 1812 von Peter Tschaikowsky, genutzt. Die Ästhetik der Musikwiedergabe muss in der Mehrkanaltechnik nach Jahrzehnten der Zweikanal-Stereofonie neu definiert werden. So ist es z.  B.  möglich, ein Quintett, welches üblicherweise zwischen den Frontlautsprechern abgebildet wird, über die fünf SurroundKanäle diskret zu verteilen. Auch gibt es Ansätze, ein Orchester aus der eindimensionalen Klangebene zwischen den frontalen Lautsprechern herauszulösen und konkreter in den Wiedergaberaum zu holen. Dies wird erreicht durch die Abbildung direkter Klanganteile in den Surround-Kanälen. Da die Richtungsabbildung zwischen den Seitenkanälen L-LS und R-RS allerdings nicht  stabil und unscharf ist,  sind der adäquaten Ortung und damit der Klangdramaturgie Grenzen gesetzt. Verwendet man eine höhere Anzahl von Kanälen für die Wiedergabe, lässt sich die Seiteninformation jedoch entsprechend genauer abbilden. Beispiele hierfür gibt es im Einzelfall; sie reichen bis hin zu 22 Kanälen. Der Aufwand für Aufnahmeund Wiedergabeeinrichtungen ist allerdings enorm. Andere Entwicklungen der Surroundtechnik beziehen die Elevationsebene mit ein und verwenden zusätzliche Lautsprecher oberhalb der Frontalebene. Diese Technik wird Surround with Heights genannt. In vielerlei Hinsicht  stellen  sich dieselben Fragen und Probleme beim Übergang zur Mehrkanal-Stereofonie wie in den 1960er Jahren beim Übergang von der Mono- zur Stereofonie; wie damals ist die Forderung nach Abwärtskompatibilität der Systeme ein die Entwicklung hemmender Faktor. 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe Das einfachste Modell einer neuen Ästhetik ist, kleine bis mittlere Besetzungen kreisförmig wiederzugeben, beispielsweise dadurch, dass jedem Instrument oder einer bestimmten Instrumentengruppe ein eigener Wiedergabekanal zugeordnet wird. Die Praxis zeigt, dass sich damit im Bereich der Kammermusik oder der Volks- und Popmusik interessante Ergebnisse erzielen lassen. Bei dieser Klangdramaturgie spielt der Aufnahmeraum eine untergeordnete Rolle, da die Lautsprecher als Repräsentanten der Ausführenden dienen. Dieser ästhetische Ansatz funktioniert allerdings nur für Kompositionen aus jüngerer Zeit oder aus der Popund Unterhaltungsmusik. So wurden z. B. neue Werke für Streichquartett komponiert, bei

404 

 5 Tonaufnahme und Tonwiedergabe

denen die Komposition auf eine spezielle Form der Aufführung und auf eine mehrkanalige Wiedergabe konzipiert ist. Die Partitur schreibt hier explizit vor, wie die Instrumente bei der Aufführung im Saal zu verteilen sind. Auch Komponisten zeitgenössischer Orchesterliteratur berücksichtigen zunehmend die Surroundtechnik für die Wiedergabe ihrer Werke. Verwendet  man die räumliche Orchesteranordnung jedoch für z.  B. Werke der Wiener Klassik, ist diese Aufführungs- und Wiedergabepraxis nicht sonderlich geeignet. Der musikalische Kontext,  sowohl in der homofonen als auch in der polyfonen Struktur, erfordert hier ein Verschmelzen des Klangs und nicht dessen analytische Zerlegung. Selbst bei kontrapunktischen Passagen wirkt dann ein Zuviel an Trennung eher störend. Ausgedehnte Klangkörper und große Orchesterbesetzungen erfordern naturgemäß einen größeren Saal für die Aufführung. Daher sollte in der Regel diese Raumakustik auch für die Lautsprecherwiedergabe vorteilhaft genutzt werden. Zusätzlich zur üblichen  stereofonen Mikrofonierung für den Klangkörper werden weitere Mikrofone zur Abbildung der seitlichen und rückwärtigen Raumreflexionen verwendet. Die Richtwirkung der Mikrofone sowie deren Position im Raum sind hierbei von entscheidender Bedeutung für die Qualität der Aufnahme. Die Mehrkanalwiedergabe bietet beste Möglichkeiten, wirkungsvolle Effekte wie Ferntrompeten, Echos oder Bühnenmusiken aus unterschiedlichen Richtungen über die Surround-Kanäle überzeugend zu realisieren. Besonders deutlich kommen die Stärken der mehrkanaligen Wiedergabe auch bei Orgelaufnahmen in Kirchen zur Geltung, da hierbei der Aufnahmeraum über die Surround-Kanäle stärker in die Aufnahme eingebunden werden kann. Ein Verlust der Durchhörbarkeit im musikalischen Sinne tritt dabei nicht auf. Den eindrucksvollen Effekt räumlich verteilter Klanggruppen nutzten  schon die Komponisten der Renaissance- und Barockzeit in ihren  sakralen Werken. Mit Hilfe der Surroundtechnik ist heute eine Annäherung an frühe Klangideale wieder möglich. 5.6.3.7 Historischer Rückblick Die ersten Jahrzehnte nach Erfindung der mechanischen Schallaufzeichnung auf Wachswalzen im Jahr 1877 bzw. Schellackplatten 1895 waren in klangästhetischer Hinsicht gekennzeichnet durch die Aufzeichnungstechnik: Der Schall wurde durch Trichter aufgenommen und durch Schläuche einer Membran zugeleitet, an die über einen Hebelarm der Schneidstichel angekoppelt war. Die geringe Empfindlichkeit und die hohen Nebengeräusche des Systems zwangen die Musiker zu extremer Nähe zu den Trichtern;  musikalische Dynamik war nicht  möglich, größte Lautstärke war eine Forderung an die Musiker, ohne die keine brauchbaren Aufnahmen möglich waren. Dennoch wurden diese Aufnahmen als sensationell empfunden, weil erstmals der Künstler selbst zu hören war und nicht ein Musikautomat  mit  mechanischer Tonerzeugung. So war der Tenor Enrico Caruso der erste Künstler, der mit dieser Art von Aufzeichnungen größte Erfolge hatte. Sofern bei den rein mechanischen Aufnahmen überhaupt von einer Klangästhetik gesprochen werden kann, ist  sie gekennzeichnet durch extreme Nähe der „Mikrofone“ und fehlende Dynamik. Eine Weiterentwicklung der Aufnahmetechnik brachte die Einführung der elektroakustischen Übertragung mit Mikrofonen und Verstärkern in den Jahren zwischen 1920 und 1930. Dadurch erweiterte sich nicht nur der Frequenzbereich von etwa 600 bis 2.000 Hz auf 100 bis 5.000 Hz, auch die nichtlinearen Verzerrungen konnten erheblich reduziert und die Dynamik

5.6 Gestaltung des Klangbilds 

 405

erweitert werden. Die Dynamikeinengung wurde nun zunehmend von den Musikern an die Tonmeister übergeben, die Klangbalance konnte elektrisch hergestellt werden durch Einsatz mehrerer Mikrofone. Die Nähe zur Schallquelle und die geringe Dynamik waren aber weiterhin kennzeichnend für die Aufnahmetechnik. Die nächste Entwicklungsstufe der Tonaufnahmetechnik war erreicht, als mit der Entdeckung der Hochfrequenzvormagnetisierung 1940 und der Entwicklung der Langspielplatte 1948  sowie der Einführung des UKW-Rundfunks in den 1950er Jahren die Schallaufzeichnung und nun auch die Bearbeitung der Tonaufnahmen nochmals erheblich verbessert wurden. Nun war es möglich, auch den Raum in die Aufnahmetechnik einzubeziehen, also nicht nur die Schallquellen, sondern auch den Konzertsaal zu übertragen. Als Gegenpol zur Nahfeldmethode entstand die Aufnahmetechnik mit einem einzigen reinen Druckempfänger über dem Klangkörper, die sog. one point-Technik. Das Hauptmikrofonverfahren war somit geschaffen, zunächst allerdings in Monotechnik. Nach der Einführung der Stereofonie nach 1960 entstand allmählich eine  spezifische Medienästhetik. Die verbesserten klanglichen Möglichkeiten führten zu einer verfeinerten Umsetzung der Partitur und zu einer eigenen Ästhetik. Die fehlende optische Information, wie  sie ein Zuhörer im Konzertsaal oder einem Opernhaus hat, wurde durch eine zunehmend ausgefeilte Klangbalance der Aufnahmen kompensiert. Mit Beginn der Digitaltechnik im Jahrzehnt nach 1970 kamen die Aspekte hoher technischer Aufnahmequalität und verlustfreier Übertragung vom Studio bis zur Heimwiedergabe hinzu. Insbesondere die Entwicklung digitaler Mischpulte und Schnittsysteme führte zu einer Perfektionierung der Aufnahme, wie sie zuvor nicht möglich war. Seitdem hat der Zeitaufwand für die Nachbearbeitung zwar zugenommen, andererseits konnte der kostenintensive Aufwand bei den Studiozeiten, insbesondere bei Orchester- und Opernproduktionen, reduziert werden. Es bleibt festzustellen, dass jüngste Erkenntnisse in Forschung und Entwicklung, insbesondere in der Psychoakustik und Rechnertechnik, die musikalische Perfektion von Aufnahmen sowie das Hörerlebnis deutlich gesteigert haben. Vielfach wird allerdings beklagt, dass diese Perfektion oft auf Kosten einer glaubhaften, ansprechenden und emotional berührenden Interpretation gehe. Eine gute Aufnahme sollte deshalb beim Hörer immer vergleichbare Empfindungen erzeugen können, wie sie im Konzertsaal erlebbar sind.

5.6.4 Klangliche Aspekte bei der Produktion populärer Musik Klangbild als Begriff und als Ergebnis einer Produktion impliziert eine statische Anordnung von Objekten, muss aber insbesondere bei populärer Musik als eine zeitveränderliche, dynamische Konstellation verstanden und behandelt werden, die manchmal auch als Klanggestaltung bezeichnet wird. Bei der Klangbildgestaltung stellt man, wie auch bei den anderen Vorgängen im Rahmen der Musikübertragung, in Rechnung, dass Musik ein Medium zur Kommunikation von Emotionen ist. Vor diesem Hintergrund folgt Klangbildgestaltung unabhängig von der Musiksparte vor allem dem Ziel der Gewichtung der Wahrnehmung musikalischer Struktureinheiten. Auf Grund verschiedener Gegebenheiten unterscheidet sich jedoch die Klangbildgestaltung von populärer Musik hinsichtlich Zielsetzungen, Prinzipien und Gestaltungsmitteln zum Teil deutlich von der Klangbildgestaltung von Kunstmusik bzw. klas-

406 

 5 Tonaufnahme und Tonwiedergabe

sischer Musik (siehe Kap. 5.6.3). Dass das Klangbild die Wirkung populärer Musik hinsichtlich verschiedener Aspekte mitbeeinflusst, ist wissenschaftlich belegt [Maempel, 2001, 2011]. 5.6.4.1 Rahmenbedingungen Populäre Musik und Kunstmusik unterscheiden sich historisch bedingt hinsichtlich wesentlicher Rahmenbedingungen, u.a. Instrumentarium, Aufführung, Werktreue und Werklänge. Schon eine sehr vereinfachte und verallgemeinerte Darstellung einiger Unterschiede möge hier mit Blick auf die Frage hinreichen, worin die jeweiligen klanggestalterischen Besonderheiten begründet liegen können: –– In der populären Musik haben die  seit dem 20. Jahrhundert zunehmend verfügbaren elektromechanischen, elektromagnetischen, optoelektrischen und elektronischen bzw. digitalen Musikinstrumente in viel stärkerem Maße als in der Kunstmusik das traditionelle akustische Instrumentarium erweitert bzw. abgelöst. –– In viel stärkerem Maße als in der populären Musik haben sich in der Kunstmusik typische Klangkörper, Besetzungen und Aufstellungen bzw. Sitzordnungen entwickelt und etabliert. –– Dem Werk und der werktreuen Interpretation kommt in der Kunstmusik eine weitaus größere Bedeutung zu als in der populären Musik. –– Werke der Kunstmusik sind in der Regel zeitlich länger – zudem oft mehrteilig – als solche der populären Musik. Weitere Aspekte wie Originalität, Wirkungsintentionen, Kommerzialisierung und Funktionalisierungsweisen spielen zwar ebenfalls eine Rolle, bedürften aber als Unterscheidungskriterien erheblicher Differenzierungen. Zusammenfassend mag man Kunstmusik eher mit musikalisch-struktureller Vielfalt,  musikalisch-struktureller Komplexität, Aufführungstradition und Werktreue assoziieren, populäre Musik hingegen eher mit klanglicher Vielfalt, klanglicher Komplexität, Mediatisierungstradition und relativer Interpretationsfreiheit. Aus den Rahmenbedingungen folgen relativ große Freiheiten in der Klangbildgestaltung populärer Musik. So ist in der Regel keine Orientierung an einer realen Aufführungssituation erforderlich. Dies betrifft  sowohl die Lokalisierung von Schallquellen als auch den Raumeindruck. Auch die klangfarbliche Identität von Instrumental- und Vokalklängen muss nicht erhalten bleiben, Verfremdungen sind zulässig. Grundsätzlich darf die sekundäre Interpretation, d. h. die Einflussnahme auf die Musikaufnahme durch Tonschaffende und Produzierende mit den Mitteln der Tonregie und Klanggestaltung bzw. Audiobearbeitung, hörbar und auffällig  sein – im Falle von Kunstmusik ist  sie hingegen, wenigstens für den Laienhörer, unauffällig zu gestalten. Medienästhetisch greift damit das medial-autonome Ideal [Stolla, 2004], wonach die Klangbildgestaltung das  musikalische Material frei und weitreichend, d. h. meist ohne zwingenden Bezug zu einer realen Aufführungssituation und einer Notenvorlage, interpretieren kann, zumal ein großer Teil populärer Musik nicht vor, sondern im Medium entsteht (siehe Kap. 6.7.3). Diese Freiheit kann zu einer besonders effektiven Unterstützung der Wahrnehmung musikalischer Struktureinheiten beitragen. Indem die Klangbildgestaltung populärer Musik also scheinbar keinen Beschränkungen unterliegt und zugleich zahlreiche hochtechnisierte Mittel der Klangbildgestaltung zur Ver-

5.6 Gestaltung des Klangbilds 

 407

fügung stehen, sind allgemein anerkannte Gestaltungsprinzipien schwerer zu identifizieren als im Bereich Kunstmusik. Dennoch kann  man leicht feststellen, dass Einzelklänge und Klangbild weit weniger manipuliert werden, als es technisch möglich wäre. Damit ist nicht nur die im letzten Jahrhundert häufig vertretene These einer Technologieabhängigkeit des Sounds nicht plausibel, es stellt sich zudem – wie in der Kunstmusik – die Frage, welchen Gestaltungsprinzipien die Klangbilder populärer Musik folgen. 5.6.4.2 Ziele der Klangbildgestaltung Zu den Zielen der Klangbildgestaltung liegen empirische Befunde in Form von zusammengefassten Aussagen vor [Maempel, 2001, S.  49 ff.]: Befragte Musikproduzierende gaben in Interviews an, sich bei der Klangbildgestaltung an den Erwartungen des Publikums zu orientieren. Diese Erwartungen würden auf melodische, rhythmische, aktivierende und Qualitäten des Gefallens eines Musikstücks zielen. Das Klangbild sei für den ersten, entscheidenden Eindruck wichtig und würde die musikalischen Elemente gewichten. Seine Gestaltung komme einer Interpretation, unter Umständen sogar einem Arrangement gleich. Das Klangbild solle bestehende Hörgewohnheiten bedienen und das Audiomaterial an verschiedene Übertragungsqualitäten anpassen, mithin robust gegenüber Verletzungen der für das jeweilige Ziel-Wiedergabeformat optimalen Abhörbedingungen sein. Es solle ein Musikstück interessanter machen und könne zudem zeitstilbildend wirken. Generell wurde auf die Abhängigkeit des Klangbilds von der musikalischen Struktur hingewiesen. Der Einsatz von Effekten, die Schallquellenpositionierung und die räumliche Gestaltung wurden von den Befragten kaum oder überhaupt nicht thematisiert. Diesbezüglich scheint entweder von weitgehender Gestaltungsfreiheit oder aber von quasi-verbindlichen Regeln ausgegangen zu werden. Eine wesentliche Funktion der Klangbildgestaltung wird in der Gewichtung der musikalischen Elemente gesehen, Klang und musikalische Struktur können nicht voneinander getrennt werden [Boss, 1995] [Maempel, 2001]. Die Gestaltung des Klangbilds ist daher auch im Bereich der populären Musik nicht nur ein technisch-handwerklicher, sondern insbesondere ein musikalischer Prozess, der die entsprechenden Kompetenzen voraussetzt. Nicht nur die empirisch ermittelten, von Experten genannten und in den einschlägigen Ausbildungen vermittelten Zielsetzungen zeigen, dass die Klangbildgestaltung nicht beliebig ist, sondern zu einem beträchtlichen Teil funktional ist, anders als auf Grund der besonderen Rahmenbedingungen zu vermuten wäre. Demnach dient sie in erster Linie dazu, die vorhandenen musikalischen Instrumente, Elemente, Gestalten und streams erkennbar zu machen, zu schärfen, zu trennen, zu gruppieren und/oder zu gewichten (siehe Kap. 6.7.2). Diese kleinteiligeren, von den jeweiligen  musikalisch-strukturellen Gegebenheiten abhängigen Ziele folgen dem Prinzip der Prägnanz. Eine  mögliche, in verschiedenen Kulturen und Genres unterschiedlich ausgeprägte Zielsetzung ist die Sicherstellung der Durchsetzungskraft bzw. Dominanz bestimmter Stimmen, z. B. des Lead-Gesangs oder der Rhythmusgruppe. Als ein inhaltsunabhängiges Gestaltungsziel kann für  stereofone Wiedergabeformate normalerweise die Symmetrie der horizontalen Richtungsabbildungen angesehen werden (siehe Kap. 5.6.1). Die verschiedenen Ziele und/oder die Mittel zu ihrer Erreichung sind also nicht unbedingt miteinander vereinbar, so dass Prioritäten gesetzt werden müssen.

408 

 5 Tonaufnahme und Tonwiedergabe

5.6.4.3 Mittel der Klangbildgestaltung Die oben genannten kognitiven, emotionalen und/oder ästhetischen Zielsetzungen können im Zuge der  sekundären Interpretation nur vermittels der Einflussnahme auf grundlegendere, perzeptive Merkmale erreicht werden. Diese Merkmale umfassen Lautstärke, Dynamik, Klangfarbe, Lokalisation und Räumlichkeit, jeweils in ihrem zeitlichen Ablauf. Sie können im Rahmen verschiedener Arbeitsschritte bzw. Entscheidungen verändert werden: durch die Wahl des Aufnahme- bzw. Veranstaltungsraums (siehe Kap.  1.3 f.), die Wahl der ZielWiedergabeformate, das Führen von Tonregie, die Mikrofonierung (siehe Kap. 5), die Abmischung (siehe Kap.  6), die Nachbearbeitung bzw. das Mastering, die Wahl der Tonträger bzw. Musikmedien sowie die Wahl der Wiedergabekonfiguration und -situation. Nicht alle dieser Einflussfaktoren können, durch die an der Musikübertragung Beteiligten kontrolliert werden, insbesondere nicht die Abhörbedingungen. Die konkret zur Verfügung  stehenden technischen Gestaltungsmittel  sind für jeden Arbeitsschritt unterschiedlich. An die Frage ihrer Verfügbarkeit schließt sich unmittelbar die Frage an, wie sie gewählt, konfiguriert und eingestellt werden können. Auf beide Fragen wird im Detail in den oben genannten Kapiteln eingegangen. Viele Entscheidungen sind nicht frei, sondern zwingend zu treffen, weil einige Parameter im Zuge der Produktionsschritte nicht unbestimmt bleiben können – bei der Aufnahme z. B. die Mikrofonposition, bei der Abmischung z. B. die Pegelverhältnisse oder, außer bei MonoÜbertragung, die Abbildungsrichtung. Tonregie, Mikrofonierung und Abmischung  sind in der populären Musik auf Grund ihres hohen klanggestalterischen Potentials von besonderer Bedeutung. 5.6.4.4 Psychologische Prinzipien Angesichts der vielfältigen Möglichkeiten  stellt  sich die Frage nach den Kriterien, gemäß denen die Mittel der Klanggestaltung zielführend ausgewählt, parametriert und auf bestimmte Audiosignale, Instrumente und  musikalische Struktureinheiten angewendet werden können. Viele dieser Kriterien lassen sich aus Erkenntnissen über Zusammenhänge zwischen  musikalischem Inhalt, akustischen Reizeigenschaften, auditiver Wahrnehmung, Erkennung und Beurteilung ableiten. Diese Zusammenhänge werden über die Musiktheorie hinaus u. a. durch die Psychoakustik, die Gestaltgesetze [Wertheimer, 1923], [Goldstein, 2002], [de la Motte-Haber, 2005], [Terhardt, 1987], die auditive Szenenanalyse [Bregman,1990] und die  sog. Neue experimentelle Ästhetik [Berlyne, 1971, 1974] beschrieben (siehe Kap.  6.7.1). Auch das Konzept der  musikalischen Expektanz [Huron, 2006], [de la Motte-Haber, 2013] kann mit Blick auf die durch die Klangbildgestaltung in gewissen Grenzen beeinflussbaren rhythmischen, melodischen und harmonischen Zeitverläufe und die durch sie implizierten Hörerwartungen an den weiteren musikalischen Verlauf von Bedeutung sein. Dabei geht es darum, welche Reaktionen das Unterbrechen oder das unerwartete Weiterführen erwarteter musikalischer Abläufe hervorrufen. Beispielsweise kann darauf geachtet werden, inwieweit sich Schallquellen bzw. musikalische Elemente verdecken, inwieweit sie als prägende Gestalten oder aber als diffuser Hintergrund erscheinen, inwieweit Melodielinien als kontinuierlich wahrgenommen werden, inwieweit das Klangbild aktivierende Eigenschaften wie Lautheit und ästhetische Komplexi-

5.6 Gestaltung des Klangbilds 

 409

tät besitzt, und inwieweit Hörerwartungen erfüllt werden. Ein wichtiges Mittel zur Trennung oder Verbindung von Elementen ist ihre räumliche Positionierung [Eargle, 1990], [Moulton, 1990]. Auf diese Zusammenhänge zurückführbar sind auch die Angaben der oben genannten befragten Musikproduzenten zu den persönlich als besonders bedeutsam erachteten klangbildgestalterischen Maßnahmen: eine feine Abstimmung der Lautstärkeverhältnisse, ein ausgewogenes Frequenzspektrum, die Aufteilung von Instrumenten und Instrumentalgruppen auf Frequenzbänder, die klangliche Vergleichbarkeit  mit anderen kommerziellen Produktionen sowie gezielte Regelverstöße zur Schaffung von Alleinstellungsmerkmalen. 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung Welche gemeinsamen oder unterschiedlichen Eigenschaften Klangbilder populärer Musik konkret aufweisen, lässt  sich einerseits experimentell feststellen, indem die von verschiedenen Personen anhand derselben Musikstücke vorgenommenen klanggestalterischen Maßnahmen dokumentiert und analysiert werden [Maempel, 2001]. Die folgenden Ergebnisse beziehen sich auf drei stilistisch und hinsichtlich ihrer Bekanntheit unterschiedliche Musikstücke − Techno bekannt, Pop bekannt, Pop unbekannt −, für die von insgesamt 11 Musikproduzenten mittels Abmischung und Nachbearbeitung insgesamt 24 Klangbilder gestaltet wurden. Die Analyse der dokumentierten und/oder auditiv feststellbaren Eingriffe gibt einen Einblick in die Häufigkeit, die Diversifikation und ggf. die Art des Einsatzes von Mitteln zur Klangbildgestaltung, kann aber nur begrenzt verallgemeinert werden. Mute und Fader Die vorgenommenen Stummschaltungen betrafen einzelne Ereignisse, ganze musikalische Formteile sowie wiederholte Ereignisse mit dem Ergebnis einer Veränderung des Rhythmus. Die Pegelverhältnisse zielten auf die Beeinflussung sowohl der vertikalen als auch der horizontalen musikalischen Struktur ab, also auf die grundlegende Gewichtung und den Zeitverlauf der Komponenten. Das Verfolgen musikalischer Vorgänge soll dadurch erleichtert oder ermöglicht werden. Regelverstärker, Equalizer und Effekte Diese Gestaltungsmittel im engeren Sinne wurden unterschiedlich häufig eingesetzt. Gemessen an der relativen Häufigkeit bearbeiteter Spuren ergab sich folgende Rangfolge: 1. Halleffekte (79 %), 2. Equalizer/Filter (76 %), 3. Delayeffekte (36 %), 4. Regelverstärker (26 %), 5. Sonstige Effekte (14 %). Zwischen den einzelnen Klangbildern variierten die Anteile allerdings deutlich, was Ausdruck von Präferenzen bzw. Personalstilen der Produzenten ist und demonstriert, welcher kreative Spielraum selbst nach funktionalen und professionellen Kriterien möglich ist. Im Falle des eher gesanglichen Musikstils des Poptitels wurden mehr Halleffekte, hingegen weniger Delayeffekte, Regelverstärker und Equalizer eingesetzt. Im Falle des Technotitels zeigte sich ein umgekehrtes Bild. Auch war die Diversifikation von Hall- und Delayprogrammen bei diesem technischen Musikstil höher als bei dem gesanglichen. Offenbar beruht der hörbare Abwechslungsreichtum in diesem Falle  stärker auf der Klangbildgestaltung als Teil der  sekundären Interpretation. Ein Vergleich der Instrumentalgruppen zeigte, dass der klanggestalterische Aufwand von der Rhythmusgruppe über die Begleitung

410 

 5 Tonaufnahme und Tonwiedergabe

bis hin zum Gesang zunahm. Dies lässt sich mit dem häufig größeren Retuschierungsbedarf und mit der musikalisch prominenten Stellung des Gesangs begründen, die u. a. nach Durchsetzungskraft, Sprachverständlichkeit und angenehmen Klang sowie mit Blick auf die Übertragung von Emotionen nach der Hörbarkeit u. U. kleinster Details verlangt. 87 % aller Effektprogramme wurden modifiziert und 33 % aller Effektsignale nochmals bearbeitet, meistens durch Equalizer in der Klangfarbe verändert oder mit einem weiteren Effekt versehen. Weiterhin wurden  spezielle und/oder komplexe Bearbeitungen bzw. Verschaltungen vorgenommen, etwa frequenzabhängige Komprimierungen oder Fremdtriggerungen durch Nutzung von side chains bzw. key inputs (siehe Kap. 6.2.1), Effektrückkopplungen, Korrelationskorrekturen und gezielte Übersteuerung von Komponenten im Signalweg. Diese Maßnahmen sprechen, wenigstens hinsichtlich der Klangbildgestaltung mittels Effekten, gegen die These einer Preset-Kultur. Die auditive Klangbildanalyse führte zu dem Ergebnis, dass zeitgleich und/oder nacheinander nahe und ferne Abbildung, geringe und  starke Verhallung, glatte und raue Sounds sowie dunkle und helle Klänge gegenübergestellt wurden. Die Gestaltung der klangbildkonstituierenden Aspekte Entfernungsabbildung, Räumlichkeit und Klangfarbe folgt also bisweilen dem Kontrastprinzip. Panoramaverteilung Für jede Spur wurde die effektive Hörereignisauslenkung im Zweikanal-Stereopanorama über die dokumentierte Stellung des Panorama-Reglers, das dazugehörige Übertragungsmaß, und den empirischen Zusammenhang zwischen Pegeldifferenz und Hörereignisauslenkung ermittelt (siehe Kap. 6.1.1). Im Ergebnis wurden ca. 38 % der Spuren ganz seitlich positioniert und ca. 27 % der Spuren mittig. Alle dazwischenliegenden Positionen waren mit einer  sehr geringen Häufigkeit von 0 bis 6 % besetzt. Dabei waren die  mittig positionierten Spuren fast ausschließlich Mono-Spuren, die außen positionierten, fast ausnahmslos Stereo-Spuren (Abb. 5/94), hier definiert als musikalisch oder räumlich zusammengehörige Spuren mit einer Korrelation kleiner 1, z. B. gedoppelte Spuren, mit Laufzeit- oder Äquivalenzstereofonie aufgenommene Spuren oder stereofone Grundsounds aus Synthesizern oder Samplern. Das Panorama wird also offensichtlich nicht gleichverteilt besetzt,  sondern vor allem kontrastierend  mittig und außen, und zwar unter Einhaltung der Symmetrie (siehe Kap. 5.6.1). Dieses Prinzip zeigte sich bei allen drei Musikstücken, wurde aber je nach Instrumentalgruppe unterschiedlich balanciert: Rhythmusspuren wurden etwas häufiger mittig, Begleitspuren etwas häufiger außen positioniert. Die Effektsignale wurden zu 90 % außen positioniert, wobei dieser Wert kaum zwischen den Musikstücken variierte. Dies ist mit der überwiegend räumlich-einhüllenden Funktion der Effekte erklärbar. Die verschiedenen Abbildungsrichtungen repräsentieren verschiedene Bedeutsamkeiten: Führende Instrumente bzw. Stimmen in der Mitte, anreichernde und einhüllende Instrumente und Effekte außen. Die Funktionen bzw. Absichten, die die kontrastierenden Abbildungsrichtungen unterstützen sollen, wurden konzeptionell auch als „direkte musikalische Aussage und Exposition“ einerseits sowie „unterstützende und oft antiphonische Rhythmik, Harmonik und Textur“ andererseits beschrieben. Die Außenpositionen würden dem Einrahmen und Beantworten dienen. Diese „räumliche Polyphonie“ reagiere robust auf ungünstige Abhörbedingungen [Moulton, 1990].

5.6 Gestaltung des Klangbilds 

 411

Nachbearbeitung (Mastering) Für die abschließende Gestaltung des Klangbilds im Rahmen der Nachbearbeitung ergab sich, gemessen an der relativen Häufigkeit nachbearbeiteter Abmischungen, folgende Rangfolge klanggestalterischer Mittel: Multiband-Kompression 71 %, Equalisation 58 %, Bandsättigungssimulation 46 %, Frequenzabhängige Kompression 21 %, Korrelationskorrektur 8 %. Damit bestand ein wesentliches Ziel erkennbar in der Lautheitserhöhung. Die Generalisierbarkeit auf die heutige Zeit ist insoweit begrenzt, als mittlerweile Überkompression und Lautheit an Bedeutung verloren haben, wesentlich vielfältigere und ggf. qualitativ höherwertige technische Klangbearbeitungswerkzeuge zur Verfügung stehen und elaboriertere Verfahren des Masterings, etwa die getrennte Bearbeitung von Mitten- und Seitensignalen, verbreitet Anwendung finden.

Abb. 5/94. Empirische Panoramaverteilung von Spuren bei der Klangbildgestaltung populärer Musik, aufgeschlüsselt nach Mono- und Stereospuren. Zu Grunde liegen 24 Klangbilder von drei stilistisch unterschiedlichen Musikstücken [Maempel, 2001, S. 175].

5.6.4.6 Alltagsbefunde zur Klangbildgestaltung Dass populäre Musik in einer großen stilistischen Bandbreite im Alltag leicht zugänglich ist, erlaubt es, auch aus Alltagsbeobachtungen Praktiken der Klangbildgestaltung abzuleiten und bis zu einem gewissen Grad zu generalisieren. Diese Beobachtungen sowie Einblicke in die Produktionspraxis können die empirischen Befunde bestätigen und ergänzen. Lautheit und Dynamik Kommerzielle Produktionen weisen in der Regel eine hohe Lautheit und geringe Dynamik auf, wobei die Extreme des technisch Machbaren heute nicht mehr als Zielstellung dienen (siehe Kap.  6.7.4). Sofern kultur- oder genrebedingt bestimmte Stimmen, Instrumente

412 

 5 Tonaufnahme und Tonwiedergabe

oder Sounds eine prominente Rolle  spielen  sollen, typischerweise der Lead-Gesang oder Rhythmus-Komponenten, wird die gewünschte Durchsetzungskraft häufig über eine relativ hohe, vielleicht auch zu hohe, Lautstärke sichergestellt. Diese prominenten Elemente sind dann nicht eingebettet,  sondern bestimmen  mitunter  sogar deutlich den Pegelverlauf des gesamten Klangbilds. Neben der gewünschten Auffälligkeit will man damit auch sicherstellen, dass diese – und nicht andere – Elemente Regelvorgänge nachfolgender, nicht direkt kontrollierbarer Kompressionsschritte, z.  B. im Zuge des Sendeweg-Processings, auslösen. Allerdings gilt es zu bedenken, dass Sendeweg-Processings Regelvorgänge nicht unbedingt nur auf Grund des Gesamtpegels und nicht unbedingt für das gesamte Stereosignal auslösen, sondern mehr oder weniger unabhängig für Mitte- und Seitensignale erfolgen können. Lokalisation In Übereinstimmung mit den empirischen Befunden sind Lead-Gesang, Bass sowie Kick und Snare Drum in aller Regel mittig positioniert, rahmende, antiphonische, antwortende, und/ oder gedoppelte Elemente, Delayeffekte sowie Rauminformationen in Form von Reflexionen und Diffusschall hingegen meist außen. Für Direktschalle werden in der Regel monophone bzw. kohärente Signale verwendet: Sie werden polymikrofonisch und in Nahabnahme aufgenommen und nur in Intensitätsstereofonie, niemals Laufzeitstereofonie, auf die Lautsprecherbasis verteilt. Im Falle von Drum Kits und Perkussionsinstrumenten bzw. -sounds folgt die Panoramaverteilung der einzelnen Schallquellen oft der tatsächlichen oder einer denkbaren plausiblen Aufstellung,  so dass auch Zwischenpositionen und nicht unbedingt die gesamte mögliche Abbildungsbreite genutzt werden. Gemäß dem Ansatz der sog. wall of sound, d. h. verdichteter Arrangements, Besetzungen und Effekte, werden häufig dieselben Stimmen mehrfach eingespielt und die resultierenden, eher unkorrelierten Signale gleichmäßig im Panorama verteilt. Das Kontrastprinzip ist auch im Falle der Tiefenlokalisation erkennbar, denn man versucht nicht selten, große Nähe und große Ferne gleichzeitig gegenüberzustellen. Durch Ausnutzung des Nahbesprechungseffekts (siehe Kap. 4.2.1.3), starke Kompression und De-Essing (siehe Kap.  6.2.1.3) gelingt es für Gesangsstimmen in einer Art klanglichen Weiterentwicklung des Croonings, den Eindruck großer Nähe herzustellen. Das sog. Crooning ist ein in den 1920er Jahren  mit der Entwicklung des Mikrofons entstandener, vorwiegend von Sängern gepflegter Gesangsstil der populären Musik., der sich durch Intimität und Wärme der Stimme auszeichnet und anfangs stark sexuell konnotiert wurde Andererseits werden mit Hilfe großer Nachhallanteile und -zeiten akustische Entfernungen nachgebildet, die deutlich über die Schallquellenentfernungen in realen Aufführungssituationen hinausgehen. Betont hallige Klangbilder werden jedoch heute auf Grund der Gefahr einer geringeren Präferenz [de Man, 2017] vermieden. Hallwolken auf Grund hoher Dynamikstufen können z.  B. durch eine Kompression des Hall-Eingangssignals reduziert werden. In der Tiefendimension erleichtert das Kontrastprinzip die Figur-Grund-Differenzierung (siehe Kap. 5.6.4.4). Daher werden vor allem verteilte Schallquellen, Chöre und ‚Klangflächen‘ hinten positioniert. Binaurale Wiedergabe sowie alle Wiedergabeformate, die auf in drei Raumdimensionen aufgepannten oder aufspannbaren Lautsprecheranordnungen beruhen, darunter Ambisonics sowie mit den Attributen ‚3D‘ oder ‚immersiv‘ vermarktete Mehrkanalformate, bieten die

5.6 Gestaltung des Klangbilds 

 413

Möglichkeit, auch erhöhte Schallquellen abzubilden. Da diese Formate noch nicht hinreichend häufig und kaum kommerziell für die Produktion und Übertragung populärer Musik genutzt werden, haben sich noch keine Prinzipien der dreidimensionalen Klangbildgestaltung herauskristallisiert. Allerdings gibt es dazu mehr oder weniger spartenspezifische Überlegungen und Ansätze [Markart, 2019], [Ziemer, 2020]. Raumeindruck und Effekte Das Kontrastprinzip ist auch mit Blick auf den Aspekt des Raumeindrucks erkennbar, denn häufig werden, nacheinander oder gleichzeitig, mehrere Räume eingesetzt. Dies ist zudem nicht vereinbar  mit einer realen Aufführungssituation. Zur Erhöhung der Durchhörbarkeit wird in diesem Zusammenhang mitunter auf eine einhüllende Funktion des Raums verzichtet, indem der Nachhall als Mono-Quelle,  meist aus derselben Richtung wie das verhallte Direktsignal, abgebildet wird. Die Verzögerung von Echo-Effekten orientieren  sich in der Regel am Tempo des Musikstücks. Mehrere Echo-Effekte werden zur Erhöhung der Durchhörbarkeit und der ästhetischen Komplexität oft zeitlich verschachtelt. Klangfarbe Klangfarblich  sind zum einen Verfremdungen bis hin zur Unkenntlichkeit der zugrundeliegenden Stimmen, Instrumente oder Sounds zu beobachten. Zum anderen werden deren Schwerpunktfrequenzen auf verschiedene Frequenzbereiche verteilt. Mitunter werden Bandbreiten durch Filterung gezielt beschränkt, um Überlappungen zu vermeiden. Dieses Prinzip der Komplementarität zielt auf die Schaffung eines vollen Klangbilds bei gleichzeitiger Erhaltung der Durchhörbarkeit. Die Einschwingvorgänge bzw. Einsätze  musikalisch wichtiger Klänge werden u. a. durch Dynamikbearbeitung, Lautstärkeerhöhung und klangfarbliche Veränderung durch Filtern und Equalizern prägnant gestaltet. Die empirischen Befunde, die hörende Analyse verfügbarer Musik und die produktionspraktischen Erfahrungen erweisen  sich als weitgehend konsistent. Trotz vielfältiger Möglichkeiten auf Grund des nicht erforderlichen Bezugs auf eine Aufführungssituation, der Bedeutung und Erwartung einer  sekundären Interpretation und der Vielzahl verfügbarer Gestaltungsmittel folgt die Klangbildgestaltung  musikalischen, ästhetischen und technischen Zielsetzungen und orientiert sich hierfür an den Prinzipien Prägnanz, Kontrast, Komplementarität und Robustheit. Letztlich entscheiden auch ganz subjektiv die musikalische Erfahrung, die Ausdrucksabsicht, die Produktionserfahrung und das kulturelle Gespür der Musikproduzenten, die u. a. versuchen, mit den Ohren ihrer Hörerschaft zu hören, darüber, welche Eigenschaften ein optimales Klangbild im konkreten Fall ausmachen.

5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen In einem audiovisuellen Medium wie dem Fernsehen hat die Kombination von Ton und Bild eine hohe produktionstechnische Relevanz für die Gestaltung der Tonmischung. Dies schließt auch eine zum Teil deutlich andere Mikrofonierung im Vergleich zu Produktionen ohne Bild wie bei Hörfunk und Schallplatte ein. Je  mehr eine Produktion  sich etwa dem Genre des Spielfilms nähert, desto größere Bedeutung gewinnt die Tongestaltung hinsichtlich der

414 

 5 Tonaufnahme und Tonwiedergabe

erzählerischen Möglichkeiten. Das sog. Sound Design, also die künstlerische Gestaltung der klanglichen Ausformung, hilft wesentlich, eine Story zu tragen, zu ergänzen, zu verstärken oder auch bewusst Gegensätze zu schaffen. Oberstes Ziel einer guten Tonmischung ist, die dramaturgische Wirkung des Bilds durch geeignete akustische Elemente zu unterstützen. Die Tonebene dient meist der Etablierung einer überzeugenden Illusion des Geschehens, sowohl bei der Live-Übertragung einer Show oder Sportveranstaltung wie auch bei einer Konzertoder Opernübertragung. Die Abbildung des Direktschalls einer Schallquelle sowie der räumlichen Attribute des Produktionsorts sollen beim Rezipienten eine emotionale Wirkung durch die Wahrnehmung hervorrufen, die vergleichbar ist der Wirkung auf den Betrachter vor Ort. Im Spannungsfeld von Ton und Bild haben sich heute dramaturgische Gestaltungsmittel in der Audiotechnik bewährt, auf deren Besonderheiten bei den verschiedenen Genres im Folgenden näher eingegangen wird. 5.6.5.1 Unterhaltung und Show Die vollkommene Bewegungsfreiheit von Darstellern, Moderatoren, Gästen  sowie der Kameras  setzen Fernsehregisseure heute als  selbstverständlich voraus. Dabei eine ausgewogene Klangbalance zwischen der Szene und dem Publikum im Auditorium zu erreichen, ist eine große Herausforderung für die Tonregie, insbesondere bei Live-Sendungen ohne die Möglichkeit der Wiederholung. Gute Sprachverständlichkeit einerseits und ein lautes, enthusiastisches Publikum andererseits stehen oftmals zueinander im Widerspruch, wobei die Sprachverständlichkeit der Darsteller zusätzlich durch eine Beschallung häufig beeinträchtigt wird. Vor der Endmischung einer großen Show werden üblicherweise die vier Elemente Moderation und Gäste, Musik, Playback und Publikum auf getrennten Wegen vorgemischt und ggf. vorproduziert. Dadurch wird es  möglich, die einzelnen Tongruppen Sprache, Live-Musik, Zuspielung und Applaus unabhängig voneinander klanglich zu bearbeiten und ausgewogen auszusteuern. Eine moderne Bilddramaturgie bei pegelintensiven Shows ist ohne drahtlose Ansteckmikrofone (Kap. 4.3) und gerichtete Handmikrofone nicht mehr denkbar. Ansteckmikrofone (Kap.  4.2.4.5)  mit Kugelcharakteristik nehmen nicht nur das Nutzsignal auf,  sondern auch einen großen Teil der Publikumsreaktionen und der Beschallungssignale. Der Abstand zwischen Nutzsignal und Störsignal ist deshalb klein. Sie eignen sich also mehr für ruhigere Diskussionsrunden mit wenig Publikumsgeräusch. Für große Shows sind Ansteckmikrofone mit Nierencharakteristik besser geeignet. Sie minimieren die Gefahr des Rückkoppelns, erhöhen den Nutzsignalabstand und ermöglichen eine unabhängigere Mischung. Die Positionierung des Mikrofons ist dann allerdings kritischer und bei extremen Kopfbewegungen schwankt der Nutzsignalpegel stark. In letzter Zeit findet man deshalb häufig Nackenbügelmikrofone, welche durch ihren sehr geringen Abstand zum Mund ein Signal liefern, welches relativ wenig Schall der Beschallungsanlage und wenig Applaus enthält und darüber hinaus auch eine hohe Rückkopplungssicherheit gewährleistet (Kap. 4.2.4.5). Vielfach kommen auch gerichtete Handmikrofone zum Einsatz. Sie ermöglichen dem Moderator ein schnelles Reagieren auf den Studiogast und beeinträchtigen bei Bewegungen die Mischung kaum. Als Handmikrofone können nur  solche Typen verwendet werden, die weitgehend griffunempfindlich

5.6 Gestaltung des Klangbilds 

 415

und  mit einem internen Nahbesprechungsschutz gegen Poppgeräusche ausgerüstet  sind. Die bei Druckgradientenempfängern unvermeidliche Tiefenanhebung bei Nahbesprechung wird dabei bereits im Mikrofon durch akustische oder elektrische Gegenmaßnahmen kompensiert. Bei Live-Musik ist es meist kein Problem, wenn Mikrofone im Bild sichtbar sind. Unterhaltungsorchester und Popgruppen werden ausschließlich im Einzelmikrofonverfahren oder Polymikrofonie aufgenommen (Kap. 5.3.6), wobei u. U. jedes einzelne Instrument mit Hilfe spezieller Mikrofonhalterungen im direkten Nahbereich abgenommen wird. Als optisch attraktives Element werden aber auch bewusst Großmembran- und sog. Vintage-Mikrofone, also historische Mikrofone, gerne verwendet (siehe Kap.  4.2.4.4). Über ein Hilfsmischpult wird eine Vormischung des Klangkörpers erstellt, die dann als Zwei- oder Mehrkanalquelle am Hauptmischpult aufliegt. Sowohl die Mikrofonierung als auch die eigentliche Mischung weisen große Ähnlichkeiten zum Popmusik-Genre auf, wo aus vielen direkt aufgenommenen Einzelelementen ein stimmiges Klangbild erzeugt wird. Das Voll- oder Halbplayback-Verfahren kommt vielfach in Volksmusik- und Schlagersendungen zur Anwendung. Bei Vollplayback wird die gesamte Tonmischung zugespielt. Der Akteur bewegt nur noch stumm und möglichst synchron seine Lippen oder Hände für ein Instrument. Der Vorteil eines Vollplaybacks ist die fehlerfreie Wiedergabe durch den Solisten. Bei Halbplayback hingegen spielen oder singen die Solisten live, während die Instrumentalbegleitung zugespielt wird. Bei Shows in sehr großen Hallen wird bei Playback-Zuspielungen das Tonsignal für die Sendung verzögert, um die Laufzeit von den Beschallungslautsprechern zu den Mikrofonen auszugleichen und somit ein störendes Echo bzw. eine unangenehm wirkende Halligkeit zu verhindern. Diese Verzögerung des Audiosignals lässt sich ohne Verlust der Synchronität zwischen Ton und Bild ausgleichen, da auf der Videoseite immer auch Bildeffekte, sog. Digital Video Effects (DVE) zur Anwendung kommen. Sie ziehen systembedingt eine Signalverzögerung von  mindestens einem Frame nach  sich, entsprechend 40  ms bei einer Bildwechselfrequenz von 25 Hz oder ca. 12 m Schallweg. Die vorproduzierten Videoeffekte triggern dabei oft automatisch die Zumischung dynamischer Toneffekte. Die Mikrofonierung des Publikums für Applaus und Reaktionen gestaltet sich oft sehr aufwändig, vor allem bei Mischungen in Mehrkanal-Stereofonie. Einen einhüllenden, wirkungsvollen und gleichmäßigen Surround-Sound herzustellen  mit dem Gefühl, live dabei zu sein, ist eine anspruchsvolle Aufgabe für die Klangregie. Einerseits sollen die Äußerungen des Publikums möglichst isoliert eingefangen werden, andererseits sollen individuelle Stimmen und Klatscher nicht so stark in den Vordergrund treten, ebenso wenig wie die störenden Signale von Beschallungslautsprechern. Hinzu kommt die meist viel zu große Originaldynamik im Auditorium. Zwischen dem verhaltenen Lachen eines Studiogastes und dem tosenden Applaus einer kreischenden Menschenmenge liegen nicht selten mehr als 60 dB. Wenn nun die Empfindlichkeit der Publikumsmikrofone auf die leiseren Anteile ausgerichtet sind, bringen die hohen Pegelspitzen von Applaus einen notwendigerweise eingeschleiften Kompressor derart stark zum „Pumpen“, dass das Klangbild gepresst wirkt und Kompressionsartefakte rasch hörbar werden. Eine schaltungstechnisch trickreiche Lösung besteht darin, die Applausmischung parallel dreimal dem Mischpult zuzuführen, einmal mit geringerer Verstärkung für lauten Applaus und zweimal mit höherer Verstärkung, etwa + 6 dB, für zarten Applaus oder leises Lachen.

416 

 5 Tonaufnahme und Tonwiedergabe

Eine dieser Mischungen wird gegenphasig über einen Expander zugemischt (Abb. 5/95). Wird das Publikum lauter,  schaltet der Expander zunehmend das gegenphasige Signal durch, wodurch sich die beiden Anteile für leisen Applaus auslöschen. Bei geeigneten Schwellwerten (Thresholds) des Expanders und eines meist notwendigen Kompressors lässt sich so die Dynamik des Publikums gut kontrollieren.

Abb. 5/95. Applausschaltung zur halbautomatischen Kontrolle von dynamischen Publikumsreaktionen.

5.6.5.2 Oper Bei Opernproduktionen hat  sich in den letzten Jahren vielfach eine Produktionsmethode etabliert, die bei Großaufnahmen einzelner Sänger dem Wunsch nach  mehr Präsenz der Stimmen nachkommt. Die Gesangssolisten werden dabei mit Kleinstmikrofonen ausgestattet, deren Signale über Funk zur Tonregie übertragen werden (siehe Kap.  4.3). Die Mikrofone sind häufig beim Haaransatz an der Stirn angebracht und liefern einen Pegel, der unabhängig von Kopfdrehungen ist. Entscheidend bei dieser Technik ist das homogene Einbetten des sehr direkten Klangbilds der Ansteckmikrofone in das Klangbild der Rampenmikrofone, diese  meist  mit Supernierencharakteristik. Dabei kommen Filter und Verzögerungsgeräte zum Einsatz. Nachteil dieser Technik ist das Fehlen bzw. die eingeschränkte Verwendbarkeit der Entfernungsperspektive bezüglich der Distanz von der Bühnenkante und die Panoramaverteilung auf der Bühne, das akustische Geschehen spielt sich nahezu in einer einzigen Ebene ab. Der Vorteil ist eine deutlich höhere Bild-Ton-Kongruenz bei Nahaufnahmen der

5.6 Gestaltung des Klangbilds 

 417

Sänger. Man mag nun einwenden, dass das wiederum ein Problem der Bildregie darstellt. Die Praxis zeigt leider, dass eine Bildgestaltung bei dieser Art von Produktionen auf tondramaturgische Gesichtspunkte vielfach wenig Rücksicht nimmt. 5.6.5.3 Sport Sportarten, die in offenen Stadien oder Hallen stattfinden, unterscheiden sich vom tontechnischen Aufwand gesehen wenig von Unterhaltungsshows. Die bereits bekannten vier akustische Gestaltungsebenen Moderation mit Gästen, Musik, Playback und Publikum müssen in ihrer Wirkung derart zusammengefügt werden, dass wiederum eine packende und informative Sendung entsteht, die neben einem Unterhaltungswert auch einen deutlichen Reportagecharakter hat, also über Ereignisse berichtet. Darsteller beim Ton sind die meist im Off  sitzenden Kommentatoren, das Bildereignis kommt vom Sportfeld,  seine Audioelemente haben meist niedrigen Pegel, z. B. entfernte Spielgeräusche und Rufe. Die vorproduzierten Zuspielungen zur Erläuterung und Ergänzung des Geschehens haben ihren Ursprung überwiegend aus einer anderen akustischen Umgebung. Schließlich ist das Publikum, welches  sich in der unmittelbaren Atmosphäre des  sportlichen Geschehens befindet, ein weiteres Element der Tonmischung. Für die Kommentatoren werden üblicherweise Spezialmikrofone eingesetzt, die dicht am Mund positioniert  sind. Sie eliminieren weitgehend  störenden Umgebungsschall und zeichnen  sich durch einen hohen Nutzsignalanteil aus. Als günstigste Bauform hat  sich das sog. Head-Set etabliert, welches aus einem Kopfhörer für die Kommando- und Rückleitung und einem integrierten Nahbesprechungsmikrofon mit Tiefenabsenkung besteht. Auch Handmikrofone mit starker Richtwirkung und hoher Nahbesprechungsdämpfung für Popplaute werden verwendet, die zusätzlich einen speziellen Bügel am Besprechungskorb haben können, der einen konstanten Abstand zur Oberlippe garantiert. Die Spiel- und Aktionsgeräusche auf dem Sportfeld können, je nach Anzahl und Abstand der Mikrofone  sowie abhängig von der Mischstrategie,  mehr oder weniger präsent oder distant sein. Hier ist die Intention der Bildregie von Bedeutung, aber auch das Bildübertragungsformat mit seiner technischen Auflösungsqualität. Populäre Großaufnahmen erfordern eine entsprechend akustische Nähe, während die bei High-Definition-TV üblicheren Totalen und Halbtotalen eher nach einem weiter entfernten Ton verlangen. Beim Fußball ist eine Entwicklung zu beobachten, bei der die Geräuschanteile mit geringem Pegel auf dem Spielfeld über eine automatische Nachführung von Richtmikrofonen eingefangen werden. Dieses sog. Tracking-System zur automatischen Nachführung verwendet zur Erkennung spezielle Kamerasignale in Echtzeitauswertung. Für Zuspielungen, z. B. Verstärkung der Publikumsatmosphäre, gelten bei Sportveranstaltungen nicht die hohen Ansprüche an Synchronität, da es sich hier nicht um echte Playbacks handelt. Auf die Verzögerung des Audiosignals kann deshalb verzichtet werden. Die Zuspielungen sollten aber akustisch derart unterlegt  sein, dass kein vollständiger Bruch zwischen dem originalen Schauplatz und dem Ort der Einblendung entsteht. Bei einer Sportveranstaltung in einem großen Stadion hat die akustische Atmosphäre der Umgebung einen hohen Stellenwert für die Übertragung. Idealerweise lässt  sich die enthusiastische Begeisterung am besten in Mehrkanal-Stereofonie darstellen. Dies bedeutet

418 

 5 Tonaufnahme und Tonwiedergabe

aber wiederum einen hohen Aufwand an Mikrofonierung für einen ausgeglichenen Rundumklang. Die Stimmung von mehreren zehntausend Besuchern zu übertragen und ein akustisches Bild entstehen zu lassen von Weiträumigkeit einerseits und von filigraner Dichte am Geschehen andererseits, ist immer wieder eine Herausforderung. Bei weitläufigen Sportarten wie Skiwettbewerben, Langlaufen, Radfahren oder auch Formel-1-Rennen ist eine adäquate Tondramaturgie zum Bild deutlich  schwieriger. Den unverhältnismäßig großen Zoom-Bereich  moderner Kameras können  selbst  modernste Richtrohrmikrofone mit hoher Richtwirkung nicht nachbilden. Die häufige Verwendung von Großaufnahmen führt dann u. U. zu einem nicht mehr dazu passendem Ton und zu einem rasch  sinkenden Qualitätseindruck. Für einzelne Sportarten haben  sich deshalb verschiedene Konzepte herauskristallisiert, wie z.  B.  mobile Funkübertragungssysteme  mit Hubschrauber-Relaisstationen für Audio und Video bei Radrennen oder ausgeklügelte Mikrofonstandorte bei Skisprung-Schanzentischen und Autorennen. Hauptziel der Mikrofonierung bei diesen Sportproduktionen ist, einen möglichst hohen Pegel der Spielgeräusche bzw. der Geräusche der Akteure und ihres Materials, isoliert vom Umgebungsgeräusch, zu erhalten. Dabei kommt es nicht so sehr auf die möglichst realitätsnahe Signalqualität an, sondern auf einen möglichst hohen Nutzsignalabstand. Innovative Lösungen wie das Vergraben von Kontaktmikrofonen in der Sandgrube beim Weitsprung lassen zunehmend den Begriff Sound Design für diese Arbeit zu. In diese Kategorie fällt auch die zunehmende Verwendung von vorproduzierten Geräuschen mit Hilfe von Samplern (siehe Kap. 2.2.4.4), wodurch man bei besonders  schwierigen Aufnahmebedingungen, wie etwa Skifahren, eine beeindruckende akustische Nähe erzeugen kann. 5.6.5.4 Reportage, Magazin und Dokumentation Bei der Produktion dieser Programmbeiträge, die in der Regel nicht im Studio entstehen, muss sich die Mikrofonierung weitgehend an den Gegebenheiten des Schauplatzes orientieren. Hauptziel der Aufnahmetechnik ist, Sprache und Interviews so sauber wie möglich aufzunehmen, frei von jeglichen störenden Nebengeräuschen. Die bei Bedarf in der Nachbearbeitung verwendeten notwendigen Effekte und atmosphärischen Geräusche werden separat in bestmöglicher Qualität aufgezeichnet. Für eine gute Aufnahme hat sich die Verwendung eines gerichteten Mikrofons in Nierenoder Supernierencharakteristik bis hin zum Interferenz- oder Richtrohrmikrofon bewährt. Sie  sind  montiert in einer elastischen Mikrofonhalterung zur  mechanischen Entkopplung von Griffgeräuschen (s. Kap. 4.2.1.7) und werden mit einer Mikrofonangel oder einem Galgen (Boom) geführt. Zur Unterdrückung von Windgeräuschen, auch von Bewegungswind bei  schnellen Schwenks der Angel, wird entweder bei Innenaufnahmen ein Schaumstoffwindschutz oder bei Außenaufnahmen ein das Mikrofon mit einem Luftvolumen umfassender Windkorb mit Fellüberzug verwendet (siehe Kap. 4.2.1.8). Bei geschickter Führung und Platzierung der Angel mit einer Position meist schräg vor und über dem Kopf des Protagonisten mit einem Abstand von 40 bis 100 cm je nach Bildausschnitt, ergibt sich ein sehr ausgeglichenes, konsistentes Klangbild mit adäquater räumlicher Perspektive. Der Einsatz von Lavalier- oder Ansteckmikrofonen setzt sich bei Reportagen zunehmend durch (siehe Kap. 4.2.2.4). Ihrer Anwendung stehen jedoch häufig Hindernisse entgegen, z. B.

5.6 Gestaltung des Klangbilds 

 419

durch ungeeignetes Material der Oberbekleidung, an der sich kein Ansteckmikrofon befestigen lässt oder durch mangelnde Aussteuerungs- und Kontrollmöglichkeit, die zu Über- bzw. Untersteuerung und zu unbemerkten Störgeräuschen wie Einstreuungen, Funkaussetzern usw. bei Funkmikrofonen führen kann. Windgeräusche oder unangenehme Brustresonanzen könnten zwar in der Nachbearbeitung ausgeglichen werden, aber aus Gründen der schnellen Aktualität wird häufig darauf verzichtet. Bei der Mischung muss besonders auf die Verständlichkeit der Sprache geachtet werden,  sowohl auf den Originalton wie auch auf den Kommentar. Bei der Auswahl von Musik ist darauf zu achten, dass die Frequenzverteilung nicht zu stark mit den Formanten der Sprache kollidiert. Während bei Reportagen und  magazinartigen Interviews ausschließlich in Mono aufgenommen wird, ist bei Dokumentationen die Zweikanal-Stereofonie heutiger Standard. Der höhere Anteil an Szenen ohne Sprache  macht diese Erweiterung  sinnvoll. Atmosphären und Effekte mit großer Basisbreite, also einem Korrelationsgrad um den Wert 0, leisten einen wichtigen Beitrag für eine überzeugende Illusion, am Geschehen virtuell beteiligt zu sein. Als Universalwerkzeug hat sich hierbei das MS-Aufnahmeverfahren bewährt (siehe Kap.  5.3.2.2),  mit einer Super- oder Hyperniere für das Mittenmikrofon. Dieses liefert ein gutes Mittensignal und ist somit auch für Interviews, Gespräche und dergleichen einsetzbar; zusammen mit dem S-Signal ergibt sich ein flexibles Stereo-System, welches in der Tonnachbearbeitung eine Anpassung der Basisbreite an den Bildausschnitt ermöglicht. Mit der Weiterentwicklung der digitalen Video- und Audiotechnik steigt das technische und kreative Potential für hochwertige Dokumentationen im Fernsehen. Sowohl die Bildqualität, aber auch die neuen Möglichkeiten der computerunterstützten Audiotechnik ermöglichen interessante Produktionen. Die am meisten beeindruckenden Dokumentationen sind diejenigen, die durch eine bewusste dramaturgische und kreative Verwendung von Stimmen, Musik und Geräuschen eine erzählende Einheit zusammen mit dem Bild entstehen lassen. Im Film ist die psychologische Wirkung des Tons schon lange unumstritten, im Fernsehen werden zunehmend derartig „durchkomponierte“ Werke produziert. Sie sind in der Herstellung zeitaufwändig und kostenintensiv. 5.6.5.5 Spielfilm Beim Film ist die Anforderung an eine gute Sprachverständlichkeit höher ausgeprägt als bei Dokumentationen und Fernsehspielen. Im deutschen Sprachraum sogar noch stärker als in anderen Sprachen. Dies führt zu Synchronfassungen fremdsprachiger Spielfilme, bei denen der Pegel des Dialoges tendenziell höher ist als bei der Originalfassung. Die Perfektion der tontechnischen und auch ausdrucksseitigen Qualität des Dialoges hat beim amerikanischen Mainstream-Kino zu einer Spezialisierung der Berufsbilder geführt. So gibt es z. B. den Dialog-Editor, den Automatic Dialogue Replacement-Editor und -Mixer (ADR) sowie den Dialogue Rerecording-Mixer. Der Aufwand bei diesen Arbeitsprozessen ist oft sehr hoch, insbesondere bei der Angleichung des nachträglich aufgenommenen Dialogs in der ADR-Session an den Originalton. Das Ergebnis ist ein qualitativ konstant guter, perspektivisch stimmiger und verständlicher Dialog [Yewdall, 2007], [Purcell, 2007]. Durch die Wichtigkeit der Sprache steht die Dialogvormischung in der Gesamtmischung an erster Stelle. Alle anderen Audioelemente haben sich diesem Qualitätsaspekt anzupas-

420 

 5 Tonaufnahme und Tonwiedergabe

sen. Auch im Film entfaltet die Tonebene ihre maximale Wirkung in der vollständigen Ausnutzung ihrer erzählerischen Kraft. Wenn die Story auch, gelegentlich sogar hauptsächlich durch den Ton erzählt wird, so stimuliert dies in besonderem Maße die Vorstellungskraft bei der Wahrnehmung. Die Gesetzmäßigkeiten des Erzählens, das sog. Storytelling, treffen beim Spielfilm in gleicher Weise zu, wie beim Roman oder Essay [Purcell, 2007], [Flückiger, 2006]. 5.6.5.6 Fernsehspiel und Sitcom Obwohl zeitweise aus der Mode gekommen, feiert das Fernsehspiel in Form der sog. Sitcom, abgeleitet von Situation Comedy, also Situationskomödie, in den letzten Jahren eine preisgünstige Renaissance. Bei der Mikrofonierung handelt es sich dabei um einen Sonderfall, der ansonsten in anderen Genres kaum mehr anzutreffen ist. Durch den hohen Anteil an Improvisation der Schauspieler ist ein individuelles Bestücken  mit Ansteckmikrofonen nicht praktikabel, da eine Mehrspuraufzeichnung der Einzelsignale einen zusätzlichen, kostenintensiven Zeitaufwand in der Tonnachbearbeitung bedeuten würde. Zum Einsatz kommen daher fahrbare Mikrofongalgen, wo ein eigener Tontechniker, auf einer Plattform  sitzend,  mit Seilzügen die Länge des ausfahrbaren Auslegers sowie die Rotation des Mikrofons mit Nierencharakteristik steuert. In den Kopfhörer des Technikers wird eine Mischung aus dem Mikrofonsignal und etwaigen Kommandos oder Ansagen des Tonmeisters bzw. Regisseurs eingespielt. Derartige Galgen kamen früher in der Fernsehproduktion und beim Mainstream-Spielfilm häufig zum Einsatz. Heute  sind  sie in diesem Bereich nur noch selten auf den „Sound stages“ anzutreffen. Das am Galgen verwendete Mikrofon muss elastisch gelagert und mit einem Schaumstoffwindschutz umgeben sein. Das Abhängen von Mikrofonen ist bei Sitcoms ebenso gebräuchlich wie das Verstecken in der Szene beim Spielfilm. Die einzelnen Mikrofone werden bereits bei der Aufnahme zeitsparend zusammengemischt, um einen schnellen und effizienten Workflow in der Nachbearbeitung zu unterstützen.

Standards [EBU R 22] Listening conditions for the assessment of sound programme material, EBU-Rec., 2000, Details in EBU Tech 3276 mit suppl. 1 [EBU R 91] Track allocations and recording levels for the exchange of multichannel recording, EBU-Rec., 1998 [EBU R 96] Formats for production and delivery of multichannel programme, EBU-Rec., 2000 [ISO Rec. 1972] One-third octave band background noise level limits noise rating curves (NR), 1972 [ITU-R BS. 708] Determination of the Electro-Acoustical Properties of Studio Monitor Headphones, ITU-Rec. 1990/1997 [ITU-R BS.775-1] Multichannel stereophonic sound system with and without accompanying picture, ITU-Rec., 1992/1994 [ITU-R BS.1116-1] Methods for the subjective assessment of small impairments in audio  systems including multichannel sound systems, ITU-Rec., 1997 [ITU-R BS.1384] Parameters for international exchange of multi-channel sound recording, ITU-Rec., 1998 [ITU BS. 2026] Audio definition model, ITU-Rec., 2019

Literatur 

 421

[ITU-R 10C/11] Channel assignments and levels on multichannel audio media, SMPTE-Proposed Standard for Television, ITU Information doc. ITU-R 10C/11 und 10-11R/2, 1998 [SMPTE RP-173] Loudspeaker placements for audio monitoring in high definition electronic production, Rec., SMPTE N 15.04/152-300B, 1991 [SSF RP 01-E3] Listening Conditions and Reproduction Arrangements for Multichannel Stereophony, 2000 [SSF RP 02/1-E2] Multichannel Recording in 3/2 Format, 2000

Literatur [Adriaensen, 2006] Adriaensen, F.: „Near Field filters for Higher Order Ambisonics“, http://kokkinizita.linuxaudio.org/papers/hoafilt.pdf, Parma 2006 [Barron, 1981] Barron, M. und Marshall, H. A.: „Spatial Impression due to early lateral reflections in concert halls“, in: Journal of Sound and Vibration 77, 1981, S. 211ff. [Bauck, 1996] Bauck, J. und Cooper, D. H.: „Generalized Transaural Stereo and Applications“, in: J. Audio Eng. Soc. 44, 1996, S. 683ff. [Benjamin, 2005] Benjamin, E. und Chen, T.: „The Native B-format Microphone: Part I“, 119. AES Convention 2005, New York [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer New York [Berkhout, 1993] Berkhout, A. J., de Vries, D. und Vogel, P: „Acoustic Control by Wave Field Synthesis”, in: Journal Acoust. Soc. Am., Vol. 93, 1993, S. 2764ff. [Blauert, 1974] Blauert, J.: Räumliches Hören. Stuttgart 1974, Nachschrift 192 und 1985 [Blauert, 2000] Blauert, J.: Räumliches Hören, 2000, Hirzel [Boone, 1995] Boone, M. M, Verheijen, E. N. G. und van Tol, P.F.: „Spatial sound field reproduction by wave field synthesis“, in: Journal Audio Eng. Soc., Vol. 43, 1995, S. 1003ff. [Boone, 2004] Boone, M. M.: „Multi-Actuator Panels (MAPs) as loudspeaker arrays for wave field synthesis“, in: J. Audio Eng. Soc, 52 (7-8), S. 712ff., 2004 [Brittain, 1956] Brittain, F. H. und Leakey, D. M.: „Two-channel stereophonic sound systems“, in: Wireless World 1956, S. 206ff. [Bruck, 1998] Bruck, J.: „Solving the surround dilemma“,in: Bericht 19. Tonmeistertagung, Karlsruhe 1996, S. 117ff., 1998, Saur [Buff, 2020] Buff, H.-M.: Überall – Musikproduktion in 3D-Audio für Kopfhörer, Ulm 2020, Ebner Media, https://www.soundandrecording.de/shop/ueberall-musikproduktion in-3d-audio-fuer-kopfhoerer [Chapman, 2009] Chapman, M. et al.: „A Standard for Interchange of Ambisonic Signal Sets”, Ambisonics Symposium 2009, Graz [Craven, 2009] Craven, P. G. et al.: „Microphone Arrays Using Tangential Velocity Sensors“, Ambisonics Symposium 2009, Graz [Dabringhaus] http://www.mdg.de/frame2.htm [Damaske, 1968] Damaske, P.: „Subjektive Untersuchung von Schallfeldern“, in: Acustica, Bd. 19, S. 199ff., 1967/68 [Daniel, 2001] Daniel, J.: „Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes reproduction“, in: J. Audio Eng. Soc., Vol. 46, S. 276ff., 1998 [Daniel, 2003] Daniel, J.: „Spatial Sound Encoding Including Near Field Effect: Introducing Distance Coding Filters and a Viable, New Ambisonic Format”, 23. AES International Conference, Copenhagen 2003

422 

 5 Tonaufnahme und Tonwiedergabe

[de Vries, 2000] de Vries, D., Hulsebos, E. und Bourdillat, E.: „Auralization by Wave Field Synthesis“, in: Bericht 21. Tonmeistertagung 2000, S. 121ff. [Dickreiter, 2003, 2011] Dickreiter, M.: Mikrofon-Aufnahmetechnik, 3. Aufl. 2003 mit Survival Kit, 4. Aufl. 2011, Hirzel [Edenhof, 2020] Edenhof, A.: Das Mikrofonbuch, 2020, 3. Aufl., GC Carstensen [Eargle, 1990] Eargle, J. und Streicher, R.: „Acoustical Perpectives in Commercial Two-Channel Stereophonic Recording“ in: AES 8th International Conference, Washington, 1990, S. 153ff. [Farrar, 1979] Farrar, K.: „Soundfield Microphone. Design and Development of Microphone and Control Unit“, Wireless World, Oktober 1979 [Fellgett, 1974] Fellgett, P. B.: „Ambisonic reproduction of directionality in surround-sound systems“, in: Nature Bd. 252, S. 534ff., 1974 [Fellgett, 1975] Fellgett, P. B.: „Ambisonics. Part one: General system description“, in: Studio Sound Vol. 17, 1975 [Flückiger, 2006] Flückiger, B.: Sound Design – Die virtuelle Klangwelt des Films, 2006, Schüren [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur [Gernemann, 2001] Gernemann, A.: „Stereo+C: An All-Purpose Arrangement of Microphones Using Three Frontal Channels“, 110. AES-Convemtion, Amsterdam 2001, paper 5367 [Gernemann, 2002/1] Gernemann, A.: „DECCA-Tree - gestern und heute“, in: Bericht 22. Tonmeistertagung, Hannover 2002 [Gernemann, 2002/2] Gernemann, A.: „Die stereophone Perspektive – eine Definition und praktische Anwendung“, in: Bericht 19. Tonmeistertagung, Karlsruhe, 1997, Saur [Gerzon, 1973] Gerzon, M. A.: „Periphony: With-Height Sound Reproduction“, JAES Bd. 21 Nr. 1, 1973 [Gerzon, 1975/1] Gerzon, M. A.: „Ambisonics. Part two: Studio techniques“, Studio Sound Vol. 17, 1975 [Gerzon, 1975/2] Gerzon, M. A.: „The Design of Precisely Coincident Microphone Arrays for Stereo and Surround Sound“, 50. AES Convention, London 1975 [Gerzon, 1980] Gerzon, M. A.: „Practical Periphony: The Reproduction of Full-Sphere Surround“, 65. AES Convention, London 1980 [Gerzon, 1992] Gerzon, M. A.: „General Metatheory of Auditory Localisation“, 92. AES Convention 1992, Wien [Goldstein, 2002] Goldstein, E. B.: Wahrnehmung, 2. dt. Aufl., 2002, Spektrum [Griesinger, 1997] Griesinger, D.: „Spatial impression and envelopment in small rooms“, 103. AES Convention, Preprint 4638, in: J. Audio Eng. Soc., Vol. 45, S. 1013f., 1997 [Griesinger, 1998] Griesinger, D.: „General overview of spatial impression, envelopment, localization, and externalization“, in: Proceedings of the 15th International AES Conference, Copenhagen 1998, S.136ff. [Griesinger, 2000] Griesinger, D.: „The theory and practice of perceptual modeling – how to use electronic reverberation to add depth and envelopment without reducing clarity“, in: Bericht 21. Tonmeistertagung, Hannover 2000, S. 766ff. [Hamasaki, 2000] Hamasaki, K., Fukada, A., Kamekawa, T. und Umeda, Y.: „A concept of multichannel sound production at NHK“, in: Bericht 21. Tonmeistertagung, 2000 [Heller, 2008] Heller, A. J., Lee, E., und Benjamin, E.M.: „Is My Decoder Ambisonic?“, 125. AES Convention 2008, San Francisco [Heller, 2010] Heller, A. J., Lee, E., und Benjamin, E.M.: „Design of Ambisonic Decoders for Irregular Arrays of Loudspeakers by Non-Linear Optimization“, 29. AES Convention, San Francisco 2010 [Herrmann, 1999] Herrmann, U., Henkels, V. und Braun, D.: „Vergleich von 5 verschiedenen Hauptmikrofonverfahren“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 508ff., 1999, Saur

Literatur 

 423

[Hoeg, 1970, 1975] Hoeg, W. und Steinke, G.: Stereofonie-Grundlagen., 2. Aufl., 1975, Verlag Technik, Hoeg, W. und Wagner, K.: Stereofonie-Aufnahmetechnik., 1970, Verlag Technik [Hoeg, 1972] Hoeg, W.: „Kompatibilitätsprobleme der Zweikanal­-stereofonie“,in: Techn . Mitt. RFZ 16, 1972, H.3, S. 65ff. [Holman, 2007] Holman, T.: Surround Sound: Up and Running, 2. Aufl., Focal Press, 2007 [Horbach, 1998] Horbach, U., Pellegrini, R., Felderhoff, U. und Theile, G.: „Ein virtueller Surround Sound Abhörraum im Ü-Wagen“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 238ff., 1999, Saur [Horbach, 1999] Horbach, U., Karamustafaoglu, A., Pellegrini, R., Mackensen, P. und Theile, G.: Design and Applications of a Data-based Auralization System for Surround Sound, 106. AES convention 1999, München [Horbach, 2000] Horbach, U. und Boone, M.: „Practical Implementation of Data-based Wave Field Reproduction System“, 108. AES Convention, 2000, Preprint [Hugonnet, 1998] Hugonnet, C., Walder, P.: Stereophonic Sound Recording, John Wiley & Sons, 1998 [Huron, 2006] Huron, D. B.: Sweet anticipation: music and the psychology of expectation, 2006, MIT Press [Image Assistant] Wittek, H.: Image Assistant 2.1, www.hauptmikrofon.de, https://schoeps.de/wissen/image-assistant.html [IRT] Qualitätsunterschiede zwischen Stereoaufnahmen in X/Y- und M/S-Mikrophontechnik, Akustische Informationen 3.4.-2 des Instituts für Rundfunktechnik (IRT) [Kügler, 1992] Kügler, C. und Theile, G.: „Loudspeaker reproduction: study on the subwoofer concept“, 92. AES-Convention, Preprint 3335, in: J. Audio Eng. Soc., Vol. 40, S. 437ff., 1992 [Leakey, 1960] Leakey, D. M.: „Further thoughts on stereophonic sound systems“, in: Wireless World 1960, S. 154ff. [Lipshitz 1985] Lipshitz, S. P.: „Stereo Microphone Techniques: Are the Purists Wrong?“, 78. AES Convention 1985, Anaheim [de Man, 2017] de Man, B., McNally, K., and Reiss, J. D.: „Perceptual evaluation and analysis of reverberation in multitrack music production“, in: Journal of the Audio Engineering Society, 2017, 65 (1/2), S. 108 ff. [Mackensen, 1998] Mackensen, P., Reichenauer, K. und Theile, G.: „Einfluss der spontanen Kopfdrehungen auf die Lokalisierung beim binauralen Hören“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 218ff., Saur [Maempel, 2001] Maempel, H.-J.: Klanggestaltung und Popmusik, eine experimentelle Untersuchung, 2001, Synchron [Maempel, 2007] Maempel, H.-J.: „Technologie und Transformation. Aspekte des Umgangs mit Musikproduktions- und -übertragungstechnik“, in: de la Motte-Haber, H. und Neuhoff, H. (Hrsg.): Musiksoziologie (Handbuch der systematischen Musikwissenschaft; 4), S. 160 ff., 2007, Laaber [Maempel, 2011] Maempel, H.-J. und Obara, L.: „Der Einfluß des Pre-Masterings auf die Beurteilung von Musik – Eine experimentelle Feldstudie“, in: Bericht 26. Tonmeistertagung, Leipzig 2010, S. 493 ff. [Markart, 2019] Markart, C.: Musikproduktion in Ambisonics, Masterarbeit, FH Joanneum, Graz 2019 [McKeag, 1996] McKeag, A. und McGrath, D.: „Sound Field Format to Binaural Decoder with Head Tracking“, 6th AES Australian Regional Convention 1996, Melbourne [Menzel, 2005/1] Menzel, D.: Realisierung und Evaluierung binauraler Raumsynthesen mittels Wellenfeldsynthese (Diplomarbeit), TU München, 2005 [Menzel, 2005/2] Menzel, D., Wittek, H., Theile, G. und Fastl, H.: The Binaural Sky: A Virtual Headphone for Binaural Room Synthesis, Tonmeistersymposium des VDT 2005 in Hohenkammer

424 

 5 Tonaufnahme und Tonwiedergabe

[Menzel, 2006] [Mertens, 1965] [Meyer, 2003] [Meyer, 2004] [Meyer, 2015] [de la Motte-Haber, 2005] [de la Motte-Haber, 2013] [Moulton, 1990] [Nettingsmeier, 2010] [Nettingsmeier, 2011] [Nousaine, 1987] [Oliveri, 2019] [Pawera, 2004] [Pellegrini, 2002] [Pesch, 2008]. [Plessas, 2009] [Pulkki, 1997] [Purcell, 2013] [Ripka, 1987] [RTM, 1981] [Rudrich, 2016] [Schlemm, 1997] [Sengpiel]

Menzel, D., Wittek, H., Fastl, H. und Theile, G.:“ Binaurale Raumsynthese mittels Wellenfeldsynthese - Realisierung und Evaluierung“, in: Tagungsbericht DAGA 2006 Braunschweig, S. 255f. Mertens, H.: „Directional hearing in stereophony theory and experimental verification“, in: Europ. Broadcasting Union Rev. Part A, 1965, 92, S. 1ff. Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J. und Elko, G.W.: „Spherical Microphone Arrays for 3D Sound Recording“, in: Huang, Y., Benesty, J. (Hrsg.), Audio Signal Processing for Next Generation Multimedia Communication Systems. Springer 2004, Boston, MA. Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, ppv Medien de la Motte-Haber, H. la: „Modelle der musikalischen Wahrnehmung. Psychophysik – Gestalt – Invarianten – Mustererkennen – Neuronale Netze – Sprachmetapher“, in: de la Motte-Haber, H. und Rötter, G. (Hrsg.), in: Musikpsychologie (Handbuch der systematischen Musikwissenschaft; 3), S. 55 ff., Laaber de la Motte-Haber, H., „Hörerwartung im zeitlichen Fluss der Musik. Überlegungen zum Expektanzbegriff“, in: Zeitschrift der Gesellschaft für Musiktheorie 10/2, 293 ff. Moulton, D.: „The Creation of Musical Sounds for Playback through Loudspeakers“, in: AES 8th International Conference, Washington 1990, S. 161 ff. Nettingsmeier, J.: „General-purpose Ambisonic playback systems for electroacoustic music – a practical approach“, Proc. of the 2nd International Symposium on Ambisonics and Spherical Acoustics 2010, Paris Nettingsmeier, J. und Dohrmann, D.: „Preliminary Studies on Large-scale Higher-order Ambisonic Sound Reinforcement Systems“, Ambisonics Symposium 2011, Lexington, KY Nousaine, T.: „Multiple subwoofers for home theatre“, 103. AES-Convention, Preprint 4558, in: J. Audio Eng. Soc. Vol. 45, S. 1015ff., 1997 Olivieri, F., Peters, N., Sen, D.: Scene-Based Audio and Higher Order Ambisonics: A technology overview and application to Next-GenerationAudio, VR and 360° Video, EBU Technical Review, 2019 Pawera, N.: Mikrofonpraxis, 2004, ppv medien Pellegrini, R.S. und van Zan, R.: „Vergleich gemessener Impulsantworten für die Darstellung virtueller Räume mittels Schallfeldsynthese“, in: Bericht 22. Tonmeistertagung, Hannover 2002 Pesch, P.; Laumann, K.; Theile, G.: „Untersuchung zur Lokalisation von vertikalen Phantomschallquellen“, in: Bericht 25. Tonmeistertagung, Leipzig 2008 Plessas, P.: Rigid Sphere Microphone Arrays for Spatial Recording and Holography. Thesis. 2009, Graz Pulkki, V.: „Virtual Sound Source Positioning Using Vector Bas Amplitude Panning”, in: J. Audio Eng. Soc., Vol. 45, No. 6, June 1997 Purcell, J.: Dialogue Editing for Motion Pictures, 2013, Focal Press Ripka, A. und Theile, G.: „Die Beurteilung verschiedener Stereofoner Wiedergabeeinrichtungen bezüglich der Abbildungsschärfe“, in: Fortschritte der Akustik – DAGA 1987, S. 585ff. Ausgewählte Aufsätze zum Thema Kunstkopf-Stereofonie, Sonderheft Sept. 1981 der Rundfunktechn. Mitt. Rudrich, D., Zotter, F. und Frank, M.: „Efficient Spatial Ambisonic Effects for Live Audio“, in : Bericht 29. Tonmeistertagung 2016, Köln Schlemm, W. „Musikproduktion“, in: MGG – Die Musik in Geschichte und Gegenwart, Bd. 6, Sp. 1534ff., 1997, Bärenreiter Sengpiel, E.: www.sengpielaudio.com

Literatur 

 425

[Simonson, 1984] Simonson, G.: Masteŕs Thesis, 1984, Lyngby, Denmark [Silzle, 1990] Silzle, A. und Theile, G.: „HDTV-Mehrkanalton: Untersuchungen zur Abbildungsqualität beim Einsatz zusätzlicher Mittenlautsprecher“, in: Bericht 16. Tonmeistertagung 1990, S. 208 ff. [Smyth, 2007] Smyth, S., Smyth, M,; Cheung, S.: „Smyth SVS headphone surround monitoring for studios”, AES 23rd UK Conference, S. 1ff., 2008 [Spikofski, 1988] Spikofski, G.: „The diffuse-field probe transfer function of studio-quality headphones“, in: EBU Review Technical No. 229, June 1988 [Stolla, 2004] Stolla, J.: Abbild und Autonomie. Zur Klangbildgestaltung bei Aufnahmen klassischer Musik 1950‑1994, 20 04, Tectum [Streicher, 1999] Streicher, R.: „The Decca Tree in stereo and surround recording”, 106. AES-Convention, Workshop Note, 1999 [Terhardt, 1987] Terhardt, E.: „Gestalt principles and music perception“, in: Yost, W. A. and Watson, C. S. (Hrsg.), Perception of Complex Auditory Stimuli, S. 157 ff., 1987, Erlbaum [Theile, 1976] Theile, G.und Plenge, G.: „Localization of lateral phantom-sources“, in: Journal Audio Eng. Soc. 25, 1976, S. 196ff. [Theile, 1980/1] Theile, G.: Über die Lokalisierung im überlagerten Schallfeld, Diss. TU Berlin, 1980 [Theile, 1980/2] Theile, G.: Untersuchungen zur Richtung und Entfernung von Phantomschallquellen bei 2-Kanal-Stereofonie, Techn. Bericht des Instituts für Rundfunktechnik (IRT) 24/80, München 1980 [Theile, 1981/1] Theile, G.: „Zur Theorie der optimalen Wiedergabe von stereofonen Signalen über Lautsprecher und Kopfhörer“, in: Rundfunktechn. Mitt. 1981, S. 155ff und Rundfunktech. Mitt., Sonderdruck, 9/1981, S. 32ff. [Theile, 1981/2] Theile, G.: „Zur Theorie der optimalen Wiedergabe stereofoner Signale über Lautsprecher und Kopfhörer“, in. Rundfunktechn. Mitt. 1981, S. 155ff. [Theile, 1983] Theile, G.: „Untersuchungen zur Standardisierung eines Studiokopfhörers“, in: Rundfunktechn. Mitt. 1983, S. 17ff. [Theile, 1984] Theile, G.: „Hauptmikrofon und Stützmikrofone – neue Gesichtspunkte für ein bewährtes Verfahren“, in: Bericht 13. Tonmeistertagung 1984, S, 170ff., Saur [Theile, 1985] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe“. in: Bericht 13. Tonmeistertagung, München 1984, S. 112ff. Saur 1985 [Theile, 1986] Theile, G.: „On the standardisation of the frequency response of high-quality studio headphones“, in: J. of the Audio Eng. Soc. 34, 1986, S. 956ff. [Theile, 1987] Theile, G.: „Das Kugelflächenmikrofon“, in: Bericht 14. Tonmeistertagung 1986, S. 277ff., 1987, Saur [Theile, 1991] Theile, G.: „On the Naturalness of Two-Channel Stereo Sound“, in: Journal Audio Eng. Soc. 39, Nr. 10, 1991, S. 761ff. [Theile, 2000] Theile, G.: „Multichannel natural music recording based on psychoacoustic principles“, AES-Convention, 2000, Preprint 5156, supplementing handout 2000 [Theile, 2001/1] Theile, G.: „Multichannel natural music recording based on psychoacoustic principles“, AES 19th. Intern. Conference June 2001, Proceedings S. 201ff., korrigierte Version: www.irt.de/wittek/hauptmikrofon/theile/Multich_ Recording_30.Oct. 2001_.PDF [Theile, 2001/2] Theile, G.: „Multichannel Natural Music Recording Based On Psychoacoustic Principles“, AES-Preprint 5156, 2001, ergänzte Version: www.irt.de/IRT/indexpubli.htm [Theile, 2002] Theile, G., Wittek, H., Reisinger, M.: „Wellenfeld-Synthese­-Verfahren: Ein Weg für neue Möglichkeiten der räumlichen Tongestaltung“, in: Bericht 22. Tonmeistertagung, 2002 [Theile, 2012] Theile. G. und Wittek, H.: „3D Audio Natural Recording”, in: Bericht 27.Tonmeistertagung, 2012

426 

 5 Tonaufnahme und Tonwiedergabe

[Theile, 2016] [Ward, 2001] [Weissgerber, 2009]. [Werner, 2018] [Wertheimer, 1923] [Wiggins, 2007] [Wittek, 2006] [Williams, 1987] [Wittek, 2000] [Wittek, 2002] [Wittek, 2004] [Wittek, 2007] [Wittek 2012] [Wittek, 2016] [Wöhr, 1991] [Wuttke, 1993] [Yewdall, 2007] [Zacharov, 1998] [Zaunschirm, 2018] [Zieglmeier, 1996] [Ziemer, 2020] [Zotter, 2010] [Zotter, 2012]

Theile. G.: „Equalization of studio monitor headphones”, AES Conference Paper, Aalborg, 2016 Ward, D.B. und Abhayapala, T.D.: „Reproduction of a Plane-Wave Sound Field Using an Array of Loudspeakers“, IEEE Transactions on Speech and Audio Processing, Bd. 9 Nr. 6, Sept. 2001 Weissgerber, T.; Laumann, K.; Theile, G.; Fastl, H.: „Headphone Reproduction via Loudspeakers using Inverse HRTF-Filters”, in: Proceedings NAG/DAGA 2009, S. 1291ff., Rotterdam Werner, S.: „Über den Einfluss kontextabhängiger Qualitätsparameter auf die Wahrnehmung von Externalität und Hörereignisort“. Diss. Ilmenau 2018 Wertheimer, M.: „Untersuchungen zur Lehre von der Gestalt. II“, in: Psychologische Forschung, 1923, 4, S. 301 ff. Wiggins, B.: „The Generation of Panning Laws for Irregular Speaker Arrays Using Heuristic Methods“, 31. AES International Conference 2007, London Wittek, H., Haut, C., Keinat, D.: „Doppel-MS – eine Surround-Aufnahmetechnik unter der Lupe“, Bericht 24. Tonmeistertagung 2006, Leipzig Williams, M.: „Unified theory of microphone systems for stereophonic sound recording“, 1987, AES-Preprint No. 2466 Wittek, H. und Theile, G.: „Investigations into directional imaging using L-C-R Wittek, H. und Theile, G.: „The recording angle – based on localisation curves“, 112. AES-Convention, 2002, paper 5568 Wittek, H.: „Bericht zum Workshop „Wellenfeldsynthese“ im „Forum Neues Musiktheater“ der Staatsoper Stuttgart“. in: VDT-Magazin 3/2004, S. 36ff. stereo microphones“, in: Bericht 21. Tonmeistertagung 2000, S. 432ff. Wittek, H.; Rumsey, F.; Theile, G.: “Perceptual Enhancement of Wavefield Synthesis by Stereophonic Means”, in: J. Audio Eng. Soc., Vol. 55, No. 9, 2007 Wittek, H.: „Mikrofontechniken für Atmoaufnahme in 2.0 und 5.1 und deren Eigenschaft“, in: Bericht 27.Tonmeistertagung, 2012, Köln Wittek, H. und Theile, G.: „Die Anwendung eines stereofonen Mehrkanalverfahrens für 3D-Audio und VR“, in: Bericht 29. Tonmeistertagung 2016, Köln Wöhr, M., Theile, G., Goeres, H.-J. und Persterer, A.: „Room-related balancing technique: a method for optimising recording quality“, in: J. Audio Eng. Soc., Vol. 39, S. 623ff., 1991 Wuttke, J.: „Zwei Jahre Kugelflächenmikrofon“, in: Bericht 17. Tonmeistertagung 1992, S. 832ff., 1993, Saur Yewdall, D. L.: Practical Art of Motion Picture Sound, 3. Aufl. 2007, Focal Press Zacharov, N., Bech, S. und Meares, D.: „The use of subwoofers in the context of surround sound program”, in: BBC Research and Development, Report 1998 Zaunschirm, M., Schörkhuber, C. und Höldrich, R.: „Binaural rendering of Ambisonic signals by head-related impulse response time alignment and a diffuseness constraint“, Jour. Ac. Soc. Am. 143, 3616, 2018 Zieglmeier, W. und Theile, G.: „Darstellung seitlicher Schallquellen bei Anwendung des 3/2 Formates“, in: Bericht 19. Tonmeistertagung 1996, S. 159ff., 1997, Saur Ziemer, T.: Psychoacoustic music sound field synthesis: Creating spaciousness for composition, performance, acoustics, and perception, 2020, Springer Zotter, F., Noisternig, M. und Pomberger, H.: „Ambisonic Decoding with and without Mode-Matching: A Case Study Using the Hemisphere“, Proc. of the 2nd International Symposium on Ambisonics and Spherical Acoustics 2010, Paris Zotter, F. und Frank, M.: „All-Round Ambisonic Panning and Decoding“, JAES Bd. 60, Nr. 10, 2012

6 Klanggestaltung Hans-Joachim Maempel Klanggestaltung bezeichnet die technische Bearbeitung von Audiosignalen  mit dem vornehmlichen Ziel der Beeinflussung der Ausprägung klanglicher bzw.  musikalischer Wahrnehmungsmerkmale, insbesondere Lautstärke, Klangfarbe, Lokalisierung, Raumeindruck und Tonhöhe, sowohl im zeitlichen Verlauf als auch in der Gewichtung zwischen verschiedenen Schallquellen bzw. Instrumenten. Klanggestalterische Maßnahmen werden in vielen Stufen der Audioübertragungskette vorgenommen und können dabei verschiedene technische, künstlerische und hörpsychologische Zielsetzungen verfolgen. Im Zuge der Weiterentwicklung der digitalen Signalverarbeitung hat  sich die Palette klanggestalterischer Werkzeuge deutlich vergrößert. Die Werkzeuge der Klanggestaltung sind heute als analoge und digitale Hardware-Geräte, als Software-Anwendungen, als Plug-ins, also Software-Komponenten mit standardisierten Schnittstellen, als Kombinationen von Hardware und Plug-ins ausgeführt oder auch in Regieanlagen integriert. Die digitale Realisation bietet bei vielen Bearbeitungsmitteln eine höhere Audio-Qualität und in der Regel den Vorteil der genauen numerischen oder grafischen Darstellung, Speicherung, Wiederherstellbarkeit und ggf. dynamischen Automation der Einstellungen. Auch für eine Bedienung in der virtuellen Realität gibt es Ansätze. Zu Details zur digitalen Tonverarbeitung siehe Kap. 13.1. Im Bereich der Klanggestaltung haben sich, so wie in der digitalen Tontechnik in hohem Maße auch, in der täglichen Praxis englischsprachige Fachausdrücke etabliert; sie werden neben den deutschen Ausdrücken aufgeführt, siehe dazu auch in Band 2 den Anhang Fachwörter und Abkürzungen Englisch - Deutsch.

6.1 Abbildungsrichtung und Abbildungsbreite Die Erkennung der Richtung und Entfernung von Schallquellen bezeichnet man als Lokalisierung. Bei natürlichen Schallquellen wertet das Gehör zur Gewinnung dieser Ortsinformation Pegel, Zeitpunkte und Frequenzspektren sowohl des Direktschalls als auch der frühen Reflexionen und des Nachhalls aus. Die Ausprägung dieser physikalischen  sog. cues an einem Ohr und deren Differenz zwischen den beiden Ohren hängen von der Schalleinfallsrichtung ab (siehe Kap. 3.4 und 5.2). Bei der zwei- oder  mehrkanalig  stereofonen Wiedergabe von Schallereignissen hingegen geht diese Richtungsveränderlichkeit fast vollständig verloren, da die Anzahl der Schall­ einfallsrichtungen auf die Anzahl der Wiedergabekanäle bzw. Lautsprecher beschränkt ist. Dennoch ist die Lokalisierung nicht auf die Lautsprecherpositionen reduziert: Sie kann sowohl in größerer Entfernung hinter den Lautsprechern als auch aufgrund des Phänomens der Phantomschallquellen im Falle kohärenter Signale zwischen den Lautsprechern erfolgen (siehe Kap. 5.2.1). Die rein auditiv wahrgenommene Distanz einer Klangquelle hinter den Lautsprechern hängt wie im natürlichen Schallfeld von der Lautstärke, dem Frequenzspektrum und dem https://doi.org/10.1515/9783110759921-006

428 

 6 Klanggestaltung

Zeit- und Pegelverhältnis von direktem und reflektiertem Schall ab [Nielsen, 1993], [Bronkhorst 1999, 2002]. Ihre Festlegung erfolgt meist mit den Mitteln der Mikrofonierung und der Raumsimulation durch Hallgeräte. Die Abbildungsrichtung kann hingegen vergleichsweise einfach durch die Erzeugung einer Pegeldifferenz bei der  sog. Intensitätsstereofonie und/ oder Zeitdifferenz bei der sog. Laufzeitstereofonie zwischen den Wiedergabekanälen erreicht werden (siehe Kap. 8.8). Regler – genauer gesagt Steller −, die entsprechende Differenzen erzeugen, werden als Panorama-Potentiometer oder kurz Pan-Pot bezeichnet. Bei bereits stereofon aufgenommenen Klangquellen erfolgt die Richtungszuweisung durch einen BalanceRegler, der nur Differenzen der Übertragungsmaße verursacht. Auch die Abbildungsbreite wird mit technischen Mitteln zu beeinflussen versucht. Zu diesem Zweck wird die Gewichtung von gleich- und gegenphasigen Signalanteilen verändert. Eine dynamische Regelung der Abbildungsbreite in Abhängigkeit von Signaleigenschaften bieten Stereoprozessoren.

6.1.1 Panorama-Potentiometer und Balanceregler Mit einem Panorama-Potentiometer oder kurz Pan-Pot wird bei stereofoner Übertragung die Abbildungsrichtung einer Klangquelle zwischen den Lautsprechern festgelegt (siehe auch Kap.  8.8.1). Dazu wird das psychoakustische Phänomen der Wahrnehmung von Phantomschallquellen ausgenutzt (siehe Kap. 5.2.1). Obwohl sowohl Pegel- als auch Zeitunterschiede die gewünschte Auslenkung einer Phantomschallquelle aus der Mitte der Lautsprecherbasis bewirken, werden Zeitdifferenzen in den meisten Fällen nicht zur Panoramaregelung eingesetzt, da ein so erzeugtes Stereosignal eine geringere Monokompatibilität aufweist, die sich in kammfilterbedingten Klangverfärbungen der Monosumme zeigt. Das Pan-Pot war und ist daher vor allem ein Werkzeug der sog. Intensitätsstereofonie. Ein Panorama-Potentiometer besitzt einen Eingang und zwei oder mehr Ausgänge entsprechend der Anzahl stereofoner Kanäle (Abb. 6/1). Das monofone Eingangssignal wird mit einer einstellbaren Pegeldifferenz auf die stereofonen Kanäle aufgemischt. Digital lässt sich dieselbe Funktion durch eine gegensinnige Gewichtung der Amplitudenwerte erreichen. Die Pegeldifferenz zwischen den Kanälen erzeugt eine seitliche Auslenkung Δa der Phantomschallquelle aus der Mitte der Lautsprecherbasis a (Abb. 6/2). Die Auslenkung kann in relativen Längeneinheiten, z. B. in % einer halben Lautsprecherbasis a/2 in der Horizontalebene, oder als Horizontal- oder Azimutalwinkel φ ausgedrückt werden (Abb. 6/2). In diversen Lokalisierungsversuchen wurde der Zusammenhang zwischen Pegeldifferenz und Hörereignisauslenkung bei Zweikanal-Stereofonie empirisch ermittelt. Aus denjenigen Tests, die  mit breitbandigen Signalen durchgeführt wurden, können durch Bildung des Mittelwerts die in Tab. 6/1 genannten Richtwerte abgeleitet werden. Damit Reglerstellung und Hörereignisauslenkung übereinstimmen, müssten diese Pegeldifferenzen bei den entsprechenden Reglerstellungen wirksam werden. Allerdings muss unter der Annahme unkorrelierter Ohrsignale die Leistungssumme der beiden Lautsprecher bzw. Kanäle konstant bleiben, soll die Lautstärke nicht mit der Richtung variieren. Diese Vorgabe wird durch eine Mittendämpfung von 3 dB und einen cosinus- bzw. sinusförmigen Verlauf der Verstärkungsfaktoren der Panoramakanäle erfüllt (Abb. 6/3). Dabei ist die Spannungssumme für die Mittenposition 3 dB höher als für die Außenpositionen.

6.1 Abbildungsrichtung und Abbildungsbreite 

 429

Abb. 6/1. Pan-Pot für Zweikanal-Stereofonie: Regler, Schaltungssymbol und -prinzip.

Abb. 6/2. Hörereignisauslenkung in der standardisierten Zweikanal-Stereoaufstellung.

Die für die Leistungssummen optimierten Panoramakurven bedingen jedoch Pegeldifferenzen, die deutlich von den empirisch optimalen gemäß Tab. 6/1 abweichen können, und zwar nicht nur in den Außenbereichen, sondern bereits bei Reglerstellungen um 50 %. Die

430 

 6 Klanggestaltung

gepunkteten Linien in Abb.  6/3 zeigen jeweils das Soll-Übertragungsmaß eines Kanals für richtige Lokalisierung, das  sich aus der empirisch optimalen Pegeldifferenz und dem für die Leistungssummen optimierten Ist-Übertragungsmaß des anderen Kanals ergibt. Idealerweise wäre aus der Schar von Kurven mit konstanter Leistungssumme daher diejenige mit der größten Übereinstimmung von Ist- und Soll-Übertragungsmaß auszuwählen (Kurve 2). Tab. 6/1. Richtwerte für den Zusammenhang von Pegeldifferenz ΔL und Hörereignisauslenkung Δa. ΔL [dB] Δa [%]

0 0

1,5 12,5

3 25

4,5 37,5

6 50

8 62,5

11 75

14 87,5

20 100

Abb. 6/3. Verläufe von Übertragungsmaßen für Pan-Pots mit konstanter Leistungssumme (durchgezogen) und von sich daraus ergebenden Soll-Übertragungsmaßen hinsichtlich Lokalisierungsrichtigkeit (gepunktet). Die mittlere Funktion (2) zeigt die beste Übereinstimmung beider Kriterien. Für sie gilt auch die dargestellte Spannungssumme (2).

In der Praxis zeigen die tatsächlichen Charakteristiken der Panoramaregler von Mischpulten allerdings recht unterschiedliche Verläufe. In der Regel nimmt die Pegeldifferenz mit der

6.1 Abbildungsrichtung und Abbildungsbreite 

 431

Reglerstellung zu den Seiten hin schneller zu als gemäß Tab. 6/1. Daher ist es für ein schnelles, zielgerichtetes und zuverlässiges Arbeiten sinnvoll, die Charakteristik der verwendeten Panoramaregler zu kennen, auch wenn die Kontrolle der Richtungszuweisung in der Praxis vornehmlich nach Gehör erfolgt. Bei  mehr als zwei  stereofonen Wiedergabekanälen ergeben  sich  mehrere Lautsprecherbasen. Zum Beispiel im Falle von 5.x-Übertragung durch den zusätzlichen Center-Kanal zwei Basen im vorderen Bereich und durch die zusätzlichen Surround-Kanäle zwei seitliche Basen und eine hintere Basis. Auf allen Basen entstehen Phantomschallquellen, wobei seitliche und hintere wesentlich unschärfer und unzuverlässiger lokalisiert werden als vordere. Die Panoramaregelung für den vorderen Bereich zwischen links und rechts erfolgt im Beispielfall unter Einbeziehung einer realen Schallquelle in Form des Center-Lautsprechers. Auch hierbei sind verschiedene Dämpfungskurven denkbar, die  sich an der Leistungssumme, dem Lokalisierungsverlauf oder anderen Kriterien orientieren [Neoran, 2000], [Craven, 2003]. Auf der Suche nach einem Optimum wird auch mit gegenphasigen Signalen gearbeitet (Abb. 6/4, links). Mit dem Parameter Divergenz kann stufenlos eingestellt werden, inwieweit Schallquellen im mittleren Bereich als Phantomschallquelle, also ohne Center-Kanal, dargestellt werden. Bei manchen Panorama-Sektionen ist die grundsätzliche Dämpfung des Mittenkanals einstellbar. Für die Lokalisierungsrichtungen vorne/hinten ist entweder ein gesonderter Pan-Pot vorhanden, oder die Panoramaregelung erfolgt für beide Flächendimensionen durch einen Joystick.

Abb. 6/4. Links: Nach mehreren perzeptiven Kriterien optimierter Verstärkungsverlauf für drei vordere Lautsprecher in 30°‑Anordnung [Gerzon, 1992]. Bei negativ dargestellten Verstärkungswerten wird das Signal invertiert. Rechts: Verstärkungsverlauf mit konstanter Leistungssumme für dieselbe Lautsprecheranordnung.

Viele Mehrkanal-Panoramasysteme bieten eine Visualisierung der eingestellten Panoramaposition. Dabei wird die Schallquelle als Punkt auf einer von den Lautsprechern umstellten Fläche bzw. einem Raumvolumen gezeigt. Diese Form der Darstellung ist insoweit irreführend, als die Lokalisierung nur für den Sweet Spot, also den optimalen Abhörort, richtig ist, seitlich allenfalls instabile Phantomschallquellen entstehen können und eine Lokalisierung von Phantomschallquellen innerhalb der Fläche bzw. des Raums im Grunde nicht möglich ist,

432 

 6 Klanggestaltung

weil die entsprechenden Lautsprecherbasen (z. B. links vorne – rechts hinten) zu nah am Hörer verlaufen. In einigen großen Audioproduktionskonsolen oder spezialisierten Plug-ins finden sich Panoramaregler, die neben Pegel- auch Zeit- und Spektraldifferenzen erzeugen können, ggf. kombiniert. Ein unter der Bezeichnung Virtual Surround Panning vermarktetes Panoramasystem generiert zusätzlich richtungsabhängige Muster früher Reflexionen  sowie optional einen abgestimmten Nachhall direkt im Mischpult [Horbach, 1998]. Im Zuge der Etablierung von Wiedergabeformaten, die Decken- oder Top-Surround-Lautsprecher vorsehen (siehe Kap. 5.4.5), können auch erhöhte Schallquellen abgebildet werden. Die vertikale Hörereignisauslenkung kann entweder in relativen Längeneinheiten, z. B. in % einer vertikalen Lautsprecherbasis, oder als Elevationswinkel θ ausgedrückt werden. Werkzeuge zur vertikalen Schallquellenpositionierung beruhen auf denselben technischen Prinzipien, die für die Positionierung in der Horizontalebene angewendet werden. Allerdings sind die psychoakustischen Mechanismen vertikaler Schallquellenlokalisierung, die ausgenutzt werden können, wesentlich komplexer. Denn die interauralen Pegel- und Zeitdifferenzen des Direktschalls verringern sich mit einer Elevation der Schallquelle und werden in der Medianebene null. Daher sind die Güte der verbleibenden spektralen cues und die Rolle der Eigenbewegung − Kopfdrehung und ‑neigung − auch aktuell noch Gegenstand der Forschung, wobei typischerweise deren Effekt auf die Lokalisierungsschärfe, die Lokalisierungsrichtigkeit und das Auftreten von vorne-/hinten- bzw. Ooen-/unten-Vertauschungen von Interesse sind [Jiang, 2019]. Da Mehrkanal-Panoramasysteme auf Modellen der Schallausbreitung sowie ggf. Schallwahrnehmung basieren und nicht immer situationsspezifisch genau passende cues erzeugen können, sollte für eine anspruchsvolle Vermittlung realer räumlicher Verhältnisse erwogen werden, die geeigneten Pegeldifferenzen, Laufzeitdifferenzen und Reflexionen  möglichst  schon  mit den Mitteln der Aufnahmeverfahren bzw. ihrer Mikrofonierung herzustellen, sofern die Aufnahmebedingungen es erlauben. Bei bereits zweikanal-stereofon codierten Signalen erfolgt die Richtungseinordnung nicht mit einem Pan-Pot, sondern einem zweikanaligen Balanceregler, der die Pegel beider Eingangskanäle gegensinnig variiert und dadurch die Lokalisierungsrichtung und/oder das Lautstärkeverhältnis der Seiten verschiebt. Laufzeit- und Spektraldifferenzen kommen dabei nicht zum Einsatz. Die getrennte Verarbeitung der Kanäle durch den Balance-Regler positioniert vollständig oder teilweise laufzeitstereofon codierte Signale grundsätzlich außen, da deren Einengung durch Panoramaregler und damit deren Mischung Kammfiltereffekte verursachen würde (siehe Kap.  6.6.3). Die Abbildungsbreite zweikanal-stereofoner Signale kann mit dem Parameter „width“ geregelt werden. Dabei wird eine Einengung der Stereobreite durch eine Zumischung der vertauschten Kanäle erreicht, eine Stereoverbreiterung durch eine Zumischung der invertierten vertauschten Kanäle (siehe Kap. 6.1.2). Dieser Vorgang ist nur für nicht-laufzeitstereofone Signale ohne klangfarbliche Beeinträchtigung möglich. Der Einsatz von Spektraldifferenzen, gleich ob durch entsprechende Aufnahmeverfahren wie Trennkörperstereofonie und Kunstkopfstereofonie oder rechnerisch durch Audiobearbeitung erzeugt, folgt der Idee einer Annäherung an physikalisch korrekte Ohrsignale und stellt keine rein stereofone, sondern eine partiell oder vollständig binaurale Codierung dar. Es sollte daher stets kritisch geprüft werden, inwieweit Spektraldifferenzen für die Schaf-

6.1 Abbildungsrichtung und Abbildungsbreite 

 433

fung einer Illusion natürlicher Abbildung mittels Stereofonie und Lautsprecherwiedergabe überhaupt ein geeignetes Mittel sind. In Tonproduktionen, die ausschließlich für Kopfhörerwiedergabe bestimmt sind, kann der Einsatz von Plug-ins für eine dreidimensionale Panoramaregelung  sinnvoll  sein. Die binauralen Lokalisierungscues, also auch Spektraldifferenzen, werden durch Filterung mit den richtungsabhängigen Außenohrübertragungsfunktionen (HRTFs) wählbarer Kunstköpfe generiert. Außerdem können frühe Reflexionen und Nachhall sowie Dopplereffekte erzeugt werden. Ein Problem besteht dann, wenn die Übertragungsfunktion des Wiedergabe-Kopfhörers nicht bekannt ist, weil dann deren erforderliche genaue Kompensation kaum möglich ist. Die akustische Positionierung folgt bei bildbezogenen Audioinhalten und Kunstmusik in der Regel den optischen bzw. realen Positionen der Schallquellen im Bild oder im Aufführungsraum. Dies gilt nicht für Popularmusik, bei der die Positionierung häufig der Bedeutsamkeit der Klangquelle und dem Kontrastprinzip folgt [Maempel, 2001]. Die Genres Hörspiel, Klangkunst und elektroakustische Musik  schließlich erlauben völlige künstlerische Freiheit hinsichtlich der räumlichen Einordnung der Klangquellen.

6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer Mit dem Richtungsmischer, auch als Summen-Differenzübertrager oder Stereo-Matrix bezeichnet, können bei reiner Intensitäts-Stereofonie MS- und XY-Signale ineinander überführt werden. Man bezeichnet dies als Stereo-Umsetzung. Die beiden Ausgangssignale werden durch Regelung und Summen- bzw. Differenzbildung der Eingangssignale (Abb. 6/6) sowie Dämpfung um 3  dB erzeugt. Richtungsmischer  sind in Mischpulte integriert, um Aufnahmen in MS-Stereofonie zu vereinfachen, oder als Stand-alone-Geräte (Abb.  6/5) verfügbar. In der Regel ist die Codierung des Eingangssignals zwischen MS und XY umschaltbar, wobei im Folgenden für den einstufigen Richtungsmischer von einer vorliegenden MS-Codierung ausgegangen wird. Einstellbar  sind außerdem die Parameter Abbildungsbreite (base) und Abbildungsrichtung (direction). Zum Richtungsmischer siehe auch Kap. 8.8.2.

Abb. 6/5. Richtungsmischer, Schaltungssymbol.

434 

 6 Klanggestaltung

Durch die Veränderung des Verhältnisses von M- und S-Signal wird das Verhältnis von gleichund gegenphasigen Anteilen im  stereofonen Signal verschoben und damit –  sofern beide Komponenten vorhanden sind – der Korrelationsgrad (siehe Kap. 5.3.7 und 19.4.3.3), mit dem die wahrgenommene Abbildungsbreite zusammenhängt. Für sie bezeichnet der Wert 0 % ein Mono-Signal, also nur M-Anteil, der Wert 100 % die originale Breite des Stereosignals, also M- und S-Anteil, und Werte größer  als 100  % eine Überbreite, also überwiegend oder nur S-Anteil. Bei überbreiten Einstellungen besteht die Gefahr des Verlustes mittiger und/oder eindeutiger Lokalisierung. Im Normalfall wird der S-Kanal mit dem reinen S-Signal gespeist, die Abbildungsrichtung ist dann mittig. Sie kann mit dem gleichnamigen Regler zur Seite verschoben werden: nach links, indem dem S-Kanal ein Gemisch aus S-Signal und M-Signal zugeführt wird, oder nach rechts, indem dem S-Kanal ein Gemisch aus dem S‑Signal und dem invertierten M-Signal zugeführt wird. Dabei bestimmt das Mischungsverhältnis der M- und S-Komponente die Größe der Auslenkung, mit der sich auch die Abbildungsbreite verringert. An den Außenpositionen wird also die Monosumme hörbar, im Unterschied zur Balance-Regelung gemäß Kap. 6.1.1, bei der außen nur jeweils ein Stereo-Kanal erscheint.

Abb. 6/6. Prinzipschaltbild des aktiven Richtungsmischers.

Da die Stereoumsetzung umkehrbar ist, kann die Regelung von Abbildungsbreite und ‑richtung auch für  stereofon codierte Signale erfolgen, indem zwei Stereo-Matrizen für die LR/ MS/LR-Umwandlung hintereinandergeschaltet werden. Das  sich  so ergebende universelle Werkzeug für die Regelung der Stereobreite (width), das als eigenständiges Gerät, als Plug-in oder als Teil der Panorama-Sektionen von Mischpulten ausgeführt  sein kann, ist heute weitaus gebräuchlicher als der klassische einstufige Richtungsmischer und wird sowohl für die Korrektur von Signalen aus elektronischen Klangerzeugern und Effektgeräten als auch für die klangliche Nachbearbeitung von Abmischungen, das Mastering, eingesetzt. Bei der letztgenannten Anwendung kommt zum Tragen, dass  mit der Veränderung der ursprünglichen Stereobreite auch das Mischungsverhältnis verschoben wird, etwa zwischen  mittig positionierten Monosignalen, z. B. Solisten, und gering korrelierenden außen positionierten Signalen, z. B. Nachhall. Änderungen der Stereobreiten von Abmischungen werden wegen

6.2 Dynamik und Lautheit 

 435

dieser  mitunter  starken Beeinflussung der Klangbildbalance und des Raumeindrucks nur in geringem Umfang vorgenommen. Eine Stereoverbreiterung ist klangästhetisch dennoch oft erwünscht, allerdings zu tiefen Frequenzen hin immer weniger hörbar. Mit einem ggf. vorhandenen  sog. elliptischen Equalizer kann die Stereobreite in diesem Frequenzbereich durch dosiertes Übersprechen verringert werden, wobei die Übergangsfrequenz einstellbar ist (Abb. 6/5). Damit kann der Korrelationsgrad und damit die Monokompatibilität des Stereosignals nach einer vorgenommenen Stereoverbreiterung weitgehend unhörbar wieder erhöht werden. Ebenfalls gebräuchlich ist beim Mastering die Möglichkeit der korrelationsabhängigen Audiobearbeitung von Stereosignalen durch das Einschleifen von Regelverstärkern und/oder Equalizern in den M- und S-Kanal. Stereo-Enhancer  sind Stereobreitenregler  mit adaptiver Parametersteuerung, die eine Verstärkung oder Homogenisierung des Stereoeindrucks bewirken sollen. Es gibt hierzu verschiedene Ansätze. Ein verbreitetes Funktionsprinzip ist die automatische Regelung des M/SVerhältnisses in Abhängigkeit von der Korrelation des Stereosignals und ggf. anderen Signaleigenschaften, typischerweise z. B. nur bei Signalspitzen des M-Signals. Auf diese Weise kann der Spielraum der Korrelation eingeschränkt bzw. die Abbildungsbreite homogenisiert werden, was bei Übertragung  stark variierender Audioprogramme zu einem einheitlichen Klangeindruck beiträgt. Stereo-Prozessoren werden daher vor allem in Sendewegen eingesetzt,  meist als Bestandteil von  spezialisierten Sendewegsprozessoren. Eine automatische Stereo/Mono-Erkennung sorgt dabei für ein Zu- und Abschalten der Nachführung bzw. eine Aktivierung der jeweils geeigneten Einstellungen z. B. für Musik und Sprache.

6.2 Dynamik und Lautheit Die Kontrolle der technischen Dynamik von Audiosignalen − zur musikalischen Dynamik siehe Kap. 2.2.1.4 − kann manuell durch Fader oder automatisch durch Regelverstärker erfolgen. Regelverstärker ändern ihre Verstärkung in Abhängigkeit von dem Pegel eines Steuersignals, normalerweise des Eingangssignals. Sie können in Mikrofonwegen, Gruppenwegen, Summen-, Sende- und Aufnahmeleitungen eingesetzt werden; sie sind fest zugeordnet oder werden im Bedarfsfall über Steckverbindungen oder als Plug-ins eingeschleift. Man unterscheidet die folgenden Arten von Regelverstärkern, je nach der Art der Beeinflussung des Nutzsignals, weitere Angaben in Kap. 19.5: –– der Kompressor komprimiert die Dynamik, –– der Limiter oder Begrenzer begrenzt den Höchstpegel, –– der Expander vergrößert die Dynamik, –– das Gate schaltet leise Abschnitte stumm.

6.2.1 Kompressor und Limiter Kompressoren dienen der automatisierten Dynamikeinengung. Sie  sind Regelverstärker, deren Verstärkung sich gegenläufig zum Pegel des Eingangssignals verändert, sobald dieser eine Schwelle überschreitet;  steigende Pegel bewirken also eine geringere Verstärkung.

436 

 6 Klanggestaltung

Limiter oder Begrenzer  sind Kompressoren, deren Parameter für die zuverlässige obere Begrenzung des Nutzsignalpegels optimiert sind. Vorrangige Ziele der automatischen Dynamikkompression  sind die Erhöhung der Zuverlässigkeit der Aussteuerung, die Einengung der Dynamik, die Lautheitserhöhung, die Klangverdichtung oder die Beeinflussung des Verlaufs von Einschwingvorgängen – das sog. transient design. Kompressoren und Expander können außerdem kombiniert vor und hinter Übertragungsstrecken oder -medien zur Rauschverminderung oder -unterdrückung eingesetzt werden; diese  sog. Kompandersysteme finden vor allem in analogen Systemen Verwendung; Beispiele sind das Telcom c4- und Dolby-Verfahren zur magnetischen Schall­ aufzeichnung (Kap.  7.1.3) und drahtlose Mikrofone (Kap.4.3) und haben  mit zunehmender Digitalisierung der Tonübertragung an Bedeutung verloren. Kompressoren werden in vielen Übertragungsschritten verwendet: bei der Aufnahme einzelner Schallquellen, bei der Mischung oder Abmischung in einzelnen Kanälen oder an Summenausgängen, beim Mastering, beim Rundfunk in Aufnahme-, Misch- und Sendewegen, in der Beschallung und in Hörgeräten. Mediale Audioinhalte sind demnach heute fast immer komprimiert, meistens mehrfach, ohne dass die aufeinander folgenden Dynamikbearbeitungen aufeinander abgestimmt werden. Im Sinne einer Wahrung der Klangqualität sollte dem Umgang mit Dynamikkompressoren deshalb besondere Beachtung geschenkt werden. In analoger Bauweise wird ein Kompressor durch einen spannungsgesteuerten Verstärker, einen sog. VCA, realisiert, vor dessen Steuereingang ein Gleichrichter und eine Integrationsstufe geschaltet sind. Diesem Steuerzweig, der side chain, wird das Nutzsignal zugeführt – bei der Vorwärtsregelung das ungeregelte Signal, bei der Rückwärtsregelung das geregelte Signal. Für die Erzielung von Effekten kann der Steuerzweig über einen key input auch mit einem Fremdsignal gespeist werden. Digital wird Dynamikkompression durch eine Multiplikation der Amplitudenwerte des Nutzsignals  mit einem  signalabhängig veränderlichen Faktor erreicht. Im Modus RMS reagiert der Kompressor auf den Effektivwert, im Modus peak auf den Spitzenwert des Steuersignals. Die Regelvorgänge des Kompressors  sind in ihrem statischen Verhalten pegelabhängig, in ihrem dynamischen Verhalten zeitabhängig. Diese hängen im Einzelnen von Topologie und Schaltungsdesign des Kompressors ab [Giannoulis, 2012]. 6.2.1.1 Statisches Verhalten Auf dem  statischen Verhalten des Kompressors beruhen im Wesentlichen die perzeptiv erwünschten Effekte einer verminderten Programmdynamik und erhöhten Lautheit. Diese Wirkungen werden allerdings auch durch das dynamische Verhalten beeinflusst. Das statische Verhalten eines Kompressors wird durch seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung  meist als Pegel angibt. Sie hat Gültigkeit unter statischen Bedingungen, d. h., bei konstantem oder sich nur langsam änderndem Eingangspegel. Kompressorkennlinien  sind nicht linear,  sie  setzen  sich aus einem neutralen und einem abgeflachten Abschnitt zusammen (Abb.  6/7). Häufig ist ein geglätteter Übergang der Abschnitte wählbar (soft knee). Das statische Verhalten wird von drei wesentlichen Parametern bestimmt, die in der Regel auch einstellbar sind:

6.2 Dynamik und Lautheit 

 437

–– Schwellwert: threshold, auch umgekehrt als input level oder input gain bezeichnet, –– Kompressionsverhältnis: ratio, –– Ausgangspegel: output gain, auch output level, make up oder compression gain genannt. Im Arbeitsbereich des abgeflachten Kennlinienabschnitts, also oberhalb des Schwellwerts, threshold, bewirkt eine Pegelerhöhung am Eingang nur eine verminderte Pegelerhöhung am Ausgang. Das Kompressionsverhältnis R, ratio, ergibt sich durch das Verhältnis dieser Pegeldifferenzen R = ratio [dimensionslos] ΔLin = Eingangspegel [dB] ΔLout = Ausgangspegel [dB] und wird als Verhältnis ausgedrückt, z. B. R = 5 : 1, was einer mittleren Kompression entspräche. Für die Arbeitsweise als Limiter oder Begrenzer ist ein hohes Kompressionsverhältnis von 20 : 1 bis ∞ : 1 erforderlich, in der Regel kombiniert mit einem hohen Schwellwert.

Abb. 6/7. Kompressor, typische Kennlinienverläufe.

Durch Absenken der Schwelle LT nach LT‘ (Abb. 6/7, dicker diagonaler Pfeil) erhält man einen ungenutzten oberen Dynamikbereich, den sog. Kompressionshub. Durch Erhöhung des Parameters output gain kann man das komprimierte Signal wieder in den ungenutzten oberen Pegelbereich  schieben (Abb.  6/7, dicker  senkrechter Pfeil). Indem  so auch die unter der

438 

 6 Klanggestaltung

Schwelle liegenden, leisen Signalabschnitte im Pegel angehoben werden (Abb. 6/7, durchgezogene Linie), nimmt die akustische Leistung und Lautheit des  so bearbeiteten Audio­ signals bei gleichem Maximalpegel zu. Die Wirkung einer solchen Dynamikbearbeitung auf ein Audiosignal zeigt Abb. 6/8.

Abb. 6/8. Lautheitserhöhung durch Kompression, Audiosignal unkomprimiert (oben) und stark komprimiert (unten).

Man nennt einen Kompressor mit der beschriebenen Arbeitsweise Downward-Kompressor, diese Funktionsweise wird meist realisiert. Der Upward-Kompressor arbeitet dagegen umgekehrt: Die Dynamikkompression erfolgt unterhalb des Schwellwerts. Einschwingvorgänge werden so weniger beeinflusst und können anderweitig, z. B. mit einem Limiter, bearbeitet werden. 6.2.1.2 Dynamisches Verhalten Die statische Kennlinie gilt bei schnellen Pegeländerungen erst nach einer bestimmten Übergangszeit, da der Kompressor auf die Änderungen reagieren muss. Diese Ausregelvorgänge nach Über- oder Unterschreiten des Schwellwerts bezeichnet  man zusammenfassend als dynamisches Verhalten. Sie werden dargestellt, indem man die Spannung des Ausgangssignals über die Zeit für einen Zeitraum aufträgt, in dem das Eingangssignal den Schwellwert des Kompressors plötzlich um 10 dB überschreitet, also ein Ansprechvorgang ausgelöst wird, bzw. von diesem Niveau wieder auf den threshold-Pegel abfällt, also ein Abklingvorgang ausgelöst wird. Wie  schnell der Kompressor auf die Pegeländerungen reagiert, kann  mit den Zeitparametern attack für den Ansprechvorgang, d. h. für die Verstärkungsreduktion, und release, auch recovery oder decay, für den Abklingvorgang, d. h. die Verstärkungsrückstel-

6.2 Dynamik und Lautheit 

 439

lung auf den Faktor 1, eingestellt werden. Da die Regelvorgänge typischerweise exponentiell verlaufen und daher zumindest theoretisch unendlich lange andauern, müssen die Zeitparameter als eine Zeit definiert  sein, die der Kompressor zum Ausregeln eines bestimmten Anteils der Differenz zwischen Ist- und Sollspannung benötigt. Auch wenn Ausregelanteile wie 63  % (entsprechend 1  -  1/e) oder 90 % angegeben werden, ist − abgesehen von einer schalldruckpegelbezogenen Definition für Hörgeräte − keine anerkannte Definition für die Tonstudiotechnik bekannt. In der Praxis ergaben Messungen an verschiedenen Kompressoren davon sowie untereinander abweichende Anteile. Die weitere Darstellung bezieht sich exemplarisch auf einen Ausregelanteil von 63 %. Abb. 6/9 zeigt einen Ansprechvorgang. Der Ist-Pegel steigt im dargestellten Fall plötzlich auf 10 dB über dem Schwellwert, der Soll-Pegel ergibt sich aus dem eingestellten Kompressionsverhältnis. Auf ihn wird die Ist-Spannung heruntergeregelt. Aus dem Spannungsverlauf lässt sich die Ansprechzeit ermitteln. Beim Abklingvorgang findet der umgekehrte Vorgang statt: Die 10 dB über der Schwelle liegenden Eingangspegel fallen wieder auf den Schwellwert zurück. Damit fällt der Ist-Pegel am Ausgang 10 dB unter den alten kompressionsabhängigen Sollwert, also auch weit unter den Schwellwert, der nun den neuen Sollwert darstellt. Ansprechzeiten liegen typischerweise zwischen 0,05 und 50  ms, Abklingzeiten zwischen 0,01 und 3  s. Für eine LimiterEinstellung  müssen eine geringe Ansprechzeit und eine  mittlere oder geringe Abklingzeit gewählt werden. Reine Limiter ermöglichen ggf. noch kürzere Ansprechzeiten bis hinunter zu 20 μs. Zu beachten ist, dass das reale Ausregeln stets länger dauert als der eingestellte Wert, der sich nur auf 63 % oder einen anderes Definitionskriterium kleiner 100 % der Ausregelung bezieht.

Abb. 6/9. Ansprechvorgang des Kompressors. Die Absenkung der Ausgangsspannung erfolgt mit exponentiellem Verlauf. Die Ausregelung wird hier mit 63 % dargestellt.

Den Einfluss zweier unterschiedlich langer Ansprechzeiten auf ein hoch- und ein tieffrequentes Sinussignal veranschaulicht Abb. 6/10. Es zeigt sich, dass eine langsame Verstärkungsreduktion (links) Transienten, also schnelle Einschwingvorgänge, nur unzureichend abfängt, eine  schnelle (rechts) hingegen tieffrequente Signalanteile deutlich erkennbar deformiert und dadurch den Klirrfaktor erhöht. Dieser Effekt wird durch den Modus soft knee abgemildert. Auch die Abklingzeit eines Kompressors ist nicht für alle Situationen optimal einstellbar. Ist sie kurz, sind Regelvorgänge häufig, bei einer langen release-Zeit reduzieren einzelne Kompression auslösende Signale für längere Zeit den Ausgangspegel.

440 

 6 Klanggestaltung

Abb. 6/10. Auswirkungen des Ansprechvorgangs auf ein hoch- und ein tieffrequentes Sinussignal.

Auf Grund des beschriebenen Dilemmas ist das dynamische Verhalten des Kompressors auch Ursache für Wahrnehmungen, die überwiegend unerwünscht sind: Die wichtigsten sind Verzerrungen oder Knackstörungen auf Grund der Klirrfaktorerhöhung durch kurze Ansprechzeiten  sowie nicht optimaler und hörbar veränderter Signalpegel, das  sog. Pumpen, und zu geringe Lautheit auf Grund längerer Pegelreduktion durch lange Abklingzeiten. Klein gewählte Zeitparameter führen allgemein zu einer hörbaren Klangverdichtung. Sie kann klangästhetisch im Hinblick auf eine hohe Lautheit und bestimmte Soundvorstellungen beabsichtigt sein, verursacht jedoch mittelfristig auch eine Lästigkeit des Audioprogramms [Wagner, 1997] [Vickers, 2011]. Dem Dilemma der Stör- und Nutzeffekte kann man durch den Einsatz zweier Kompressoren begegnen: Einen Kompressor  mit ‚weicherʻ Einstellung, also niedriger Schwelle und ratio  sowie großen Zeitkonstanten, für die Reduktion der wahrgenommenen Dynamik eines Einzelsignals und dau einen Kompressor mit ‚harterʻ Einstellung, also hoher Schwelle und ratio sowie kleinen Zeitkonstanten, für den technischen Übersteuerungsschutz an Gruppen- und Summenausgängen. Noch effektiver im Hinblick auf die Unauffälligkeit von Regelvorgängen arbeiten Geräte mit programmabhängig veränderlichen Parametern (siehe das folgende Kap.). 6.2.1.3 Erweiterte Anwendungen Auf Grund der vielfältigen Einsatzgebiete des Kompressors gibt es zahlreiche Erweiterungen und Schaltungsvarianten, die für bestimmte Anwendungsfälle optimiert sind, erweiterte gestalterische Möglichkeiten bieten oder weniger  störende Veränderungen des Klangbilds produzieren. Diese Varianten können auch kombiniert werden: Verkopplung von Kanälen: Soll eine identische Dynamikregelung  mehrerer Kanäle gewährleistet sein, um z. B. Balance-Schwankungen bei zwei- oder mehrkanal-stereofonen Signalen, z. B. Summensignalen, zu vermeiden, werden die Steuereingänge der einzelnen Kompressoren

6.2 Dynamik und Lautheit 

 441

über stereo link verbunden und deren Parameter zumeist auf dieselben Werte eingestellt. So lösen Regelvorgänge eines jeden Kanals entsprechende Regelvorgänge in allen Kanälen aus. Nutzsignalverzögerung: Durch eine Verzögerung des Eingangssignals  – nicht jedoch des Steuersignals – in der Größenordnung der Ansprechzeit, erfolgt der Regelvorgang des Kompressors bereits vor dem Eintreffen der auslösenden Pegeländerung. Auf diese Weise werden Pegelspitzen bei Einschwingvorgängen wirksam abgefangen und  störend hörbare Veränderungen des Signals verringert. Die Verzögerungsfunktion – predict oder look ahead – ist häufig in Mastering-Prozessoren vorgesehen sowie ein Merkmal von sog. Transienten-Limitern, die z. B. vor Übertragungsstrecken eingesetzt werden. Ansteuerung durch Fremdsignal: Wird der Steuereingang nicht von dem zu komprimierenden, sondern einem anderen Signal gespeist, so veranlasst das Steuersignal die Pegelreduktion des bearbeiteten Signals, was für gestalterische Klangeffekte genutzt werden kann. Als hörbarer Bestandteil einer Mischung dominiert es auch ohne höheren Pegel dynamisch das komprimierte Signal. Diese Wirkung wird als ducking-Effekt bezeichnet. Typische FremdSteuersignale sind Rundfunksprecher, die eine Kompression von Musik oder Atmosphären bewirken, und Rhythmus-Tracks, die die restliche Musikmischung beeinflussen. Filter im Regelkreis: Besteht das Steuersignal aus dem gefilterten Nutzsignal, so ergibt sich eine frequenzabhängige Kompression. Häufig werden mittlere und hohe Frequenzbereiche angehoben oder ausgewählt, um Gesangs- oder Sprachsignale durch die dynamischsten oder am  meisten  störenden Komponenten zu komprimieren. Sog. De-Esser  sind  speziell für die Unterdrückung von S- bzw. allgemein von Zischlauten ausgelegte Kompressoren mit einem Bandpass im Regelkreis, dessen Eckfrequenz sich typischerweise in einem Bereich von 0,8 bis 8 kHz einstellen lässt. Sie sollten eine höhere Aussteuerbarkeit besonders auf analogen Magnetbändern zulassen. Der Regelvorgang selbst kann breitbandig oder für das gewählte Frequenzband selektiv erfolgen. Mehrband-Kompression: Mehr- oder Multiband-Kompressoren teilen das Audiosignal über eine Filterbank in üblicherweise 3 bis 5 Frequenzbereiche auf, die parallel von jeweils einem eigenen Kompressor bearbeitet und danach wieder zusammengeführt werden. Einzelne Frequenzkomponenten können auf diese Weise keine breitbandige Regelung  mehr auslösen. Für jeden Einzelband-Kompressor können spezifische Parameter gewählt werden. Das Funktionsprinzip und die differenzierte Einstellbarkeit führen zu einer Verminderung der Veränderlichkeit des relativen Gewichts von Frequenzbereichen, auf der Wahrnehmungsebene  mithin zu einer klangfarblichen Homogenisierung, und ermöglichen eine effektive Lautheitsmaximierung. Typischerweise werden Mehrband-Kompressoren daher beim Mastering eingesetzt  sowie in Sendewegen, wo  sie neben hoher Lautheit einen  spezifischen, für den jeweiligen Sender typischen „Wellensound“ erzeugen sollen. Da die Übergangsfrequenzen der Frequenzbänder vielfach in der  spektralen Ausdehnung von Klängen liegen, die als einheitliche Gestalten wahrgenommen werden, kommt es durch die frequenzselektiven Regelvorgänge zu hörbaren Klangveränderungen. Die beschriebenen Effekte lassen sich zusammenfassend als starke Klangverdichtung oder als ‚kommerziellen Soundʻ bezeichnen. Ob mit solchen Audiobearbeitungen eine Erhöhung der Einschaltquote auf Grund der hohen Lautheit erreicht wird – so das Argument für den Einsatz dieser Programmverdichter – oder

442 

 6 Klanggestaltung

eine Erhöhung der Ausschaltquote auf Grund der mittelfristig erhöhten subjektiven Lästigkeit überwiegt, ist nicht ausreichend geklärt. Ein Zusammenhang von Senderwahl und Sendeweg-processing ließ sich im Experiment jedenfalls nicht nachweisen [Gawlik, 2008]. Eine als New York compression bekannte Einsatzvariante ist die Mischung von unbearbeitetem und stark Multiband-komprimiertem Signal, wodurch Transienten und Durchhörbarkeit partiell erhalten bleiben sollen. Dynamikmuster: Manche Plug-ins bieten eine Einflussnahme auf das dynamische Verhalten, die weit über die Festlegung der beiden Zeitkonstanten attack und release hinausgeht. Vielmehr kann der Verlauf der Dynamikregelung durch eine Art Hüllkurvengenerator über eine längere Zeit genau kontrolliert werden, so dass mehrere Ansprech- und Abklingphasen aufeinander folgen können. Dadurch können insbesondere Rhythmusbestandteile im Zeitverlauf nachträglich gewichtet werden. Adaptive Parameter: Ein hohes Maß an klangfarblicher Treue bei gleichzeitig zuverlässiger Einhaltung von Aussteuerungsgrenzen erreichen Dynamikprozessoren, deren Parameter kontinuierlich den Signaleigenschaften angepasst werden. Die Kompressionsstufen solcher für den Einsatz in Sendewegen  spezialisierten Geräte  sind oft nicht wie beim MultibandKompressor parallel,  sondern in einer  sog. Multiloop-Architektur  seriell angeordnet. Zur gehörmäßigen Unauffälligkeit der Signalbearbeitung tragen eine Nutzsignalverzögerung, die Einbeziehung verschiedener Signalmaße und die Berücksichtigung psychoakustischer Phänomene wie Vor- und Nachverdeckung bei.

6.2.2 Expander und Gate Expander sind Regelverstärker, die der Dynamikvergrößerung dienen. Ihre Verstärkung verändert  sich gleichsinnig  mit dem Pegel des Eingangssignals,  sobald dieser eine Schwelle unterschreitet. Ein Gate (Tor) ist eine Extremeinstellung des Expanders, die ein Stummschalten leiser Signalabschnitte bewirkt. Expander bzw. Gates werden überwiegend  mit dem Ziel der Störgeräuschverminderung in Sprech- und Spielpausen eingesetzt, zur Verminderung von Übersprechen in der Mischung, z. B. bei Diskussionsrunden oder Schlagzeugaufnahmen,  sowie zur kreativen Klanggestaltung in der Produktion von Popularmusik. Außerdem sind sie Teil von Kompandersystemen. Dementsprechend kommen sie beim Mastering, in Aufnahme- und Sendewegen, in der Abmischung und in der Beschallung zum Einsatz. Technisch entspricht ein Expander einem Kompressor mit umgekehrter Funktionsweise. Allerdings entfällt die Möglichkeit der Rückwärtsregelung, und die Bezeichnung side chain für den Steuereingang ist ungebräuchlich, man spricht hier von key input. Auch beim Expander muss zwischen statischem und dynamischem Verhalten unterschieden werden. 6.2.2.1 Statisches Verhalten Das  statische Verhalten eines Expanders wird durch  seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung meist als Pegel angibt. Sie hat Gül-

6.2 Dynamik und Lautheit 

 443

tigkeit unter statischen Bedingungen, d. h., bei konstantem oder sich nur langsam änderndem Eingangspegel. Expanderkennlinien setzen sich in der Regel aus einem steilen Abschnitt und zwei neutralen Abschnitten zusammen (Abb. 6/11). Besteht die Kennlinie nur aus zwei Abschnitten, unterscheidet man zwischen einem Downward-Expander – der steile Abschnitt ist unten – und einem weniger gebräuchlichen Upward-Expander – der steile Abschnitt ist oben. Das statische Verhalten wird von drei wesentlichen Parametern bestimmt: threshold, auch umgekehrt als input level oder input gain bezeichnet, range und ratio, nicht immer einstellbar. Im Arbeitsbereich des steilen Kennlinienteils, also unterhalb des Schwellwerts threshold bewirkt eine Pegelerhöhung am Eingang nicht dieselbe,  sondern eine größere Pegelerhöhung am Ausgang. Die ratio R ergibt  sich wie beim Kompressor durch R  =  ΔLin  /ΔLout bzw. R = tan α und kann vorgegeben sein.

Abb. 6/11. Expander, typische Kennlinienverläufe.

Der Parameter range gibt in  dB an, wie  stark in dem unteren Kennlinienbereich liegende Signale abgesenkt werden. Im Normalfall 0  40 dB, bei

758 

 11 Arbeitssicherheit und Gesundheitsschutz

2 kHz > 30 dB und bei 1 kHz > 15 dB beträgt, oder das Sprachaudiogramm einen beidseitigen Hörverlust von mehr als 20 % aufweist. Diese Grenzwerte für berufsbedingte Schwerhörigkeiten können in der Folge zu einer Minderung der Erwerbstätigkeit führen. Für einen Tonschaffenden führt eine Hörminderung auf einem Ohr bereits zur Berufsunfähigkeit. 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung Die Folge der kurzfristigen energetischen Minderversorgung der Zellen kann eine zeitweilige Verschiebung der Hörschwellen oder TTS (Temporary Threshold Shift) sein. Dieser Prozess ist durch Erholungs- oder Lärmpausen von weniger als 70 dB wieder umkehrbar, abhängig von der Lärmdosis. Zeitweilige Hörschwellenverschiebungen können auch noch eine andere Ursache haben. Der cochleäre Verstärker adaptiert das Gehör an eine hohe Schallbelastung. Bei sehr lauten Tönen entstehen im Innenohr flache, breite Wanderwellen mit geringer Amplitude und unscharfer Frequenzabstimmung. Sie führen zu einer Hörwahrnehmung erst bei den inneren Haarzellen, etwa ab 50 bis 70 dB, gegenüber den äußeren Haarzellen mit höherer physiologischer Hörschwelle. Dieser Adaptionsprozess ist zwar nur vorübergehend, wirkt aber bis in nachfolgende Ruhezeiten hinein. Schmalbandige Klänge erzeugen zeitlich begrenzte Hörschwellenverschiebungen bei Frequenzen, die eine halbe bis ganze Oktave oberhalb der wahrgenommenen Tonhöhe liegen. Breitbandige Geräusche erzeugen die stärkste Hörminderung im Bereich der C5-Senke, dies entspricht einen Verlust der Hörfähigkeit im Bereich von 4 KHz, entsprechend der Tonhöhe c5. Länger andauernde Schallbelastungen mit hoher Lautheit führen zu Verklebungen benachbarter einzelner Haarzellen, später zu Verklumpungen und schließlich zu irreversiblen Rückbildungen der Haarzellen. Dies ist dann der maximale Gehörschaden, der eine bleibende Hörschwellenverschiebungen oder PTS (Permanent Threshold Shift) nach sich zieht. Die Grenzen sind fließend, jedoch ist erwiesen, dass TTS-Effekte ohne ausreichende Ruhephasen sich zu PTS-Effekten aufsummieren können. Da die Haarzellen nach bisherigen wissenschaftlichen Erkenntnissen nicht nachwachsen, ist der PTS-Effekt definitiv und nicht umkehrbar. Je nach Art der Lärmeinwirkung können dabei Hörzellen höherer, mittlerer oder tieferer Frequenzen geschädigt werden. Wichtig für die Leistungsfähigkeit der Ohren eines Tonschaffenden ist die Tatsache, dass mit fortschreitendem Alter die Rückbildungsfähigkeit der Haarzellen stetig abnimmt. Gleichzeitig mit dem Summationseffekt können erhebliche Gehörschäden entstehen, deren Ursachen Jahrzehnte zurückliegen. Umgekehrt bestehen gute Chancen, eine hohe akustische Wahrnehmungsfähigkeit zu bewahren, je weniger man in jungen Jahren sein Gehör hoher, länger andauernder Schallbelastungen ausgesetzt hat. 11.2.2.3 Fehlender Lautheitsausgleich Der eingeschränkte Dynamikbereich der Schallwahrnehmung bei einem geschädigten Ohr äußert sich bei den Betroffenen als fehlender Lautheitsausgleich (Recruitment). Die subjektive Hörempfindung, oder auch die wahrgenommene Lautheit, wächst bei den Betroffenen über der verschobenen Hörschwelle sehr viel schneller an, d. h., die Unbehaglichkeitsschwelle wird früher erreicht als bei Normalhörern. Die Schwerhörigkeit bewirkt zudem, dass

11.2 Gesundheitsschutz 

 759

Leises nicht oder nur sehr schlecht gehört wird. Im mittleren Bereich gibt es keinen Wahrnehmungsunterschied zu Normalhörern, in lauten Hörsituationen kann es zu Überempfindlichkeiten kommen. Die Lästigkeitsschwelle gegenüber Normalhörern wird sehr schnell erreicht, auch wird aufgrund der fehlenden Dämpfung die Schmerzschwelle schon bei niedrigeren Pegeln überschritten (Hyperakusis). Schädigungen an der Wirkungsweise des cochleären Verstärkers können Ursachen für die Dynamikempfindlichkeit bei gleichzeitiger verminderter Wahrnehmung für Tonhöhenunterschiede sein. Dies erklärt auch einen großen Teil von kritischen Hörerreaktionen im Rundfunk bei gemischten Wort- und Musiksendungen. Gerade ältere Hörer beklagen die vermeintlich zu leise Sprache und die zu laute Musik. 11.2.2.4 Stapediusreflex Das Mittelohr verfügt neben dem cochleären Verstärker über einen weiteren Schutzmechanismus, den sog. Stapediusreflex oder auch „akustischer Reflex“ genannt. Dieser sorgt dafür, dass größere Schallstärken oberhalb ca. 75 bis 90 dB durch Muskelkontraktion des Mittelohres eine Veränderung der Impedanz bewirken und damit zu einer verringerten Übertragung der Schallenergie führen. Die maximale Dämpfung bei 2 kHz beträgt etwa 10 bis 20 dB. Bei höheren Frequenzen ist dieser Effekt leider unwirksam. Die Einwirkzeit zur Auslösung des Reflexes beträgt etwa 50 ms, bei maximaler Kontraktion etwa 35 ms. Bis die völlige Kontraktion erreicht ist, kommen nochmals ca. 150 bis 500 ms hinzu. Der Effekt wirkt also erst nach weniger als einer Sekunde nach dem Auslöseimpuls auf beiden Ohren, auch wenn nur ein Ohr beschallt wird. Haben mehrere Impulse einen zeitlichen Abstand von ca. 2,4  s ist der Stapediusreflex allerdings wieder unwirksam. Jeder einzelne Schallimpuls wirkt dann in voller Stärke, also mit maximaler Schädigung. Die Wirkung des akustischen Reflexes kann auch bei dauernder Schallbelastung bis zu mehreren Minuten anhalten, jedoch erfolgt eine zeitliche Adaption, die die Entlastung deutlich mindert. 11.2.2.5 Gehörschäden und Musik Die Abschätzung von Gehörschäden durch Musik beruht auf der Bewertung des äquivalenten Dauerschallpegels. Dieser schließt die Aufsummierung der Schallenergie ein. Nicht berücksichtigt wird bei dieser Betrachtung allerdings die Impulshaltigkeit von Musikbeschallung. Drum-Sounds oder perkussive Elemente der Beschallung von Musikdarbietungen bei Rockund Popkonzerten oder vergleichbaren Veranstaltungen, sind jedoch mit industriellen Impulsschallen vergleichbar, z. B. in Kesselschmieden. Abhängig von der Regelmäßigkeit des Auftretens von Impulsschall oder BPM (Beats per Minute) kann der Stapediusreflex das Gehör schützen. Häufig auftretende Werte bei „Rave“-Veranstaltungen (ca. 120 BPM entsprechen etwa 2 Hz) sowie die meist geringe Dynamik dieser Musik lassen das Belastungsrisiko solcher Schallereignisse hinreichend genau mit dem Mittelungspegel beschreiben. Folglich gelten hier die Schädigungsgrenzen für Dauerschall. Lange Expositionszeiten bei hohen Pegeln ohne Ruhezeiten stellen ein großes Gefahrenpotenzial dar.

760 

 11 Arbeitssicherheit und Gesundheitsschutz

11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5 Lärmbedingte Hörverluste wurden bislang vorwiegend unter arbeitsmedizinischen Aspekten untersucht und dargestellt. Im Folgenden werden diese allgemeinen Überlegungen auf das Hörschadenrisiko bei öffentlichen Musikveranstaltungen mit elektroakustischer Beschallung übertragen. Dazu gehören u. a. Konzerte, Besuche in Diskotheken und anderen öffentlichen, wie gewerblichen Orten. Nicht berücksichtigt ist die individuelle Belastung durch Musikdarbietungen zu Hause oder über Kopfhörer. Der Lärmemission kommt heute eine hohe Bedeutung zu. Die Vermeidung von Gehörschädigungen durch laute Musik in Diskotheken und bei öffentlichen Veranstaltungen ist eine gesundheitspolitische Aufgabe und genießt eine hohe Relevanz. Bereits frühzeitig wurden deshalb Maßnahmen getroffen, verbindliche Regeln zum Schutze von Personen zu schaffen. Die [DIN 15905-5] schafft klare Voraussetzungen und wurde im Herbst 2007 umgesetzt. Sie ist eine vollständige Neubearbeitung des Normenausschusses Veranstaltungstechnik aus dem Jahr 1989. Die DIN 15905-5 ist kein Gesetz, aber die Einführung hat dazu geführt, dass das Thema in der Öffentlichkeit und vor allem von Veranstaltern ernst genommen wird. Ihre rechtliche Bedeutung entfaltet die Norm durch das Schadensersatzrecht. Das Ziel der Norm ist, das anerkanntermaßen hohe Risiko von Gehörgefährdungen des Publikums bei öffentlichen Veranstaltungen mit Beschallungstechnik zu reduzieren. Die Norm gilt nicht für die bei Veranstaltungen beruflich tätigen Personen, sondern ausschließlich für Besucher. Es werden Maßnahmen beschrieben, die bei sich abzeichnender Überschreitung der Richtwerte für die Beurteilungspegel ergriffen werden müssen, um der Verkehrssicherungspflicht in Bezug auf Gehörgefährdungen nachzukommen. Die Norm gilt für alle Veranstaltungen mit elektroakustischer Beschallungstechnik in Gebäuden und im Freien, also von Diskotheken, Filmtheatern, Konzertsälen, Mehrzweck-, Messehallen, Räumen für Shows, Events, Kabaretts, Varietés, Hörfunk-, Fernsehstudios, Theatern, Spielund Szenenflächen in Freilichtbühnen, Open-Air-Veranstaltungen sowie bei Festumzügen und Stadtfesten. Ausgenommen von der Norm sind Durchsagen im Gefahren- und Katastrophenfall, Anwendungen von Pyrotechnik ohne zeitgleiche dramaturgisch verbundene Beschallung, sowie durch Publikum verursachte Geräuschpegel. Unklar ist, ob die Norm auch bei Veranstaltungen in Zelten gilt. 11.2.3.1 Verkehrssicherungspflicht Die aktuelle Rechtsprechung siedelt die Verantwortung für entstandene körperliche Schäden von Zuschauern beim Veranstalter an. Hier gilt die Verkehrssicherungspflicht, d. h., sinngemäß ist derjenige, der eine Gefahrenquelle eröffnet, dafür verantwortlich, dass niemand zu Schaden kommen kann. Eine Beschallungsanlage kann eine solche Gefahrenquelle sein. Anerkannte Regeln der Technik beschreiben Ursachen und Folgen des Einsatzes der Gefahrenquelle. Verletzt also ein Veranstalter die Regeln der Technik, kann er zivilrechtlich zur Verantwortung gezogen werden. Weiterhin ergibt sich aus dem Baurecht die Verantwortung

11.2 Gesundheitsschutz 

 761

des Betreibers einer Versammlungsstätte, für die Sicherheit des Publikums zu sorgen. Beide Parteien werden im Schadenersatzfall gesamtschuldnerisch zur Verantwortung gezogen. Umgekehrt gilt, dass der Veranstalter und möglicherweise der Betreiber einer Versammlungsstätte durch Erfüllung der DIN 15905-5 der vorgeschriebenen Verkehrssicherungspflicht nachkommen muss. Zuwiderhandlung macht ihn automatisch für alle durch die Beschallung aufgetretenen Schäden haftbar. Die DIN 15905-5 besagt, dass zu keinem Zeitpunkt innerhalb von 30-minütigen Messperioden und an keinem Ort der Veranstaltung der nach A-Filter bewertete Beurteilungspegel von 99 dB und der nach C-Filter bewertete Spitzenpegel von 135 dB überschritten werden dürfen. Unterhalb des genannten Beurteilungspegels von 99 dB(A) sowie des Spitzenpegels von 135 dB(C), bei deren Überschreitung der Veranstalter seiner Verkehrssicherungspflicht nicht nachgekommen ist, gelten weitere Schutzmaßnahmen. Bei Erreichen des Auslösewertes von Lr = 80 dB(A) soll durch Aushänge oder Hinweise auf eine mögliche Schädigung des Gehörs hingewiesen werden. Ab Lr = 95 dB(A) müssen Gehörschutzmittel bereitgestellt und zum Tragen aufgefordert werden. Für all diese Werte erscheint die Signalisierung für das Publikum und das Bedienpersonal angesagt. Tab. 11/3. Kerndaten der DIN 15905-5 Anwendungsbereich

- Messung und Bewertung der Schallimmission am lautesten Punkt im Publikum mit dem Ziel der Reduzierung einer Gehörgefährdung

Wichtige Begriffe

- Maßgeblicher- bzw. Ersatzimmissionsort - Messperiode - Beurteilungszeit

Richtwerte

- LAR ≤ 99 dB(A) für 30-minütige Messperiode - LCpeak ≤135 dB(C)

Messung/Auswertung

- Anforderung an Messgerät, Bestimmung der Korrekturwerte

11.2.3.2 Schutzmaßnahmen und Information Die [DIN 15905-5] enthält neben den oben dargestellten Vorschriften auch die Beschreibung von Schutzmaßnahmen bei unterschiedlichen zu erwartenden Pegelwerten. Grundsätzlich ist es die Aufgabe des Veranstalters, das Publikum über mögliche Gefährdungen des Gehörs zu informieren. Allgemeine Schutzmaßnahmen Durch geeignete Maßnahmen, wie beispielsweise Absperrungen, ist der Nahbereich um die Beschallungsanlage wegen der möglichen Gehörgefährdung als Aufenthaltsbereich für das Publikum abzugrenzen. Bei großen Produktionen wird dieses Problem heute üblicherweise durch die erhöhte Positionierung der Lautsprechersysteme gelöst (s. Kap. 10.2.3.2). Darüber hinaus ist die Beschallungsanlage so zu begrenzen, dass der nach C-Filter bewertete Spitzenschalldruckpegel LCpeak1 = 135 dB nicht überschritten werden kann.

762 

 11 Arbeitssicherheit und Gesundheitsschutz

Schutzmaßnahmen bei Pegeln 85 < 95 dB(A) Ist der zu erwartende Beurteilungspegel > 85 dB(A) und werden 95 dB(A) nicht überschritten, muss das Publikum in geeigneter Weise informiert werden. In diesem Fall kann auf eine Permanentmessung verzichtet werden. Geeignete Maßnahmen zur Information des Publikums sind unter anderem –– Aufdruck auf Eintrittskarten oder Handzetteln, –– Aushang, –– Durchsagen oder die Hinweise auf Anzeigetafeln. Schutzmaßnahmen bei Pegeln 95 < 99 dB(A) Bei zu erwartenden Pegeln > 95 dB(A) müssen dem Publikum geeignete Gehörschutzmittel zur Verfügung gestellt werden [DIN EN 352-2]. Auch sollen den Beschallungstechnikern als Arbeitserleichterung eine Messeinrichtung mit optischer Anzeige bereitgestellt werden, um bei Annäherung oder Überschreitung der Beurteilungspegel gegensteuern zu können. Die DIN 15905-5 schlägt bei optischer Anzeige Farbcodes vor und zwar Gelb  95dB(A) < LAr < 99dB(A), Rot LAr > 99dB(A). 11.2.3.3 DIN-Anhang Die [DIN 15905-5] enthält zusätzlich auch einen informativen Anhang A, der praktische Beispiele für einige Anwendungsfälle aufführt. Festinstallierte Beschallungsanlagen für Live-Betrieb Bei fest installierten Beschallungsanlagen mit stets gleicher Bühnensituation, jedoch wechselnden Acts, bietet sich an, die Korrekturwerte K1 und K2 einmalig bei der Installation der Beschallungsanlage zu ermitteln und in der Folge die Permanentmessung bei Veranstaltungen am Ersatzimmissionsort durchzuführen. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Wechselnde Beschallungsanlagen Veranstaltungsorte mit unterschiedlichen Beschallungsanlagen und Bühnensituationen werden von wechselnden Acts bespielt. Eine fest installierte Messeinrichtung ist hier nicht sinnvoll einsetzbar. Die Korrekturwerte werden bei jeder Produktion neu bestimmt. Vorteilhaft ist eine feste Messeinrichtung, die nicht ständig betreut werden muss. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Festinstallierte Anlagen zur Beschallung mit Tonträgern Fest installierte Beschallungsanlagen zur Wiedergabe von Tonträgern, beispielsweise in Diskotheken, können mit einem verplombten Limiter zur Einhaltung der Norm versehen werden. Der Limiter sollte regelmäßig auf Wirksamkeit überprüft werden. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig.

11.2 Gesundheitsschutz 

 763

11.2.4 Messung der Schallimmission Die Messung der Schallimmission nach DIN-15905-5 (s. Abb. 11.3) muss mit einem Schallpegelmesser mindestens der Genauigkeitsklasse 2 nach [DIN EN 61672-1] mit A- und C-Filterung erfolgen. Darüber hinaus ist eine kalibrierte Messgerätekette nach [DIN EN 60942] zu verwenden. Üblicherweise sollte die Messeinrichtung über eine optische Pegelanzeige für LAeqT = Kurzzeitmittelungspegel bei einer Integrationszeit von T ≥ 5s LAr = Beurteilungspegel LCpeak = Spitzenschallpegel, sowie über eine Protokollierung und Datenarchivierung verfügen. Der Richtwert für die Beurteilung der Lautstärke bei Veranstaltungen an dem Ort mit dem höchsten zu erwartenden Pegel, der dem Publikum zugänglichen ist, beträgt LAr = 99 dB (A) LAr ist der A-bewertete, energieäquivalente Dauerschallpegel am maßgeblichen Immissionsort für die Beurteilungszeit von 30 min = Tr. Dieser Wert entspricht der zeitlichen Integration des Schalldruckverlaufs über die Zeitperiode. Der Pegel deckt sich mit der Festlegung der Gesundheitsminister der Bundesländer [78. GMK, 2005]. Die Norm gilt allerdings auch als nicht überschritten, wenn die Beurteilungszeit auf 120 min ausgedehnt wird. Dies hat Auswirkungen auf Veranstaltungen von kürzerer Dauer, da der Integrationszeitraum Beschallungspausen auch nach Ende der Veranstaltung mit einschließt.

Abb. 11/3. Darstellung einer Messeinrichtung nach DIN 15905-5

Eine Messung beginnt jeweils vor Beginn einer Veranstaltung und wird in jeweils 30-minFenstern fortgesetzt. Jedes Zeitfenster beginnt zur vollen und halben Stunde. Da nicht immer an dem für die Norm maßgeblichen Immissionsort, nämlich der lautesten Stelle im Zuschauern zugänglichen Bereich, gemessen werden kann, erfolgt die Messung vor der Veranstaltung an einem anderen Ort (Beispiel Regietisch im Zuschauerraum), dem sog. Ersatzimmissionsort. Beide Orte müssen so gewählt werden, dass hier keine verfälschenden Störsignale das Messergebnis beeinflussen können, bspw. durch laute Publikumsgeräusche.

764 

 11 Arbeitssicherheit und Gesundheitsschutz

Der am Ersatzimmissionsort ermittelte energieäquivalente Dauerschalldruckpegel LAeqT2 unterscheidet sich durch einen zu ermittelnden konstanten Korrekturfaktor K1 von LAr. Es gilt LAr = LAeqT2 + K1. Dieser Korrekturwert wird bei der Dauermessung während der Veranstaltung berücksichtigt. Der Richtwert für den Spitzenschalldruckpegel beträgt LCpeak = 135 dB. Er darf in keinem Beurteilungszeitraum überschritten werden. Für den C-bewerteten Spitzenschalldruckpegel gilt analog zu dem A-bewerteten energieäquivalenten Dauerschalldruckpegel die Formel LCpeak1 = LCpeak2 + K2 (Differenz von zwei LCpeak‑Werten) . Auch hier wird der Korrekturwert K2 durch Messung am Ersatzimmissionsort im Vergleich zum maßgeblichen Immissionsort ermittelt. Korrekturwert Jede Messung bei einer Lautsprecheranordnung in einer Spielstätte bei genau hier genutzter Mikrofonanordnung am Immissionsort führt zu individuellen Korrekturwerten. Diese Messung muss für jede neue Veranstaltung mit einer Beschallungsanlage und möglicherweise unterschiedlichen Bühnensituationen durchgeführt werden. Als Korrekturwert K1 gilt die Pegeldifferenz bei der Vergleichsmessung zwischen dem Ersatzimmissionsort und dem maßgeblichen Immissionsort für den Mittelungspegel LAeqT2 und der Wert K2 gilt als Korrekturwert für den Spitzenschalldruckpegel LCpeak2. Als Messsignal muss rosa Rauschen verwendet werden, bei einer Integrationszeit für den energieäquivalenten Dauerschalldruckpegel LAeqT2 von T ≤ 5s. Die Ermittlung der Korrekturwerte K1 (LAeqT = A-bewerteter energieäquivalenter Dauerschallpegel) und K2 (LCpeak = C-bewerteter Spitzenschalldruckpegel) erfolgen vor der Veranstaltung an geeigneten Orten. Diese beiden Messwerte sind während der Permanentmessung zu berücksichtigen. Messprotokoll Von den Permanentmessungen in dem 30-minütigen Zeitraster ist ein Messprotokoll anzufertigen, das folgende Angaben enthalten muss: –– Veranstalter und Name der Veranstaltung, –– Verfasser des Messprotokolls mit Unterschrift, –– Datum und Veranstaltungsort, –– Beurteilungspegel LAr und Spitzenschalldruckpegel LCpeak aller Beurteilungszeiten, –– Beginn und Ende der Messung, –– Beginn und Ende der Veranstaltung, –– zeitlicher Veranstaltungsverlauf, –– Verwendete Mess- und Kalibriergeräte, –– Ergebnis der Kalibrierung, –– Typ und Anordnung der genutzten Beschallungsanlage, –– Messpunkte: maßgeblicher Immissionsort und Ersatzimmissionsort, –– Korrekturwerte K1 und K2 und Art der Ermittlung, –– Bedienpersonal der Beschallungsanlage z. B. DJ, FOH-Techniker, Mischer.

11.2 Gesundheitsschutz 

 765

11.2.4.1 Konsequenz der DIN 15905-5 Schutzziel der [DIN 15905-5] ist, die „Reduzierung einer Gehörgefährdung des anwesenden Publikums“ bei öffentlichen Veranstaltungen zu gewährleisten. Dem liegt der Gedanke zugrunde, einen Konzertgenuss zu ermöglichen, ohne einen physischen Schaden davon tragen zu müssen. Die Grenzwerte und Randbedingungen stellen einen sinnvollen Kompromiss dar zwischen Publikumsschutz und Durchführbarkeit und orientieren sich auch an den Vorschriften und Normen europäischer Nachbarländer. Die Akzeptanz der Norm steigt, wenn sich alle in der Branche aktiven Berufsverbände für die Einhaltung der Norm einsetzen, wie beispielsweise der Verband der Konzertdirektionen Deutschland (VDKD) als Vertreter der Veranstalter, der Verband Deutscher Tonmeister (VDT) als Fachverband der Toningenieure und Tonmeister, der Verband für professionelle Licht und Tontechnik e.V. (VPLT) als Vertretung für die Beschallungsdienstleister, der Dachverband des Gastgewerbes (Deutsche Hotelund Gaststättenbetreiber, Dehoga) als Vertreter der Diskothekenbetreiber. Die Einhaltung der DIN 15905-5 erfordert bei den Betroffenen (Veranstaltern, Betreibern, Künstlern und Publikum) ein Verständnis für die gesundheitlichen Folgen einer zu hohen Schallexposition. Lauter ist nicht gleich besser. Die Grenzwerte Zeit und Pegel der Norm sind so gewählt, dass allein durch den Besuch einer einzigen Veranstaltung, bei der die genannten Beurteilungspegel eingehalten wurden, kein zusätzlicher Gehörschaden entstehen kann. 11.2.4.2 Die Praxis für Veranstaltungen Die Grenzwerte für die DIN 15905-5 sind aus den Bestimmungen zum Arbeitsschutz entnommen. Basis der Exposition sind hier eine Lärm- oder Schalldosis von 85 dB (A) bei einer wöchentlichen Expositionszeit von 40  Stunden entsprechend 3.640 Pa/s. Allerdings steigt das Gehörschadenrisiko oberhalb dieses Wertes erheblich. Hörschäden sind bei extensiver Exposition und bei besonders lauten Schallereignissen medizinisch erwiesen. Das Gehörschadensrisiko bei einer Schalldosis von 85 dB(A) für 40 Stunden, von 95 dB(A) für 4 Stunden oder von 98 dB(A) für 2 Stunden wird als vergleichbar beschrieben. Dies gilt jedoch nur bei ausreichend Zeit zur Erholung des Gehörs und ohne Berücksichtigung von Vorschäden aus zurückliegenden Schallereignissen. Auch sind die Überlegungen aus dem Lärmschutz am Arbeitsplatz nicht ohne weiteres auf Freizeitlärm zu übertragen im Sinne von „Schall ist ungleich Lärm“. Folgen für den Veranstalter und den Betreiber Durch die Erfüllung der [DIN 15905-5] kommen sowohl der Veranstalter als auch der Betreiber einer Veranstaltung der gesetzlich vorgeschrieben Verkehrssicherungspflicht nach. Eine Zuwiderhandlung macht ihn allerdings für alle durch die Beschallung aufgetretenen Schäden haftbar. Ein Veranstalter kann seiner Verkehrssicherungspflicht nur nachkommen, wenn er sachkundige Spezialisten mit der Durchführung der Messung beauftragt. Eine rechtswirksame Messung des Mittelungspegels LAr  =  LAeqT2  + K1 und des Spitzenschalldruckpegels LCpeak muss mit geeichtem Messgerät durchgeführt werden und protokolliert sein.

766 

 11 Arbeitssicherheit und Gesundheitsschutz

Aufklärung Die DIN 15905-5, wie auch die EG-Richtlinie [2003/10/EG] befassen sich mit den Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen (Lärm). Sie sprechen sowohl Zuhörer wie auch tätige Mitarbeiter bei öffentlichen Veranstaltungen an, wie z. B. Diskotheken, Open-Air-Konzerten etc. Neben der sachgerechten Aufklärung möglicher Gefährdungen von Gesundheit und Sicherheit durch Einwirkung von Lärm, insbesondere die Gefährdung des Gehörs, besteht überdies die Notwendigkeit, Arbeitnehmer, die aufgrund ihrer Arbeit einer Gefährdung durch Lärm ausgesetzt sind oder ausgesetzt sein können, auf entsprechende Regeln hinzuweisen. Eine Mitverantwortung für das Bedienpersonal kann nicht ausgeschlossen werden, auch wenn die DIN die Verkehrssicherungspflicht beim Veranstalter bzw. Betreiber sieht. Zusätzliche Ausbildungsgänge für Tonschaffende vermitteln umfassende und tiefergehende Kenntnisse. In Anbetracht drohender irreparabler Gesundheitsschäden, insbesondere bei Kindern und Jugendlichen, durch Freizeitlärm, sind Aufklärungsmaßnahmen vonnöten. Aufklärung über die persönlichen Konsequenzen eines geschädigten Gehörs der Betroffenen durch Lehrer, Eltern, Arzt, Jugend- oder Sozialarbeiter, aber auch über die Medien ist der richtige Weg. Schadenersatzforderungen von durch Lärm geschädigten Personen werden heute in aller Regel von den Gerichten anerkannt; sie sehen den Veranstalter in der Pflicht, normgerechte Messungen durchzuführen. 11.2.4.3 Probleme der Norm DIN-15905-5 Kleinere Veranstaltungsstätten werden mit der Einhaltung der Norm gelegentlich Probleme haben. Das Hauptproblem ist hier der Kurzzeitmittelungspegel. In einem Veranstaltungsort, bei dem es z. B. keine klare Abgrenzung zwischen dem Bühnen- und dem Zuschauerbereich

Abb. 11/4. Beschallungsanlage mit Pegelbegrenzern.

11.2.5 Elektrische Sicherheit 

 767

gibt, wirkt der Pegel der Band auf der Bühne ungedämpft auf die Zuhörer. Umgekehrt wird die PA bei großen Veranstaltungen „geflogen“, um ein gleichmäßiges Beschallungsfeld zu erreichen. Es ist nicht unüblich unterhalb der hoch hängenden Lautsprecher-Stacks jeweils die Sub-Basse anzuordnen, gerne auch mit Absperrgitter in geringem Abstand. Der zugelassene Spitzenschallpegel von 135 dB kann dann leicht erreicht werden, Eine sinnvolle Unterteilung der Größe einer Veranstaltungsstätte konnte in der Norm nicht gefunden werden. Es lassen sich für eine vernünftige Pegelbegrenzung auf der Bühne jedoch durchaus technische Lösungen finden, wie z. B. das Einhausen des Schlagzeugs mit Plexiglaswänden, die Nutzung von In Ear Monitoring-Systemen oder die sorgfältige Verwendung von Begrenzern (Abb. 11/4). Insgesamt scheint die Akzeptanz der Norm zugenommen zu haben, da sie sich als praxisgerecht erwiesen hat, zumal sich nach wie vor viele Technikerinnen und Techniker auf Lehrgängen zum Sachkundigen für Schallpegelmessungen bei Veranstaltungen ausbilden lassen.

11.2.5 Elektrische Sicherheit Spätestens seit dem Inkrafttreten des Arbeitsschutzgesetzes im Jahre 1996 [ArbSchG, 1996] ist jeder Unternehmer gesetzlich verpflichtet, für eine geeignete Organisation des Arbeitsschutzes in seinem Unternehmen zu sorgen. Hierbei ist die Beachtung der Arbeitssicherheit eine notwendige Voraussetzung für das Ausführen jeglicher Arbeit. Der Gesetzgeber wendet sich mit dem Arbeitsschutzgesetz in erster Linie an den Unternehmer und verpflichtet ihn, die Sicherheit und den Gesundheitsschutz der Beschäftigten bei der Arbeit durch geeignete Maßnahmen des Arbeitsschutzes zu gewährleisten. Neben dem staatlichen Recht werden in den berufsgenossenschaftlichen Vorschriftenwerken weitere Anforderungen an den Unternehmer zum Schutz der Beschäftigten bei der Arbeit gestellt. Zur Abwehr von Gefahren sind die Mindestanforderungen in den unterschiedlichen Bereichen in weitergehenden Vorschriften, Normen und Richtlinien festgelegt. Ihre Beachtung ist oberstes Gebot bei der Arbeit. Für die öffentlich-rechtlichen Rundfunkanstalten sind die einschlägigen gesetzlichen Bestimmungen sowie zusätzliche interne Anweisungen in den Richtlinien für Arbeitssicherheit und Gesundheitsschutz ARD/ZDF [UVR von ARD/ZDF] zusammengefasst. Auf die umfangreichen gesetzlichen Vorgaben, Normen und Richtlinien soll an dieser Stelle nicht weiter eingegangen werden. Bezüglich der Verantwortlichkeit für die Umsetzung der Arbeitssicherheit ist der Unternehmer Adressat der gesetzlichen Vorgaben. Er hat im Rahmen seiner Organisationsverantwortung eine funktionierende Arbeitsschutzorganisation im Betrieb zu installieren und mit der Kontrollverantwortung für die Angemessenheit der Maßnahmen zu sorgen. Kann der Unternehmer auf Grund der Art oder Größe des Betriebes diese Aufgaben nicht alleine wahrnehmen, muss er diese Aufgaben auf seine Führungskräfte übertragen. Diese tragen dann die Unternehmerverantwortung für diesen Teil der Arbeitssicherheit. Bei der Ausübung ihrer Tätigkeit sind die Arbeitnehmer durch die gesetzliche Unfallversicherung abgesichert. Der Versicherungsschutz umfasst Arbeitsunfälle, Wegeunfälle und Berufskrankheiten. Die Versicherungsprämien entrichtet der Arbeitgeber. Träger der gesetzlichen Unfallversicherung sind die Berufsgenossenschaften als Körperschaften des öffentlichen Rechts. Die zentralen Aufgaben der

768 

 11 Arbeitssicherheit und Gesundheitsschutz

Berufsgenossenschaften bestehen darin, mit allen geeigneten Mitteln Arbeits- und Wegeunfälle sowie Berufskrankheiten zu vermeiden sowie eine wirksame Erste Hilfe in den Betrieben zu überwachen. 11.2.5.1 Produktionsstätten beim Hörfunk Die Richtlinien für Arbeitssicherheit und Gesundheitsschutz ARD/ZDF (UVR) enthalten umfassende Bestimmungen für Produktionsstätten bei Hörfunk, Fernsehen, Film und Veranstaltungen. Im Folgenden sind einige relevante Punkte zur elektrischen Sicherheit verkürzt genannt: Elektrische Anschlüsse Elektrische Anlagen und Betriebsmittel dürfen nur von Elektrofachkräften oder unter Leitung und Aufsicht einer Elektrofachkraft errichtet, geändert und instandgehalten werden. Sind Eingriffe in das Energieversorgungsunternehmer-Netz (EVU-Netz) erforderlich, hat dies nur durch Elektrofachkräfte unter der Verantwortung des Konzessionsträgers zu erfolgen. Elektrischer Anschluss von Übertragungswagen Der Netzanschluss für ein Übertragungsfahrzeug erfolgt grundsätzlich über einen Zwischentransformator der die Anforderungen für Trenntransformatoren nach [DIN  EN  61558-2-4] erfüllen muss. Darüber hinaus müssen alle Betriebsmittel, die zum Netzanschluss des Übertragungsfahrzeuges dienen, z. B. Stecker, Schalter, Zuleitungen, Leitungseinführung, Transformatoren, die Anforderungen der Schutzisolierung nach [DIN VDE 0100 Teil 410] erfüllen. Beim Einsatz von Übertragungswagen sind die elektrotechnischen Anforderungen gemäß [DIN VDE 0100-717] zu beachten. Die hier allgemein beschriebenen Maßnahmen, die Schutzmaßnahmen sowie die Auswahl und Errichtung elektrischer Betriebsmittel gelten sowohl für den einzelnen Ü-Wagen, wie auch für das Zusammenschalten mehrerer Fahrzeuge. Bei der Zusammenschaltung von Ü-Fahrzeugen oder transportablen Betriebsstätten sind die Schutzmaßnahmen gegen zu hohe Berührungsspannungen aufeinander anzustimmen. Tonleitungen sollen galvanisch getrennt, d. h. über einen Trennübertrager (Trenntrafo) zusammengeschaltet werden. Steckdosen in fremden Häusern Vor dem Anschließen elektrischer Betriebsmittel sind die Steckdosen auf richtigen Anschluss der Außenleiter und des Schutzleiters zu überprüfen. Die Prüfung kann auch von elektrotechnisch unterwiesenen Personen mit geeignetem Prüfgerät durchgeführt werden. Bei Spannung führendem Schutzleiter darf die Steckdose unter keinen Umständen benutzt werden. Bei fehlendem Schutzleiter ist entweder auf eine ordnungsgemäße Steckdose auszuweichen oder es ist ein Trenntrafo, ein Schutzschalter nach [DIN VDE 0661] oder ein Anschlusskasten mit RCD-Schutzschalter (≤ 30 mA und Ersatzerde) zu verwenden. Geräte der Schutzklasse II sind hiervon ausgenommen. Wird eine RCD-Sicherheitseinrichtung nach DIN VDE 0661 verwendet, ist die Einhaltung der Schutzmaßnahme der Steckdose nach dem RCD-Schutzschalter mit geeignetem Prüfgerät zu prüfen.

11.2.5 Elektrische Sicherheit 

 769

11.2.5.2 Kabelverlegung Kabel dürfen im öffentlichen Verkehrsraum erst dann verlegt werden, wenn die erforderlichen behördlichen und/oder privaten Zustimmungen vorliegen. Die Zustimmung ist auch für andere Aufbauten oder Installationen erforderlich. Kabel müssen so verlegt werden, dass Beschädigungen vermieden werden. Senkrecht geführte Kabel sind mit Fangleinen zu halten und an Knickstellen besonders zu schützen. Über Verkehrswegen müssen Kabel in ausreichender Höhe gespannt und mit Abspannseilen entlastet werden. Eine Stolpergefahr durch auf den Verkehrsflächen verlegte Kabel ist durch geeignete Abdeckungen o. ä. auszuschließen; zusätzlich ist mit Schildern auf diese Gefahr hinzuweisen. Netzkabel zu Geräten auf Stativen müssen im Bereich des Stativfußes eine ausreichende Zugentlastung haben. Beschädigte Kabel dürfen nicht verwendet werden. Abgehängte Mikrofone und Lautsprecher Grundsätzlich sind Arbeitsmittel zum Bewegen oder Halten von Lasten über Personen so zu gestalten und zu betreiben, dass die Lasten über die gesamte Benutzungsdauer sicher gehalten werden. Hierbei erfolgt die Dimensionierung der Arbeitsmittel nach dem Prinzip der Eigensicherheit (Überdimensionierung). Ebenso kann als Maßnahme auch das Prinzip der Einfehlersicherheit (Sicherungselemente oder Sekundärsicherung) eingesetzt werden. Voraussetzung für beide Methoden sind konstruktive Mindestanforderungen an die verwendeten Arbeitsmittel. Nur wenn durch eine Beurteilung der Gefährdung nachvollziehbar festgestellt worden ist, dass hängende Lasten beim Herunterfallen keine gesundheitlichen Schädigungen hervorrufen, kann von den grundsätzlichen Sicherungsanforderungen abgewichen werden. Dies kann beispielsweise bei Mikrofonabhängungen, bei denen die Zugentlastung tragende Funktion hat, der Fall sein. 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen Elektrische Geräte und Musikanlagen, die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter der Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Zu den besonderen Schutzmaßnahmen zählen insbesondere Schutzkleinspannung, Schutztrennung mit geeigneten Transformatoren und RCD Schutzeinrichtung mit einem Auslösestrom von ≤ 30mA. Elektrische Musikanlagen müssen grundsätzlich über einen Trenntransformator angeschlossen werden. Transportable elektrische Anlagen und Geräte sind vor jedem Einsatz auf Funktionsfähigkeit und mechanischen Zustand sowie auf einwandfreien Zustand der beweglichen Anschlussleitungen durch Sichtkontrolle zu prüfen. 11.2.5.4 Gefahren des elektrischen Stroms Bei unsachgemäßer Handhabung der elektrischen Energie kann es durch direkte oder indirekte Einwirkungen des Stroms auf Menschen zu schwersten Unfällen kommen. Unfälle entstehen bei Durchströmung über das Herz, bei Lichtbogenunfällen durch Verbrennungen oder als Sekundärunfälle als Folge von Durchströmungs- oder Lichtbogenunfällen.

770 

 11 Arbeitssicherheit und Gesundheitsschutz

Abb. 11/5. Gefährdung durch das Stromnetz.

Der elektrische Durchströmungsunfall ist die Folge einer Durchströmung des Herzens durch den elektrischen Strom. Dabei können die Folgen von der reinen Wahrnehmung des Stroms ab 2  mA, über Muskelkrämpfe und Schwierigkeiten beim Loslassen des stromführenden Leiters ab 15 mA, über Bewusstlosigkeit ab 50 mA, über Herzkammerflimmern ab 80 mA und Herzstillstand bei Strömen bis 300 mA und bis zu tödlichen Verletzungen mit Herzstillstand und inneren Verbrennungen bei elektrischen Strömen über 3000 mA führen. Tab. 11/4. Vergleich der alten und neuen Bezeichnungen des Stromnetzes. Alte Bezeichnung R S T Mp SL NL =SL/Mp

Neue Bezeichnung → → → → → →

L1 L2 L3 N (Neutralleiter) PE (Protection-Earth) PEN (Protection-Earth Neutral)

Bei Lichtbogenunfällen treten äußere Verbrennungen, aber auch Vergiftungserscheinungen durch Verdampfung von Kabelmaterial auf. Auch geringfügige Primärunfälle durch elektrischen Strom können schwere Sekundärunfälle verursachen, wenn der Betroffene z. B. auf einer Leiter arbeitet und durch die Stromeinwirkung auch nur erschreckt wird und abstürzt. Beim Umgang mit netzbetriebenen elektrischen Anlagen und Betriebsmitteln besteht eine besondere Gefahr dadurch, dass das Versorgungsnetz geerdet ist. Nicht nur das gleichzeitige Berühren von zwei elektrischen Leitern mit unterschiedlichem Potenzial (Außen- und Neutralleiter), sondern auch der direkte oder indirekte Kontakt mit nur einem der Spannung füh-

11.2.5 Elektrische Sicherheit 

 771

renden Leiter ist lebensgefährlich. Auch in diesem Fall wird ein Potenzial überbrückt, denn durch die Erdung des Neutralleiters besteht zwischen Außenleiter und Erde eine Spannung von 230 V. Wie in Abb. 11/5 dargestellt, kann bei Berühren eines Außenleiters ein tödlicher Strom über den Menschen zur Erde fließen. Die Stromstärke I ist im Wesentlichen abhängig von der Spannung U gegen Erde, der Größe des Übergangswiderstandes Rü am Standort zur Erde, vom Schuhwerk und von der Bodenbeschaffenheit sowie dem Widerstand RM des Menschen, der u. a. abhängig von der Hautfeuchtigkeit ist. 11.2.5.5 Schutz vor einem elektrischen Schlag Allgemeine Anforderungen Eine Schutzmaßnahme gegen einen elektrischen Schlag besteht immer aus einer geeigneten Kombination von zwei unabhängigen Schutzvorkehrungen, d. h., einer Basisschutzvorkehrung und einer Fehlerschutzvorkehrung, oder auch einer verstärkten Schutzvorkehrung, die den Basisschutz und auch den Fehlerschutz bewirkt. Allgemein gebräuchlich sind folgende Schutzmaßnahmen: –– Schutz durch automatische Abschaltung der Stromversorgung –– Schutz durch doppelte oder verstärkte Isolierung –– Schutz durch Schutztrennung für die Versorgung eines Betriebsmittels –– Schutz durch Kleinspannung mittels S-ELV oder P-ELV (siehe folgende Unterkapitel) Bei der Basisschutzvorkehrung handelt es sich um den Schutz gegen direktes Berühren von Strom durchflossenen Leitern, die Fehlerschutzvorkehrung definiert den Schutz gegen indirekte Berührung. Elektrische Anlagen und Geräte müssen so beschaffen sein, dass Spannung führende Teile gegen direktes Berühren geschützt sind. Das kann dadurch geschehen, dass Spannung führende Teile in ihrem ganzen Verlauf isoliert oder durch ihre Bauart, ihre Anordnung bzw. durch besondere Vorrichtungen gegen direktes Berühren geschützt sind. Beispiele hierfür sind: Isolierung von Leitungen und Steckverbindungen, Einbau in geschlossene Gehäuse und bei Freileitungen die Verlegung außerhalb des Handbereichs. Weiterhin müssen elektrische Betriebsmittel gegen indirektes Berühren geschützt sein, d. h., berührbare Gehäuseteile dürfen auch im Störungsfall keine gefährliche Spannung führen. Dies wird in erster Linie durch eine zuverlässige Betriebsisolierung der aktiven, Spannung führenden Teile, und durch eine sorgfältige Errichtung der Anlage durch Elektrofachleute erreicht. Dennoch ist nicht auszuschließen, dass ein elektrisches Gerät durch Alterung, unsachgemäße Reparatur, Eindringen von Fremdkörpern, Feuchtigkeit oder durch mechanische Beschädigung fehlerhaft wird. Dabei können Isolationsfehler oder Körperschlüsse auftreten, die eine lebensgefährliche Spannung an Gehäuseteilen zur Folge haben. Um auch in diesem Fall einen größtmöglichen Schutz zu erreichen, sind zusätzliche Schutzmaßnahmen gegen gefährliche Berührungsspannungen erforderlich. Fehlerstrom –Schutzschaltung (RCD) Die Fehlerstrom-Schutzschaltung RCD (Residual Current protective Device) ist seit 2002 der Sammelbegriff für Schutzeinrichtungen mit und ohne Hilfsspannungsquelle (s. Abb. 11/6).

772 

 11 Arbeitssicherheit und Gesundheitsschutz

Abb. 11/6. RCD-Einteilung.

Die Fehlerstrom-Schutzeinrichtung bewirkt, dass der Stromkreis allpolig abgeschaltet wird sobald ein Fehlerstrom gegen Erde fließt, der den Nenn-Fehlerstrom des Schalters übersteigt (Abb. 11/7). Die Fehlerstrom-Schutzeinrichtung (RCD) spricht also auch auf Fehler an, die auf den Zuleitungen zum Verbraucher auftreten können, z. B. beschädigte Leitungen, über die ein Fehlerstrom zur Erde fließt. Die RCD-Schutzschaltung nach [VDE 0100-410] verlangt eine direkte Erdung der zu schützenden Verbrauchsmittel. Bei ortsveränderlichen Geräten, die über Steckverbindungen angeschlossen werden, ist eine derartige direkte Erdung dagegen in der Regel nicht möglich.

Abb. 11/7. RCD-Schutzschaltung.

Es sind aber sog. Sicherheitssteckdosenleisten (Personenschutzautomaten) im Gebrauch, die nach dem Prinzip der H-Schutzschaltung arbeiten. Allerdings wird bei diesem Verfahren die Erdung der Verbraucher indirekt über den Schutzleiter und den Schutzkontakt der Speisesteckdose vorgenommen. Die Speisesteckdose muss also einen wirksamen Schutzkontakt haben und das anzuschließende Gerät die Schutzmaßnahme „Nullung mit separatem Schutzleiter“. Sollte dies nicht der Fall sein, kann mit einer Hilfserde die Steckdosenleiste und/oder der Verbraucher geerdet werden. Durch den sehr kleinen Nenn-Fehlerstrom der verwendeten H-Schalter (30 mA, 15 mA) ist ein wesentlich besserer Schutz zu erwarten, als mit alleiniger Nullung möglich ist. Der RCD-Schalter mit 15 mA Nennfehlerstrom schaltet bereits bei einem Fehlerstrom ab, der normalerweise für den Menschen ungefährlich ist. Auch die Abschaltzeit

11.2.5 Elektrische Sicherheit 

 773

ist wesentlich schneller als z. B. mit einer Schmelzsicherung. Aus diesem Grund bezeichnet man das Verfahren auch als die sog. schnelle Nullung. Schutzisolierung Zusätzlich zur Betriebsisolierung wird durch eine zweite isolierende Abdeckung oder durch Verwendung von isolierendem Material dafür gesorgt, dass auch im Fehlerfall das Gehäuse keine Spannung annehmen kann, wie in Abb. 11/8 dargestellt.

Abb. 11/8. Schutzisolierung.

Hierbei werden 2-adrige Zuleitungen ohne Schutzleiter verwendet. Der Anschlussstecker hat keinen Schutzkontakt. Anwendungsbeispiele: Schutz-/Vollisolierte elektrische Werkzeuge, Haushaltsgeräte, Trenntransformatoren, Netzteile für Schutzkleinspannung, Radio- und Fernsehempfänger. Nullung mit separatem Schutzleiter Über einen separaten Schutzleiter (PE-Leiter, grün-gelb markiert), der im Hausanschlusskasten mit dem Null- oder Neutralleiter verbunden ist, wird eine leitende Verbindung zwischen dem Gehäuse des Gerätes und Erde hergestellt, siehe Abb. 11/9. Dadurch kann kein Potenzial zur Erde entstehen. Im Fehlerfall (Isolationsfehler, vollkommener Körperschluss) wird der Fehlerstrom über den niederohmigen Schutzleiter zur Erde abgeleitet. Bei Erreichen des Nennstromes der vorgeschalteten Sicherung wird der Stromkreis abgeschaltet. Dies ist die am häufigsten angewendete Schutzmaßnahme. Alle ortsveränderlichen bzw. über Steckverbindungen anzuschließenden Geräte werden mit dieser Schutzmaßnahme ausgestattet, es sei denn, sie sind schutzisoliert. Das Wichtigste an dieser Schutzmaßnahme ist der jederzeit vorschriftsmäßige Anschluss des Schutzleiters am Gerät und am Stecker sowie eine richtig installierte Schutzkontaktsteckdose. Es muss besonders beachtet und in regelmäßigen Abständen überprüft werden, ob –– der Schutzleiter (PE) immer richtig an Stecker, Kupplung und Gehäuse des Verbrauchers angeschlossen ist, –– die Schutzkontakte an Steckdose, Stecker und Kupplung immer einen guten Kontakt zueinander haben und nicht z. B. durch Farbe oder Schmutz, einen Übergangswiderstand aufweisen,

774 

 11 Arbeitssicherheit und Gesundheitsschutz

–– der grün-gelbe Schutzleiter nach einer Auswechslung von Stecker oder Zuleitung immer so angeschlossen ist, dass er im Falle des Herausreißens der Leitung die größte Zugreserve hat und somit als letzter Leiter abreißt. Bei Versagen der Zugentlastung ist somit das Gehäuse des Gerätes auch dann noch über den PE-Leiter geerdet, wenn die stromführenden Leiter schon aus den Anschlussklemmen herausgerissen sind.

Abb. 11/9. Nullung mit separatem Schutzerder.

Schutztrennung

Abb. 11/10. Schutz durch Schutztrennung.

Die Schutztrennung ist die galvanische Trennung des Verbrauchers vom speisenden, geerdeten Netz mit Hilfe eines Trenntransformators. Das Sekundärnetz darf nicht geerdet werden. Mit dieser Maßnahme wird erreicht, dass selbst bei einem fehlerhaften Verbraucher keine Spannung gegen Erde auftreten kann, siehe Abb. 11/10. Bei der Schutztrennung darf jeweils nur ein Verbraucher über einen Trenntrafo betrieben werden. Diese Schutzmaßnahme ist im Zweifelsfall jeder anderen vorzuziehen. Anwendungsbeispiele hierfür sind die Versorgung von elektrischen Musikanlagen über einen Trenntrafo, oder allgemein die Inbetriebnahme von Fremdgeräten, bei denen eine wirksame Schutzmaßnahme nicht sichergestellt ist.

11.2.5 Elektrische Sicherheit 

 775

Schutzerdung Bei der Schutzerdung werden Gehäuse, Gestelle und Eisenkonstruktionen unmittelbar mit Erdern oder geerdeten Teilen verbunden (Abb. 11/11). Dadurch kann nie ein gefährliches Potenzial zwischen leitenden Anlagenteilen und Erde auftreten.

Abb. 11/11. Schutzerdung.

Bei einem Isolationsfehler oder vollkommenem Körperschluss wird der Fehlerstrom zur Erde abgeleitet. Bei Erreichen des Nennstroms der vorgeschalteten Sicherung erfolgt eine Abschaltung des Stromkreises. Anwendungsbeispiele sind fest installierte Großanlagen, Gestellschränke, Motoren etc. Da die Verbindung mit Erde über einen großen Leiterquerschnitt erfolgen muss und sich die Verbindung nur mit Werkzeugen lösen lässt, ist diese Schutzmaßnahme für ortsveränderliche Verbraucher, die über Steckverbindungen angeschlossen werden, nicht anwendbar. Schutz durch Kleinspannung mittels S-ELV oder P-ELV Der Schutz durch Kleinspannung (ELV, Extra Low Voltage) besteht prinzipiell darin, dass die Spannung auf vergleichsweise niedrige Werte begrenzt wird und damit weniger gefährlich ist (s. Abb. 11/12). Die Begriffe SELV und PELV haben ihren Ursprung in den verwendeten englischen Begriffen (S = Safety, P = Protective).

Abb. 11/12. Schutz durch Schutzkleinspannung.

776 

 11 Arbeitssicherheit und Gesundheitsschutz

SELV und PELV-Systeme müssen eine sichere Trennung von allen anderen Stromkreisen, die nicht SELV oder PELV-Stromkreise sind, aufweisen. Auf der Sekundärseite müssen spezielle, unverwechselbare Steckverbindungen verwendet werden. Die Schutzmaßnahmen Schutz durch Kleinspannung mittels SELV oder PELV gelten als besonders sichere Schutzmaßnahmen, die deswegen teilweise in Sonderbestimmungen als einzige Alternative, jedoch mit Einschränkungen, zugelassen sind. Unter normalen Umgebungsbedingungen sind für den Schutz gegen elektrischen Schlag die Schutzmaßnahmen durch Kleinspannung mittels SELV oder PELV immer zulässig.

11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen Vor dem Anschließen eines elektrischen Geräts an das Stromnetz ist durch Sichtprüfung der äußere Zustand zu kontrollieren. Das Gerät darf nicht angeschlossen werden, wenn Teile des Gehäuses fehlen oder beschädigt sind, wenn die Zuleitungen oder Steckverbindung defekt oder ein Fremdkörper oder Feuchtigkeit in das Gerät eingedrungen sind. Bei Anlagen mit Fehlerstromschutzeinrichtungen (RCD Schutzschalter) ist vor Arbeitsbeginn der ordnungsgemäße Zustand der RCD durch Drücken der Prüftaste (T) sicherzustellen. Der Schalter muss auslösen. Andernfalls darf die Anlage nicht in Betrieb genommen werden. Bei Steckdosen in fremden Häusern ist vor der Benutzung mit dafür vorgesehenen Prüfeinrichtungen sicherzustellen, dass der Schutzkontakt wirksam ist. Beim Anschluss von schutzisolierten Geräten ist kein Schutzkontakt erforderlich, eine Überprüfung der Speisesteckdose erübrigt sich. Elektrische Musikanlagen dürfen nur über einen Trenntransformator angeschlossen werden. Geräte, bei denen ein ordnungsgemäßer Zustand nicht mit letzter Sicherheit anzunehmen ist, z. B. Fremdgeräte, Geräte ohne VDE-Zeichen und Geräte mit „unzuverlässigem Äußeren“, dürfen ebenfalls nur über einen Trenntransformator angeschlossen werden. Bei der Verwendung von Trenntransformatoren ist unbedingt zu beachten, dass für jeden Verbraucher ein eigener Trenntrafo verwendet wird. Beim Anschluss von zwei oder mehreren Verbrauchern an den gleichen Trenntransformator wird die Schutzmaßnahme wirkungslos. In ungünstigen Fällen kann zwischen den Gehäusen der beiden Geräte volle Netzspannung liegen. Ein Überbrücken dieses Potenzials durch den Menschen z. B. über die Abschirmung von Mikrofonkabeln und Tonabnehmern der Gitarre kann zu einem tödlichen Stromschlag führen. 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen Ortsveränderliche elektrische Musikanlagen, die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Bei allen Produktionen ist vor dem Herstellen des Stromanschlusses dessen Fehlerfreiheit auf der Einspeiseseite festzustellen. Zu den besonderen Schutzmaßnahmen gehören insbesondere die Schutzkleinspannung, die Schutztrennung, die Schutzisolierung bei trockener Umgebung sowie die Fehlerstromschutzeinrichtungen (RCD) mit einem Nennfehlerstrom ≤ 30m A.

11.2.5 Elektrische Sicherheit 

 777

Allgemeingültige Maßnahmen Elektrische Betriebsmittel von ortsveränderlichen elektrischen Musikanlagen, die den einschlägigen VDE-Bestimmungen entsprechen oder die als solche gekennzeichnet sind, wie z. B. durch VDE- oder GS-Zeichen, und keine äußerlich erkennbaren Mängel aufweisen, können unmittelbar an das Stromnetz angeschlossen werden. Zum brummfreien Betrieb von ortsveränderlichen Musikanlagen, die diesen Anforderungen entsprechen, dürfen deren Gehäuse, Schirmungen oder Bezugsleiter von NF-Signalstromkreisen mit gemeinsamem Bezugspotenzial (Funktionserdung oder Funktions- und Schutzerdung) mittelbar oder unmittelbar verbunden werden. Ist eine VDE-gemäße Ausführung der ortsveränderlichen elektrischen Musikanlage nicht eindeutig feststellbar, so muss jedes netzbetriebene elektrische Betriebsmittel der Anlage über je einen eigenen Trenntrafo an das Netz angeschlossen werden. Rundfunkspezifische Maßnahmen Die in Abb. 11/13 beschriebenen Maßnahmen müssen eingehalten werden, sobald eine Rundfunkanstalt als Betreiber der Produktionsstätte oder als Veranstalter auftritt, aber auch, wenn sie lediglich an der Produktion beteiligt ist. a) Die Rundfunkanstalt ist Betreiber der Produktionsstätte und/oder Veranstalter der Produktion: Der Stromanschluss muss nach den oben genannten allgemeingültigen Maßnahmen erfolgen. Wenn ein Trenntrafo wegen zu hoher Leistungsaufnahme der Musikanlage nicht verwendet werden kann, muss eine Fehlerstrom-Schutzeinrichtung (RCD) mit einem Nennfehlerstrom von ≤ 30 mA benutzt werden. Die Anwendung der RCD-Schutzeinrichtung muss von Elektrofachkräften oder, bei Benutzung geeigneter Prüfgeräte, auch von besonders unterwiesenen und beauftragten Personen vor der Inbetriebnahme auf seine Wirksamkeit überprüft werden. Fremde Teilnehmer an der Produktion haben die von der Rundfunkanstalt galvanisch getrennten NF-Anschlüsse zu übernehmen, die Anschlüsse dürfen nicht geändert werden. b) Die Rundfunkanstalt ist an der Produktion beteiligt, die von Dritten veranstaltet werden: Die Mitarbeiter der Rundfunkanstalten sind verpflichtet, Mikrofone, Übertrager usw. nur über Trennverstärker, z. B. Mikrofontrennverstärker, zu betreiben. Sicherheit auf Bühnen Elektrische Stromunfälle auf Bühnen oder im Studio sind immer die Folge von fehlerhaften Geräten, Installationen oder unzulässigen Arbeitsgewohnheiten. Entspricht die elektrische Hausinstallation den einschlägigen Vorschriften, sind alle angeschlossenen Geräte einwandfrei in Ordnung und werden vorschriftsmäßig zusammengeschaltet, so geht von der Anlage keine Gefahr aus. Da der ordnungsgemäße Zustand aller Anlagenteile vielfach nicht sichergestellt ist, muss der Verantwortliche besondere Vorkehrungen treffen.

778 

 11 Arbeitssicherheit und Gesundheitsschutz

Abb. 11/13. Anschluss ortsveränderlicher elektrischer Musikanlagen.

11.2.5 Elektrische Sicherheit 

 779

Abb. 11/14. Lebensgefährliche Situation bei einer fehlerhaften Musikanlage.

In Abb. 11/14 ist eine typische Situation gezeigt, die für den Musiker und andere Mitwirkende Lebensgefahr bedeuten kann: Der dargestellte Musiker bringt seinen Gitarrenverstärker mit auf die Bühne und benutzt außerdem ein Gesangsmikrofon, das an eine getrennte Gesangsanlage angeschlossen ist. Der Gitarrenverstärker ist bspw. ein Gerät ohne Schutzmaßnahme gegen zu hohe Berührungsspannung oder ist durch eine unsachgemäße Reparatur oder Änderung der vorgesehenen Schutzmaßnahme gegen Stromunfälle wirkungslos geworden. Auf dem Gehäuse des Gitarrenverstärkers liegt nun u. U. das volle Netzpotenzial von 230 V gegen Erde. Über den unsymmetrischen Klinkenanschluss der Gitarre gelangt dieses Potenzial auf den Leitungsschirm und damit auf den Tonabnehmer und das Griffbrett der Gitarre, aber auch auf die Stahlsaiten. Berührt der Musiker nun gleichzeitig eine geerdete Masse oder sind Metallteile des Bühnenbodens an Erdpotenzial gelegt, kann es zu gefährlichen, oft tödlich endenden Stromunfällen kommen. Bedauerlicherweise ist der genannte Fall nicht konstruiert. Dass es in solchen Situationen nicht grundsätzlich zu Unfällen kommt, liegt daran, dass das benutzte Mikrofon nicht immer geerdet ist und der Bühnenboden oder das Holzpodest keine Verbindung zur Erde besitzt. Dies kann sich aber leicht ändern, wenn z. B. über ein geerdetes Scheinwerferstativ metallische Bühnenteile auf Erdpotenzial gelegt werden. Um in dem skizzierten Beispiel und ähnlichen Situationen eine Gefahr auszuschließen, muss ein geschlossener Stromkreis von 230 V auf Erdpotenzial unterbrochen werden. Dies ist durch die Schutztrennung mit einem Netz-Trenntransformator, in dem Beispiel also zwischen Gitarrenverstärker und seinem Netzanschluss, zu erreichen. Zusätzliche Sicherheit bieten Trennübertrager, sog. DI-Boxen, die zwischen Mikrofon und Tonregie die Verbindung zum Erdpotenzial unterbrechen; sie bieten zusätzlich die Anpassung der Leitungsführung sowie des Pegels und Verzweigungsmöglichkeiten.

780 

 11 Arbeitssicherheit und Gesundheitsschutz

11.2.7 Verhalten bei Stromunfällen Hier kommen sowohl Hochspannungsunfälle als auch z. B. Unfälle durch schadhafte elektrische Geräte in Frage. Tab. 11/5. Verhalten bei Stromunfällen Folgende Anzeichen lassen auf einen Stromunfall schließen:

Maßnahmen

Muskelverkrampfungen: Solange der Strom wirkt, verkrampfen sich die Muskeln des Betroffenen. Er kann dadurch unter Umständen die Stromleitung nicht mehr loslassen. Strommarken: An den Stellen, an denen der Strom in den Körper eingetreten bzw. aus dem Körper ausgetreten ist, entstehen sog. Strommarken. Verbrennungen mit Brandwunden. Bewusstlosigkeit: Es kann zu Bewusstlosigkeit, Atemstillstand und Herzflimmern kommen.

Eigensicherung beachten! Zuallererst den Stromfluss unterbrechen Bei 220/240 Volt Wechselstrom bzw. 380/400 Volt Drehstrom dazu den Stecker ziehen oder die Sicherung bzw. den Hauptschalter betätigen. Nur wenn dies nicht möglich ist, muss versucht werden, den Betroffenen mit Hilfe nichtleitender Gegenstände wie trockene (!) Kleidungsstücke, Decken oder Holzgegenständen von der Stromquelle zu trennen. Dabei muss der Helfer – insbesondere in feuchten Räumen – darauf achten, dass er selbst auf einer isolierenden Unterlage steht und keine anderen Gegenstände berührt.

Bei Hochspannungsunfällen kann der Ersthelfer nur den Notruf veranlassen, da der Strom über mehrere Meter überspringen kann (Sicherheitsabstand von 5 m für Helfer erforderlich). Hier kann ausschließlich Fachpersonal den Betroffenen aus dem Gefahrenbereich retten. Erst danach ist weitere Hilfe möglich.

Versorgung des Betroffenen: Bewusstsein kontrollieren:

Notruf:

Die typischen Anzeichen für einen Verlust des Bewusstseins sind: Der Betroffene reagiert nicht, wenn er angesprochen wird, auch nicht bei lautem Ansprechen. Er reagiert auch nicht auf körperliche Berührung, z. B. Anfassen an der Schulter oder am Arm (den Betroffenen nicht durchschütteln!). Bei tiefer Bewusstlosigkeit sind die Muskeln völlig schlaff. Der Notruf ist möglichst schnell durchzuführen, am besten durch einen Helfer, der nicht mit lebensrettenden Maßnahmen beschäftigt ist. Der Ersthelfer kann z. B. eine weitere Person ansprechen. Notfallopfer sollten während des Notrufs möglichst nicht allein gelassen werden. Bundesweit einheitliche Notrufnummer: 112 (Notrufzentrale / Rettungsleitstelle).

Standards 

 781

Die folgenden fünf W-Fragen sind beim Notruf möglichst genau zu beantworten:

Angaben beim Notruf

Wo?

Der Ort des Notfalls sollte möglichst genau beschrieben werden (Ort, Straße, Hausnummer, Stockwerk oder Kilometer an der Autobahn), damit die Rettungskräfte nicht lange suchen müssen. Die Notfallsituation sollte kurz beschrieben werden (Verkehrsunfall, Brand, Stromunfall, Erkrankung), damit die Leitstelle weiß, welche Maßnahmen sie ergreifen soll. Damit die Leitstelle genügend Fahrzeuge und Personal einsetzt. Gibt es lebensbedrohliche Zustände (Herz-Kreislauf-Stillstand, Atemstillstand, Bewusstlosigkeit, starke Blutung, Verbrennung, Vergiftung, elektrischer Strom), damit gegebenenfalls z. B. Hubschrauber oder Notarzt eingesetzt werden. Grundsätzlich gilt: Der Notruf ist erst dann beendet, wenn die Leitstelle keine Fragen mehr hat, nicht selbst vorher auflegen! Die Leitstelle fragt unter Umständen z. B. nach dem Namen des Anrufers. Ruhelage herstellen. Bewusstlosigkeit mit normaler Atmung: Stabile Seitenlage, Bewusstsein und Atmung überwachen. Bewusstlosigkeit ohne normale Atmung: Herz-Lungen-Wiederbelebung (30 x Herzdruckmassage, 2 x Beatmung). Wenn AED vorhanden, AED anlegen und dessen Anweisungen folgen. Ununterbrochen fortfahren bis Atmung und Puls wieder einsetzen oder der Rettungsdienst den Patienten übernimmt. Eventuelle Brandwunden versorgen.

Was ist geschehen? Wie viele Betroffene? Welche Art von Verletzungen?

Weitere Fragen? Versorgung des Betroffenen je nach Zustand.

Standards [89/391/EWG] [2003/10/EG] [DGUV Information 215-310] [DGUV Information 215-313] [DGUV Information 215-315] [DGUV Information 203-036] [DGUV Information 209-023] [DGUV Vorschrift 1]

Durchführung von Maßnahmen zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Arbeitnehmer bei der Arbeit, 1989. Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen (Lärm). Sicherheit bei Veranstaltungen und Produktionen Leitfaden für Theater, Film, Hörfunk, Fernsehen, Konzerte, Shows, Events, Messen und Ausstellungen; Juni 2016 Lasten über Personen Sicherheit bei Veranstaltungen und Produktionen von Fernsehen, Hörfunk, Film, Theater, Messen, Veranstaltungen; Juli 2020, [VBG-Fachwissen - Sicherheit bei Veranstaltungen und Produktionen – Scheinwerfer] Sicherheit bei Veranstaltungen und Produktionen – Scheinwerfer Fernsehen, Hörfunk, Film, Theater, Veranstaltungen; Februar 2020 Sicherheit bei Veranstaltungen und Produktionen Besondere szenische Darstellungen; Februar 2015. Laser-Einrichtungen für Show- und Projektionsanwendungen; Januar 2021 [VBG-Fachwissen – Kamerabewegungssysteme] Kamerabewegungssysteme Fachinformation der BG ETEM und der VBG; März 2018 Lärm am Arbeitsplatz. Unfallverhütungsvorschrift, Grundlagen der Prävention.

782 

 11 Arbeitssicherheit und Gesundheitsschutz

[DGUV Vorschrift 17/18] [DGUV Regel 100-001] [DGUV Vorschrift 3/4] [DGUV Grundsatz 315-390] [DIN 15905-5] [DIN EN 352-2] [DIN EN 361] [DIN EN 60942] [DIN EN 61558-2-4] [DIN EN 61672-1] [DIN VDE 0100] [DIN VDE 0100-717] [DIN VDE 0100-410: 2018-10 [DIN VDE 0661]

Unfallverhütungsvorschrift, Veranstaltungs- und Produktionsstätten. BG-Regel, Grundsätze der Prävention Unfallverhütungsvorschrift, Elektrische Anlagen und Betriebsmittel. Prüfung von sicherheitstechnischen und maschinentechnischen Einrichtungen in Veranstaltungs- und Produktionsstätten für szenische Darstellung. Tontechnik in Theatern und Merzweckhallen, Teil 5, Maßnahmen zum Vermeiden einer Gehörgefährdung des Publikums durch hohe Schallemissionen elektroakustischer Beschallungstechnik. Gehörschützer, Allgemeine Anforderungen - Teil 2: Gehörschutzstöpsel. Persönliche Schutzausrüstung gegen Absturz – Auffanggurte. Elektroakustik, Schallkalibratoren. Sicherheit von Transformatoren, Drosseln, Netzgeräten und dergleichen für Versorgungsspannungen bis 1 100 V Elektroakustik, Schallpegelmesser, Teil 1, Anforderungen. Bestimmungen für das Errichten von Starkstromanlagen mit Nennspannungen bis 1000 V. Errichten von Niederspannungsanlagen, Anforderungen für Betriebsstätten, Räume und Anlagen besonderer Art – Elektrische Anlagen auf Fahrzeugen oder in transportablen Baueinheiten. Errichten von Niederspannungsanlagen - Teil 4-41: Schutzmaßnahmen - Schutz gegen elektrischen Schlag Ortsveränderliche Schutzeinrichtungen zur Schutzpegelerhöhung für Nennwechselspannung Un= 230 V, Nennstrom In= 16 A, Nenndifferenzstrom IΔn ≤30 mA (Personenschutzschalter)

[UVR von ARD/ZDF] ARD/ZDF Richtlinien für Arbeitssicherheit und Gesundheitsschutz [VPLT-Standards] Zur Veranstaltungstechnik; Herausgeber: Der Verband für Medien- und Veranstaltungstechnik e.V..; in Zusammenarbeit mit VBG Verwaltungsberufsgenossenschaft.

Literatur [2003/10/EG] [78. GMK, 2005] [§ 2 DGUV Vorschrift 1] [§ 3 ArbSchG] [§ 15 ArbSchG] [§ 226 StGB] [§ 229 StGB] [ArbSchG, 1996] [BAuA]

Amtsblatt der Europäischen Union, LE 42/38, vom 15.02.2003; „Physikalische Agenzien, Lärm“ des Europäischen Parlaments und des Rates vom 6. Februar 2003 über Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen. Beschluss der 78. Gesundheitsministerkonferenz der Länder vom 1.7.2005, TOP 7.1 „Maßnahmen zur Verhinderung von Gehörschäden durch Musikveranstaltungen einschließlich Diskothekenlärm“. Unfallverhütungsvorschrift, Grundsätze der Prävention 2013, § 2. Arbeitsschutzgesetz vom August 1996, § 3, Stand Juli 2004, Arbeitsschutzgesetz vom August 1996, Pflichten der Beschäftigten, 2004, § 15. Strafgesetzbuch, StGB § 226, Schwere Körperverletzung, 1998. Strafgesetzbuch, StGB § 229, Fahrlässige Körperverletzung, 1998. Gesetz über die Durchführung von Maßnahmen des Arbeitsschutzes zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Beschäftigten bei der Arbeit, 1996. Handbuch Gefährdungsbeurteilung (1. Auflage). Dortmund: Bundesanstalt für Arbeitsschutz und Arbeitsmedizin

Literatur 

 783

[BGV B3] Berufsgenossenschaftliche Vorschrift B3 „Lärm“ vom 01.10. 1990 mit Durchführungsanweisung vom Juli 1999. [Hoffmann, 2008] Hoffmann, E., Hochschule Aalen, Studiengang Augenoptik und Hörakustik, limes-mai 2008, Seite 30, 2008. [MVStättV] Musterversammlungsstättenverordnung, §38. [Schmuziger, 2005] Schmuziger, N. et al, Studie des Bundesarbeitsgerichts zu „Hörschäden in der Freizeit durch elektroakustisch verstärkte Musik“, 2005, Basel. [SGB VII] Siebtes Buch Sozialgesetzbuch, Gesetzliche Unfallversicherung, 1996, § 15. [Strahl, 2000] Strahl, H. M., 4. Europäischer Kongress für Hals-Nasen-Ohren-Heilkunde in Berlin, 13.05.2000.

12 Grundlagen der digitalen Tontechnik

Bernhard Feiten (12.5 bis 12.6), Götz Romahn (12.1 bis 12.4)

Frühe Versuche zur digitalen Speicherung von Tonsignalen fanden bereits in den 70er Jahren des vergangenen Jahrhunderts statt. Die Entwicklung der Audio Compact Disc  (CD) durch Philips und Sony im Jahre 1982 und die erfolgreiche Einführung dieses neuen Mediums in den Consumer-Markt beschleunigten die Anwendung digitaler Speicher- und Signalverarbeitungstechniken nun auch im professionellen Tonstudiobereich. Noch nicht ausreichend gefestigtes Wissen um die theoretischen Zusammenhänge, fehlende praktische Erfahrung, die relativ hohen Investitionskosten und nicht immer ausgereifte Geräte mögen anfangs die Ursache gewesen sein für vereinzelt anzutreffende Skepsis der analog geprägten Fachwelt gegenüber der innovativen digitalen Studio-Technologie – eine Situation, die mitunter in klangästhetische Diskussionen führte und dort auch endete. Aus der anfänglichen Konfrontation „analog gegen digital“ wurde bald ein „analog und digital“. Inzwischen sind die Entscheidungen gefallen; Produktionsstudios und Rundfunksysteme (auch des Fernsehens) leben heute – immer weniger mit Schnittstellen zur analogen Umgebung – in einer volldigitalen Welt. Ein großer Vorteil der digitalen Tonstudiotechnik, nämlich ihr kalkulierbares Verhalten auch im Fehlerfall und das prinzipiell gegebene hohe akustische Qualitätsniveau bei Produktion, Speicherung und Vervielfältigung führten zunächst im anspruchsvollen E-Musikbereich, später auch im Bereich der Populärmusik und der Wortproduktion, zu einem überaus raschen Erfolg. Die bei der Entwicklung und Nutzung digitaler Verarbeitungsprozesse anfallenden Kenntnisse, Erfahrungen (und auch Probleme) wurden etwa ab 1975 systematisch in grundlegenden praxisorientierten Aufsätzen und vertiefender theoretischer Literatur niedergeschrieben (s. auch Anhang zum vorliegenden Kap. 12).

12.1 Einführung Mit wachsenden Ansprüchen und Erfahrungen der Anwender offenbarten sich die Eigenschaften der eingangs- und ausgangsseitigen Wandler als wesentliche, die Audioqualität bestimmende Faktoren und als mögliche Schwachstellen im digitalen Tonstudio. Diese Schlüsselkomponenten dienen der Umsetzung der zunächst analog vorliegenden Signale in die digitale (d. h. in eine zeit- und wertdiskrete) Form (A/D-Wandlung). Nach Durchlaufen der digitalen Bearbeitungskette bewirken sie die erneute Rückführung (D/A-Wandlung) in die analoge Signalumgebung (Abb. 12/1). Die digitalen Signale liegen in der Regel als eine das analoge Signal abbildende Folge von Zahlen bzw. Codeworten vor. Werden die einzelnen Werte dieser Folge äquidistant (in gleichmäßigen zeitlichen Abständen) erzeugt, heißt dieses Verfahren Puls-Code-Modulation (PCM). Die digitalen PCM-Signale sind verlustfrei speicherbar, können über Kanäle der Datentechnik transportiert werden und lassen sich im Studio mit dedizierten Recheneinheiten (sog. Signalprozessoren) unter Anwendung elementarer algebraisch-logischer Operationen

https://doi.org/10.1515/9783110759921-012

786 

 12 Grundlagen der digitalen Tontechnik

formen und nachbearbeiten. Durch entsprechenden mathematischen Aufwand lässt sich hierbei die Rechengenauigkeit, zumindest in der Theorie, beliebig groß halten.

Abb. 12/1. Struktur eines digitalen Audiosystems.

Grundsätzlich unvermeidlich ist der im Verlauf einer Analog/Digital-(A/D)-Wandlung auftretende Quantisierungsfehler, der seine Ursache in der systembedingt endlichen Größe des Zahlenvorrats bei der wertdiskreten Darstellung von Signalen hat. Andere mögliche Fehlerquellen, wie z. B. durch physikalische Eigenschaften von Halbleiterbauelementen bedingte Linearitätsfehler, sind nach dem aktuellen Stand der Technik durch geeignete Wandlerkonstruktionen in ihrer Auswirkung klein zu halten. Die Quantisierung eines analogen Signals führt demnach prinzipiell immer zu einem Abbildungsfehler, der jedoch für Anwendungen in der digitalen Tontechnik durch Bereitstellung eines großen Wertebereichs in der digitalen Ebene hinreichend beherrschbar wird. Die Breite des Datenworts bzw. die Stellenzahl des Codeworts am Ausgang eines A/D-Wandlers bestimmen folglich den nutzbaren Wertebereich. Üblich sind in der Tonstudiotechnik Wortbreiten von mindestens 16 Bit (binary digit) für einen Wertebereich von ca. –32000 bis +32000 Stufen. Wortbreiten von z. B. 24 Bit bieten durch die höhere Stufenzahl eine 256-fach höhere Auflösung. Das kleinste auflösbare Signal entspricht der Größe einer einzelnen Quantisierungsstufe, wobei hierbei von einer konstanten Quantisierungsstufengröße ausgegangen wird (gleichförmige oder lineare Quantisierung). Systeme für reine Übertragungsaufgaben arbeiten häufig aber auch mit nichtlinearer, an die Signalamplitude angepasster Quantisierung zur Erzielung besserer Quantisierungsgeräuschabstände (s. Kap. 13.2.2.2). Die Abtastung des kontinuierlichen analogen Signals zu regelmäßigen Zeitpunkten (zeitdiskrete Wandlung) führt nur dann nicht zu einem Fehler, wenn das Abtasttheorem (auch als Nyquist- oder Shannon-Theorem bezeichnet) eingehalten wird. Dieses Abtastkriterium besagt, dass die Abtasthäufigkeit, also der Kehrwert des Abstands zwischen zwei Abtastzeitpunkten, mehr als doppelt so groß sein muss wie die höchste darzustellende Signalfrequenz. Die zweite Schlüsselgröße eines digitalen Audiosystems ist daher die höchste in einem analogen Audiosignal vorkommende Signalfrequenz und die entsprechend dem Abtasttheorem erforderliche Abtastrate. In der digitalen Tonstudiotechnik sind 32⋅103, 44,1⋅103, 48⋅103 oder 96⋅103 Abtastungen pro Sekunde üblich bzw. standardisiert. Diese Abtastraten werden in der Praxis auch als Abtastfrequenz bezeichnet und dann als Vielfaches von 103 in „kHz“ (Kilohertz) angegeben. Somit lassen sich z. B. Audiosignale mit einer oberen Grenzfrequenz von weniger als 24 kHz mit der Abtastfrequenz 48 kHz fehlerfrei übertragen und rekonstruieren. Wird das Abtastkriterium nicht eingehalten, treten bei Tonsignalen systematisch nicht mehr korrigierbare Fehler auf. Diese Fehler werden als Aliasfehler, Aliasverzerrungen oder

12.2 Signale 

 787

auch als Spiegelungsfehler (Mirroring) bezeichnet. Um die Entstehung von Aliasfehlern zuverlässig zu verhindern, muss die Bandbreite des Eingangssignals daher mit Hilfe eines geeigneten Tiefpassfilters entsprechend dem Abtast-Theorem begrenzt werden. Gleichermaßen muss auch das von einem D/A-Wandler rückgewandelte Signal für eine originalgetreue Rekonstruktion über ein Tiefpassfilter geführt werden. Da häufig beide Filter in analoger Schaltungstechnik ausgeführt sind, können sie in einem digitalen Übertragungssystem die Qualität des Wandlungsprozesses wesentlich mitbestimmen und stellen durch den bei hohen Ansprüchen zu treibenden schaltungstechnischen Aufwand einen erheblichen Kostenfaktor dar, wenn nicht geeignete alternative Wege zum Beispiel durch „Überabtastung“ beschritten werden (s. Kap. 12.2.2.1). Einige wesentliche Vorteile der digitalen Tontechnik gegenüber der herkömmlichen analogen Tontechnik sind: –– Neben der für die Tonstudiotechnik wichtigen exakten Reproduzierbarkeit der Signale selbst gilt diese Reproduzierbarkeit auch für die in den digitalen Tonsystemen verwendeten Signalverarbeitungskomponenten (Hardware, Firmware, Software). –– Alle Systeme mit gleichen Komponenten haben grundsätzlich auch exakt gleiche Eigenschaften. Daher sind Langzeitstabilität, der Fortfall von Abgleichmaßnahmen und allgemein die erzielbare hohe Zuverlässigkeit wesentliche Merkmale der digitalen Signalverarbeitungstechnik. –– Durch konsequente Anwendung der systemtheoretischen Grundlagen der elektrischen Nachrichtentechnik lassen sich in digitalen Systemen Funktionen realisieren, die in herkömmlicher analoger Technik nicht oder nur sehr aufwändig möglich gewesen wären. Genannt seien hier z. B. Filter mit linearem Phasengang, Echokompensatoren (Adaptive Filter), Einrichtungen zur Datenmengenreduktion und zur Signalsynthese, aber auch die Verbindung von akustischen Informationen mit anderen Informationsarten in multimedialen Systemen. –– Die digitale Technik hat eine weltweite Verbreitung von akustischem Datenmaterial und damit beispielsweise den außerordentlich einfachen Zugriff auf Musiktitel durch das Quellencodierverfahren MP3 (bzw. mp3) ermöglicht.

12.2 Signale Die folgenden Betrachtungen beziehen sich auf Signale als Träger des eigentlichen Audiomaterials und der mit diesen verknüpften Steuerungs- und Kontrollinformationen („Essenzdaten“, s. hierzu auch Kap. 14.3).

12.2.1 Kontinuierliche Signale Kontinuierliche Signale können innerhalb ihrer aus physikalisch-technischen Gründen vorgegebenen Grenzen jeden beliebigen Wert annehmen. Der maximal zulässige Amplitudenwert eines solchen kontinuierlichen Signals ist durch den Begriff der sog. Vollaussteuerung bestimmt; in der Tonstudiotechnik ist das häufig der Wert eines sinusförmigen Signals mit

788 

 12 Grundlagen der digitalen Tontechnik

dem Effektivwert von 1,55  Veff (+  6  dBm) bzw. einer Amplitude von ±  2,2  V. Die Nutzbarkeit kleinster Spannungswerte (ca. 0 Veff ) wird in der Praxis durch physikalisch bedingte Störsignale, z. B. das thermische Rauschen von Widerständen, eingeschränkt. Grundsätzlich sind die hier betrachteten Signale zu jedem beliebigen Punkt auf der Zeitachse definierbar. Man spricht daher von wert- und zeitkontinuierlichen Signalen. 12.2.1.1 Signaldarstellung Kontinuierliche Signale können allgemein als Funktion der Zeit x = f (t) dargestellt werden. Handelt es sich um Tonsignale, ist es üblich, diese durch ihre Frequenz oder ihre Frequenzkomponenten und deren Scheitelwerte zu beschreiben. Daher ist z. B. ein einzelner Sinuston durch die Formel x = a ⋅ sin (2πft) bestimmt. Aus dieser Darstellung sind dann sowohl der zeitliche Verlauf wie auch die Frequenz des Signals entnehmbar. Je nach Anwendung kann eine Darstellung im Zeitbereich oder im Frequenzbereich (als Spektrum) zweckmäßig sein (Abb. 12/2).

Abb. 12/2. Der Sinuston im Zeit- und im Frequenzbereich.

Das Frequenzspektrum eines im Zeitbereich periodischen Tonsignals wird durch Zerlegung in Einzelkomponenten mit Hilfe der nach dem französischen Mathematiker Jean B. J. Fourier benannten Reihenentwicklung gebildet. Diese Fourier-Reihe ist die Summe (Linearkombination) aller im periodischen Tonsignal vorkommenden Sinus- und Cosinusschwingungen. Wegen der festen Winkelbeziehung zwischen Sinus- und Cosinuskomponenten gleicher Frequenz lassen sich diese zusammenfassen, und es ergibt sich somit die folgende vereinfachte analytische Form:

Die einzelnen Teilschwingungen mit der Amplitude An werden harmonische Komponenten oder kurz „Harmonische“ genannt. Die erste Harmonische mit der Amplitude A1 hat die Frequenz f0 und heißt Grundschwingung oder Grundton. Die weiteren Harmonischen sind die „Oberschwingungen“ oder „Obertöne“. Der Term A0 beschreibt die Verschiebung des Signals aus der Amplituden-Nulllinie und charakterisiert somit den Gleichanteil des Signals (DCOffset) mit der Frequenz 0 Hz. Abb.  12/3 zeigt ein periodisches sägezahnförmiges Signal mit einigen Harmonischen dieses Signals im Zeitbereich und in Frequenzdarstellung.

12.2 Signale 

 789

Abb. 12/3. Periodisches Signal und harmonische Komponenten.

Die Zerlegung in eine Fourier-Summe gilt nur für periodische Signale. Aber auch für nicht periodische (aperiodische) Signale lässt sich eine Darstellung im Frequenzbereich angeben. Diese sog. Fourier-Transformation ist wie folgt definiert: Hier wird die Summenbildung über die einzelnen separaten Teiltöne der Fourier-Reihe durch das Integral über unendlich dicht beieinander liegende Frequenzkomponenten ersetzt. Ergebnis der Fourier-Transformation ist das Fourier-Spektrum, welches üblicherweise in Kurzform als „Spektrum“ bezeichnet wird. Das Fourier-Spektrum besteht aus einem Sinusund einem Cosinusspektrum, ähnlich wie schon bei der Fourier-Reihe. Diese Sinus- und Cosinuskomponenten lassen sich in dem Term e-2πft (Eulersche Formel) zusammenfassen. Das Fourier-Spektrum besitzt rechnerisch die Dimension Amplitude mal Zeit bzw. Amplitude pro Frequenz und wird daher auch „Amplitudendichtespektrum“ genannt. Um einen Informationsverlust zu vermeiden, kann zusätzlich zum Amplitudendichtespektrum noch das sog. Phasenspektrum berechnet werden, bei dem der Nullphasenwinkel der Teilschwingungen über der Frequenz aufgetragen wird. In der Tonstudiotechnik ist neben dem Amplitudendichtespektrum auch die Darstellung der auf die jeweiligen Frequenzen entfallenden Leistung in einem Leistungsdichtespektrum von Interesse. Dieses lässt sich aus dem Amplituden- und Phasenspektrum berechnen. In Analogie zur Bildung des Sinus- und Cosinusspektrums (bzw. des Amplituden- und Phasenspektrums) kann mit Hilfe der informationserhaltenden inversen Fourier-Transformation die zugehörige Zeitfunktion wie folgt rückgerechnet werden: Die Zeitfunktion x(t) und die Spektralfunktion X(f) bilden somit ein Transformationspaar, wobei X(f) die Fouriertransformierte von x(t) und x(t) die Invers-Fouriertransformierte von X(f) genannt wird. Darstellungen von Signalen im Zeitbereich oder im Frequenzbereich sind unter den beschriebenen Voraussetzungen somit gleichwertig und können – der jeweiligen Signalverarbeitungsaufgabe angepasst – beliebig gewählt werden. Diese Erkenntnis bildet die Basis vieler aktueller Quellencodierverfahren (s. Kap. 13). Ein extrem kurzer Rechteckimpuls hoher Amplitude wird nach dem englischen Physiker Paul Dirac „Dirac-Impuls“ genannt. Abb. 12/4 zeigt, dass dieser kurze Impuls im Spektrum

790 

 12 Grundlagen der digitalen Tontechnik

einen sehr weiten Frequenzbereich abdeckt. Ein derartiges Spektrum, das gleichmäßig auf alle Frequenzen verteilt ist, wird in Analogie zu einem Begriff aus der Lichtoptik auch als „weißes Spektrum“ bezeichnet. Umgekehrt erzeugt ein gleichförmig andauerndes Signal (z. B. eine Gleichspannung oder ein einzelner Sinuston) eine einzelne Linie im Spektralbereich.

Abb. 12/4. Der Dirac-Impuls im Zeitund Frequenzbereich.

Die Systemtheorie verlangt die (mathematisch dann exakte) Darstellung von Spektren auch auf der negativen Frequenzachse. Hierauf wird in den Abbildungen dieses Kapitels zugunsten einer besseren Anschaulichkeit verzichtet. Für die studiotechnische Praxis lässt sich aus den genannten Zusammenhängen folgende Regel ableiten: Im Zeitbereich anhaltende Töne erzeugen im Frequenzbereich ein Linienspektrum. Umgekehrt ergeben kurzzeitige, impulsförmige Signale ein kontinuierliches Spektrum mit großer Bandbreite. Ein Schaltknack (Click) als Fehler bei der Tonaufnahme deckt demnach wegen seiner kurzen Dauer einen weiten Frequenzbereich ab und kann daher nicht ohne weiteres mit einfacher spektraler Filterung beseitigt werden. Anders verhält es sich z. B. bei einer permanenten Brummstörung, welche sich mit Hilfe schmalbandiger Sperr-Filter (Notchfilter) einfach beseitigen lässt. Bei der Analog/Digital-Wandlung wird zur Abtastung des analogen Signals eine periodische Folge von modifizerten Dirac-Impulsen mit dem konstanten Amplitudenwert „Eins“, der sog. Einheitspuls (unipulse) oder auch Dirac-Puls, verwendet. Seinen Verlauf im Zeitund im Frequenzbereich zeigt Abb. 12/5. Es fällt auf, dass Zeit- und Spektralfunktion einen gleichartigen Verlauf haben. Dieser Verlauf wird wegen seiner Ähnlichkeit mit einem Buchstaben aus dem kyrillischen Alphabet (Ш) auch „Schah-Funktion“ genannt.

Abb. 12/5. Impulsfolge (Dirac-Puls) im Zeitund Frequenzbereich.

12.2.1.2 Signalverarbeitung Die Pegelanhebung durch einen Verstärker oder die Summierung mehrerer Signale in einem Mischpult sind als Multiplikations- bzw. Additionsvorgänge im Zeitbereich zu verstehen. Die Klangveränderung durch ein Filter ist jedoch eine Form der Signalverarbeitung, die sich anschaulicher im Frequenzbereich beschreiben lässt.

12.2 Signale 

 791

Die Filterung eines Tonsignals bedeutet die Multiplikation des Spektrums des Signals mit der Übertragungsfunktion des Filters. Eine derartige Multiplikation im Frequenzbereich kann im Zeitbereich durch die mathematische Operation der Faltung (convolution) ersetzt werden. Entsprechend kann eine Multiplikation im Zeitbereich als Faltung im Frequenzbereich aufgefasst werden. Auch bei der Verarbeitung von Signalen sind demnach die Darstellungen im Zeit- oder Frequenzbereich grundsätzlich gleichberechtigt und werden der jeweils vorliegenden Problemstellung entsprechend gewählt. In der analogen Signalverarbeitungstechnik werden in der Regel dem jeweiligen Bearbeitungsschritt angepasste elektronische Schaltungen eingesetzt. Aus diesem Grund ist die funktionale Anpassung eines analogen Systems an veränderte Aufgabenstellungen nur mit erheblichem Aufwand möglich. Bei digitaler Signalverarbeitung kommen hingegen programmierbare Recheneinheiten oder dedizierte Signalprozessoren zum Einsatz, die eine einfache Modifikation der Signalverarbeitungsprozesse durch Austausch der Software ohne Änderungen der Hardware gestatten. In hochentwickelten digitalen Tonbearbeitungssystemen kann dies sogar während des aktuellen Produktionsprozesses geschehen.

12.2.2 Diskrete Signale Um ein kontinuierliches analoges Signal durch numerische Rechenprozesse weiterverarbeiten zu können, muss das Signal in Form einer Folge regelmäßig aufeinander folgender, durch Probenentnahme gewonnener und in Zahlenwerte umgewandelter Abtastwerte vorliegen; jeder Abtastwert ist ein digitales „Sample“ des Signals. 12.2.2.1 Abtastung Die Abtastung entspricht mathematisch betrachtet der Multiplikation des zeitkontinuierlichen Analogsignals mit der Abtastfunktion (siehe Dirac-Puls). Die Abtastfunktion besitzt nur zu definierten regelmäßigen (äquidistanten) Zeitpunkten den Wert „1“, zu allen anderen Zeiten den Wert „0“. Das Intervall zwischen den Abtastzeitpunkten wird als Abtastperiode mit der Dauer Ts bezeichnet. Dementsprechend ist der Kehrwert der Abtastperiode die Abtastfrequenz fs (sampling frequency, sampling rate). Durch die Abtastung ergibt sich ein zeitdiskretes Abbild des ursprünglich kontinuierlichen Signals (Abb. 12/6).

Abb. 12/6. Erzeugung einer zeitdiskreten Funktion durch Abtastung.

Da das Spektrum der Abtastfunktion aus einzelnen Linien mit den Frequenzen fs und einer (theoretisch) unendlichen Fortsetzung mit ganzzahlig Vielfachen von fs besteht, ergibt sich

792 

 12 Grundlagen der digitalen Tontechnik

eine bildhafte Anordnung mit Wiederholungen des ursprünglichen Spektrums und seiner Spiegelungen entsprechend Abb. 12/7. Um für die akustische Wiedergabe das originale Tonsignal aus einem zeitdiskreten Signal rekonstruieren zu können, muss das unendliche Spektrum des zeitdiskreten Signals durch ein Tiefpassfilter mit der Grenzfrequenz 0,5  fs beschnitten werden. Ein solches Filter wird als Rekonstruktionsfilter bezeichnet und trennt das Spektrum des erwünschten Basisbands (base band) von den unerwünschten Seitenbändern (side lobes). Diese Filterung liefert als Ergebnis das Spektrum des Ursprungssignals und damit nach Rücktransformation auch dessen kontinuierliche Zeitfunktion (Abb. 12/8).

Abb. 12/7. Basisband und Abtastspektrum.

Abb. 12/8. Rekonstruktion des Basisbands durch Tiefpassfilterung.

Abtasttheorem Es wird ersichtlich, dass das Spektrum des Originalsignals sich nicht mit seiner um fs verschobenen gespiegelten Kopie überlappen darf, da eine Trennung durch Tiefpassfilterung dann nicht mehr möglich sein würde (Abb. 12/9). Derartige überlappend in das Basisband hineinfallenden Spektralanteile werden als Aliaskomponenten bezeichnet. Der durch den Aliaseffekt entstehende Signalfehler wird Aliasverzerrung genannt, der Vorgang trägt im Englischen die Bezeichnung „Aliasing“ (lat. alias: „unter falschem Namen auftretend“). Wegen der nicht-harmonischen Struktur der Aliasverzerrungen klingen diese besonders unangenehm. Um Aliasverzerrungen sicher zu verhindern, muss als Kriterium hierfür die nachfolgende Forderung unbedingt eingehalten werden:

12.2 Signale 

 793

Das Originalsignal kann nur dann fehlerfrei aus einem abgetasteten Signal rekonstruiert werden, wenn die Abtastfrequenz größer als die doppelte höchste vorkommende Frequenz fmax des Nutzsignals ist. Es gilt daher fs > 2 fmax.

Abb. 12/9. Aliasfehler durch Unterabtastung.

Diese Aussage formulierte der Informatiker Claude Shannon im Jahre 1948 in dem nach ihm benannten „Abtasttheorem“. Shannon griff dabei auf Überlegungen zurück, die von Harry Nyquist bereits 1928 angestellt wurden. Die Abtastfrequenz, die der oben genannten Bedingung gerade entspricht, wird daher auch als Nyquist-Frequenz fN bezeichnet. Eine Betrachtung im Zeitbereich zeigt, dass bereits bei einer Tastfrequenz von fs = 2 fmax das Abtasttheorem verletzt wird: Da die Lage der Abtastzeitpunkte in Relation zum abzutastenden Signal rein zufällig ist, kann die Abtastung eines Sinussignals unter der grenzwertigen Bedingung fs  =  2  fmax alle Amplituden zwischen „0“ und dem korrekten Scheitelwert liefern (Abb. 12/10).

Abb. 12/10. Abtastunsicherheit bei fs = 2 fmax .

Unter- und Überabtastung Ist die Abtastfrequenz fs kleiner als 2  fmax, spricht man von „Unterabtastung“. Diese kann dadurch vermieden werden, dass die Abtastfrequenz so gewählt wird, dass sie mit Sicherheit über der doppelten höchsten Signalfrequenz liegt und somit wieder dem Abtastkriterium genügt. Da in der Regel jedoch keine Gewissheit besteht, welche Komponenten das Signal im Hochtonbereich enthält, erfolgt die definierte Beschränkung des Frequenzbereichs auf den Wert fmax  8 kHz) werden mit Hilfe des Transformationscoders hinzugefügt. Prinzipiell kann in diesem Arbeitspunkt der Transformationscoder signalabhängig auch das komplette Signal codieren, um Musiksignale effektiv verarbeiten zu können. Für höhere Bitraten kommt ausschließlich der Transformationscoder CELT zum Einsatz. Tab. 13/12. Typische Opus Bitratenkonfigurationen. Audiobandbreite

Kanäle

Signaltyp

Bitrate [kBit/s]

Codiermodus

4 kHz 8 kHz 20 kHz 20 kHz 20 kHz

Mono Mono Mono Mono Stereo

Sprache Sprache Sprache Musik Musik

8-12 16-20 28-40 48-64 64-128

Nur SILK Nur SILK Hybrid NUR CELT NUR CELT

Wie die meisten transformationsbasierten Codecs verwendet CELT eine MDCT, wobei der Überlappungsbereich, unabhängig von der Blockgröße, 2,5 ms beträgt. Die symmetrischen MDCT Fenster sind somit nur bei einer Blockgröße von 2,5 ms voll besetzt. Bei längeren Transformationen werden die Fenster mit Nullen am Anfang und Ende aufgefüllt. Damit ermöglicht man eine sehr geringe Latenz und eine effiziente Implementierung der Blockumschaltung, allerdings verringern die nicht besetzten Fensterkoeffizienten den Codiergewinn durch die Blocktransformation. Nach der Transformation werden die Spektrallinien in Bänder anhand der Barkskala eingeteilt und deren Bandenergie unabhängig codiert, um so die spektrale Einhüllende zu erhalten. Die Spektrallinien werden mittels der Bandenergie normiert und anschließend durch einen Pyramid Vector Quantisierer entropiecodiert. Die spektrale Einhüllende wird im Decoder zur Rekonstruktion von zu Null quantisierter Bänder verwendet. In diesem Fall wird das Band einfach durch ein anderen MDCT Bereich ersetzt und mit Hilfe der spektralen Einhüllenden die Energie entsprechend angepasst. Des Weiteren kann CELT auf Codierwerkzeuge wie Blockumschaltung, signalabhängige Bitverteilung oder Mitte-Seite-Stereocodierung zurückgreifen.

13.7 Matrix-basierte Surround-Systeme 

 909

13.7 Matrix-basierte Surround-Systeme Matrix-basierte Systeme, wie z. B. Dolby Surround bzw. Prologic [Dressler, 2000], Circle Surround von SRS als Konkurrenzentwicklung zu Dolby, Neural Surround von Neural Audio, oder DTS Neo:6 erlauben den Transport von Multikanalsignalen über Stereokanäle. Die (in der Regel analogen) mehrkanaligen Eingangssignale werden dabei den beiden Übertragungskanälen über eine vorgegebene Matrix zugeordnet und können in dieser Form auch als zwei- oder einkanaliges kompatibles Signal wiedergegeben werden. Für die mehrkanalige Wiedergabe werden sie von einem dazu passenden Decoder wieder extrahiert. Bekannt gewordene Probleme solcher Verfahren sind die evtl. unzureichende Kanaltrennung und ggf. auftretende Auslöschungseffekte. Bei Mono-Wiedergabe kann z. B. das dominante Hörereignis je nach Phasenlage der Ursprungssignale praktisch völlig verschwinden, d. h., die Qualität der Codierung/Decodierung hängt ggf. stark vom jeweiligen Programminhalt ab.

13.7.1 Dolby Surround / Dolby ProLogic Entstanden aus dem ursprünglichen Filmton-Wiedergabesystem Dolby Stereo ist Dolby Surround ProLogic eines der am weitesten verbreiteten matrix-basierten Übertragungssysteme für analoge Surroundsignale, das aus einer 3/1-Eingangssignalkonfiguration (L=Links, R=Rechts, C=Center, S=Surround) durch Matrizierung (lineare Kombination mit vorgegebenen Matrixkoeffizienten) ein zweikanaliges Übertragungssignal Lt, Rt (Left total, Right total) erzeugt, das auch als kompatibles Zweikanal-Stereosignal wiedergegeben werden kann. Im Encoder wird das um 3 dB abgesenkte Centersignal C jeweils beiden Signalen L und R gleichphasig zugemischt. Das S-Signal wird ebenfalls um 3 dB im Pegel reduziert, sowie bandbegrenzt und um 90° phasenverschoben. Dieses modifizierte Surround-Signal wird dann gegenphasig den beiden resultierenden Signalen Lt und Rt zugemischt. Abb. 13/40 zeigt die prinzipielle Struktur eines Dolby Surround Encoders sowie die typischen Matrizierungsgleichungen.

Abb. 13/40. Dolby Surround Encoder.

Im zugehörigen ProLogic Decoder wird aus den beiden übertragenen Signale Lt und Rt wieder eine 3/1-Signalkonfiguration erzeugt. Die ausgangsseitigen Signale L´und R´ entsprechen dabei in der Regel den Signalen Lt und Rt, sind also nicht mehr identisch mit den ursprünglichen Eingangssignalen L und R. Das Surroundsignal S´ wird durch Subtraktion aus den

910 

 13 Audiocodierung

beiden Signale Lt und Rt rückgewonnen, es enthält dadurch auch Komponenten von R und L und wird deshalb sowohl bandbegrenzt (7 kHz) als auch verzögert (10 bis 20 ms). Es kann dann entweder über einen oder auch zwei rückwärtig angeordnete Surround-Lautsprecher wiedergegeben werden, die jeweils gegenphasig mit dem S´-Signal eingespeist werden. Abb. 13/41 zeigt die prinzipielle Struktur eines Dolby ProLogic Decoders.

Abb. 13/41. Dolby ProLogic Decoder.

Die Qualität der wiedergegebenen Signale war in dieser ersten Version nicht immer befriedigend und sehr vom jeweiligen Programminhalt abhängig, weshalb in der Anfangszeit jede wichtige Dolby-Abmischung von autorisierten Betreuern begleitet werden musste, die entsprechende Erfahrungen und „Kochrezepte“ in den Prozess einbrachten. Die begrenzte Qualität der resultierenden Mehrkanalfassung führte zur Weiterentwicklung des Systems in Richtung „intelligenter“, dynamisch gesteuerter Verarbeitungsalgorithmen, woraus in rascher Folge verschiedene Nachfolgesysteme entstanden, wie –– Dolby ProLogic II (erzeugt 5.1-Signale), –– Dolby ProLogic IIx (erzeugt 5.1, 6.1 oder 7.1-Signale). die jeweils in verschiedenen programmabhängigen Modi, wie Movie (Film), Music oder Game (Computerspiele) betrieben werden können. Immerhin ist es der Fa. Dolby gelungen, mit Dolby Surround bzw. Dolby ProLogic und seinen verschiedenen Derivaten einen weltweiten (wenn auch proprietären) Quasi-Standard für das 3/1-Mehrkanalformat zu etablieren, zumindest wurde durch geschicktes und intensives Marketing innerhalb weniger Jahre die Mehrkanalwiedergabe über 4 Kanäle bzw. Lautsprecher nicht nur ins Kino, sondern auch in die Wohnzimmer transportiert, wodurch eine entscheidende Basis für die weitere Verbreitung der Mehrkanalwiedergabe im Heim geschaffen werden konnte. Übrigens wurden in der Anfangszeit der Mehrkanalstereofonie Dolby-Decoder gelegentlich auch zur einfachen Erzeugung pseudo-mehrkanaliger Aufnahmen benutzt (bzw. missbraucht), indem als Eingangssignal Lt/Rt ein normales Zweikanal-Stereosignal eingespeist wurde, um daraus ein 4-kanaliges Ausgangssignal zu generieren - mit oft sehr programmabhängigen und teilweise fragwürdigen Ergebnissen. Obwohl die ProLogic-Familie ursprünglich nur für analoge Audiosignale konzipiert worden war, wird die Signalkombination Lt/Rt unterdessen auch als kompatibles zweikanaliges Stereosignal bei den digitalen Surround-Systemen wie Dolby Digital oder DTS mitgeführt und z. B. auch auf DVD aufgezeichnet. Weitere Details siehe u. a. in [Dressler, 2000].

13.8 Verlustfreie Audiocodierverfahren 

 911

13.8 Verlustfreie Audiocodierverfahren 13.8.1 Übersicht Bei den verlustfreien Codierverfahren (lossless coding) gibt es derzeit keine wirklich etablierten Standards, sondern eine große Anzahl verschiedener proprietärer Verfahren. Diese unterscheiden sich ‑ wie in Kap. 13.1 bereits ausgeführt ‑ kaum im erreichbaren Kompressionsfaktor. Da sie verlustfrei arbeiten, bieten sie auch die gleiche Audioqualität, so dass als differenzierende Faktoren im Wesentlichen die Anzahl der unterstützten Audiokanäle, Abtastraten, die Auflösung der Abtastwerte und evtl. das Resynchronisationsverhalten bei einem vorübergehenden Ausfall des Datenstroms dienen. Tab. 13/13 gibt einen Überblick über gebräuchliche Systeme. Die Verfahren finden Anwendung in Tonstudios, auf Tonträgern wie der SACD oder der DVD-Audio oder auch zunehmend in privaten Musikarchiven qualitätsbewusster Musikhörer, die z. B. Generationsverluste vermeiden wollen. Daneben sind viele solcher Datenkompressionsverfahren außer im Audiobereich auch für andere Signale wie z. B. biologische, medizinische oder seismische Daten interessant. Tab. 13/13. Übersicht zu gebräuchlichen verlustfreien Audiocodern. Verlustfreie Audiocodierverfahren

Einsatzgebiet

Direct Stream Transfer (DST) Meridian Lossless Packing (MLP) Dolby TrueHD (=MLP mit Erweiterungen) DTS HD Master Audio Apple Lossless (ALAC) Windows Media Audio Lossless MPEG Scalable Lossless (SLS) MPEG-4 Audio Lossless Coding (ALS) Free Lossless Audio Coding (FLAC)

Super Audio CD DVD Audio HD-DVD, Blu-ray Disc HD-DVD, Blu-ray Disc Apple Music, Quicktime Windows Media

Monkey’s Audio (APE)

Archivierung, Studiobetrieb Internet, PC, File transfer, Music Streaming Internet, PC

Im PC-Bereich gibt es eine Reihe weiterer, untereinander relativ ähnlicher Verfahren, die auf adaptiven Prädiktionsfiltern basieren. Typische Vertreter sind hier die Open Source Projekte True Audio Lossless (TTA), Monkey’s Audio, Shorten, WavPack, Free Lossless Audio Codec (FLAC). Der MPEG-4 (ALS) Standard ist ein durch die ISO standardisiertes Verfahren, das auf ähnlichen Prinzipien beruht und vergleichbare Eigenschaften aufweist. Sie sind in der Regel nicht für fehlerbehaftete Bitströme ausgelegt, da die verwendeten Prädiktionsfilter typischerweise ein sehr langes Gedächtnis besitzen, was im Fehlerfall zu einem langen Signalausfall führen würde. Der MPEG SLS Standard hingegen weist keine Fehlerfortpflanzung über die BitstromFramegrenzen hinaus auf, da anstelle von Prädiktionsfiltern perfekt rekonstruierende, relativ kurze Transformationen (5 bis 20 ms) verwendet werden. Als weitere Besonderheit existiert

912 

 13 Audiocodierung

ein sog. Near Lossless Modus, der eine konstante Datenrate ermöglicht, so dass Signale mit ausreichend hoher Redundanz verlustfrei codiert werden, dagegen Signale mit geringer Redundanz verlustbehaftet, aber psychoakustisch kontrolliert codiert werden.

13.8.2 Free Lossless Audio Codec Das System Free Lossless Audio Codec [FLAC] ist ein frei verfügbarer (jedoch nicht standardisierter) verlustfreier Audio-Codec. Das decodierte Audiosignal ist also Bit-für-Bit identisch mit dem originalen Audiosignal. Jeder Datenrahmen enthält einen 16-Bit CRC-Code, um Übertragungsfehler zu erkennen. Die Integrität der Audiodaten wird weiterhin garantiert durch Speicherung einer sog. MD5 Signatur der unverschlüsselten Audiodaten des Originals im Datei-Header, die später bei der Decodierung oder Prüfung verglichen werden kann. Das FLAC-Verfahren ist asymmetrisch in Bezug auf den Zeitaufwand, der für das Codieren bzw. Decodieren der Audiodaten benötigt wird. Die Decodierung verlangt nur Integer-Arithmetik und bedingt damit einen viel geringeren Rechenaufwand, der sich in kurzen Decodierzeiten niederschlägt. Wegen des geringeren Rechenaufwands ist eine Echtzeit-Decodierung auch auf weniger leistungsfähigen Computersystemen möglich. Durch die offene Implementierung des Verfahrens und die geringe Codier-Komplexität gibt es keinerlei Hardware-Einschränkungen. Jeder FLAC-Rahmen enthält genügend Audiodaten, um diesen Rahmen zu decodieren. Es wird kein Bezug zum vorausgehenden oder nachfolgenden Rahmen benötigt, dadurch eignet sich das FLAC-Verfahren auch für das sog. Streaming (siehe u. a. Kap. 17.4). FLAC verwendet synchronisierte Codes und CRC’s, ähnlich zu MPEG und anderen Formaten. Dies macht auch eine Decodierung an beliebiger Stelle eines Audio-Streams möglich, die im Zusammenspiel mit der Rahmensynchronisation nur minimale Verzögerungen zur Folge hat. FLAC unterstützt darüber hinaus schnelles, sample-genaues Suchen. Das ist nicht nur hilfreich bei der Wiedergabe von Audiodaten, sondern qualifiziert das Verfahren auch für die Verwendung in Schnittsystemen. FLAC unterstützt Auflösungen bis zu 32 Bit, Je nach Signalcharakter werden z. B. bei CDQualität eines (Stereo)-Eingangssignals variable Bitraten zwischen 700 kBit/s und 1 MBit/s erzeugt. Die Größe einer Audiodatei wird bei Anwendung des beschriebenen Kompressionsverfahrens auf etwa die Hälfte ihres ursprünglichen Wertes reduziert. Das System FLAC wird u. a. in Verbindung mit dem Prozess Digitale Bemusterung (Digibemus) beim breitbandigen Audio-Filetransfer zwischen den Rundfunkanstalten eingesetzt, siehe Kap. 13.2.2.1 .

13.8.3 MPEG-4 Lossless Coding MPEG-4 ALS definiert ein effizientes und schnelles verlustloses Audiokompressionsverfahren, das sowohl für professionelle Anwendungen als auch für den Endanwender geeignet ist [MPEG-4 ALS]. Manche seiner Eigenschaften finden sich in keinem anderen Verfahren,

13.9 Digitale Signaturen von Audiodateien 

 913

sondern werden ausschließlich von MPEG-4 ALS geboten. Dazu gehören die prinzipielle Unterstützung beliebiger unkomprimierter digitaler Audioformate (inkl. wav, aiff, au, bwf, raw) bei PCM-Auflösungen bis zu 32 Bit und beliebiger Abtastfrequenz (inkl. 16/44.1, 16/48, 24/48, 24/96, 24/192). Das System ist multichannel-fähig (inkl. 5.1 Surround). Es gestattet einen schnellen Zugriff (Random Access) zu jeder beliebigen Stelle der komprimierten Daten. Interessant ist auch die optionale Speicherung als MP4-Datei. Daraus ergeben sich verschiedene weitere Merkmale, wie das Tagging (Einbettung von Zusatzinformationen), Streamingfähigkeit sowie die Möglichkeit des Multiplexings mit Video-Daten. Neben diesen Eigenschaften besteht ein wesentlicher Vorteil darin, dass ein weltweiter MPEG-Standard die Kompatibilität zwischen unterschiedlicher Hardware und Software gewährleistet und somit eine langfristige, herstellerunabhängige Unterstützung sicherstellt.

13.9 Digitale Signaturen von Audiodateien Digitale Audiodateien oder -bitströme können üblicherweise mit inhaltsbezogenen Zusatzdaten (auch als Metadaten bezeichnet) versehen werden, die je nach dem gewählten Datenformat in dafür vorgesehene Felder des entsprechenden Übertragungsrahmens eingebracht werden – z. B. als User Bits, Ancillary Data, Programme Associated Data (PAD) oder ähnlich bezeichnet. Alle auf diese Weise transportierten Zusatzdaten sind zwar zunächst zeitlich fest an die entsprechende Audioinformation gekoppelt, sie können jedoch vom Anwender (Empfänger) mit geeigneten Werkzeugen beliebig manipuliert oder auch entfernt werden, bieten also keinerlei Sicherheit bezüglich Authentizität. Neuere Verfahren, wie das digitale Wasserzeichen, betten die Zusatzinformationen unhörbar und unveränderbar in das eigentliche Programmsignal ein. Ein anderes modernes Verfahren, der digitale Fingerabdruck (auch als AudioID bekannt), kennzeichnet einen konkreten Audioinhalt; ohne in das Programmsignal einzugreifen. Alle diese Lösungen können verwendet werden, um z. B. urheberrechtlich begründete Kennzeichnungen von Medieninhalten und die darauf basierende Rechteverwaltung zu unterstützen.

13.9.1 Digitales Wasserzeichen Das sog. digitale Wasserzeichen (Digital Watermarking) ist ein Verfahren, um beliebige Informationen in digitale Medien (wie zum Beispiel Audiodateien, Videodateien, Bilder etc.) einzubetten, ohne dass wahrnehmbare Veränderungen an den Multimediadaten eintreten. Digitale Wasserzeichen werden verwendet, um Nutzinformationen (Audioaufzeichnungen, Video-CDs, Hörbücher etc.) eindeutig zu kennzeichnen und z. B. mit urheberrechtlichen Zusatzinformationen zu versehen. Zu diesem Zweck wird das Audiosignal geringfügig auf eine definierte Art und Weise modifiziert.

914 

 13 Audiocodierung

Diese Änderung ist so klein, dass das menschliche Gehör keinen Unterschied wahrnimmt. Die Wasserzeichen-Technologie eröffnet damit die z.  B. Möglichkeit, Kopien eines Titels zu erstellen, die für den Verbraucher jeweils identisch mit dem Original sind, sich aber mit computergestützten Einrichtungen anhand der eingebrachten Zusatzinformation unterscheiden lassen. Die Stärke bei der Anwendung von Wasserzeichen liegt darin, dass das Produkt nach der Markierung immer noch ein vergleichbares Medium ist. Anwender können mit einem solcherart markierten Medium alles tun, was sie auch mit unmarkierten Medien tun können, also beispielsweise weiterhin genauso ohne Einschränkung abspielen oder kopieren. Auch Formatänderungen sind möglich, so dass eine gekaufte und mit Wasserzeichen versehene CD auch im Auto oder mit dem MP3-Player abspielbar ist. Lediglich Missbrauch ist erkennbar und kann ggf. verfolgt werden. 13.9.1.1 Anforderungen und Eigenschaften Digitale Wasserzeichen lassen sich durch eine Reihe von Eigenschaften charakterisieren und müssen je nach Anwendung bestimmte Anforderungen erfüllen. Die wichtigsten sind: Transparenz Das Wasserzeichen soll nicht wahrnehmbar sein, es darf also die Ton- bzw. Bildqualität des Originals nicht beeinflussen oder zumindest nicht stören. Abb. 13/42 zeigt den Vergleich der Zeitfunktionen zwischen einem originalen und einem markierten Tonsignal gleichen Inhalts.

Abb. 13/42. Einbettung eines digitalen Wasserzeichens in ein Audiosignal (Quelle: FhG IPSI).

Robustheit Ein Maß dafür, wie zuverlässig ein Wasserzeichen nach einem feindlichen „Angriff“, aber auch nach einer herkömmlichen Übertragung mit den damit verbundenen Signalmodifika-

13.9 Digitale Signaturen von Audiodateien 

 915

tionen wieder auslesbar sind. Das wurde auch von der EBU untersucht. Als Angriffe wurden unter anderem eine Analogwandlung des Signals, eine digitale Audiocodierung oder auch verschiedene Filterungen des Signals durchgeführt. Im Ergebnis zeigte sich, dass ein Wasserzeichen erst dann nicht mehr auslesbar ist, wenn die Audioqualität aufgrund des Angriffs ohnehin bereits merklich gesunken ist. Zu unterscheiden sind drei Varianten: Bei sichtbaren Wasserzeichen wird eine klar erkennbare Urheberrechts-Markierung an das zu schützende Objekt angebracht, was die nicht autorisierte Nutzung unattraktiv machen soll und in jedem Fall zu einem (teilw. marginalen) Qualitätsverlust führt. (Wird insbesondere im Bildbereich eingesetzt.) In unsichtbaren, sog. robusten Wasserzeichen werden rechtebezogene Informationen im Inhalt versteckt, d. h. unsichtbar gespeichert und untrennbar mit dem Werk verbunden. Unsichtbare, sog. fragile Wasserzeichen dienen dem Nachweis der Unverfälschtheit (Unversehrtheit und Integrität), um Manipulationen zu erkennen. Dabei sollen fragile Wasserzeichen nur gegen bestimmte Verarbeitungsoperationen (Komprimierung, Skalierung etc.) robust sein, während bei inhaltlichen Änderungen (z. B. Bildmanipulationen) das Wasserzeichen zerstört werden soll. Kapazität Angabe, wie viele Informationen mit Hilfe eines Wasserzeichenalgorithmus im Trägermedium eingebettet werden können. Man verwendet hierfür Datencontainer, die eine bestimmte Datenrate und Robustheit erlauben. Gebräuchliche Container ermöglichen z. B. die Übertragung von 48 Bit Zusatzdaten in 5 Sekunden bei sehr hoher Robustheit oder 48 Bit Zusatzdaten in etwa 2,5 Sekunden bei geringfügig niedrigerer Robustheit. Sollen mehr Informationen in einer bestimmten Zeit übertragen werden, sinkt die Robustheit des Wasserzeichens. Sicherheit Ohne Kenntnis des geheimen Schlüssels darf das Wasserzeichen nicht ausgelesen, verändert oder zerstört werden, ohne dabei die Datei selbst unbrauchbar zu machen. Nur eine spezielle Software ist in der Lage, die zuvor eingebetteten Zusatzdaten wieder auszulesen. Dies verhindert ein unbefugtes Auslesen oder eine Veränderung der eingebetteten Information und macht das Verfahren sehr sicher. 13.9.1.2 Anwendungsbereiche Die Audio-Wasserzeichen Technologie eröffnet prinzipiell zwar die Möglichkeit, innerhalb des Audiosignals Zusatzdaten versteckt zu übertragen, macht aber keine Einschränkungen hinsichtlich der Art der Zusatzdaten. Daraus ergibt sich ein breites Feld an Anwendungen. Urheberinformationen Während der Produktion können Urheberinformationen direkt in dem Titel verankert werden. Dies ermöglicht zu einem späteren Zeitpunkt die Überprüfung, ob ein anderer Anwender beispielsweise Samples eines wertvollen Instruments oder andere akustische Bestandteile unerlaubterweise verwendet. Auch kann mit Hilfe des Wasserzeichens ein Urhebernachweis

916 

 13 Audiocodierung

geführt werden, falls ein Mitbewerber behauptet, dass der betreffende Titel von ihm produziert worden sei. Empfängerinformationen Die Idee hierbei ist, jeden an einen bestimmten Empfänger verteilten Titel zu personalisieren. Hierzu werden solche Informationen als Wasserzeichen eingebettet, die später einen Rückschluss auf den vorgesehenen Empfänger der Titel erlauben. Dies kann beispielsweise eine Kundennummer sein. Werden die Titel anschließend im Internet oder an anderer Stelle wieder aufgefunden, kann mit Hilfe der eingebetteten Daten die Person oder Institution identifiziert werden, an die dieser Titel ursprünglich verteilt worden ist. Titelinformationen Das Audio-Wasserzeichen Verfahren kann prinzipiell auch für die Programmüberwachung im Rundfunk eingesetzt werden. Zu diesem Zweck muss jeder Titel, der beobachtet werden soll, während der Produktion mit einer besonderen Kennziffer in Form eines Wasserzeichens versehen werden. Ein Computer hört anschließend die Rundfunkprogramme ab und untersucht das Signal auf sein Wasserzeichen. Integritätsschutz Heutzutage werden die meisten Medien digital verteilt und verarbeitet. Daher lassen sich Mediendaten mit moderner Multimedia-Software sehr leicht verändern – und damit manipulieren. Das Ziel besteht darin, die Integrität der Daten zu gewährleisten. Derzeitige Lösungen basieren auf Kryptografie und damit realisierbaren Sicherheitsmechanismen, wie z. B. digitale Signaturen. Da digitale Medien oft auch Formatkonvertierungen unterzogen werden, sind solche Lösungen i. Allg. nicht anwendbar. Eine signifikante Veränderung der Daten zerstört oder beschädigt das Wasserzeichen bzw. kann anhand der eingebetteten Informationen nachgewiesen werden. Authentizitätsschutz Der Authentizitätsschutz ist die Gewährleistung vertrauenswürdiger Medien. Der Benutzer eines Dokuments soll dabei in der Lage sein, den Urheber des Dokuments eindeutig zu identifizieren. Hierbei werden digitale Wasserzeichen mit kryptographischen Techniken kombiniert. Eine vertrauenswürdige Instanz (Trusted Third Party, TTP) registriert die Urheberinformationen und andere Informationen über das Dokument (beispielsweise den Erstellungszeitpunkt). Mit Hilfe seines privaten Schlüssels generiert der Urheber eine digitale Signatur. Der Benutzer eines Dokuments kann nun mit Hilfe des öffentlichen Schlüssels das Wasserzeichen auslesen. Die enthaltene digitale Signatur weist eindeutig die Urheberschaft nach. Partielle Verschlüsselung Eine weitere Technologie ist partielle Verschlüsselung: Hiermit können zum Beispiel neue Wege für die Verbreitung von sog. Previews erschlossen werden: Ähnlich wie bei Shareware können z. B. Musikdateien kostenlos verteilt werden. Deren Klangqualität ist jedoch durch eine schwache partielle Verschlüsselung leicht reduziert. Das heißt, durch die Verschlüsse-

13.9 Digitale Signaturen von Audiodateien 

 917

lung können nur Teile des Mediums verarbeitet werden, aber das Medium bleibt als Ganzes immer noch abspielbar. Wird die „Vollversion“ erwünscht, kann der passende Schlüssel zum Freischalten erworben werden, um damit die Datei in voller Qualität zu entschlüsseln. Programmreichweitenermittlung Eine weitere Anwendung besteht in der unhörbaren Übertragung von Zusatzinformationen (wie Senderkennung, Programmkennung, Hörzeit) mit Hilfe der Wasserzeichentechnik, die z. B. in UK zur automatisierten, objektiven Ermittlung der Hörerquoten von UKW-FM Hörfunkprogrammen eingesetzt werden. (Andere Anwender benutzen für den gleichen Zweck Informationen, die mit dem Radio Data System (RDS) übertragen werden).

13.9.2 Digitaler Fingerabdruck Die digitale Fingerabdruck-Technologie (Audio Fingerprinting) ermöglicht die automatisierte Wiedererkennung von Musikstücken, Werbespots u. ä. mit Hilfe eines Computers. So wie der Mensch einmal gehörte Musik aufgrund bestimmter Merkmale wiedererkennt, kann auch ein Computer anhand bestimmter Signalstatistiken einen vorab eintrainierten Titel wieder erkennen. Diese Merkmalssätze (Merkmalsvektoren) sind einzigartig für jedes Audiosignal und werden in Analogie zum menschlichen Fingerabdruck als Audio-Fingerprint oder auch als Audio ID bezeichnet. Wiedererkannt werden kann ein Musiktitel nur dann, wenn diese Merkmale zu einem früheren Zeitpunkt bereits klassifiziert und erfasst worden sind (in einer sog. Lernphase) und zum Beispiel in einer Datenbank abgelegt wurden, in der eine wachsende Anzahl von Merkmalssätzen gespeichert wird. Diese werden ggf. mit zusätzlichen Metadaten zu inhaltlichen Merkmalen der betreffenden Aufnahme etc. hinterlegt (neben dem Titel z. B. Komponist, Interpreten, Aufführungsort und -zeit, Verlag/Hersteller/Anbieter, Liedtexte oder andere alphanumerische Informationen). Im Anwendungsfall werden sie dann mit einem aktuell gewonnenen Fingerabdruck verglichen und damit identifiziert (Identifizierungsphase). 13.9.2.1 Anforderungen und Eigenschaften Bei Einsatz der Audio-Fingerprinting Technologie wird das Audiosignal selbst nicht verändert, insbesondere werden keine zusätzlichen Informationen in das Audiosignal eingefügt. Die Erkennung der Titel erfolgt rein inhaltsbasiert, also nur anhand der Merkmale, die aus dem Tonprogrammsignal abgeleitet werden. Robustheit Ein robustes Verfahren gewährleistet, dass der zu identifizierende Titel auch dann noch erkannt wird, wenn das Audiosignal bis zu einem bestimmten Grad verändert wurde. Solche Änderungen können beispielsweise lineare Störungen wie Pegeländerungen oder eine Bandbegrenzung sein, wie sie auch bei der Rundfunkausstrahlung auftreten kann. Nichtlineare Störungen, wie zum Beispiel eine Dynamikkompression oder die Codierung in das MP3

918 

 13 Audiocodierung

Format, fallen ebenfalls darunter. Das System soll auch in der Lage sein, eine zwischengeschaltete Analogübertragung, wie z. B. auch die Wiedergabe über Lautsprecher und anschließende Aufnahme über ein Mikrofon zu tolerieren. Außerdem soll das System auch Stücke wiedererkennen, die nicht vollständig vorliegen, sondern ggf. nur in kürzeren Ausschnitten. Kompaktheit Die abzulegenden Fingerprints (Datensätze) sollen nicht zu umfangreich sein, mit Rücksicht auf die erforderliche Kapazität der Datenbank sowie die auftretende Verarbeitungszeit bei späteren Suchvorgängen. Interoperabilität Systeme verschiedener Anbieter sollten möglichst untereinander kompatibel sein, das setzt u. a. die Verwendung einheitlicher Klassifizierungsprinzipien sowie die Anwendung standardisierter Darstellungsmethoden voraus (z. B. nach MPEG-7). 13.9.2.2 Merkmalsauswahl Entscheidend für ein Audio-Fingerprinting Verfahren ist die Auswahl der zu untersuchenden Merkmale. anhand derer eine Unterscheidung einer sehr großen Anzahl an Titeln (z. B. über 1 Million) möglich wird. Gleichzeitig bestimmt die Auswahl der Merkmale auch die Größe des Fingerprints eines Titels und damit auch den Zeitbedarf für das Identifizieren eines Titels. Als geeignet haben sich u. a. folgende Merkmale erwiesen –– Lautheitsverlauf über der Zeit, summarisch sowie frequenzbandselektiv; –– Spektrales Flachheitsmaß (Spectrum Flatness, SF), das frequenzbandselektiv zwischen tonalen und rauschartigen Signalen unterscheiden kann. Das SFM ist als Quotient des geometrischen Mittels g und des arithmetischen Mittels m der Energie in den einzelnen Frequenzbändern definiert –– SF = g(a) / m(a), mit –– m = 1/N * (a1 + a2 + a3 + … + aN) und g = (a1 * a2 * a3 * …* aN) ^ (1/N); –– Spektrale Neigung als Maß für die wahrnehmbare Brillanz (Schärfe) eines Audiosignals, oder alternativ die Neigung des Spektrumverlaufs des logarithmischen Amplitudenfrequenzgangs, die auch einen Einfluss auf den Formantcharakter des Audiosignals haben kann; –– Berechnung von Hash-Werten aus den Audiodaten mittels geeigneter Algorithmen (Hash-Funktionen). Eine Hash-Funktion oder Streuwertfunktion ist eine mathematisch erzeugte Abbildung einer großen Menge von Quellendaten – den Audiodaten – mittels einer kleinen Datenmenge, dem Hash-Code. 13.9.2.3 Lösungsmodelle Eine der bekannten Basistechnologien ist Teil des internationalen ISO/IEC MPEG-7 Audiostandards [MPEG-7], einer Beschreibungssprache für Metadaten von Multimedia-Informationen. Um Musik – oder auch jedes andere Tonsignal – zu identifizieren, wird auf Basis der oben genannten Merkmale (Low Level Descriptors, MPEG-7 LLD) durch mehrfache statistische Verdichtung ein kompakter und einzigartiger Datensatz (MPEG-7 DS) extrahiert, die so

13.9 Digitale Signaturen von Audiodateien 

 919

genannte Signatur. In einer Lernphase werden von bekanntem Tonmaterial derartige Signaturen erstellt und in einer Datenbank abgelegt. Danach kann ein beliebiger Ausschnitt dieses Tonmaterials erkannt werden, indem dessen aktuell ermittelte Signatur mit denen in der Datenbank verglichen wird. Abb.°13/43 zeigt den prinzipiellen Workflow dieser Technologie.

Abb. 13/43. Workflow Fingerprinting gemäß ISO/MPEG-7, nach [Hellmuth, 2003].

Ein anderes Modell fußt auf der Berechnung von den oben erwähnten Hash-Werten in mehreren schmalen Frequenzbändern auf einer logarithmischen Frequenzskala im Grundtonbereich (300 bis 3000 Hz), z. B. nach der Hash-Funktion H(n,t) 1 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] > 0 H(n,t) = 0 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] < 0

{

mit n = Filterfrequenzbereich und t = Zeitfenster, siehe [Haitsma, 2002]. 13.9.2.4 Anwendungsbereiche Es gibt eine Vielzahl attraktiver Anwendungsbereiche für AudioID bzw. Audio-Fingerprinting, wie z. B.: Senderüberwachung AudioID kann jegliches gesendete Tonmaterial in Hörfunk- und Fernsehprogrammen identifizieren und protokollieren, ohne dass das Audiomaterial dafür verändert werden muss. Dies kann die Automatisierung der Rechteverwertung sowie die allgemeine Programmstatistik unterstützen. Inhaltsidentifizierung Nach der Identifizierung des Musikstückes anhand seines Fingerabdrucks können aus anderen Datenbänken weitere inhaltsrelevante Metadaten abgefragt werden. In großen Datenbeständen (Archive, P2P-Netze) kann automatisch nach bestimmten – ggf. auch illegalen – Inhalten gesucht werden, ohne dass man auf durchgängig oder einheitlich vorhandene Metadaten angewiesen ist.

920 

 13 Audiocodierung

Schutz von Inhalten Die Fingerprint-Technologie stellt eine relativ robuste Lösung dar, Audioinhalte ohne zusätzlich eingebrachte Informationen indirekt zu schützen, beispielsweise als Stärkung des Kopierschutzes, siehe hierzu auch unter Kap. 13.9.3 (DRM).

13.9.3 Digitale Rechteverwaltung Als Digitale Rechteverwaltung (Digital Rights Management, DRM) werden Verfahren bezeichnet, mit denen die Verbreitung und Nutzung digitaler Medien kontrolliert werden soll. Vor allem für Film- und Tonaufnahmen auf digitalen Informationsträgern, aber auch für Software, elektronische Dokumente oder eBooks findet die digitale Nutzungsrechteverwaltung Anwendung. Die technischen Anwendungslösungen solcher elektronischen Schutzmechanismen für digitale Informationen nennt man DRMS (Digital Rights Management System). (Die Abkürzung DRM steht auch für das digitale Rundfunksystem Digital Radio Mondiale, s. Kap. 17.2.6, das mit dem hier behandelten Rechteverwaltungssystem nichts zu tun hat.) Ein DRM-System (DRMS) soll helfen, die Verwendung von Daten nur in dem von den jeweiligen Rechteinhabern definierten Rahmen (Lizenz) zu ermöglichen. DRM unterstützt ggf. auch neue Abrechnungsmöglichkeiten, um sich Nutzungsrechte an Daten mittels automatisch kontrollierbarer Lizenzen vergüten zu lassen. Hauptziel für die Entwicklung von Digital-Rights-Management-Systemen war/ist der Schutz von Verwertungsrechten an digitalen Bild-, Ton- oder Videoinhalten. Unterdessen finden DRMS aber auch in vielen anderen Bereichen Anwendung. Beispielsweise können DRMS (DRM-Systeme) auch zum Schutz kritischer Daten wie z. B. internen Firmenunterlagen eingesetzt werden (Enterprise Rights Management). Solche Mechanismen der digitalen Rechteverwaltung sind jedoch allgemein stark umstritten. Befürworter sehen darin u. a. die Eröffnung neuer Geschäftsmodelle mit bedarfsgerechterer Abrechnung (Pay-per-View) sowie ggf. den Wegfall von Pauschalabgaben auf Leermedien oder Hardware. Kritiker warnen vor allem vor Datenschutzproblemen und möglichen Einschränkungen bei der Benutzerfreundlichkeit, Interoperabilität und Archivierung, siehe auch Kap. 13.9.3.3. DRM wird derzeit hauptsächlich bei digitalen Medieninhalten wie Filmen oder Musik eingesetzt. Dazu werden beispielsweise die DRMS FairPlay von Apple, Play Ready von Microsoft oder Widevine von Google von Video- oder Musikstreaminganbietern verwendet. Diese ermöglichen eine genaue Spezifizierung der Berechtigungen und können für Audiound Videodateien verwendet werden. 13.9.3.1 Anwendungsbereiche DRM-Systeme sollen vorrangig die Weitergabe von und Zugriff auf digitale Inhalte auf offenen Plattformen kontrollierbar machen und daher insbesondere Funktionen zur Zugangs- und zur Nutzungssteuerung bereitstellen. Während es bei der Zugangssteuerung um die Bestimmung des Personenkreises („Wer?“) geht, steht bei der Nutzungssteuerung die Art der Nutzung („Wie?“) im Mittelpunkt.

13.9 Digitale Signaturen von Audiodateien 

 921

DRMS realisieren die Zugriffskontrolle mit Hilfe kryptografischer Verfahren, indem ein beliebiger digitaler Inhalt durch Verschlüsselung eindeutig an eine Lizenz gebunden wird. Ohne die zum digitalen Inhalt gehörige gültige Lizenz kann der Benutzer zwar das Gerät oder den Datenträger erwerben, nicht jedoch auf den (vollständigen) Inhalt zugreifen. Um digitalen Inhalten auch außerhalb eines DRMS einen gewissen Schutz zu ermöglichen, kann durch eine möglichst nicht mit einfachen Mitteln zu entfernende (robuste) Kennzeichnung der Inhalte eine mögliche Lizenzverletzungen auch nachträglich erkannt werden. Zugangssteuerung Ziel ist es sicherzustellen, dass der Zugriff auf geschützte Inhalte nur entsprechend lizenzierten Personen und/oder Endgeräten gewährt wird. Hierbei wird der Benutzer im ersten Schritt mittels eines Authentifizierungsverfahrens identifiziert. Danach werden seine Zugriffsrechte geprüft. Für die Identifizierung des Benutzers gibt es unterschiedliche Verfahren, wie Passwörter oder Hardware-Authentifikation bis hin zur Überprüfung biometrischer Daten. Passwortbasierte Systeme sind zwar einfach und kostengünstig zu implementieren, gestatten aber durch die Möglichkeit der unkontrollierten Weitergabe des Passworts nicht zuverlässig die Identifizierung eines Benutzers. Nutzungssteuerung Die Durchsetzung einer entsprechenden Lizenz muss auch nach erfolgreicher Zugriffautorisierung gewährleistet werden. Die zum Zugriff auf die geschützten Inhalte verwendeten Programme müssen daher eine Beschreibung der berechtigten Verfügungsformen (Lizenz) verstehen und geeignet durchsetzen können. Man unterscheidet zwischen –– dem Wiedergaberecht (ausdrucken, ansehen und abspielen); –– dem Transportrecht (kopieren, weitergeben und ausleihen); –– dem Recht, abgeleitete Werke zu erstellen (extrahieren, editieren und einfügen). In ihrer einfachsten Form umfassen Nutzungssteuerungssysteme einen geeigneten Kopierschutzmechanismus (wie z. B. beim DVD-Standard). Nutzungsabrechnung DRMS ermöglichen nicht nur den Schutz digitaler Inhalte, sondern auch die Etablierung nutzungsabhängiger Bezahlmodelle (Pay-per-View, Pay-per-Click etc.). Verbraucher können so nicht nur pauschal, sondern auch selektiv und in kleinen Mengen Inhalte erwerben. Dazu gehört auch, die Nutzung zu protokollieren und diese Informationen per Rückkanal an das Abrechnungssystem des Anbieters weiterzugeben. Neben der Rückkanalfähigkeit ist hier zusätzlich auch die Integration von sicheren elektronischen Zahlungssystemen notwendig. Nutzungskontrolle ohne DRMS Umfassender Schutz ist auch durch DRMS nicht durchsetzbar. Auch wenn die technischen Schutzvorkehrungen den Angriffstechniken der unberechtigten Nutzer immer einen Schritt

922 

 13 Audiocodierung

voraus bleiben sollten, besteht oft das „Problem der analogen Lücke“, d. h. die Möglichkeit, Analogkopien hochwertig zu re-digitalisieren und danach ungeschützt weiterzuverbreiten. Deshalb ergreifen Inhalteanbieter auch reaktive Maßnahmen zum Schutz ihrer Inhalte durch entsprechend gesetzte Markierungen, oder gerade die Abwesenheit von Markierungen als Zeichen für kompromittierte Medienprodukte. Zu den schwachen Markierungsverfahren zählen das sog. Labeling und das Tattooing. Diese Verfahren sind leicht überwindbar, weil die Metadaten nicht versteckt werden können. Außerdem sinkt die Qualität des Medienproduktes, da solche Maßnahmen häufig störend wirken. Zu den starken Markierungsverfahren zählen sog. Wasserzeichen, welche die versteckte Einbettung von Metadaten in Medienprodukten ermöglichen. 13.9.3.2 Basistechniken Zugangs- und Nutzungssteuerung benötigen die Basistechniken der Kryptografie, Rechtedefinitionssprachen und ggf. Abrechnungsfunktionen. Wasserzeichen sollen die lizenzrechtlichen Bestimmungen auch außerhalb eines DRMS zumindest nachträglich erkennbar machen. Verschlüsselung Um die unberechtigte Nutzung, Veränderung oder Verfälschung geschützter Inhalte zu verhindern, können eine Vielzahl von kryptografischen Techniken verwendet werden. Diese kommen insbesondere im Rahmen der Zugriffs- und Nutzungskontrolle sowie der sicheren Abrechnung zum Einsatz. Digitale Signaturen können beispielsweise die Authentizität eines Berechtigten sicherstellen. Im Rahmen elektronischer Zahlungssysteme helfen solche Verschlüsselungsverfahren, wie z. B. das Secure-Electronic-Transaction-(SET-) System, bei der sicheren Übertragung von sensiblen Abrechnungsdaten (z. B. Kreditkartennummern) über das Internet. Digitales Wasserzeichen Ein digitales Wasserzeichen (Digital Watermarking) kann bestimmte Informationen unwiderruflich mit einem Medienprodukt verbinden, zu Einzelheiten siehe Kap. 13.9.1. Digitaler Fingerabdruck Ein digitaler Fingerabdruck (AudioID, Audio Fingerprint) kennzeichnet den Audioinhalt eines Mediums, ohne die Audiodaten selbst zu verändern; Details siehe Kap. 13.9.2. Rechtedefinitionssprachen Die Beschreibung des Umfangs der eingeräumten Rechte und ggf. die gewählte Form der Abrechnung erfordert den Einsatz sog. Rechtedefinitionssprachen in Form geeigneter höherer formaler Sprachen. Nutzungsrechte können damit sehr differenziert abgebildet und abgerechnet werden: Nutzungszeitraum, -häufigkeit, -operationen (drucken, ändern, kopieren etc.) und weitere Bedingungen bzw. Einschränkungen. Hierfür werden sowohl proprietäre als auch offene Sprachen benutzt. Eine offene, also standardisierte Sprache ist notwendig, wenn eine plattformübergreifende Nutzung anvisiert wird. Beispiele für solche

13.9 Digitale Signaturen von Audiodateien 

 923

Standards sind die eXtensible rights Markup Language (XrML) sowie die Open Digital Rights Language (ODRL). Tab. 13/14 gibt eine Übersicht zu möglichen Einsatzbedingungen der genannten Techniken und Funktionen von DRM-Systemen. Die Darstellung ist nicht vollständig, sondern soll lediglich zeigen, dass verschiedene Basistechniken kombiniert eingesetzt werden müssen, um die funktionalen Anforderungen zu realisieren. Tab. 13/14. Beispiele für die Realisierung von Funktionen in DRM Systemen. Basistechniken  Anwendungen 

Verschlüsselung

Digitale Wasserzeichen

Rechtedefinitionssprachen

Zugangssteuerung

Authentifizierung (z. B. Digitale Signatur) Nutzungsfreigabe durch Entschlüsselung der Inhalte

Robuste Wasserzeichen zur Authentifizierung Robuste Wasserzeichen zur Durchsetzung des Kopierschutzes Fragile Wasserzeichen zum Integritätsnachweis Robuste Wasserzeichen zur Authentifizierung

Abbildung autorisierter Nutzer und/ oder Endgeräte Abbildung von Verfügungsrechten

Nutzungssteuerung

Rechteverwaltung

Abrechnung

Deaktivieren von manipulierten DRMS-Clients Sichere Zahlungsverfahren (z. B. SETVerfahren)

Abbildung autorisierter Nutzer und/oder Endgeräte Abbildung von Abrechnungsdaten

13.9.3.3 Nachteile von DRM Kritiker an der Durchsetzung von DRM führen eine Vielzahl von Nachteilen und Unzulänglichkeiten der bekannten DRMS an, um die Anwendung insgesamt oder partiell in Frage zu stellen. Einige der wesentlichen Einschränkungen, die durch DRM zu erwarten sind, seien nachstehend erwähnt: Inkompatibilität Ein Nachteil von DRM mit Verschlüsselung ist die Inkompatibilität mit manchen Wiedergabegeräten. So lässt sich eine durch DRM geschützte Mediendatei trotz erworbener Lizenz nicht auf allen mobilen Geräten wiedergeben, sondern nur mit solchen, die das jeweilige DRMS auch unterstützten. Der zusätzlich notwendige Abgleichvorgang mit dem Lizenzierungsserver erschwert ggf. ebenfalls das Handling mit entsprechenden Medien. Datenschutz Aus der Verknüpfung von Technik und Anwendungsebene resultieren bei DRM-Systemen eine große Anzahl an offenen Fragen: So lassen sich z. B. Benutzerprofile erstellen, wenn Schlüssel und Geräte-IDs zentral verwaltet werden. Es gibt auch DRM-Systeme, die bei jeder

924 

 13 Audiocodierung

Benutzung des Mediums bei einer zentralen Stelle anfragen, ob der betreffende Benutzer überhaupt zur Benutzung berechtigt ist. Informationsverlust Durch Marktveränderungen des Inhalteanbieters (Firmenübernahmen oder -aufgaben) ist nicht gesichert, dass sich DRM-geschützte Medien auch in Zukunft abspielen lassen, ähnlich der fehlenden Unterstützung von Software heute nicht mehr existierender Hersteller. Schutzfristen In vielen Ländern erlischt der urheberrechtliche Schutz eines Werks nach einer bestimmten Frist. In der Europäischen Union ist dies in der Regel 70 Jahre nach dem Tod des Urhebers der Fall. Nach Ablauf dieser Frist darf jedermann das entsprechende Werk nach Belieben kopieren und verkaufen. Bislang erlaubt jedoch keines der bekannten DRM-Systeme eine solche Freigabe von ursprünglich urheberrechtlich geschützten Werken. Dies hat zur Folge, dass früher erworbene DRM-geschützte Dateien auch nach Ablauf der Schutzfrist nicht beliebig verwendet werden können, obwohl dies rechtlich ausdrücklich erlaubt wäre.

Standards [AC3] [AES10]

[AES3]

[AES31] [AES3-am5]

[AES50] [AES55] [AES59] [BS.1115] [BS.1284] [BS.1387] [DTS] [ETSI TS 101154]

ATSC (United States Advanced Television Systems Committee): A/52/10 Digital Audio Compression Standard, 1995. AES: Publication AES10-1991 (ANSI S4.43-1991), AES10-2008. AES Recommended Practice for Digital Audio Engineering – Serial Multichannel Audio Digital Interface (MADI). AES: Publication AES3-1992 (ANSI S4.40-1992), AES3-2009 AES Recommended Practice for Digital Audio Engineering - Serial Transmission Format for Two Channel Linearly Represented Digital Audio Data. AES: Publication AES31-1-2001, AES31-2-2006, AES31-3-2008. Standard for network and file transfer of audio. AES: Publication AES3-am5-2008. Amendment 5 to AES standard for digital audio - Digital input-output interfacing - Serial Transmission Format for Two Channel Linearly Represented Digital Audio Data, Geneva, 2008 AES: Publication AES50-2011. High-resolution multi-channel audio interconnection (HRMAI). AES: Publication AES55-2007. AES standard for digital audio engineering - Carriage of MPEG Surround in an AES3 bitstream AES: Publication AES59-2012: AES standard for professional audio - Audio application of 25-way D-type connectors in balanced circuits ITU-R: Recommendation BS.1115-1. Low bit-rate audio coding. Geneva, 2005. ITU-R: Recommendation BS.1284-1. General methods for the subjective assessment of sound quality. Geneva, 2002. ITU-R: Recommendation BS.1387-1 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 2001. DTS Digital Theatre Systems Inc.: DTS Coherent Acoustics Encoder - Requirements Specification for Core Audio. http://www.dtsonline.com ETSI TS 101 154 v2.4.1: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcast and Broadband Applications, 2018-02.

Standards 

[ETSI TS 103190-1] [ETSI TS 103190-2] [ETSI TS 103420] [ETSI TS 103491] [ETSI TS 103634] [G.722.1] [G.722.1C] [G.722.2] [G.722] [HDMI] [IEC60958]

[IEC61937]



[IEC62365]

[IEEE1394] [ITU-T G.711] [MPEG SAOC] [MPEG] [MPEG-1]

[MPEG-2 AAC]

[MPEG-2]

[MPEG-4 ALS]

 925

ETSI TS 103 190-1 v1.3.1: Digital Audio Compression (AC-4) Standard; Part 1: Channel based coding, 2018-02. ETSI TS 103 190-2 v1.2.1: Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio, 2018-02. ETSI TS 103 420 v1.2.1: Backwards-compatible object audio carriage using Enhanced AC-3, 2018-10. ETSI TS 103 491 v1.2.1: DTS-UHD Audio Format; Delivery of Channels, Objects and Ambisonic Sound Fields, 2019-05. ETSI TS 103 634 v1.2.1: Digital Enhanced Cordless Telecommunications (DECT); Low Complexity Communication Codec plus (LC3plus), 2020-10. ITU-T: Rec. G.722.1. Coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 1999. ITU-T: Recommendation G.722.1 Annex C: Low-complexity coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 2005. ITU-T: Recommendation G.722.2. Wideband coding of speech at around 16 kBit/s using adaptive multi-rate wideband (AMR-WB). Geneva, 2006. ITU-T: Recommendation G.722. 7 KHz Audio Coding within 64 kb/s. Geneva, 1988. HDMI-Standard: http://www.hdmi.org IEC: International Standard IEC 60958. Digital audio interface. - Part 1: General, 2004 - Part 3: Consumer applications, 2006 - Part 4: Professional applications, 2003 IEC: International Standard IEC 61937-1. Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958. - Part 1: General, 2007 - Part 2: Burst-info, 2007- Part 3 bis Part 8: Non-linear PCM bitstreams (according to the AC-3, MPEG audio, DTS, MPEG-2 AAC, and MPEG-4 AAC etc. audio formats), 2003 (mit Corrigendum 1, 2004) IEC: International Standard IEC 62365. Digital audio - Digital input-output interfacing - Transmission of digital audio over asynchronous transfer mode (ATM) networks, 2004 IEEE1394-1995: FireWire - Standard for a high performance serial bus. ISBN: 1-55937583-3, 1996 and supplements, http://ieeexplore.ieee.org/ servlet/ ITU-T G.711 Recommendation: Pulse Code Modulation (PCM) of Voice Frequencies, 1972 ISO MPEG: International Standard ISO/IEC 23003-2 (SAOC). Information technology – MPEG-4 audio technologies - Part 2: Spatial Audio Object Coding (SAOC). 2010. Moving Picture Experts Group. https://www.mpegstandards.org/about-mpeg/ ISO MPEG: International Standard EN ISO/IEC 11172. Information Technology – Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1,5 Mbit/s (MPEG-1). 1997. ISO MPEG: International Standard ISO/IEC 13818-7. Information technology – Generic coding of moving pictures and associated audio information – Part 7: Advanced Audio Coding (AAC). 2007. ISO MPEG: International Standard ISO/IEC 13818-3, Information technology – Generic coding of moving pictures and associated audio information (MPEG-2) – Part 3: Audio. 2001. ISO MPEG: International Standard ISO/IEC 14496-3. Information technology – Coding of audio-visual objects (MPEG-4) – Part 3: Audio, AMD-4 Audio Lossless Coding (ALS). 2009.

926 

 13 Audiocodierung

[MPEG-4]

[MPEG-7] [MPEG-D] [MPEG-D DRC] [MPEG-D USAC] [MPEG-H]

[PEAQ] [PESQ] [SMPTE292M] [Tech3250] [Tech3285] [Tech3296] [Tech3306] [Tech3309] [Tech3311] [Tech3324] [USB]

ISO MPEG: International Standard ISO/IEC 14496-3. Information technology – Coding of audio-visual objects (MPEG-4) – Part 3: Audio. 2005. ISO MPEG: International Standard ISO/IEC 15938. Multimedia Content Description Interface (MPEG-7). 2002. ISO MPEG: International Standard ISO/IEC IS 23003-1 (MPEG-D). MPEG Surround. 2007. ISO MPEG: International Standard ISO/IEC 23003-4 Information technology — MPEG audio technologies — Part 4: Dynamic range control. ISO MPEG: International Standard ISO/IEC 23003-3 Information technology — MPEG audio technologies — Part 3: Unified speech and audio coding. ISO MPEG: International Standard ISO/IEC 23008-3. Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio. ITU-R: Recommendation BS.1387 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 1999. ITU-T: Recommendation P.862 (PESQ). Perceptual evaluation of speech quality. Geneva, 2001. SMPTE 292M-1998: Bit-Serial Digital Interface for High Definition Television, 1998 EBU: Techn. Doc. 3250. Specification of the Digital Audio Interface, einschl. Supplement 1: „Format for User Data Channel“. Genf, 1992 EBU: Techn. Doc. 3285. BWF – a format for audio data files in broadcasting. Genf, 2001 EBU: Doc Tech 3296. Subjective Listening Tests on LowBitrate Audio Codecs - 1st edition. Geneva, 2003. EBU: Techn. Doc. 3306. RF64: An extended File Format for Audio. Genf, 2007 EBU: Doc Tech 3309. Evaluations of Cascaded Audio Codecs. Geneva, 2005. EBU: Techn. Doc. 3311. EBU Guidelines for Multichannel Audio in DVB. Genf, 2006 EBU: Doc Tech 3324. EBU evaluations of multichannel audio codecs. Geneva, 2007. USB Specifications. http://www.usb.org/developers/docs/

Literatur [AES, 2001] [APT-X] [Blauert, 1983] [Bleidt, 2017] [Brandenburg, 1988] [Breebaart, 2005] [Dressler, 2000] [Ehret, 2003] [Engdegård, 2008]

AES: Educational CD-ROM on audio coding artefacts. New York, 2001. Technische Beschreibung apt-x100 Coding System. Pro Audio Systems, Karben, 1999/2001. Blauert, J.: Spatial Hearing, MIT Press, 1983. Bleidt, R., Sen, D., Niedermeier, A. et al: “Development of the MPEG-H TV Audio System for ATSC 3.0”. IEEE Transactions on Broadcasting, vol. 63, no. 1, pp. 202Brandenburg, K.: OCF - A new coding algorithm for high quality sound signals. Proc. of ICASSP, Dallas, 1988. Breebaart, J., Herre, J., Faller, C. et al: “MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status”. 119th Convention AES, New York, 2005. Dressler, R.: Dolby Surround ProLogic II Decoder – Principles of Operation. Internet: www.dolby.com, 2000. Ehret, A.; Dietz, M.; Kjörling, K.: “State-of-the-Art Audio Coding for Broadcasting and Mobile Applications”. 114th AES Convention, Amsterdam, 2003. Engdegård, J., Resch, B., Falch, C. et al: Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding. 124th Convention AES, Amsterdam, 2008.

Literatur 

[Fielder, 1996]

 927

Fielder, L., Bosi, M., Davidson, G. et al: AC-2 and AC-3: “Low-Complexity Transform-Based Audio Coding”, in: AES, Collected Papers on Digital Audio Bit-Rate Reduction, 1996. [Fielder, 2004] Fielder, L. et al.: “Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system“, 117th AES convention, 2004, preprint 6196. [FLAC] FLAC-Homepage. https://xiph.org/flac/index.html (aufgerufen 25.07.2013). [Fuchs, 2009] Fuchs, H., Korte O. and Hilpert, J.: “Digital Broadcasting with MPEG Surround”. EBU Techn. Review, Geneva, Q3, 2009. [Haitsma, 2002] Haitsma, J.A.: “Audio Fingerprinting – a new technology to identify music”. Report Philips Electronics, 2002. [Hellmuth, 2003] Hellmuth, O. und Herre, J.: „MPEG-7 Audio – Fingerprinting und Anwendungen“. Deutscher Expertenworkshop zum Metadatenstandard MPEG-7, Erlangen, 2003. [Herre, 1994] Herre, J., Brandenburg, K., Lederer, D.: Intensity Stereo Coding. 96th AES Convention, Amsterdam 1994, Preprint 3799. [Herre, 1996] Herre, J. Johnston, D.: “Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)”, 101st AES Convention, Los Angeles 1996, Preprint 4384. [Herre, 2014] Herre, J., Hilpert, J., Kuntz, A., Plogsties, J.: “MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding”. Audio Engineering Society 137th Convention, Los Angeles, 2014. [Küch, 2015] Küch, F., Kratschmer, M., Neugebauer, B. et al: “Dynamic Range and Loudness Control in MPEG-H 3D Audio”. Audio Engineering Society 139th Convention, New York, 2015. [Magarelli, 2005] Magarelli, R. and Strachan, D.: “Integrated solutions for embedded Dolby E and AC-3”. Evertz Microsystems Ltd., 2005. [Meltzer, 2002] Meltzer, S. and Dietz, M.: “Audio Coding: CT-aacPlus - a state-of-the-art audio coding system”. EBU Techn. Review, Geneva, 2002. [Neuendorf, 2013] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, et. al. “The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates” J. Audio Eng. Soc., vol. 61, no. 12, 2013. [Ritscher, 1996] Ritscher, S., Felderhoff, U.: “Cascading of Different Audio Codecs”. 100th AES Convention, Copenhagen 1996, Preprint 4174. [Smyth, 1996] Smyth, J., Smith, W. et al: “DTS coherent acoustics delivering high quality multichannel sound to the consumer”, 100th AES convention, Copenhagen, 1996, preprint 4293. [Soloudre, 1998] Soloudre, G., Grusec, T., Lavoie, M. et al: “Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs”. J. AES, 1998, Vol. 46, no.3. [Theile, 1988] Theile, G., Stoll, G., Link, M.: “Low bit-rate coding of high-quality audio signals: An introduction to the MASCAM System”. EBU Techn. Review, No. 230, Geneva, 1988. [Wylie, 1996] Wylie, F.: apt-X100: “Low-Delay, Low-Bit-Rate Sub-band ADPCM Digital Audio Coding”. In: AES, Collected Papers on Digital Audio Bit-Rate Reduction, 1996.

14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung Götz Romahn (14.1), Ralf Steuck (14.2)

14.1 Digitale Tonbearbeitung Neben den grundlegenden Funktionen zur Speicherung, Vervielfältigung und Übertragung bietet die digitale Tontechnik besonders wirkungsvolle Möglichkeiten zur Signalbearbei­ tung bzw. Klanggestaltung während oder nach der Tonaufzeichnung an. So haben digitale Effektgeräte nicht nur ihre analogen Äquivalente fast vollständig aus dem Studio verdrängt, sondern auch neue Möglichkeiten zur Klangbearbeitung geschaffen, die in analoger Technik nicht oder nur in verminderter Qualität bzw. mit hohem Aufwand realisierbar waren. Es hat sich im Verlauf der technischen Entwicklung gezeigt, dass den Geräten zur digitalen Tonsi­ gnalbearbeitung eine im Prinzip recht einfache gemeinsame Struktur zu Grunde liegt. Kap. 6 geht ausführlich auf die Klanggestaltung ein. Die Bausteine eines digitalen Tonstudios, seien es Effektgeräte, Mischpulte, Kreuzschie­ nen oder Tonbearbeitungsplätze, verfügen in ihrem Kern über eine Recheneinheit in Form eines Universalprozessors oder dedizierter Signalprozessoren; mit diesem Kern verbunden sind die Ein- und Ausgänge für die Zu- oder Weiterführung der Studiosignale, die Steuerein­ heiten und Bediengeräte, sowie die Komponenten zur Signalspeicherung.

14.1.1 Digitale Effektgeräte Effektgeräte gehören zur Standardausstattung eines jeden Tonstudios. Die am häufigsten eingesetzten Effektfunktionen beziehen sich auf dynamische Pegeländerungen, Klangbeein­ flussungen, ferner Zeitverzögerungen (delay) und andere Manipulationen der Zeitbasis, z. B. zur Tonhöhenveränderung (pitch shifting) oder zur Zeitraffung und Zeitdehnung (time stret­ ching). Für einzelne dieser Anwendungsbereiche waren bereits in der Vergangenheit Geräte mit analoger Funktionsweise vorhanden. Die digitale Tonsignaltechnik bietet jedoch wesent­ lich einfachere Lösungswege oder komplexere Bearbeitungsmöglichkeiten besonders dann, wenn es sich um zeitbasisbezogene Operationen handelt (siehe Kap. 6.4). Die genannten Verfahren lassen sich grundsätzlich auf jeder für digitale Signalver­ arbeitung geeigneten Hardware/Software-Plattform realisieren. Es werden aber immer noch  –  häufig aus ergonomischen Gründen  –  eigenständige, in ihrem Äußeren individu­ ell gestaltete Geräte angeboten. Wie bereits beschrieben, ist die Struktur dieser Geräte im Grunde immer gleichartig – sie bestehen aus den Eingangsmodulen für digitale oder analoge Signale, den entsprechenden Wandlern, aus der eigentlichen Einheit für die Signalverar­ beitung und den Ausgabebausteinen, wieder jeweils für digitale oder analoge Signale. Zur Eingabe von Parametern für die Klangbearbeitung dienen eine Steuereinheit und das Bedien­ gerät (Abb. 14/1).

https://doi.org/10.1515/9783110759921-014

930 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Durch Verwendung praktisch identischer Hardware und fallweise angepasster Firmund Software ergeben sich für die Hersteller der digitalen Effektgeräte enorme Einsparun­ gen gegenüber der früheren konventionellen Bauweise. Über die tatsächliche Funktion des Geräts entscheiden die zur Signalverarbeitung entwickelten Rechenprogramme (Algorith­ men) und die dem jeweiligen Verwendungszweck angepasste Bedienoberfläche. Häufig ver­ fügen derartige Geräte nicht mehr über Einstellelemente auf Hardware-Basis, sondern lassen sich als Black Box mit simulierter Bildschirm-Bedienoberfläche durch Cursor-Steuerung bzw. Computer-Maus realitätsnah und detailgetreu bedienen.

Abb. 14/1. Struktur eines digitalen Effektgerätes.

14.1.1.1 Bearbeitung im Zeit- oder Frequenzbereich Frühe Geräteentwicklungen zur digitalen Klangbearbeitung basieren häufig auf der verlust­ freien Speichermöglichkeit von Tonsignalen in Verbindung mit einfachen mathematischen Operationen; hierzu gehören insbesondere Zeitverzögerungs- und Hallgeräte. Derartige Geräte bilden in ihrer einfachsten Form durch Zwischenspeicherung des Tonsignals die Ausbreitung von Wellenfronten im Schallfeld eines Raums als ein Vielfach von Laufzeit­ strecken, anschaulich auch Schallstrahlen genannt, nach (siehe Kap. 6.5). Die Intensitäts­ dämpfung der einzelnen Wellenfronten auf Grund mehrfacher verlustbehafteter Reflexion an den Wänden des zu simulierenden Raums wird hierbei durch Multiplikationsvorgänge ersetzt und die Gesamtheit der einzelnen Schallstrahlen dann – eventuell nach Frequenz­ gangkorrektur – durch Summierung zum angestrebten räumlichen Klangbild gemischt. Die auf diese Weise erzeugten Raumabbildungen sind jedoch klanglich nicht immer befriedigend und daher auch nicht in allen Bereichen der Tonsignalbearbeitung einsetzbar. Eine wesentlich elegantere, aber vom rechnerischen Aufwand auch anspruchsvollere Lösung zur Verhallung eines Tonsignals bietet ein aus der Systemtheorie der elektrischen Nachrichtentechnik entlehnter Ansatz. Die Übertragungseigenschaften eines linearen und zeitinvarianten nachrichtentechnischen Systems − hierzu darf in guter Näherung auch das akustische Verhalten eines Raums gerechnet werden − sind durch die sog. Impulsantwort charakterisiert. Der Begriff „Impulsantwort eines Raums“ beschreibt daher auf anschauli­ che Weise die akustische Reaktion eines realen Raums bei Anregung durch ein sehr kurzes Tonsignal. Der systemtheoretische Ansatz besagt nun, dass es genügt, die Impulsantwort eines realen Raums zu erfassen und mit dem zu beeinflussenden unverhallten Tonsignal durch den mathematischen Prozess der sog. Faltung zu verbinden (siehe hierzu auch Kap.  6.5.3

14.1 Digitale Tonbearbeitung 

 931

und 11.2.1.2). Auf diese Weise ist es grundsätzlich möglich, das Tonsignal nachträglich mit einer gewünschten Nachhallcharakteristik zu versehen. Mit Hilfe des Faltungsprozesses lässt sich nicht nur das akustische Verhalten eines Raums nachbilden, sondern es kann z. B. auf diese Weise auch das Übertragungsverhalten des menschlichen Außenohrs bei Schalleinfall aus verschiedenen Richtungen zum Zweck der sog. Binauralisierung (siehe Kap. 5.5.6) simuliert werden. Bei Wiedergabe über Kopfhö­ rer wird dann ein ähnlich realer Raumeindruck vermittelt, wie er bei einer Tonaufnahme in kopfbezogener Stereofonie (Kap. 5.5.4) entstanden wäre. Weitere Anwendungen der digitalen Signalbearbeitung im Zeitbereich sind Einrichtungen zur Beeinflussung der Dynamik von Programmmaterial, wie sie schon aus der Analogtechnik zur Kompression, zur Expansion oder Amplitudenbegrenzung bekannt sind. Eine erhebli­ che Verbesserung kann bei digitaler Signalverarbeitung besonders dadurch erzielt werden, dass rückwirkende Regelungsvorgänge durch vorausschauende Steuerungsprozesse ersetzt werden, da die dynamischen Eigenschaften des zu beeinflussenden Signals durch kurze Zwi­ schenspeicherung bereits vor der eigentlichen Bearbeitung ermittelt und zeitgerecht in den Verarbeitungsprozess eingegeben werden können. Derartige Geräte haben besondere Bedeu­ tung für die Modulationsaufbereitung der Tonsignale in Rundfunksendewegen. Die digitale Tonstudiotechnik stellt alle Möglichkeiten der Klangbearbeitung zur Verfü­ gung, wie sie auch aus der Analogtechnik bekannt sind. Hierzu gehören insbesondere Filter zur Frequenzgangbeeinflussung; die Signalverarbeitung kann dabei fallweise im Zeitbereich oder im Frequenzbereich erfolgen.

14.1.2 Digitale Tonmischpulte 14.1.2.1 Funktionalität Das Mischpult dient zur Summenbildung der aus einzelnen Tonkanälen stammenden Signale und zu deren Klangaufbereitung. In Mischpulten mit analoger Signalverarbeitung (siehe Kap. 8) waren ursprünglich einzelne Baugruppen und deren Bedienoberflächen aus technologischen Gründen untrennbar miteinander verbunden: der Bedienknopf eines Pegel­ stellers wirkte direkt auf Widerstandsnetzwerke ein, die Einstellelemente eines Filters waren mit den klangbeeinflussenden Schaltungen unmittelbar mechanisch verkoppelt. Mit fortschreitender Entwicklung der Halbleitertechnik wurde es möglich, einen großen Teil der Bedienfunktionen von der Signalverarbeitung zu trennen. Es entstanden Mischpulte mit analoger Signalverarbeitung und abgesetzter digitaler Steuerung. Nicht selten wurden und werden auch heute noch die für die Signalverarbeitung verwendeten Komponenten in räumlich getrennten Gerätegestellen untergebracht, wobei sich im Tonstudio nur noch die Bedienkonsole des Mischpults als eine Art Fernbedienung (remote control) befindet. Um die im Verlauf vieler Jahrzehnte entwickelten und bewährten Arbeitsabläufe zu erhalten, wurden die Bedienelemente eines herkömmlichen analogen Mischpults häufig auf der digi­ talen Steuerungsebene nachgebildet (siehe zur historischen Entwicklung auch Kap. 8.1). Mischpulte mit digitaler Steuerung bieten – anders als ihre Vorgänger – die Möglichkeit einer Automatisierung von Arbeitsprozessen. So können Einstellungen z. B. zur Klangbeein­ flussung als Presets für eine spätere Verwendung gesichert werden, oder Arbeitsabläufe, die

932 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

sich oft wiederholen, statisch oder dynamisch bei der Abmischung gespeichert und später wieder vollständig abgerufen werden (total recall). Nachdem im Zuge des technischen Fortschritts geeignete Bauelemente und deren Appli­ kation verfügbar wurden, konnte auch die eigentliche Tonsignalverarbeitung des Misch­ pults in der digitalen Ebene stattfinden. Aus Sicht des Anwenders unterschieden sich frühe vollständig digital arbeitende Mischpulte prinzipiell kaum von ihren analogen Vorbildern. Wesentliche Bedienelemente für Pegelsteller, Filter, Dynamikbeeinflussungen usw. wurden in ihrer Ergonomie nahezu unverändert übernommen. Eine wesentliche Erweiterung der Funktionalität gegenüber den analogen Vorgängern bietet bei digitalen Mischpulten die Einführung sog. virtueller Signalwege. Mit nur wenigen Bedienelementen können hierbei – je nach logischer Zuordnung – unterschiedliche Funkti­ onsebenen des Mischpults angesprochen werden. Auf diese Weise lässt sich durch ein zen­ trales Bedienfeld bei geringem Platzbedarf auf der Bedienfläche der Konsole – allerdings oft unter Verzicht auf gleichzeitigen oder direkten Zugriff – eine große Zahl von Mischpultpara­ metern steuern. Die bei analogen Mischpultkonzepten anzutreffenden Konfigurationssteckfelder sind bei digitalen Mischpulten in der Regel durch die Signalverarbeitungsschritte virtuell ersetzt. Dadurch gewinnen digitale Mischpulte gegenüber analogen Mischpulten einen erheblichen Zuwachs an Flexibilität und Funktionalität, da nun z. B. die für die Klangbeeinflussung erfor­ derlichen Elemente beliebig in die Signalwege als sog. Plug-ins eingefügt werden können. Die in einem digitalen Mischpult angebotenen Möglichkeiten zur Steuerung der Signalwege (routing) machen daher auch den Einsatz externer Kreuzschienen oft entbehrlich.

Abb. 14/2. Funktionsgruppen eines digitalen Mischpults.

14.1 Digitale Tonbearbeitung 

 933

14.1.2.2 Gerätetechnik Die interne gerätetechnische Struktur eines digitalen Mischpults (Abb.  14/2) ähnelt der bereits beschriebenen Funktion eines digitalen Effektgeräts. Die eingangsseitigen digitalen oder A/D-gewandelten analogen Tonsignale werden über eine Kommutierungseinrichtung, die die Funktion einer Kreuzschiene nachbildet, auf einen oder mehrere Signalprozessoren weitergeleitet; dies gilt auch für die internen Signale des Mischpults, wie beispielsweise Gruppen- und Summensignale und für die Einschleifpunkte (inserts). Ebenso stellt die logi­ sche Kreuzschiene die Signale für die Ausgänge des Mischpults zur Verfügung. In räumlich ausgedehnten Studiokomplexen von Funkhäusern ist es oft sinnvoll, die Funktionen eines digitalen Mischpults von verschiedenen Stellen aus zu steuern. Bei großen Mischpultsystemen besteht daher die Möglichkeit, eine oder mehrere sog. Tochterkonsolen an das zentrale System anzuschließen. Die Eingangs- und Ausgangsschnittstellen (I/O-Ports) können abgesetzt vom zentralen System z. B. in einer Stage Box installiert sein. Für die Anbindung der dezentralen Einheiten an das zentrale System gibt es unter­ schiedliche technische Lösungen. Es sind z.  B. AES/EBU- oder MADI-Verbindungen, aber auch herstellerspezifische, sog. proprietäre Lösungen auf Kupfer- bzw. Glasfaserbasis anzu­ treffen (Abb. 14/3).

Abb. 14/3. Mischpult mit abgesetzten Tochterkonsolen und I/O-Ports.

In einer konkreten Realisierung, welche nachfolgend beispielhaft beschrieben wird, besteht das digitale Mischpult aus drei Basiskomponenten: der Hauptbedienkonsole, dem Audio­ signalprozessor und einem Signalverteilsystem. Diese Teilsysteme sind über Glasfaserleitun­ gen miteinander verbunden, über die Audio- und auch Steuerdaten geführt werden. 14.1.2.3 Hauptbedienkonsole Die Hauptbedienkonsole ist modular aufgebaut; sie enthält alle wesentlichen Stellglieder und Anzeigeeinheiten, ergänzt durch Aktuatoren, also Tastatur, Rollkugel, Joy Stick usw., zur Dateneingabe. Die hier beschriebene Konsole ermöglicht den Zugriff auf bis zu 96 direkt bedienbare Kanäle, es lassen sich jedoch insgesamt ca. 300 Tonkanäle ansteuern. Den Bedien­

934 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

kanälen können die Funktionen zur Pegel- und Klangbeeinflussung ebenso zugeordnet werden wie die Anzeigefunktionen zur Rückmeldung der Konfigurationsparameter und zur Anzeige der Aussteuerung in den einzelnen Kanälen (metering). Hierfür werden die in der Datentechnik üblichen Displays, neben Flachbildschirmen auch LED-Felder eingesetzt. Alternativ können die Einstellparameter eines jeden Kanals auch über ein einziges zentrales Display- und Bedien­ feld eingegeben werden. Mit Unterstützung des in die Konsole integrierten Steuerrechners lassen sich die Konfi­ gurationen für unterschiedliche Tonformate, z. B. 2-Kanal-Stereo, 5.1- oder 7.1-Mehrkanalton – gegebenenfalls auch zur parallelen Abmischung (down mix) – abrufen; das gleiche gilt für Subgruppen und (n-1)-Matrix-Anordnungen. Alle Konfigurationen können statisch oder dynamisch abgespeichert und unterschiedlichen Projekten zugeordnet werden. 14.1.2.4 Audiosignalprozessoren Zur Audiosignalverarbeitung werden im hier betrachteten Fall Signalprozessor-Chips mit 40-Bit-Gleitkommaarithmetik eingesetzt. In den einzelnen Baugruppen des zentralen Audio­ signalprozessors können konfigurationsabhängig die Signale von jeweils bis zu 32 Tonkanä­ len mit den Funktionsparametern für Pegel, Frequenzgang, Dynamik und Zeitverzögerung verarbeitet werden. Es stehen 48 Hilfs- oder Auxiliary-Wege und 128 Signalbusse zur Verfü­ gung. Die vom zentralen Audiosignalprozessor des digitalen Mischpults erzeugte Verlust­ wärme muss durch Kühlung abgeführt werden. Die hiermit verbundene Geräuschentwick­ lung macht den Betrieb des Prozessors in einem abgesetzten Geräteraum ratsam. 14.1.2.5 Signalverteilsysteme Das Signalverteilsystem stellt die Schnittstellen für analoge und digitale Audioformate und für die Steuerung externer Geräte über serielle Interfaces oder potenzialfreie Schalter zur Verfügung. Auch Timecode (LTC) und MIDI werden unterstützt. In 16  Baugruppen können mit Hilfe einer Schaltmatrix bis zu 4.096  Eingänge und 4.096  Ausgänge geroutet werden. Zum Anschluss analoger Quellen oder Verbraucher sind Wandler mit einer Auflösung von 24 Bit vorhanden. Hierdurch wird eine Übersteuerungsre­ serve (headroom) garantiert, die mit der von analogen Mischpulten vergleichbar ist. An den digitalen Schnittstellen können Formate wie beispielsweise AES/EBU, SPDIF, MADI, ADAT, TDIF oder SDI-Varianten anliegen (siehe dazu Kap. 13.5). Es stehen die in der Tonstudiotech­ nik üblichen Abtastraten von 44,1 kHz, 48 kHz und 96 kHz zur Verfügung. Zur Anpassung unterschiedlicher Abtastraten sind Abtastratenwandler vorgesehen. Bei Bedarf kann das Si­­ gnal­­verteilsystem über ein Glasfasernetz mit weiteren externen Geräten verbunden werden.

14.1.3 Kreuzschienen Sollen im Verbund von Studiokomplexen digitale Tonsignale und zugeordnete Steuerfunk­ tionen verteilt werden, ist der Einsatz zusätzlicher externer Kommutierungseinrichtungen (router) zweckmäßig. Diese Koppelfelder mit der Funktion einer Kreuzschiene oder eines

14.1 Digitale Tonbearbeitung 

 935

Steckfelds sind in konventionellen Systemen in der Regel als sog. Raummultiplex-Systeme ein- oder mehrstufig ausgeführt (siehe Kap. 8.4.2). In einer rein digitalen Signalumgebung bietet sich jedoch die zeitschlitzorientierte Signalverknüpfung im Zeitmultiplex-Verfahren als vorteilhafte Lösung an (siehe auch Kap. 16.1.1.1). 14.1.3.1 Raummultiplex Bei klassisch aufgebauten einstufigen Koppelfeldern muss für jede Verbindung einer Ein­ gangsleitung auf eine Ausgangsleitung ein eigener Koppelpunkt vorgesehen werden. Daher erfordert eine Kreuzschiene mit 100 Eingängen und 100 Ausgängen insgesamt 10.000 Kop­ pelelemente, die als mechanische oder elektronische Schalter ausgeführt sein können. Wegen der räumlich getrennten Anordnung der Koppelpunkte wird eine derartige Lösung auch als Raumvielfach oder Raummultiplex bezeichnet. Abb.  14/4 zeigt die Struktur einer solchen Kreuzschiene. Raummultiplex-Koppelfelder, bei denen bestimmte Eingangs-Aus­ gangskombinationen nicht sinnvoll oder nicht gleichzeitig erforderlich sind, lassen sich zur Reduktion der Anzahl der Koppelelemente durch Kaskadierung von hierarchisch gestaffelten Koppelfeldebenen auch mehrstufig betreiben.

Abb. 14/4. Kreuzschiene im Raummultiplex.

14.1.3.2 Zeitmultiplex In digitalen Kommutierungssystemen erfolgt die Verbindung von Eingangs- und Ausgangs­ leitungen in der Regel nicht über die Koordinatensteuerung einer räumlichen Anordnung von Koppelelementen, sondern über die Anwahl von signalzugeordneten Punkten (time slots) auf der Zeitachse (Abb.  14/5). Physikalisch haben derartige Systeme eine DatenbusStruktur und stehen daher der Signalverarbeitungsweise in Rechnern sehr nahe. Durch die Verwendung eines Zeitmultiplexbusses wird die Zahl der benötigten Koppel­ punkte stark reduziert. Eine Kreuzschiene mit 100 Ein- und 100 Ausgängen benötigt jetzt nur noch 200 Koppelelemente, die in definierter Abfolge und zeitgerecht auf den Bus geschaltet werden. Beim Bus-System nach dem Zeitmultiplexverfahren wird die Größe im Vollausbau durch die Anzahl der Zeitschlitze bestimmt; die maximale Größe eines derartigen Koppel­ felds wird demnach durch die Taktfrequenz des Systems vorgegeben. Ein Zeitmultiplex-System kann durch Buskoppler erweitert und über große Entfernun­ gen geführt werden; somit besteht die Möglichkeit, die Eingangsmodule an den Orten der Signalquellen und die Ausgangsmodule an den Orten der Verbraucher zu installieren. In

936 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Anlehnung an die Methoden der Computertechnik sind die Datenbusse in paralleler oder serieller Struktur realisiert.

Abb. 14/5. Kreuzschiene im Zeitmultiplex.

Bei parallelen Bussen ist für jedes Bit eines Datenworts eine eigene Datenleitung vorgese­ hen; hinzu kommen Steuerleitungen, die den Datenverkehr regeln. Problematisch kann es bei parallelen Datenbussen sein, die Synchronität und damit die Lesbarkeit aller Daten- und Steuersignale bei extrem schnellem Datenverkehr unabhängig von der physikalischen Belas­ tung durch Signal-Zuführungen und -Ableitungen auf dem System aufrecht zu erhalten. Eine Alternative zu parallelen Datenbussen sind serielle Datenbusse. Bei diesen werden die einzelnen Bits eines Datenworts nicht zeitgleich, sondern zeitlich nacheinander über­ tragen. Serielle Datenbusse werden wegen der geringeren Zahl von datenführenden Leitern häufig zur Verbindung von Einzelgeräten eingesetzt, erfordern aber gegenüber einem Par­ allel-Bus grundsätzlich eine mindestens um den Faktor der Datenwortlänge höhere Taktfre­ quenz zur Erzielung identischer Nutzdaten-Übertragungsraten. Beispiele für serielle BusSysteme sind der für Computerinterfaces standardisierte Universal Serial Bus (USB) oder der FireWire (Apple), siehe Kap. 12.5. Sollen Geräte der Tonstudiotechnik über größere Entfernungen seriell miteinander ver­ bunden werden, sind als Übertragungsmedium Lichtwellenleiter (Glasfasern) besonders geeignet, da diese eine hohe Übertragungsgeschwindigkeit zulassen und weniger störemp­ findlich sind. Solche Glasfaserverbindungen sind Punkt-zu-Punkt-Verbindungen, d.  h., sie verbinden, physikalisch bedingt, eine einzige Quelle mit einer einzigen Senke. Sollen viele Ein- oder Ausgangsmodule räumlich abgesetzt an zentrale Multiplexein­ richtungen angeschlossen werden, kann dies mit sog. Sternkopplern (star coupler) realisiert werden. Innerhalb eines Sternkopplers werden die Signalverbindungen über hochintegrierte programmierbare Bausteine hergestellt. Mit FPGA-Bausteinen (Field Programmable Gate Arrays) lassen sich extrem schnelle Schalter in großer Anzahl für die Signaldurchschaltung programmieren. Aus diesem Grund ist in weitläufigen Kommutierungseinrichtungen häufig ein Nebeneinander von Raum- und Zeitmultiplex-Subsystemen zu finden. Die Struktur einer sternförmig aufgebauten Kreuzschiene zeigt Abb. 14/6.

14.1 Digitale Tonbearbeitung 

 937

Abb. 14/6. Struktur eines sternförmig aufgebauten Kreuzschienensystems.

14.1.4 Systembetrachtungen 14.1.4.1 Taktsignale und Wordclock In PCM-Technik codierte digitale Tonsignale können innerhalb komplexer Systeme grund­ sätzlich nur dann korrekt übertragen werden, wenn die zusammengeschalteten Geräte oder Funktionsgruppen mit gleicher Abtastfrequenz arbeiten. In Tonstudios weit verbreitete Abtastfrequenzen sind 44,1  kHz und 48,0  kHz oder ganzzahlige Vielfache hiervon. Damit alle Geräte mit exakt gleicher Abtastfrequenz arbeiten, erfolgt deren Synchronisation in der Regel über ein auf separatem Leiter geführtes Taktsignal (word clock). Die Frequenz dieses Taktsignals ergibt sich aus der verwendeten Abtastrate. Eine Alternative zum gesondert geführten Taktsignal sind die über spezielle digitale Audioschnittstellen wie AES/EBU oder SPDIF übertragenen selbsttaktenden Signale, die zusätzlich zu den eigentlichen digitalen Ton­­­signalen auch noch eine Taktinformation beinhalten (siehe Kap. 12.5). Grundsätzlich ist zu beachten, dass der Takt nur aus einer einzigen Quelle abgeleitet werden darf. Während es innerhalb eines Studiokomplexes nicht allzu schwierig ist, eine uniforme synchrone Taktversorgung herzustellen, kann es sich bei der Übertragung digitaler Tonsignale über weite Entfernungen als notwendig erweisen, die Takte der unterschiedli­ chen Standorte voneinander zu entkoppeln. Eine derartige Entkopplung leisten Abtastra­ tenwandler (Sample Rate Converter, SRC). Abtastratenwandler wurden ursprünglich dafür entwickelt, Tonsignale mit vorgegebener Abtastfrequenz in eine andere, z. B. 44,1 kHz oder 48,0  kHz, umzurechnen. Moderne SRCs wandeln auch sehr nahe beieinander liegende Abtastraten und gestatten somit die Synchronisation unabhängiger digitaler Tonsignale mit nominal gleicher, aber dennoch geringfügig differierender Taktung. Man spricht in diesem Fall von plesiochronen Systemen (siehe Kap. 12.2.2.1). 14.1.4.2 Verzögerungen, Latenzen Die Verzögerungen oder Latenzen von Tonsignalen durch Prozesse der analogen Signalver­ arbeitung sind so gering, dass sie in der Praxis kaum berücksichtigt werden müssen. In der

938 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

digitalen Tonstudiotechnik entstehen jedoch bereits bei der A/D- und D/A-Wandlung Signal­ verzögerungszeiten, sog. Latenzen, die den Wellenlängen der tonfrequenten Signale entspre­ chen. Noch länger sind die Verzögerungszeiten, die durch die digitale Signalverarbeitung selbst und die hierbei systematisch zur Anwendung kommenden Speicherelemente entste­ hen. In Tonbearbeitungsplätzen oder Digital Audio Work Stations (AWS, DAW), die auf PCTechnik basieren, kommen weitere wahrnehmbare Verzögerungen z.  B. durch Treibersoft­ ware für Schnittstellen-Komponenten hinzu. Für die Wandler-Interfaces in PCs steht ein hin­ sichtlich der Latenzzeiten optimierter Treiberstandard (ASIO) zur Verfügung. Bereits sehr kurze Verzögerungszeiten von ca. 10 μs zwischen Tonsignalen können bei der Mehrkanalübertragung zu einer räumlichen Verschiebung der Schallquellen führen. Verzögerungen in der Größenordnung von 50 ms werden beim Abhören im Studio bei direk­ tem Vergleich als Echos hörbar. Bei Playback-Bearbeitungen können Latenzen von 10 ms als zu lang empfunden werden. In bestimmten Situationen wie z. B. bei Live-Reportagen wirken Verzögerungszeiten in der Größenordnung von 150 ms sehr störend, wenn sie auf das Ohr des Sprechenden zurück­ geführt werden. Diese Verzögerungen hemmen den Redefluss, da ihre Dauer der mittleren gesprochenen Silbenlänge entspricht und der Reporter sich somit selbst ins Wort fällt. Bei der Systemplanung von Toneinrichtungen mit digitaler Signalverarbeitung sind daher immer die möglichen Auswirkungen von Latenz-Effekten zu berücksichtigen, im betrachteten Fall z. B. durch eigenanteilfreie (n-1)-Schaltungen.

14.1.5 PC-basierte Bearbeitungssysteme 14.1.5.1 Hardware Sog. Multimedia-PCs für Amateur-Anwendungen gestatten die Tonaufnahme und -wieder­ gabe in meist erstaunlich guter Qualität. Die hierbei zum Einsatz kommenden Audiointer­ faces verfügen über analoge Ein- und Ausgänge für Mikrofon- und Leitungspegel, häufig auch für Mehrkanaltonsysteme, mitunter auch über digitale Schnittstellen. Abb.  14/7 zeigt das Blockdiagramm einer solchen Soundkarte eines standardisierten PCs. Als Quellen für den zentralen Mischerbaustein dienen hier je ein Mikrofon- und ein Leitungseingang, ein Hilfseingang sowie der rückgeführte Ausgang eines D/A-Wandlers, der sein Signal über den parallelen Datenbus des Rechners von dessen Festplattenspeicher bezieht. Die dargestell­ ten Komponenten sind in der Regel in nur wenigen hochintegrierten Schaltungsbausteinen zusammengefasst. Für Anwendungen im Tonstudio sind leistungsfähige stationäre PCs mit höchstwertigen Audiointerfaces ausgestattet und werden damit auch in professionellen Produktions- und Bearbeitungsprozessen einsetzbar. Um von der internen Struktur des Rechner-Datenbusses unabhängig zu bleiben, werden häufig separate Audiointerfaces mit seriellen Datenbussen, z.  B. USB- oder FireWire-Schnittstellen, eingesetzt. Diese Interfaces stehen auch für Note­ bookrechner im mobilen Einsatz zur Verfügung.

14.1 Digitale Tonbearbeitung 

 939

Abb. 14/7. Mischerfunktion einer PC-Soundkarte.

14.1.5.2 Software Betriebssysteme bilden die Basis für die zu verwaltenden Betriebsmittel eines Rechners (CPU, Speicher und Ein- oder Ausgabegeräte) und sind für den geregelten Ablauf der auf einem Computer eingesetzten Anwendungsprogramme zuständig. In der Tonstudiotech­ nik sind überwiegend die Systeme Windows von Microsoft, OS X von Apple/Mac und Linux anzutreffen. Für die digitale Tonbearbeitung auf einem PC stehen für diese Betriebssysteme zahlreiche Audio Editor genannte Programme zur Verfügung, die in der Regel mindestens folgende Fähigkeiten bieten: –– Aufnahme von analogen oder digitalen Eingangssignalen, –– zuweisbare Aussteuerungsanzeige für einzelne Signalpfade, –– Import und Export von Audiodateien, –– Wiedergabe von Audiodateien, –– Bearbeitung von Dateien durch Schneiden, Einfügen, Kopieren und Löschen, –– Pegelkorrekturen, Klangbearbeitung mit Filtern und Effekten, –– Mischung von Tonspuren, –– Frequenzanalyse mit Spektrumanzeige, –– Formatwandlungen zwischen verschiedenen Wortbreiten und Abtastfrequenzen, –– Anwendung datenreduzierender Quellencodierverfahren. Die Tonbearbeitung erfolgt interaktiv auf der Fläche des Computer-Displays mit Hilfe der alphanumerischen Tastatur und der Maus. Zur Orientierung werden die digitalisierten Signale der einzelnen Tonspuren als Pegelverläufe, also als Zeitfunktion oszillografisch dar­ gestellt.

940 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Ein besonderer Vorteil der PC-gestützten Tonbearbeitung ist die Möglichkeit, zerstö­ rungsfrei, non-destruktiv, zu arbeiten. Dies bedeutet, dass das Roh- oder Originalmaterial unverändert erhalten bleibt. Bearbeitungen werden ausschließlich an einer automatisch erstellten Kopie vorgenommen bzw. die einzelnen Schritte der Bearbeitung werden lediglich protokolliert, um sie dann erst bei der Wiedergabe oder Ausspielung in Realzeit wirksam werden zu lassen. Auch müssen die Bearbeitungsschritte in Analogie zum Schnitt von Video­ material nicht mehr dem zeitlichen Verlauf des aufgezeichneten Tonmaterials folgen (nonlinear editing). Digitale Tonsignale sind im Rechner in Datei-Ordnern gespeichert (files). Um einen Austausch von Audio-Files zwischen mehreren PCs zu ermöglichen, wurden für die Art der Speicherung Fileformate proprietär, also herstellerspezifisch, vereinbart oder international standardisiert. Zu den bekanntesten Formaten gehören WAV, BWF, MXF und RF64. Letzteres wurde für die Speicherung von Mehrkanalaufzeichnungen entwickelt und von der EBU als Standard veröffentlicht (siehe Kap. 12.6).

14.1.6 Audioworkstations 14.1.6.1 Hardware Der Begriff Workstation wurde ursprünglich im Zusammenhang mit extrem leistungsfähigen Minicomputern für wissenschaftliche und ingenieurtechnisches Arbeiten geprägt. Es han­ delte sich dabei um hochspezialisierte Einzelplatzrechner, deren Rechenkapazität deutlich über der Leistungsgrenze konventioneller PCs lag. Die rasch fortschreitende technische Wei­ terentwicklung im PC-Bereich hat jedoch dazu geführt, dass unter Workstation nun auch sehr leistungsstarke PCs verstanden werden, die mit dedizierten Softwarekomponenten und Peripheriegeräten für professionelle Anwendungen ausgestattet sind. Eine digitale AudioWorkstation (AWS, DAW) ist daher im Normalfall ein PC-Arbeitsplatz für Tonaufnahme, Bear­ beitung und Tonwiedergabe. Von einem handelsüblichen PC unterscheidet sich eine AWS oft nur noch durch die A/D- und D/A-Wandler, welche in ihren technischen Spezifikationen den Anforderungen der professionellen digitalen Tonstudiotechnik genügen müssen. Nicht selten werden die Wandler in externen Geräteeinschüben untergebracht. Für die Integration in digitale Tonstudios ist in der Regel eine Taktsynchronisation, manchmal auch eine Zeitcodesynchronisation erforderlich; für diesen Zweck sind die AudioWorkstations mit speziellen Interfaces ausgestattet. Zusätzliche Interfacekarten enthalten oft auch Wandler für Mehrkanalaufnahmen oder Signalprozessoren zur Entlastung des Zentral­ prozessors (CPU). 14.1.6.2 Software Eine große Auswahl marktüblicher oder speziell entwickelter Software auf Basis der unter­ schiedlichen Betriebssysteme ermöglicht und unterstützt die Arbeit an den AWS-Systemen. Insbesondere für hochwertige Tonbearbeitungen im Bereich von künstlerischen Wort- oder Musikproduktionen werden diese oft aus ergonomischen Gründen durch externe HardwareController ergänzt. Diese Controller ermöglichen eine Tonbearbeitung mit Bedienelementen

14.1 Digitale Tonbearbeitung 

 941

(Aktuatoren) in Form von Schiebe- oder Drehstellern, wie sie von der Arbeit an Mischpulten her bekannt sind. Nicht selten sind die externen Controller so umfangreich und universell ausgestattet, dass gesonderte Mischpulte am digitalen Tonbearbeitungsplatz entbehrlich werden. Nahezu alle Tonbearbeitungsprogramme bieten die Möglichkeiten zum Editieren oder Mastern von CDs oder DVDs (siehe Kap. 14.2). Oft sind sie mit Software-Komponenten zur Dynamikbearbeitung, Klangrestauration, zum Time-Stretch oder Pitch-Shift ausgestattet oder können auf Grund veröffentlichter Schnittstellenbeschreibung mit Software-Erweite­ rungen als Plug-ins ergänzt werden. Die Speicherung der digitalen Tonsignale erfolgt ebenso wie beim Audio-PC in standardisierten Formaten – oder aber auch gemeinsam mit den Infor­ mationen über die erfolgte Bearbeitung zusammen mit Schnitt- und Spurlisten (tracks) in firmenspezifischen Formaten, wodurch mitunter der Datenaustausch zwischen unterschied­ lichen Systemen erschwert wird.

14.1.7 Integrierte Funkhaussysteme Audioworkstations wurden zunächst nur als Einzelarbeitsplätze entwickelt, lassen sich jedoch mit den Mitteln und Möglichkeiten der Netzwerktechnik auch mit anderen Arbeits­ plätzen verbinden; das ist insbesondere in Funkhäusern oder großen Studios von Bedeu­ tung. Durch eine datentechnische Vernetzung entfällt der Transport von physikalischen Ton­ trägern. Dieser wird durch einen Filetransfer, also den Transport von Dateien im Datennetz, ersetzt. Durch die Vernetzung ergeben sich zahlreiche Verbesserungen von Arbeitsabläu­ fen. So können Tonbeiträge mehreren Bearbeitern in Redaktionen gleichzeitig zugänglich gemacht werden und müssen nicht in gesonderten Arbeitsgängen kopiert werden. Zur Ent­ lastung der Speichersysteme einzelner AWS werden Audiofiles auf besonderen Datenser­ vern abgelegt. Ebenso können Begleitinformationen zu Titeln, Autoren, Komponisten oder auch Urheberrechten, also Metadaten, in Archivsystemen recherchierbar gemacht werden. Eine Verknüpfung von Tondateien und Metadaten erlaubt eine erfolgreiche Recherche und zeitnahe Wiedergabe eines Beitrags (siehe Kap. 14.3.3). Zur Vorbereitung von Musikprogrammen insbesondere im Bereich der populären Musik können Sendepläne automatisch mit Hilfe von sog. Musikrotationsprogrammen erstellt werden. Hierzu werden die Musiktitel mit Begleitinformationen, z.  B. Charakter, Tempo, Solist, Orchester usw., versehen. Die Auswahl der Titel erfolgt dann nach redaktionell erstell­ ten Kriterien, welche beispielsweise die Häufigkeit eines zu spielenden Titels, eine aneinan­ der angepasste Folge von Titeln oder eine dramaturgisch gestaltete Titelabfolge beschreiben. Da die Musiktitel ohnehin auf Datenservern gespeichert sind, können vollständige Musikpro­ gramme für bestimmte Aufgabenstellungen automatisch erstellt werden. 14.1.7.1 Informationssysteme Es liegt nahe, in Rundfunkanstalten die Integrierten Funkhaussysteme für die Tonbearbei­ tung und Sendeablaufsteuerung mit weiteren Informationssystemen zu verbinden. Hierzu

942 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

gehören insbesondere Nachrichtenverteileinrichtungen zur Übermittlung von Agenturmel­ dungen, aber auch herkömmliche Bürokommunikationssysteme. Die Kopplung mit Archiv­ systemen, Honorar- und Lizenzsystemen oder weiteren Datenbanken wird oft als wünschens­ wert angesehen, um eine bruchfreie Migration der in den verschiedenen Systemen ohnehin schon vorhandenen Daten zu ermöglichen. 14.1.7.2 Havariemaßnahmen In Funkhäusern wird besonderes Augenmerk auf einen störungsfreien Betrieb gelegt. Auch wenn der Ausfall von Sendungen sich nicht immer direkt wirtschaftlich auswirkt, so schädigt dies doch zumindest das Ansehen einer Rundfunkanstalt bei den Rundfunkteilnehmern. Um einen weitestgehend zuverlässigen Betrieb sicherzustellen, sind bereits bei der Planung Inte­ grierter Funkhaussysteme besondere Maßnahmen zur Bewältigung von Havariesituationen zu treffen. Gerätetechnischer Aufwand zur Verbesserung der Stabilität von Systemen und vorbeugende Strategien sind also unverzichtbar. Hierzu gehören gedoppelte Server, selbst­ heilende Speichersysteme und Netzwerke, die ihren Status ständig überwachen und bei Ausfall einer Verbindung selbsttätig alternative Datenverbindungen herstellen. Da bei umfangreichen Funkhaussystemen mit häufig mehr als 1.000 AWS-Arbeitsplätzen und über 100  Servern eine beträchtliche Hardware- und Softwarekomplexität erreicht ist, und da Ausfälle auch nur einzelner Komponenten das gesamte System in seiner Funktion beeinträchtigen können, empfiehlt es sich, derartig große Systeme in Teilabschnitte zu unter­ gliedern bzw. zu modularisieren. Es ist daher in Analogie zur Informationstechnik gebräuch­ lich, unternehmenskritische Systembereiche redundant und räumlich verteilt anzuordnen. Die an dieser Stelle in Kurzform dargestellten Informationen über die Komponenten Inte­ grierter Funkhaussysteme werden im nachfolgenden Kap. 14.2 an praktischen Beispielen aus dem Betriebsablauf (work flow) einer Hörfunkorganisation weiter vertieft.

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk Gegen Ende des 20. Jahrhunderts haben digitale Programmproduktion und digitale Sende­ abwicklung die Analogtechnik im Hörfunk zunehmend abgelöst. Die Entwicklung digitaler Arbeitsweisen und Prozesse wurde von der Absicht getragen, wiederkehrende und zeitauf­ wändige Arbeitsschritte durch weitgehende Automatisierung zu ersetzen oder vollständig entfallen zu lassen. Die sich rasant entwickelnde IT-Technik konnte diese Anforderungen erfüllen und hielt daher schnellen Einzug in die professionelle Audiotechnik. Die analoge Beitragsproduktion, wie sie jahrzehntelang Standard im Rundfunk war, hatte systembedingt eine Reihe von Eigenschaften, die mit den in einem zeitgemäßen Radio­ betrieb geforderten Ablaufzyklen nicht mehr Schritt halten konnten (Abb. 14/8): –– Die Produktion von Sendebeiträgen war ausschließlich in Echtzeit auf Magnetband möglich. Der mechanische Bandschnitt barg die Gefahr der Verletzung des wertvollen Rohmaterials, die erzielbare Schnittgenauigkeit bei der Nachbearbeitung war begrenzt. Ein behutsamer und sachkundiger Umgang mit dem Bandmaterial war immer Vorausset­ zung für die Produktqualität.

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 943

–– In der analogen Magnetbandtechnik entstanden grundsätzlich Unikate, deren Verfüg­ barkeit örtlich eingeschränkt war. Für Mehrfachnutzungen mussten Kopien in Echtzeit angefertigt werden, deren technische Qualität je Kopiergeneration abnahm. Sog. Sicher­ heitsmitschnitte erhöhten zwar die Redundanz, waren aber mit zusätzlichem logisti­ schem Aufwand verbunden. –– Für den Transport von Bandmaterial innerhalb eines Funkhauses mussten entspre­ chende Zeit- und Personalressourcen vorgehalten werden. Diese verzögerten und verteu­ erten den Betrieb. –– Das Einlagern bzw. Archivieren von Beiträgen auf Magnetband erforderte erhebliche geeignete Raumvolumina. Hinzu kamen die unvermeidlichen Alterungsprozesse des Bandmaterials bei Langzeitlagerung. –– Automationsprozesse waren mit analogem Magnetband so gut wie nicht zu realisieren. Zahlreiche Versuche blieben meist in den Anfängen stecken.

Abb. 14/8. Umgang mit analogen Beiträgen.

Die Ablösung der Analogtechnik führte zu tiefgreifenden Änderungen in den Hörfunk­ programmen, die weit in die organisatorischen Strukturen der Medienunternehmen hin­ einreichten. Bei den Format- und Aktualitätenprogrammen wurden die Beitragsabfolgen zeitlich dichter; Jingles, Trailer, Teaser und sonstige immer wiederkehrende, oftmals nur wenige Sekunden lange Audioelemente belebten zunehmend die Programme. Die Menge an aktueller Berichterstattung wuchs, die inhaltliche Ausformung wurde vielfach knapper, Redakteure begannen, technische Aufgaben zu übernehmen. Mit herkömmlicher analoger Studiotechnik waren die agilen Sendeformate nicht mehr zu bewältigen. Zwar wurden für eine Übergangszeit halbautomatische Geräte zur Vereinfachung der Abläufe entwickelt, die jedoch nur geringen Einfluss auf den Workflow eines Hörfunkbetriebs hatten. Mit der Einführung des Selbstfahrerbetriebs entwickelte sich eine neue Form der Pro­ grammpräsentation. Radiosendungen wurden nicht mehr mit Techniker und Moderator im Zweipersonenbetrieb gefahren, sondern die Moderatoren übernahmen selbst den Ablauf der Sendung. Zunehmend steuerten sie die technische und inhaltliche Abfolge der Beitragsele­ mente. Die schnellen, genau auf den Punkt zu erbringenden und häufig von Wiederholung geprägten Arbeitsschritte waren mit Bandlaufwerken, den diversen diskreten Zuspielgeräten und den zahlreich zu schaltenden externen Quellen nicht mehr flüssig zu erbringen. Die oft schwerfällige Analogtechnik stand diesen Programminnovationen vielfach im Weg. Es war eine neue Technik gefordert, die im Hintergrund arbeitend diese Veränderungen unterstüt­ zen, gestalten helfen oder überhaupt erst ermöglichen sollte. Der technische Fortschritt auf dem Gebiet der Informationsverarbeitung konnte dazu die Grundlagen zum Gelingen liefern. Die digitale Programmproduktion und Sendeabwicklung begannen und mit ihnen eine neue Ära im Radio.

944 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

14.2.1 Aufbau einer Hörfunkorganisation In dem nachfolgend idealisiert dargestellten Szenario wird eine moderne Hörfunkorgani­ sation auf Basis der aktuellen technischen Möglichkeiten und vor dem Hintergrund ihrer Implementierung in einem Funkhaus dargestellt. Die hier charakterisierte Hörfunkwelle befinde sich in einem Neubau mit moderner Infrastruktur, die Raumplanung entspricht der Aufgabenstellung. Die einzelnen Funktionsbereiche dieser Welle sind nach einem logischen Konzept in das Gebäude integriert; die dort tätigen Menschen finden ihre Arbeitsplätze je nach Auftrag in detaillierten Arbeitsräumen oder in offenen Nutzungsflächen. Es gehören hierzu u. a. ein Newsroom, mehrere Produktionsfelder, zwei Senderegien sowie diverse Spre­ cherräume. Sozialräume und Ruhezonen für Mitarbeiter und Gäste sind im zweckdienlichen Umfang vorhanden. Die hörfunktechnischen Einrichtungen zur volldigitalen Programmer­ stellung sind installiert und befinden sich im Regelbetrieb, die datentechnischen Hilfsmittel zur internen Kommunikation, zur Kontribution, Distribution von Programm-Material und für die Anbindung an ein zentrales Archiv basieren auf bewährten Lösungen. Abb.  14/9 zeigt einen Blick auf die einzelnen Funktionsbereiche der vorgestellten Hörfunkorganisation. In diesem modernen Hörfunkbetrieb sind sämtliche für die Beitragserstellung wichtigen Informationen, wie z. B. Agenturmeldungen, Audioelemente, Textkommentare und Archiv­ daten, zeitgleich an allen autorisierten Arbeitsplätzen verfügbar (Abb. 14/10). Die Grundlage hierfür bildet ein weit verzweigtes, schnelles und performantes Datennetz. In diese Netz­ architektur sind alle erforderlichen technischen Ressourcen integriert, wie z.  B. Audioser­ ver, Datenbankserver, Router und PC-Arbeitsplätze (Clients). Die Clients sind nach Inter­ netprotokoll (IP) mit den Servern verbunden. Zahlreiche Kommunikationsapplikationen im Datennetz steuern und managen den Informationsaustausch zwischen Clients, Servern und Datenbanken. Der Client trägt die Anwendungen, die ihrerseits via Datennetz mit zentralen Serverprozessen kommunizieren.

Abb. 14/9. Aufbau einer Hörfunkorganisation.

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 945

Der Zugang zu den Informationsquellen und Arbeitswerkzeugen (Tools) in den Clients wird über eine differenzierte Vergabe der Zugriffsrechte geregelt. Nicht jeder Mitarbeiter erhält z. B. das Recht, die Reihenfolge der in einen fertigen Sendeplan eingestellten Audioelemente zu ändern oder Beiträge zu löschen. Aber alle Mitarbeiter können z. B. Audio an ihrem Arbeits­ platz anhören und möglicherweise an bestimmten Stellen bereits Marker setzen.

Abb. 14/10. Client-Server-Prinzip.

Der Vorteil von webbasierten Anwendungen ist, dass in HTML (HyperText Markup Language) programmierte Anwendungen netzwerkweit und unabhängig vom Client-PC verfügbar sind. Mit ihnen werden Installationen teurer Anwendungssoftware auf den Client-Rechnern ent­ behrlich. Benötigt werden lediglich Internetbrowser und die den Funktionen zugeordneten URL-Adressen des Webservice. Webbasierte Anwendungen sind – die notwendigen Zugriffs­ rechte vorausgesetzt – auch aus dem Internet verfügbar. URL steht für Uniform Resource Locator und bezeichnet eine Internet- oder Webadresse, die eine Datei auf einem Server angibt. Täglich gelangen Hunderte von Agenturmeldungen aus unterschiedlichsten Quellen, z. B. DPA, AFP, in das Nachrichten-Verteilsystem der hier betrachteten Rundfunkorganisa­ tion. Diese Meldungen stehen sofort, nach Themen sortiert, ohne zeitliche Einschränkung einem großen Nutzerkreis zur Verfügung. Eine räumliche oder örtliche Beschränkung gibt es dabei nicht. Jeder angemeldete Nutzer hat Zugang zu den Daten, unabhängig davon, ob er sich auf dem Rundfunkkomplex befindet oder über besondere Datenleitungen von entfern­ ten Orten über eine gesicherte weltweite Internetverbindung auf die Daten zugreift. Darüber hinaus können jederzeit weiterführende Informationen eingesehen und abgerufen werden, wie z.  B. die Ansicht eines Sendeplans, der Einblick in die Themen- und Ereignisplanung eines bestimmten Programms, in die Aussprachedatenbank, in Datenbanken zur Archiv­ recherche, in differenzierte Rechtedatenbanken und vieles mehr. Die zwingend räumliche Nähe zu den Fachredaktionen oder einer Fernschreibzentrale gehört der Vergangenheit an. Redakteure arbeiten von persönlichen Zubringern unabhängig und sind stets zeitsparend und pünktlich informiert. Musik- und Wortbeiträge in einem vernetzten System als Audiofiles verfügbar zu haben bedeutet, diese zeitgleich an mehreren Orten einsetzen zu können. Audiofiles können simul­ tan von vielen Nutzern abgehört und verwendet oder bearbeitet werden. Im Gegensatz zur analogen Programmerstellung stehen stets beliebig viele virtuelle Arbeitskopien an beliebig vielen Orten zur Verfügung. Allerdings sind bei der Verwendung von fileorientierten Wort- und Musikbeiträgen die Nutzungseinschränkungen und Nutzungsrechte verstärkt zu beachten. Fehlt einem Beitrag oder Teilen davon das Senderecht, so ist eine Ausstrahlung nicht zulässig. Wegen der leichten

946 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Zugriffsmöglichkeit bzw. Verfügbarkeit von Audiofiles verlangt der Schutz von Urheberrech­ ten erhöhte Aufmerksamkeit bei strenger Einhaltung restriktiver Regeln. Moderne digitale Sendesysteme sind in der Lage, Urheberrechte bis tief in die verzweigten Teile einer Beitrags­ produktion hinein aufzuschlüsseln. Ansprüche von Rechteinhabern können auf diese Weise nachvollziehbar automatisiert aufgezeigt und angemessen berücksichtigt werden.

14.2.2 Abläufe in der digitalen Programmproduktion Die allgemeinen Abläufe der digitalen Programmproduktion lassen sich in Akquisition, Kon­ tribution und Distribution unterteilen. 14.2.2.1 Akquisition von Programminhalten Für die Erstellung von aktuellen Beiträgen ist die Beschaffung von originalem, ursprüng­ lichem Audiomaterial, sog. O-Ton, erforderlich. Ein Reporter nimmt hierzu während des von ihm geführten Interviews die O-Töne mit einem nun digitalen Reportagegerät auf. Bei derartigen Geräten besteht die Möglichkeit, ein auf Speicherkarte aufgezeichnetes Audiofile inklusive der beschreibenden Metadaten direkt in das Sendesystem zu übernehmen. Dieser Vorgang läuft in weniger als Echtzeit ab, d. h., die Zeit für die Übernahme von der Speicher­ karte in das In-House-System ist kürzer als die reale Zeitdauer der Aufzeichnung selbst. Mit passender Software ausgestattete moderne Reportagegeräte wie Smartphones oder TabletComputern erlauben bereits neben der Aufzeichnung die Bearbeitung und den drahtlosen Versandt akquirierten Materials in ein gewünschtes Zielsystem. Die in der Vergangenheit verwendeten mechanischen Tonträger wie DAT-Kassette werden nur noch selten genutzt, da die Überspielung in ein übergeordnetes Computersystem, z. B. einen PC, in Echtzeit erfolgen muss; die Begleitdaten, die Metadaten, zum Beitrag sind in diesem Fall manuell nachzutra­ gen. Häufig werden in einem Hörfunkprogramm aus Gründen hoher Aktualität Inhalte von noch nicht beendeten Ereignissen, wie z. B. bei Sportübertragungen oder politischen Debat­ ten, aus einem Zwischenspeicher übernommen. Hierfür stehen Mitschnitt-Server zur Ver­ fügung; in der Regel sind dies Festplattenarrays mit hoher Kapazität, die eine Bearbeitung gewünschter Passagen bereits zulassen, während eine Veranstaltung noch läuft. Viele Audiobeiträge für ein Hörfunkprogramm werden an Redaktionsarbeitsplätzen vorproduziert (Abb. 14/11). Auch diese rechnergestützten Arbeitsplätze sind in die Gesamtar­ chitektur eines Client-Server-Systems der Rundfunkanstalt integriert. Ein Redaktionsarbeits­ platz besteht in der Regel aus einer geringen Anzahl von technisch einfachen Geräten, an denen alle wichtigen Grundfunktionen zur Beitragserstellung bis hin zum Telefoninterview vorliegen. Darüber hinaus gelangen fertige oder teilbearbeitete Beiträge im Rahmen des aktuellen ARD-Audiofiletransfers in die Sendesysteme der Rundfunkanstalt. Die Redaktionen über­ nehmen dort bei Interesse und Bedarf dieses Audiomaterial nach Prüfung auf ihre Eignung für eigene Sendezwecke.

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 947

Abb. 14/11. Prinzip eines Redaktionsarbeitsplatzes.

Musiktitel der CD-Industrie gelangen nur in geringem Umfang von der Disc direkt in die Sendung. In den sog. Formatprogrammen werden häufig gespielte CD-Titel als Audiofiles in der „Musikrotation“ eines Programmservers gespeichert. Die Musiktitel der CD werden dazu in weniger als Echtzeit ausgelesen und im gewünschten Zielformat als Audiofile abgelegt (Grabbing). Die den Titel begleitenden Metadaten werden bei dieser Gelegenheit miterfasst und um redaktionsrelevante Charakterisierungen durch Zusatzdaten ergänzt (z. B. vocal, ins­ trumental, ruhig). Man erhält auf diese Weise Basisdaten, die den Zugriff auf umfangreiche beschreibende Informationen bis hin zu Cover und Booklet ergänzen. Dieser Arbeitsschritt kann auch von der Unterstützung durch Internetdatenbanken oder durch die ARD-Hörfunk­ datenbank begleitet sein. Die ARD-Hörfunkdatenbank ermöglicht in Verbindung mit der digitalen Bemusterung der Archive (DigiBemA) eine durchgängig filebasierte Arbeitsweise: Beim ARD-Sternpunkt ist ein großer Audiospeicher realisiert, in dem Musikneuerscheinungen der Tonträgerindustrie eingestellt werden. Dort recherchiertes Audiomaterial kann einschließlich Booklet und zuge­ höriger Metadaten in die eigene Rundfunkanstalt übernommen werden (siehe Kap. 16.2.7.2). Häufig unterhalten die Rundfunkanstalten eigene Speicher- und Verteilsysteme, die Bei­ tragsmaterial für Hörfunk und Fernsehen vernetzt verfügbar machen. Als Folge verliert der direkte Umgang mit dem Tonträger CD zunehmend an Bedeutung und wird voraussehbar bald der Vergangenheit angehören, wie es seinerzeit beim Fortfall des analogen Magnetbands der Fall war. Musiktitel werden künftig nur noch per Webinter­ face aus einem entfernten Audiospeicher abgerufen und sind umgehend am Arbeitsplatz einer Redaktion oder im Studio nutzbar. 14.2.2.2 Kontribution von Programminhalten Bei der Kontribution wird eine große Anzahl komplexer Arbeitsschritte zusammengeführt. Ziel ist, einen durchgängigen Sendungsablauf mit all seinen Elementen und zeitlichen Zuordnungen zu generieren. Wort- und Musiktitel werden geplant, recherchiert, produziert und in einen Sendeplan überführt, um diesen zu einem gewünschten Zeitpunkt abzurufen. Zudem wird dieses Angebot mit weiteren Serviceelementen im laufenden Programm ergänzt, beispielsweise durch Platzhalter für moderierte Verkehrsmeldungen und sonstige aktuelle Live-Informationen (Abb. 14/12).

948 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Recherche Für die Erstellung eines Hörfunkbeitrags können Informationen aus verschiedenen Quellen recherchiert werden. Hierfür stehen das Agentur-Nachrichtenverteilsystem, das Pressearchiv, das Schallarchiv, das Aussprachearchiv sowie sonstige Quellen, z. B. auch das Internet, zur Verfügung. Die inhaltliche Erschließung in den Datenbanken der jeweiligen Archive leisten spezialisierte Dokumentare. Die Ergebnisse sind auch in der ARD-Hörfunkdatenbank bzw. den Nachfolgesystemen gespeichert und netzwerkweit abrufbar. Alle Wort- und Musikanteile können als Audiofiles sehr flexibel in verschiedenartige Sendepläne eingefügt und auch nach Belieben wiederholt werden. Live auszusendende Audioelemente, wie z. B. Sportsendungen, Konzerte, Interviews und Moderationen, werden ebenfalls in den Sendeablaufplan eingestellt. Am Ende eines Planungsprozesses stehen diese Beiträge im sog. Tagessendeplan. Beitragserstellung Die digitale Beitragsbearbeitung und die Bereitstellung als Audiofile nebst beschreibenden Metadaten bilden die Grundlage für eine schnelle Programmerstellung. Mit sog. Audioedi­ toren als Bearbeitungstools einer digitalen Audioworkstation (AWS, DAW) und dem Daten­ bankmanager stehen leistungsstarke Softwaretools zur Verfügung, die mit ihren kreativen Gestaltungsmöglichkeiten der konventionellen analogen Programmerstellung weit überle­ gen sind. Eine flexibel und intuitiv zu bedienende grafische Benutzeroberfläche bietet in der Regel eine breite Palette gestalterischer Möglichkeiten, vom einfachen Audioschnitt bis hin zur Klangrestaurierung. Durch die sog. „Undo-Funktion“ können Arbeitsschritte beliebig oft wiederholt oder rückgängig gemacht werden, die komplette Bearbeitung ist also in der Regel non-destruktiv. So können einzelne Audioelemente wie O-Töne, Geräusche, Musikstü­ cke und Texte mit verschiedenen Dateiformaten in kurzer Zeit zu interessanten und lebendi­ gen Hörfunkbeiträgen, neuerdings in Containerformaten zu Stories arrangiert werden. Ent­ sprechend erfahrene und ausgebildete Redakteure sind in der Lage, diese Arbeit an einer Workstation ohne Experten-Unterstützung zu erledigen. Die Angst vor dem mechanischen „blutigen“ Bandschnitt und die mögliche Zerstörung eines Audioelements gehören der Ver­ gangenheit an. Ein an einer AWS produzierter Beitrag ist nach erfolgtem Datenbankeintrag und nach Sicherung sofort an anderer Stelle verfügbar, für Abhören, Freigabe, Einstellen in den Sendeplan oder zur sonstigen weiteren Verwendung. Teamarbeit wird so in idealer und zeitsparender Weise möglich – redaktionelle Abläufe sind erheblich beschleunigt. Musikrotation Je nach Format der Sendung nimmt dessen identifizierende musikalische Ausrichtung einen unterschiedlich hohen Stellenwert ein. Zusammen mit den Produktionselementen (Jingles, Trailer usw.) zur Positionierung des Senders bewirkt die Musikrotation eine maßgebliche Prägung des Senderimages. In einem üblichen Spartenprogramm sind im Musik-Rotationsspeicher meist mehrere tausend Titel abgelegt. Der Inhalt des Musikspeichers wird regelmäßig gepflegt, d. h., neue Titel kommen hinzu, während ältere aus dem nicht mehr aktuellen Repertoire ausgesondert werden. Musiksendungen bestehen aus einer Abfolge einzelner Titel, die z. B. im Stundenras­ ter für die Tagessendepläne erstellt werden. Der Musikauswahl kommt ein hoher Stellenwert

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 949

Abb. 14/12. Vorgänge digitaler Programmerstellung.

Abb. 14/13. Sendetisch mit Pult und Sendeablaufsteuerung.

zu, da sie den Publikumserfolg bzw. die Reichweite eines Radioprogramms wesentlich bestimmt. Die Zusammenstellung der Titel wird in der Regel mit Hilfe spezieller Musikrotati­

950 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

onssoftware unterstützt. Eine flexible Musikrotation kann einen aufwändigen Sendeplan in kurzer Zeit generieren. Sendeplanung und -abwicklung Für die technische Abwicklung und Ausführung von Sendeplänen sorgen rechnergesteuerte Systeme. Dies hat den Vorteil, dass ein aktivierter Sendeplan auch kurzfristig noch geän­ dert werden kann (Abb. 14/13). Auf einem Bildschirm sind unterschiedliche Ausschnitte des Programmablaufs einschließlich aller zu sendenden Wortbeiträge, Musiktitel und Positionie­ rungselemente dargestellt. Auch beschreibende Textinformationen, wie Hinweise zu Musik­ titeln oder zur Moderation, Wetter- und Verkehrsmeldungen usw. kommen auf Bildschirmen im Umfeld der Sendeabwicklung zur Anzeige. An diesen Informationen orientiert sich der Moderator und fährt die Sendung „ereignisgesteuert“. 14.2.2.3 Distribution Ein vernetztes Verteilsystem erleichtert die Programmverteilung zu den verschiedenen Senken und Verbrauchern durch automatisches Anlegen von Kopien. Mit dem HYBNET (siehe Kap. 16.5.6) hat sich die ARD ein leistungsstarkes Austauschnetz geschaffen, das auch eine europaweite Verteilung von Audiofiles ermöglicht. Das Prinzip „Verteilung durch Kopie” funktioniert hier sehr effizient. Adressaten können die bei ihnen automatisch eingegange­ nen Beitragskopien umgehend in ihren eigenen digitalen Produktions- und Sendesystemen einsetzen. Binnen kurzer Zeit werden auf diese Weise Beiträge einschließlich ihrer beschrei­ benden Metadaten wie Titel, Autor, Begleitkommentar u.  a. in Umlauf gebracht. Der Bei­ tragsaustausch lässt sich auch per Internet mit sog. Reporterportalen praktizieren; insoweit wird durch die globale Verfügbarkeit des WWW (World Wide Web) eine von Betriebszeiten und Standorten unabhängige, zeitnahe Verteilung von Beiträgen erreicht. Mit der 2020 ein­ geführten Neuerung „weConnect“ können multimediale Essenzen einschließlich Texten als sogenannte Storys in der ARD verteilt und gemäß Nachrichtenlage aktuell gehalten werden. Die Ausstrahlung von beschreibenden Beitragsdaten hat hohen Stellenwert. Im Internet (Mediathek, Radio APP), über Digital-Radio (DAB+), DVB-S-Radio sowie im konventionellen terrestrischen UKW-FM-Hörfunk werden Informationen wie Titel, Interpret usw. mitgesen­ det. Die Generierung dieser und auch weiterer Informationen erfolgt durch die automatische Entnahme aus den digitalen Systemen des Hörfunks. Für den Rundfunkteilnehmer werden diese mit einer Radio APP oder der Slideshow auf DAB+ sichtbar gemacht. Dem Nutzer einer Radio APP oder eines DAB+ Programms werden neben Coverbildern auch Grafiken beispiels­ weise zur aktuellen Wetter- oder Nachrichtenlage zuteil. Eine Radio APP bietet dem Hörer zudem die Möglichkeit, in der Vergangenheit ausgesendete Beiträge individuell abzurufen (On Demand, Podcast). Ebenso stehen Channels zu Verfügung, auf denen z. B. Konzerte per Stream wiederholt mitgehört werden können. Die digitale Programmerstellung ist eine ideale Voraussetzung dafür, den Hörer bis zum Endgerät nicht nur mit digitalem Audiomaterial, sondern auch mit programmbezogenen Texten und bebilderten Informationen zu versorgen. Mit der fortschreitenden Automatisie­ rung werden wiederkehrend bereitzustellende Beiträge wie z. B. Aktuell- und Nachrichten­

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 951

sendungen durch automatisierte Prozesse montiert und dem Hörer im Internet verfügbar gemacht – Automatisierung vermeidet auf diese Weise sich wiederholende Tätigkeiten.

14.2.3 Digitaler Workflow der Programmproduktion Die im Rahmen der Programmerstellung anfallenden Arbeitsabläufe entwickeln sich entlang einer Zeitachse. Deren Einteilung ist in die Phasen Planung, Sendevorbereitung und Sen­ deablauf untergliedert. Um eine räumliche und inhaltliche Übersicht zu gewährleisten, aber auch um Ausfallsicherheit, also Redundanz, zu schaffen, sind abgestufte Gruppen von Audiospeichern einschließlich der zugeordneten Datenbanken eingerichtet. In diesen wird das Material unterschiedlicher Herkunft und Art abgelegt und für eine vereinbarte Zeitdauer aufbewahrt (Tab. 14/1). Tab. 14/1. Speicherkategorien und ihre Speicherungsdauer. Speichertyp

Dauer der Speicherung

Verwendungszweck

Aktualitätenspeicher AFT-Speicher Rotlicht-Mitschnittspeicher Individualspeicher Vorbereitungsspeicher Musikspeicher Repertoirespeicher Wellenspeicher Sendespeicher Archivspeicher

4 Tage 7 Tage 2 Tage 3 Monate 3 Monate 5 Jahre variabel 1 Jahr 1 Tag ohne Begrenzung

Mitschnitte von Leitungen, z. B. Sport Ablage von Audiofiles aus der ARD Mitschnitt von Moderation und Interviews Ablage persönlichen Audiomaterials Ablage noch nicht sendefertiger Audios Ablage von Musik Ablage von Musiken des Titelstocks Ablage von sendefertigem Material Ablage nur zur Ausspielung Endablage ausgewählten Materials

Die in Tab. 14/1 dargestellte Speicherdefinition gestattet es, in einem vernetzten Hörfunksys­ tem eine geeignete Aufgabenteilung einzurichten. Mit Hilfe der Audiospeicher wird nicht nur eine Übersicht über die verteilten Ressourcen geschaffen, sondern es ergeben sich hierdurch auch Regeln für bestimmte Arbeitsabläufe; so dürfen beispielsweise nur fertig produzierte und durch eine autorisierte Person abgenommene Wortbeiträge in den Wellenspeicher ein­ gestellt werden. Die beschreibenden Informationen zu den Wort- und Musikbeiträgen – d. h. die Metada­ ten und die zugehörigen technischen Speicherorte der Audiofiles – werden in einer eigenen Datenbank vorgehalten. Die zur Aussendung freigegebenen Beiträge liegen, bildlich gespro­ chen, auf einem Transportband, das mit Realzeitbezug voranschreitet. Die Plätze auf diesem Band sind die gewünschten Sendezeitpunkte der Beiträge. Technisch wird ein solcher Prozess mittels des sog. Schedulers, im betrachteten Fall mit dem Sendeplanungsmodul, ausgeführt. Im geschilderten Speichermodell werden in den Sendeplan bereits zu einem frühen Zeit­ punkt, beispielsweise sechs Wochen vor Sendung, zunächst nur Beiträge aus dem Wellen- im Musik- oder Repertoirespeicher eingestellt. Aus dem Wellenspeicher erfolgt dieser Arbeits­ schritt manuell mit „Drag and Drop“, aus dem Repertoirespeicher werden die Musiktitel mit

952 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Hilfe der Musikrotationssoftware eingestellt. Ergänzend können aber auch Inhalte aus dem Musikspeicher von Hand in den Sendeplan gestellt werden. Die Einstellung in den Sendeplan bedeutet, einen Auftrag dafür zu erteilen, den gewünschten Beitrag vor seiner geplanten Ausspielung dem Sendespeicher zu übergeben, d. h., den Beitrag automatisch dorthin zu kopieren. Der aktive Tagessendeplan nutzt ein Zeit­ fenster in Form einer um die aktuelle Uhrzeit definierten „Hot-Zone“ (siehe Abb. 14/14). Bei­ träge innerhalb der Hot-Zone werden automatisch in den Sendespeicher kopiert und können dann mit der Sendeablaufsteuerung ausgesendet werden. Abgespielte Beiträge werden als solche im Sendeplan gekennzeichnet und automatisch aus dem Sendespeicher gelöscht. Nur ein im Vorfeld ausgewählter Teil der gesendeten Beiträge wird im Langzeitarchiv für spätere Zugriffe gespeichert.

Abb. 14/14. Prozessablauf einer Hörfunksendung.

Dieser Prozess schreitet auf der Zeitachse voran. Er bewirkt, dass nur derjenige Teil von Bei­ trägen die Transferleistung des Sendespeichers beansprucht, der innerhalb der Hot-Zone liegt. Neue Sendeplanelemente außerhalb der Hot-Zone werden erst dann bewegt, wenn sie sich in einem festgelegten Zeitraum davor befinden. Durch das automatische Löschen gesen­ deter Elemente aus dem Sendespeicher verfügt die Sendeablaufsteuerung stets nur über aktuelle Beiträge. Ausgewiesenes Merkmal eines Sendeplanmoduls ist es, im letzten Moment in der Hot-Zone eintreffende Beiträge in den Sendespeicher zu überführen. Dies ist möglich,

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 953

weil zwischen der Hot-Zone des aktiven Tagessendeplans und der Sendeablaufsteue­­rung eine enge zeitliche Kopplung besteht, die eine schnelle Kopie ermöglicht. Planung Zur Planung von Programmelementen steht der längste Zeitraum zur Verfügung. In der Themen- und Ereignisplanung wird ein Eintrag vorgenommen, der Ort, Zeit, Thema, Per­ sonen und benötigte Ressourcen sowie den Sendezeitpunkt ausweist (Abb.  14/15). Ist das Programmelement ein Interview, so existiert hierfür ein Platzhalter im Sendeplan, der die Aussendung z. B. im Rahmen einer aktuellen Sendung festlegt. Die sog. Sendeuhr sieht eine genaue Abfolge und zeitliche Gewichtung der Inhalte vor. So ist der Anteil von Wort, Musik und Produktionselementen bereits in diesem frühen Stadium durch die Programmleitung vorgegeben. Sendevorbereitung In der Phase der Sendevorbereitung erfolgt in den dafür vorgesehenen Studios oder an den Redaktionsarbeitsplätzen die aktuelle sendenahe Beitragserstellung. Der fertige Beitrag wird im Produktionsspeicher, in Tab. 14/1 Vorbereitungsspeicher genannt, angelegt, produziert und nach der Freigabe in den Wellenspeicher überführt. In diesem Fall wird keine Kopie angefertigt, sondern nur eine Verschiebung vorgenommen. Der Beitrag wird auf den vorge­ sehenen Platzhalter im Sendeplan eingestellt und nimmt somit seine Position im Sendege­ schehen ein.

Abb. 14/15. Zeitlicher Ablauf der Programmerstellung.

Sendeablauf Planung und Sendevorbereitung sind Arbeitsabläufe für Zukünftiges im Programm. In der nachfolgenden abschließenden Phase findet die Sendung aller relevanten Beiträge und Ver­ packungselemente statt. Die Sendeabwicklung ist Gegenwart – sie entspricht exakt der aktu­

954 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

ellen Uhrzeit im gesendeten Programm und erfolgt in der Senderegie zeitlich punktgenau mit Unterstützung der Sendeablaufsteuerung. Die Sendeabwicklung ist im Vergleich zu den davor liegenden Phasen ein zeitkritischer Vorgang. Der Beitrag muss hier zum gewünschten Zeitpunkt verzögerungsfrei abgespielt werden. Zudem müssen letzte Änderungen in der Beitragsreihenfolge sofort erfolgen können. Dies alles wird ereignisgesteuert vom Moderator initiiert und inhaltlich begleitet.

14.2.4 Module im digitalen Workflow Die prozessbegleitenden Module für ein digital gesteuertes Hörfunkprogramm verfügen häufig über herstellerspezifische Schnittstellen für Informationen und Arbeitsergebnisse. Ein reibungsloser Austausch von Steuer- und Nutzdaten ist wesentlich für ein Hörfunksys­ tem; denn erst ein fehlerfreies Zusammenspiel aller Systemkomponenten stellt den beab­ sichtigten betrieblichen Ablauf sicher. Die Zusammenführung der Schnittstellen von Produkten unterschiedlicher Hersteller bedarf umfangreicher Abstimmungsprozesse und benötigt daher intensive Planungsarbeit und ausgiebige Testphasen. Da die in Betrieb befindlichen Systeme zur digitalen Programm­ erstellung aus Modulen unterschiedlichen Ursprungs bestehen, haben einige Hersteller sich auf die Entwicklung von softwarebasierten Schnittstellenadaptern spezialisiert und auf diesem Gebiet besondere Kompetenz erworben. Als Beispiel für die erfolgreiche Konfiguration von Produkten unterschiedlicher Entwick­ ler sei im hier betrachteten Beispiel die Musikrotationssoftware in Kombination mit der Sen­ deplanung genannt. Im Prinzip kann jede Rotationssoftware über eine Programmierschnitt­ stelle an das Sendeplanungssystem eines anderen Herstellers angeschlossen werden. Dieser häufig vorkommende Fall gründet darauf, dass die meisten Hersteller von Sendeplanungs­ systemen auf die Eigenentwicklung komplizierter Rotationssoftware verzichten und daher die Schnittstellen zu kooperierenden Produkten offenlegen. Um generell eine möglichst überschaubare Datenbankstruktur und Prozesssteuerung zu ermöglichen, werden vorzugsweise Schnittstellenarten eingesetzt, die eine Vernetzung und den Support von einzelnen Modulen möglichst einfach und homogen gestalten lassen. Hier haben sich in jüngerer Zeit Schnittstellen auf XML-Basis (Extensible Markup Language) bewährt. Beispielhaft sei als Entwicklung des ehemaligen Instituts für Rundfunktechnik (IRT) das Broadcast Metadaten Format BMF erwähnt, welches alle in der Rundfunk-Betriebspraxis benötigten Metadaten beinhaltet. Hierauf aufbauend entstand SML (Story Markup Language) das seit 2020 die Hörfunk-Sendesysteme der ARD-Anstalten für den Beitragsaustausch unter­ einander verbindet. Die wichtigsten Module zur digitalen Programmerstellung – sie werden anschließend genauer beschrieben – sind –– Beitragserstellung, –– sendungsbegleitende Produktion, –– Datenbankmanager für Audiofiles, –– Sendeplanung, –– Sendeprotokoll und Nutzungsrechte, –– Recherchewerkzeuge Archiv,

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

–– –– –– –– –– –– –– –– –– –– ––

 955

Aktualitätenspeicher, Musikrotation, Sendeablaufsteuerung, Regionalisierung, Themen und Ereignisplanung, Nachrichtenverteilung, Phonescreening und Off Air Elemente, Serviceinformationen, Aufbereiten von Zusatzinformationen, Leitungsdisposition, Dokumentationssystem.

14.2.4.1 Beitragserstellung Für die Beitragserstellung auf den Client-PCs werden Audioeditoren als Bearbeitungswerk­ zeuge eingesetzt. Mit ihnen können alle in der Praxis wichtigen Bearbeitungsfunktionen aufgerufen und auf Audioelemente angewandt werden, wie z.  B. Abhören, Aufnehmen, Schneiden, Pegelkorrektur, Blenden, Mischen, Übersprechen (voice over) und Ändern der Reihenfolge. Zur Aussteuerung einer Mikrofonaufnahme am Redaktionsarbeitsplatz werden häufig Voiceprozessoren eingesetzt, die eine automatische Pegelanpassung ermöglichen. Für eine gefällige Audioqualität lassen sich Presets konfigurieren, in denen z. B. ein persön­ liches Soundprofil des Sprechers hinterlegt ist. Der Prozess der Audiobearbeitung erfolgt stets in Verbindung mit dem zugehörigen Datenbanksystem. Der Dialog erstreckt sich im Hintergrund über mehrere Datenbanken mit unterschiedlichen Rechercheoberflächen, da Wortbeiträge, Musiktitel, Geräusche, O-Töne und sonstige Bestandteile in verschiedenen Speichern des Systems abgelegt sind. Der bear­ beitete Beitrag wird nach seiner Fertigstellung wiederum in einen der Audiospeicher übertra­ gen, z. B. in den wellenorientierten Vorbereitungsspeicher. Die Beitragserstellung wird seit einiger Zeit von einer automatisierten Lautheitskorrektur unterstützt mit der die Durchhör­ barkeit von Beiträgen optimiert wird. Fertige Beiträge gelangen durch diesen Hintergrund­ prozess optimiert in die Ausstrahlung oder als Podcast ins Internet. Es gibt zwei Möglichkeiten, den Audioeditor in einem Sendesystem zu nutzen. Man unter­ scheidet dabei den „Schnitt auf dem Server“ oder den „lokalen Schnitt“ auf einer Audiobear­ beitungsstation. Beim Schnitt auf dem Server verbleibt das Audiomaterial auf dem zentralen Fileserver. Vorteil hierbei ist, dass kein lokaler Kopiervorgang auf die Arbeitsstation erforder­ lich ist und deshalb zeitökonomisch gearbeitet werden kann. Bei entfernt liegenden Stand­ orten ist der zentrale Fileserver über eine WAN-Verbindung (Wide Area Network) mit nied­ rigen Bandbreite-Anforderungen erreichbar, was den Vorteil dieser Arbeitsweise verstärkt. Im anderen Fall, dem Schnitt auf der lokalen Arbeitsstation, sind die Audioelemente auf der dort installierten Festplatte zu bearbeiten. Hierzu werden alle benötigten Audiofiles lokal geladen, verarbeitet und erst nach Fertigstellung der Produktion auf den zentralen Fileserver rückgespeichert. Diese Arbeitsweise hat den Vorteil, dass im Fall einer abreißenden Daten­ netzverbindung bis dahin geleistete Arbeitsschritte nicht verloren gehen. Es ist eine Ermes­ sensfrage, welche Konfiguration bevorzugt wird. Moderne Audioeditiersoftware erlaubt es,

956 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

verschiedene Fileformate gleichzeitig in einer Produktion verwenden zu können. Damit ent­ fallen die mitunter fehlerträchtigen iterativen oder singulären Konvertierungsprozesse. In neuerer Zeit werden die Redaktionen bei der Beitragsproduktion mit Audiomining unterstützt. Dabei wird eine vorliegende Audiodatei einem Analyse-Prozess übergeben, der eine spezielle Textdatei mit Zeitmarken zu jedem Wort zurückliefert. Im Ergebnis liegen Text und Audio in einem Modul verbunden vor und erleichtern die Arbeit. 14.2.4.2 Sendungsbegleitende Produktion In der sendungsbegleitenden Produktion werden zeitlich kritische Audioproduktionen her­ gestellt, die unmittelbar im aktuellen Sendeablauf benötigt werden. Die sendungsbeglei­ tende Produktion ist fester Aufgabenbestandteil des Sendungsteams. Dort wird auch auf die klangliche Positionierung des Programms und dessen gewünschtes Sounddesign geachtet, einschließlich einer Lautheitsanpassung in der Abfolge von Beiträgen und Musiktiteln. 14.2.4.3 Datenbankmanager für Audiofiles Der Datenbankmanager ist eines der wichtigsten Module bei der digitalen Programmerstel­ lung; er gibt eine Übersicht der Inhalte und stellt diese in ihrem organisatorischen Zusam­ menhang grafisch dar. Es wird auf Tab. 14/1 verwiesen, in der die unterschiedlichen in einem Datenbankmager anzutreffenden Speicherkategorien zusammengefasst sind. Alle an der Programmerstellung Beteiligten sehen redaktions- und aufgabenbezogen die jeweils für sie wichtigen Speicher, aus denen Rohmaterial entnommen werden kann, um hieraus Beiträge zu erstellen und zur weiteren Verarbeitung in den Sendespeicher einzustel­ len. So greift z. B. ein für aktuelle Beiträge zuständiger Redakteur auf den Aktualitätenspei­ cher zu, um dessen Inhalte für die Verwendung im weiteren Sendegeschehen einzusetzen. Der Datenbankmanager selbst ist eine Client-Anwendung mit grafischem Nutzerinter­ face und kommuniziert mit dem zentralen Serverprozess und dessen Datenbank. Steht diese Anwendung im Havariefall einmal nicht zur Verfügung, hat das erhebliche Auswirkungen auf den Hörfunkbetrieb. Der zentrale Serverprozess wird daher üblicherweise redundant geführt, um die hohe geforderte Ausfallsicherheit dieser Systeme zu gewährleisten. Der Datenbankmanager ermöglicht den Zugriff auf alle im Sendesystem verfügbaren Audiospeicher und aller dort liegenden Wort- und Musikbeiträge; er hat Schnittstellen zum Audioeditor und zur Sendeplanung sowie zum Nachrichtenverteilsystem für die Übernahme von Textinformationen. Auch Zugriffe auf multimediale Inhalte, wie z. B. Bilder und Videos, können verwaltet werden. Mit dem Datenbankmanager können folgende Funktionen gesteuert werden: –– Recherchieren nach Beiträgen durch Eingabe von Filterkriterien in einer Suchmaske, –– Abhören durch Klick auf das Lautsprechersymbol, –– Anzeigen von Detailinformationen wie z. B. Autor, Datum, Länge usw. durch Doppelklick auf den Beitrag, –– Verschieben und Kopieren von Beiträgen zwischen den Speichern durch Drag and Drop, –– Anlegen neuer Beiträge in ausgewählten Speichern, –– Starten weiterer Applikationen wie Sendeplanungsmodul und Sendeprotokoll, –– Start des Audioeditors,

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 957

–– Übernahme markierter Beiträge in den Editor, –– Start des Sendeplanungsmoduls zum Einstellen der Metadaten markierter Beiträge in den Tagessendeplan. 14.2.4.4 Sendeplanung Das Sendeplanungsmodul erlaubt die Gliederung von Sendeabläufen. Dabei können mit Hilfe von Rahmensendeplänen wechselnde Tagesstrukturen geplant werden, getrennt nach Werktagen, Wochenenden oder Feiertagen. In einen zunächst leeren Sendeplan werden Platzhalter eingetragen, die dem Sendeablauf entsprechen. Später erfolgt die Ergänzung mit den dort einzustellenden Beiträgen oder mit Anweisungen für Leitungsübernahmen, Mode­ rationen, Wetter- und Verkehrsnachrichten usw. Die Tagessendepläne weisen eine Graduierung z.  B. im Stundenraster auf. Die freien Plätze in einer blockweise unterteilten Sendestunde werden mit Beiträgen versehen. Mit diesem Schritt werden auch die Metadaten der Beiträge mit Hilfe des Datenbankmanagers in den Sendeplan überführt und dort sichtbar gemacht. Das eigentliche Audiofile des Beitrags verbleibt jedoch in dieser Phase noch an seinem Speicherort im Vorratsspeicher. Mit dem Vorrücken der Sendung gelangt der Beitrag in die Hot-Zone. Jetzt erst erfolgt die Kopie in den Sendespeicher, synchron mit dem aktiven Tagessendeplan und der Sendeablaufsteuerung. Die Musikrotationssoftware stellt als Ergebnis der Vorplanung eine Folge von Musik­ titeln für zuvor bestimmte Sendeplätze zur Verfügung. Das Sendeplanungsmodul nimmt diese Daten über eine Schnittstelle von der Rotationssoftware entgegen einschließlich der gewünschten zeitlichen Lage eines Musikstücks und seiner Take-ID als eindeutiges Merkmal. Die Take-IDs werden mit speziellen Algorithmen vom Sendesystem ermittelt, um eine ein­ deutige Kennzeichnung des Audiofiles sicherzustellen. Das Sendeplanmodul verfügt über Schnittstellen zu anderen Datenbanken, z. B. Musik­ rotation, kommerzielle Werbeplanung, Sendeablaufsteuerung, Sendeprotokoll, Zusatzin­ formations- und Metadaten-Aufbereitung. Die zu sendenden und die gesendeten Ereignisse werden in Form ganzer Sendetage aufgelistet. Während des Sendeverlaufs von dem Modul Sendeprotokoll erfasste Daten können auch zur Auswertung von Abgeltungsrechten dienen (siehe Kap. 14.2.4.5). Die Ansicht des Sendeplans steht als Webseite zur Verfügung. Das hat den Vorteil, dass sich viele Mitarbeiter gleichzeitig über das laufende oder das geplante Sendegeschehen informieren können, ohne dass hierfür Client-Lizenzen erforderlich werden. Die Webansicht des Sendeplans ist von jedem Arbeitsplatz mit einem geeigneten Browser einsehbar. Entspre­ chende Zugangsrechte vorausgesetzt, ist diese Nutzung beispielsweise einem Reporter von externer Stelle, z. B. einem Internet-Café aus möglich. 14.2.4.5 Sendeprotokoll und Nutzungsrechte Mit jedem geleisteten Sendetag entsteht gleichzeitig ein Tagessendeplan der Vergangenheit, auch Ist-Plan genannt. Die Inhalte vieler Ist-Sendepläne lassen sich mit dem Werkzeug Sen­ deprotokoll analysieren und Inhaltsuntersuchungen über vergangene Zeiträume hinweg durchführen. Dies ist zum einen notwendig, um eine Kontrolle darüber zu erhalten, was und wann etwas gesendet wurde. Zum anderen können mit der editierbaren Ergebnisliste Ele­

958 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

mente nachgetragen werden, die von nicht filebasierten Wegen in die Ausstrahlung gelangt sind. Am Ende entsteht eine Datenbasis für die Abrechnung von Nutzungsrechten mit der Gema, GVL o.a. 14.2.4.6 Recherchewerkzeuge für das Archiv Im Folgenden werden Archivwerkzeuge beschrieben, die als Web-Anwendungen netzwerk­ weit zur Verfügung stehen. Es handelt sich dabei um Dokumentationsdatenbanken für Text-, Audio- und Videobeiträge. Dem recherchierenden Redakteur steht somit ein großer Fundus von Informationen über eine komfortabel zu bedienende Benutzeroberfläche zur Verfügung. Hinsichtlich der Recherche von multimedialen Inhalten im Bestand des Langzeitarchivs ergeben sich innovative Programm-Gestaltungsmöglichkeiten. Viele Rundfunkanstalten digitalisieren nahezu ihren gesamten Archivbestand, d. h., man trennt sich dort weitgehend vom Medium Band und überträgt die analoge Information in die digitale Domäne. Die durch Capturing gewonnenen neuen Medienfiles werden in Langzeitspeichern, wie sie in der Groß­ rechnertechnik verwendet werden, aufbewahrt. Die Storagesysteme sind bandgestützt oder basieren auf Festplattenlösungen (siehe Kap. 15.3). Das Audiomaterial des Langzeitarchivs kann mit entsprechenden Bedienmasken kom­ fortabel recherchiert und in reduzierter Qualität vorgehört bzw. gesichtet werden. Zudem lassen sich aufgefundene Beiträge anhand von Inhaltsbeschreibungen auswerten und bei Bedarf in hoher Qualität downloaden. Neue Crossmediale Datenbanken ermöglichen so die Recherche aller verfügbaren Archivbestände der Landesrundfunkanstalten. 14.2.4.7 Aktualitätenspeicher Historisch gesehen war der Aktualitätenspeicher die erste technische Einrichtung zur Verein­ fachung der Arbeitsabläufe im Nachrichten- und aktuellen Bereich. Im Jahre 1987 kam ein vom australischen Rundfunk entwickeltes System auf den Markt, dessen Merkmal es war, über analoge Tonleitungen eintreffende Signale zu digitalisieren und in einem Zentralspei­ cher aufzubewahren; die Datenfiles wurden in einer einfach strukturierten Datenbank abge­ legt. Eine besondere Eigenschaft dieses Systems war seine Fähigkeit, die Schnittbearbeitung schon während der Aufzeichnung zu ermöglichen. Die auf diese Weise erzeugten Audiofiles konnten über eine Sendeliste ausgespielt und mittels noch analoger Leitung unmittelbar dem Sendestudio übergeben werden. In dieser Frühphase der Digitalisierung waren noch keine übergreifend vernetzten Systeme bekannt und man half sich daher mit Einzellösungen und dedizierter Gerätetechnik. Der beschriebene Aktualitätenspeicher kannte weder eine graphische Benutzeroberfläche noch standardisierte Schnittstellen. Die Arbeitsplatzgeräte waren Terminals, deren Aktionen unmittelbar vom Zentralsystem verarbeitet wurden. Heutige Aktualitätenspeicher werden für Liveaufzeichnungen im Programmaustausch meist aus der Leitungsdispositionssoftware heraus gesteuert. In diesem Fall lassen sich, zusätzlich zu den vorhandenen beschreibenden Daten, auch neue Metadaten, wie z.  B. Beginn und Ende eines Mitschnittauftrags, generieren. Zusatzinformationen können schon bei der Leitungsdisposition, falls in diesem Stadium ein Beitrag bereits beschrieben werden

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 959

kann, mitgegeben werden. Im Aktualitätenspeicher sind die Mitschnitte mit Hilfe eines Datenbankmanagers leicht auffindbar.

Abb. 14/16. Prinzip des Aktualitätenspeichers.

14.2.4.8 Musikrotation Ziel einer um 1975 beginnenden Entwicklung war es, einerseits ungewollte Wiederholungen von Musikbeiträgen im Hörfunk zu vermeiden und andererseits die arbeitsintensive manu­ elle Erstellung von Titellisten zu automatisieren. Die gefundene Lösung nannte sich „Musik­ rotation“ und generierte in der ersten Entwicklungsstufe Papierlisten für das Schallarchiv, nach denen die seinerzeit noch analogen Tonträger für die einzelnen Hörfunkprogramme zusammengestellt wurden. Aus der Liste ergab sich das für den Sendetag zu schreibende Ist-Sendeprotokoll, welches gleichzeitig die Grundlage zur Abrechnung der Leistungsschutz­ rechte darstellte. Diese Grundidee ist auch heute noch die Basis aller eingesetzten Musikrotationspro­ gramme, die von amerikanischen Unternehmen weiterentwickelt und von kommerziellen Sendern in den USA erfolgreich genutzt wurden. Die Weiterentwicklung führte schließlich zu den sog. Programmuhren, die es erlauben, zu bestimmten Zeiten bestimmte Titel nach einstellbaren Regeln einzuplanen oder wegzulassen. So wird neben einem gewünschten Fundus an Musiktiteln auch eine detaillierte Klassifi­ zierung der Titel mit Kreativdaten benötigt. Diese unterliegen keiner Normung, sondern sind an ihrer subjektiven Anmutung und der erwarteten Hörerwahrnehmung orientiert. Musikre­ dakteure definieren diese Kreativdaten individuell und hinterlegen sie in der Datenbank der Rotationssoftware. Sie sind das gestalterische Kennzeichen einer Hörfunkwelle – im Prinzip deren Markenzeichen. Zusätzlich erfolgt die Festlegung, zu welchen Zeiten und mit welcher Häufigkeit Titelarten zu verwenden sind. Das Rotationsprogramm berücksichtigt für die Zusammenstellung eines Abschnitts im Sendeplan die Sendeereignisse der Vergangenheit. Es kennt die Häufigkeit, mit der ein Titel in einem bestimmten Zeitfenster gespielt wurde und kann auf diese Weise aus einem relativ kleinen Repertoire ein abwechslungsreiches Musikprogramm generieren. Die von der Rotationssoftware nutzbaren Musiktitel liegen als Audiofiles im Musik- oder Repertoirespeicher vor. Die Datenbank des Sendesystems ist in der Regel die führende Daten­ bank. In einem Initialabgleich werden die vorhandenen Metadaten aus dem Sendesystem – einschließlich Take-ID – an das Rotationssystem übergeben. Damit ist der Bestand dort bekannt und kann nach Ergänzung mit den Kreativdaten umgeschichtet, sozusagen rotiert werden. Nachdem die in Listenform zusammengestellte Datei vom Rotationsprogramm an

960 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

das Sendeplanmodul übergeben wurde, werden die entsprechenden Platzhalter im Sende­ plan bestückt. Die Titel können dann im jeweiligen Tagessendeplan eingesehen und abgehört werden. Auch lassen sich Titel manuell hinzufügen oder löschen. Diese Änderungen werden über die Schnittstelle an die Rotationssoftware mitgeteilt, als Histogramm, also in ihrer Häu­ figkeitsverteilung statistisch erfasst und bei der nächsten Zusammenstellung berücksichtigt. 14.2.4.9 Sendeablaufsteuerung Das Modul Sendeablaufsteuerung ist das wichtigste Werkzeug für den Moderator einer Sendung. Es stellt in seinem Sendespeicher alle vom Hot-Zone-Prozess kurz zuvor kopierten und für die Sendung relevanten Audioelemente bereit. Auch enthält die Sendeablaufsteue­ rung einen gültigen und mit Beiträgen gefüllten Tagessendeplan, der vom Modul Sendepla­ nung stammt. Für den Moderator wichtige Bedienfunktionen sind: –– das Navigieren in der Liste vorhandener Elemente, –– das Vorhören aller Audioelemente, –– die Änderung der Beitragsreihenfolge, –– das Anzeigen aller zuvor geplanten Arbeitsschritte, –– das Ändern von Texten. Zu jedem Musikstück werden Titel, Interpreten und ergänzende Informationen angezeigt. Bei Wortbeiträgen können Titel, Autor und im Informationsfeld ausformulierte Moderationstexte angezeigt werden. Die Sendeablaufsteuerung ist ein komplexes Softwaremodul, welches Schnittstellen zum Sendeplanungsmodul und zu verschiedenen Datenbanken unterhält. Auch benötigt es für den Betrieb eine umfangreiche Peripherietechnik, wie z. B. Rechnerhardware zum gleich­ zeitigen Ausspielen mehrerer Audiokanäle sowie IP-Netzwerkschnittstellen mit den jeweili­ gen Treibern für den Betrieb an einem Sendemischpult. Die für den Betrieb einer Sendeabwicklung notwendige periphere Technik ist in Abb. 14/17 dargestellt. Über ein IP-LAN sind die Sendeablaufsteuerung, der Sendespeicher sowie ein Sen­ demischpult nebst externem Soundprocessing miteinander verbunden. Eine MADI-Leitung verbindet das Mischpult mit einem zentralen Audiokoppelfeld (KF). Dieser Weg stellt die Lei­ tungsverbindungen für Programmübernahmen oder Live-Ereignisse her. Über digitale Leitun­ gen sind die Ausgänge der Sendeablaufsteuerung an das Mischpult angeschlossen. Die erfor­ derliche Anzahl der Kanalzüge ist dabei individuell konfigurierbar und auf die Bedürfnisse des jeweiligen Hörfunkprogramms bzw. des dort agierenden Moderators zugeschnitten. Die Betriebszustände der Pegelsteller sind der Sendeablaufsteuerung in jedem Moment bekannt. Wird mittels der Sendeablaufsteuerung ein Sendungsblock im Automatikbetrieb gesendet, können Blenden auch vorgeplant und automatisiert ausgeführt werden. Hierfür stehen im Planungsmodul geeignete Mixwerkzeuge zur automatischen Abspeicherung der Blendvorgänge bereit. Viele moderne Sendeablaufsteuerungen verfügen außerdem über die Möglichkeit eines sog. Voice-Trackings, d. h., hier werden komplette Sendestrecken vorpro­ duziert, einschließlich aller Sendungselemente und Moderationsbreaks. Im Idealfall werden sogar die Pegelsteller-Bewegungen, sog. Reglerfahrten, z.  B. über MIDI-Protokoll (Musical Instruments Digital Interface Protocol) abgespeichert. Diese Art der Vorproduktion verringert

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 961

den Aufwand erheblich, allerdings zu Lasten der Aktualität und einer persönlich anmuten­ den Hörsituation bei der Moderation.

Abb. 14/17. Prinzip Sendeabwicklung.

Auf der Sendeleitung wird in der Regel ein Soundprocessing durchgeführt. Im dargestellten Fall nimmt der Soundprozessor das Sendesignal vom Mischpult entgegen und bereitet dieses nach vorgewählten programmtypischen Presets auf. Die Steuerung des Soundprozessors kann auch über das Datennetz erfolgen, getrennt nach Musik und Wort. 14.2.4.10 Regionalisierung Landesrundfunkanstalten versorgen vielfach kleinere Regionen innerhalb der Landesgren­ zen mit eigenen lokalen Regionalsendungen. Diese sind meist zu festgelegten Zeiten in ein landesweites Hauptprogramm eingebettet und sollen die Hörerbindung durch ihren regiona­ len Bezug stärken. Zur Anbindung der Regionalstandorte an die jeweilige Landesrundfunkanstalt wurden regionale, breitbandige Daten- und Austauschnetze eingerichtet. Diese Verbindungen schaf­ fen die Voraussetzung für ein vernetztes Arbeiten zwischen zentralem Funkhaus und dem weit entfernten Regionalstudio. Das verwendete Client-Server-Prinzip basiert auf Wide-AreaNetwork-Verbindungen (WAN). In den Regionalstandorten kann somit auf dezentrale Server­ technik weitgehend verzichtet werden (Abb. 14/18).

Abb. 14/18. Regionalisierung.

962 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Den Regionalredaktionen stehen dieselben Ressourcen und Informationen zur Verfügung wie in der Hauptredaktion. Eine regionale Redaktion ist technisch in den Prozess der Kontribution genauso eingebunden, als wäre sie lokal tätig; regionale Ereignisse lassen sich daher sehr rasch in das aktuelle Sendegeschehen einordnen. Für die Aussendung der Regionalprogramme stehen in der Zentrale entsprechende Ausspielsysteme zur Verfügung, die entweder live gesteuert oder automatisiert die Fensterprogramme liefern. Die lokalen Beiträge werden am Regionalstandort mit Drag-and-Drop auf der Bedienoberfläche des Client-PC in die jeweiligen Zentral-Einrichtungen übergeben. Aber auch eine Live-Abwicklung von Regionalsendungen vor Ort ist möglich. 14.2.4.11 Themen- und Ereignisplanung Die Themen- und Ereignisplanung kann grundsätzlich mit Mitteln der Bürokommunikation erfolgen. Moderne Sendeplanungswerkzeuge bzw. Redaktionssysteme benutzen jedoch auf Spezialsoftware beruhende Lösungen, die im Idealfall ganz ohne herkömmliche Bürokommunikation auskommen. Auf diese Weise kann eine Programmplanung bereichsübergreifend, arbeitsteilig und crossmedial zwischen allen beteiligten Partnern erfolgen. 14.2.4.12 Nachrichtenverteilung Historisch gesehen ist ein modernes Nachrichtenverteilsystem die digitale Antwort auf den klassischen Agentur-Fernschreiber, den sog. Ticker. Täglich gelangen Hunderte von Agenturmeldungen in dieses System und werden dort sortierbar für alle Redaktionen bereitgehalten. Die Meldungen stehen ohne zeitliche Einschränkung einem großen Nutzerkreis netzwerkweit zur Verfügung. Eine der Aufgaben des Nachrichtenverteilsystems ist es, aus der großen Fülle von Informationen diejenigen herauszufiltern, die für den jeweiligen Programmbereich von Interesse sind. Dies ist mit einstellbaren Ressort-Profilen möglich. Die Verbreitung von Agenturmeldungen erfolgt daher mit Hilfe vereinbarter technischer Protokolle, die ihrerseits Merkmale der einzelnen Ressorts enthalten. Die gezielte Suche nach Meldungen kann durch differenziertes Filtern nach Ressorts, z.  B. „Politik“, und weiterführend nach Schlagworten, rasch zum gewünschten Ziel führen. Schnittstellen zwischen einem Nachrichtenverteilsystem und den Hörfunk-Sendesystemen können die Beitragserstellung hinsichtlich anfallender Schreib- und Recherchearbeit erleichtern. Neben Agenturmeldungen können eine Reihe weiterer Meldungen, wie z.  B. Verkehrsmeldungen, interne Meldungen oder Meldungen vom Amt für Katastrophenschutz verteilt werden. 14.2.4.13 Phonescreening und Off Airs Wichtiger Bestandteil moderner Radioformate ist neben der Kommunikation per Internet z. B. als Chat die direkte verbale Kommunikation mit dem Hörer per Telefon. Diese erfolgt meist direkt während der Sendung. Die durch Telefonate generierten Off Airs werden sowohl live als auch geringfügig zeitlich versetzt gesendet (Off-Air-Editing). Auch die Sendungsvorbereitung schließt die Planung von Sendungen mit Hörerbeteiligung ein. Wurde z.  B. für

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 963

eine Ratgebersendung geworben, können die Hörer bereits im Vorfeld mit der betreffenden Redaktion telefonisch in Kontakt treten und Fragen oder Antworten zum Thema abstimmen. Die Angaben werden in eine Anruferliste übertragen und gespeichert. Zum Zeitpunkt der Sendung werden die gelisteten Hörer angerufen und nach einem Vorgespräch in die Sende­ regie geschaltet. Zeitgleich liegen dem Moderator auf einem Bildschirm alle Informationen über den Anrufer vor. Mit dem Modul „Phonescreening“ wird dem Moderator eine optimale Übersicht bei Sendungen mit Hörerbeteiligung gegeben. Dieses Modul benötigt neben der entsprechenden Client- und Servertechnik auch spezielle Hardware, mit der die physikali­ sche Zuordnung von Telefonleitungen zum Sendemischpult und dem Assistenzplatz reali­ siert wird. 14.2.4.14 Verkehrsinformationen Zuverlässige Verkehrsinformationen haben einen besonderen Stellenwert im Hörerservice. In der Vergangenheit war die konventionelle, papiergebundene Bearbeitung von Verkehrs­ meldungen mit großem Aufwand verbunden. Heute gelangen Verkehrsmeldungen aus einer Vielzahl unterschiedlicher Quellen in ein eigens für diesen Zweck vorgesehenes EDV-System der Rundfunkanstalt. Die redaktionelle Bearbeitung des Meldungsaufkommens im Verkehrsstudio wird durch ein mehrplatzfähiges EDV-System erleichtert. Meldungen können nach Regionen selektiert und graphisch dargestellt werden. Die Hörer erhalten dann nur die für ihr Sendegebiet relevanten Meldungen. Verkehrsmeldungen sind Informationen, die aktuellen und zeitkri­ tischen Änderungen unterliegen, insbesondere bei der Behandlung von möglicherweise fatalen Situa­­tionen wie Falschfahrer. Einer zuverlässigen systemgestützten Aktualisierung kommt damit ein beachtlicher Stellenwert zu. Die Güte von Verkehrsinformationen hängt primär von den bereitstellenden Quellen ab und von der nachfolgenden Behandlung durch die Verkehrsredaktion, die Verkehrsmeldun­ gen in aufbereiteter Form in den Textserver einstellt. Hierbei hilft eine Spezialsoftware, die geeignete Formulierungen zu den Meldungen anbietet. Es können beliebige Formulierungs­ varianten definiert und unterschiedlichen Hörfunkprogrammen differenziert zugeführt werden. Die Verkehrsmeldungen gelangen nach der Bearbeitung via Datennetz auf einen separaten Bildschirm in der jeweiligen Senderegie. Zum Ablesen wird üblicherweise eine webbasierte Anwendung genutzt. Das Verlesen einer Verkehrsmeldung war in früheren Zeiten mit der Ausgabe eines akus­ tischen Kennsignals, nach seinem Entwickler „Hinztriller“ genannt, verbunden. Diese sehr leise, aber doch hörbare Signalsequenz diente dazu, am UKW-Sender das ARI-Signal (Auto­ fahrer Rundfunk Information) aufzutasten und damit die Autoradios auf eine Verkehrsmel­ dung vorzubereiten. Heute werden die Audioradios mit einem sog. TA-Bit im programmbe­ gleitenden Datenstrom angesteuert. TA steht hierbei für Traffic Anouncement. Die Auslösung des TA-Bits erfolgt durch den Moderator manuell am Sendetisch. Schon länger ist die digitale Aussendung von Verkehrsmeldungen im Radio-Daten-Sys­ tem (RDS) auf UKW-Ausbreitungswegen in Betrieb. Diese codierten Informationen nennen sich TMC-Daten (Traffic Message Channel). Navigationssysteme werten diese Daten aus, um

964 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

alternative Routen zur Umfahrung von Verkehrsstaus anbieten zu können. Nähere Details dazu finden sich in Kap. 17.5. 14.2.4.15 Zusatzinformationen Ein großer Vorteil der digitalen Programmerstellung ist die Generierung und ständige Verfüg­ barkeit von Informationen zu den einzelnen Beiträgen. Für eine Sendung wichtige Informa­ tionen zur gewünschten Zeit in einem Server vorrätig zu haben, ist ein hoher Mehrwert der digitalen Sendesysteme.

Abb. 14/19. Aufbereitung von Zusatzinformationen.

Es gibt zeitkritische und zeitunkritische Informationen. Zeitunkritisch sind z.  B. voraus­ schauende Informationen zu Sendeankündigungen in Programmzeitschriften oder im Internet. Neben dem Sendungstitel werden meist auch Inhaltsbeschreibungen angeboten. Die Bereitstellung zeitunkritischer Informationen benötigt im Hörfunk keine enge zeitliche Kopplung an das Sendegeschehen. Anders verhält es sich bei den zeitkritischen Informationen und deren Aufbereitung. Zeitkritische Informationen gelangen im Radio-Daten-System (RDS) als sog. Zusatzinforma­ tionen in den Verbreitungsweg, synchron zum Audio-Programmsignal. Im Radiotext, ein weiterer RDS-Dienst, werden ergänzend Titel- und Interpretennamen übertragen. In Abb. 14/19 ist der Verlauf der ZI-Datengewinnung dargestellt. Die einen Beitrag oder Musiktitel beschreibenden Metadaten werden in der Hot-Zone des Sendeplans vom Sendesys­ tem erfasst, im Moment der Ausspielung abgegriffen und dem Modul ZI-Datenaufbereitung übergeben. Dies erfolgt automatisch in Echtzeit. In einem anschließenden Konvertierungs­ prozess werden die relevanten Textdaten herausgefiltert und gemäß den Regeln des RDS-Pro­

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 965

tokolls in einen für den Sendeweg gültigen Zeichensatz umgesetzt. Den derart aufbereiteten Textdaten werden noch das TA-Bit sowie weitere TMC-Daten hinzugefügt. Jeder Verbreitungs­ weg benötigt seine spezifische Datenaufbereitung, die per XML-Ausgabe des Hörfunksystems initiiert wird. Coverbilder für die Radio APP oder DAB+ gelangen ebenfalls automatisiert auf den Verbreitungsweg. 14.2.4.16 Leitungsdisposition Systeme zur Leitungsdisposition einer Rundfunkanstalt können den gesamten Bestand von ankommenden und abgehenden Austausch- und Sendeleitungen sowie alle internen Leitun­ gen eines Funkhauses steuern. Die Quellen und Senken aller Verbindungsendpunkte sind namentlich beschrieben in einer Datenbank hinterlegt. Das Dispositionssystem erlaubt die Eingabe von Schaltaufträgen, womit physikalische Leitungsverbindungen geplant, verwaltet und technisch zeitpräzise realisiert werden. Auch Sendesysteme unterliegen der Hierarchie einer Leitungsdisposition. Alle physikalischen Quellen und Senken sind Bestandteil eines Audio- und Signalkop­ pelfelds. Als ausführende Instanz setzt das Koppelfeld die erhaltenen Schaltaufträge um. Ein leistungsstarkes Leitungsdispositionssystem verwaltet in einer Rundfunkanstalt mehrere tausend Koppelpunkte und steuert die Verbindung zu anderen Rundfunkanstalten. Seit 2019 stellt ein auf AES67-Technik beruhendes, alle ARD-Anstalten verbindendes Austauschlei­ tungsnetz die anstaltsverbindende Audioübertragung per Stream sicher. 14.2.4.17 Dokumentationssystem Die von einer Rundfunkanstalt ausgestrahlten Sendungen müssen aus rechtlichen Gründen für die Dauer von drei Monaten aufgezeichnet werden. Das sind mehrere tausend Stunden Audiomaterial in diesem Zeitabschnitt. In einem eigenen Mitschnittsystem werden Audiound RDS-Daten für Recherchezwecke synchron aufgezeichnet. Dieser Dienst steht netzwerk­ weit zur Verfügung. Häufig werden die Audiodaten nur in datenreduzierter Form vorgehal­ ten, um Server und Netzwerke nicht zu stark zu belasten.

14.2.5 Außenübertragungstechnik Die Außenübertragungstechnik, kurz AÜ- oder OB-Technik (Outside Broadcasting) genannt, nutzt heute ebenfalls die Möglichkeiten der digitalen Programmerstellung. Moderne ITLösungen zur schnellen Datenübertragung finden sich in SNG-Fahrzeugen (Satellite News Gathering), in Reportagefahrzeugen, in mobilen Rechneranlagen und in großen Ü-Wagen. SNG-Fahrzeuge Die SNG-Technik erlaubt die drahtlose Verbindung zwischen einem Veranstaltungsort und dem Funkhaus über eine Satellitenverbindung (Abb.  14/20). Verschiedene Provider bieten derartige Dienste an und stellen kostenpflichtige Verbindungen zum Aufbau von digitalen Tonleitungen für Echtzeitanwendungen oder IP-Verbindungen für Überspielzwecke her. Für Live-Sendungen kommen dabei spezielle Audiocodecs zur Anwendung.

966 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

Abb. 14/20. Anbindung an den SNG-Wagen.

Im Zuge der Weiterentwicklung entstanden auch bidirektionale IP-Verbindungen mit dem Datennetz des heimischen Funkhauses. Dem Anwender stehen am Berichtsstandort somit eine Reihe von Recherchefunktionen und auch der Audiofiletransfer zur Verfügung. SNGFahrzeuge sind zur Erstellung von Hörfunkbeiträgen mit Audiobearbeitungstechnik ausge­ stattet. Reportagefahrzeuge Reportagefahrzeuge verfügen über ein ähnliches Audio-Leistungsprofil zur Beitragserstel­ lung wie SNG-Fahrzeuge. Die Beitragsüberspielung zum Funkhaus erfolgt hier mit der kos­ tengünstigeren terrestrischen IP-Technik, wie z. B. GSM, LTE, 5G oder WLAN. Auch können wählbare Audioverbindungen über ISDN- oder DSL-Codecs für Audiofiletransfer oder Echt­ zeitübertragung aufgebaut werden. Die IP-Verbindung ermöglicht zusätzlich die Recherche in den Datenbanken des Funkhauses (Abb. 14/21).

Abb. 14/21. Anbindung an ein Reportagefahrzeug.

Mobile Produktionssysteme und Kleingeräte Neben der reinen Aufnahme von O-Tönen werden häufig Kurzbeiträge aus Gründen der Aktua­­lität direkt vor Ort produziert. Moderne Aufnahmegeräte verfügen über einfache integ­ rierte Schnittmöglichkeiten oder dienen als Schnittstelle, z. B. über USB (siehe Kap. 12.5.4) zu Rechnern bzw. Laptops mit einfachen Audioschnittsystemen. Die fertigen Beiträge können dann über verschiedene Datentransfers wie FTP, E-Mail oder in neuerer Zeit mit senderei­ genen Reporterportalen per Internet zum Sender bzw. zur Senderegie übermittelt werden. Inzwischen sind Lösungen mit Tablet-Computern und Smartphones verfügbar, mit denen Beiträge produziert und drahtlos versendet werden können.

14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk 

 967

Mobile Rechneranlagen für Großveranstaltungen Bei Großveranstaltungen, besonders bei internationalen Ereignissen, ist die Berichterstat­ tung sehr aufwändig: Sie verlangt viele einzelne Sprecherplätze, die alle mit digitalen Kom­ mentatoreinheiten ausgerüstet sein müssen und Anschluss an eine bidirektionale Datenkom­ munikation benötigen. Die am Veranstaltungsort implementierten Funktionen entsprechen denjenigen eines kleinen Funkhauses –  die Qualitätsanforderungen sind nicht wesentlich geringer. Die Berichterstattung darf durch die besondere Situation nicht beeinträchtigt sein, und es sind daher alle üblichen Arbeitsmittel, Recherchetools und Bearbeitungsmittel bereit zu halten. Im Prinzip arbeitet die mobile Rechneranlage als autarkes Sendesystem mit Anbin­ dung an die Dienste des zentralen Funkhauses, erweitert um den IP-Kontakt auch zu anderen ARD-Anstalten, z. B. über das ARD-HYBNET (siehe Kap. 16.5.6).

Abb. 14/22. Mobile Rechneranlage.

Vor Ort werden durch die mobile Rechneranlage die Module eines stationären Funkhau­ ses abgebildet: Aktualitätenspeicher, Audioworkstations, Sendeabwicklungssysteme und die Einrichtungen für den Audiofiletransfer. Abb. 14/22 zeigt das Beispiel einer Beitragser­ stellung an mehreren Audioworkstations. Die fertiggestellten Beiträge –  wie Kommentare, O-Töne oder Interviews – werden über den ARD-Audiofiletransfer an angeschlossene Rund­ funkanstalten übertragen; auch komplette Sendungen oder Live-Zuspielungen müssen in Realzeit möglich sein. Große Übertragungswagen im Hörfunk Große Übertragungswagen kommen bei Live-Übertragungen und für Mitschnitte von Ereig­ nissen, wie Konzerten und Festivals, zum Einsatz. Sie verfügen über digitale Mischpulte mit 48 oder mehr Eingangskanälen und über die dazu gehörigen Aufzeichnungs- und Bearbei­ tungseinrichtungen. Die signaltechnisch und auch akustisch hochwertigen Tonregien der

968 

 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung

großen Ü-Fahrzeuge verfügen über dieselben Produktionsmittel, wie sie in einem großen Hörfunk-Produktionsstudio zum Einsatz kommen. Dazu zählt auch die Möglichkeit, mehrka­ nalig in Surroundsound aufzuzeichnen und zu übertragen. Ein großer Übertragungswagen des Hörfunks verfügt über eine weitgehend selbstän­ dige technische Infrastruktur, bis hin zu den Kabeltrommeln für den Anschluss von Mikro­ fonen und bis zu Systemen zur Notstromversorgung. Auch die mitgeführten Kommunika­ tionseinrichtungen haben den vielfältigen, immer wechselnden Anforderungen zu genügen (Abb. 14/23).

Abb. 14/23. Infrastruktur eines großen Übertragungswagens.

15 Digitale Tonsignalspeicherung Siegbert Herla (15.1), Stefan Bock (15.2), Stephan Maniak (15.3) 15.1 Digitale Tonaufzeichnung Digitale Tonsignale beanspruchen weit über den Hörbereich hinausgehende Frequenzbandbreiten und erzeugen große Datenmengen. Der theoretisch und in der praktischen Realisierung nicht triviale Prozess der Aufzeichnung von digitalen Audiosignalen war durch den Umstand begünstigt, dass hierfür in einer zunächst noch experimentellen Phase Speichermedien und Systeme aus dem Anwendungsbereich der Informationstechnik (IT) und auch der Videotechnik adaptiert werden konnten, ehe eigenständige Entwicklungen speziell für die digitale Tonaufzeichnung im Studio verfügbar wurden. Das anfänglich noch als zu klein erkannte Marktsegment dieser neuen Technologie veranlasste die einschlägige Industrie nicht zur großzügigen Förderung von Produktentwicklungen, die auf das „Einsatzgebiet Tonstudio“ ausgerichtet waren. Die digitale Technik war und blieb zunächst ein seltenes und kostspieliges Nischenprodukt von Spezialisten für Spezialisten. Erst auf Grund der großen Nachfrage seitens der Musikindustrie und des ConsumerMarkts, der die digitale Compact Disc (CD) als neuartiges und hochwertiges Tonträgermedium geradezu euphorisch aufgenommen hatte, wurde die neue Signalverarbeitungs- und Speichertechnik für Hersteller und Anwender wirtschaftlich interessant und verhalf in Folge dieser Technologie auch im Tonstudio zum Durchbruch auf breiter Basis. Speziell für die digitale Tonaufzeichnung stehen heute, historisch bedingt, vier Varianten mit zum Teil erheblich unterschiedlicher Technik und Qualität zur Verfügung: 1. Verfahren mit rotierenden Köpfen auf Magnetband (Pseudo-Video oder direkt digital). 2. Direkte digitale Verfahren mit stationären Mehrspurköpfen auf Magnetband. 3. Echte datentechnische Verfahren mit gängigen Speichern der Informationstechnik. 4. Digitalaufzeichnungen mit reduzierter Datenrate auf diversen Trägermedien. Die wesentlichen audiotechnischen Vorteile der digitalen Aufzeichnungstechnik sind: –– pegelunabhängiger, linearer Frequenzgang im gesamten Übertragungsbereich, –– großer Dynamikumfang, –– keine Modulationseffekte, wie sie in der analogen Aufzeichnung auftreten können, –– unmessbar geringe Gleichlaufschwankungen, –– keine Phasendifferenzen zwischen den Tonkanälen, –– sehr geringe nichtlineare Verzerrungen, –– hohe Übersprechdämpfung, –– kein Kopiereffekt, –– keine Kopierverluste in der digitalen Ebene. Für die digitale Aufzeichnung typisch sind auch eine Reihe spezifischer, kritisch zu betrachtender Eigenschaften: https://doi.org/10.1515/9783110759921-015

970 

 15 Digitale Tonsignalspeicherung

–– Die erforderliche Frequenzbandbreite erhöht sich um den Faktor 40 bis 100 und erzeugt damit eine wesentlich höhere Aufzeichnungsdichte als in der Analogtechnik. –– Fehlerschutz und Synchronisation erzeugen zusätzliche, nicht vom Quellencode stammende Daten und vergrößern hierdurch den digitalen Verarbeitungsaufwand. –– Die Nutzungsmöglichkeit von Metadaten erhöht nochmals die Bitrate und damit die Bandbreite. –– Die Daten müssen zur zeitlichen Kompression/Dekompression bei Aufnahme und Wiedergabe zwischengespeichert werden. –– Mechanischer Schnitt ist nicht oder nur eingeschränkt mit hohem Fehlerschutzaufwand möglich. –– Elektronischer Schnitt bietet optimale Bearbeitungsmöglichkeiten, kann aber den getriebenen Aufwand erhöhen. Zudem sind digitale Tonträger wegen der hohen Aufzeichnungsdichte in der Regel gegen Umwelteinflüsse empfindlich, sollten daher mechanisch möglichst wenig beansprucht oder kontaktiert und in dauerhaft schützender Umhüllung aufbewahrt bzw. betrieben werden.

15.1.1 Quelldaten, Kanaldaten und Kanalmodulation Durch A/D-Wandlung erzeugt ein digitaler Tonsignalrecorder aus dem analogen Tonsignal zunächst digitale Abtastwerte, die sog. Quelldaten, oder er erhält diese über eine digitale Schnittstelle, z. B. ein AES/EBU-Interface, zugeführt (Abb. 15/1, vgl. auch die gekennzeichneten Stufen der Signalformung in Abb. 15/3). Im Kanalcoder werden die Audiodaten mit redundanten (im Quellensignal nicht enthaltenen) Fehlerschutzdaten ergänzt und formatiert. Der Kanalmodulator sorgt für die physikalische Anpassung bezüglich Spannungspegel und Synchronisation an den Speicherkanal; der Schreibkopf überträgt anschließend die Kanaldaten auf das Speichermedium.

Abb. 15/1. Prinzipblockschaltbild eines digitalen Tonsignalrecorders.

15.1 Digitale Tonaufzeichnung 

 971

Nach Abtastung des Speichermediums durch den Lesekopf werden im Kanaldemodulator die Blockdaten und der Signaltakt zurückgewonnen. Im Decoder findet danach (unter Einsatz der jeweils implementierten Fehlerschutzmechanismen zur Erkennung und Korrektur der Kanalfehler) die Trennung von digitalem Tonsignal und Redundanz statt. Die so wiederhergestellten Quellendaten werden an das digitale Interface weitergeleitet oder in ein analoges Tonsignal zurückgewandelt. Für die synchrone Anbindung an die jeweilige Studioinfrastruktur ist auch eine externe Taktung des Recorders möglich. 15.1.1.1 Speicherkanal Im realen Speicherkanal treten eine Reihe von Einflüssen auf, die digitale Signale verfälschen können und damit den Entscheidungsraum zur Wiedererkennung eines logischen Eins- oder Null-Zustands einengen. Es sind dies: –– additive Rauschüberlagerung, –– Übersprechen zwischen Datenspuren und elektronische Einstreuungen, –– Jitter, d. h. störende Frequenzmodulation durch Laufwerkseigenschaften, –– Amplitudenschwankungen bzw. störende Amplitudenmodulation, –– Dropouts, z. B. infolge von Änderungen des Band-Kopf-Kontakts durch Verschmutzung, –– Phasenfehler und Dämpfung von harmonischen Komponenten des Digitalsignals durch Frequenzbandbeschneidung.

Abb. 15/2. Augendiagramm des Bitmusters einer CD-Aufzeichnung.

Diese Einflüsse bewirken eine Verfälschung der ursprünglichen Signalform, deren Impulshöhe und -breite jetzt von den benachbarten Informationselementen und von Zufallsprozessen abhängig sind. Der Entscheidungsraum oder die sog. Augenöffnung (eye pattern) zur Wiedererkennung der gespeicherten Bits wird unter den beschriebenen Umständen wesent-

972 

 15 Digitale Tonsignalspeicherung

lich kleinflächiger, als es der ursprünglichen Bitgeometrie entspricht. Ohne besondere Bewertung und Regeneration sind Bitfehler in dem vom Speichermedium gelesenen Signal die mögliche Folge. Das Augendiagramm in Abb. 15/2 ist ein gutes Hilfsmittel zur Qualitätsbeurteilung des zurückerhaltenen digitalen Roh-Signals. Es ergibt sich dadurch, dass mit Hilfe eines Speicheroszilloskops die Impulse des Signals mit allen Zeit- und Pegelfehlern übereinandergeschrieben werden. Die Entscheidungszone Tw des hier in einem NRZ-Code dargestellten Digitalsignals (vgl. Kap. 15.1.3) ist dabei gleich dem Abstand zwischen den Pegelübergängen. Aus der Höhe der Augenöffnung lässt sich der Einfluss von Amplitudenschwankungen ablesen. Die Öffnung a1 wird nur im Idealfall erreicht. Die statistisch vorkommende sog. Worst-CaseAmplitude a2 bestimmt die minimale vertikale Augenöffnung. Je geringer sie ist, desto größer ist die Gefahr der Falscherkennung eines Pegels, z. B. bei Auftreten von Dropouts. Jitter bzw. Phasenschwankungen Δt engen die Breite der Augenöffnung ebenfalls ein und verringern damit Tw. Zum Erreichen höchstmöglicher Speicherdichte bei minimaler Fehlerrate sollte daher das Aufzeichnungssignal an die Übertragungscharakteristik des Speicherkanals angepasst werden. Die folgenden Kriterien müssen bei der Auswahl eines geeigneten, möglichst aufwands- und verlustarmen Verfahrens zur Aufzeichnungsmodulation besondere Beachtung finden: –– Der Speicherkanal ist bandbreitenbegrenzt. –– Der Takt zur Synchronisierung muss aus dem Wiedergabesignal regenerierbar sein, da sonst ein eigener Taktkanal bzw. eine separate Taktspur erforderlich werden. –– Signale mit Gleichkomponente können nicht immer reproduzierbar übertragen werden. Bei im Mittel ungleicher Anzahl von Null-/Eins-Zuständen enthält das Digitalsignal einen Gleichspannungsanteil (DC-Offset), und es ist mit einem Driften des Nullpegels im Wiedergabekanal zu rechnen. Dies erfordert besondere Maßnahmen bei der Signalregenerierung. Soll ein niederfrequentes Servosignal zur Spurhaltung aus dem Grad der Spurabweichung gewonnen werden, verbietet sich eine Gleichkomponente im Signal grundsätzlich.

15.1.2 Datenformatierung Die Datenwörter werden in Abhängigkeit von den charakteristischen Eigenschaften des Datenkanals in Blöcken angeordnet. Diese Aufbereitung der Datenwörter wird als Formatierung bezeichnet. Bei der Auswahl eines Aufzeichnungsformats sollten wegen der besseren Austauschbarkeit der Datenträger standardisierte Formate den proprietären bzw. firmenspezifischen Formaten vorgezogen werden. Nicht bei jeder Anwendung kann die Kanalcodierung in der gleichen Struktur wie die Quellencodierung erfolgen. So wird in der Regel ein Datenübertragungskanal nach AES/EBU zunächst eine Serialisierung der Ausgangsdaten des vorhergehenden A/D-Wandlers erfordern. Dieser nun einkanalige Datenstrom ist direkt an die Leistungsfähigkeit oder Struktur des Speichermediums anzupassen und muss ggf. erneut in parallele Bitströme aufgespalten werden.

15.1 Digitale Tonaufzeichnung 

 973

Abb. 15/3 zeigt schematisch die Reduktion der Eingangsdatenrate (1) auf ein Drittel dieses Wertes für die einzelnen Spuren (2). Damit nach dem Speichervorgang die Daten wieder eindeutig zugeordnet werden können, sind die Synchronworte S1 bis S4 zur Blocksynchronisierung der Spurinformation vorangestellt. Dann werden die Quer-Parität  (Q), die Längsparität (P) sowie die zyklisch redundanten Korrektursymbole (CRC) gebildet (3), die zusammen mit den Eingangsdaten eine redundante Konfiguration mit jetzt vier Spuren ergeben  (4). Der Speicherprozess kann aus verschiedenen Ursachen, z. B. durch Spaltschiefstellung der Magnetköpfe, eine Änderung der gegenseitigen Lage der Bitpositionen in den einzelnen Spuren verursachen. Die Folge ist dann das Zeitdiagramm (5) am Ausgang des Speicherkanals.

Abb. 15/3. Schematische Darstellung einer Datenorganisation.

Der Wiedergabesignalweg läuft in umgekehrter Analogie zum Aufnahmesignalweg über Leseköpfe, Verstärker, Entzerrer, Synchronisator und Demodulator für die Biterkennung im jeweils verwendeten Aufzeichnungscode. Die parallel, aber möglicherweise versetzt einlaufenden Datenbits werden mit Hilfe eines regenerierten Takts wieder synchronisiert (6). Damit ist das Zeitdiagramm (4), allerdings jetzt mit Kanalfehlern behaftet, wiederhergestellt. Die Paritäts- und Korrektursymbole werden im Decoder zur Fehlererkennung und -korrektur verarbeitet, und die Daten (7) entsprechen anschließend wieder dem ursprünglichen Format (2). Nach Parallel-Serienwandlung erfolgt die Digital/Analog-Umwandlung oder die Ausgabe der Daten an einer digitalen Schnittstelle.

15.1.3 Schreibcodes und Kanalmodulation Die Vielzahl der möglichen Codes für die Digitalaufzeichnung ist kaum überschaubar. Die folgende Auswahl beschränkt sich auf digitale Quellensignale, die in PCM-Form vorliegen. Es handelt sich hierbei um binäre Signalfolgen mit konstantem Zeitintervall zwischen den Elementarsignalen (Datenbits oder -worte), die das analoge Tonsignal linear abbilden.

974 

 15 Digitale Tonsignalspeicherung

Die Art der Schreibcodes kann dabei sehr unterschiedlich sein: –– Linear codierte PCM-Basisbandsignale in der ursprünglichen abtastfrequenten Zeitrasterung. –– Signalverläufe, die durch Modulation eines periodischen Trägers mit dem Basisband­ signal entstehen, und die aufgrund ihres diskreten Charakters durch die Parameter des Codierverfahrens beschreibbar sind. Die Decodierung erfolgt hierbei mit einem entsprechenden Demodulator. –– Durch logische oder tabellarische Codiervorschriften gebildete Signale. Die Decodierung erfolgt durch die inverse Anwendung der Codierungsvorschriften. Eine Gruppe einfacher für PCM-Signale geeigneter Aufzeichnungsmodulationsarten bilden die sog. NRZ-Codes (Non Return to Zero). Ursprung dieser Codes ist der im Prinzip einfach strukturierte RZ-Code (Return to Zero), bei dem ein Eins-Signal als Impuls innerhalb einer Bitzelle immer mit einem Null-Zustand beginnt oder endet. Beim NRZ-Code findet kein Rücksetzen innerhalb der Bitzelle statt, so dass bei aufeinanderfolgenden logischen Eins-Zuständen kein Pegelwechsel erfolgt. In der Praxis erfolgt die Umsetzung des logischen Bitmusters in die physikalische Signalfolge nach unterschiedlichen Methoden; es sind daher eine Vielzahl von sog. NRZ-Derivaten bekannt (Abb. 15/4). Der NRZ(L)-Code (NRZ-Level) ist der einfachste davon. „Level“ bedeutet hier die feste Zuordnung einer Eins zum Level H (High) und einer Null zu L (Low).

Abb. 15/4. PCM-Aufzeichnungsmodulationsarten (1).

Beim NRZ(M)-Code (NRZ-Mark) findet bei jedem Auftreten eines Eins-Zustands ein Pegelwechsel an der Bitgrenze (nicht innerhalb der Bitzelle) statt; jede zweite logische „Eins“ wird durch einen Pegelsprung – wieder an der Bitgrenze – „markiert“. Das ist beim Auftreten von Einzelbitfehlern ungünstig, da alle nachfolgenden Datenbits dann bis zum nächsten logischen Zustandswechsel invertiert sind. Generell haben NRZ-Codes den Nachteil, dass Zeitbasis-Fehler entstehen können, wenn länger andauernd kein Signalwechsel erfolgt. Beim Auftreten von Bitfolgen mit gleicher Polarität lässt sich aus den Bitgrenzen kein Taktsignal mehr ableiten. Die NRZ-Codierung ist dann „nicht selbsttaktend“ und erfordert die externe Synchronisation aller an der Signalverarbei-

15.1 Digitale Tonaufzeichnung 

 975

tung beteiligten Komponenten. Zudem kann ein Gleichspannungsanteil (DC-Offset) entstehen, der zu einer Verschiebung der Signal-Nulldurchgänge führt. In der störanfälligen Signalspeichertechnik wird mit einem weiteren NRZ-Code gearbeitet, der die logische Eins nicht als absoluten Pegelwert (Zustand) einer Bitzelle, sondern durch einen Richtungssprung an der Bitzellen-Grenze darstellt. Dadurch beschränkt sich ein Einzelbitfehler auf das fehlerhafte Bit. Dieser invertierende Richtungs-Code wird als NRZ(I) bezeichnet. Um maximale Signalpegel zu erhalten, werden häufig bipolare (Plus/Minus-) Wechsel ohne Null-Zustand gespeichert, der nicht als informationstragend definiert ist; die Lauflänge des Codes, d. h. die maximal mögliche Anzahl aufeinander folgender identischer Pegelzustände, muss daher begrenzt werden, um das Entstehen einer Gleichkomponente sicher zu vermeiden. Bei der Eight-to-Fourteen-Modulation (EFM), wie sie z. B. bei der CD-Kanalcodierung zum Einsatz kommt, wird dies durch Hinzufügen von weiteren drei Zusatz-Bits, den sog. Mergingoder Coupling-Bits, erreicht, die eine Randomisierung bewirken, d. h. eine Umorganisation des zu häufigen Auftretens von binären Eins-Werten an den Übergangsstellen hintereinander liegender Codeworte. Die binäre Phasenmodulation von NRZ-Folgen führt zum Manchester-Code, einem selbsttaktenden, gleichspannungsfreien Code, der allerdings die doppelte Bandbreite des NRZ-Codes benötigt. Der Code findet z. B. beim Ethernet Verwendung. Die Schriftart Biphase-Mark ergibt sich dadurch, dass in Bitzellenmitte die Eins durch einen weiteren Signalwechsel gekennzeichnet ist. Aufeinanderfolgende Eins-Werte erzeugen demnach ein Rechtecksignal mit doppelter Bitfolgefrequenz. Bei Null-Werten findet eine Zustandsänderung nur an den Bitgrenzen statt. Abb. 15/4 zeigt, dass im Prinzip mit zwei verschiedenen Frequenzen geschrieben wird, was zu einem höheren Bandbreitenbedarf führt, aber eine einfache Regeneration des Taktsignals ermöglicht. Eine Bandbreitenreduktion und die Verbesserung des Signal-Rausch-Verhältnisses ergeben sich, wenn vom Biphase-Code nur jeder zweite Signalwechsel übernommen wird. Der daraus entstehende, ebenfalls selbsttaktende Code heißt Miller- oder MFM-Code (Modified Frequency Modulation). Die Codierungsregel lautet: Signalsprung bei Eins in Bitmitte oder nur zwischen benachbarten Nullen. Der Code ist nicht gleichspannungsfrei. MFMCodierung fand Anwendung bei Bandspeichern im ProDigi-Format und bei Festplattenspeichern. Der Code wird immer noch bei 2-Zoll-Disketten verwendet. Höchsten Speicherdichten wird er jedoch nicht mehr gerecht. Beim Jacoby- oder 3PM-Code (3-Position-Modulation) wird eine Gruppe von drei QuellDatenbits in sechs Kanalbits konvertiert. Es sind zwei Einsen mindestens durch zwei aufeinander folgende Nullen voneinander getrennt. Einige Codeparameter sind die gleichen wie bei MFM. Die lineare Dichte ist jedoch um 50 % gegenüber dem MFM-Code erhöht; der Bandbreitenbedarf ist geringer als bei den anderen Codes. In der Plattenspeichertechnik, aber auch bei der Speicherung auf Band, kommen bei sehr hoher Gleichlaufstabilität Codes mit hohem Dichteverhältnis, sog. lauflängenbegrenzte RLL-Codes (Run Length Limited) zum Einsatz. Sie werden mit RLL(x,y) bezeichnet, wobei x die minimale und y die maximale Lauflänge, d. h., die Anzahl aufeinander folgender Nullen oder Einsen, angibt.

976 

 15 Digitale Tonsignalspeicherung

Die Speicherdichte moderner Laufwerke erhöht sich noch deutlicher durch PRML-Detektion (Partial Response Maximum Likelihood) im Lesekanal. Hier werden z. B. statt RLL (1,7) die Schreibrestriktionen (0,4,4) verwendet. „0“ bedeutet, dass Eins-Werte direkt aufeinanderfolgen können. Der erste Parameter „4“ begrenzt die Anzahl der Nullen zwischen den Eins-Werten eines Datenstroms und die zweite „4“ die maximale Anzahl von Nullen in verschiedenen Untermengen. Der dann beim Lesen verwendete Viterbi-Decoder prüft die Wahrscheinlichkeit des Auftretens von erlaubten Bitfolgen.

Abb. 15/5. PCM-Aufzeichnungsmodulationsarten (2).

Bei der CD wird der EFM-Code verwendet. Aus 8 Datenbits werden hierbei 14 Kanalbits abgeleitet: Aus 214 = 16384 möglichen Datenworten werden 2 8 = 256 bestgeeignete Werte ausgewählt. Hinzu kommen jeweils drei Coupling- oder Merging-Bits zwischen den Wortgrenzen. Damit handelt es sich eigentlich um einen Code mit der Rate 8/17 (s. Abb. 15/5). Eine genaue EFM-Beschreibung erfolgt in [ECMA-130]. Die lineare Dichte von EFM liegt etwa 25 bis 50 % über der von MFM und ist gleichspannungsfrei. Eine Weiterentwicklung ist der in [ECMA-267] beschriebene EFMplus-Code für die DVD und SACD; die Coderate beträgt 8/16. Unter der Bezeichnung HDM (High Density Modulation) verbergen sich verschiedene Codes. Bei digitalen Tonbandmaschinen wird der HDM-1-Code mit kürzerer Lauflänge eingesetzt (Abb. 15/5). Er hat den 3PM-Code bei dieser Anwendung verdrängt. Weit verbreitet sind besonders bei Festplatten und optischen Platten auch die sog. Gruppencodes (Group Code Recording) wie GCR 4/5. Hierbei wird jeder 4-Bit-Wortgruppe per Codetabelle ein 5-Bit-Wort zugeordnet. Dadurch sind im Bitstrom, der anschließend in NRZ(I) codiert wird, nicht mehr als zwei benachbarte Nullen enthalten. Diese Codes sind robust gegenüber Störeinflüssen und ermöglichen höhere Speicherdichten. Prinzipiell gibt es Codes mit minimalen Ansprüchen an das Laufwerk, wie z. B. GCR 4/5. Codes für höhere Ansprüche an die Eigenschaften des Laufwerks sind EFM und 3PM.

15.1.4 Fehlererkennung und Fehlerkorrektur Grundlage für eine an den Speicherkanal angepasste Datenorganisation und einen wirksamen Fehlerschutz ist die genaue Kenntnis seines statistischen Fehlerverhaltens. Die Ursa-

15.1 Digitale Tonaufzeichnung 

 977

chen für die meisten Fehler liegen beim Speichermedium selbst. So stören z. B. Staubteilchen, Abrieb, Fingerabdrücke und Bandkantenbeschädigungen die magnetische Aufzeichnung durch Pegeleinbrüche oder sog. Dropouts. Es werden grundsätzlich drei Arten von Fehlerursachen im Speicherkanal unterschieden: –– Statistisch unabhängige Substitutionsfehler, wenn ein oder mehrere Datenbits anders als ursprünglich aufgezeichnet erkannt werden. Sie treten vorwiegend bei Plattenspeichern auf. Diese durch additives Rauschen verursachten Fehler sind mit klassischen Blockcodes kleiner Blocklänge erkennbar und korrigierbar. –– Burst- oder Bündelfehler, verursacht durch starke Rauscheinbrüche, die zu fehlerhaften Bitgruppen führen. Sie sind generell nur mit Codierungen, die ein großes „Gedächtnis“ besitzen, erkennbar und korrigierbar. Eine wirksame Methode, einen Bündelfehler in mehrere leichter korrigierbare Einzelfehler umzuwandeln, besteht in einer örtlichen oder räumlichen Datenspreizung über das Speichermedium (interleaving). Ist keine Fehlerkorrektur mehr möglich, kann bei digitalen Tondaten die Methode der Fehlerverdeckung oder Fehlerverschleierung (error conceilment) verwendet werden. Dabei werden fehlerhafte Abtastwerte aus benachbarten Daten errechnet, durch benachbarte ersetzt oder auch stumm geschaltet. –– Statistisch unabhängige Synchronisationsfehler, die ohne fehlersichernde Maßnahmen zum Synchronisationsverlust bis zum Blockende führen. Hier erweisen sich besonders die zyklischen Codes als hilfreich, die Synchronisationsfehler erkennen und korrigieren können. Bei Bündelfehlern, die die Synchronisation stören, kann die Auswertung von Nachbar-Spuren zur Unterstützung der Synchronisation weiterhelfen. 15.1.4.1 Instrumente der Fehlererkennung und Fehlerkorrektur Um Fehler bei einer Übertragung zu vermeiden, darf bei einem Code nicht der gesamte Vorrat an Code-Elementen zu Nutzworten verbraucht werden. Damit ein gestörter Speicherkanal optimal betrieben werden kann, muss daher die Redundanz der zu übertragenden Information gezielt erhöht werden. Dies geschieht durch Umsetzung der binären Quellensymbole in Symbolkombinationen, die eine Verfälschung des Codeworts erkennen, korrigieren oder verschleiern lassen. Fehlererkennende und -korrigierende Codes Ein Maß für die Effizienz eines Codes ist seine Hamming-Distanz (d). Diese gibt die Mindestanzahl der Binärstellen an, in denen sich die Codewörter eines Binärcodes voneinander unterscheiden. Ein redundanzfreier Code hat d = 1. Bei dieser Hamming-Distanz ergibt schon die Verfälschung eines einzigen Bits ein neues gültiges Zeichen und ein Fehler kann somit nicht entdeckt werden. Bei einer Distanz von 2 können alle 1-Bit-Fehler erkannt, aber nicht korrigiert werden. Eine Hamming-Distanz von 3 erlaubt die Korrektur aller 1-Bit-Fehler und das Erkennen aller 2-Bit-Fehler. Bei der Entwicklung eines Codes muss die gleiche HammingDistanz zwischen allen möglichen Kombinationen der Zeichen des Codes gewährleistet sein. Historisch betrachtet hat sich die datensichernde Codierung aus der bei Lochkarten-Systemen erstmals angewandten Paritätsprüfung (parity check) entwickelt. Die einfachste Art

978 

 15 Digitale Tonsignalspeicherung

der Paritätsbildung entsteht bei der Formung eines zyklischen Codes mit dem Generatorpolynom G(x) = x + 1. Die zyklische Redundanzprüfung (Cyclic Redundancy Check, CRC) ist ein Verfahren aus der Informationstechnik zur Bestimmung eines Prüfwerts für Daten mit dem Ziel, aufgetretene Fehler erkennen und korrigieren zu können. In der kaufmännischen Elektronischen Datenverarbeitung (EDV) gibt es außer Erkennung und Korrektur keine andere sinnvolle Möglichkeit der Fehlerbehandlung: Finanzdaten müssen immer korrekt sein und gestatten keine Kaschierung von falschen Zahlenwerten. Vor Beginn der Übertragung eines Datenblocks wird ein CRC-Wert berechnet und zusammen mit den Nutzdaten weitergegeben. Nach Abschluss der Transaktion wird der CRC-Wert erneut berechnet und anschließend beide Prüfwerte miteinander verglichen. CRC beruht auf der Polynomdivision, die sich durch Modulo-2-Additionen schaltungstechnisch relativ einfach implementieren lässt. Allerdings ist eine Realisierung in Realzeit erst mit der Einführung hoch integrierter Schaltkreise möglich geworden. Für CRC verwendete Polynome sind das Ergebnis umfangreicher mathematischer und empirischer Analysen. CD, DAT und DVD (s. Kap. 15.1.6 und 15.1.8) verwenden als zyklischen Code einen ineinander verschachtelten Reed-Solomon-Code. Er ist als CIRC (Cross Interleaved Reed Solomon Code) bekannt. Bei der Codespreizung, auch als Interleaving bezeichnet, werden die Abtastwerte vor der Blockbildung über mehrere Kanäle eines Datenspeichers verteilt oder, wie es bei einspurigen Datenformaten der Fall ist, durch diagonales Crossinterleaving räumlich auseinandergezogen (Abb. 15/6). Ein Dropout auf einem magnetischen Datenträger erzeugt einen Bündelfehler (burst error), der mehrere hintereinander liegende Abtastwerte zerstört. Nach dem De-Interleaving liegen die gestörten Informationsbits zwischen gültigen Abtastwerten und können dann z. B. durch Interpolation benachbarter Abtastwerte verschleiert und damit im besten Fall unhörbar gemacht werden. Durch mehrfach ineinander geschachtelte EDCs (Error Detection Codes) oder ECCs (Error Correction Codes) ist in der Regel auch eine sichere Erkennung und vollständige Korrektur möglich, bei IT-Daten sogar zwingend erforderlich.

Abb. 15/6. Codespreizung oder Interleaving.

Ampelanzeige und Hinterbandkontrolle In die meisten Geräte der digitalen Audio-Speichertechnik sind Hilfsmittel zur Anzeige von Datenproblemen implementiert. Bei Fehlern, durch die das Tonsignal bereits nachrichtentechnisch beeinträchtigt ist, diese Verschlechterung jedoch wegen geleisteter Korrektur

15.1 Digitale Tonaufzeichnung 

 979

oder Verschleierung noch nicht hörbar wird, hat sich die sog. „Ampelanzeige“ bewährt, die zur Meldung von zulässigen, weil korrigierbaren Fehlerraten bei digitalen Aufzeichnungen dient. Üblicherweise wird damit die „Channel Condition“ (Fehlerzustand der Wiedergabekanäle) an der Bedienkonsole optisch signalisiert. Folgende Situationen können durch unterschiedliche Lichtfarben angezeigt werden: –– Grün: Guter Zustand der Wiedergabekanäle. Sehr niedrige Fehlerrate. Alle Fehler vom Speichermedium können korrigiert werden. –– Gelb: Ein oder mehrere Wiedergabekanäle zeigen eine erhöhte Fehlerrate. Es können noch alle Fehler des Speichermediums korrigiert werden, aber möglicherweise liegt bereits ein Problem vor. –– Rot: Ein oder mehrere Wiedergabekanäle zeigen eine zu hohe Fehlerrate. Es können nicht mehr alle Fehler korrigiert werden. Fehlerverschleierung wird angewendet. Letzte Möglichkeit der Fehlerverschleierung ist dann das Stummschalten des Tons (muting). Das kontrollierende Abhören unmittelbar nach der Aufzeichnung stammt aus der professionellen analogen Magnetbandtechnik, wobei der Wiedergabekopf direkt hinter dem Aufzeichnungskopf das soeben aufgezeichnete Signal reproduziert. Bei entsprechendem Aufwand lässt sich diese „Hinterbandkontrolle“ auch bei digitalen magnetischen und optischen Plattenlaufwerken oder anderen Speichermedien als „Read After Write“-Funktion realisieren.

15.1.5 Magnetische Aufzeichnung Die physikalischen Gesetze der bereits ausführlich beschriebenen analogen SchallsignalSpeicherung auf magnetischem Wege (vgl. Kap. 7) gelten bei der digitalen Tonaufzeichnung für das Daten-Magnetband oder die Festplatte in gleichem Umfang. Allerdings handelt es sich bei den digitalen Vorgängen um wesentlich höhere Frequenzbereiche bzw. um sehr viel kleinere Aufzeichnungswellenlängen auf dem Datenträger. Abb.  15/7  a) und  b) erinnern an den Abstandseffekt mit exponentieller Abnahme der induzierten Spannung. Dieser Abfall ist in der Praxis wirksam z. B. bei Staub auf dem Magnetband oder bei verschmutzten Magnetköpfen. Abb. 15/7 c) und d) illustrieren den „Spalteffekt“. Je breiter der Spalt, desto mehr Feldlinien verfehlen den magnetisch leitenden Kopf und induzieren damit keine Spannung in der Lesespule. Mathematisch lässt sich das mit der sog. Spaltfunktion beschreiben. Folglich werden bei s ≥ λ/2 die aufgezeichneten Bits nicht mehr richtig erkannt, da Streuflüsse benachbarter Bits sich der regulären induzierten Spannung überlagern; es kommt zum sog. „Peak Shift“. Je größer die Träger- bzw. die Bandgeschwindigkeit ist, umso größer ist die im Lesekopf induzierte Spannungsspitze, und umso später wirken sich Verluste durch den Spalteffekt aus; andererseits gibt es mechanische Grenzen für die maximal erreichbare absolute oder zu den Aufzeichnungsköpfen relative Geschwindigkeit des Bands. Lange Zeit waren integrierte induktive Schreib / Lese-Köpfe ein Kompromiss beider Vorgänge, bis im Jahr 1990 die magnetoresistive MR-Technik nutzbar wurde. Abb. 15/8 zeigt einen solchen Schreib-/Lesekopf in seinem prinzipiellen Aufbau. Geschrieben wird konventionell

980 

 15 Digitale Tonsignalspeicherung

Abb. 15/7. Abstands- und Spalteffekt beim Lesen.

Abb. 15/8. Moderner digitaler Schreib-/Lesekopf.

15.1 Digitale Tonaufzeichnung 

 981

mit einem Magnetfeld, das durch einen elektrischen Strom erzeugt wird. Gelesen wird mit einem MR-Element, dessen elektrischer Widerstand sich mit dem Quadrat des anliegenden magnetischen Streufelds ändert. Hierdurch werden die Abmessungen des Lesekopfs erheblich verkleinert. Die magnetoresistiven Köpfe lassen sich ähnlich wie integrierte Schaltungen herstellen. Eine weitere Miniaturisierung führte zur GMR-(Giant Magneto Resistance)-Technologie, die zusätzlich auf quantenmechanischen Effekten beruht und damit Spaltbreiten von nur wenigen Ångström (1 Å = 10-10 m) zulässt. Die binäre Information wird für den Speicherkanal formatiert, der Kanalcodierung (in diesem Fall MFM) unterzogen und anschließend auf den Träger geschrieben. Bei der Wiedergabe wird das Kopfsignal entzerrt, der Takt regeneriert und damit die binäre Information zurückgewonnen. Nach der Decodierung und Fehlerkorrektur stehen die PCM-Werte dann wieder zur Verfügung. Seit 1995 hat u. a. das PRML-Encoding, bei dem die Signale im Lesekanal nicht mehr nach Spitzenwert oder Nulldurchgang, sondern nach ihrer Ähnlichkeit decodiert werden, bei Band und Platte die Aufzeichnungsdichte wesentlich erhöht. Als Faustregel für die fortschreitende Entwicklung gilt eine Verdopplung der Medienkapazität etwa alle 18 Monate, eine Grenze dieser Steigerungsrate ist noch nicht abzusehen. Abb. 15/9 veranschaulicht die wesentlichen Phasen, die ein digitales Tonsignal bei der PCM-Aufzeichnung durchläuft:

Abb. 15/9. Signale bei der digitalen Aufzeichnung.

982 

 15 Digitale Tonsignalspeicherung

15.1.6 Magnetband-Aufzeichnung Das Speichermedium Magnetband ist aus der analogen Speicherung bereits bekannt. Bei der PCM-Aufzeichnung werden in Abhängigkeit vom verwendeten Verfahren mehrere zur BandLaufrichtung parallel oder schräg angeordnete Spuren zeitgleich geschrieben oder gelesen. Zur Verbesserung der Lauf- und Wickeleigenschaften werden auf der Magnetkopfseite Gleitmittel und auf der Rückseite raue Beschichtungen verwendet. Die Magnetbänder für die digitale Speicherung sind mittlerweile bei Banddicken von 6  -  8  μm angelangt. Da ihr magnetisches Verhalten hochkoerzitiv ist, sind sie weitgehend resistent gegenüber Fremdfeldeinflüssen; sie benötigen zur Aufzeichnung des Nutzsignals und zur Löschung starke Magnetfelder. Als Magnetschicht wird Metallpulver (MP/Metal Particle) oder Metallbedampfung (ME/Metal Evaporated) verwendet. Statt klassischem Eisenoxyd und Chromdioxyd kommt z. B. Bariumferrit mit sehr kleiner Partikelgröße zum Einsatz. ME-Bänder haben ausgezeichnete magnetische Eigenschaften und bieten daher hohe Datensicherheit. Die Beschichtung ist sehr dünn und glatt; ME-Bänder verursachen wenig Kopfabrieb. Sie werden deshalb gern bei Recording-Systemen mit rotierenden Köpfen eingesetzt, obwohl sie mechanisch empfindlicher sind als MP-Bänder. Diese haben eine ca. 10-fach dickere Beschichtung und verursachen vergleichsweise mehr Kopfabrieb, sind aber mechanisch robuster und ideal für den intensiven Studiobetrieb mit häufigen Umspulvorgängen an ein und derselben Stelle. Ihr bevorzugter Einsatzbereich ist die lineare Aufzeichnung mit zur Bandkante parallelen Spuren. 15.1.6.1 Helical-Scan-Aufzeichnung Als Anfang der 1980er Jahre die digitale Tonaufzeichnung im professionellen Audiobereich immer mehr Interesse fand, eigneten sich für die Aufzeichnung der hohen Datenraten nur die vorhandenen studiotauglichen Videorecorder. Zu diesem Zweck wurde das digitalisierte Tonsignal in sog. Audioprozessoren so codiert und umformatiert, dass es als scheinbares Videosignal (Pseudo-Videosignal) aufgezeichnet werden konnte. Audioprozessoren PCM-F1 und PCM-1610/1630 Der erste bekannte, noch semi-professionelle Audioprozessor für den Rundfunkbereich ist der PCM-F1, der nach dem EIAJ-Standard arbeitete und einen Betamax-Videorecorder aus dem Consumer-Bereich verwendete. Er ist eigentlich ein 14-Bit-Prozessor, der auf Kosten eines reduzierten Fehlerschutzes auf 16-Bit-Auflösung umgeschaltet werden konnte. Bei Verwendung besonders glatter Videobänder ließ sich die Fehlerrate im Speicherkanal so weit reduzieren, dass ein einwandfreier Betrieb auch mit einer Wortbreite von 16 Bit pro Tastwert möglich wurde. Unterschiedliche Abtastraten ergeben sich beim PCM-F1 in Abhängigkeit vom benutzten Videostandard. Bei PAL/SECAM-Norm beträgt die Abtastrate 44,1 kHz, bei NTSC-Norm (im sog. Drop-Format mit 29,97 Hz Bildfrequenz) sind es 44,056 kHz. Nachfolger des PCM-F1 waren im professionellen Bereich die Audioprozessoren PCM1610/1630 in Verbindung mit professionellen U-matic-Videorecordern. Sie verwenden zwar dieselben Abtastraten wie der PCM-F1, arbeiten jedoch nur nach NTSC-Fernsehnorm wahlweise im Drop- oder Non-Drop-Format. Möglichkeiten zur digitalen Schnittbearbeitung und

15.1 Digitale Tonaufzeichnung 

 983

für das CD-Mastering sind vorgesehen. In jedem der beiden Halbbilder nutzen sie 245 Zeilen der nominal 525 Zeilen eines NTSC-Vollbildes zur Datenspeicherung. Durch die bei der Codierung verwendete Interleaving-Distanz von 11⅔  Zeilen können Dropouts in dieser Länge noch korrigiert werden. Die Daten werden im NRZ(L)-Code als Pseudo-Videosignal kanalmoduliert. Um den Fehlerschutz nicht empfindlich zu stören, muss am Videorecorder der Dropout-Kompensator für Videosignale unbedingt abgeschaltet sein. Der Video-Dropout-Kompensator ersetzt zur Fehlerverschleierung als defekt erkannte Bildzeilen durch die jeweils vorhergehenden und macht damit die korrekte Regeneration von Pseudo-Videosignalen für Audioanwendungen unmöglich. Tab. 15/1 zeigt beide Formate im Vergleich zum DAT-Format. Tab. 15/1. Pseudo-Videoformate und DAT im Vergleich. Format

DAT

PCM-F1

PCM-1610

Quantisierung [Bit/linear] Abtastrate [kHz] Bruttodatenrate [MBit/s] Redundanz [%] Recordertyp Bandbreite [mm] Bandgeschwindigkeit [mm/s] Längsdichte [Bit/mm] Spurdichte [1/mm] Spurbreite [μm]

16 48 2,5 27,3 R-DAT 3,81 8,15 2400 50 13,591

16 (14) 44,1 3,6 60 Betamax 12,65 20 348 34,2 29,2

16 44,1 3,6 60 U-matic 19,05 95 348 7,3 85 (+52 Rasen)

DAT-Format Der DAT-Standard existiert seit 1987 unter der Bezeichnung R-DAT (Rotary head Digital Audio Tape) [IEC  61119] und war damals als Nachfolger des analogen Compact-CassettenFormats (CC) gedacht. Er konkurrierte mit dem S-DAT-(Stationary head Digital Audio Tape)Format. Da sich S-DAT nicht durchsetzen konnte, wird R-DAT heute verkürzt als DAT-Format bezeichnet. Vor allem wegen der Kopierschutzdiskussion um das von der Softwareindus­ trie geforderte SCMS (Serial Copy Management System) blieb DAT für den Consumer-Markt nahezu bedeutungslos. Mit der DCC (Digital Compact Cassette) wurde ebenfalls erfolglos im Jahr 1992 ein weiterer auf Längsaufzeichnung basierender möglicher Nachfolger für das CC-Format auf den Markt gebracht. DCC zeichnet die digitalen Tondaten mit PASC (Precision Adaptive Subband Coding) datenreduziert und verlustbehaftet auf. Bandgeschwindigkeit und Abmessungen von CC und DCC waren so ähnlich, dass in DCC-Geräten auch analoge CC-Kassetten abgespielt werden konnten. Der Vergleich des DAT-Formats in Tab. 15/1 mit seinen Vorgängern zeigt eindrucksvoll die Entwicklung der Magnetbandspeichertechnik. Die teilweise professionellen Quellencodierungsmerkmale von DAT, wie lineare 16-Bit-Aufzeichnung mit 48 kHz-Abtastrate, führten zu größerer Bedeutung von DAT auch im Rundfunkbereich. Im Zuge der fortschreitenden Professionalisierung von DAT wurde die Bandqualität weiter verbessert, praxisgerechte

984 

 15 Digitale Tonsignalspeicherung

Interfacetechnik in den Laufwerken implementiert und zur Qualitätsüberwachung die Hinterbandkontrolle mit Ampelanzeige entwickelt. Auch erfreuten sich mehrere Generationen von handlichen Recordern für Reportagezwecke großer Beliebtheit; Studiomaschinen für Produktion und Sendung werden aktuell zwar nicht mehr gebaut, sind aber absehbar noch länger im Rundfunkumfeld anzutreffen. DAT-Kassetten waren und sind auch in den Schallarchiven der Funkhäuser zu finden und werden dort sukzessive in digitale Archivsysteme eingespielt (vgl. Kap. 15.3.2.4). Tab. 15/2. DAT-Betriebsarten für professionelle Anwendung. Parameter

Version 1

Version 2

Version 3

Kanalzahl Abtastrate [kHz] Quantisierung [Bit/linear] Subcode-Kapazit [kBit/s] Bandgeschwindigkeit [mm/s] Bandspieldauer [min]

2 48 16 273,1 8,15 120

2 44,1 16 273,1 8,15 120

2 32 16 273,1 8,15 120

Abb. 15/10. Kopftrommel beim DAT-Format.

Die wichtigsten DAT-Betriebsarten für den professionellen Betrieb zeigt Tab. 15/2. Das 13 μm dünne, wie beim analogen CC-Format 3,81  mm breite MP-Band ist in einer scheckkartengroßen 2-Loch-Kassette geschützt untergebracht. Wie beim Videorecorder wird es von der Mechanik aus dem Kassettengehäuse herausgezogen und in Form eines Omegas um die Kopftrommel gelegt. Der Umschlingungswinkel beträgt nur 90° und erfordert deshalb eine zeitliche Signalkompression (s. Abb. 15/10). Die absolute Bandtransportgeschwindigkeit beträgt lediglich 8,15 mm/s (im Gegensatz zu 4,75 cm/s beim analogen CC-Format). Durch die mit 2000 U/min rotierende Kopftrommel – in der Regel mit 30 mm Durchmesser – wird eine relative Bandgeschwindigkeit von 313 cm/s erreicht. Professionelle DAT-Recorder haben vier rotierende Köpfe und ermöglichen auf diese Weise zur Qualitätssicherung eine Hinterbandkontrolle. Die Aufzeichnungsköpfe schreiben ihre Schrägspuren mit einer Spurbreite von 20,41 μm, mit abwechselndem Azimutwinkel von

15.1 Digitale Tonaufzeichnung 

 985

± 20° und mit Überlappung. Hieraus resultiert eine Spurbreite von 13,591 μm für das Lesen. Durch die versetzten Azimutwinkel erreicht man bei den kurzen Wellenlängen eine ausreichende Kanaltrennung, so dass kein Leerbereich (sog. Rasen) zwischen den Spuren nötig ist. Abb. 15/11 zeigt das Spurbild des DAT-Formats. Bei jeder Kopfradumdrehung werden digitale Ton-, Zusatz- und Steuerdaten auf dem Magnetband abgelegt. Jeweils vor und nach dem Hauptdatenbereich mit den codierten PCM-Daten wird in der Schrägspur ein kleiner Bereich für Spurführungssignale (ATF, Automatic Track Finding) und ein Bereich für Zusatzdaten (SUB-Daten) beansprucht. Der PCM-Block einer Spur besteht aus 128 Datenblöcken und jeder SUB-Block enthält acht Datenblöcke. Dazwischen liegt der ATF-Bereich mit fünf Blocklängen. Vor und hinter den ATF-Aufzeichnungen befinden sich zur Trennung der Datenbereiche spezielle Blocklücken, sog. Interblock Gaps. Sie ermöglichen die getrennte Aufnahme und Bearbeitung von Audio- und Zusatzdaten.

Abb. 15/11. Spurlagen des DAT-Formats.

Als Fehlerschutz kommt für den PCM- und für den SUB-Datenbereich ein doppelter ReedSolomon-Code zur Anwendung. Der Kanalcode ähnelt dem EFM-Code der CD. Bei DAT wird ein 8/10-Gruppencode verwendet. Die so codierten Daten werden auf die Spuren A und B – geschrieben durch die Köpfe A und B – derart verteilt, dass in Spur A die geradzahligen Datenworte des linken Kanals mit den ungeradzahligen des rechten Kanals kombiniert sind. Spur B enthält dagegen die geradzahligen Datenwörter des rechten und ungeradzahligen des linken Kanals. Diese Verteilung der Daten auf dem Band lässt selbst bei Ausfall einer gesamten Spur, z.  B. durch Kopfverschmutzung, noch eine Fehlerverschleierung zu. Neben dem digitalen Speicherbereich in der Mitte des Magnetbands sind am oberen und unteren Rand je eine Längsspur zur Analogaufzeichnung z. B. von SMPTE-Timecode- und anderen Steuersignalen vorgesehen.

986 

 15 Digitale Tonsignalspeicherung

Das DAT-Format erlaubt wegen seiner SUB-Daten einen CD-ähnlichen Betrieb, wobei hier Platz für die 4,5fache Menge an Zusatzinformation im Vergleich zur CD vorhanden ist. Das machte es möglich, DAT mit großem Erfolg im Programmaustausch und im Archiv einzusetzen. Die Konfektionierung der DAT-Kassetten erfolgt nach [HFBL-13IRT]. Da Lebensdauer und Datensicherheit von DAT-Kassetten begrenzt sind, muss auf Sicherheitskopien und rechtzeitige Datenrettung besonders geachtet werden. Das DAT-Format verliert mittlerweile an Bedeutung. Das DAT-Format wird im Informatikbereich in leicht modifizierter Form auch zur Datensicherung verwendet. Die hierfür angebotenen 4-mm-DAT-Streamer-Kassetten tragen den Zusatz DDS (Digital Data Storage). 15.1.6.2 Helical-Scan-Aufzeichnung für 8-Kanal-Ton Zwei weitere im Folgenden beschriebene Formate waren im semi-professionellen Bereich sehr erfolgreich und kommen in der Ton-Nachbearbeitung von Videoaufzeichnungen mitunter noch zum Einsatz. Beide Formate sind jedoch, wie auch DAT, auf dem Rückzug und wurden nach und nach durch Audioworkstations mit Festplattenspeichern ersetzt. Beide Formate basieren wegen der hohen Audio-Datenraten auf Videolaufwerken. Sie ermöglichen es, durch Timecode-Verkopplung mehrerer Systeme preiswerte 24- und 48-Kanal-Recorder zu realisieren. ADAT (Alesis Digital Audio Tape) Tab. 15/3. Vergleich der 8-Kanal-Formate mit DAT. Format

DAT

ADAT

DTRS

Quantisierung [Bit/linear] Abtastrate [kHz]

16 48 / 44,1

16 [I] / 20 [II] 48 / 44,1

16 / 24 [HR] 48 / 44,1 (8-kanal) 88,2 / 96 (4-kanal) 176,4 / 192 (2-kanal)

Tonkanäle Recordertyp Kopftrommel [U/min] Köpfe

2 R-DAT 2000 2 x Aufnahme, 2 x Wiedergabe

8 S-VHS 3000 2 x Aufnahme, 2 x Wiedergabe

2 bis max. 8 Hi-8 Video 2000 2 x Aufnahme, 2 x Wiedergabe

Bandbreite [mm] Bandgeschwindigkeit [mm/s] Spurbreite [μm] 1 Sample bei 8/10 Encoding Bandfläche (Std.-Kassette)

3,81 8,15 13,591 6,66 μm 0,299 m2

12,7 95 (3-fach Video) 100 13,99 μm 3,036 m2

8 15,955 20 6 μm 0,864 m2

Das proprietäre ADAT-Format beruht auf dem S-VHS-Videokassettensystem; der 8-KanalAudio-Recorder arbeitet jedoch mit der dreifachen Videobandgeschwindigkeit. Durch breiteres Band, geringere Aufzeichnungsdichte und fünffach breitere Spuren als beim

15.1 Digitale Tonaufzeichnung 

 987

konkurrierenden DTRS-Format (Digital Tape Recording System auf Hi8-Kassetten) ist die Aufzeichnungssicherheit bei ADAT grundsätzlich höher. Tab. 15/3 zeigt u. a. im Vergleich die Länge eines mit 16 Bit kanalcodierten Audiosamples und die Bandfläche einer Standardkassette. Diese Eigenschaften sorgen im harten Studioalltag besonders beim spurüberschreibenden Editing für einen robusten Betrieb. ADAT nutzt die DAT-Technologie, verwendet jedoch eigene hochintegrierte ASICs (Application Specific Integrated Circuits) für Codierung, Fehlerkorrektur und Fehlerverschleierung. DTRS (Digital Tape Recording System) Das Format basiert auf dem Hi8-Videokassettensystem. Die Aufzeichnung erfolgt in Spurpaaren mittels DAT-Chipsätzen, d. h., die gesamte Tondatenverarbeitung basiert auf dem DAT-Format (vgl. Tab.  15/3). Darüber hinaus ist ein DTRS-Mehrspurrecorder als einziger bandbasierter Recorder in der Lage, zweispurig das Direct-Stream-Digital-Aufnahmeformat (DSD) zu verarbeiten und eignet sich deshalb als Masterrecorder für die Produktion der Super Audio CD (SACD). Es lassen sich bis zu 16 Maschinen über Timecode verkoppeln, was einem Recorder mit 128 Tonspuren entspricht. Um die Fehlerraten gering zu halten, sollte speziell für DTRS entwickeltes ME- oder MP-Magnetband verwendet werden. 15.1.6.3 Längsaufzeichnung Fast zeitgleich zum DAT-Format, das mit Schrägspur-Aufzeichnung arbeitet, wurden professionelle Digitalrecorder mit Längsaufzeichnung, also parallel zu den Bandkanten liegenden Spuren, entwickelt. Durch Einsatz von Dünnfilmköpfen und Metallpartikelband war es möglich geworden, höhere Aufzeichnungs- und Spurdichten zu erreichen; und nur so waren bei gleicher Wickelgröße auch die von analogen Recordern gewohnten Spieldauern zu realisieren. Es ist einleuchtend, dass diese Recordergeneration in ihrem Äußeren den analogen Studiomaschinen mit offenen Spulen sehr ähnelte; sie wurden daher auch als digitale Reel-to-Reel-Laufwerke bezeichnet. Wegen des dünnen und glatten Bands und der kleinen Spurdimensionen war jedoch eine wesentlich höhere Präzision in der Antriebsmechanik einzuhalten. Längsaufzeichnende Digitalrecorder gehören zur Gerätekategorie mit der Bezeichnung „Digital Audio Recording with Stationary Heads“ (DASH). Eine japanisch-deutsche Firmengruppe stellte das zunächst proprietäre DASH-Format als Weiterentwicklung der Längsaufzeichnungstechnik vor. In Konkurrenz hierzu befand sich das ProDigi-Format (Professional Digital, PD) eines anderen Konsortiums. Beide Formate sind in gemeinsamen Standards für Zwei- und Mehrkanaltechnik definiert und wurden im professionellen Bereich vor allem als 24- und 48-Kanal-Recorder eingesetzt [IEC 61120], [IEC 61595]. Das ProDigi-Format hat sich in professionellen Studios nicht durchsetzen können; im Folgenden wird daher nur auf das DASH-Format näher eingegangen. DASH-Format DASH fand in professionellen Tonstudios weite Verbreitung. Die wichtigsten Parameter des DASH-Formats zeigt Tab. 15/4. Zum Einsatz kommen die einfache Spurdichte bei DASH I und eine doppelte mit der Bezeichnung DASH II. Die Spurgeometrie ist abwärtskompatibel, d. h. DASH II-Maschinen können auch DASH I-Bänder wiedergeben. Im Standard unterscheidet

988 

 15 Digitale Tonsignalspeicherung

man drei Geschwindigkeitsversionen: F (Fast), M (Medium) und S (Slow), die sich jeweils um den Faktor 2 voneinander unterscheiden. Eine Halbierung der Bandgeschwindigkeit erfordert zur Speicherung der gleichen Informationsmenge die Verdopplung der Spurenzahl auf dem Magnetband. Tab. 15/4. DASH-Versionen. Standard

DASH-F

DASH-M

Bandgeschwindigkeit [cm/s]

76

Magnetbandbreite [x Zoll y mm]

¼ 6,3

Banddicke

25 μm

Anzahl Tonkanäle

8[I] / 16[II] 24[I] / 48[II] 4[I] / 8[II]

½ 12,7

DASH-S

38

19

¼ 6,3 ½ 12,7

¼ 6,3

PCM-Spuren pro Kanal

1

PCM-Spuren pro Kopf

16

Analogspuren

2

Hilfsspuren

2 (Timecodespur, Steuerspur)

Quantisierung

16 Bit/linear

Abtastrate [kHz]

48 / 44,1 / 32

12[I] / 24[II] 2[I] / 4[II]

2 48

16

120

4 48

16

Spieldauer [min]

60

Redundanz

33 %

240

Aufzeichnungsmodulation

HDM-1 für PCM / Biphase(M) für Timecode und Steuerung PDM für analogen Ton

Linearspeicherdichte

1500 Bit/mm

Im Rundfunkstudio-Einsatz wurde die Möglichkeit eines mechanischen Schnitts von längsaufgezeichneten Digitalbändern gern gesehen. DASH lässt mechanische Schnitte grundsätzlich zu; für diesen Anwendungsfall wurde das besonders robuste Twin-DASH weiterentwickelt. Dieser Variante einer 2-Kanal-Maschine liegt das Format DASH-M zu Grunde. Anstelle der dort verfügbaren 4 Tonkanäle werden die beiden Tonkanäle jetzt doppelt aufgezeichnet. Während eine normale ¼-Zoll-DASH-Maschine in der Lage ist, eine 5,7 mm lange Störzone zu korrigieren, kann eine Twin-DASH-Maschine den Datenausfall auf einer Länge von 38 mm beheben. Wegen des gewohnten schnellen Schnittablaufs im aktuellen Dienst waren diese Maschinen lange Zeit im Einsatz. Neben den Digitalspuren befinden sich bei DASH-Bändern im Randbereich für analog­ artiges Cueing zwei Audiospuren, genannt PDM (Pulse Duration Modulation), bzw. PWM (Pulse Width Modulation). Außerdem werden noch eine Kontrollspur mit Steuersignalen für Abtastfrequenz, Bandgeschwindigkeit, Bandbreite und Blockadressinformationen, sowie eine Zeitcodespur für den SMPTE-Timecode gespeichert. Beide Spuren sind mit BiphaseMark moduliert; für die PCM-Audio-Datenspuren wird der HDM  1-  Kanalcode genutzt. Ein Datenblock enthält 2 mal 6 Abtastwerte mit einem Checkwort-Bereich zu je 2 Prüfworten für gerade (P) und 2 Prüfworten für ungerade Abtastwerte (Q). Jeder Block beginnt mit einem

15.1 Digitale Tonaufzeichnung 

 989

Synchron-(Sync)- und einem Kontroll-(CTL)-Wort und wird abgeschlossen mit einem CRCCWort, erzeugt nach dem Generatorpolynom G(x) = x16 + x12 + x3 + 1. Die Codespreizung erfolgt in mehreren Schritten nach dem Crossinterleaving-Prinzip, wobei erst ganz am Schluss das CRCC-Wort über die bereits verschachtelten Abtastwerte gebildet wird (s. [IEC 61120] und [IEC 61595]). Die DASH-Maschinen sind heute im MehrkanalProduktionsumfeld weitgehend durch Festplattenrecorder ersetzt. 15.1.6.4 Tondatenaufzeichnung auf Computermagnetband Bei der Suche nach einem bestandserhaltenden und zukunftssicheren Audio-Datenträgersystem („ewiger Tonträger“) fiel der Blick auch auf die Verfahrensweisen der Informationstechnik (IT). Dort werden alle 5 Jahre die Datensätze auf einen neuen Träger kopiert und damit die Dateninhalte „verewigt“. Die Abwärtskompatibilität neuer Laufwerke und Formate ist bei dieser Vorgehensweise besonders wichtig. Da digitale Tonsignale ebenfalls als Datensätze vorliegen und sich auch wie Datensätze behandeln lassen, geraten die Datenspeicher der IT und damit auch das Datenmagnetband als Backup-, Austausch- und Archivmedium in den Mittelpunkt des Interesses. Die Entwicklung von Magnetband-Datensystemen verlief in den Anfängen technologisch parallel zur analogen magnetischen Audio- und Videoaufzeichnung, mit dem Unterschied, dass anstelle von Ton- und Bildinhalten binäre Informationen als „Sprache“ des Computers in Form von logischen Null/Eins-Signalen zu speichern waren.

Abb. 15/12. ½-Zoll-Cartridge, LTO-Streamer und Magnetkopf.

990 

 15 Digitale Tonsignalspeicherung

Im Jahr 1984 löst die Firma IBM ihr offenes Bandspulensystem für die Backups ihrer Computersysteme durch das damals revolutionäre System 3480 ab. Diese „Cartridge“ genannten Einloch-Bandkassetten enthalten 168  m Chromdioxydband, haben eine Speicherkapazität von 200 Mbyte mit einer Transferrate von 3 Mbyte/s und sind in [ECMA-120] standardisiert. Auf das 12,7 mm breite und 30 μm dicke Band wird mit einem GCR 8/9-Code und NRZ(I)Modulation in 18 Spuren aufgezeichnet. Während das Magnetband in der Kassette jeweils dem neuesten Entwicklungsstand entspricht, bleibt der Formfaktor der ½-Zoll-Cartridge mit den Maßen 125x109x24,5 mm3 mit jeweils geringfügigen Modifikationen die „Urform“ für Robo­ ter­­archive. Die Cartridge umschließt die drehgesicherte Bandspule entsprechend Abb. 15/12 staubdicht. Sie wird seitlich in das Laufwerk eingeschoben. Am äußeren Bandanfang ist ein Bandführungsklotz befestigt, der es ermöglicht, das Band automatisch aus der Cartridge zu ziehen. Er wird, sobald die Cartridge von der Antriebsspindel des Laufwerks aufgenommen wurde, über den Bandpfad des Laufwerks gezogen und im Zentrum der geräteseitigen Aufwickelspule befestigt. Das Band wird also von der Cartridgeabwickelspule zur Geräteaufwickelspule über die Schreib-/Leseköpfe bewegt und nach getätigtem Datenverkehr in die Cartridge zurückgespult. Bei älteren Formaten mit diesem Formfaktor sind Bandtyp, Inhaltsverzeichnis, Abspielhäufigkeit etc. am Anfang des Bands abgelegt, so dass zum Lesen dieser Informationen das Band aus der Kassette gezogen werden muss. Bei neueren Formaten befindet sich in der Cartridge ein mehrere Kilobyte großer Flashspeicherchip, ein sog. MIC (Memory In Cartridge). Im MIC sind die Cartridge-Informationen gespeichert und können ohne Beanspruchung des Datenbands über Kontakte oder sogar berührungslos gelesen und aktualisiert werden (vgl. auch Kap. 15.1.13). Längsaufzeichnung (Digital Linear Tape, DLT) Im Lauf der Zeit haben sich etliche weitere Datenformate unterschiedlicher Bandbreiten und Kassetten, wie das QIC-, Travan- und SLR-/MLR-Format etabliert. Eines der bekanntesten ist das DLT-Format. Seine Cartridge ähnelt im Aufbau der klassischen 3480-Type, ist aber etwas größer und beansprucht daher im Roboterarchiv mehr Volumen. Im Rundfunkbereich wird DLT für den Programmaustausch von Audiofiles und in der Medienbranche z. B. als Mastertape für die DVD-Produktion verwendet Ein Laufwerk nach [ECMA-259], in der das DLT5-Format standardisiert wird, ist z. B. in Form des DLT 7000 realisiert. Abb. 15/12 zeigt den Schreib-/Lesekopf dieses Laufwerks. Das Magnetband wird, wie bei linear aufzeichnenden DLT-Laufwerken üblich, im sog. Serpentinen-Modus beschrieben. Hierbei werden zunächst gleichzeitig 4 Spuren in der einen Richtung (im Beispiel von links nach rechts) aufgezeichnet. Die hinter den linken Schreibköpfen in der Mitte angeordneten Leseköpfe dienen der Hinterbandkontrolle. Am Bandende wird die Laufrichtung umgeschaltet und der Kopf wird in der Höhe verstellt; nun zeichnen die rechten Schreibköpfe auf und die Leseköpfe dienen wiederum zur Hinterbandkontrolle. Auf diese Weise wird in ständigem Richtungswechsel das gesamte Band mit insgesamt 208 Spuren beschrieben. Da wie beim DAT-Format die benachbarten Spuren ohne Rasen aufgezeichnet werden, wird beim „Symmetric Phase Recording“ für die beiden ineinander verschachtelten Spurgruppen zur Verhinderung des Spurübersprechens zwischen benachbarten Spuren der Kopf beim Richtungsumschalten zusätzlich um einen Spaltwinkel von ± 9,41° geneigt. Bei Köpfen anderer Formate ist der Azimut fest eingestellt.

15.1 Digitale Tonaufzeichnung 

 991

Der im Laufwerk eingebaute Controller steuert alle Abläufe und sorgt durch Zwischenspeicherung in einem sog. Cache-Speicher dafür, dass das Laufwerk kontinuierlich schreibt und liest und daher im verschleißarmen Streaming-Mode arbeitet. Der Controller sorgt auch für die Formatierung und Fehlerschutzcodierung der Daten. So werden beim DLT5-Format die Datenwerte jeweils synchron über vier Spuren CRC/Reed-Solomon-codiert verteilt. Tab. 15/5. Übersicht diverser ½-Zoll-Formate zum Vergleich. LTO

Gen. 1

Gen. 2

Gen. 3

Gen. 4

Gen. 5

Gen. 6

Gen. 7

mit MIC

4 kByte

4 kByte

4 kByte

8 kByte

8 kByte

16 kByte

16 kByte 16 kByte

Gen. 8

Kapazität [TB]

0,10

0,20

0,40

0,80

1,50

2,50

6,0

12,0

Transferrate [MB/s] ≤ 20

≤ 40

≤ 80

≤ 120

≤ 140

≤ 160

≤ 300

≤ 360

Encoding

RLL 1,7

PRML

PRML

PRML

PRML

NPML

NPML

NPML

Spuranzahl

384

512

704

896

1280

2176

3584

6656

Datenträger

MP

MP

MP

MP

MP

BaFe

BaFe

BaFe

LTFS

LTFS

LTFS

LTFS

Partitioning IBM (Jaguar)

Magstar

Jaguar Gen. 1

Gen. 2

Gen. 3

Gen. 4

Gen. 5

Gen. 6

Labor

mit ≥ 4 kByte MIC

3590H

3592

TS1120

TS1130

TS1140

TS1150

TS1160

2020

Kapazität [TB]

0,06

580

Transferrate [MB/s] 14 Encoding

0,30

0,50 - 0,70

0,64 - 1,0

4,0

10

20

40

100

160

250

360

400

PRML

PRML

PRML

PRML

NPML

NPML

Spuranzahl

384

512

896

1152

2560

5120

8704

Datenträger

MP

Dual-layer MP

Dual-layer MP

Dual-layer MP BaFe

BaFe

BaFe

LTFS

LTFS

LTFS

Partitioning SDLT

Gen. 1

Gen. 3

(Gen. 4

Gen.4 wurde nicht realisiert

kein MIC

SDLT-320 SDLT-600

Gen. 2

DLTS4 (2006)

DLTS5)

wegen LTO

Kapazität [TB]

0,16

0.30

0,80

1,20

Transferrate [MB/s] 16

36

60

100+

Encoding

EPR

PRML

PRML

Enhanced Partial

Spuranzahl

448

640

1280

Response (EPR)

Datenträger

AMP

AMP

AMP

SAIT

Gen. 1

Gen. 2

(Gen. 3)

mit 8 kB MIC Kapazität [TB]

(Gen. 4)

(2006) 0,50

2010 Produktion eingestellt

0,80

2,00

4,00

Transferrate [MB/s] 30

45

120

240

Encoding

TCPR

TCPR

TCPR

TCPR

Magnetköpfe

laminierte MR

MR

GMR

Kopftrommel

5000

6667

8889

10000

AME

AME

AME

AME

[U/min] Datenträger

Gen. 3 und 4 nicht realisiert

SrFe

992 

 15 Digitale Tonsignalspeicherung

Aus DLT ist das aktuelle „Super DLT“ (SDLT) hervorgegangen. Die unkomprimierte Kapazität erhöht sich von 40 auf 110 GByte. Die Datenrate ist nahezu doppelt so hoch. Möglich macht dies eine Kombination aus magnetischer Aufzeichnungstechnik mit optischer Unterstützung, wobei die Positionierung der Aufnahmeköpfe nach dem Laser-Guided-MagneticRecording-Prinzip (LGMR) erfolgt. Mit dem Pivoting-Optical-Servo (POS) steht ein optisch unterstütztes Servosystem zur Verfügung, das eine noch höhere Spurdichte zulässt. Zudem entfällt durch Anwendung von POS das Vorformatieren des Bands. AMP-(Advanced Metal Powder)-Bänder bieten gegenüber herkömmlichen MP-Bändern eine deutlich gesteigerte Datendichte; auf ihrer Rückseite sind bereits die optischen Servospuren als sog. Servotargets abgelegt. Diese werden von drei Laserstrahlen erfasst, die eine sehr genaue Ausrichtung der Köpfe ermöglichen. Acht MRC(Magneto Resistive Cluster)-Köpfe beschreiben parallel die 448 verfügbaren Datenspuren. Der zur Datenaufzeichnung genutzte EPR-(Enhanced Partial Response)-Übertragungskanal ist eine Weiterentwicklung des mittlerweile in der Aufzeichnungstechnik gebräuchlichen PRML-(Partial Response Maximum Likelihood)-Kanals. Andere Entwicklungen weisen noch leistungsfähigere Formate auf, wie z. B. das Jaguar-Format, das fünf Servospuren zur Magnetkopfführung bei der Bandherstellung aufzeichnet, zwischen denen dann die Datenspuren liegen. Auf diese Weise ist es gelungen, auf der in Abb. 15/12 gezeigten Cartridge 1 TByte in 1536 Spuren aufzuzeichnen. Dieses und andere leistungsfähige, proprietäre Formate diverser Hersteller sind die Impulsgeber für das von einem Firmen-Konsortium standardisierte und auf Kompatibilität überwachte LTO-(Linear Tape Open, Ultrium)-Format. Das weit verbreitete LTO-Format arbeitet ähnlich dem Jaguar-Format, ist jedoch mehr auf einen das Magnetband und das Laufwerk schonenden Streaming-Betrieb ausgelegt. Das wesentlich aufwändigere Jaguar-Format ist robuster und unterstützt auch einen Start-/StoppBetrieb für Einzelzugriffe, wie sie bei der Bearbeitung von Audio/Video-Daten üblich sind. Die Details einiger wichtiger DLT-Formate sind in Tab. 15/5 zusammengefasst. Schrägspur-Aufzeichnung (Rotary Head) Im Helical-Scan-Bereich sind das auf DAT basierende DDS-4 mm-Format sowie die auf 8 mmVideolaufwerken aufbauenden AIT-(Advanced Intelligent Tape)- und Exabyte-Formate weit verbreitet. Aber auch von den digitalen Videoformaten D1, D2 und D3 gibt es Daten-Derivate mit teilweise sehr voluminösen Kassettenformaten hoher Kapazität, deren Bedeutung in der Datentechnik jedoch gering geblieben ist.

Abb. 15/13. SAIT-Kopfrad

15.1 Digitale Tonaufzeichnung 

 993

Ein im Rundfunkbereich in Roboterarchiven verwendetes proprietäres Format baut mit seiner Technologie auf dem 8 mm-AIT-Format auf und benutzt die ½-Zoll-Cartridge. Das SAIT-(Super AIT)-Format ist ein ebenfalls proprietäres Streaming-Format. Anders als bei der Serpentinen-Aufzeichnung der DLT-Laufwerke wird hier nur in einer Richtung geschrieben und gelesen. Abb. 15/13 zeigt ein Kopfrad mit 8 Schreib- und 8 Leseköpfen. Statt MP-Band wird ein nur 8,6 μm dickes AME-(Advanced Metal Evaporated)-Band verwendet, dessen aus reinem Kobalt aufgedampfte Speicherschicht mit einer diamantharten Kohlenstoff-Schutzschicht (Diamond-Like Carbon, DLC) versehen ist. Bei der Positionierung des Magnetbands nutzt das Laufwerk zur Band- und Kopfschonung das Inhaltsverzeichnis im MIC der Cartridge (s. auch Kap. 15.1.6.4). Die Steuerung und die Geschwindigkeitsanpassung besorgt ein Controller im Laufwerk mit seinem Cachespeicher. Die PCM-Daten werden mit einem dreistufigen ECC (Error Correction Code) geschützt. Bei der 8-Kanal-Aufzeichnung wird eine Trellis-Vorwärtskorrektur zur Verbesserung der PRML-Codierung eingesetzt (Trellis-Coded Partial-Response, TCPR). Datenstreamer-Systeme konkurrieren mit der Magneto-Optical-Disc-Technologie (MOD) und deren Nachfolgern in den Anwendungsbereichen Archivierung und Backup. Das Magnetband mit Lebensdauern zwischen 10 und 30 Jahren ist momentan auf diesen Gebieten dominant und besitzt auf Grund künftiger Nanotechnologie mit weiter verringerten Spurbreiten noch Entwicklungspotenzial (vgl. Übersicht in Tab. 15/5). Zur Jahreswende 2012/2013 zeigte sich bereits: Von den Formaten in Tab. 15/5 hat sich das LTO-Format durchgesetzt. Während SDLT und SAIT nicht weiterentwickelt wurden, ist das proprietäre Jaguar-Format nach wie vor einer der technologischen Impulsgeber für die Weiterentwicklung des LTO-Formats. Im Labor war es 2010 gelungen, 35 TBytes auf einer Cartridge zu speichern. Mittlerweile wurde dieser Wert im Jahr 2020 im Labor auf 580 TBytes pro Cartridge erhöht. Erreicht wird dieser Wert wesentlich durch einen Wechsel von Bariumzu Strontiumferrit (SrFe) als Datenträger. Als fernes Entwicklungsziel wird 1  PetaByte pro Cartridge angestrebt, u. a. durch die Verwendung von Epsilonferrit (ε-Fe2O3) in der Magnetschicht. Das Jaguar-Format wird in der Praxis gern dort eingesetzt, wo neben dem üblichen magnetband-schonenden Streaming auch magnetband-schonender Start/Stopp-Betrieb und höhere Datenraten bei den Bandlaufwerken gefordert sind. Seit 2018 ist die 6. Generation des Jaguar-Formats auf dem Markt, das seit Generation 4 die Einteilung des Magnetbandes in Partitionen ermöglicht. Erreicht werden die Leistungssteigerungen u. a. durch ein neues Encoding NPML (Noise Predictive Maximum Likelyhood) und verbesserte sog. TMR-Magnetköpfe (Tunneling MagnetoResistive). Möglicherweise werden wegen einer rasant fortschreitenden Entwicklung der Technologie beim Jaguar-Format geplante Generationen übersprungen und nur noch 8. und 9. Generation realisiert. Für die Jaguar-Generation 9 beispielsweise ist das TS1170 als Implementierung geplant, mit einer nativen Speicherkapazität von 40 TByte und einer beachtlichen Datenrate von bis zu 1000 Mbyte/s unkomprimiert. Der LTO-Standard hat bereits ab LTO-5 gleichfalls eine Partitionierung der Cartridge eingeführt und mit dem Long Term File System (s. nachfolgende Beschreibung) umgesetzt. Somit ist das Long Term File System eine Art verbindendes Element zwischen beiden Aufzeichnungsformaten und erleichtert den Umgang mit beiden. Was das LTO-Format betrifft, wurde mittlerweile die LTO-Ultrium-Roadmap bis zur Generation 12 mit einer zu erwartenden bereits korrigierten unkomprimierten Speicherkapazität

994 

 15 Digitale Tonsignalspeicherung

von bis zu 144  TByte pro Cartridge erweitert. Ein Wechsel von Barium- zu Strontiumferrit soll auch hier die Speicherdichte vervielfachen und auf diese Weise die Magnetbandentwicklung bis zur 12. Generation vorantreiben. Aber statt wie gewohnt gibt es bei der aktuell von mehreren Herstellern verfügbaren Generation LTO-9 nur eine Steigerung der bisherigen Speicherkapazität um 50 %, was sich natürlich auch auf die Leistungsfähigkeit nachfolgender Generationen auswirken wird. So speichern LTO-9-Magnetbänder unkomprimiert 18 TByte an Daten pro Cartridge bei einer Datenrate von 400 Mbyte/s. Ermöglicht wird das u. a. durch eine Erhöhung der Anzahl der Spuren von 6656 (LTO-8) auf 8960 auf dem Magnetband durch neuartige Magnetköpfe. Für einen magnetband-schonenden Umgang mit der Cartridge wird das Cartridge Memory (MIC) auf einen Wert von 32 kByte erhöht. Der oben beschriebene aktuelle Stand im Jahr 2022 zeigt eine gewisse Vergleichbarkeit der Leistungsfähigkeit des Jaguar-Formats der Generation 6, implementiert im TS 1160 mit 20 TByte Speicherkapazität und einer Transferrate von 400 Mbyte/s mit der ebenfalls oben beschriebenen 9. Generation von LTO (LTO-9). Long Term File System (LTFS) Das LTO-5 und alle künftigen LTO-Formate nutzen für die Speicherung von Daten das LTFS der Firma IBM, das über das LTO-Programm frei verfügbar ist und von der Website kostenlos heruntergeladen werden kann [LTFS]. Als LTFS-Highlights werden angegeben: –– Direkter Zugriff und Verwaltung von LTO-5/6-Bandlaufwerken, Tape Libraries und ihren Inhalten. –– LTFS-Standard beinhaltet auch das Lesen, Schreiben und den Austausch von beschreibenden Metadaten auf LTO-5/6-Tape-Cartridges. –– LTFS-Standard ermöglicht Tagging, d. h., die Kennzeichnung von Files mit beliebigem Text, und ermöglicht dadurch intuitive Suche auf Cartridges und in Library-Inhalten. Allerdings etwas ungewohnt im Audio- und Videobetrieb: Die Cartridge muss nach dem Einlegen dem System gemeldet („gemountet“) werden. Das Einteilen in Partitionen und die Datenorganisation in Form einer Baumstruktur auf dem Magnetband (Filesystem) ähneln der Datenstruktur einer Magnetplatte. Konkret wird die Tape-Cartridge als Datenträger (Volume) in zwei logische Partitionen aufgeteilt. Am Bandanfang befindet sich die Partition 1, die sog. Index Partition mit dem Inhaltsverzeichnis der Cartridge und den Vorschau-Files (LowRes, z. B. MP3). Im Anschluss daran folgt die Partition 2, die sog. Data Partition. In dieser Partition befindet sich der eigentliche Content (HighRes-Files), z. B. in Form von WAVE- oder BMF-Files mit ihren audiovisuellen Inhalten (Abb. 15/14). Wird nun eine auf diese Weise beschriebene LTO-5-Cartridge in das Laufwerk eingelegt, liest das System das Inhaltsverzeichnis von der Index Partition. Mit dieser Inhaltsinformation kann dann gezielt und schnell auf den adressierten Content zugegriffen und dieser wiedergegeben werden. Mit einer beschriebenen LTO-5-Cartridge könnte man beispielsweise auch an einem NLE-(Non Linear Editing)-System, das für LTFS-Volumes geeignet ist, mit einem dort vorhandenen LTO-5- oder LTO-6-Laufwerk sofort weiterarbeiten.

15.1 Digitale Tonaufzeichnung 

 995

Eine andere Anwendungsmöglichkeit für das LTFS besteht z. B. darin, dieses über LTO5/6-Cartridges in Archivspeichersysteme zu importieren. Dort werden aber inzwischen auch Festplattenlaufwerke sehr erfolgreich eingesetzt. In beiden Fällen sind besondere Strategien zur Datensicherung zu entwickeln (s. auch Kap. 15.3).

Abb. 15/14. Beispiel eines einfachen LTFS Volumes (IBM / The LTO Program).

15.1.7 Magnetplattenaufzeichnung Die Magnetplatte ist bei der digitalen Tonaufzeichnung im Umfeld von Workstations und PC-Lösungen das meistgenutzte Speichermedium. Ein Festplattenlaufwerk (Hard Disk Drive, HDD) ist ursprünglich ein ferromagnetischer Speicher der Informationstechnik. Die Festplatte heutiger Bauart wurde bereits im Jahr 1973 von IBM vorgestellt. Erstmals sind der Zugriffsarm, die Schreib-/Leseköpfe und die Magnetscheiben gemeinsam in einem geschlossenen Gehäuse untergebracht. Der Ausgleich des statischen Luftdrucks ist lediglich über ein hochwirksames Staubfilter möglich. Das Entwicklungsprojekt dieser historischen Festplatte trug die Nummer „3030“ – dies war auch die Artikel-Nummer einer unter dem Namen „Winchester“ bekannt gewordenen Handfeuerwaffe; die umgangssprachliche Bezeichnung Winchester-Platte für alle Platten dieser Bauart war somit geboren. Die ersten Winchester-Platten hatten einen Durchmesser von 14 Zoll (35,84 cm) und eine Speicherkapazität von 30  bis 100  Mbyte. Platten dieser Größe waren für die Tonaufzeichnung in Bezug auf Kapazität und Geschwindigkeit noch wenig geeignet. Für ein digitales Stereosignal mit 16 Bit-Linearaufzeichnung und 48 kHz Abtastrate wird für 90 min Aufzeichnungsdauer immerhin 1 GByte Speicherplatz benötigt (1 GByte = 103 Mbyte = 109 Byte). Bei aktuellen Festplatten gibt es dieses Kapazitätsproblem nicht mehr: Sie erreichen mittlerweile Kapazitäten von mehr als 1 TByte (1 TByte = 103 GByte) mit Datenraten von 130 Mbyte/s und eignen sich somit bereits zur linearen HDTV-Aufzeichnung. Die physikalische Größe einer Harddisk wird als Formfaktor in Zoll (“) angegeben und entspricht in etwa dem jeweiligen Plattendurchmesser. Der Trend geht kontinuierlich zu immer kleineren Festplatten; gebräuchlich sind Formfaktoren von 5,25“ bis herunter zu 0,85“. Server und leistungsfähige Workstations nutzen in der Regel 5,25“- und 3,5“-Festplatten, Laptops meistens 2,5“-Disks und portable Geräte wie MP3-Player häufig 1,8“-Platten.

996 

 15 Digitale Tonsignalspeicherung

1“-Festplatten werden unter der Bezeichnung MicroDrives (als Konkurrenten der CompactFlash-Karte) in handlichen Reportagegeräten, Laptops und in Digitalkameras eingesetzt. 15.1.7.1 Aufbau und Funktion Im Gegensatz zu einer Wechselplatte ist die Winchester-Platte fest in ihr eigenes Gehäuse und Laufwerk eingebaut (Abb. 15/15). Es gibt Wechselfestplatten des Winchester-Typs, die als komplettes Systemlaufwerk ausgetauscht werden können und im Produktionsbereich u. a. als Zwischenspeicher für den schnellen Wechsel zwischen Produktionssystemen dienen.

Abb. 15/15. Fest­platten-Laufwerk.

Die Festplatte besteht aus mehreren, als Plattenstapel übereinander drehgelagerten „Platterns“. Diese sitzen auf einer Spindel und werden von einem gemeinsamen Elektromotor angetrieben. Die meist vier (bis zu zwölf) Platten eines Laufwerks bestehen zur Reduzierung von Wirbelströmen aus hochwertigen Aluminiumlegierungen und bei den kleineren Bauformen wegen der besseren Stabilität und Wärmeleitfähigkeit in zunehmendem Umfang aus speziell gehärtetem Glas oder Keramikmaterial mit extrem glatten Oberflächen. Die anfangs noch über 2  mm und mittlerweile ab Formfaktor  2,5“ unter 1  mm dicken Platten sind beidseitig hartmagnetisch beschichtet und arbeiten nach ähnlichen Aufzeichnungsmethoden wie bei Magnetbändern. Anfangs hatten sie reine Eisenoxydbeschichtungen, später weniger als 1 μm dicke Kobaltschichten. Barium-Ferrit war für die sog. Senkrechtaufzeichnung sehr erfolgreich, bis im Vakuum mittels Kathodenzerstäubung noch stabilere Legierungen aus Kobalt, Platin und Chrom als Dünnfilm aufgebracht werden konnten. Eine relativ junge Aufzeichnungstechnik ist AFC (AntiFerromagnetically Coupled), eine Dreischicht-Technik, bei der zwischen zwei magnetischen Metallfilmen aus jeweils einer Kobalt-Platin-Chrom-Bor-Legierung ein nicht magnetischer Ruthenium-Layer von nur 6 Ångström (=  drei Atomlagen) Dicke liegt. Das bewirkt eine erhebliche Steigerung der Schreibdichte und eine Stabilisierung der aufgezeichneten Bits bei wesentlich höheren Datenraten und Plattendrehzahlen. Die Platten rotieren je nach Leistungsbereich in der Regel mit 4.000 bis 15.000  U/min. Die frühere Kugellagerung der Plattenachse ist mittlerweile wegen der höheren Lebensdauer und geringerer Geräuschentwicklung durch Flüssigkeitslager abgelöst. Auf Grund der großen Packungsdichte und der hohen Rotationsgeschwindigkeit sind Laufwerkskonstruktionen mit eigenen thermostatisch geregelten Kühlvorrichtungen in der Überlegung – mit dem Ziel einer noch weiteren Steigerung von Kapazitäten und Lebensdauerzyklen. Zu hohe Betriebstemperaturen können die statistische Lebensdauer einer Festplatte von 3 bis 5 Jahren erheblich reduzieren.

15.1 Digitale Tonaufzeichnung 

 997

Die Schreib-/Leseköpfe für jede Oberfläche einer Festplatte sitzen auf dem drehbar gelagerten „Kopfkamm“, dem Aktuator. Ein Linearmotor nach Tauchspulenprinzip bewegt diesen Aktuator, der Ähnlichkeit mit dem Arm eines analogen Plattenspielers hat. Die aerodynamisch geformten Köpfe gleiten auf einem Luftpolster von nur 10  bis  20  nm, was die Abstandsverluste zwischen Magnetträger und Magnetkopf stark reduziert. Zum Größenvergleich: ein Haar ist etwa 3000 nm und ein Zigarettenrauchpartikel etwa 300 nm dick. Festplatten sind wegen der geringen Flughöhe der Köpfe erschütterungs- und schmutzempfindlich. Zum Schutz vor Erschütterungen beim Transport werden beim Ausschalten der Disk die Köpfe in einer Landezone außerhalb des Plattenrands geparkt. Für erschütterungsreiche Anwendungen, z.  B. in tragbaren Camcordern, werden die Harddisks zusätzlich gekapselt und mechanisch gedämpft gelagert. Setzt ein Schreib-/Lesekopf, erschütterungs- oder verschleißbedingt, trotzdem auf einer Festplatte auf, kommt es zum Headcrash, d. h., zu „spanabhebenden“ Defekten auf der Plattenoberfläche. Dabei wird in der Regel auch der Kopf selbst zerstört und ein Teil oder die Gesamtheit der Daten auf dem Datenträger geht verloren. Eine regelmäßige Sicherung der Festplatten-Daten in Form eines Backups ist deshalb unerlässlich. 15.1.7.2 Controller, Codierung und weitere Entwicklung Der Disk-Controller, eine Steuerelektronik im Laufwerk, koordiniert die Abläufe. Er entzerrt die Zugriffe zeitlich mit Hilfe eines Zwischenspeichers, dem sog. Cache. Heutige Harddisks besitzen zur Ansteuerung aufwändige Elektronikbausteine, die im Prinzip eigenständige Mikroprozessoren sind, und verfügen über einen Cache-Speicher von 2 bis 16 Mbyte Kapazität, mit dessen Hilfe bei übergeordneter Organisation durch den Controller die Wartezeiten für das Schreiben und Lesen deutlich reduziert werden. Die mittlere Latenzzeit, die der Zeit für eine halbe Umdrehung des Plattenstapels im Laufwerk entspricht, ergibt sich bei 15.000 U/min zu etwa 2 ms. Ein Cache-Speicher verringert die Wartezeiten bei Schreib- und Lesezyklen durch Pufferung erheblich. Durchschnittliche Suchzeiten, die auch von der Datenstruktur abhängig sind, liegen heute bei ca. 3 bis 8 ms. Während Daten auf einem Magnetband nur sequenziell, also zeitlinear geschrieben und gelesen werden können, sind auf einer Platte für einen schnellen Zugriff zwei Dimensionen (horizontal und vertikal) zur non-linearen Adressierung vorhanden (Abb. 15/16). Die Platten werden in kreisrunden Spuren (tracks) adressiert, und diese sind wiederum in Sektoren unterteilt. Werden mehrere Platten zu einem Plattenstapel übereinandergestellt, bilden die Spuren mit gleichem Radius einen Zylinder. Auf die Information eines Zylinders kann elektronisch ohne mechanische Magnetkopfbewegung besonders schnell zugegriffen werden. Beim Beschreiben einer Festplatte empfiehlt es sich daher, die Informationsblöcke kontinuierlich mit minimalen Kopfbewegungen abzulegen. Ein Sektor entspricht einem Block beim Magnetband. Infolge der zwei Dimensionen ist der Zugriff auf Daten bei Platten wesentlich schneller als bei bandförmigen Speichern. Platten werden deshalb auch als sekundärer Arbeitsspeicher eines Computers eingesetzt, wenn der implementierte Arbeitsspeicher nicht ausreicht. Magnetbänder dagegen werden für die Datensicherung und Archivierung verwendet und müssen – wie bereits erwähnt – auf diesem Gebiet mit den optischen Speichermedien konkurrieren.

998 

 15 Digitale Tonsignalspeicherung

Abb. 15/16. Schematischer Aufbau einer Festplatte.

Die Plattengeometrie hat zur Folge, dass die Bitlängen auf den äußeren Spuren länger als auf den inneren sind, da die Platten mit konstanter Drehzahl (Constant Angular Velocity, CAV) rotieren. Besondere Schreibalgorithmen steuern die Schreibfrequenz in Abhängigkeit vom Spurradius, um so die Speicherkapazität zu erhöhen. Auf diese Weise werden bei gleichem Winkel nach außen hin immer mehr Sektoren untergebracht, und folglich lassen sich ohne weitere Kopfbewegung mehr Daten unterbringen. Man spricht vom Zoned Bit Recording (ZBR). Die Zoneneinteilung geschieht bereits bei der Fertigung. Die Spureinstellung der Magnetköpfe besorgt ein winkelstellender Linearmotor mit der Genauigkeit von etwa einem Zehntel des Spurabstands. Er bekommt seine Informationen entweder von den Servospuren einer Servo-Oberfläche der Festplatte oder direkt aus den Datenspuren. Zur thermischen Justage (thermal calibration) überprüft das Laufwerk etwa alle 10  Minuten mit Hilfe der Lesespannung seine Spureinstellung. Dieser Vorgang dauert nur Bruchteile einer Sekunde. Während dieser Zeit können jedoch keine Daten gelesen oder geschrieben werden, was bei Echtzeitanwendungen zu Problemen führen kann und bei digitalen Audioworkstations berücksichtigt werden muss. Bei einem Festplattensystem wird die Umsetzung der Quellen- in eine passende Kanalcodierung durch den Hard Disk Controller erledigt. Nach der ECC (Error Correction Coding) nutzt er die historisch ältere MFM-Codierung oder die neueren RLL-Verfahren, z. B. RLL (1,7) und RLL (2,7). Beim Formatieren einer Festplatte wird deren Organisation vom Controller festgelegt. Die kleinste Einheit ist ein Sektor, in der Regel mit einer Gesamtlänge von 512 Bytes, mit einer fortlaufenden Sektor-ID, den Daten und deren Fehlerschutz. Mehrere Sektoren werden zur kleinsten logisch ansprechbaren Einheit, dem Cluster, zusammengefasst. Der physikalische Speicherort der zu einer Datei gehörenden Cluster wird im Inhaltsverzeichnis der File Allocation Table (FAT) des Dateisystems einer Harddisk angegeben. Die FAT arbeitet nach der Verkettungstechnik, um jeden freien Speicherplatz zu nutzen. Große Datenmengen können auf diese Weise sehr effektiv in sequenziellen Blöcken verarbeitet werden, während kleine Datensätze fragmentiert, d. h., sehr ineffektiv, auf diversen Sektoren in unterschiedlichen

15.1 Digitale Tonaufzeichnung 

 999

Zylindern verteilt sein können, so dass der Zugriff mit erheblichen Kopfbewegungen verbunden ist. Daher sollten Platten nach gewissen Nutzungszeiten defragmentiert werden, um stark fragmentierte Dateien wieder in zusammenhängende Speicherbereiche zu überführen. Zu Beginn wurden in Winchester-Laufwerken induktive Schreib-/Leseköpfe verwendet, was einen Kompromiss der Schreib- und Leseleistung bedingte. Das änderte sich Anfang der 1990er-Jahre mit der MR- und GMR-Technologie, die mit integrierten Schreib-/Leseköpfen sogar ein direktes „read-after-write“ ermöglichen. Bei der Plattenherstellung gelang der Sprung von der Eisenoxyd- zur Dünnfilmbeschichtung. Den Wechsel in kleinere Formfaktoren und damit billigere Laufwerke ermöglichte die Einführung von RAID-(Redundant Array of Independent Disks)-Architekturen. PRML-Encoding in 3,5“-Laufwerken trieb die Miniaturisierung weiter voran und 1999 folgten die 1“-Mikrodrives mit 340 Mbyte Speicherkapazität, die bis heute auf 8 GByte gesteigert werden konnte. Weitere Steigerungen in der Aufzeichnungsdichte sind zu erwarten. Durch Erwärmung der Magnetisierungsträger beim Schreiben (Thermally Assisted Recording / TAR oder Heat Assisted Magnetic Recording / HAMR) wird versucht, deren Größe von zurzeit 8 nm auf 2 nm zu reduzieren. Aus wirtschaftlichen Gründen werden sich die Hersteller von Festplatten vermutlich auf 2,5 Zoll beschränken und derartige Laufwerke in verschiedenen Leistungsklassen anbieten. Workstations und Server nutzen dann hochwertige und daher teure Enterprise- oder FC-/ SCSI(SAS)-HDDs (Standard: 10.000 oder 15.000 U/min, 320 Mbyte/s, 900 GByte) mit neuer AFC-Technologie für einen robusten 24h/7d-Dauerbetrieb. Durch die fortschrittliche Senkrechtaufzeichnungstechnik (Perpendicular Recording) werden auch kostengünstigere Hard Disk Drives mit ähnlicher Leistungsfähigkeit verfügbar. Die mit IDE-Laufwerken vergleichbaren preiswerten SATA-HDDs (7200 U/min, 160 Mbyte/s, 4 TByte) arbeiten nach der konventionellen MR-Technologie. Sie sind allerdings nur für einen 8-Stunden-Betrieb pro Tag ausgelegt. Mittlerweile stellt sich heutzutage bei Anwendungen immer wieder die Frage, eine HDD oder eine SSD (vgl. Kap. 15.1.13.3) zu verwenden. Es gibt HDDs, die bekanntlich auf magnetischer Plattenspeicherung beruhen und in der Regel in 2,5 und 3,5 Zoll mit bis zu 8 TByte verfügbar sind. Die SSD dagegen, beispielsweise mit 4 TByte, baut auf Solid-State-Technologie, hat also keine beweglichen Teile wie die HDD und ist deshalb besonders schnell und unempfindlich gegen Erschütterungen. Die SSD ist ein Flash-Speicher mit endlicher Lebensdauer, was sich durch entsprechendes Speichermanagement mildern lässt. Allerdings ist die SSD im Vergleich zur HDD deutlich teurer bei geringerer Speicherkapazität. Es wird folglich auf die Anwendung ankommen, welche Technologie zum Einsatz kommt. Beispielsweise werden daher bei Laptops gerne SSDs eingesetzt, während bei Desktops aktuell beide Speicherarten verwendet werden, z. B. für ein schnelles Hochfahren des PCs einen SSD-Speicher. Darüber hinaus gibt es noch die eher seltenen Hybridlaufwerke (SSHDs) mit HDD im TByte- und SSD im GByte-Bereich, die ähnlich dem Formfaktor einer HDD in 2,5 oder 3,5 Zoll realisiert sind.

1000 

 15 Digitale Tonsignalspeicherung

15.1.8 Optische Aufzeichnung Begonnen hat die kommerzielle optische Massenspeicherung mit der Bildplatte, auf der Bild und Ton allerdings noch analog gespeichert waren. Der Abstand zwischen magnetischen und optischen Datenträgern bezüglich Speicherkapazität und Transferrate ist seither zum Vorteil des magnetischen Prinzips größer geworden. Wegen der benötigten Abkühlzeiten für gerade geschriebene Bits arbeitet die optische Technik mit geringeren Drehzahlen als die magnetische Technik. Eine weitere Folge der Materialerwärmung bei den optischen Techniken ist die größere lineare Ausdehnung der Bits und deren hieraus resultierende physikalisch/chemische Beschaffenheit. Auch die Volumenpackungsdichte ist bei magnetischen Bandträgern höher, da deren Windungen direkt aufeinander liegen. 15.1.8.1 Optische Speicherverfahren Die Information optischer Speichermedien wird berührungslos abgetastet. Ein durch Blenden begrenzter Laserstrahl (Halbleiter- oder Gaslaser) wird durch Linsen auf die Informationsebene des Speichermediums fokussiert. Die Informationsebene ist zur Sicherheit nicht an der Oberfläche angeordnet, sondern in das Speichermedium eingebettet oder von einer transparenten Schutzschicht überdeckt. Eine fotoempfindliche Elektronik tastet entweder den reflektierten oder den durch das Medium hindurchgehenden Laserstrahl ab und entscheidet mittels einer Schwellwertschaltung, welcher Bitzustand der Lichtintensität zuzuordnen ist. Sowohl bei reflektierenden als auch bei transmittierenden Speichern wird der Laserstrahl auf eine Bezugsebene, die als „Land“ bezeichnet wird, fokussiert (Abb.  15/17). Fällt nun eine abtastseitige Erhebung, die – von der Rückseite einer industriell gepressten Informationsschicht aus betrachtet – als „Pit“ (Vertiefung) bezeichnet wird, in den Bereich des fokussierten Laserstrahls, dann wird wegen der auftretenden Streuung nur noch ein Teil des Lichts reflektiert. Dieser Intensitätsunterschied wird für die Darstellung der logischen Grundzustände ausgewertet. Reflektierende Speicher weisen auf der dem Laserstrahl gegenüberliegenden Seite eine Schicht auf, die meist durch Aluminiumbedampfung einer Kunststoffplatte aus Polycarbonat erzeugt wird. Zweiseitig reflektierende Speicher werden durch Rücken-an-Rücken-Montage von zwei Einzelplatten miteinander verklebt. Auch transmittierende Speicher können zweioder mehrseitig aufgebaut werden, da sich die jeweils nicht benutzte Schicht im stark defokussierten Teil des Laserstrahls befindet und deshalb den Lichtdurchtritt nicht beeinflusst. Read Only Memory – ROM Nur-Lese-Speicher (Read Only Memory) werden üblicherweise direkt bei der Herstellung des Speichermediums beschrieben. Die Information wird wie bei der CD-DA oder der CD-ROM als Oberflächenrelief beim Spritzguss eingepresst. Davor wird im Masteringprozess von einem Mastertape eine Pressmatrize erzeugt (vgl. Kap. 15.2). Write Once Read Multiple – WORM Diese Datenträger sind nur einmal beschreibbar und mehrfach lesbar.

15.1 Digitale Tonaufzeichnung 

 1001

Beim Schreibverfahren durch „Pit-Erzeugung“ wird eine vorformatierte, nicht-transparente Schicht aus organischem Farbstoff an den informationstragenden Stellen zerstört, so dass eine darunter liegende reflektierende Schicht sichtbar wird, und somit Pits und Lands unterschieden werden können. Beim Verfahren durch „Bubble-Erzeugung“ wird ein formatiertes, wärmeempfindliches Substrat auf der Oberfläche des Mediums erhitzt. Dabei entstehen Blasen, die das Laserlicht beim Lesen der CD diffus reflektieren. Read Write Erase – RW Ein Verfahren, bei dem mehrfach gelesen, geschrieben und gelöscht werden kann, ist das thermisch, magnetisch und optisch wirkende Verfahren, wie es die MOD (Magneto Optical Disk) verwendet. Bei diesem Verfahren ändern im Speichermedium befindliche Elementarmagnete ihre Ausrichtung unter Einwirkung eines magnetischen Zugfelds an den Stellen, an denen das Laserlicht auftrifft und das Medium auf eine Mindest-Temperatur erwärmt (CurieEffekt). Die Information bleibt bis zum erneuten Aufheizen auch ohne äußeres Magnetfeld gespeichert. Wird das Medium beim Lesevorgang mit polarisiertem Laserlicht bestrahlt, so ist das Reflektionsverhalten an seiner Oberfläche abhängig von der Ausrichtung der Elementarmagnete an der jeweiligen Stelle. Die Polarisationsebene des auftreffenden Strahls wird je nach Orientierung der beleuchteten Magnetdomäne um einen festen Winkel gedreht. Befindet sich die phasenempfindliche Auswertelogik auf der gleichen Speicherseite wie der Laser, spricht man vom Kerr-Effekt. Bei der Durchlichtauswertung handelt es sich um den FaradayEffekt. Das Phasenwechselverfahren überführt die in einem optischen Speichermedium befindlichen Speicherpartikel vom amorphen in den kristallinen Zustand; nach diesem Prinzip ändert sich das Reflexionsverhalten z. B. bei der CD-RW (ReWritable). Der amorphe Zustand besitzt einen geringeren Reflexionsfaktor und einen höheren Absorptionsgrad als der kristalline Zustand; daher kann das Phasenwechselverfahren sowohl für reflektierende als auch transparente Speichermedien eingesetzt werden. Bei allen Read-Write-Erase-Verfahren kann der Datenträger für eine begrenzte Anzahl von Wiederholungen durch Energiezufuhr gelöscht und neu beschrieben werden. 15.1.8.2 Optische Aufzeichnungsverfahren In der Regel basieren die heute angebotenen optischen Speicher auf kreisförmigen Kunststoffscheiben. Die Aufzeichnung kann in Form von konzentrischen Ringen erfolgen, vergleichbar mit magnetischen Platten. Der überwiegende Teil verwendet jedoch eine Aufzeichnung in einer spiralförmigen Spur, ähnlich der Tonspur einer Schallplatte. In der Informationsspur werden zur Codierung der beiden logischen Zustände konstante geometrische Bit-Längen verwendet. Die aufgezeichneten Daten setzen sich in der Regel aus Bytes zusammen, die in Blöcken organisiert sind, vergleichbar den Sektoren herkömmlicher magnetischer Speicher. Numerische Apertur (NA) Die Numerische Apertur (NA) ist ein wichtiger Parameter bei optischen Abtastsystemen und beschreibt das Maß für die wellenlängenabhängige Bündelungsfähigkeit paralleler Licht-

1002 

 15 Digitale Tonsignalspeicherung

strahlen und damit für das geometrische Auflösungsvermögen eines schreibenden oder abtastenden Licht- bzw. Laserstrahls. Sie ist auch ein Äquivalent zur Blendenöffnung in fotografischen Objektiven. Eine hohe NA ermöglicht eine bessere Auflösung, was jedoch auf Kosten einer schlechteren Feldtiefe (Schärfentiefe) geht. Durch die Wellenlängenabhängigkeit der NA wird die minimale Größe der Datenelemente auf einem optischen Datenspeicher bestimmt. Je kürzer die Wellenlänge des Lichts, desto höher ist die mögliche Datendichte. Constant Angular Velocity (CAV) Das Verfahren der konstanten Winkelgeschwindigkeit zeichnet gleich große Informationsmengen in gleichen Winkelsegmenten auf, vergleichbar den Sektoren der Harddisk. Dies bedeutet, dass die inneren Sektoren eine wesentlich höhere Speicherdichte aufweisen als die äußeren. Der Vorteil liegt in der konstanten Drehzahl des Antriebssystems und der einfachen Adressierbarkeit von Informationsblöcken. Constant Linear Velocity (CLV) Die verfügbare Speicherfläche wird effizienter genutzt, wenn die Informationsmenge mit gleichmäßiger Dichte in der Spur aufgezeichnet wird. In diesem Fall ist die Relativgeschwindigkeit zwischen Schreib-/Lesekopf und Speichermedium konstant. Die Drehzahlen für den inneren und äußeren Teil der Spiralspur sind daher unterschiedlich. Diese Drehzahl muss bei jedem Zugriffswechsel über mehrere Spuren hinweg erneut eingestellt werden, was zu relativ hohen Zugriffszeiten führen kann. Hinzu kommt, dass die Sektoradressierung aufwändiger ist. Diesen Nachteilen steht ein drastisch erhöhtes Speichervolumen durch die optimale Speicherdichte vorteilhaft gegenüber. Universal Disk Format (UDF) Das Universal Disk Format ist ein von der OSTA (Optical Storage Technology Association) entwickeltes und standardisiertes plattformunabhängiges Dateisystem. Es wird vor allem für optische Platten verwendet und löst nach und nach das [ISO 9660]-Format ab. [UDF] wurde als [ISO 13346] normiert und ist auch unter dem Namen [ECMA-167] bekannt. Prinzipiell ist UDF für alle RW- und ROM-Medien einsetzbar, kann von den meisten Betriebssystemen gelesen werden und ist eine leistungsfähige Alternative zum veralteten FAT-Dateisystem.

15.1.9 Compact Disc Die CD wurde 1982 als Nachfolgerin der analogen Nadelton-Schallplatte („Schwarze Scheibe“) eingeführt. Mittlerweile gilt sie als ein großer Erfolg in der elektronischen Konsumgüterbranche, der auch auf die optimale Kooperation der Entwickler und der Plattenindustrie zurückzuführen ist. Leider gibt es eine verwirrende Vielzahl von Derivaten, weshalb die hier näher betrachtete Audiovariante auch als CD-DA (Digital Audio) bezeichnet wird. Die CD-DA ist im nicht öffentlichen [Red  Book] spezifiziert und die wichtigsten Eigenschaften sind als [IEC 60908] standardisiert. Die Audiodaten werden mit einer Abtastrate von 44,1 kHz, 16 Bit linearer Quellencodierung und 2-kanalig aufgezeichnet. Die Datenrate beträgt 1,411 MBit/s.

15.1 Digitale Tonaufzeichnung 

 1003

15.1.9.1 Beschreibung Die CD ist eine Kunststoffscheibe mit einem Durchmesser von 12 cm, einer Dicke von 1,2 mm und einem 15 mm großen Mittelloch. Vor der Toninformation befinden sich, nicht weit vom Mittelloch, der Lead-In- und am äußeren Rand der Lead-Out-Bereich. Für die eigentliche Tonaufzeichnung steht der Programmbereich zwischen den Durchmessern 50 bis 116  mm zur Verfügung. Die Information befindet sich in einer spiralförmigen Spur mit einer Steigung von nominal 1,6 μm. Abgetastet wird die CD, anders als eine Schallplatte, von innen nach außen mit einer konstanten Lineargeschwindigkeit (CLV), die in einem Bereich von 1,2 bis 1,4 m/s liegen darf. Die Drehzahl variiert zwischen 200 und 500 U/min und bewirkt somit eine auf der gesamten CD-Fläche gleich große Speicherdichte. Die Spur besteht aus Stellen ohne Vertiefung, dem sog. „Land“ und aus den von der Rückseite in die 1,2 mm dicke durchsichtige Polycarbonatscheibe eingeprägten Vertiefungen, den sog. „Pits“ (Vertiefungen). Diese haben eine Tiefe von typisch 0,12 μm (Abb. 15/17).

Abb. 15/17. Schichtaufbau der CD.

Auf die informationstragende Rückseite des Pressrohlings wird eine ca. 50 nm dicke Reflexionsschicht aus Aluminium aufgedampft. Darüber befindet sich ein Schutzlack von maximal 10 μm, und auf diesen wird das „Label“ gedruckt. Die Disc ist auf der rückwärtigen Seite mechanisch sehr empfindlich und sollte daher nicht mit ungeeigneten Mitteln beschriftet oder beklebt werden. Die Pits sind Träger der Information. Sie haben eine Breite von 0,5 μm und Längen von ca. 0,8 bis 3 μm. Die kleinste Dateneinheit ist das Kanalbit, dessen logischer Wert „Eins“ durch einen Übergang von Land nach Pit bzw. umgekehrt repräsentiert wird. Abb. 15/18 zeigt die bei der CD-DA bzw. bei der CD-ROM verwendete Codierung im Blockdiagramm. Die Pits liegen in der sich an die EFM-Modulation anschließenden NRZ(I)-Codierung vor und enthalten die digitalen Informationen. Zur Fehlerkorrektur wird Redundanzbildung und Codespreizung mittels CIRC (Cross-Interleaved-Reed-Solomon-Code) angewendet, wodurch eine hohe Sicherheit gegen Zufalls- und Bündelfehler (burst error) erreicht wird. Bei der CD-DA werden jeweils 98 Datenrahmen bzw. Frames zu einem Block, hier auch als Sektor bezeichnet, zusammengesetzt. Insgesamt sind bei der CD-DA bis zu 250 Fehler pro Sekunde korrigierbar.

1004 

 15 Digitale Tonsignalspeicherung

Die Kontrollbits ergeben 8 Zusatzdatenkanäle und werden mit P bis W bezeichnet. Der P-Subchannel kennzeichnet den Beginn eines Audio-Tracks. Es können maximal 99 Tracks auf einer CD-DA untergebracht werden. Der Q-Subchannel enthält je nach Modus Tracknummer und Programmzeitdaten, den EAN-Code (Europäische Artikel-Nummer) oder den ISRC (International Standard Recording Code). Bei reinen Audio-CDs werden Subchannel R bis W des Kontrollworts nicht genutzt.

Abb. 15/18. Blockdiagramm der CD-Codierung.

Die optische Abtastung der CD erfolgt durch den Polycarbonatträger hindurch von unten durch gebündeltes Laserlicht. Der Abtastlaser wird durch einen Aktuator auf der Spiralspur geführt. Hierzu kann ein Linear- oder Rotationsantrieb dienen. Den prinzipiellen Strahlenverlauf bei der Laserabtastung zeigt Abb. 15/19. Das zur Abtastung notwendige kohärente Licht eines Klasse-1-Halbleiter-Lasers mit 780  nm Wellenlänge wird über einen semitransparenten Spiegel, eine Sammellinseneinheit (Kollimator) und über ein Objektiv auf die Pitstruktur der CD fokussiert. Mit 0,8  μm Durchmesser trifft der Laserstrahl auf die Oberfläche des Polycarbonats. Die Fokussierung und Nachführung des Brennpunkts auf der Pitstruktur verlangt die Einhaltung sehr enger Toleranzen durch präzise mechanische Regelungsvorgänge in zwei Ebenen. Der Laserstrahl wird von der Pit-/Land-Struktur in unterschiedlichem Grad reflektiert und gelangt zurück durch den halbdurchlässigen Spiegel und über einen Strahlteiler auf vier der Auswertung dienende Fotodioden. Hieraus werden neben dem eigentlichen Datensignal auch Signale für die Scharfeinstellung und die Spurführung abgeleitet. Neben der 1-Strahl-Methode gibt es noch die aufwändigere 3-Strahl-Methode, die durch die Aufteilung in Haupt- und zwei Hilfsstrahlen Signale für die Steuerung des Abtastsystems gewinnt. In der nachfolgenden Tab. 15/6 sind die wichtigsten Eigenschaften der CD im Vergleich zu ihren Nachfolgern – der DVD mit rotem, bzw. HD-DVD und Blu-ray mit blauem Laserlicht – zusammengefasst.

15.1 Digitale Tonaufzeichnung 

 1005

Abb. 15/19. CD-Abtasteinheit – Prinzip eines 1-Strahl-Lasersystems.

Tab. 15/6. Disc-Typen im Überblick. Type

CD

DVD

Blu-ray

HD-DVD

Single Layer [GByte] Dual Layer [GByte] Laserwellenlänge [nm] Dicke [mm] Spurabstand [μm] Numerische Apertur

0,7 780 1,2 1,6 0,45

4,7 8,5 635 0,6 0,74 0,6

23/25/27 50 405 0,1 0,3 0,85

15/20 30/32 405 0,6 0,4 0,65

15.1.9.2 CD-R Die CD-R (CD Recordable), die auch unter dem Namen CD-WO (Write Once) bekannt ist, lässt sich nur einmal beschreiben und ist im [Orange  Book  Teil II] spezifiziert. Beim meist verwendeten Speicherverfahren brennt ein Laser Löcher in eine Dünnfilmschicht. Beim sog. Dye-Polymer-Verfahren wird in einer gefärbten Schicht mittels 10-facher Laserleistung durch das Brennen eines Pits der organische Farbstoff zerstört und somit an dieser Stelle der Brechungsindex verändert. Beim Lesen der Information kommt es dadurch zur Dämpfung bzw. Streuung des Laserstrahls. Die CD-R besteht, ähnlich wie die CD-DA, aus einem Polycarbonat-Substrat, das die Trägerscheibe bildet, einer reflektierenden Schicht und einer oberen Schutzschicht, sowie einer Oberflächenbeschichtung, auf der sich Label bzw. Titelfeld befinden. Zwischen Trägermate-

1006 

 15 Digitale Tonsignalspeicherung

rial und Reflexionsschicht liegt die organische Farbschicht, das sog. Organic Dye, in das die Information geschrieben wird. Abb. 15/20 zeigt den Aufbau. Im Unterschied zur CD ist bei der CD-R im Trägermaterial noch eine spiralförmige Spurrille zur Führung des Lasers eingeprägt. Diese Führungsspur hat eine Breite von 0,6 μm und einen Spurabstand von 1,6 μm. Zur Drehzahlregelung beim Schreibvorgang ist dem spiralförmigen Verlauf eine sinusähnliche Auslenkung mit einer Frequenz von 22,05 kHz überlagert. Aufgezeichnet werden kann auf die CD-R mit speziellen digitalen Tonrecordern oder per Computer mit geeigneter Brennsoftware in Verbindung mit einem CD- oder DVD-Brenner. Beschrieben wie eine CD-DA, besitzt die CD-R ähnliche Eigenschaften wie eine gepresste CD und kann deshalb auf den meisten Playern abgespielt werden. Probleme wegen der schlechteren Reflexion gibt es nur bei wenigen CD- und DVD-Geräten. Die CD-R mit ihren Kapazitäten 74 min bei 650 Mbyte und 80 min bei 700 Mbyte kann aber auch wie eine CD-ROM benutzt werden. Die Audiodaten werden dann im [UDF]- oder [ISO 9660]-Fileformat aufgezeichnet. Bei Schreibgeschwindigkeiten, die ein Vielfaches des Nominalwertes betragen, ist es wichtig, dass Recorder und Medium aufeinander abgestimmt sind. Zur Qualitätssicherung sollte das Brennresultat unbedingt mit einem Analysator überprüft werden. Die CD-R ist kratz-, wärmeund lichtempfindlich und wegen ihrer relativ kurzen Lebensdauer von 5 bis 10 Jahren kein Tonträger für das Langzeitarchiv.

Abb. 15/20. Schematischer Aufbau der CD-R.

15.1.10 Super Audio CD Ca. 15 Jahre nach Markteinführung der CD wurde eine hochkapazitive Weiterentwicklung vorgestellt in Form der SACD. Bei der SACD wird die DSD-(Direct Stream Digital)-Technologie verwendet. Dabei kommt ein 1-Bit-Delta-Sigma-A/D-Wandler mit einer Abtastrate von 2,8224 MHz zum Einsatz (vgl. Kap. 12.3.22). Der so erzeugte Datenstrom wird direkt auf einem SACD-Masterrecorder aufgezeichnet. Wegen der auf Puls-Dauer-Modulation (PDM) basierten 1-Bit-Technologie von DSD ist der Datenstrom außerordentlich präzise, da Quantisierungsund Filterungsprozesse weitgehend entfallen können. Auf der Wiedergabeseite sind klangmindernde Interpolations- und Antialiasingfilter, wie sie bei der herkömmlichen CD erforderlich sind, nicht mehr nötig. Die obere Grenzfrequenz wird bei DSD von 20 kHz auf 100 kHz mit einem Dynamikumfang von 120 dB im

15.1 Digitale Tonaufzeichnung 

 1007

Hörbereich erweitert. Mit dem SBMD-(Super Bit Mapping Direct)-System ist eine Downkonvertierung von DSD in alle gängigen Formate möglich, u. a. in das 16  Bit/44,1  kHzFormat der CD. Um Speicherplatz auf der SACD zu sparen, kommt das verlustlose Datenkompressionsverfahren DST (Direct Stream Transfer) mit einer typischen Datenkompression von 2:1 zum Einsatz. So können 74  Minuten einer DSD-Zweikanal-Stereoversion und eine DSD-5.1-Kanal-Audioversion – kombiniert mit Text- und Grafikinformationen – auf einer single-sided 12  cm-SACD untergebracht werden. Das Active Copyright Management System (ACMS) soll den hochqualitativen DSD-Ton schützen, so dass er nur exklusiv auf SACD- und nicht auf Standard DVD-ROM-Laufwerken wiedergegeben werden kann. 15.1.10.1 Aufbau und Eigenschaften Es sind drei SACD-Typen im nicht öffentlichen [Scarlet Book] (scarlet = scharlachrot) spezifiziert: –– Die einschichtige (single-layer) Disc besteht aus einer einzigen High-Density-(HD)Schicht mit 4,7 GByte Speicherkapazität. –– Die doppelschichtige (dual-layer) Disc enthält zwei dieser HD-Schichten mit einer Gesamtkapazität von 8,5 GByte. –– Die Hybrid Disc ist wohl der am meisten verwendete Typ. Sie setzt sich aus einer HDSchicht und einer [Red  Book]-kompatiblen CD-Schicht mit 780  Mbyte zusammen, die die Wiedergabe mit herkömmlichen CD-Playern ermöglicht. Die oben liegende CD-kompatible Schicht wird dabei von unten durch die darunter liegende halbdurchlässige HDSchicht abgetastet (Abb. 15/21).

Abb. 15/21. Schichtaufbau und Leseprinzip einer hybriden SACD.

Wie bei einer Dual Layer DVD wird die SACD aus zwei 0,6 mm dicken Polycarbonat-Scheiben zur Dicke einer konventionellen CD verklebt, mit einem Schutzlack versehen und mit dem Label bedruckt. Zuvor wird der obere CD-DA-Teil praktisch wie eine CD gepresst. Der untere HD-Teil dagegen bedarf einer wesentlich feineren Pressung und wird halbtransparent metallisiert, um sowohl die große Datenmenge unterzubringen als auch für die CD-Layer-Abtastung durchlässig zu sein. Tab. 15/7 zeigt die wichtigsten Daten im Überblick.

1008 

 15 Digitale Tonsignalspeicherung

Tab. 15/7. SACD-Daten im Überblick. Parameter

CD Red Book kompatibler Layer

SACD Layer

Reflexion Kapazität [GByte] Laserwellenlänge [nm] Numerische Apertur Spurabstand [μm] Kanalbitlänge [μm] Min. Pit/Land-Länge [μm] Lineare Geschwindigkeit [m/s] Kanalbitrate [Mbit/s] Höchste EFM Frequenz [MHz] Innerer Datenbereichsradius [mm] Äußerer Datenbereichsradius [mm] Nutzerdatenkapazität [GByte]

voll 0,7 780 0,45 1,6 0,28 0,83 1,21 4,321 0,72 25 37,5 / 58 0,78

halb durchlässig 4,7 650 0,60 0,74 0,133 0,40 3,49 26,16 4,36 24 38 / 58 4,7

15.1.10.2 Datenorganisation, Kanalcodierung und Fehlerschutz Der CD-Layer einer hybriden SACD erfüllt den Red-Book-Standard einer CD-DA. Beim HD-Layer wird als ECC (Error Correction Code) ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die Mächtigkeit des Codes reicht aus, um mindestens fünf Bytefehler in jeder Reihe und acht Bytefehler in jeder Spalte zu korrigieren [ECMA-267].

Abb. 15/22. Filesystem einer SACD.

Der Datenbereich beinhaltet das Filesystem, den Master-TOC (Table Of Content), den 2-KanalStereo-, den Mehrkanal- und einen optionalen Datenbereich. Die beiden Tonbereiche besitzen eine identische Basisstruktur. Die SACD unterstützt zwei Arten des Zugriffs: –– über die hierarchische TOC-Struktur ähnlich wie bei der CD-DA –– über das [UDF]- bzw. [ISO 9660]-Filesystem ähnlich wie bei einer CD-ROM.

15.1 Digitale Tonaufzeichnung 

 1009

Die Struktur der Directory des HD-Layers zeigt Abb. 15/22. Die Files MASTER.TOC, 2_CH.TOC und M_CH.TOC korrespondieren mit dem Master-, dem 2-Channel-Area- und dem MehrkanalTOC, die TRACK-Files entsprechend. Die Spezifikation der SACD im Scarlet Book ist praktisch identisch mit der DVD in Bezug auf Dateisystem, Sektorgröße, Fehlerkorrektur und Modulation. Die SACD befindet sich daher in direkter Konkurrenz zur DVD-Audio. Beides sind jedoch Nischenprodukte.

15.1.11 DVD-Audio Als die DVD-Audio oder kurz DVD-A im Jahre 1999 als Abkömmling der 1996 eingeführten DVD (Digital Versatile Disc) spezifiziert wurde, plante das DVD-Konsortium mit ihr eine hochqualitative Nachfolge der CD-DA. Die DVD-A(udio) ist wie die DVD-V(ideo) ein Spezialfall einer DVD-ROM nach ECMA-267.

Abb. 15/23. Typen A bis D einer DVD-ROM.

15.1.11.1 Aufbau und Eigenschaften Mit einem Durchmesser von 12 cm und einer Dicke von 1,2 mm unterscheidet sich die DVD auf den ersten Blick nicht von einer CD. Die DVD besteht jedoch wie die SACD aus zwei aneinander geklebten Polycarbonatscheiben von jeweils 0,6 mm mit ein oder zwei Layern. Dadurch erhöht sich bei mehreren Schichten die Speicherkapazität von 4,7 GByte bis auf max. 17 GByte. Für höhere Speicherkapazität reduziert sich der Spurabstand der Spiralspur im Vergleich zur CD von 1,6 μm auf 0,74 μm und die minimale Pitlänge von 0,82 μm auf 0,4 μm. Es gibt nach ECMA-267 vier Typen von A bis D, wovon hauptsächlich der Typ A (mit nur einem Layer) für die Audioversion genutzt wird (Abb. 15/23).

1010 

 15 Digitale Tonsignalspeicherung

15.1.11.2 Datenformat Ähnlich wie bei der SACD wird als ECC ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die genaue Beschreibung findet sich ebenfalls in ECMA-267. Für Typ  C und  D gibt es zwei Abtastvarianten. Im PTP-(Parallel Track Path)-Modus werden beide Layer von innen nach außen gelesen. Im OTP-(Opposite Track Path)-Modus fokussiert der Laser am Ende von Layer 0 eine Ebene tiefer; der zweite Layer wird dann von außen nach innen gelesen. Dadurch ist die Unterbrechungszeit im Datenstrom geringer, weil der Laser nicht neu positioniert werden muss (vgl. Kap. 15.2.6.1). Lineare PCM ist der Quellencode-Standard; die maximale Datenrate pro Linear-PCMStrom beträgt 9,6 Mbit/s. Für längere Spielzeiten der Disc wird das Meridian Lossless Packing (MLP) zur verlustlosen Datenkomprimierung von typisch 2:1 verwendet. Tab. 15/8 zeigt die Toneigenschaften von DVD-A und DVD-V im Überblick. Tab. 15/8. Audioeigenschaften von DVD-V und DVD-A. Eigenschaften

DVD-V

DVD-A

Simultane Datenströme Kanäle / PCM-Ströme PCM-Abtastwerte [Bit] linear PCM-Abtastraten [kHz] Lossy Compression (Dolby Digital, DTS, MPEG-2) Lossless Compression (MLP) Speicherkapazitäten [GByte]

1 bis 8 1 bis 2 1 bis 8 1 bis 6 16, 20, 24 12, 16, 20, 24 48 / 96 44,1 / 48 / 88,2 / 96 / 176,4 / 192 Standard Optional nein ja 4,7 / 8.5 / 9,4 / 17

Auf einer DVD-ROM befindet sich, wie auch auf einer SACD, das Dateisystem [UDF]. Für eine DVD-Audio ist das Verzeichnis AUDIO_TS zwingend an erster Stelle vorgeschrieben. In ihm befinden sich die AOB-(Audio OBject)-Dateien mit linearem PCM-Ton von ein- bis mehrkanalig, auch Standbilder sind möglich. Für einen optionalen Videobereich kann auch ein Unterverzeichnis VIDEO_TS angelegt werden. In ihm befinden sich dann die VOB-(Video OBject)-Dateien mit den Videoinhalten. Mit den anderen Inhalten verhält es sich entsprechend. Eine Hybrid-DVD enthält sowohl einen Audio- als auch einen Videoteil. In der Praxis sind fast alle DVD-A-Discs hybride DVDs. Bei einer DVD-Video dagegen muss das Verzeichnis VIDEO_TS mit den VOB-Dateien an erster Stelle stehen. Je nach DVD-Player-Typ können alle oder nur diverse Untermengen davon abgespielt werden. Deshalb sind einige Hersteller dazu übergegangen, mit etwas Mehraufwand Discs herzustellen, die für jeden DVD-Playertyp eine passende Version enthalten und somit universell abspielbar sind. Das CPPM-(Content Protection for Pre-recorded Media)-System für den besonderen Kopierschutz ist, wie so manches System vor ihm, bereits entschlüsselt und damit praktisch unwirksam. Die DualDisc ist die Hybrid-Disc-Variante der DVD-A. Sie war jedoch von Anbeginn ein Problemfall, denn sie ist dicker als eine normale DVD. Sie wird von beiden Seiten abgetastet und der CD-Layer hält sich nicht an das Red  Book. So gibt es mit verschiedenen Playern Kompatibilitätsprobleme; die Höhe der Disc wurde deshalb inzwischen geändert. Beim

15.1 Digitale Tonaufzeichnung 

 1011

DVD-Layer handelt es sich um eine DVD-5. Im Falle der Nutzung als DVD-A ermöglicht sie 65 Minuten Stereoton mit 24 Bit/96 kHz und zusätzlich 5.1-Ton mit 24 Bit/192 kHz. Wie bereits bei der SACD erwähnt, konkurrieren beide Formate in einer Marktnische miteinander. Um alle Variationen abspielen zu können, benötigt der Nutzer einen ganzen Gerätepark an Playern.

15.1.12 Magneto-Optical Disc Streng genommen gehört die magnetooptische Platte zu den Magnetschichtspeichern und ist in ihrer Organisation einer Festplatte sehr ähnlich. Es gibt einige digitale Tonrecorder und Audioworkstations, die sie für die Tonsignalspeicherung verwenden. Auch für den Austausch und zur Datensicherung wird sie eingesetzt. Wegen ihrer Langzeitstabilität ist sie sogar zur Dokumentenarchivierung zugelassen. Die aktuellen MODs gibt es in 5¼-Zoll(130  mm)-Technik für professionelle Anwendungen und in 3½-Zoll-(90 mm)-Technik für den Consumer-Markt. Während die MOD trotz ihrer wesentlich besseren Langzeitstabilität gegenüber CD und DVD bei Consumern nur ein Randdasein fristet, wird sie im Profibereich in automatischen Archiven mit Wechslersystemen, sog. Juke-Boxen, eingesetzt. Hier konkurriert die MOD mit hochkapazitiven Bandbibliotheken. Auch die MiniDisc ist eine MO und ist gemeinsam mit der CD-R im [Orange Book] standardisiert. Wegen ihrer umfangreichen Metadatenmöglichkeiten ist sie vielseitig einsetzbar. Die MiniDisc speichert das Tonsignal auf einer Spiralspur, verwendet jedoch das verlustbehaftete Datenreduktionsverfahren ATRAC (Adaptive Transform Acoustic Coding) und wird aus Akzeptanz- und Qualitätsgründen hier nicht weiter behandelt. 15.1.12.1 Aufbau und Funktionsweise Die 5¼-Zoll-Cartridge ist im Gegensatz zur 3½-Zoll-Cartridge beidseitig beschreibbar und muss im Betrieb gewendet werden, falls das MOD-Laufwerk kein zweites Lasersystem besitzt. Die Platte befindet sich, vor Staub und Fingerabdrücken geschützt, in einer Cartridge und wird erst im Laufwerk geöffnet. Wie so viele optische Platten besteht die MOD aus zwei zusammengeklebten Hälften. Der Schichtaufbau in Abb. 15/24 zeigt, dass die magnetische Informationsschicht einer MOD zum Schutz vor Korrosion und zur Verstärkung des magnetooptischen Effekts zwischen zwei dielektrischen Schutzschichten aus einer Silizium-Stickstoff-Verbindung eingebettet ist. Dahinter befindet sich eine Reflexionsschicht aus Aluminium für den Laser. Die magnetisierbare Schicht besteht in der Regel aus Legierungen mit Seltenen Erden, z. B. Gadolinium oder Terbium-Eisen-Kobalt. Die Schichten entstehen durch „Sputtern“ (Bedampfen im Vakuum). Das Trägermaterial ist Polycarbonat. Wie bei der CD-R werden auch hier bei der Fertigung Führungsrillen, sog. Pregrooves, mit zusätzlichen Informationen z.  B. für die Steuerung der Geschwindigkeit eingeprägt. Bei der 14x-Generation, der letzten Version einer MOD mit 9,1 GByte Gesamtkapazität [ECMA-322], beträgt der Rillenabstand 0,652 μm.

1012 

 15 Digitale Tonsignalspeicherung

Abb. 15/24. Schichten einer MOD.

Abb. 15/25. Leseprinzip der MOD.

Das Prinzip der magnetooptischen Speicherung beruht auf dem Kerr-Effekt. Er bewirkt, dass sich die Schwingungsebene polarisierten Lichts bei der Reflexion an einer magnetisierten Schicht polaritätsabhängig dreht. Beim Schreiben wird das magnetische Material vom Laser (λ = 660 nm) so weit erhitzt, bis die Curie- oder Inversionstemperatur erreicht ist. Das Material ist dann unmagnetisch. Für aktuelle Anwendungen wird Material mit einer Curietemperatur von ca. 180° C gewählt. Beim Abkühlen erzwingt ein gleichzeitig dem Laser gegenüber angelegtes Magnetfeld die neu entstehende Magnetisierungsrichtung senkrecht zur Plattenoberfläche. Diese Methode verträgt bei Zimmertemperatur sehr hohe Koerzitivfeldstärken, ohne dass die Aufzeichnung beeinflusst wird. Nur wenn Hitze und Magnetfeld zusammenkommen, ändert eine MOD ihren Dateninhalt. Deshalb wird bei entsprechender Lagerung eine Datensicherheit von 30 bis 50 Jahren garantiert.

15.1 Digitale Tonaufzeichnung 

 1013

Das Leseprinzip der magnetooptischen Speicherung ist in Abb. 15/25 dargestellt. Es entspricht in vielen Punkten den üblichen CD-Speichern. Die Platten werden bei der Herstellung bereits vorformatiert. Physikalische Spuren (tracks) und Sektoren mit einer Länge von 512 bis 4096 Bytes, je nach Plattenkapazität, werden dabei als Platzhalter fest eingeprägt. Ähnlich wie bei Festplatten das Zoned Bit Recording (ZBR), wird bei den neueren magnetooptischen Platten das ZCAV-(Zoned Constant Angular Velocity)-Verfahren verwendet, d. h., die Anzahl der Sektoren pro Spur nimmt mit wachsendem Radius zu. Die Aufzeichnung erfolgt auf einer Spiralspur wie bei der CD, jedoch von außen nach innen; die Sektoren sind logisch, wie bei einer Festplatte, in konzentrischen Spuren organisiert. Der Zugriff ist deutlich langsamer. Neuere Betriebssysteme behandeln eine MOD wie eine Wechselfestplatte und unterstützen sie nativ. Auch bei der Kanalcodierung werden vorzugsweise RLL(1,7)- und RLL(2,7)-Codes und für den Fehlerschutz mehrstufige Reed-Solomon-Codes verwendet (s. hierzu [ECMA322]). Eine deutliche Verbesserung, ähnlich dem PRML-Verfahren bei der HDD, brachte das PRED-(Partial Response Edge Detection)-Verfahren. Dabei decodiert ein Viterbi-Decoder die Bitkombinationen des Lesesignals ebenfalls nach ihrer Wahrscheinlichkeit. Im Vergleich zu Festplatten sind die MOD-Schreib-/Leseköpfe schwerer und erfordern einen robusteren Positionier-Mechanismus; auch das macht sie im Zugriff langsamer. In der Regel benötigen MOD-Laufwerke für das Neubeschreiben zwei Plattenumdrehungen – eine zum Löschen der alten Daten und eine für das Schreiben der neuen Daten. Im Falle einer „Hinterbandkontrolle“ (Read After Write) ist sogar noch eine dritte Umdrehung zur Verifizierung der Daten erforderlich. Neue Materialien, die es ermöglicht hätten, die MOD-Informationen in mehreren Lagen übereinander zu schreiben, schafften den Sprung vom Labor in die Produktion nicht. Daher fehlt dem Medium MOD weiteres Entwicklungspotenzial. Einige Firmen propagieren nun für den Robotikeinsatz in Archiven cartridgekompatible Nachfolgeformate auf Basis des Phasenwechsel-Prinzips. So verwendet das UDO-(Ultra Density Optical)-Verfahren einen blauen Laser auf Basis der Blu-ray-Technologie und bietet eine Kapazität von 30 GByte mit Tendenz bis zu 120 GByte. Konkurrierend dazu gab es (ebenfalls mit Blu-ray-Technologie) noch das PDD-(Professional Disc for Data)-Verfahren mit 23,3  GByte, das der Hersteller nach der ersten Generation aber wieder vom Markt genommen hat. Für die hier genannten neueren optischen Verfahren werden Lebensdauern bei optimaler Lagerung (shelf life) von bis zu 50 Jahren angegeben. Ob die Zuverlässigkeit der klassischen MOD jedoch erreicht wird, ist fraglich. Tab. 15/9 zeigt die MOD im Vergleich mit anderen optischen Trägern. Revisionssichere WORM-Medien, lange Zeit eine Domäne der MOD, werden heute über standardisierte und zusätzlich kryptographisch gesicherte WORM-Bandlaufwerke realisiert. 15.1.12.2 Zukünftige Entwicklung In Zukunft könnte die holografische WO-Disk in Anwendungen zur Archivierung eine Rolle spielen. Sie soll eine Lebensdauer von über 30 Jahren haben. Es kündigen sich zwei Datenträgerformate an: –– „Tapestry“, ein proprietäres holografisches System ist bereits auf dem Markt. Es basiert, wie die MOD, auf einer robotikgeeigneten 130  mm-Cartridge. Einige Daten sind aus Tab.  15/9 zu entnehmen; das System ist vielversprechend. Eine zweite Generation mit

1014 

 15 Digitale Tonsignalspeicherung

800 GByte bei 80 Mbyte/s ist angekündigt, und eine weitere Generation soll mit 1,6 TByte bei 120 Mbyte/s folgen. –– In Konkurrenz steht das HVD-(Holographic Versatile Disc)-System in CD-Größe auf Basis einer 120 mm-Cartridge, die HDC (Holographic Disk Cartridge) entsprechend [ECMA-375]. Das System baut wesentlich auf der Technologie der HD-DVD auf und verspricht eine Kapazität von allerdings nur 200 GByte. Die Durchsetzungsfähigkeit dieses Formats wird angezweifelt. Tab. 15/9. Vergleich diverser optischer Speicher mit der MOD.

Online-Kapazität [GByte] Gesamtkapazität [GByte] Mittlere Transferrate (Lesen) [Mbyte/s] Mittlere Transferrate (Schreiben) [Mbyte/s] Mittlere Zugriffszeit [ms] Aufnahme­ verfahren Speichermedium Sektorgröße Laserwellen­­länge [nm] Numerische Apertur Codierung Fehlerkorrektur

PDD

14x MOD

UDO

DVD-RW

Tapestry (WO)

23,3

4,6

15

4,7

300

23,3

9,1

30 (bis 120?)

4,7

300 (bis 1.600?)

9

4,5

6

4,1

20

11

4,5

6

4,1

20

110

25

25

200

Phase Change

MO

Phase Change

Phase Change

Holographie

Cartridge 2 kByte 405

Cartridge 4 kByte 660

Cartridge 8 kByte 405

DVD 2 kByte 660

Cartridge

0,85

0,7

0,7

0,65

0,65

RLL(1,7PP) Reed Solomon

RLL(1,7) Reed Solomon

RLL(1,7) Reed Solomon

EFMplus Reed Solomon

407

Obwohl holografische Speicher vom Prinzip her ein großes Zukunftspotenzial haben und immer wieder ins Gespräch gebracht werden, konnten sich die beiden Systeme bisher gegenüber der rasanten Entwicklung der Magnetband- und der Magnetplattentechnologie nicht durchsetzen. Ob es einen weiteren, äußerst kostspieligen Versuch geben wird, die holo­­gra­ fische Technologie am Markt zu etablieren, bleibt abzuwarten.

15.1 Digitale Tonaufzeichnung 

 1015

15.1.13 Flash-Speicher Seit 1986 ist diese Speicherart mit stetig wachsender Verbreitung auf dem Markt. Sie ist Bestandteil des täglichen Lebens geworden in Anwendungen wie USB-Sticks, MP3-Playern, digitalen Kameras, mobilen Geräten usw. 15.1.13.1 Funktionsweise Der Flash-Speicher ist ein nichtflüchtiger Speicher, der elektrisch beschrieben und sektorweise oder vollständig gelöscht werden kann. Er entwickelte sich aus der EEPROM-Technologie (Electrically Erasable Programmable Read Only Memory), weshalb die Halbleitertechnologie der Flash-Speicherzellen der eines EPROMs ähnelt. Die FET-Transistoren des Flashspeichers besitzen jedoch eine wesentlich dünnere Tunnel-Oxidschicht zwischen Floating Gate und Source. Es gibt unterschiedliche Technologien; eine davon ist die ETOX-Zelle in Abb. 15/26. Beim Speichern eines Bits in einer Flash-Speicherzelle (hier als sog. NOR-Typ) fließen Elektronen über eine dielektrische Schicht (ONO, Oxide Nitride Oxide) auf das Floating Gate und werden dort gleichsam „eingefroren“. Die Information ist dann als Ladungsmenge auf dem Floating Gate gespeichert. Durch Anlegen einer hohen Spannung beim Löschzyklus durchtunneln die Elektronen die Oxidschicht; dies ist die Ursache dafür, dass die Zelle durch wiederholte Löschvorgänge kontinuierlich altert. Anfangs konnte nur ein Bit pro Zelle (SLC = Single Level Cell) gespeichert werden, doch mit der MLC-(Multi Level Cell)-Technologie lassen sich mittlerweile vier Bit pro Zelle potenzialabhängig speichern. Beim NAND-FlashTyp sind die Transistoren in Serie geschaltet, bei der NOR-Flash-Zelle parallelgeschaltet. Einige Hersteller setzen seit neuestem auf die TLC-NAND-Technologie (Triple Level Cell). Sie kann drei Bit pro Zelle speichern und ermöglicht eine 50 % höhere Speicherdichte als bei MLC. Die Speicherdichte von TLC liegt bei 32 Gbit bis 512 Gbit pro Chip und es werden acht diskrete Ladungsniveaus des Floating-Gate verwendet. Das bedeutet, dass Ladezustand und Auslesung der Bits kritisch sind. Deshalb liegen die Anforderungen für die Fehlerkorrektur um ein Vielfaches höher als die von Single-Level- und Multi-Level-Zellen.

Abb. 15/26. FlashSpeicherzelle.

1016 

 15 Digitale Tonsignalspeicherung

15.1.13.2 Flash-Filesystem und Kanalcodierung Flash-Speicher sind in einen oder mehrere Bereiche aufgeteilt, die als Partitionen bezeichnet werden. Eine Multi-Partitions-Architektur ermöglicht es, in der einen Partition Schreib-/ Lösch-Vorgänge auszuführen, während aus einer anderen Partition gelesen wird. Bei einem Speicher mit nur einer einzigen Partition muss dieses Multi-Tasking per Software emuliert werden. Innerhalb einer Partition ist der Speicher in Blöcke eingeteilt, wobei zwischen symmetrischem und asymmetrischem „Blocking“ unterschieden wird. Bei symmetrischer Blockbildung eines Flash-Speichers besitzen alle Blöcke dieselbe Größe. Bei asymmetrischer Blockbildung werden zusätzlich kleine Parameter-Blöcke gebildet, die typischerweise für einen Bootcode verwendet werden können. Eine Flash-Memoryzelle lässt das Programmieren vom Wert „Eins“ nach „Null“, aber nicht von „Null“ nach „Eins“ zu. Soll eine logische Null wieder in eine Eins umgeschrieben werden, wird daher zuerst der gesamte Block gelöscht. Das ist der Grund dafür, dass in der Regel neue Informationen in einen gerade nicht benutzten gelöschten Bereich geschrieben werden und der alte Bereich bis zu seiner „Entladung“ und anschließenden Löschung vor­ übergehend für ungültig erklärt wird. Auf Hardware-Ebene sind die zu speichernden Daten mittels ECC-Algorithmen geschützt. Man rechnet damit, dass ein nur statistisch erfassbarer Prozentsatz von Blöcken während der Lebensdauer des Flash-Memories ausfällt und für eine Speicherung nicht mehr genutzt werden kann. Diese defekten Blöcke werden per Software in einer Liste verwaltet; auch bei einem Ausfall der Betriebsspannung während des Schreibprozesses muss ein Filesystem für Datensicherheit sorgen. Die Erfahrung zeigt, dass jeder Block – bedingt durch die Alterung der Tunneloxidschicht – eine begrenzte Lebensdauer von etwa 105  Schreib-/Lösch-Zyklen hat. Um die Lebensdauer des gesamten Speichers zu erhöhen, werden deshalb per Software durch „Wear Leveling“ (Verschleiß-Nivellierung) die Schreib-/Lösch-Zyklen über den gesamten Speicher gleichmäßig verteilt. Per Software werden hierzu Caching-Strategien verwendet, die auch die Read-While-Write-(RWW)-Betriebsart sicherstellen; RWW bedeutet, dass während eines Schreibvorgangs gleichzeitig gelesen werden kann, ohne dass Informationen verloren gehen. Die Filesysteme für Flash-Speicher zeigen trotz vieler hersteller- und technologieabhängiger Unterschiede folgende Gemeinsamkeiten: –– einen API-(Application Programming Interface)-Layer, –– einen Filesystem-Kern, –– einen Block-Treiber für sektorbasierte Filesysteme und –– einen MTD-(Memory Technology Device)-Layer. Die Einteilung eines Flash-Filesystems in obige Layer bewirkt eine Modularität, die Betriebssystem und Applikation voneinander isoliert und den Einfluss von Flash-Systemvarianten auf das Filesystem minimiert. Ein Flash-Speicher ist dann wie eine Festplatte nutzbar und wird durch neuere Betriebssysteme bereits nativ unterstützt. Zuverlässigkeit Bei einem Wiederanlauf nach einem Ausfall der Betriebsspannung erkennt das Flash-System Datenfehler, die während eines Schreibvorgangs entstanden sind, entweder durch Statusbits

15.1 Digitale Tonaufzeichnung 

 1017

oder durch einen CRC-Check. Die Fehlerkorrektursysteme (ECC) der meisten Flash-Speicher sind in der Lage, strukturbedingt Einzelbitfehler zu erkennen und zu korrigieren. Da die Tendenz zu einer Multi-Level-Architektur und zu immer höheren Packungsdichten durch hochauflösende Maskenstrukturen („Lithografien“) geht, erweist es sich als zweckmäßig oder notwendig, auch Bündelfehler korrigieren zu können, sobald die Bitfehlerrate ansteigt. Diese Fehlerkorrektur wird in der Regel in einem dedizierten Memory-Controller durchgeführt, obwohl prinzipiell die Auswertung eines Error Correction Codes (ECC) auch per Software möglich wäre. Verwendet werden drei der meistbenutzten Algorithmen für die Fehlerkorrektur, nämlich die Codierverfahren nach Hamming-, nach Bose, Chaudhuri, Hocquenghem (BCH)- und nach Reed-Solomon. Sollten Bündelfehler als nicht mehr korrigierbar erkannt werden, besteht darüber hinaus die Möglichkeit, diese Blöcke zu sperren und als „Bad Blocks“ zu kennzeichnen. Bereits nach der Fertigung enthält ein Flash-System fehlerhafte und deshalb als nicht nutzbar gekennzeichnete Blöcke. Bei Auslieferung sollten mindestens 98 % der Blöcke funktionstüchtig sein. Ein Bad-Block-Zähler des Filesystems überwacht die Flash-Nutzung, bis ein Grenzwert und damit das Ende der Brauchbarkeit erreicht ist. 15.1.13.3 Flash-Karten und künftige Entwicklung 2007 waren „Flash-Memories“ noch in mindestens fünf wichtigen Bauformen als Speicherkarten erhältlich. Die SD-(Secure Digital)-Speicherkarte hatte bereits über 50 % Marktanteil erobert mit weiter steigender Tendenz und bei stark fallenden Investitionskosten. Andere Systeme wie CF-(CompactFlash)-Karte, MMC-(MultiMedia)-Karte, SMC-(SmartMedia)-Karte, Memory Stick u. a. teilten sich das restliche Marktsegment. Mittlerweile hat sich die SD-Karte mit über 80 % Marktanteil durchgesetzt und daneben ist nur noch die CF-Karte erwähnenswert. Für die Speicherung von Audio- und Videodaten ist besonders die SD-Karte interessant. Sie hat sich aus der etwa briefmarkengroßen MultiMedia-Karte entwickelt, besitzt dieselben Abmessungen mit 24  x  32  mm2 und ist mit 2,1  mm nur wenig dicker. Hinter dieser damals neuen Entwicklung steht ein kompetentes Firmenkonsortium, das sich auch um die Standardisierung kümmert. Die SD-Karte besitzt einen Schiebeschalter als mechanischen Schreibschutz und bietet die Möglichkeit zur Implementierung eines Kopierschutzes – CPRM (Content Protection for Recordable Media) – durch eine spezielle Verschlüsselungstechnik von A/V-Daten. Die normale SD-Karte ist standardmäßig wegen der maximalen Adressierbarkeit im Dateisystem FAT16 auf 2  GByte Kapazität begrenzt worden. Deshalb wurde der Standard durch weitere Speicherkarten ergänzt, z. B. zur Verwendung im FAT32-Dateiformat. SDHC (SD High Capacity) hat inzwischen seine zulässige Speicherkapazität von 32 GByte bei Datenraten von 45 Mbyte/s erreicht. SDXC (SD eXtended Capacity) mit möglichen 2 TByte liegt momentan bei 128 GByte und 95 Mbyte/s. Darüber hinaus lässt der Standard vier Klassen mit garantierten Mindestgeschwindigkeiten zu: Klasse 2 mit 2, Klasse 4 mit 4, Klasse 6 mit 6 und Klasse 10 mit 10 Mbyte/s. Die Klassennummern sind in einem nach rechts offenen Kreis auf den Speicherkarten aufgedruckt. Praktisch z. B. für die Anwendung am Computer sind auch SD-Karten mit USB-Anschluss.

1018 

 15 Digitale Tonsignalspeicherung

Mittlerweile ist bei SDXC-Karten eine maximale Speichergröße von 2 TByte möglich, wobei sich viele Hersteller aus preislichen Gründen auf 512 GByte beschränken. Nutzer, die Videos in 4K mit hoher Bitrate aufnehmen wollen und Kameras mit sehr schneller Serienbildfunktion verwenden, sollten eine schnelle SDXC-Karte wählen. Wobei SDXC-Karten bis zu einem gewissen Grad abwärtskompatibel sind. Ihr volles Potenzial entfalten sie beim Dateitransfer an einen PC allerdings nur in Kartenlesern mit USB 3.0 Standard. Eine Schreibgeschwindigkeit von mindestens 10 Mbyte/s ist bei aktuellen SD-Karten Standard, und Exemplare mit niedrigeren Geschwindigkeitsklassen sind nicht zu empfehlen und auch nicht günstiger. Für SDHC- und SDXC-Karten wurde mit Ultra High Speed (UHS) ein neuer Standard geschaffen. Die maximal mögliche Transferrate der SD-Karte wird dabei mit römischen Nummern bezeichnet, nämlich UHS-I, UHS-II und UHS-III. Dabei geht es um die Obergrenze fürs Lesen und Schreiben von Daten. UHS-I kann bis zu einer Geschwindigkeit von 104 Mbyte/s Daten übertragen. Für UHS-II liegt die Geschwindigkeitsgrenze bei 312 Mbyte/s und für UHS-III bei 624 Mbyte/s. Erkennbar ist die UHS-Klasse auf der SD-Karte mit einem großen U, das eine Zahl enthält. U1 hat eine Schreibgeschwindigkeit von mindestens 10 Mbyte/s, also denselben Wert wie die bisherige Klasse 10. Bei U3 steigt die Mindestschreibgeschwindigkeit auf 30 Mbyte/s. Damit eignet sich die Speicherkarte für 4K-Videoaufnahmen. Speziell für Videokamera-Speicherkarten existiert noch eine weitere Kennzeichnung. Dabei weist die Zahl auf die Mindestschreibgeschwindigkeit hin. V6 entspricht 6 Mbyte/s und kann damit Full-HD-Video unterstützen. V30 mit 30 Mbyte/s eignet sich zur Speicherung von 4K-Aufnahmen und die höchste Klasse V90 mit 90 Mbyte/s ist für 8K-Videodatenaufzeichnung für Highend-Kameras vorgesehen. Zusammen mit dem SDUC-Standard (SD Ultra Capacity) wurde im Jahr 2018 auch eine weitere Geschwindigkeitsklasse definiert: SD-Express. Sie steigert die Transferrate weiter und kommt auf maximal 985 Mbyte/s. Doch es gibt bisher noch keine SD-Karten, die diese Klasse unterstützen. Die miniSD wird nicht mehr gebaut und deshalb nicht näher beschrieben. Aber die neue microSD-Karte mit 11 x 15 x 1 mm3 kann mittels Adapter auch in miniSD-Anwendungen genutzt werden. Aktuell ist sie mit einer Kapazität von 64 GByte zu haben und eignet sich vor allem für den Einsatz in mobilen Endgeräten wie Mobiltelefonen und Tablet-PCs. Seit einigen Jahren gibt es eine interessante SD-Karten-Variante mit integrierter WLANFunktionalität, die es z.  B. mit passender Software ermöglicht, die Bilder von der Kamera drahtlos zum Laptop zu übertragen. Unter dem Begriff „Eye Fi“ ist diese Speicherkarte mit 8 GByte Kapazität erhältlich. USB-Sticks dagegen sind zurzeit mit 256  GByte erhältlich, auch hier mit steigender Tendenz; es ist mit einer weiteren Verdopplung der Kapazität zu rechnen. Gerade im Zusammenhang mit A/V-Anwendungen ist daher eine Ausdehnung der maximalen Datenfilegröße über die 4-GByte-Grenze hinaus von Interesse. Ein wichtiger Aspekt bei der Verwendung von USB-Sticks für den schnellen Fileaustausch zwischen Computersystemen in sensiblen Bereichen darf hier nicht unerwähnt bleiben. Durch die besonders handliche Art bei der Anwendung sind USB-Sticks potenzielle Überträger von Schadsoftware wie Viren und Trojaner zwischen den verwendeten Systemen. Das sollte bspw. bei der Entwicklung von Sicherheitskonzepten beachtet werden.

15.1 Digitale Tonaufzeichnung 

 1019

Schreib- und Lesegeschwindigkeit moderner Flash-Medien liegen mittlerweile bereits in der Größenordnung von 45  Mbyte/s für das Schreiben und 95  Mbyte/s für das Lesen. Der Einsatz im Rundfunkbereich erfolgt z. B. in Camcordern oder in digitalen Reportagegeräten, die häufig wie ein Mikrofon mit eingebautem Digitalrecorder funktionieren und Aufzeichnungen von linearem oder auch datenreduziertem Ton ermöglichen. Als 1,8-, 2,5- und 3,5-Zoll-Solid-State-Disks (SSD) nähern sich die Kapazitäten der Halbleiterlaufwerke bereits einem TByte. Die NAND-Flashs beginnen in Notebooks und Servern die Festplatten zu verdrängen. Eine SSD hat keine beweglichen Teile und ist daher wesentlich schneller, stoßfester, leiser und auch leichter als eine klassische Festplatte. Durch stetig verbesserte Nutzungsstrategien im Controller der Speicherzellen der Laufwerke sind die Hersteller in der Lage, deren Lebensdauer zu erhöhen. Die SSD-Preise sind zwar deutlich gefallen, doch beeinflusst der höhere Preis ihre Konkurrenzfähigkeit gegenüber einer Hard Disk. Vom Betriebssystem werden die Solid-State-Disks wie Hard Disk Drives behandelt. Eine Kombination beider Speichertechnologien stellen die Hybrid Hard Drives (HHD) dar. Das sind Festplatten, die zur Beschleunigung und Entlastung der Disk mit einem bis zu 2 GByte großen Flash-Pufferspeicher (Cache) ausgestattet sind. Herkömmliche Flash-Speicher könnten in nicht allzu ferner Zukunft das Opfer einer neuen Speichertechnologie werden, die den (bereits in anderem Zusammenhang gebräuchlichen) Namen „PCM“ trägt. PCM bedeutet hier „Phase Change Memory“ und wird gerade in Labors der Nanophysik entwickelt, ist ca. 500mal schneller als Flashsysteme, wesentlich kleiner und hat nicht die durch Abnutzung vorgezeichnete Lebensdauergrenze der konventionellen Flash-Speicher. Die PCM-Technologie stellt mittlerweile einen günstigen und sehr schnellen nicht flüchtigen Speicher zur Verfügung mit enorm großer Skalierbarkeit, hoher Speicherdichte und großem Speichervolumen. Durch den dreidimensionalen Aufbau der PCM-Speicher lässt sich die Anzahl an Transistoren, die auf einen Chip passen, enorm steigern. PCM wird deshalb auch „Perfect RAM“ (PRAM) genannt, weil man Daten überschreiben kann, ohne sie vorher löschen zu müssen. Dies macht PCM sehr viel schneller als konventionelle Flash-Speicher und verbraucht auch weniger Energie. Außerdem ist die Haltbarkeit von PCM-Chips im Vergleich mit gegenwärtig verfügbaren Flash-Speicher-Chips wesentlich größer. Und bei einer Massenproduktion sind PCM-Chips voraussichtlich billiger. Aktuell werden daher im Endverbrauchermarkt z. B. bei Smartphones und hochkapazitiven USB-Sticks bereits nur noch die Standard-PCMs verbaut. Und seit Ende 2015 gibt es bereits Unternehmens-PCMs auf dem Markt, die sich für den Einsatz im Rechenzentrumsumfeld eignen.

15.1.14 Tonsignalrestaurierung und -erhaltung Historisches Audiomaterial wurde in den Archiven der Rundfunkanstalten, anderer Einrichtungen und im privaten Bereich in großer Menge gesammelt und wartet auf die Umsetzung in zeitgemäße, d. h. digitale Ton- oder Datenträger-Formate. Die Entscheidung, ob es sich dabei um sicherungswürdiges Material mit Repertoirewert handelt, wird wohl niemals einer technischen Apparatur übertragen werden können; hingegen stehen geeignete Mittel zur Verfügung, die mit Hilfe digitaler Signalverarbeitung eine qualitative Beurteilung des physischen

1020 

 15 Digitale Tonsignalspeicherung

Zustands und der akustischen Qualität des Archivmaterials in Hinblick auf eine anschließende technische Restaurierung ermöglichen. Der Markt bietet eine breite Palette an Lösungen für die Übertragung, von einfachen Geräten und Plug-ins für den privaten Gebrauch bis zu professionellen Lösungen [Johne, 2020]. Durch die technische Restaurierung wird das digitalisierte Archivmaterial in einen Zustand gebracht, der die Voraussetzungen schafft für eine weitere Nutzung des digitalisierten und anschließend restaurierten Archivmaterials beim Mastering (s. Kap. 15.2) und beim Einsatz im aktuellen Betrieb digitaler Tonarchive (s. Kap. 15.3) Bei der Restaurierung von gespeicherten digitalen Tonsignalen geht es in erster Linie darum, gestörte oder zerstörte Tonsignalanteile möglichst in den ursprünglichen Zustand zurückzuversetzen und gleichzeitig das Audiomaterial in die digitale Signalwelt – und das möglichst in einem zukunftssicheren Format – zu konvertieren. Eine Nachbesserung der klanglichen Eigenschaften über das zum Aufnahmezeitpunkt Authentische hinaus, z.  B. durch Stereofonisierung, Herausrechnen des „Trichterklangs“ bei Plattenaufnahmen, nachträgliche Verhallung usw., sind Maßnahmen, die immer wieder heftige Diskussionen in klang-ästhetischer Hinsicht auslösen; sie werden deshalb an dieser Stelle nicht diskutiert. Es wurde an anderer Stelle (s. Kap. 15.1.4) bereits dargelegt, dass die digitale Tonsignalaufzeichnung, je nach Mächtigkeit der verwendeten Fehlerschutzcodes und dem Grad der Störung, Möglichkeiten bietet, defekte Abtastwerte neu zu berechnen, durch Interpolation zu verschleiern oder durch Stummschaltung in ihrer Störwirkung zu reduzieren. Auch analoge Tonsignale besitzen einen gewissen Grad an natürlicher Redundanz, die sich zur Reparatur einer gestörten Tonaufzeichnung eignet. Unabhängig davon, ob es sich um eine analoge oder digitale Aufzeichnung handelt, ist die intakte zeitliche und spektrale Umgebung eines gestörten Tonsignalteils eine wichtige Voraussetzung und der Schlüssel zu einem erfolgreichen Restaurierungsergebnis. Die rasch fortschreitende Entwicklung der digitalen Signalverarbeitung, vor allem die stetige Steigerung der Prozessorleistung bei gleichzeitig sinkenden Kosten, hat die Entwicklung und kontinuierliche Verbesserung von aktuellen Tonrestaurationssystemen ermöglicht. Heute finden sich Werkzeuge zur Tonsignalrestauration nicht nur im professionellen Bereich auf Basis von Workstations, sondern auch im semi-professionellen und privaten PC-Bereich. Oft sind durch Alterung des Aufzeichnungsträgers und dessen mechanische Beschädigung Teile des Tonmaterials in einem vorgefundenen schlechten Klangzustand. Ein Restaurierungsprozess beginnt daher mit der Analyse des Zustands des Tonträgers, des Tonsignals und der Lokalisierung der Fehlerstellen. Hierzu wird nach Stabilisierung der mechanischen Eigenschaften und nach Sicherstellung der Abspielbarkeit ein digitales Abbild, ein Image des historischen Tonträgers erzeugt. Die nachfolgenden Signalbearbeitungsschritte werden dann in der digitalen Ebene vollzogen. Die riesigen Mengen an zu restaurierendem Material lassen ein individuelles Abhören und die anschließende Fehlerauswertung jedes einzelnen Archivtonträgers meist nicht zu. Es wurden daher Systeme entwickelt, die eine weitgehende Automatisierung dieses Prozesses ermöglichen. Am Institut für Rundfunktechnik (IRT) wurde in Zusammenarbeit mit den öffentlich-rechtlichen Rundfunkarchiven ein Verfahren für die Analyse und Restaurierung von Tonmaterial auf Basis einer Workstation konzipiert, das unter der Bezeichnung

15.1 Digitale Tonaufzeichnung 

 1021

QUADRIGA (QUality from Analogue to Digital RIGorously Analyzed) bekannt wurde und als Vorbild für weitere moderne Restaurationssysteme gilt. Die Quadriga-Workstation erkennt bereits beim Erzeugen des digitalen Image-Audiofiles dessen Tonqualität und registriert die identifizierten Fehlerstellen im Tonsignal zur späteren Nachbearbeitung. Die automatische Analyse der Störsignale basiert auf der Erkennung von signifikanten zeitlichen und spektralen Eigenschaften des fehlerbehafteten Signals; in vielen Fällen ist dann auch eine automatische Restaurierung möglich. Da ein Automat in bestimmten Situationen zwischen Nutz- und Störsignal, z. B. Kastagnettenschlag und Knackstörung, nicht zu unterscheiden vermag, bleibt in solchen Fällen der Mensch eine unentbehrliche Kontrollinstanz. Folgende typischen Fehlerklassen lassen sich durch das Restaurierungssystem erfassen: –– beim Magnetband: Rauschen, Kopiereffekt, Vor- bzw. Nachechos, Gleichlauffehler, Magnetspaltschiefstellung bei der Aufnahme, beschädigte Magnetschichten, starker Abrieb der Magnetschicht, Bandrisse, Banddehnungen u. a., –– bei analogen Schallplatten: Rauschen, Kratzer, Verschmutzung und falsche Entzerrung bei der Wiedergabe, durch Exzentrizität des Mittellochs hervorgerufenes Jaulen (wow) u. a. Einige dieser Fehler können nur durch Abbruch der Überspielung und durch Wiederholung des Vorgangs nach der Fehlerbeseitigung behoben werden, z. B. bei Bandriss oder bei starkem Bandabrieb. Über- bzw. Untersteuerungen des Tonsignals, die zum Klippen bzw. zu niedrigem Quantisierungsgeräuschabstand führen, lassen sich durch Pegelkorrektur mit anschließender Wiederholung des Kopiervorgangs vermeiden. Mit einem sog. Declipper können Beschneidungen der Maximalamplitude bei digitalen Quellen bis zu einem gewissen Grad durch Berechnung des wahrscheinlichen OriginalSignalverlaufs in Verbindung mit einer Pegelabsenkung behoben werden. Darüber hinaus stehen auch Reparaturmodule für die Dekompression einer durch die Übersteuerung von analogem Bandmaterial entstandenen Kompression zur Verfügung. Stationäres Rauschen entsteht in der Regel bereits bei der Aufnahme durch thermische Effekte in den zur Anwendung gekommenen elektroakustischen Geräten oder auch durch die physikalische Beschaffenheit der benutzten magnetischen und mechanischen Trägermaterialien. Dieses Rauschen lässt sich relativ leicht durch einen sog. Denoiser oder Dehisser reduzieren, im Idealfall auch ganz entfernen. Grundlage des Verfahrens ist ein Noise Print, bei dem das Spektrum des Rauschens während eines kurzen nutzsignalfreien Aufnahmeausschnitts erfasst und vom Spektrum des Gesamtsignals subtrahiert wird. Je ähnlicher Nutzund Störspektrum werden, umso exakter müssen die Parameter beim Denoising eingestellt sein. Bei zu intensiver Parametrierung besteht die Gefahr des Signalpumpens, oder es treten Phasing-Effekte auf. Generell zeigt sich, dass breitbandige Störsignale schwieriger zu bearbeiten sind als impulshaltige Fehlersignale und einzelne Störtöne. Impulshaltige Störgeräusche, wie sie z. B. durch Kratzer und Dropouts bei einer Beschädigung oder Verschmutzung des Tonträgers entstehen, werden durch sog. Declicking entfernt. Vereinzelt auftretende Clicks werden in der Regel störender wahrgenommen als gleichmäßiges Rauschen. Im Vergleich der Spek-

1022 

 15 Digitale Tonsignalspeicherung

tren eines Clicks und des Nutzsignals fällt das Click-Spektrum zu hohen Frequenzen hin weniger ab (s. auch Kap. 12.2). Zur Beseitigung von Click-Fehlern wird in der Regel die betroffene Stelle gelöscht und aus dem benachbarten Nutzsignal durch einfache oder komplexe Interpolation ersetzt; dies ist in Abb.  15/27 im Zeitbereich dargestellt. Auch für die automatische Restaurierung von Dropouts gibt es spezielle Dropouter-Module.

Abb. 15/27. Declicking durch höhergradige Interpolation.

Die Anhäufung von Clicks mit vergleichsweise geringem Pegel und gleichmäßiger zeitlicher Verteilung im Nutzsignal wird als Knistern, sog. crackle, wahrgenommen. Es bedarf eines gegenüber dem Declicking modifizierten Verfahrens zur Reduzierung derartiger Störungen (Decrackling). Periodisch auftretende Kratzer (scratch) auf Vinyl- oder Schellackplatten lassen sich mit einem Descratcher automatisch eliminieren. Durch Reparaturfilter mit linearen Filterfunktionen im Zeit- und Frequenzbereich können quasistationäre Störsignale durch Entbrummen, das Dehumming entfernt werden. Die Reihenfolge bei der Anwendung der verschiedenen Restaurationsalgorithmen kann Einfluss auf das Ergebnis haben. Bewährt hat sich die Reihenfolge Declicking, Decrackling, Dehumming und eine anschließende Azimutkorrektur bei Magnetband. Die hier beschriebene in Echtzeit arbeitende Workstation ist modular aufgebaut und kann je nach Aufgabenstellung durch weitere Softwarekomponenten für das Remastering ergänzt werden; sie bietet z. B. hierfür auch frequenzgangwirksame Module, wie parametrische und linearphasige Entzerrer, an (vgl. Kap.  15.2.2.5). Tab. 15/10 fasst die verwendeten Ausdrücke für Restaurierungsmaßnahmen zusammen. Dass die Computer- und Speichertechnologien sich kontinuierlich weiterentwickeln, kommt auch den Workstations und PCs zugute, die für Restaurierungszwecke eingesetzt werden. So kann die oben erwähnte Quadriga-Workstation mittlerweile bis zu acht Geräte für die Digitalisierung von Archivträgermaterial in Echtzeit parallel betreiben, was den Digitalisierungsprozess großer Archive enorm beschleunigt und bezahlbar macht. Die gesteigerte Leistungsfähigkeit ermöglicht es aber auch, stets verbesserte Restaurierungsmodule in Echtzeit sowie lernende Restaurierungsprogramme zu nutzen. Der Rundfunk befindet sich auf

15.1 Digitale Tonaufzeichnung 

 1023

dem Weg zur „wohl temperierten“ Aussteuerung nach Lautheit [EBU R 128]. Auch für eine normgerechte Anpassung der Lautheit historischer Archivaufnahmen gibt es mittlerweile entsprechende professionelle Module. Tab. 15/10. Restaurierungsmodule, Begriffe für Magnetband und Vinyl. Begriff

Tonträger

Erläuterung

Azimut

Magnetband

cleaning program declick decrackle dehiss dehumm denoise descratch dethump dropout image, image material

Magnetband, Vinyl Vinyl Magnetband, Vinyl Magnetband, Vinyl Magnetband Magnetband, Vinyl Vinyl Vinyl Magnetband Magnetband, Vinyl

Korrektur des Frequenzgangs bei nicht senkrecht zum Magnetband stehenden Tonköpfen Restaurierungsprogramm Entfernen einzelner Klicks Entfernen von Knistern Entfernen von Rauschen Entfernen einzelner Töne, Entbrummen Entfernen von Rauschen Ersetzen zerstörter Abschnitte größerer Länge Entfernen tiefer Frequenzen kurzer Dauer Ausfüllen von Aussetzern digitales Abbild des zu bearbeitenden Tonsignals

Und die Entwicklung der Rechenleistung geht weiter rasant voran: Auf der Website der Bayerischen Akademie der Wissenschaften, die kontinuierlich Großrechner betreibt, die zu den weltweit schnellsten Computern zählen, findet sich ein Beitrag zu dieser Entwicklung der Rechenleistung von Computern innerhalb der letzten 30 Jahre. Verglichen wird dort die Rechenleistung des weltschnellsten Großrechners vor 30 Jahren mit der Rechenkapazität eines heute gebräuchlichen leistungsfähigen Smartphones. Ergebnis: Dieses leistungsfähige Smartphone besitzt die gleiche Rechenleistung wie der damals schnellste Großrechner der Welt. Bei dieser Entwicklung von Rechen- und parallel dazu Speicherleistung bot sich die Möglichkeit, z. B. die Vorzüge einer Quadriga-Workstation zur Digitalisierung von Tonträgern für eine Weiterentwicklung zunächst für hohe Datenraten bei der Digitalisierung von Videomagnetbändern und Videokassetten zu nutzen. Der heutige Stand der Technik machte es darüber hinaus sogar möglich, mit einer dafür weiter entwickelten Quadriga, Bildfilme mit ihrer extrem hohen Datenrate zu digitalisieren. Als Abfallprodukte dieser professionellen Entwicklung haben sich immer mehr Firmen auch den semi-professionellen Nutzern zugewandt. Auf diese Weise entstanden preiswerte Audio- und Klang-Restaurierungsprodukte, oft Cleaning Programs genannt, die meistens eine beachtliche Leistungsfähigkeit bieten. Hier ist ebenfalls ein Trend zur automatisierten Restaurierung zu beobachten. Der Nutzer kann sich von einem im System vorhandenen Restaurierungsassistenten führen lassen oder individuell die Vielfalt der Restaurierungsmodule (s. Tab. 15/10) weitgehend in Echtzeit nutzen. Auch die nicht professionellen Systeme gestatten das Einbinden zusätzlicher Modulsoftware. Für die Digitalisierung lassen sich meist die im PC bereits vorhandenen Möglichkeiten nutzen. Alternativ gibt es mittlerweile USB-Digitalisierer, -Plattenspieler und -Kassettenre-

1024 

 15 Digitale Tonsignalspeicherung

corder, die es weitgehend problemlos gestatten, Audiogeräte über USB-Schnittstellen an den PC anzuschließen. Integrierte Codecs dienen der Wiedergabe und Generierung von gängigen Formaten wie WAV (RIFF PCM), AVI, MP3 (MPEG Audio Layer III) u. a. Für die Erzeugung von Zieltonträgern stehen Verbindungen zu CD- oder DVD-Brennprogrammen zur Verfügung. Bei den auf dem Markt befindlichen Programmen sind in der Regel sowohl Restaurierungs- als auch Remastering-Elemente verfügbar, so dass neben der Säuberung des Tonsignals auch klangliche Verbesserungen erzielt werden können. Dem historisch informierten Anwender wird es auf diese Weise möglich sein, einem ästhetisch befriedigenden Klangeindruck näher zu kommen, ohne den authentischen Klang allzu sehr zu verfälschen. Andererseits kann von diesen Restaurierungsprogrammen heutigen Aufnahmen die Anmutung historischer Aufnahmen aufgeprägt werden. Bei einem Remastering alter Tonaufnahmen für einen authentischen Höreindruck des Ergebnisses ist entscheidend, dass die tonale Substanz und der Klangcharakter der Originalaufnahme erhalten bleiben, was eine historische Kenntnis von Originalklangbildern und Aufnahmeapparaturen voraussetzt. Die technische Entwicklung bleibt auch bei der Restaurierung historischen Archivmaterials nicht stehen. Trotz immer besserer Algorithmen und automatisierter Verfahren auf diesem Gebiet wird aber auch hier das menschliche Gehör stets das Maß der Dinge bleiben. Tonsignalerhaltung Nun stellt sich noch die Frage des Qualitätserhalts, z. B. in einem digitalen, audiovisuellen Archiv, im weiteren Umgang mit den, durch die Restaurierung qualitativ verbesserten, digitalen Tonträgern, auf denen die Tonsignale in Form von Zahlen vorhanden sind. Um diese bis hierher beschriebenen digitalen Trägermaterialien in ihrer guten Audioqualität für eine weitere Verwendung z. B. für das Mastering und für den Betrieb digitaler Tonarchive zu erhalten, bedarf es eines sorgfältigen Umgangs über einen längeren Zeitraum unter dem Aspekt „Rettung und Bewahrung des Kulturerbes“. Von herausragender Bedeutung ist dabei die stets aktuelle Spiegelung eines betrieblich genutzten Digitalarchivs. Dieses gespiegelte Digitalarchiv sollte aus Gründen der Datensicherheit, d. h. zur Vermeidung von Verlusten digitaler Archivinhalte, an einem sicheren, entfernten Ort betrieben werden. Kontinuierliche, systematische Qualitätskontrollen der digitalen Archivinhalte müssen vorgesehen werden. Falls deren Ergebnisse es erfordern, müssen rechtzeitig durchgeführte Sicherungskopien eine mögliche Verschlechterung der Datenqualität bzw. der Tonqualität der digitalen Tonsignale vermeiden. Des Weiteren spielt die Berücksichtigung eines geeigneten Raumklimas für den Archivbetrieb sowie äußere Einflüsse eine wichtige Rolle. Auch eine Risikoabschätzung muss erfolgen, um Schäden zu vermeiden, d. h. wertvolle Audioinhalte zu erhalten. Dazu gehören u. a. der Schutz vor möglichen Wassereinbrüchen und die präventive Abwehr von Brandgefahren. Eine ausführliche Beschreibung dieser Problematik einer Audiodaten erhaltenden Langzeitlagerung in audiovisuellen Archiven findet sich in Kap. 7.3.

15.2 Mastering Der Begriff „Mastering“ ist in der Zeit der konventionellen Schallplattenherstellung entstanden. Hauptsächliches Ziel war es seinerzeit, durch Anwendung technischer Kunstgriffe die

15.2 Mastering 

 1025

systembedingt begrenzten Möglichkeiten des elektro-mechanischen Nadelton-Verfahrens zu kompensieren. Dies betrifft insbesondere den Frequenzgang, die Aufzeichnung tiefer Frequenzen bei Stereosignalen (Elliptische Schrift) und den verwertbaren Dynamikumfang. Sachkundige „Mastering-Ingenieure“ hatten die Aufgabe, die Unzulänglichkeiten des Mediums Schallplatte auszugleichen. Hieraus entwickelte sich die Methode, einer gespeicherten Schallaufzeichnung durch vorhergehende klangliche Bearbeitung einen „letzten Schliff“ zu verleihen, der inzwischen auch bei allen anderen Tonträgern zu einem festen Bestandteil in der Produktionskette geworden ist.

15.2.1 Definition des Mastering Allgemein versteht man heute unter Mastering im Zusammenhang mit einer Audioproduktion die Vorbereitung eines Tonträgers (ggfs. auch Bild- und Tonträgers) zur Vervielfältigung. Dabei gilt es, möglichst sämtliche technischen und klanglichen Anforderungen des jeweiligen späteren Massenmediums (z. B. CD-Audio oder Streaming) zu berücksichtigen und ein geeignetes Master-Medium herzustellen, das von einem Presswerk oder Streamingprovider verarbeitet werden kann. CD-Presswerke wiederum verstehen unter dem Begriff „Mastering“ die Herstellung eines Glasmasters, also der Pressvorlage für die Vervielfältigung. Sie bezeichnen daher die Erstellung eines entsprechenden Audiomasters im Ergebnis als „CD-Pre-Master“. Mastering wird nicht nur bei der Herstellung von CDs angewandt. Die mediengerechte Klang- und Format-Optimierung spielt bei jeder Art von Tonträger-Vervielfältigung oder Distribution eine Rolle – das gilt für die klassische Vinylschallplatte (aus PVC, Polyvinylchlorid) ebenso wie für eine Audiodatei.

15.2.2 Technische und klangliche Aspekte Beim Mastering besteht letztmalig die Chance, technische Fehler vor einer Distribution zu erkennen und zu beseitigen. Zu diesen Fehlern gehören beispielsweise Dropouts, Phasenfehler, Brummstörungen, Gleichspannungsanteile, Clicks etc. Die meisten dieser Fehler können nur durch eine vollständige Abhörkontrolle erkannt werden. Daher muss die technische Kontrolle von erfahrenen Toningenieuren unter akustisch optimalen Bedingungen erfolgen. Eine weitere wichtige Aufgabe beim Mastering besteht darin, die abschließende Mischung einer Audio-Produktion klanglich zu optimieren. Ein Mastering-Ingenieur kann die Mischung unvoreingenommen beurteilen, um dann ein Maximum an Klangqualität und Wiedergabekompatibilität zu schaffen. Wichtig ist dabei, dass die Mischung auch auf weniger hochwertigen Abhörsystemen oder nach einer späteren Datenreduktion (z. B. für den OnlineMusikvertrieb) bestehen kann und nicht auffällig an Klangqualität verliert. Ziel ist es, das Endprodukt auf jedem Abhörsystem im Rahmen der gegebenen Möglichkeiten optimal zur Wirkung kommen zu lassen. Mitunter werden Tonträger zusammengestellt, deren Titel aus unterschiedlichen Studios stammen und somit unabhängig voneinander produziert wurden. Hier müssen die einzelnen

1026 

 15 Digitale Tonsignalspeicherung

Titel aufeinander abgestimmt und angepasst werden, damit das fertige Masterprodukt eine klangliche Einheit bildet. Der Hörer darf nicht durch differierende akustische Eigenschaften einzelner Titel innerhalb der Gesamtproduktion irritiert werden. Beim Mastering werden für die klangliche Bearbeitung spezielle Equalizer, Kompressoren und Limiter eingesetzt. Diese zeichnen sich vor allem durch hervorragende elektroakustische Eigenschaften (die Produktion soll schließlich nicht verschlechtert werden), sehr feinfühlig einstellbare Bedienelemente und gute Reproduzierbarkeit der Einstellungen, z. B. durch digitale Speicherung der Funktionsparameter, aus. 15.2.2.1 Formatierung Jeder Master muss definierte technische Voraussetzungen erfüllen, um sicherstellen zu können, dass später bei der Vervielfältigung oder in einem weiteren Encoding Prozess keine unerwarteten Probleme auftreten oder zeitraubende zusätzliche Arbeitsschritte erforderlich werden; hierzu gehört nicht zuletzt auch die Umwandlung in das jeweils spezifizierte Audioformat. Zu jedem Medium gibt es daher exakt einzuhaltende Regeln, wie ein Master für dieses Medium formatiert sein muss. 15.2.2.2 Pegelanpassung Es ist besonders darauf zu achten, dass charakteristische Instrumente oder Stimmen in einem ihnen angemessenen Pegel-Bereich liegen. Eine Pegelanpassung muss hierbei so ausfallen, dass musikalisch gewollte dynamische Besonderheiten (insbesondere in der E-Musik) erkennbar bleiben. Für CDs sollte das Programm-Material in seinem Maximalpegel knapp die Aussteuerungsgrenze (Full Scale) des Tonträgers (entspr. ≤ 0 dBFS) erreichen. Ein zu großer Sicherheitsabstand zur Aussteuerungsgrenze (Headroom) verschenkt Auflösung und damit Klangqualität. Master Files, die für digitales Streaming erstellt werden sollten einen True-Peak Level von  −1dB nicht überschreiten, um Artefakte in der Weiterverarbeitung zu vermeiden. Generell gilt es hier auch die aktuellen Loudnessspezifikationen der Streaminganbieter zu beachten (vgl. Kap. 19.5). 15.2.2.3 Dynamik Die Bearbeitung der Dynamik hat unterschiedliche Aufgaben zu erfüllen. Es gilt, Differenzen in der Lautheit auszugleichen, um zu gewährleisten, dass eine Produktion im Idealfall ohne Nachregeln des Pegels abgehört werden kann. Gleichzeitig ist es erforderlich, die Originaldynamik eines Klangereignisses auf die beim Konsumenten umsetzbaren Dynamikverhältnisse zu verringern. Im Bereich der Unterhaltungsmusik ist die Dynamikbearbeitung ein wichtiges Stilmittel zur Erzeugung von „Druck“: ein Rockmusiktitel soll kompakt und wuchtig klingen. Die emotionale Wirkung dieser Art von Musik lässt sich durch die Wahl eines geeigneten Kompressortyps und durch dessen gekonnte Parametrierung dramatisch beeinflussen. Hier sind es oft nur kleine Variationen der Parameter, die den Gesamteindruck entscheidend verändern können.

15.2 Mastering 

 1027

Da im Hörfunk oft Wort- oder Musikbeiträge aus unterschiedlicher Herkunft und in nicht absehbarer Reihung zusammengestellt werden, kann es sinnvoll sein, den Lautheitseindruck einzelner Programmelemente für die Radio-Distribution zu koordinieren bzw. abzustufen. Es gibt in diesem Zusammenhang eine vereinzelt geübte Praxis, beim Mastering die Dynamik einer für die spätere Radio-Distribution bestimmten Sendung noch einmal über die im Hörfunkbetrieb eingesetzten Kompressoren oder Sendebegrenzer abzuhören. Auf diese Weise lässt sich die Lautheitswirkung im Ergebnis besser voraussagen (z. B. bei Werbespots, Trailern oder „Nachtmusiken“). Als problematisch erweist es sich in diesem Zusammenhang, wenn die Dynamik anspruchsvoller Radioprogramme am Ende der Übertragungskette zum Sender einer nivellierenden Modulationsaufbereitung ausgesetzt ist, die nicht auf die einzelnen Elemente des Programms Rücksicht nimmt. Trotz der Notwendigkeit und der möglichen Vorteile einer Dynamikbearbeitung, birgt diese aber auch die Gefahr in sich, eine nach allen technischen und klanglichen Regeln entstandene optimierte Musik-Abmischung im Nachhinein zu lädieren. Wird zu stark komprimiert, erreicht man das Gegenteil von dem, was erreicht werden soll: Die Musik klingt dumpf, verliert an Transparenz und Offenheit, und die Musikalität leidet. Es empfiehlt sich daher, beim Mastering während der Einstellprozesse die Bearbeitung regelmäßig mit dem ursprünglichen Original zu vergleichen. Wichtig ist dabei zu beachten, dass lautheitskorrigiert abgehört wird, um Fehleinschätzungen des Klangbilds durch Lautheitsgewinn zu vermeiden (s. auch Kap. 3.3). Seit aber nahezu alle digitalen Dienste die einzelnen Programme in der Lautheit einander anpassen, relativiert sich die Notwendigkeit des Einsatzes von Kompression um „lauter“ zu klingen. Gleichwohl kann diese titelweise Anpassung zu ungewünschten Effekten bei Werken mit sehr unterschiedlicher Dynamik innerhalb eines Werks führen. 15.2.2.4 Dither und Noise Shaping Häufig erfolgt das Mastering in einer höheren Auflösung als in der des eigentlichen Distributionstonträgers. Eine maximale Klangqualität beim Mastering-Prozess lässt sich dadurch erreichen, dass erst unmittelbar vor dem Erstellen des Masters die Wortbreite auf z. B. 16 Bit und 44,1  kHz Sampling-Frequenz (z.B. für die Audio-CD) reduziert wird. Um die Vorteile der höheren Auflösung beim Endprodukt nicht vollständig wirkungslos werden zu lassen, kommen bei der reduzierenden Umsetzung (truncation) verschiedene Dither- und Noise-Shaping-Methoden zur Anwendung. Die Auswahl des jeweiligen Verfahrens hängt vom Musikprogramm und der Erfahrung des Mastering-Ingenieurs bzw. Produzenten ab. 15.2.2.5 Remastering und Tonrestaurierung Unter Remastering wird die klangliche Überarbeitung von in der Regel älterem Audiomaterial verstanden. Oft wird eine Audioproduktion vor dem Remastering restauriert, um durch das Aufnahmeverfahren oder die Lagerung bedingte technische Störungen zu entfernen oder zu mindern. Es sollte stets überprüft werden, inwieweit der Originalcharakter der ursprünglichen Aufnahme durch Restaurationsmaßnahmen noch erhalten bleibt. Ein übertriebener Einsatz von Restaurierungswerkzeugen kann leicht zu Artefakten führen, welche die gesamte Bearbeitung in Frage stellen (vgl. Kap. 15.1.14).

1028 

 15 Digitale Tonsignalspeicherung

Es ist naheliegend, dass Produktionen auf Lack-Folie, Analog-Schallplatte, ¼-Zoll-Magnetband oder Lichtton-Material am häufigsten restauriert werden müssen. Jedes dieser Aufzeichnungsverfahren hat seine eigenen spezifischen Störungsmechanismen; die häufigsten Störsignale sind Brummen, Knacken, Knistern und Rauschen. Für jede dieser Störungen gibt es einschlägige Bearbeitungssoftware, mit der die Störungen reduziert oder eliminiert werden können (s. Tab. 15/10 in Kap. 15.1.14). 15.2.2.6 Analog oder digital? Eine vieldiskutierte Frage ist, ob ein Mastering-Prozess in der analogen oder in der digitalen Signalebene durchgeführt werden soll. Analoge Mastering-Werkzeuge kommen häufig dann zum Einsatz, wenn es gilt, der Produktion eine gewohnte, charakteristische Klangfarbe zu verleihen. Die in diesem Fall erreichten Ergebnisse werden in der Regel als angenehm und „warm“ empfunden. Beim technischen Aufbau einer analogen Mastering-Einrichtung ist größte Sorgfalt erforderlich, und es ist in jeder Beziehung und in jedem Detail darauf zu achten, dass die Signalqualität erhalten bleibt. Außerdem ist es wichtig, eine Auswahl an Nachbearbeitungsgeräten bei Bedarf in den Signalweg einschleifen und deren Anordnung im Signalweg ändern zu können, ohne aufwändige Umverkabelungen vornehmen zu müssen. Auch die richtige Auswahl der am Schluss einer Bearbeitung eingesetzten Analog-Digital-Wandler ist eine Aufgabe, die mit viel Sachverstand und Erfahrung gelöst werden sollte. An dieser Stelle kann der empfundene Klanggewinn der Analogtechnik schnell wieder in Frage gestellt werden. Das digitale Mastering bietet den Vorteil, dass die Einstellungen der Mastering-Einrichtung jederzeit reproduzierbar, weil abspeicherbar, sind. Einzelne Kanäle lassen sich in ihrem Übertragungsverhalten fest verkoppeln, Phasenverschiebungen bzw. Gruppenlaufzeiten sind besser beherrschbar, und auch irritierende Signalverzögerungen (Latenzen) können bei Anwendung hoch entwickelter digitaler Signalverarbeitung vermieden werden. Es entspricht dem Stand der Technik, dass bestimmte Bearbeitungs- oder Effektgeräte nur digital realisierbar sind (z. B. Raumabbildung durch Faltungshall, s. Kap. 6.5.3). Bei vielen Nachbearbeitungsgeräten mit analogem Klangverhalten handelt es sich in Wirklichkeit um digitale Emulationen. Letztendlich ist es eine ästhetische Frage, ob sich Produzent und Mastering-Ingenieur für analoge, digitale oder eine Kombination beider Technologien entscheiden.

15.2.3 Mehrkanal Mastering Seit der Einführung der DVD ist es möglich, diskrete Mehrkanalsignale bis zum Endverbraucher durchzureichen. Dabei ergeben sich zusätzliche Aspekte und Problemstellungen der stereofonen Mehrkanaltechnik, die über die Aufgaben des zweikanaligen Stereo-Masterings hinausgehen. Eine richtige Aufstellung der Lautsprechersysteme ist in der Regel beim Endverbraucher noch schwieriger zu realisieren als es schon bei einer konventionellen stereofonen Zweikanalanordnung war. Auch die Art der Lautsprecher wird häufig innerhalb eines Mehrkanal-

15.2 Mastering 

 1029

Wiedergabesystems variieren. So ist unter Umständen der richtungsstabilisierende CenterLautsprecher anders aufgebaut als die Hauptlautsprecher für den rechten und linken Kanal; als Surround-/ Decken-Lautsprecher werden kleinere Systeme eingesetzt, so dass ein homogenes Klangbild vom Grundsatz her gefährdet erscheint. Außerdem ist es in durchschnitt­ lichen Hörumgebungen kaum möglich, die Lautsprecher im korrekten Abstand zum Zuhörer anzuordnen. Die exakte Einstellung der Entfernungskompensation durch Delay (Laufzeitkorrektur) im Verstärker bleibt dem Endverbraucher selbst überlassen und ist damit beim Mastering nicht vorhersehbar. Diese Fakten dürfen bei der klanglichen Bearbeitung von Mehrkanal-Produktionen nicht außer Acht gelassen werden. Alle wesentlichen Schallfeld- und Klang-Informationen müssen beim Endverbraucher auch dann noch ankommen, wenn dort die Voraussetzungen für eine optimale Mehrkanal-Wiedergabe nicht erfüllt sind (s. Kap. 5.4). Beim Mehrkanal-Mastering ist es oft notwendig und sinnvoll, das stereofone L/R-Signal, den Center-Kanal und die Surround- und ggf. Höhen-Kanäle unterschiedlich zu bearbeiten. Besondere Aufmerksamkeit gilt dem Einsatz von Kompressoren. Hier ist genau zu prüfen, welche Kanäle miteinander verkoppelt werden dürfen oder müssen, ohne dass es zu hörbaren Regelprozessen oder Verschiebungen der räumlichen Ortung durch falsche Verknüpfung (Verlinkung) kommt. Mit der Einführung immersiver Tonformate wie z.B. Auro 3D, Dolby Atmos, DTS:X, MPEG-H und Sony 360 Reality Audio, gewinnt auch das Mehrkanal Mastering zunehmend an Bedeutung. Hier wird zwischen kanalbasiertem und objektbasiertem Verfahren (s. Kap. 5.5) unterschieden und der Mastering Prozess muss dafür entsprechend angepasst werden. Auch haben die einzelnen Formate teilweise unterschiedliche Lautsprecher-Layouts, die im Studio-­Setup berücksichtigt werden müssen. Für alle immersiven Tonformate gibt es eigene Kopfhörer-Binauralisierungsverfahren. (s. Kap. 5.5.6) Eine digitale Distribution wird damit auch für den Massenmarkt möglich und es kann praktisch mit jedem Kopfhörer immersives Audio gehört werden. Beim Mastering spielt daher die Kontrolle für die binaurale Kopfhörerwiedergabe eine große Rolle. Gleichwohl ist es beim Mastering für immersives Audio aber auch wichtig, die verschiedenen Wiedergabesituationen zu berücksichtigen. Nachdem jedoch die Binauralisierungstechnik ständig weiterentwickelt wird und sich damit der Klangeindruck beim Endverbraucher laufend verändert, ist eine lautsprecherbasierte Referenz unabdingbar. Eine Beurteilung ausschließlich über Kopfhörer führt zu unkalkulierbaren Ergebnissen. 15.2.3.1 Mastering von Kinomischungen Beim Mastering von Kinomischungen für die Heimwiedergabe gilt es, die Unterschiede zwischen beiden Wiedergabesituationen zu berücksichtigen. Im Kino werden die Surround-Kanäle von mehreren im Raum verteilten Lautsprechersystemen wiedergegeben. Dadurch entsteht in Verbindung mit den räumlichen Gegebenheiten des Saals nicht nur ein diffuseres Schallfeld, sondern auch eine größere Hörzone für die Mehrkanalwiedergabe (s. Abb. 18/26 in Kap. 18.7.6). Handelsübliche Surround-Systeme für den Wohnzimmereinsatz hingegen haben in der Regel nur eine Lautsprecherbox pro Kanal. Hieraus ergeben sich andere Pegelverhältnisse und eine deutlichere Ortbarkeit der Surround-Kanäle.

1030 

 15 Digitale Tonsignalspeicherung

Ein weiterer, wesentlicher Unterschied liegt in der Behandlung des LFE-Kanals (Low Frequency Enhancement / Effect). Beim automatischen Downmix eines Dolby-Digital-Signals wird der LFE-Kanal ignoriert. Sollte der LFE-Kanal Signale enthalten, die für die Mischung unentbehrlich sind, muss dieser Anteil den Hauptkanälen zugemischt werden. Mehrkanal-Kinomischungen für den Heimgebrauch werden aus den genannten Gründen häufig in einem Abhörraum mit wohnzimmerähnlichen akustischen Eigenschaften durchgeführt (Ateliermischung).

15.2.4 Das Mastering-Studio Ein typisches Mastering-Studio verfügt über eine exzellente Akustik und hervorragende Lautsprechersysteme. Dies ist die unabdingbare Voraussetzung dafür, dass jede Art von Musik (und Sprache) beim Mastering-Prozess neutral und präzise wiedergegeben wird; denn in der Regel gibt es nach dem Mastering keine weitere Kontrollinstanz. Im Mastering-Studio besteht zum letzten Mal die Chance, Fehler noch vor der Vervielfältigung festzustellen und zu beheben. Zentrales Herzstück des Mastering-Studios ist eine Workstation, die in der Lage ist, alle Arbeiten vom Schnitt bis zum fertigen Master zu erledigen. Ergänzt wird das Studio durch eine Vielzahl von speziellen analogen und digitalen Filtern, Kompressoren und Limitern; auch Hallgeräte sind für die Bearbeitung wichtig. In der Regel werden Geräte eingesetzt, die speziell für das Mastering entwickelt wurden. Gerade die eingesetzten Analoggeräte müssen präzise justierbar sein und in allen Kanälen exakt gleich arbeiten. Bei Verwendung von Rasterpotentiometern lassen sich Einstellungen sicherer, aber weniger feinstufig reproduzieren. Verknüpft werden sämtliche Geräte über geeignete Kreuzschienen-Systeme oder über spezielle Mastering-Konsolen, die es erlauben, einzelne Geräte in beliebiger Anordnung miteinander zu verknüpfen. Um schnelle klangliche Entscheidungen treffen zu können, ist es wichtig, an jedem beliebigen Punkt der Bearbeitungskette in hoher Qualität vorhören zu können.

15.2.5 Master-Formate 15.2.5.1 Master Files für digitale Distribution Die Herstellung von Master Files für die digitale Distribution (Streaming) müssen nach den jeweils aktuellen Spezifikationen der DSPs (Digital Service Providers) erstellt werden. Dabei muss pro Track ein einzelnes File erstellt werden. Die nahtlose Aneinanderreihung der einzelnen Tracks ergeben dann das Album. Außerdem sind in den Spezifikationen definierte Benennungen der Titel sowie die Format- und Lautheitsspezifikationen zu beachten. 15.2.5.2 CD-Audio U-Matic und SONY PCM-1610/1630 Das älteste Master-Format für die Audio-CD ist der U-Matic-Standard. Hier wird ein PCM-Signal über einen Signalprozessor (PCM-1610/1630) als Pseudo-Videosignal auf ein kassettiertes

15.2 Mastering 

 1031

½-Zoll-Schrägspur-Videoband gespielt. Seit ca. 2002 wird dieses Format von den Presswerken nicht mehr akzeptiert. Exabyte Die Exabyte-Kassette enthält ein 8-mm-Band, das ursprünglich für den Einsatz in Computerlaufwerken entwickelt wurde. Die Masterdaten werden im sog. DDP (Disc Description Protocol) gespeichert. Dieses Format wird von den Presswerken ebenfalls nicht mehr akzeptiert; die Exabyte-Bandlaufwerke werden nicht mehr hergestellt. Premaster CD Hierbei wird das Audiomaterial im CD-Audio-Format auf eine CD-R gebrannt. Dieses Format ist ein unsicheres und anfälliges Masterformat, da einerseits die Master-Medien empfindlich gegen mechanische Beschädigungen sind und andererseits das Audiosignal während der Wiedergabe die Fehlerkorrektur eines CD-Players durchlaufen muss. Die Wiedergabequalität hängt hiermit also auch von den Zufälligkeiten des CD-Wiedergabesystems im Presswerk ab. Es kann daher grundsätzlich nicht sichergestellt werden, dass das CD-R-Master fehlerfreie Daten für den Vervielfältigungsprozess liefert. Auch dieses Format wird mittlerweile nicht mehr akzeptiert. DDPi – Filetransfer Die aktuelle Form eines CD-Masters ist das DDPi-File. Hierbei werden Dateien nach dem Disc Description Protocol (DDP) hergestellt und per File Transfer zum Presswerk übertragen. Diese Dateien sind mit Prüfsummen zu versehen, so dass bis zur Fertigung die Integrität der Daten durchgängig gewährleistet werden kann. PQ-Editing Vor der Fertigstellung des CD-Masters erfolgt das PQ-Editing. Nachdem sämtliche Pausen und Titelübergänge festgelegt sind, werden die einzelnen Trackmarken und Indizes gesetzt, sowie Zusatzinformationen wie CD-Text oder ISRC- und EAN-Codes (International Standard Recording Code, European Article Number) eingefügt.

15.2.6 Alternative Formate 15.2.6.1 Super Audio CD Die Super Audio CD (SACD) wurde gemeinsam von Sony und Philips als Nachfolgeformat der CD entwickelt und stand in Konkurrenz zu dem im gleichen Zeitraum vorgestellten DVDAudio-Format. Die SACD verwendet eine höhere Auflösung als die herkömmliche CD und bietet darüber hinaus die Möglichkeit, Mehrkanalton verlustfrei zu speichern. Auf der SACD werden die Audio-Daten im DSD-(Direct Stream Digital)-Format gespeichert. DSD verwendet eine 1-Bit-Delta-Sigma-Modulation mit einer Abtastrate von 2,8224 MHz (64 x 44,1 kHz). In der Praxis werden Produktionen kaum im Original als DSD Signal, sondern vielmehr in PCM-Technologie aufgezeichnet. Daher muss vor dem Mastering das Signal von PCM nach

1032 

 15 Digitale Tonsignalspeicherung

DSD konvertiert werden. Hierzu kann entweder eine geeignete Konvertiersoftware eingesetzt werden, oder das Signal wird über eine hochwertige analoge Wandlerstrecke geschickt. Auf der SACD kann neben einer zweikanaligen Stereoaufzeichnung auch ein 5.1-Surround-Signal abgelegt werden. Der Anwender wählt dann im dafür geeigneten Wiedergabegerät den jeweiligen Abspielmodus aus. Das Premastering von SACDs erfolgt in zwei Schritten: Zunächst wird ein sog. Edited Master erstellt. Dieser Master ist eine fertig geschnittene Version inclusive aller PQ-Daten, die in eine DSD-IFF-Datei im Interchange File Format gewandelt wird. Das Presswerk benötigt ein sog. Cutting Master. Dabei wird dem Edited Master die SACD Channel Text-Information hinzugefügt, die Audiodaten werden verlustfrei komprimiert und alles dann in ein DST-Signal (Direct Stream Transfer) umgewandelt. Dieses Signal wird dann zum Versand ins Presswerk auf ein AIT-Band (Advanced Intelligent Tape) geschrieben, dessen Kassette neben dem Magnetband auch einen Halbleiterspeicher für Steuerdaten (MIC, Memory In Cartridge, s. Kap. 15.1.6.4) enthält. Die SACD verfügt über ein sehr umfangreiches und leistungsfähiges Kopierschutzsystem. SACDs können nicht auf DVD-ROM-Laufwerken wiedergegeben werden, und aus Sicherheitsgründen wurde auf die Möglichkeit von beschreibbaren SACDs verzichtet. Es ist daher unmöglich, SACDs einzeln zu brennen. Eine Endkontrolle und Freigabe kann nur zusammen mit einer DSD-Workstation erfolgen. 15.2.6.2 Super Audio Hybrid Disc Meistens werden SACDs als Hybrid-CDs hergestellt. Auf einer Hybrid-SACD befinden sich sowohl der Super Audio Layer mit je einem DSD-Stream in Zweikanal- und 5.1-Version, sowie auch ein zusätzlicher CD-Layer. Dadurch sind SACDs mit herkömmlichen CD-Playern kompatibel. Die Datenstruktur auf der SACD ist der auf der CD sehr ähnlich. Es gibt einen Lead-InBereich, danach die beiden Bereiche für Zweikanal-Stereoton und für den Mehrkanalton. Darüber hinaus sind umfangreiche Möglichkeiten für die Speicherung und Anzeige von Texten vorhanden. Ein eigener Videobereich wurde zwar spezifiziert, ist aber nie realisiert worden. 15.2.6.3 DVD-Audio Die DVD-Audio wurde als Audio-Variante der DVD-Video entwickelt und sollte die Audio-CD ablösen; sie wird aber so gut wie nicht mehr hergestellt. Die DVD-Audio bietet neben unkomprimiertem und hochaufgelöstem Zweikanal- und Mehrkanalton auch noch die Möglichkeit der Navigation über Menüs wie bei der DVD-Video. Auch die Wiedergabe von Standbildern und Slideshows ist möglich. Parallel zum DVD-Audio Teil kann auch ein zu DVD-Video kompatibler Teil integriert werden. Audiodaten können bei DVD-Audio als lineare PCM in folgenden Auflösungen abgelegt werden: –– Bei 5.1-Mehrkanalton beträgt die Abtastrate 44,1 kHz, 48 kHz, 88,2 kHz oder 96 kHz mit einer maximalen Wortbreite von 24 Bit. –– Bei Stereoton stehen zusätzlich die Abtastfrequenzen 176,4 kHz oder 192 kHz zur Verfügung.

15.2 Mastering 

 1033

Um die Datenrate bei hochauflösendem Mehrkanalton innerhalb der maximalen Wiedergabedatenrate der Player zu halten, wurde für die DVD-Audio das MLP-(Meridian Lossless Packing)-Verfahren zum Komprimieren der Daten spezifiziert. Die Audiodaten werden vor dem Aufbringen auf die DVD-Audio durch MLP verlustfrei codiert und bei der Wiedergabe im DVD-Audio Player decodiert. Dadurch wird nicht nur die maximale Datenrate reduziert, sondern auch der Speicherplatz der DVD insgesamt effektiver genutzt. Die DVD-Audio hat seit ca. 2005 keine Bedeutung mehr. 15.2.6.4 HD-DVD Die HD-DVD wurde als Nachfolgeformat zur DVD entwickelt. Im Formatstreit mit der Blu-ray Disc ist das Format jedoch unterlegen und wird seit März 2008 nicht mehr weiterentwickelt und vermarktet. 15.2.6.5 DVD-Video Authoring Auf der DVD-Video werden Video-, Audio-, Untertitel- und Grafikdaten gespeichert und miteinander logisch verknüpft. Das logische Verknüpfen dieser Daten bezeichnet man als Authoring. Anschließend werden die Daten zu einem durchgängigen Multiplex-Datenstrom zusammengefügt und in das DDP-Format gebracht. Bei Dual-Layer-DVDs besteht für jeden Layer eine eigene Image-Datei. Diese Datei wurde früher auf einem DLT-Band (Digital Linear Tape) oder einer DVD-R ins Presswerk geschickt. Mittlerweile werden die Masterdateien als DDPi Dateien gespeichert und zum Presswerk übertragen. Vor dem Versand des Masters ist eine umfangreiche Endkontrolle wichtig. Es empfiehlt sich, sämtliche Inhalte der DVD mit einer dafür erstellten DVD-R zu überprüfen. Durch den komplexen Produktionsprozess, bei dem Audio- und Videodaten getrennt voneinander bearbeitet werden, muss sichergestellt sein, dass alle Inhalte auf der DVD korrekt und synchron abgelegt sind. Dazu gehört auch eine umfangreiche Überprüfung der Menü-Navigation. Hier empfiehlt sich der Einsatz unterschiedlicher DVD-Player, um eventuelle Kompatibilitätsprobleme rechtzeitig erkennen zu können. Bitbudget Um zu gewährleisten, dass weder die Speicherkapazität der DVD noch die maximale Datenrate überschritten werden, muss vor der DVD-Produktion die Kapazität der einzelnen Datenströme definiert und kalkuliert werden. Dabei wird für alle Inhalte der DVD die Dateigröße errechnet und festgelegt. Die Summe der Datenraten der gleichzeitig verfügbaren Audio- und Videodaten darf dabei 9,8 MBit/s nicht überschreiten. Außerdem muss vor der Produktion bestimmt werden, an welcher Stelle sich bei DualLayer-DVDs der Layer Break befindet. Der Layer Break definiert den Datenblock auf der DVD, an dem der Wiedergabe-Laser die Speicherschicht wechselt. An dieser Stelle ist die Bild- und Tonwiedergabe für einen kurzen Moment unterbrochen. Sollte sich diese Stelle mitten im

1034 

 15 Digitale Tonsignalspeicherung

Programm befinden, ist es empfehlenswert, eine Audio-Passage mit niedrigem Pegel ohne viel Bewegung im Bild zu wählen. Video-Encoding Sämtliche Videodaten werden als MPEG-2-Video codiert. Das Bildformat kann sowohl 4:3 als auch 16:9 sein. Um eine höhere Effizienz zu erreichen, kann die Datenrate des MPEG2-Datenstroms variabel sein. Bereits beim Encoding wird definiert, wo später Kapitelmarken gesetzt sind. DVDs werden sowohl im PAL- als auch im NTSC-Format erzeugt. Die Geräte in NTSCRegionen können ausschließlich NTSC-Signale wiedergeben, PAL-Geräte hingegen geben in der Regel auch NTSC-DVDs korrekt wieder. Audio-Encoding Im DVD-Video-Format sind folgende Audioformate zugelassen: PCM-Zweikanal-Stereo (48 kHz und 96 kHz, jeweils mit 16, 20 oder 24 Bit Auflösung), Dolby Digital und (in Europa) MPEG-2  Audio. Optional darf zusätzlich auch ein DTS-Datenstrom verwendet werden (s. Kap. 13.4). Auf der DVD können bis zu acht Audio-Streams parallel zum laufenden VideoInhalt angelegt werden. Der Anwender kann dann einen dieser Streams auswählen. Kopierschutz Für die DVD gibt es innerhalb der DVD-Spezifikation sowohl ein digitales als auch ein analoges Kopierschutzverfahren. Das CSS (Content Scrambling System) verschlüsselt die Daten digital und soll verhindern, dass digitale Kopien der DVD hergestellt werden können. Das APS (Analog Protection System) von Macrovision setzt ein Flag, das den Player veranlasst, das analoge Ausgangssignal so zu verändern, dass es nicht mehr analog kopiert werden kann. Regional Code Jede DVD kann mit einem Regional Code versehen werden, der dafür sorgt, dass diese DVD nur auf Playern abspielbar ist, die auf denselben Code werksseitig eingestellt sind. Es wurden insgesamt weltweit acht Regionen definiert, wovon nur sieben benutzt werden; Europa liegt in Zone 2. Dieser Code wird beim DVD-Authoring für die jeweilige DVD festgelegt. Es ist auch möglich, mehrere Regionen gleichzeitig freizugeben. 15.2.6.6 Blu-ray Disc Die Blu-ray Disc ist ein weiteres optisches Speichermedium und soll die DVD ablösen. Die Blu-ray Disc wurde im Jahre 2002 von einer Gruppe führender Unternehmen aus den verschiedenen Branchen der Unterhaltungselektronik, der Hersteller von Computersystemen und von Programmanbietern entwickelt. Die sog. Blu-ray Disc Association (BDA) besteht mittlerweile aus weit über 150 Mitgliedern aus allen Bereichen der Unterhaltungs- und Computerindustrie. Durch den Einsatz eines Lasers mit 405 nm Wellenlänge können auf einer Blu-ray Disc bis zu 50 GByte Daten gespeichert werden. Auch die Datenübertragungsrate hat sich gegen-

15.2 Mastering 

 1035

über der DVD näherungsweise vervierfacht. Dadurch ist es möglich, Video- und Audiodaten mit hoher Auflösung zu speichern. Die Anforderungen an die Blu-ray Player sind in Profile eingeteilt. Aktuell existieren die Anforderungsprofile 1.0, 1.1, 2.0 und 5.0. Profil 1.0 wurde mit der Einführung der Blu-ray definiert. Ab Player-Profil 1.1 ist ein zweiter Audio- und ein weiterer Videodecoder spezifiziert, durch den auch Bild-in-Bild Anwendungen möglich werden. Ab Profil  2.0 steht zusätzlich mehr Arbeitsspeicher zur Verfügung, und der Player verfügt nun über eine Netzwerkschnittstelle. Damit lassen sich dann Anwendungen programmieren, die über das Internet inhaltlich aktualisiert werden können. Profil 5.0 unterstützt (stereoskopische) 3D-Inhalte. Das Premastering Format für Blu-ray ist CMF (Cutting Master Format). Der Transfer erfolgt per Filetransfer zum Presswerk. Authoring Authoring für Blu-ray ist im Prinzip dem DVD-Authoring sehr ähnlich. Allerdings gibt es durch den erweiterten Funktionsumfang der Blu-ray Disc noch mehr Möglichkeiten der Interaktivität.

Abb. 15/28. Mastering Workflow bei DVD und Blu-ray Disc.

1036 

 15 Digitale Tonsignalspeicherung

Die Blu-ray verfügt z. B. über die Option des Pop-Up-Menüs. Es ist hierbei möglich, während der Wiedergabe über das Videosignal eine Menüebene zu legen und in dieser zu navigieren, ohne dass es zu einer Unterbrechung der Wiedergabe kommt. In Abb. 15/28 ist der Work Flow eines Blu-ray-Mastering/Authoring-Prozesses dargestellt, der auch die Ähnlichkeit mit dem DVD-Authoring erkennen lässt. Video-Encoding Von der Blu-ray  Disc können Videos in „High-Definition“ mit einer Auflösung von max. 1920x1080 Pixeln dargestellt werden. Wie bei der DVD wird das Quellenmaterial codiert; hierfür stehen drei verschiedene Codecs zur Verfügung: AVC (H.264), VC-1 und MPEG-2 HD / MPEG-4. Das Videomaterial kann sowohl „progressive“ (kontinuierlich abgetastet) oder „interlaced“ (im Zeilensprungverfahren) vorliegen. Als „Aspect Ratio“ sind sowohl 4:3- als auch 16:9Formate erlaubt. Die Bildwiederholfrequenz kann 24, 25 und 30 (29,97) Hz betragen. Audio-Encoding Bei der Auswahl der Tonformate sind Linear-PCM, Dolby Digital und DTS erlaubt. Die maximale Auflösung beträgt 24 Bit/192 kHz bei 6 Kanälen und 24 Bit/96 kHz bei 8 Kanälen. Innerhalb der Formate von Dolby und DTS gibt es eine deutlich größere Anzahl von Möglichkeiten als bei der DVD: Beide Formate unterstützen verlustfreie Codecs, so dass auf der Blu-ray unkomprimierter Mehrkanalton in hoher Auflösung gespeichert werden kann. Beide Formate sind rückwärtskompatibel zu herkömmlichen Decodern. Bei DTS-HD Master-Audio enthält der Datenstrom einen rückwärtskompatiblen DTS-Stream, der mit dem herkömmlichen für DVD-Player verwendeten DTS verträglich ist. Dolby True HD verwendet die MLP-Technologie (Meridian Lossless Packing), um Audiosignale verlustfrei zu komprimieren. Darüber hinaus lassen sich (wie bei allen Dolby-DigitalFormaten) Metadaten für die verschiedenen Wiedergabemodi speichern. Beide Formate erlauben einen Downmix mit vorher festzulegenden Koeffizienten. Auf Grund der hohen Datenkapazität gibt es keinen Grund, anspruchsvolle Audioquellen auf dem Blu-ray-Medium verlustbehaftet zu speichern. Außerdem ist es auch möglich, im Rahmen der verschiedenen Audiocodecs immersive Tonformate auf Blu-ray zu speichern. Zur Auswahl stehen die Formate Auro 3D, Dolby Atmos und DTS:X. So kann z.B. ein 5.1.4 codiertes Auro 3D Signal als 5.1 Ton abgelegt werden. In einem geeigneten AV-Receiver wird dann dieser Datenstrom nach Auro 3D decodiert und entsprechend wiedergegeben. Dolby Atmos wird in einem speziellen Dolby TrueHD encodiertem Format gespeichert, DTS:X wird in ein DTS-HD MA Format gebracht und auf der Blu-ray gespeichert. In jedem Fall muss die Decodierung im Receiver erfolgen, da die Blu-ray Player nicht über die geeigneten Decoder verfügen. Entsprechend ist es wichtig, dass der Player einen unveränderten Datenstrom (Bitstream) zum Receiver schickt. Kopierschutz Auf der Blu-ray Disc wird der AACS-Kopierschutz (Advanced Access Content System) verwendet. Grundsätzlich müssen alle Blu-ray  Discs damit versehen werden. In den Playern sind

15.3 Digitale Tonarchive 

 1037

bereits Kopierschutz-Schlüssel implementiert, die nachträglich vom AACS verändert und gegebenenfalls gesperrt werden können. Dadurch kann auf etwaige Kopierschutzverletzungen reagiert werden. Regional Code Die Blu-ray Disc verfügt ähnlich wie die DVD-Video über einen Regional Code. Allerdings gibt es weltweit nur noch drei Bereiche. Europa liegt in Region B. 15.2.6.7 Audio-only Blu-ray / Pure Audio Blu-ray Bei der Blu-ray gibt es keinen speziellen Audio-only Standard. Das Format erlaubt aber das Herstellen von Audio-only Anwendungen innerhalb der Blu-ray Spezifikation. Im April 2011 wurde von der AES die [AES-21id]-Spezifikation veröffentlicht, die die Verwendung von Blu-ray als hochauflösendes und mehrkanaliges Speichermedium für Musikanwendungen definiert. Besondere Bedeutung hat die Verwendung der Blu-ray als reines Audioformat mit Navigation ohne Bildschirm. Die Bedienung einer Blu-ray nach AES-21id muss demnach komplett ohne Bildschirm allein über die Fernbedienung des Players möglich sein, das heißt, sämtliche Funktionen wie Play, Pause, Stop, Skip, Vor- und Rückspulen sowie Titelnummern können auf der Fernbedienung angewählt werden. Die Auswahl von verschiedenen Audiostreams erfolgt über dedizierte Tasten auf der Player-Fernbedienung. Dazu werden die vier auf der Fernbedienung befindlichen Farbtasten genutzt. Jeder Farbtaste wird ein Tonformat eindeutig zugeordnet. Die Umschaltung kann zu jedem Zeitpunkt erfolgen und macht keine Einstellungen im Player-Setup notwendig. Typischerweise werden die Formate Stereo, 5.1, Auro 3D und Dolby Atmos verwendet. Zusätzlich muss aber weiterhin die Bedienung über das Bildschirmmenü möglich sein; dabei sind alle Funktionen der Blu-ray wie bisher verfügbar.

15.3 Digitale Tonarchive Tonarchive spielen seit langer Zeit eine wichtige Rolle im Betriebsablauf der Rundfunkanstalten und anderer Unternehmen im Umfeld der Tonstudiotechnik. Die grundlegende Zielsetzung von Tonarchiven besteht zum einen in der sicheren Erhaltung und Bewahrung des Audiomaterials und zum anderen in der formalen Erfassung und inhaltlichen oder dokumentarischen Erschließung eben dieses Materials. Während mit der ersten Zielsetzung der langfristige – im Idealfall zeitlich unbegrenzte – Zugriff auf wertvolle Tondokumente sichergestellt wird, dient die zweite grundlegende Zielsetzung einer systematischen Verwaltung des Archivbestands und der gezielten Recherche darin. Ältere, nicht digitalisierte Tonarchive bestehen in der Regel aus den eingelagerten Tonträgern, bspw. Tonbändern, Schallplatten und CDs, und einem Karteikastensystem für die Verwaltung, formale Erfassung und dokumentarische Erschließung. Das papierbasierte Katalogsystem wird Anfang der 80er Jahre durch Datenbanken abgelöst, die die Erfassung, Erschließung und Recherche beschleunigen. Im Zuge der Digitalisierung der Studiotechnik

1038 

 15 Digitale Tonsignalspeicherung

werden Tondokumente nicht mehr auf klassischen Tonträgern, sondern mehr und mehr digital als Audiodateien gespeichert. Derartige Datenspeicherlösungen werden mit den bestehenden oder neuen Katalogsystemen verknüpft und um geeignete Import- und ExportMöglichkeiten ergänzt. Auf diese Art gelingt die weitgehende Integration digitaler Tonarchive mit anderen digitalen Studioprozessen (Abb. 15/29, vgl. auch Kap. 14.2.4.6).

Abb. 15/29. Prinzip der integrierten Prozesse.

Bei der Gegenüberstellung der Integrationsproblematik einerseits mit konventionellen Systemen und andererseits mit digitalen Archiven wird der Nutzen der digitalen Technik noch deutlicher (Abb. 15/30). In der konventionellen Umgebung erfordert der Informationsaustausch zwischen Dokumentation, Archiv und Programm manuelle Prozesse, z. B. in Form eines Bestell- und Ausleihverfahrens für archivierte Tonträger. Die integrierte Umgebung mit einem digitalen Tonarchiv ermöglicht hingegen den Online-Zugriff und den netzwerkgestützten Datenaustausch. Die Prozesse von Archiv und Programm bzw. Produktion können somit auf der Basis von informationstechnischen Lösungen integriert werden.

Abb. 15/30. Gegenüberstellung konventioneller und digitaler Lösungen.

Der grundlegende Aufbau digitaler Tonarchive lässt sich durch die Aufteilung in sechs Teilsysteme veranschaulichen (Abb. 15/31).

15.3 Digitale Tonarchive 

 1039

Abb. 15/31. Grundlegender Aufbau digitaler Tonarchive.

Zentrale Elemente sind zum einen das Katalogsystem mit Datenbank und Benutzeroberflächen und zum anderen der digitale Audiospeicher. Während das Katalogsystem den Inhalt des Archivs organisiert und strukturiert und die dazu erforderlichen beschreibenden Daten (Metadaten) enthält, dient der digitale Audiospeicher als Aufbewahrungsort für die als Audiodateien gespeicherten Audioinhalte (Essenzdaten). Ein- und Ausspielstationen ermöglichen die Übernahme bzw. die Abgabe von Archivinhalten über konventionelle Tonträger. Die Integration des digitalen Tonarchivs wird über geeignete Schnittstellen ermöglicht. Begriffsdefinitionen Digitale Tonarchive profitieren in umfangreicher Weise von der modernen Informationstechnologie. Aus diesem Grunde werden häufig Begriffe aus diesem Technologieumfeld verwendet, so dass zur Einführung einige Begriffsdefinitionen unerlässlich sind (Tab. 15/11). Tab. 15/11. Begriffe aus der Informationstechnologie. Digitaler Speicher

Im Zusammenhang mit digitalen Tonarchiven wird unter einem digitalen Speicher ein IT-Speichersystem verstanden, in dem die Audiodaten in Form einer Datei vorliegen und sie mithin über Dateioperationen einer Softwarelösung zugreifbar sind.

Datenbank

Der Begriff „Datenbank“ bezeichnet eine spezielle Form der softwarebasierten Datenspeicherung und -verwaltung, die sich insbesondere für die effiziente Organisation großer Datenbestände eignet. In der Datenbank werden in der Regel nur Metadaten und keine Essenzdaten gespeichert.

Benutzeroberfläche

Softwarekomponente, die die Nutzerinteraktion mit dem Softwaresystem ermöglicht. In der Regel sind Benutzeroberflächen heute grafisch aufbereitet, sie werden dann auch als Graphical User Interface (GUI) bezeichnet.

1040 

 15 Digitale Tonsignalspeicherung

Schnittstelle

Im Kontext dieses Kapitels: Softwarekomponenten, die die Kommunikation (Datenübertragung usw.) zwischen IT-basierten Systemen ermöglichen.

Essenzdaten

Unter Essenzdaten werden im Zusammenhang mit digitalen Tonarchiven (oder auch anderen Medienarchiven) die eigentlichen Mediendaten, also das digitale Abbild der Toninformation, verstanden.

Metadaten

Meta stammt aus dem Griechischen (μετα) und bedeutet u. a. zwischen, mit oder nach. Im Zusammenhang mit dem Wort Metadaten bezeichnet es Daten über Daten. In Medienarchiven werden unter Metadaten Begleitdaten verstanden, die die Essenzdaten näher beschreiben. Dabei wird zwischen technischen, formalen und beschreibenden Metadaten unterschieden.

Content

Der Begriff „Content“ bezeichnet die Verknüpfung aus Essenz- und Metadaten. Erst in dieser Verknüpfung werden Essenzdaten – hier Audiodaten – zu nutzbarer Information, da sie andernfalls nicht sinnvoll identifizierbar sind.

IT-Systeme

IT steht als Abkürzung für „Informationstechnologie“, der Begriff bezeichnet technische Systeme, die aus Computern und zugehöriger Software bestehen.

15.3.1 Anforderungen Ohne digitale Archivsysteme besteht ein systemtechnischer Bruch zwischen dem Organisationsbereich „Dokumentation und Archive“ einerseits und dem Organisationsbereich „Programm“ andererseits. Die Beseitigung dieser Bruchstelle durch eine technische Integration von digitalen, softwaregestützten Programm- bzw. Archivprozessen ist ein zentraler Mehrwert digitaler Archivsysteme. Die Anforderungen an diese technische Integration mit dem Ziel eines integrierten Prozessablaufs sind durch den jeweiligen spezifischen Blickwinkel des Programms bzw. des Archivs geprägt und somit unterschiedlich zu formulieren. Neben diesen aus einer primär prozessorientierten Sicht geprägten Aspekten tragen primär technisch geprägte Aspekte zum Gesamtkatalog der Anforderungen bei. 15.3.1.1 Funktionale Anforderungen aus Sicht des Archivs Aus Sicht des Archivs stehen die klassischen archivarischen und dokumentarischen Aufgaben bei der Formulierung von Anforderungen an ein digitales Archiv im Vordergrund. Dabei spielen neben der reinen Funktionalität zum einen Aspekte zur Datensicherheit und -integrität und zum anderen Überlegungen zur Effizienzsteigerung eine Rolle. –– Das digitale Archiv muss umfassende Möglichkeiten bieten, Audiomaterial über sehr lange Zeiträume zu erhalten und zu bewahren. Diese Forderung mündet in der Umsetzung in korrespondierende Anforderungen an die eingesetzten filebasierten Speichertechnologien und an Möglichkeiten der Qualitätskontrolle und der Konvertierung. –– Das digitale Archiv muss leistungsfähige Möglichkeiten zur Dokumentation des archivierten Audiomaterials bereitstellen. Im Rahmen der Dokumentation wird zu der Audioessenz ein beschreibender Datensatz mit Metadaten erzeugt. Erst durch diese dokumentarischen Metadaten wird eine gezielte Suche im Archivbestand möglich. Für die

15.3 Digitale Tonarchive 

 1041

technische Realisierung leiten sich daraus Anforderungen an die Struktur der eingesetzten Datenbank und der zugehörigen Benutzeroberfläche ab. –– Das digitale Tonarchiv muss die Rechercheaufgaben des Archivs umfassend unterstützen. Neben leistungsfähigen, auf dokumentarischen Metadaten basierenden Recherchemöglichkeiten gehört dazu auch die Möglichkeit, Tondokumente am Recherchearbeitsplatz „online“ vorzuhören. –– Das digitale Tonarchiv muss die Übernahme von Archivinhalten sowohl von extern beschafften Tonträgern als auch die Übernahme von sendefertig produziertem bzw. gesendetem Material in das Archiv erleichtern. Diese Forderung entspricht der einleitend formulierten Zielsetzung, Prozessbrüche durch die technische Integration von Teilsystemen aufzuheben. 15.3.1.2 Funktionale Anforderungen aus Sicht des Programms Der eingangs erwähnte Bruch zwischen den Systemen bedingt eine häufig nicht optimale Nutzungsmöglichkeit der konventionellen Archivbestände durch das Programm, bspw. bedingt durch langsame Zugriffszeiten. Um diese Schwäche durch den Einsatz digitaler Archive abzustellen, sind aus Sicht des Programms die nachfolgend beschriebenen Anforderungen umzusetzen: –– Ein digitales Archiv muss beschleunigte Abläufe ermöglichen, die frei von Medienbrüchen sind. Durch direktes Vorhören, Bestellen und Übertragen in die programmnahen Systeme muss die unmittelbare Nutzung des archivierten Materials ermöglicht werden. –– Ein digitales Archiv muss die gegenüber der Ist-Situation deutlich vereinfachte Überführung von gesendeten und archivierungswürdigen Beiträgen in den Archivkontext ermöglichen. Dies erlaubt die rasche archivarische Weiterverarbeitung und insbesondere Dokumentation. –– Bei der Einführung eines digitalen Archivs ist eine aus programmlicher Sicht geprägte Füllstrategie notwendig, die zeitnah ein hohes Nutzungspotenzial des Systems ermöglicht. –– Ein digitales Archiv sollte die Flexibilität bei der Wiederverwertung von Archivmaterial steigern. Für die bestehenden Programme, aber auch für neue Angebotsformen und medienübergreifende Arbeitsweisen, können Aktualität und Flexibilität des digitalen Archivs einen erheblichen Mehrwert bieten. 15.3.1.3 Systemtechnische Anforderungen Neben den beschriebenen funktionalen Anforderungen, die sich aus der prozessorientierten Sicht des Programms bzw. des Archivs ergeben, spielen auch systemtechnische Anforderungen an die Infrastruktur eines digitalen Tonarchivs eine wichtige Rolle. Die wichtigsten Anforderungen lassen sich in die Kategorien IT-Sicherheit, Nutzermanagement, Systemmanagement und Skalierbarkeit gliedern. IT-Sicherheit Unter der Überschrift IT-Sicherheit sind unterschiedliche Aspekte zusammengefasst wie u. a. auch in Kap. 16.4 beschrieben. Besonders hervorzuheben sind hierbei

1042 

 15 Digitale Tonsignalspeicherung

–– die Systemverfügbarkeit im Sinne von Zuverlässigkeit und Havarievermeidung, –– die Datensicherheit im Sinne einer fehlertoleranten Speicherarchitektur und eines tauglichen Backup-Konzeptes und –– die Zugangssicherheit im Sinne der Abwehr unberechtigter Zugangsversuche und Attacken von außen. Ebenfalls zum Thema IT-Sicherheit gehören die Aspekte Authentifizierung und Autorisierung; diese Gesichtspunkte werden im folgenden Abschnitt „Nutzermanagement“ erörtert. Nutzermanagement Einen anderen Aspekt der Sicherheit stellt das Berechtigungskonzept für den Zugriff auf den digitalen Audioarchivspeicher dar. Eine als sinnvoll etablierte Strategie basiert auf der Nutzung rollenbasierter Rechte, wobei jede Rolle (oder Gruppe) einen Satz an Rechten besitzt und jeder Nutzer einer oder mehreren Rollen angehört. Die Rechte selbst decken zwei Dimensionen ab: zum einen die funktionale Dimension, in welcher der Funktionsumfang für den Nutzer beschrieben ist (Import, Export, Ändern, Löschen), zum anderen die inhaltliche Dimension, in welcher der Zugriff auf Bestände oder Beiträge (Erstsenderecht, Verwendungsbeschränkung) geregelt ist. Systemmanagement Digitale Tonarchive bestehen aus einer Vielzahl informationstechnischer Komponenten. Die Gesamtfunktionalität erfordert das einwandfreie Zusammenspiel dieser Komponenten. Entsprechend komplex gestalten sich Fehlersuche und -behebung im Havariefall. Aus diesem Grunde kommt einem leistungsfähigen Überwachungssystem („Monitoring and Control“) eine zentrale Rolle zu, um einen möglichst störungsarmen Betrieb gewährleisten zu können. Skalierbarkeit Generell beschreibt die Forderung nach Skalierbarkeit die Fähigkeit des Systems, an im Fluss befindliche Anforderungen ohne grundlegende Änderungen möglichst gut anpassbar zu sein. Es liegt in der Natur der Sache, dass sich zukünftige Anforderungen in der Praxis nur in begrenztem Umfang vorhersagen lassen. Aus diesem Grund müssen Anforderungen an die Skalierbarkeit häufig abstrakt formuliert werden, ohne dabei allzu unspezifisch zu werden. Wesentlich ist die Forderung nach skalierbarer Speicherkapazität und -technologie. Die Zielsetzung digitaler Tonarchive nach „ewiger“ Aufbewahrung führt zwangsläufig zu einem kontinuierlich wachsenden Bedarf an Speicherplatz, der in sinnvoller Weise mit einem korrespondierenden Ausbau einhergeht. Da aber gleichzeitig die verfügbaren IT-Speichersysteme permanenten Technologiewechseln unterliegen, muss die simultane Nutzbarkeit unterschiedlicher Speichertechniken sowohl aus technischen als auch aus wirtschaftlichen Gründen gefordert werden. Ebenfalls wichtig ist die Forderung nach offenen und hinreichend universellen Schnittstellen. Die formulierte Forderung aus Sicht des Programms bzw. der Produktionstechnik nach einer engen Integration der digitalen Tonarchive erfordert vielfältige Schnittstellen mit peripheren Systemen. Die Forderung nach Skalierbarkeit umfasst ferner eine einfache Erweiterungsmöglichkeit der Benutzeroberfläche, um neue Funktionen und Arbeitsabläufe einzubetten.

15.3 Digitale Tonarchive 

 1043

15.3.2 Archivsysteme Ausgangspunkt für die Beschreibung der technischen Struktur digitaler Tonarchive ist die in Abb.  15/31 vorgestellte Anordnung. Grundsätzlich handelt es sich bei digitalen Tonarchiven auf Grund der heterogenen Systemlandschaft und integrativen Arbeitsabläufe um vergleichsweise komplexe Softwaresysteme. Daher spielt die eingesetzte Softwarearchitektur eine besonders wichtige Rolle. Ziel ist ein hinreichend modularer Aufbau der Gesamtlösung, um die geforderte Skalierbarkeit sicherzustellen. Naturgemäß existieren vielfältige Möglichkeiten, diese Softwarearchitektur geeignet zu definieren. Ein generelles Prinzip für komplexe Softwarelösungen – und damit auch für digitale Tonarchive – ist die Realisierung einer mehrschichtigen Softwarearchitektur. Jede Schicht bündelt einen bestimmten Teil der Gesamtfunktionalität. Ein gängiger Ansatz sieht vier derartige Schichten vor (s. Abb. 15/32). Schicht 1 bündelt alle Funktionen des Datenmanagements und der Datenspeicherung. Dazu gehören Softwaremodule für das Metadatenmanagement, für das Audiodatenmanagement und für die Speicherverwaltung.

Abb. 15/32. Mehrschichtige Softwarearchitektur digitaler Tonarchive.

In Schicht 2 ist die Systemlogik mit den systemweit genutzten Diensten zusammengefasst. Diese Schicht beinhaltet Module für die Metadatenverarbeitung, Dienste für die Audiodatenprozessierung, Systemdienste wie Benutzer- und Systemmanagement und als zentrale Komponente ein Prozessmanagement, das diese Module koordiniert. Schicht 3 stellt die interaktiven Benutzeroberflächen bereit. Auch hier werden in der Regel Teilfunktionen in separaten Oberflächenmodulen realisiert. In Schicht 4 werden Schnittstellenfunktionen gebündelt. Hier ist zwischen unterschiedlichen Technologien zu differenzieren, die für die Integration des digitalen Tonarchivs mit den verschiedenen externen Systemen genutzt werden können. Web Services sind im Zusammenhang mit sog. serviceorientierten Architekturmodellen (Service Oriented Architecture,

1044 

 15 Digitale Tonsignalspeicherung

SOA) wichtig, weiterhin spielen spezialisierte Programmierschnittstellen (Application Programming Interface, API) und für einfachere Aufgaben dateiorientierte Import- und Exportschnittstellen eine Rolle. Je nach Charakteristik und Funktionalität der Integration des jeweiligen externen Systems werden auf der Grundlage dieser Technologien differenzierte Schnittstellen realisiert. Zwischen den Schichten sind jeweils universelle Schnittstellen definiert. Auf diese Art ist es möglich, einzelne Module auszutauschen oder zu ergänzen, ohne dass dadurch die Gesamtarchitektur – und damit die übrigen Module – geändert werden müssen. Auf diese Art wird die geforderte Skalierbarkeit erreicht. Parallel zu der beschriebenen Softwarearchitektur ist die davon zunächst unabhängige Gesamt-Hardwarearchitektur zu betrachten. Auch hier gibt es zahlreiche unterschiedliche Ansätze, die sich nach dem konkreten Anforderungsprofil an das digitale Tonarchiv richten. Es soll hier eine grundlegende Möglichkeit aus dieser Variantenvielfalt beispielhaft dargestellt werden (Abb. 15/33).

Abb. 15/33. Mögliche Gesamt-Hardwarearchitektur eines digitalen Tonarchivs.

Zunächst ist erkennbar, dass ein Großteil der Elemente doppelt ausgeführt ist. Dadurch wird der Anforderung nach hoher Zuverlässigkeit Rechnung getragen; der Ausfall eines Teilsystems oder eines Gerätetyps führt nicht zum Ausfall des Gesamtsystems. Die einzelnen Hardwarekomponenten der Zentraleinheit des digitalen Tonarchivs sind über ein redundant ausgeführtes lokales Netzwerk (LAN  1) und ein ebenfalls redundantes Speichernetzwerk (Storage Area Network, SAN) verknüpft.

15.3 Digitale Tonarchive 

 1045

Für die Datenbank, die Audiodatenspeicherung und für die Logik bzw. für die Dienste stehen sog. Applikationsserver zur Verfügung. Als Massenspeichersystem kommen in dieser Darstellung redundante Festplattensysteme (RAID-Sets) und ein Bandsystem für die zusätzliche Datensicherung zum Einsatz. Von außen ist der Zugriff auf die Zentraleinheit durch eine Firewall gesichert (LAN 2 / Firewall). Über diese sichere Verbindung sind alle externen Systeme und die Arbeitsplatzrechner, d. h. die PCs und deren Benutzeroberflächen, mit der Zentraleinheit verbunden. 15.3.2.1 Speichersysteme Speichertechnologie Zum Einsatz gelangen durchweg Standard-Speichersysteme der Informationstechnologie. Hier sind insbesondere Festplatten und bandgestützte Systeme zu nennen. Festplattensysteme basieren dabei praktisch immer auf großen RAID-Systemen, während Bandsysteme wegen des hohen Kapazitätsbedarfs in der Regel als Bandbibliotheken (Tape Libraries) ausgeführt sind. Bandbibliotheken verwenden Robotersysteme, die durch eine geeignete Verwaltungs- und Steuersoftware aus einem großen Vorrat an Bandkassetten ein oder mehrere angeforderte Bänder automatisch in entsprechende Bandlaufwerke laden. Bei der Wahl des geeigneten Speichermediums ist stets eine Abwägung technischer und wirtschaftlicher Aspekte erforderlich. Bei Festplatten stehen der schnellen Zugriffszeit und dem wahlfreien parallelen Zugriff im Vergleich zu Bandsystemen hohe Kosten pro Kapazitätseinheit gegenüber. Demgegenüber sind Bandsysteme zu günstigeren Kosten verfügbar. Allerdings liegt die Zugriffszeit im Bereich von Minuten, und die Anzahl der parallelen Zugriffe ist durch die Anzahl der verfügbaren Laufwerke begrenzt. Oft wird aus wirtschaft­ lichen Gründen eine Mischform eingesetzt. Das Audiomaterial wird in den meisten Tonarchiven in zwei Qualitäten gespeichert. Das Quellmaterial muss für die spätere Wiederverwendung in der Produktion und Sendung entweder im Originalaudioformat der Digitalisierung oder in einem hochqualitativen Kompressionsformat, z.  B. in MPEG-1 Audio  Layer  2  (MP2), vorgehalten werden. Meistens wird das „Hausformat“ der jeweiligen Rundfunkanstalt dafür verwendet. Für die Vorhörmöglichkeit in Benutzeroberflächen wird das Quellmaterial im gängigen Kompressionsformat MPEG-1 Audio Layer 3 (MP3) zusätzlich zum hochwertigen Audio abgelegt. Um einen schnellen Zugriff auf Vorhöraudios zu gewähren, werden diese auf Festplattensystemen gespeichert. Inwiefern auch das hochqualitative Audio auf Festplattensystemen für eine schnelle Exportmöglichkeit vorgehalten werden kann, hängt von der Kapazität des Systems ab. Als Mischform können Festplattensysteme als MP3-Server für alle Audios und als Cache-Server für häufig angeforderte Audiobeiträge in hoher Qualität dienen. Speichersicherheit Die einfache Speicherung der im digitalen Tonarchiv verfügbaren Audiodateien ist auf Grund der Forderung nach hoher Speichersicherheit unzureichend. Zwar liegen die mittleren, statistisch ermittelten Ausfallzeiten (Mean Time Between Failures, MTBF) marktüblicher 150  GByte-Festplatten heute in der Größenordnung von 500.000 Stunden. Es sind jedoch

1046 

 15 Digitale Tonsignalspeicherung

Archivkapazitäten von mehreren hundert TByte keine Seltenheit, so dass in einem 150 TByte großen Archiv durchschnittlich nach zwanzig Tagen ein Plattenlaufwerk ausfällt. Es gelangen daher unterschiedliche Verfahren zur Erhöhung der Datensicherheit zur Anwendung, häufig auch in Kombination. Festplattensysteme werden durch RAID-Technologie (Redundant Array of Independent Disks) gesichert. Bei diesem Verfahren werden mehrere Platten zu einem RAID-Set verbunden, das die automatische Rekonstruktion der Daten auch beim Ausfall von einer Platte (RAID Level 5) oder von zwei Platten (RAID Level 6) ermöglicht. Dazu werden über einen RAIDController beim Schreibvorgang automatisch Korrekturinformationen (Parity) erzeugt und auf einer oder mehreren Platten zusätzlich gespeichert. Im Fehlerfall ist der RAID-Controller dazu in der Lage, aus den noch verfügbaren Daten zusammen mit der Parity-Information die Ursprungsdaten automatisch wiederherzustellen. Diese Form der Datensicherheit erfordert bei gleicher Netto-Kapazität eine höhere Anzahl Festplatten (Abb. 15/34).

Abb. 15/34. Prinzipieller Aufbau eines Festplatten-RAID-Systems.

Speicherkapazität Die zentrale Aufgabe des Speichersystems besteht in der sicheren Speicherung der digitalen Audiodateien. Dabei sollte grundsätzlich die bestmögliche Audioqualität gespeichert werden. Die heute überwiegend eingesetzte Quellcodierung verwendet Pulscodemodulation (PCM) mit einer Abtastrate von 48 kHz (oder von 44,1 kHz bei nativ gespeicherten CDs) mit einer Wortbreite von 16 Bit pro Mono-Abtastwert. Der rechnerische Netto-Kapazitätsbedarf für solche „linearen“ Audiofiles liegt bei ca. 650  GByte pro 1.000 Stunden Audiomaterial. Für die Speicherung der MP3-Vorhöraudiodateien wird nur etwa ein Zehntel dieser Kapazität benötigt. Zunehmend gewinnen höherwertige Quellcodierungen an Bedeutung. Beispiele hierfür sind Abtastraten von 96 kHz und mehr, bei Wortbreiten von 24 Bit. Ebenso wird die übliche Stereotechnik mehr und mehr durch Mehrkanaltechniken (Surround Sound) bspw. im 5.1-Ver-

15.3 Digitale Tonarchive 

 1047

fahren ergänzt. 1.000 Stunden Audiomaterial in 5.1 mit 96 kHz Abtastrate bei einer Wortbreite von 24 Bit benötigen bereits die 9-fache Netto-Kapazität oder ca. 5,7 TByte. Zur überschlägigen Abschätzung des Brutto-Kapazitätsbedarfs sind zusätzlich drei weitere Faktoren zu berücksichtigen: –– Der Ausnutzungsgrad üblicher IT-Speichermedien liegt auf Grund der Datenträgerfragmentierung bei maximal ca. 90 % der Nettokapazität. –– Die Sicherung von Festplattensystemen durch RAID-Technologie erzeugt wie beschrieben zusätzlichen Kapazitätsbedarf in Abhängigkeit von der Auslegung der RAID-Sets. Ein RAID5-Set des Typs 4+1 (s. Abb. 15/34) erzeugt z. B. einen Overhead von 25 %. –– Häufig werden im Sinne einer Desaster-Toleranz die gesamten Speichersysteme an zwei unterschiedlichen Orten identisch aufgebaut. Dies führt zu einer Verdopplung des Kapazitätsbedarfs. Würde man also ein Desaster-tolerantes Festplattensystem mit zusätzlicher RAID5-Technologie (4+1) pro Standort aufbauen, so wäre bei einem Nettokapazitätsbedarf von 100 TByte eine Brutto-Speicherkapazität von ca. 280 TByte anzusetzen. 15.3.2.2 Datenbanken Neben der Speicherung der Audiodateien spielt deren Verwaltung und auch ihre Verknüpfung mit beschreibenden Daten (Metadaten) eine entscheidende Rolle bei der Realisierung eines digitalen Tonarchivs; dies ist Aufgabe des Katalogsystems (vgl. Abb.  15/32). Die sich daraus ergebenden vielfältigen Anforderungen werden in der Regel mit Datenbanken umgesetzt. Datenbanken bestehen dabei aus einer sog. Datenbank-Engine, sowie aus der darauf aufbauenden speziellen Datenbankanwendung. Derart aufgebaute Datenbanken bieten den Vorteil, die Fülle der Metadaten besonders geschickt verwalten und bearbeiten zu können. Die heute häufigste Form sind relationale Datenbanken, in denen die unterschiedlichen Metadatenbereiche über Relationen zueinander in Beziehung stehen, man sagt auch, „relational verknüpft“ sind. Im Bereich der Tonarchive sind Volltextsuchen über alle und gruppenspezifische Teile der Metadaten notwendig, so dass neben den relationalen Datenbankfeldern auch verschiedene Volltextfelder zum Einsatz kommen, die während der Datenerfassung automatisch durch Hintergrundprozesse gefüllt werden. In der Informatik gibt es eine ausführliche Theorie zu Datenbanken. Eine detaillierte Erläuterung der zahlreichen Facetten ginge weit über das Konzept dieser Ausarbeitung hinaus. Wichtig ist, dass sowohl die Fülle der Metadaten in einem digitalen Tonarchiv – hier kann es ohne weiteres um einige Millionen Datenbankeinträge gehen – als auch ihre komplexe Beziehung zueinander den Einsatz leistungsfähiger Datenbanken erforderlich macht. 15.3.2.3 Benutzeroberflächen Die bisher beschriebenen technischen Elemente eines digitalen Tonarchivs arbeiten für den Nutzer unsichtbar. Der Nutzerzugang zum System erfolgt gemäß Abb. 15/32 primär über sog. Benutzeroberflächen. Generell gilt, dass sich die Ausformung der Benutzeroberflächen an unterschiedlichen Kriterien orientieren muss, um eine möglichst gute Bedienbarkeit sicherzustellen. Neben der Funktionalität (z. B. Suche, Dokumentation usw.) und den abzubilden-

1048 

 15 Digitale Tonsignalspeicherung

den Arbeitsabläufen spielt dabei auch das Nutzerprofil eine wichtige Rolle. So benötigen bspw. Dokumentare, Redakteure oder auch die Honorarabteilung jeweils andere Sichten auf die beschreibenden Daten. In der Konsequenz findet sich in der realen technischen Umsetzung digitaler Tonarchive häufig eine hohe Anzahl unterschiedlicher Benutzeroberflächen wieder. Im Folgenden sollen einige praktische Beispiele für derartige Oberflächen vorgestellt werden. Suchoberflächen Suchoberflächen dienen der gezielten Suche und dem Auffinden von archivierten Inhalten. Suchergebnisse werden häufig zunächst als Listen dargestellt. Ausgehend von der Listendarstellung stehen dem Nutzer weitere Funktionen zur Verfügung, z. B. eine Detailansicht der Metadaten oder insbesondere – und dies ist eine zentrale Eigenschaft digitaler Tonarchive – die Möglichkeit, Audiodateien in Vorhörqualität anzuhören und an andere Systeme via Netzwerk in Produktionsqualität zu übertragen. Für redaktionelle Nutzer werden häufig Web-basierte Oberflächen zur Verfügung gestellt, die sich durch einfache Funktionalität auszeichnen und die darüber hinaus in einem normalen Internet-Browser lauffähig sind (Abb. 15/35). Der linke Bereich dieser Suchoberfläche zeigt unterschiedliche logische Speicherbereiche, die auch physisch getrennt – bei Bedarf sogar an unterschiedlichen Standorten – realisiert sein können. Im oberen Bereich findet sich ein einfaches Suchfeld, das ohne nähere Kenntnis der Metadatenstruktur eine übergreifende Volltextsuche ermöglicht. In der Trefferliste stehen ausgewählte Informationen zu den gefundenen Einträgen, wie Titel, Person, Sende- und Aufnahmedatum, Audiolänge, Standort, Speicher und Archivnummer. Zusätzlich werden in jeder Zeile weitere Funktionen angeboten: Lautsprechersymbol für „Vorhören“, Versandsymbol zur Übertragung in externe Systeme, Warenkorb für nutzerspezifische Materialsammlungen, Verknüpfung zu Zusatzmaterial wie Manuskripten. Gerade in großen Archivbeständen führt die einfache Volltextsuche allerdings häufig zu sehr großen Ergebnismengen. Spezielle Archivinhalte können besser durch komplexere Suchanfragen gezielt gefunden werden. Derartige komplexe Suchvorgänge lassen sich über erweiterte Suchmasken definieren; in diesem Fall ist allerdings eine genauere Kenntnis der Metadatenstruktur vonnöten (Abb. 15/36). Der beispielhaft dargestellte erweiterte Suchdialog bietet neben der Vollsuche auch die Einschränkung der Suche auf bestimmte Suchfelder, die Einschränkung der Suche auf Datums- und Zeitbereiche, Standorte oder auch die logische Verknüpfung unterschiedlicher Suchkriterien. Erfassungsoberflächen Die vorgestellten Suchoberflächen greifen lesend auf den Archivbestand zu. Erfassungsoberflächen bieten ergänzend die Möglichkeit, die Metadaten zu Archiveinträgen anzulegen und zu bearbeiten. Häufig ist dies eine dokumentarische Aufgabe, so dass Erfassungsoberflächen, mit denen auch die dokumentarische Erschließung möglich ist, in der Regel nur einem speziellen Nutzerkreis zur Verfügung stehen. Das dargestellte Oberflächen-Beispiel ist in mehrere Bereiche strukturiert. Es existieren Bereiche für die Wahl der Betriebsart („Modusauswahl“, z. B. für „Titel / Beitrag archivieren“ oder „Titel / Beitrag ändern“), für das Anlegen

15.3 Digitale Tonarchive 

 1049

bzw. Ändern von Metadaten („Metadaten“), für die Zuordnung von Audiodaten zu Metadaten („Audio“) und für das Erzeugen („Archivieren“) von Audiodateien im Archivspeicher (s. Abb. 15/37).

Abb. 15/35. Einfache Suchoberfläche und Darstellung der Suchergebnisse in Listenform.

Abb. 15/36. Bildschirmdarstellung eines erweiterten Suchdialogs.

1050 

 15 Digitale Tonsignalspeicherung

Das Eingabeformular ist in sich nochmals über Reiter oder „Tabs“ gegliedert, um der Fülle der im Archiv relevanten Metadaten gerecht zu werden. Hervorzuheben sind hier die Rubrik „Erschließung“, die Archivaren und Dokumentaren eine systematische inhaltliche Nutzung z.  B. anhand von Schlagworten ermöglicht, und die Rubrik „Zeitmarken“; hier werden Marken längs des Audiomaterials hinterlegt, über die spezielle Abschnitte einer Audiodatei gezielt angesprungen werden können.

Abb. 15/37. Erfassungsoberfläche für dokumentarische Metadaten.

Einspieloberflächen Während bei Erfassungsoberflächen die Metadaten im Zentrum stehen und eher zur umfassenden Dokumentation einzelner Beiträge dienen, ermöglichen Einspieloberflächen den

15.3 Digitale Tonarchive 

 1051

Abb. 15/38. Einspieloberfläche für den Import digitaler Files.

Abb. 15/39. Oberflächenkomponente für die Festlegung von Cuepunkten.

Umgang mit technischen Audiodaten und deren Zuordnung zu dokumentarisch erfassenden Beitragsstrukturen. Die in Abb. 15/38 dargestellte Erfassungsoberfläche ist für Masseneinspielungen konzipiert worden. Auf der linken Seite werden in einer Liste die zu archi-

1052 

 15 Digitale Tonsignalspeicherung

vierenden Tonträger (in diesem Fall CDs aus CD-Grabbing-Jukeboxen) als Archivnummern angezeigt. Die während des Grabbing-Vorganges erfassten technischen Audiodaten werden automatisch gegen die hierarchische Metadatenstruktur aus der Archivdatenbank validiert. Bei der Validierung werden die Anzahl der Tracks und die Trackzeiten in einer Aufnahme, optional die Tracknummern und Tonträgerfortsetzung, analysiert. Das Validierungsergebnis wird farblich und durch ein Icon gekennzeichnet. Bei einigen Validierungszuständen kann der Einspieler die zeitliche Struktur der technischen Audiodaten ändern oder die Zeitangaben in der Archivdatenbank überstimmen. Ein wesentlicher Aspekt ist die bereits erwähnte Festlegung von Marken oder „Cuepunkten“ längs einer Audiodatei; dies ist insbesondere zur Navigation in längeren Audiodateien wichtig. Es können während des Abhörens einer Audiodatei Marken und Klassifizierungen gesetzt werden. Eine Klassifizierung kann bspw. zur Unterscheidung zwischen künstlerischen und technischen Marken genutzt werden (s. Abb. 15/39). Die so erzeugten Marken wiederum werden als Metadaten im korrespondierenden Datensatz hinterlegt und erzeugen dadurch hierarchische Strukturen innerhalb einer Audiodatei. Je nach technischer Realisierung können diese Marken genutzt werden, um bei der Recherche die entsprechende Position in der Audiodatei, z. B. Tracks, direkt anzuspringen. Das dargestellte Beispiel zeigt eine Benutzeroberfläche, die diesen komplexen Vorgang der Erfassung und Zuordnung von zeitbasierten, über Marker oder Cuepunkte abgebildeten Metadaten ermöglicht. 15.3.2.4 Einspielstationen Einspielstationen bilden ein weiteres Teilsystem in der technischen Gesamtlösung digitaler Tonarchive. Die zentrale Aufgabe von Einspielstationen besteht in der Wandlung des Inhalts konventioneller Tonträger in Audiodateien. Als wichtigste konventionelle Tonträger sind dabei Magnetbänder, CDs, Schallplatten oder auch DAT-Bänder zu berücksichtigen. Unabhängig vom verwendeten Tonträger lassen sich für den Einspielvorgang einige zentrale Anforderungen formulieren: –– Die ursprüngliche Tonaufzeichnung muss mit möglichst hoher Qualität in eine digitale Form gewandelt werden. Die lange gültige Grenze der CD-Qualität (Pulscode-Modulation mit 16 Bit Wortbreite bei 44,1 kHz Abtastrate) kann durch heutige Codierungsverfahren (bis 24 Bit Wortbreite und 192 kHz Abtastrate) bereits deutlich überschritten werden. –– Es muss möglich sein, die technische Qualität des Einspielvorgangs möglichst weitgehend automatisiert zu dokumentieren. Diese Möglichkeit ist als Grundlage für ein Qualitätssicherungsverfahren wichtig, mit dem die Korrektheit des Einspielprozesses überwacht wird. Ohne solch ein Verfahren bestünde die Gefahr, defekte Audiodateien in das digitale Archiv zu übernehmen. –– Häufig ist es wünschenswert, im Rahmen des Einspielvorgangs Fehler des konventionellen Tonträgers zu korrigieren. Solch eine Anforderung ergibt sich z. B., wenn alte und beschädigte Magnetbänder oder Vinylschallplatten eingespielt oder digitalisiert werden (s. Kap. 15.1.14). –– Je nach Menge des einzuspielenden Materials kann auch der Aspekt einer weitgehenden Automatisierbarkeit dieses Prozesses eine Rolle spielen. Ist bspw. ein Archivbestand von

15.3 Digitale Tonarchive 

 1053

50.000 Stunden auf Magnetbändern zu digitalisieren, so würde dies in einem rein manuellen Prozess viele Jahre dauern und entsprechend viel Personal erfordern. –– Einspielsysteme müssen über geeignete Schnittstellen verfügen, um auf der Softwareebene in das Gesamtsystem eingebunden werden zu können.

Abb. 15/40. Bildschirmdarstellung einer Einspieloberfläche für DAT.

Ähnlich wie für die Benutzeroberflächen gilt auch für die Einspielsysteme, dass je nach Anforderungen sehr unterschiedliche technische Lösungen denkbar und sinnvoll sind. Zur Illustration ist an dieser Stelle die Abbildung der zentralen Oberfläche einer proprietären DAT-Einspielstation dargestellt (s. Abb. 15/40). Neben den Bedienelementen für die angeschlossenen DAT-Spieler und den darüber angeordneten Audiomessinstrumenten ist im linken Bildschirmbereich auch der automatisch generierte Bericht zu technischen Ereignissen des Einspielvorgangs zu erkennen. 15.3.2.5 Ausspielstationen Dieses Teilsystem bietet die Möglichkeit, Archivinhalte zu exportieren und auf andere Tonträger zu schreiben. Diese Aufgabe stellt sich insbesondere dann, wenn der Dateiexport über Netzwerkschnittstellen nicht möglich ist. Mögliche praktische Anwendungsfälle sind Automaten zum Brennen von CDs oder auch Stationen, die das Ausspielen auf konventionelle Audioaufnahmegeräte (Bandmaschinen) ermöglichen; der letztgenannte Anwendungsfall

1054 

 15 Digitale Tonsignalspeicherung

tritt aber angesichts der weit fortgeschrittenen Digitalisierung zunehmend in den Hintergrund. 15.3.2.6 Schnittstellen Bereits mehrfach erwähnt wurde die Bedeutung von Schnittstellen, über die sich das digitale Tonarchiv mit anderen IT-basierten Systemen integrieren lässt. Wie bereits aus Abb. 15/31 zu entnehmen war, kann diese Integration auf drei Ebenen greifen. Die Basisforderung an ein digitales Tonarchiv ist der Austausch von Audiodateien mit anderen Systemen. Diese Forderung bezieht sich insbesondere auf den Austausch mit filebasiert arbeitenden Systemen in den Programmbereichen. Der Austausch muss bidirektional möglich sein, d.  h., Audiodateien werden über die Schnittstellen sowohl gelesen als auch geschrieben. Eine weitere Forderung an die Schnittstellenfunktionalität ist die Möglichkeit, unterschiedliche Quell- und Zielformate ineinander umzurechnen. Dies könnte z.  B. die Umwandlung von linear codierten Audiodateien aus dem Tonarchiv in MPEG-encodierte Dateien für das Zielsystem sein. Des Weiteren ist die Forderung zu stellen, Metadaten mit anderen Systemen austauschen zu können. Der Umfang der auszutauschenden Metadaten ist je nach angeschlossenem System sehr unterschiedlich. So benutzt bzw. erzeugt ein Produktions- und Sendesystem im Programmbereich ganz andere Metadaten als ein System für die Honorarabrechnung. Gleichwohl ist die Integration des digitalen Tonarchivs mit all diesen unterschiedlichen externen Systemen wünschenswert (vgl. Kap. 15.3.3). Neben unterschiedlichen Implementierungstechniken vom reinen Dateiaustausch bis hin zu direkten Datenbankzugriffen spielt für die Schnittstellenebene die geeignete Transformation der Metadaten zwischen Quell- und Zielsystem eine besondere Rolle. Einen Sonderfall stellt die Verwendung sog. Wrapper- oder Containerformate dar. Solche Wrapperformate bieten Datenstrukturen, die den Transport von Audiodaten und Metadaten in einer Datei ermöglichen. Als Beispiele sind hier das Broadcast Wave Format (BWF) mit seinen diversen Erweiterungen oder auch MXF (Media eXchange Format) zu nennen (s. auch Kap. 12.6 und Kap. 18.5.3.3). Eine dritte Schnittstellenebene ist auf der Stufe der Benutzeroberflächen denkbar. Den möglichen Ansatz bieten hier die sog. Plug-in- oder Add-In-Komponenten, die in anderen Softwareapplikationen betrieben werden können und von dort ohne Wechsel des Applikationskontextes direkt den Zugriff auf das digitale Tonarchiv ermöglichen. Diese Form der Integration ist allerdings vergleichsweise selten, da sie wegen der sehr engen technischen Verzahnung zu einer erheblichen Abhängigkeit zwischen an sich unabhängig arbeitenden Systemen führt. Parallel zu den hier genannten drei Schnittstellenebenen werden die am Anfang des Kapitels erwähnten übergreifenden Dienste angeboten, die komplette Arbeitsabläufe im Archivsystem umfassen. Diese Dienste können von Benutzeroberflächen außerhalb des Archivkontextes aufgerufen werden, um z. B. ein Ausspielen oder ein Vorhören zu starten. Abschließend ist festzuhalten, dass ein hohes Maß an Schnittstellen-Flexibilität für die Wertigkeit eines digitalen Tonarchivs entscheidend ist; denn erst hierdurch kann die zu fordernde umfassende Integration gewährleistet und sichergestellt werden.

15.3 Digitale Tonarchive 

 1055

15.3.3 Metadaten Metadaten (als beschreibende Daten) sind seit jeher wichtige Bestandteile der Archivierung und auch der angrenzenden Prozesse. In der konventionellen Ära lagen bzw. liegen Metadaten einerseits in Katalogdatenbanken vor, häufig aber auch in Form von Schriftstücken oder als Text-Information auf Bandkartons oder CD-Hüllen. Digitale Tonarchive bieten die Möglichkeit, all diese Zusatzinformationen (als Metadaten) technisch mit dem Audiomaterial zu verknüpfen. Das Bindeglied ist dabei die entsprechend erweiterte Datenbank des Tonarchivs, die verschiedene Metadatenquellen vereint. Gelingt diese Verknüpfung auch über die Grenzen des digitalen Tonarchivs hinweg – wenn nämlich die entsprechenden Schnittstellen geschaffen werden –, so können Metadaten im Gesamtprozess genutzt, ergänzt und verändert werden. Diese Möglichkeit schafft einen besonderen Mehrwert, indem bspw. Doppeleingaben von Begleitdaten entfallen und Zusatzinformationen online in anderen Systemen genutzt und ausgewertet werden können. 15.3.3.1 Kategorien von Metadaten Unter dem Begriff Metadaten ist eine große Zahl unterschiedlicher Informationen zusammengefasst. Aus diesem Grund ist eine grobe Systematisierung hilfreich. Technische Metadaten Als „technische Metadaten“ werden solche Informationen bezeichnet, die sich aus technischen Bearbeitungsschritten ergeben und die somit objektiven Charakter haben. Beispiele hierfür sind Informationen über Dateigrößen, Codierungsverfahren, Datei-IDs, Track-Nummer, Audiolänge oder auch die Erfassung von Nutzertransaktionen („Wer hat einen archivierten Beitrag wann wohin exportiert?“). Technische Metadaten werden vom System automatisch generiert, sie müssen nicht manuell eingegeben werden. Formale Metadaten Die Bezeichnung „formale Metadaten“ ist ein Oberbegriff für Zusatzinformationen, die zwar im Gegensatz zu technischen Metadaten manuell eingegeben werden müssen, deren Inhalt aber gleichwohl feststeht. Dazu gehören u. a. Angaben zu Titel oder Autoren. Beschreibende Metadaten Die Kategorie der „beschreibenden Metadaten“ ermöglicht die nähere inhaltliche Beschreibung von Archivinhalten. Auch diese Information muss an irgendeiner Stelle im Prozess manuell eingeben werden, allerdings liegt hier der Inhalt nicht zwangsläufig fest. Beispiele sind die Vergabe von Stichworten oder auch von Genre- und Gattungsinformationen; all diese Informationen bedürfen letztlich einer subjektiven Bewertung. Umso wichtiger sind diese Daten allerdings für gezieltes Suchen und Finden im Archiv. Dies ist der Hintergrund für die Bedeutung einer systematischen dokumentarischen Erschließung mit dem Ziel, die gegebene Subjektivität durch die Einhaltung verbindlicher Regeln einzuschränken und quasi zu „normieren“.

1056 

 15 Digitale Tonsignalspeicherung

15.3.3.2 Bedeutung von Metadaten im digitalen Workflow Metadaten spielen in vielen Arbeitsschritten der Studio- und Hörfunktechnik eine zentrale Rolle. Abrechnungsinformationen, Einsatzstatistiken, Suchkriterien, Nutzungsrechte: all diese Informationen sind als Metadaten an irgendeiner Stelle – häufig in sehr unterschiedlicher Form – verfügbar. Die Nutzung IT-basierter Systeme schafft die technische Voraussetzung, Metadaten zwischen Systemen und damit zwischen Prozessschritten automatisiert auszutauschen. Aus diesem Grund lässt sich für unterschiedliche digitale Prozesse die übereinstimmende Aufgabenstellung formulieren, einen durchgängigen Metadatenfluss zu schaffen. Neben der technischen Umsetzung dieses Ziels ist dabei die Analyse aller prozessrelevanten Metadaten mit der Intention eines gemeinsamen Metadatenmodells und einer übergreifend definierten gemeinsamen Bedeutung eine zentrale Herausforderung. Diese Aufgabenstellung wird aus der Betrachtung der Metadatenflüsse im Gesamtablauf deutlich (Abb. 15/41).

Abb. 15/41. Metadaten im Gesamtablauf.

Die Vielfalt der als Pfeile dargestellten Metadaten-Verbindungen veranschaulicht, welche entscheidende Rolle diese Informationen in einem vernetzten, IT-basierten Workflow spielen. 15.3.3.3 Technischer Umgang mit Metadaten Metadaten liegen in aller Regel in textlicher Form vor. Allerdings gibt es auch andere Beispiele, wie Covergrafiken und Booklets einer CD oder Fotos eines Autors oder Komponisten. Unabhängig von der Datenausprägung, dem „Datentyp“, bietet sich aus technischer Sicht die Verwaltung und Speicherung von Metadaten in Datenbanken an. Datenbanken ermöglichen sowohl die flexible Beherrschung komplexer Metadatenstrukturen als auch die leistungsfähige Suche auf dem gesamten Datenbestand.

Titel

Black Magic Woman

Bochum

Currywurst Herbert Grönemeyer

Downtown Petula Clark

She Loves Beatles You

She Loves Beatles You

Strawberry Beatles Fields Forever

ID

001

002

003

004

005

006

007

Herbert Grönemeyer

Santana

Künstler

formale Metadaten

 

Paul McCartney/ Lennon / John Lennon

Paul McCartney/ Lennon / John Lennon/ Paul McCartney

Paul McCartney/ Lennon / John Lennon/ Paul McCartney

Tony Hatch/ Tony Hatch

Horst-Herbert Krause/ Diether Krebs/ Jürgen Triebel

Herbert Grönemeyer/ Herbert Grönemeyer

Peter A. Green/ Peter A. Green

Autor

 

AUDIO

Label

 

CAPITOL

A&M

Intercord

3‘ 37 2006-03-28; 2007-04-13; 2007-09-08;

Länge Sendedatum

technische Metadaten

 

Band; England

Rythm and Band; digitally Blues; Soul remastered

Rythm and Band; digitally Blues; Soul remastered

3‘ 29  

2‘ 22 2006-11-30;

2‘ 22 2007-01-14; 2007-05-12;

3‘ 06  

1‘ 54  

Singer/Song3‘ 48   writer; Bochum; Ruhrgebiet; Band

digitally remastered

Schlagwort

Filmmusik USA, 90‘s

 

Rock

Rock

Stilrichtung

beschreibende Metadaten

The Red Album APPLE

20 Greatest Hits

Twin Town (Twintown) -Original soundtrack

Total Egal

4630 Bochum EMI

Rock Times, Vol. 8 1969/70

Media-Titel

 

15.3 Digitale Tonarchive   1057

Tab. 15/12. Beispiel einer tabellarischen Metadatensicht („Listendarstellung“).

Eine sehr gängige Form der Metadaten-Visualisierung – nicht aber zwingend der MetadatenHaltung – in Archivsystemen ist die Listenform, wie sie in abgewandelter Form auch schon in Abb. 15/35 dargestellt war (Tab. 15/12). Diese beispielhafte Darstellung zeigt die zuvor beschriebenen unterschiedlichen Ausprägungen (formal, beschreibend, technisch). Jede Zeile der Liste repräsentiert einen TitelDatensatz; die ID-Kennung (Archivnummer) dient der zweifelsfreien Identifizierung. Die

1058 

 15 Digitale Tonsignalspeicherung

einzelnen Spalten repräsentieren die Felder oder Datenelemente, die den Datensatz beschreiben. Einige Aspekte lassen sich bereits aus diesem einfachen Modell ableiten: –– Manche Nennungen in einer Spalte kommen in mehreren Datensätzen (Zeilen) vor; dies ist im Beispiel für die Datensätze ID 002 und 003 der Fall. Metadaten sind mithin nicht pro Datensatz einzigartig. –– In einigen Feldern tauchen Mehrfach-Einträge auf, wie z.  B. in den Spalten „Autor“, „Schlagwort“ und „Sendedatum“. –– Mehrere Datensätze können den gleichen Titel haben, wie dies in den Datensätzen ID 005 und 006 der Fall ist. Die Unterscheidung ergibt sich lediglich aus Unterschieden in anderen Feldern. –– Nicht alle Felder sind gefüllt, wie bspw. im Datensatz ID 003. Neben dem ID-Feld, welches meistens automatisch beim Speichern von neuen Datensätzen gefüllt wird, gibt es in einigen Archiven weitere Pflichtfelder. Bereits aus diesen Aspekten stellt sich die Frage, mit welchen technischen Werkzeugen eine möglichst gute Ordnung in der Vielfalt der Metadaten erreicht werden kann. Ein sehr eta­ bliertes und leistungsfähiges Verfahren sind relationale Datenmodelle. Metadatenmodelle Um Metadaten systematisch in technischen Systemen behandeln zu können, bedarf es einer abstrakten Modellierung. Die Informatik stellt für diese Aufgabe unterschiedliche Methoden zur Verfügung, die hier nicht näher erörtert werden sollen. Als beispielhafte Begriffe für die Beschreibung solcher Modelle seien Entity-Relationship-Modelle oder Klassenhierarchien und -diagramme genannt. Ziel von Metadatenmodellen ist es, eine formale Beschreibung dafür zu finden, welche Metadaten in einem Prozess bzw. in einem System vorkommen und in welcher Beziehung sie zueinanderstehen. Das Ergebnis sind Felder, die gemeinsame inhaltliche Kategorien festlegen (z. B. der Titel eines Beitrags) und die dann spezifisch gefüllt werden. Es folgt die Gruppierung dieser Felder in „Tabellen“ und die Feststellung ihrer Beziehung oder „Relation“ zueinander. Das Metadatenmodell dient dann als Grundlage bei der Implementierung der Datenbankanwendung. Dem Benutzer stellt es sich in Form der Metadatenfelder in den Benutzeroberflächen dar (s. Kap. 15.3.2). Für das als Liste dargestellte Beispiel wird das Prinzip der Modellierung skizziert. Auch hier ist anzumerken, dass es sich um eine deutliche Vereinfachung der tatsächlich bestehenden Situation handelt; ebenso gibt es bei der Modellierung keineswegs „das einzig richtige“ Ergebnis. Ziel des betrachteten Beispiels ist es lediglich, wesentliche Prinzipien zu veranschaulichen (Abb. 15/42). Zunächst soll die Nomenklatur der Abbildung erläutert werden: –– Die Rechtecke stehen für Tabellen, identifiziert über einen entsprechenden Tabellennamen. –– Die Aufzählungspunkte in den Tabellen bezeichnen die Spalten oder Datenfelder in der jeweiligen Tabelle. –– Die Verbindungslinien zwischen den Tabellen beschreiben die Relationen der Tabellen untereinander; die Annotation (z. B. 1…*) beschreibt die Vielfachheit der jeweiligen Relation.

15.3 Digitale Tonarchive 

 1059

Abb. 15/42. Beispiel eines relationalen Metadatenmodells.

Abb. 15/43. Anwendung des Metadatenmodells aus Abb. 15/42 auf einen Teil der Titeldaten aus Tab. 15/12.

1060 

 15 Digitale Tonsignalspeicherung

Speziell die Begriffe „Relation“ und „Vielfachheit“ bedürfen der Erläuterung: Relationen stehen für die Verknüpfung zwischen unterschiedlichen Tabellen. Die vollständigen Daten zu einem Datensatz findet man in mehreren Tabellen unter Nutzung der definierten Relationen. In unserem Beispiel finden sich zu einem Titel alle Personen – sowohl Künstler als auch Autoren – in der Tabelle „Personen“. Definiert man weiterhin die Vielfachheit dieser Relationen, so kann man das Problem der mehrfach vorkommenden identischen Information elegant lösen: in unserem Beispiel kommt eine bestimmte Person nicht nur in einem, sondern in mehreren Titel-Datensätzen vor. Dieser Beispielfall wird im Modell durch die Annotation „1…*“ verallgemeinert: ein Element aus der Tabelle „Personen“ kann einem oder mehreren Elementen aus der Tabelle „Titel“ zugeordnet sein. Gleichzeitig können einem Titel mehrere Personen zugeordnet sein; dies ist durch die zweite Annotation „1…*“ modelliert. Man spricht in diesem Fall auch von einer n:m-Relation zwischen den Tabellen „Titel“ und „Personen“. Semantik und Mapping von Metadaten Gerade im Zusammenhang mit systemübergreifenden Metadaten muss neben der formalen Abstraktion und Modellierung auch die Bedeutung oder die Semantik der Metadaten berücksichtigt werden. So mag es sein, dass in einem Sendesystem lediglich ein Metadatum mit dem Feldnamen „Titel“ verwendet wird, während die Archivdatenbank zwischen unterschiedlichen Titeltypen (Sendetitel, Originaltitel usw.) differenziert. In solch einem Fall ist es unerlässlich zu definieren, wie die Informationen auch systemübergreifend miteinander in Beziehung stehen. Das bisherige Beispiel soll daher um ein fiktives externes System erweitert werden, das mit dem Archiv Metadaten austauscht. Für beide Systeme sind die verfügbaren Metadaten pro Datensatz dargestellt; das dahinter liegende Datenmodell im externen System wird der Einfachheit halber nicht berücksichtigt (Tab. 15/13). Tab. 15/13. Beispiel für Metadaten-Mapping. Synonyme (Mapping) Archivbezeichnung Titel Künstler Autor Media-Titel Label Stilrichtung Schlagwort Länge Sendedatum

Externes System Titel Untertitel Artist Komponist Album-Titel

Genre Schlagwort 1 Schlagwort 2 technische Länge Sendedauer

15.3 Digitale Tonarchive 

 1061

Auch hier fallen mehrere Dinge auf, die die grundlegende Problematik veranschaulichen: –– Nicht alle Informationen sind in beiden Systemen überall verfügbar. –– Gleiche Information wird nicht überall gleich bezeichnet. –– Zum Teil müssen Informationen zusammengefasst bzw. separiert werden, um eine Zuordnung zu ermöglichen. Neben der formalen Zuordnung einzelner Datenfelder und der mitunter komplexen Definition geeigneter Transformationsvorschriften ist auch die Frage nach den eigentlichen Inhalten relevant. Die unterschiedliche Schreibweise von Namen oder auch die unterschiedliche Nutzung von Auswahllisten bspw. für Schlagworte seien hier als zwei Beispiele für diese Problematik angeführt. Management von Metadaten Wie kann nun vor dem Hintergrund des Ziels eines einheitlichen übergreifenden Umgangs mit Metadaten ein geeignetes Metadatenmanagement technisch realisiert werden? Eine Möglichkeit besteht in der Realisierung einer unternehmensweit einheitlichen und übergreifend (d.  h. von allen Systemen) genutzten Datenbank für das Metadatenmanagement. Allerdings besitzen praktisch alle IT-basierten Systemlösungen, ganz gleich welche spezifischen Teilaufgaben sie übernehmen, individuelle Formen des Metadatenmanagements; das Metadatenmanagement ist dabei auf den jeweiligen Anwendungsfall hin optimiert. So stellt die Umsetzung des Metadatenmodells innerhalb des digitalen Tonarchivs im Vergleich zu anderen Implementierungen in verbundenen Systemen häufig eine sehr komplexe Variante dar, während Produktions- und Sendesysteme spezifische Metadaten verwenden, die im Archiv nur in Teilen benötigt werden. In der Praxis ist daher der Ansatz einer gemeinsamen Datenbank für alle Systeme nicht praktikabel. Außerdem werden häufig externe Datenbanken zur Metadatenverwaltung herangezogen (z. B. die Hörfunkdatenbank / HFDB), auf deren Modell kein Einfluss genommen werden kann. Hinzu kommt, dass sich der Umfang der im Gesamtprozess verwendeten Metadaten im Laufe der Zeit ändert; mit neuen Anwendungen kommen auch neue Metadaten hinzu. Ein Beispiel ist der Umgang mit Mehrkanal-(Surround)-Produktionen, die vor einigen Jahren praktisch noch keine Rolle spielten. Gleichwohl werden nun für diese Anwendungen spezielle Metadaten erforderlich. Insofern lässt sich als eine wesentliche Eigenschaft der technischen Implementierung eines Metadatenmanagements fordern, dass es sich im Idealfall robust gegenüber allen Änderungen verhält. Anpassungen und Ergänzungen müssen möglich sein, ohne dass dadurch das gesamte Systemkonzept in Frage gestellt wird. Eine mögliche Lösung liegt in Datenbankimplementierungen, die Datenmodellierung und Datenzugriff verallgemeinern; man sagt auch „abstrahieren“. Auch hier ist allerdings in der Praxis stets eine Abwägung zwischen Abstraktion einerseits und Praktikabilität andererseits zu treffen. Schnittstellenproblematik Eine besondere Ausprägung der Abstraktionsproblematik ergibt sich für die technische Umsetzung von Schnittstellen. Eine Möglichkeit ist die spezifische Definition und Realisie-

1062 

 15 Digitale Tonsignalspeicherung

rung jeder einzelnen Schnittstelle entsprechend den aktuell bestehenden Anforderungen; konkret hinsichtlich der auszutauschenden Datenfelder und ihrer wechselseitigen Zuordnung. Der Nachteil wird offensichtlich, wenn sich Änderungen ergeben: in diesem Fall nämlich müssen alle Schnittstellen angepasst werden, was sehr aufwändig sein kann. In der heutigen Softwaretechnologie haben sich deshalb Verfahren herausgebildet, die in sich die Möglichkeit der Abstraktion bieten. Ein Beispiel ist die Verwendung von XML („eXtended Markup Language“) als Datenbeschreibungssprache. XML bietet die Möglichkeit, dass ein ausgetauschter Datensatz sich quasi selbst beschreibt. Er ist sowohl für Menschen als auch für Computer gut lesbar. Darüber hinaus bietet diese Technologie ein wiederum abstraktes Verfahren, die Struktur der Daten durch sog. Stylesheet-Transformationen umzuwandeln. Auf Grund dieser Eigenschaften ist XML für die Realisierung von Metadatenschnittstellen eine zweckmäßige Softwaretechnologie und in vielen Archivsystemen im Einsatz. Standardisierungsansätze Mit der Bedeutung von Metadaten und der gleichzeitig gegebenen Komplexität geht die Bemühung einher, den Umgang mit Metadaten zu standardisieren. Diese Standardisierungsbemühungen sind dabei keineswegs zwingend mit digitalen Systemen verknüpft; auch die Festlegung eines Bandbegleitformulars stellt eine Standardisierung von Metadaten dar. Allerdings hat mit dem Einzug der digitalen Technik, oder besser mit zunehmendem Einsatz von Software, die Notwendigkeit solcher Standards zugenommen. Erste Beispiele sind die Regelwerke der ARD, um Toninhalte mit Metadaten zu beschreiben. Daraus gingen verschiedene zentrale Archivdatenbanken hervor, die von fast allen ARD-Anstalten genutzt worden sind: MUSAD (Musik-Archivierung und Dokumentation), WOSAD (Worttonträgerund Schriftgut-Archivierungs- und Dokumentationssystem), ZSK (Zentrale Schallplatten-Katalogisierung). Mittlerweile sind die aufgezählten Archivdatenbanken mit ihren individuellen Datenmodellen durch die neue Hörfunkdatenbank (HFDB) abgelöst worden. Die drei Datenmodelle sind in der HFDB konsolidiert und erweitert worden. In aufwändigen Migrationsläufen sind die Altdatensätze in die HFDB überführt worden. Dabei mussten nicht nur die rundfunkspezifischen Dokumentationen automatisiert analysiert und korrigiert werden, sondern auch Feldinhalte mit der Normdatenbank der ARD abgeglichen werden, um ein einheitliches Vokabular (z. B. für die Schlagwort- und Personeneinträge) zu erhalten. Das Metadatenmodell ist hochgradig relational und hierarchisch. Aufgrund seiner Größe soll in diesem Abschnitt nur ein grober Überblick über das Metadatenmodell gegeben werden (Abb. 15/44). Das HFDB-Datenmodell unterteilt sich in Form und Inhalt und basiert auf Objekten, die vereinfacht als Datenbanktabellen angenommen werden können. Die Form beschreibt den Träger und enthält die formalen und technischen Metadaten. Sie wird durch das Audiobestandsobjekt, das Audiomedienobjekt und die Konfektionierung beschrieben. Als Audiobestandsobjekt wird das individuelle Exemplar eines Tonträgers bzw. der archivarischen Verwaltungseinheit bezeichnet, z. B. die im Regal befindliche CD einer Veröffentlichung. Es kann zu einem Audiomedienobjekt, das die Produktbeschreibung und Metadaten eines Tonträgers enthält, beliebig viele Audiobestandsobjekte geben, im Beispiel alle CDs dieser Veröffentlichung. Die Konfektionierung repräsentiert die örtliche und zeitliche Bestimmung des Vorkommens eines Audioereignisses auf einem Tonträger. Bei einer Audio-CD entspricht

15.3 Digitale Tonarchive 

 1063

die Konfektionierung einem Track. Sie enthält außerdem die Objekte Codierungsprofil, Pegel und Entstehungskonfektionierung.

Abb. 15/44. Grobes Metadatenmodell der neuen Hörfunkdatenbank [HFDB-FSS-IO].

Die Konfektionierung verknüpft Form und Inhalt. Der Inhaltsteil des HFDB-Datenmodells dient zur Strukturierung der beschreibenden Metadaten. Die Strukturierung erfolgt auch hierarchisch. Bspw. bestehen Opern aus Akten und Arien, Magazinsendungen aus mehreren Beiträgen und eine LP aus mehreren Titeln. Deshalb bietet die HFDB die Möglichkeit, Metadaten in bis zu drei Hierarchiestufen zu erfassen: –– Kompilation: Zusammenstellung von mehreren Werken (Korpora) bzw. Teilen (Segmenten), z. B. Konzertereignis mit mehreren Werken –– Korpus: Werk mit seinen Teilen (Segmenten), z. B. eine Sinfonie –– Segment: Teil eines Werkes (Korpus) bzw. einer Zusammenstellung (Kompilation), z. B. Satz oder Arie Jede Hierarchiestufe ist eine Audiokreation und beschreibt das Audioereignis in Form einer realisierten (hörbaren) Kreation mit allen Personen- und Produktionsdaten. Die Kreation ist Beschreibung der Idee eines Audioereignisses bzw. das künstlerische Werk. Neben dem Modell der HFDB in der ARD ergibt sich aus der Vielfalt der Anforderungen im Rundfunkbereich – ebenso wie aus ihrer Dynamik – geradezu automatisch auch eine Vielfalt der Standardisierungsbemühungen. Aktuelle Beispiele sind SMEF der BBC, Dublin Core

1064 

 15 Digitale Tonsignalspeicherung

oder auch BMF als ein Metadatenmodell des ehem. IRT. Zweifellos ist jeder dieser Ansätze durchaus sinnvoll, allerdings muss im praktischen Einzelfall stets die Anwendbarkeit kritisch hinterfragt werden. Die Forderung eines einzig existierenden, universellen Metadatenstandards ist aus den bereits erläuterten Gründen nur schwer in die Praxis umzusetzen. 15.3.3.4 Automatische Erzeugung von Metadaten Für die die automatische Erzeugung von Metadaten aus Audiodateien können für Beiträge mit hohem Wortanteil Spracherkennungsprogramme eingesetzt werden. Die sog. Audiomining-Software trennt zunächst durch eine Strukturanalyse Musik- von Sprachabschnitten und analysiert anschließend die Sprachabschnitte mit Hilfe eines Spracherkennungsmoduls (s. Abb. 15/45). Die erkannten Worte werden mit ihren jeweiligen Zeitstempeln in Textdateien oder Volltextdatenbank abgespeichert. Neben den erkannten Silben und Worten in Form von Audiotranskriptionen können auch Schlagworte anhand von Worthäufigkeit und Bewertung mit Schlagwortkatalogen automatisch angelegt werden. Außerdem lassen sich Sprecherwechsel und -wiedererkennung sehr gut analysieren und als weitere Daten speichern. Anhand von erfassten Sprecherprofilen können den Sprechern Namen zugeordnet werden.

Abb. 15/45. Ablauf von Audiomining (Initiale Segmentierungsstufen).

Zur Messung der Qualität von Spracherkennungssystem wird die Erkennungsrate verwendet. Als Erkennungsrate wird das Verhältnis aus richtig erkannten Worten und tatsächlich gesprochenen Worten bezeichnet. Die Erkennungsrate hängt stark von der Audio- und Sprecherqualität und der Zusammenstellung des Audiobeitrages ab. Sprache mit Hintergrundgeräuschen oder Überlagerungen wie z.  B. Umweltgeräusche, Wind, Musikbett oder mehrere Stimmen ergeben eher schlechte Erkennungsraten, während Studioaufnahmen wie Nachrichten oder Interviews ohne Hintergrundgeräusche sehr gute Erkennungsraten über 90% erzielen. Durch den Einsatz von KI-Technologie wird die Spracherkennung, Sprechererkennung und die automatische Erstellung von Schlagwortlisten permanent verbessert. Die Audiomining-Software wird als serviceorientierter Dienst innerhalb der ARD angeboten und kann in bestehende Archivsysteme als weiterer Verarbeitungsschritt eingebunden werden, um eine automatische (Vor-)erfassung, Transkription und Verschlagwortung durchzuführen.

Standards 

 1065

Für einige Beitragstypen kann die Audiomining-Software den Dokumentar bei seiner täglichen Erfassungsarbeit unterstützen, aber nicht ersetzen, da die inhaltliche Beitragserschließung der relevanten Teile und deren thematische Einordnung im Moment noch nur durch jahrelange Erfassungspraxis durch Menschen zu leisten ist. Die automatische Transkription von Wortanteilen im Zusammenhang mit einem Transkriptions-Player (Abb. 15/46) bietet für redaktionelle Nutzer verschiedene Vorteile wie eine Volltextsuche im Transkript, synchrones Anzeigen und Positionieren im Audio und Transkript, Ausschneiden von gewünschten Audiopassagen anhand von Textmarkierungen, Auswählen eines bestimmten Sprechers und Visualisieren der Erkennungsgenauigkeit durch Wortformatierung.

Abb. 15/46. Transkriptions-Player

Standards [EBU R128] [ECMA-120] [ECMA-130] [ECMA-259] [ECMA-267] [ECMA-322] [ECMA-375] [HFBL-13IRT] [IEC 60908]

EBU – Recommendation R 128, Loudness normalisation and permitted maximum level of audio signals, 2nd Edition, 2011, EBU Standard ECMA-120, Data interchange on 12,7 mm 18-track magnetic tape cartridges, 3rd Edition, 1993, ECMA Standard ECMA-130, Data interchange on read-only 120 mm optical data disks (CD-ROM), 2nd Edition, 1996, ECMA Standard ECMA-259, Data Interchange on 12,7 mm 208-Track Magnetic Tape Cartridges - DLT 5 Format, 1st Edition, 1997, ECMA Standard ECMA-267, 120 mm DVD - Read-Only Disk, 3. Edition, 2001, ECMA Standard ECMA-322, Data Interchange on 130 mm Magneto-Optical Disk Cartridges Capacity: 9,1 GBytes per Cartridge, 1st Edition, 2001, ECMA Standard ECMA-375, Case for 120 mm HVD-ROM disk,1st Edition, 2006, ECMA HFBL-Empfehlung 13IRT, „Austausch digitaler Tonprogramme auf DAT-Kassetten”, 1993, IRT DIN EN 60908 Tonaufzeichnung - Digital-Audio-System Compact-Disc (IEC 60908:1999), 1999, Beuth

1066 

 15 Digitale Tonsignalspeicherung

[IEC 61119] [IEC 61120] [IEC 61595] [ISO 9660] [LTFS] [UDF]

DIN EN 61119 Digitales Tonband-Kassetten-System (DAT), 1. Aufl., 1994, Beuth DIN EN 61120 Digitales Tonbandgerät; Spulensystem mit Magnetband 6,3 mm für Studioanwendungen, 1. Aufl., 1994, Beuth DIN EN 61595 Digitales Mehrkanal-Tonbandgerät (DATR), Spulensystem für Studioanwendungen, 1. Aufl., 1998, Beuth DIN ISO 9660 Informationsverarbeitung; Datenträger- und Dateistruktur von CD-ROM für den Informationsaustausch; (ISO 9660:1988) EN 29660, 1990, Beuth Linear Tape File System (LTFS) Format Specification , Version 2.0, March 11, 2011, Quelle: Website „The LTO Program“,[http: //www.lto.org/] ISO/IEC 13346 Informationstechnik - Inhalt und Dateistruktur von einfach und mehrfach beschreibbaren Datenträgern unter Verwendung von nicht sequentiellen Aufzeichnungsverfahren für den Informationsaustausch [ECMA-167], 1999, Beuth

Nicht öffentliche Dokumente [Red Book]: [Orange Book I]: [Orange Book II]: [Scarlet Book]: [HFDB-FSS-IO]:

„Red Book”, Specification of the CD-DA, 1982, Philips „Orange Book”, Part I, Specification of the CD-МО (MiniDisk) „Orange Book”, Part II, Specification of the CD-WO (CD-R), 1990, Philips „Scarlet Book”, Specification of the Super Audio CD (SACD), 1999, Philips Spezifikation der Fremdsystemschnittstelle (FSS-IO) der neuen Hörfunkdatenbank

Literatur Beckers, T.: „Audiomining - Strategische Bedeutung von Technologieentwicklungen für Audio-Videoarchive“, WDR Köln / DW Bonn, 2012 Biaesch-Wiebke, C.: CD-Player und R-DAT-Recorder, 1. Aufl., 1988, Vogel Dirksen, F., Dittel, V., Marchlewitz, J.: „CD-Write-Once im Rundfunkbetrieb”, in: Tonmeistertagung 17, 1992, Saur, S. 558ff. Dittel, V., Kreisköther, K.-D.: „Vom Bandkarton zum Audiofile - Das Schallarchiv im Mittelpunkt moderner Funkhäuser”, in: Tonmeistertagung 18, 1994, Saur, S. 827ff. Furrer, F. J.: Fehlerkorrigierende Block-Codierung für die Datenübertragung, 1981, Birkhäuser Habermann, W.: Kanalkodierung und Kanalmodulation für die magnetische Aufzeichnung digitalisierter Videosignale, Technischer Bericht B39/82, 1982, IRT Hack, J. u. a.: Magnetische Informationsspeicher in der Daten-, Audio- und Videotechnik, 1. Aufl., 1990, Expert Herla, S., Houpert, J., Lott, F.: „From Single-Carrier Sound Archive to BWF Online Archive - A New Optimized Workstation Concept”, in: Journal of the Audio Eng. Society, Vol. 49, No. 7/8, 2001 Herla, S., Lott, F.: „Phönix aus dem Schallarchiv - Das Broadcast-Wave-File”, in: Rundfunktechnische Mitteilungen, Jahrgang 43, Heft 2, 1999 Herla, S., Mücke H.: „CD-R(ecordable) - Sprengsatz in unseren Schallarchiven?”, in: Tonmeistertagung 19, 1996, Saur, S. 759ff. Herla, S.: „Is R-DAT a Recording Format for Professional Use? - Measurements and Considerations”, in: AES-Convention February 1989, Preprint Number: 2769 Heubner, H.: „Kurzeinführung Objektmodell der neuen Hörfunkdatenbank“, Deutschlandradio Berlin, 2010 Johne, R.: Sound-Restaurierung: Praktische Tipps für die Klangverbesserung und Restauration schlechter Aufnahmen, 2020, Verlag Books on Demand Taylor, J.: DVD Demystified, 2nd Edition, 2001, McGraw-Hill Thomsen, D.: Digitale Audiotechnik, 1983, Franzis Watkinson, J.: The Art of Digital Audio, 1st Edition, 1988, Focal Press Zander, H.: Harddisk-Recording, 1. Aufl., 1993, Vogel

16 Digitale Betriebstechnik Heinz Peter Reykers Markus a Campo (16.4), Frank Lott (16.1), Maxim Graubner (16.5.6; 16.5.7), Andreas Hildebrand (16.3; 16.3.6; 16.3.7), Helmut Otto (16.3.4), Paul Vogt (16.2), Martin Wöhr (16.2.14) 16.1 Prozessstrukturen Durch die rasante Entwicklung der Digitalisierung nahm die Komplexität von Rundfunksystemen im Laufe der Zeit stark zu. Insbesondere die Vernetzung der Systeme und die medienübergreifende Zusammenarbeit zwischen Hörfunk, Fernsehen und Multimedia stiegen deutlich und wurden vielschichtiger. Analoge Produktions-, Bearbeitungs- und Sendestudios gehören heute der Vergangenheit an. Damit haben sich auch Arbeitsabläufe in den Rundfunkanstalten verändert. Ein moderner Hörfunkbetrieb muss Programmanforderungen flexibel umsetzen können und sog. Leistungspakete für Produktion und Sendeabwicklung anbieten. Technische, kaufmännische und strukturelle Anforderungen erfordern eine hohe Verfügbarkeit der Systeme, eine durchgängige Kostentransparenz sowie eine auf das Ziel gerichtete Ressourcenoptimierung. Es hat sich heute eine gemeinsame Sprache herausgebildet, die neben der originären Audiound Studiotechnik auch die damit verbundenen Abläufe, die sog. Workflows, standardisiert beschreiben kann. Um Ansatzpunkte für Optimierungen in den jeweiligen Workflows erkennen zu können und um parallellaufende Prozesse im Überblick zu behalten, ist es notwendig, sich mit den Strukturen der Prozesse und deren Vernetzung untereinander zu beschäftigen.

16.1.1 Prozessmodell Anhand eines Prozessmodells lassen sich notwendige Methoden und Arbeitsweisen im Hörfunk ableiten (s. Abb. 16/1.).

Abb. 16/1. Prozessmodell. Trotz großer Sorgfalt bei der Erstellung unserer Bücher lassen sich Fehler leider nicht immer vermeiden. Wir entschuldigen uns für die falsche Abbildung 16/42 auf Seite 1133. Die Abbildung wurde inzwischen ausgetauscht. https://doi.org/10.1515/9783110759921-016

1068 

 16 Digitale Betriebstechnik

Dieses Prozessmodell besteht im Wesentlichen aus den fünf Bereichen Programmanforderungen (1), Dienstleistungen (2), Kernprozesse (3), Serviceprozesse (4) und Führungsprozesse (5). Aus dem Gefüge der Prozesse ergeben sich die für die Umsetzung geeigneten Organisations- und Funktionsstrukturen. Ausgehend von der Struktur dieses Prozessmodells nach Abb. 16/1, lässt sich für einen Medienbetrieb ein weitgehend standardisiertes, sog. Prozessmapping (Prozessmap) des gesamten Unternehmens definieren, also eine Darstellung der einzelnen Prozesse innerhalb eines großen Ganzen (s. Abb. 16/2.). Daraus leiten sich die konkreten Prozessabläufe bis in kleinste Details ab.

Abb. 16/2. Prozessmap Hörfunkbetrieb.

Definition Eine Änderung der Programm-Anforderungen durch den Auftraggeber zieht naturgemäß eine Änderung / Anpassung beim Dienstleistungsangebot des Leistungserbringers nach sich. Umgekehrt können aber auch veränderte Dienstleistungsmöglichkeiten zu einer Veränderung im Programm führen. Es werden zunächst die gewünschten Anforderungen beschrieben und definiert, anschließend wird geklärt, welche Ausgangsbedingungen herrschen, um die Prozesse weiterentwickeln zu können. Mit der Definition der Leistungen wird festgelegt, welche Ziele verfolgt werden, d. h., welches Ergebnis erwartet wird. Dann werden die Kernprozesse definiert, die erforderlich sind, um die Leistungen zu erbringen. Die Kernprozesse beinhalten die grundlegenden wertschöpfenden Abläufe. Dabei werden zusätzlich Führungs- und Serviceprozesse festgelegt. Bei den Führungsprozessen handelt es sich um Aktivitäten, die den Kernprozess lenken; bei

16.1 Prozessstrukturen 

 1069

den Serviceprozessen um solche, die den Kernprozessen Ressourcen zur Verfügung stellen, um diese durchzuführen. Diese Überlegungen sind Grundvoraussetzung bei der Erstellung der Prozessmap.

16.1.2 Dienstleistungs-Beziehungen Die grundsätzliche Ausrichtung eines Dienstleistungsbereichs, wie ihn bspw. eine technische Abteilung einer Rundfunkanstalt darstellt, lässt sich mit Hilfe eines DienstleistungsDreiecks ableiten. Die Definition der Dienstleistungsbeziehung ist wichtig, um festzustellen, in welchem Rahmen Dienstleistungen erbracht werden sollen und können. In Abb. 16/3. wird die Dienstleistungsbeziehung im Spannungsfeld zwischen Produktstandardisierung, finanziellem Aufwand und Erfüllen von Kundenanforderungen (Programmbereiche) dargestellt. Dabei wird deutlich, dass hochwertige und exklusive Produkte nur zu Lasten von Standardisierung und Preis produziert werden können, oder aber bei hoher Produktstandardisierung und niedrigem Preis nicht alle Kundenwünsche erfüllt werden können. Die optimale Erfüllung aller Kriterien bleibt somit eine unerreichbare Idealvorstellung. Die Dienstleistungsbeziehung bewegt sich also zwischen den Extremen „schnell, billig, wenig Struktur, günstig“ und „exklusiv, hochwertig, teuer“.

Abb. 16/3. Dienstleistungs-Dreieck.

16.1.3 Organisationsstrukturen Bei der Umsetzung von Prozessen lassen sich grundsätzlich zwei Organisationsformen unterscheiden, die Funktions- und die Prozessstruktur (s. Abb. 16/4.). Grundlage der Funktionsstruktur ist das Fachspezifikum. Hierbei lassen sich z. B. die Säulen Hörfunk, Fernsehen und Multimedia definieren. Die Struktur ist hier medienspezifisch ausgerichtet und die Prozesse und Abläufe sind innerhalb der senkrechten Säulen definiert. Mit dem Einzug der Trimedialität und bei prozessualer Betrachtung steht nun das bereichsübergreifende Denken im Vordergrund. Die Prozesse und Abläufe werden an der Beschaffenheit der Inhalte definiert. Anhand dieser Kriterien wird dann auch die Organisa-

1070 

 16 Digitale Betriebstechnik

tionsstruktur angepasst und es kommt zu einem Perspektivenwechsel. Die Organisationsstrukturen wechseln von einer ehemals medienspezifischen Ausrichtung in eine produkt­ orientierte und somit trimediale Ausrichtung, so wie in Abb. 16/5. dargestellt.

Abb. 16/4. Funktions-/Prozessstruktur.

Abb. 16/5. Perspektivenwechsel.

Unter Produktorientierung versteht man die ganzheitliche und umfassende Betrachtung redaktioneller Bedürfnisse. Sie ermöglicht, je nach Produkt, d. h., je nach Welle, Hörfunk- / Fernsehprogramm, Online-Schiene etc., unterschiedliche Schwerpunkte zu setzen und die einzelnen Prozesse somit kundenbezogen, also umfassend und bis ins Detail umzusetzen. Die produktorientierte Ausrichtung und die Bündelung der Fachkompetenz haben sich als funktionierendes Konstrukt bewährt (s. Abb. 16/6.). Berücksichtigt wird dabei auch die Abbildung bspw. der Prozesse in einem Hörfunkbetrieb. Aus der konsequenten Weiterentwicklung der Prozessstruktur und des zunehmend trimedialen Ausbaus, hat sich in den Betriebsbereichen zwangsläufig ein Perspektivwechsel ergeben.

16.1 Prozessstrukturen 

 1071

Abb. 16/6. Organisationsstruktur.

Durch eine Bündelung der Fachkompetenz ist es möglich, die zu erbringenden Dienstleistungen Produktion und Sendeabwicklung, Service und Support, die Übertragung für die verschiedensten Distributionswege sowie alle notwendigen Zusatzdienste kompakt und reibungslos zu steuern.

16.1.4 Prozessanalyse Bei einer Prozessanalyse werden bestehende Prozesse, d. h., der IST-Stand, analysiert und dokumentiert. Kernpunkte hierbei sind: Was wird von wem, in welcher zeitlichen Abfolge und in welchem Zuständigkeitsbereich erledigt (s. Abb. 16/7.).

Abb. 16/7. IST-Prozess-Analyse.

Für eine bessere Strukturierung bei der Aufnahme von Prozessen werden die Arbeitsschritte für die Organisationsbereiche in Kategorien eingeteilt: –– Ablauforganisation, –– Arbeitsorganisation, –– Aufbauorganisation, –– Führungsorganisation.

1072 

 16 Digitale Betriebstechnik

16.1.4.1 Prozessoptimierung Es gibt zwei Wege zur Prozessoptimierung. Entweder anhand der IST-Analyse Schwachstellen erkennen oder einen neuen SOLL-Prozess entwickeln. Beides muss mit einer entsprechenden Dokumentation versehen sein. Bei der Prozessoptimierung stehen die beiden Phasen Analysieren und Korrigieren im Focus. In der Analysephase müssen Medienbrüche erkannt, unklare Zuständigkeiten herausgefiltert, Doppelarbeiten identifiziert und unklare Kriterien und Anforderungen aufgezeigt werden. In der Korrektur-Phase geht es darum, Prozesse umzugestalten bzw. zu verbessern. Dabei sollten Standards eingeführt werden, Prozesse vereinfacht, Arbeitsschritte zusammenzufasst oder parallelisiert werden. Doppelte Arbeitsschritte werden eliminiert und möglichst verschlankt, die Anzahl der Schnittstellen kann durch das Ausweiten von Entscheidungskompetenzen reduziert werden (s. Abb. 16/8.).

Abb. 16/8. Optimierungsmöglichkeiten.

Bei der Erstellung eines neuen SOLL-Prozesses werden Schwachstellen, Brüche und Potenziale analysiert und unter Berücksichtigung von Workflowanalysen neu gestaltet. Hierbei fließen alle durch Optimierungsmaßnahmen aufgezeigten Ansatzpunkte mit ein. Des Weiteren werden die Anforderungen aus den Strategievorgaben des Unternehmens berücksichtigt, die zuvor erarbeitet werden müssen. 16.1.4.2 Kontinuierlicher Verbesserungsprozess Prozesse müssen ständig hinterfragt, optimiert und weiterentwickelt werden. Dazu kann man die Kriterien der Methode des sog. Kontinuierlichen Verbesserungsprozesses (KVP) anwenden. Dabei werden die Phasen des plan-do-check-act-Zyklus (PDCA-Zyklus, Modell zur Umsetzung von Veränderungen) in regelmäßigen kleinen Schritten immer wieder durchlaufen. Ziel ist es, die Qualität von Prozessen unter Berücksichtigung gegebener Randbedingungen und unter Einbeziehung der Mitarbeiter zu verbessern (s. Abb. 16/9.).

16.1 Prozessstrukturen 

 1073

Abb. 16/9. PDCA-Zyklus.

Der KVP-Mechanismus wird in dem Moment angestoßen, in dem Verbesserungspotenzial wahrgenommen wird bzw. Störungen auftreten. Je öfter der Zyklus durchlaufen wird, desto höher ist der Optimierungsgrad.

16.1.5 Fazit und Ausblick Mit der Definition der Prozesse und der Formulierung von Zielen lässt sich ein Medienbetrieb strukturieren. Ein Mittel, um die Arbeitsabläufe und Prozesse allen Mitarbeiterinnen und Mitarbeitern leicht zugänglich zu machen, ist die Erstellung eines Online-Betriebshandbuchs, z. B. auf SharePoint-Basis. Das Online-Betriebshandbuch ist die zentrale Sammelstelle aller Informationen, die Mitarbeiterinnen und Mitarbeitern für ihre tägliche Arbeit benötigen. Es dient als Kommunikationsinstrument für zentrale Bereiche und als Nachschlagewerk für tätigkeitsspezifische und technische Informationen. Die definierten Prozesse können und sollen ebenso wie die formulierten Ziele veröffentlicht werden. Intuitive Benutzbarkeit und Navigation sind unerlässlich um Informationen schnell zugänglich zu machen. Eine Suchfunktion ermöglicht den direkten Weg zur gewünschten Information. Auf den Startseiten befinden sich außerdem grundlegende Dinge, wie aktuelle Nachrichten und bspw. ein Eventkalender. Manuals, Ziele, Vorhaben, Fehlerbücher, Tipps und Tricks, Organigramme, Dienstpläne und Formulare müssen leicht zu finden sein. Fach- und bereichsspezifische Informationen können auf den jeweiligen Bereichsseiten dargestellt werden, z. B. Checklisten, Protokolle, Beschreibungen zu Workflows und Wiki (Enzyklopädien). Sind aus dem Prozessmodell Kern-, Service- und Führungsprozesse mit den jeweiligen Aufgabenfeldern entstanden, müssen die dafür notwendigen Rollen definiert werden. Das Spektrum reicht vom Berater mit hoher Prozesskompetenz und Grundwissen, bis hin zum Experten, mit fundiertem Wissen und hoher Inhaltskompetenz im jeweiligen Bereich. Neben der klassischen Audioproduktion spielt die Podcast- sowie Web-Video-Erstellung, mit Bildmischung und Kameraführung, im modernen Medienbetrieb eine große Rolle.

1074 

 16 Digitale Betriebstechnik

Immer mehr Distributionswege mit verschiedenen Datendiensten erfordern eine Vielzahl unterschiedlich zu erstellenden Produkte. Neben UKW, DVB-S/C und DVB-T spielen zunehmend Digitalradio und Zusatzdienste, Podcast und Livestreaming eine große Rolle. Ebenso werden die begleitenden Bilddaten wie Slideshows, Teaserbild, Radio-Text und Inhaltsbeschreibungen per Electronic Programm Guides (EPG) ausgeweitet. Ergänzende Datendienste sind z. B. RDS, Dynamic Label, Dynamic Label Plus, Mailboxradio, Broadcast-Websites, Fahrgastinfo in Bussen und TPEG. Im Zuge der trimedialen Ausrichtung, der Ausweitung der Systemvielfalt und der damit verbundenen Zunahme der Aufgabenkomplexität, haben sich die Tätigkeitsfelder in den Medien­­betrieben verändert. Das hat auch zur Folge, dass Berufsbilder angepasst und verändert werden mussten. Es ergibt sich die Notwendigkeit die Aufgaben den Prozessen zuzuordnen. Die klassischen Arbeitsfelder der Programmzentrale, der Sendetechnik, der Sprecher und Moderatoren sowie die Tätigkeiten in den Redaktionen verändern und vermischen sich, neue Berufssparten und Berufsbilder entstanden.

16.2 Betriebliche Einrichtungen Unter den zentralen Einrichtungen eines Funkhauses sind all jene Geräte, Anlagen und Systeme zu verstehen, die in ihrem Zusammenspiel die technischen Betriebsabläufe des Hörfunks ermöglichen. Die Ende des 20. Jahrhunderts einsetzende Digitalisierung des Hörfunks hat in diesem Bereich tiefgreifende technische und organisatorische Veränderungsprozesse in Gang gesetzt. Waren in der früheren Analogtechnik ausschließlich Einzelgeräte, meist in standardisierter 6 dBu-Technik durch diskrete Leitungen zusammengeschaltet, sind heutige tontechnische Anlagen und Audiosysteme nach den Regeln moderner Daten- und Informationstechnik über komplexe Schnittstellen miteinander verknüpft. Immer häufiger wird dabei auf IP-basierten Signaltransport gesetzt. Grundsätzlich ermöglicht netzwerkbasierte Studiotechnik eine sehr viel größere Flexibilität als AES/EBU und MADI basierte Systeme. Signale können auch in großer Zahl und ohne großen Mehraufwand zwischen den verschiedenen Systemen ausgetauscht werden. Gleichzeitig können Bedieneinheiten variabel den verschiedenen Verarbeitungssystemen zugeordnet werden. Vor Ort muss nur die Wandlung der Analogsignale (Lautsprecher, Mikrofone u. a.) nach bzw. aus IP erfolgen. Alle weiteren Verarbeitungsschritte können in zentralen Systemen ohne festen Bezug zum Bearbeitungsraum erfolgen. Dadurch wird es möglich, Teile der technischen Einrichtung zu virtualisieren und je nach Anforderung den Produktionsräumen zuzuweisen. Auch können mehrere Regien und Aufnahmeräume zu einer gemeinsamen Produktion zusammengeschaltet werden. So kann für eine Produktion die genau passende Infrastruktur bereitgestellt werden. Gleichzeitig können nicht verwendete Ressourcen an anderer Stelle verwendet oder gewartet werden, auch ohne Betriebsunterbrechung. Selbst die Erweiterung von Tonstudios um Videofunktionalität ist so in kleinen Schritten möglich und die Produktionsräume können trimedial genutzt werden, für bspw. die Ausspielwege Fernsehen, Hörfunk und Online. Aktuell befinden sich die oben genannten Möglichkeiten inmitten eines großen technologischen Veränderungsprozess.

16.2 Betriebliche Einrichtungen 

 1075

Die Erläuterungen dieses Kapitels haben deshalb nur Modellcharakter und stellen eine Momentaufnahme derzeit realisierter Einrichtungen dar. Hinzu kommen auch noch stark variierende Workflows im Zusammenspiel der Systeme, abhängig vom Anforderungsprofil der jeweiligen Rundfunkanstalt. Üblicherweise wird jedes Hörfunkprogramm in einer eigenen Senderegie abgewickelt. Sie bildet den Mittelpunkt der Zusammenschaltung von Produktionsräumen, Sprecherstudios, Tonregieanlagen, Audiospeichern und Steuersystemen sowie zahlreicher interner und externer Leitungs- und Verbindungswege. Für die Vorproduktionen von Beiträgen oder ganzen Sendungen stehen je nach Aufgabenstellung unterschiedlich ausgestattete Produktionsstudios für Wort- und Musikaufnahmen zur Verfügung. Bei entsprechender Leitungsanbindung können sie zudem auch als Vorschalt- oder Ausweichstudios für den Sendebetrieb verwendet werden, z. B. für Livesendungen von Konzerten. Für Konferenzschaltungen oder Programmübernahmen sind in den Regien zusätzliche ankommende und abgehende Leitungen vorhanden. Die für die Sendung bestimmten Tonsignale gelangen über die Senderegie in die Betriebszentrale und werden von dort aus den verschiedenen Verbreitungswegen zugeführt. Sämtliche im täglichen Betriebsablauf benötigten Signalwege werden in der Betriebszentrale über ein zentrales Koppelfeld hergestellt. Außer der Verteilung der Sendewege gehören dazu alle Schaltungen zu Übertragungswagen und Regionalstudios, zu externen Veranstaltungsstätten und zu anderen Rundfunkanstalten, sowie zu hausinternen Verbrauchern. Die interne und externe Signalführung zwischen den verschiedenartigsten Quellen und Senken findet ausschließlich auf der digitalen Ebene statt. Die zuverlässige Verteilung des AudioSystemtaktes ist dabei eine wesentliche Voraussetzung für das störungsfreie Zusammenspiel einer derart großen Zahl digitaler Audiokomponenten. Das komplette für den Betrieb benötigte Tonmaterial lagert dabei auf einem zentralen Serversystem und steht über ein Netzwerk auf dem gesamten Campus für Bearbeitung, Produktion und Sendung zur Verfügung. An jedem entsprechend eingerichteten Arbeitsplatz, im einfachsten Fall ein mit Soundkarte bestückter PC, ist es möglich, Recherchen im Audioarchiv durchzuführen und das aufgefundene Material vorzuhören. Bei erweiterter PC-Ausstattung ist eine Audiobearbeitung von Beiträgen und O-Tönen vor allem auch in Redaktionsräumen möglich. Diese Verbindung von zentraler Datenspeicherung und dezentralem Zugriff ist das herausragende und wohl auch sichtbarste Merkmal der Digitalisierung im Hörfunk. Der Transport physischer Tonträger entfällt und ist nur noch in Ausnahmefällen erforderlich. Zur Koordination derart vernetzter Betriebsabläufe in einem Hörfunkgebäude, zusammen mit seinem Korrespondentennetz im In- und Ausland und anderen Außenstellen, werden vielfältige Kommunikationseinrichtungen benötigt. Sie sind den Anforderungen entsprechend konfiguriert und können in ihrer Wirkungsweise flexibel kombiniert werden (s. Kap. 16.2.11, Intercom). Schließlich benötigt eine Medienanstalt mit ihrem elektrischen Leistungsbedarf auch eine zuverlässige Infrastruktur zur Energieverteilung (s. Kap. 16.2.13). Der Absicherung gegen Versorgungsausfälle kommt durch entsprechende Sicherungsmaßnahmen eine besondere Bedeutung zu.

1076 

 16 Digitale Betriebstechnik

16.2.1 Betriebszentrale Die Digitalisierung des Hörfunks brachte umfangreiche neue Einrichtungen und Systeme mit sich, deren betriebliche Betreuung im Wesentlichen in der Betriebszentrale koordiniert wird. Zu den wichtigsten Funktionen gehören: –– Übernahme der Signale aus den Sendekomplexen und Weitergabe auf alle Distributionswege: terrestrisch mit UKW und DAB, via Satellit mit DVB-S, über TV-Kabel mit DVB-C sowie über das Internet als Webstream, –– Konfiguration und Umschaltung von Sende-, Kommunikations- und Signalisierungs­ leitungen bei Studiowechsel oder für regionale Sendungen, –– Verbindungsaufbau zu anderen Rundfunkanstalten, Außenstudios, Korrespondenten, Übertragungswagen und Veranstaltungsorten über Satellitenverbindungen, zu Telefonnetzen und Netzwerkverbindungen, –– technische Koordination von Außenübertragungen und Events, –– Überwachung aller Distributionswege, –– Betreuung der Einrichtungen für Programmübernahme und -austausch mittels Filetransfer über Hörfunknetze (s. Kap. 16.2.10.1), –– betriebliche Überwachung der Hörfunk-Server und seiner Peripherie, –– Einleitung von Havariemaßnahmen im Störungsfall (Studiowechsel, Ersatzprogramm), –– Störungsortung und Fehlerbeseitigung in Zusammenarbeit mit den entsprechenden Fachabteilungen. Abb. 16/10 zeigt die beiden wichtigen Systeme des digitalen Hörfunks in einem vereinfachten Blockdiagramm: Koppelfeld und Leitungsanbindung.

Abb. 16/10. Die Systeme im digitalen Funkhaus.

16.2 Betriebliche Einrichtungen 

 1077

Neben den Verteilern und Koppelfeldern in einer Betriebszentrale gibt es noch zahlreiche weitere Einrichtungen der Betriebstechnik. So kommen der Überwachung und Kontrolle der Sende- und Empfangssignale, aber auch dem Routing der betrieblichen Kommunikation zwischen internen und externen Teilnehmerstellen hohe Bedeutung zu. Ein zentrales Tastenfeld gestattet das Vor- und Abhören aller ankommenden und abgehenden Tonsignale. Darüber hinaus können bestimmte Einrichtungen und Geräte mit eigenen Vorhörlautsprechern für direkten Zugriff ausgestattet sein, wie z. B. Lautsprecher an Kontrollempfängern. Auch lassen sich an Abhörpunkten der Tonsignalwege unterschiedliche Aussteuerungsmesser mit Korrelationsgradanzeige oder auch ein Goniometer einschleifen bzw. auftasten. Gleichzeitig mit dem Schalten von Signalwegen lassen sich auch komplexe Kommunikationswege routen. Zur Überwachung der einwandfreien Programmausstrahlung sind in der Betriebszentrale Kontrollempfänger installiert. Sie bilden das letzte Glied der Signalkette Senderegie Koppelfeld - Sendeverteilung - Sender. In den Zeiten terrestrischer Ausstrahlung über UKW und MW waren die wenigen benötigten Kontrollempfänger häufig als Festfrequenzempfänger ausgeführt. In dem Maße, in dem die Anzahl der Hörfunkprogramme pro Rundfunkanstalt zunahm, wurden diese von hochwertigen Universalempfängern abgelöst. Die Einführung von DAB und Satellitentechnik ließ die Gestelle zur Programmkontrolle weiter anwachsen, denn letztlich wird für jedes ausgestrahlte Programm pro Verbreitungsweg ein eigener Kon­ trollempfänger benötigt. Um eine Störung auf einem der vielen Distributionswege möglichst schnell zu erfassen, werden die aktuelle Pegelwerte aller Distributionswege parallel grafisch dargestellt. So kann der Umfang einer Störung schnell erkannt und das betroffene Signal auf die Abhöranlage geschaltet werden. Darüber hinaus existieren noch eine Reihe frei einstellbarer Empfänger für interne Mitschnitte oder für Programmübernahmen per Ballempfang, d. h. von Hauptsender zu Regionalsender mit anderer Frequenz. Die Geräte bieten die Möglichkeit einer zentralen Bedienung vom PC aus. Bei der Überwachung spielen auch die Zusatzdaten eine große Rolle. So werden auf nahezu allen Wegen, für jedes Programm begleitend, Zusatzdaten ausgesendet (s. Kap. 17.5, Programmbegleitende Dienste). In der Betriebszentrale muss überdies die korrekte Funktion der Signalisierung von Gefahrenmeldungen über UKW und DAB permanent überwacht werden können. Die weiteren Zusatzdienste gewinnen ebenfalls an Relevanz, da die Zahl der Endgeräte, die begleitende Texte oder Bilder darstellen können, stetig wächst. 16.2.1.1 Bedienung und Steuerung Die Bedienung der verschiedenen Systeme in einer Betriebszentrale erfolgt heute fast ausschließlich an Standard-PCs mit text- oder grafikbasierten Bedienoberflächen. Gelegentlich sind sog. Hardware-Controller in Verwendung, deren Bedienelemente bestimmte Funktionen in der zu steuernden Software auslösen. Kann aus Platzgründen nicht für jeden Rechner ein eigener Monitor samt Tastatur und Maus auf der Arbeitsfläche angeordnet werden, so ermöglichen geeignete Umschalter zumindest einen wechselnden Zugriff. Bei entsprechender Größe und Auflösung des Bildschirms ist auch eine Unterteilung in mehrere Anzeigebereiche möglich. Auch ist die Verwendung von Videoprojektoren (Beamer) gelegentlich im Einsatz. Die gesamte Rechnerhardware ist wegen der störenden Lüfter- und Laufwerksgeräusche entweder in schallisolierten Gestellschränken oder in einem gesonderten, meist klimatisier-

1078 

 16 Digitale Betriebstechnik

ten Geräteraum untergebracht und über Glasfaserleitungen mit dem Bedienplatz verbunden. In jedem Fall erfordert die abgesetzte Installation der Rechnertechnik einen beträchtlichen Aufwand beim Anschluss von Monitoren und Eingabegeräten, vor allem auch bei der Planung ergonomischer Vorschriften am Arbeitsplatz (s. auch Kap. 11.1.5, Gefährdungsbeurteilung).

16.2.2 Sendestudio Jedes Hörfunkprogramm benötigt zur Sendeabwicklung ein eigenes Sendestudio. Es ist derjenige Ort, an dem alle Elemente zusammengefügt werden, die in ihrer zeitlichen Abfolge die eigentliche Sendung ausmachen. Die Gesamtheit der Räumlichkeiten für Technik und Redaktion einer Programmwelle wird auch Sendekomplex genannt. Bei allen Gemeinsamkeiten hinsichtlich Anordnung und Ausstattung gibt es Unterschiede in der Ausführung, die sich an den Anforderungen der jeweiligen Programme orientieren. Ein zentrales Kriterium ist dabei immer, ob die Sendungen im Regie- oder im Selbstfahrerbetrieb abgewickelt werden sollen. Unabhängig vom inhaltlichen und gestalterischen Aufbau der Programme lassen sich in technischer Hinsicht eine Reihe wiederkehrender Standardfälle angeben: –– Ansagen, Moderationen und Gesprächsrunden aus dem Sprecherraum, –– Nachrichten, Wetterbericht oder Verkehrsmeldungen aus meist räumlich abgesetzten Studios, –– Musik, Beiträge und Layoutelemente aus dem digitalen Sendespeicher, –– Übernahme von Programmen oder Beiträgen einer anderen Rundfunkanstalt, bspw. einer Konzertübertragung, –– Abwicklung von Konferenzschaltungen mit Übertragungswagen, Korrespondentenplätzen, Außenstudios oder anderen Rundfunkanstalten per Leitung, Telefonnetz, Satellit oder AoIP-Verbindung, –– Übernahme eines eigenen, internen Programms bei Zusammenschaltung mehrerer Wellen, –– Übernahme einer Sendung aus einem Vorschaltstudio, bspw. eine komplexe Sportsendung oder ein Live-Hörspiel. Neben der Einhaltung der geplanten Beitragsabfolge ist die Gestaltung der Übergänge zwischen den einzelnen Programmelementen eine wichtige Voraussetzung für eine ansprechende Sendung. Das tontechnisch oft sehr unterschiedlich beschaffene Audiomaterial muss deshalb durch eine angepasste Aussteuerung im Pegel technisch und klanglich angeglichen werden. Für den Hörer soll sich ein stimmiges und in der Lautheit ausgewogenes Klangbild ergeben. In einer Hörfunkwelle mit einem breit gefächerten, anspruchsvollen Programmangebot lösen sich Inhalte ganz unterschiedlicher Dynamik und Lautheit ab, die möglichst ohne große Änderung am Lautstärkeregler wahrgenommen werden sollen: –– E-Musik - vom Soloinstrument über die Kammermusik bis zur Opernaufnahme mit großen Dynamikunterschieden, –– Popmusik - verschiedenste Stilrichtungen, die meist „laut” klingen,

16.2 Betriebliche Einrichtungen 

 1079

–– Jazz, Folk Chanson - kleine, vorwiegend akustisch besetzte Ensembles mit ausgeglichener Dynamik, –– Hörspiel - von der ruhigen Besinnlichkeit bis zum lautstarken Tumult, –– Livegespräch am Studiomikrofon - vielfach mit im Sprechen unerfahrenen Personen, –– Telefoninterview mit unterschiedlicher technischer Audioqualität - vom ruhigen Zimmertelefon bis zum Mobiltelefon im fahrenden Auto, –– Mitschnitt von Hörfunk- oder Fernsehprogrammen, die bereits eine sendeseitige Tonsignalaufbereitung durchlaufen haben, –– Umfragen oder Gespräche in unterschiedlicher Umgebung - vom ruhigen Park bis zur lauten Hauptverkehrsstraße oder Werkhalle. Ein angemessener Lautstärkeverlauf oder eine geglückte Mischung über den ganzen Sendetag hinweg, lässt sich bei einer solchen Materialvielfalt mit keiner automatisierten Dynamikbearbeitung erzielen. Letzte Instanz für die ausgewogene Aussteuerung und ihre technische, wie ästhetische Beurteilung ist nach wie vor ein geschultes Sendepersonal mit erfahrenem Gehör. Dabei ist es hilfreich, dass in der Senderegie nicht nur die abgehende Sendesumme, sondern das tatsächliche Sendesignal nach der Tonsignalaufbereitung abgehört wird. Der zunehmende Einsatz von kleinsten Audioelementen zur akustischen Ausgestaltung der Programme (Jingles, Teaser usw.), insbesondere in den Formatprogrammen, hat in klanglicher, wie auch zeitlicher Hinsicht zu einer starken Verdichtung des Sendungsablaufes geführt, dessen stimmige und lautheitsgerechte Sendeabwicklung eine große Herausforderung für Technik und Personal darstellt.

16.2.3 Konventioneller Regiebetrieb Der konventionelle Regiebetrieb ist die klassische Sendeform im Hörfunk. Hier wird das Programm von Moderator und Techniker arbeitsteilig abgewickelt. Je nach Komplexität des Sendungsablaufes kann noch eine zusätzliche Person, in der Regel ein redaktioneller Mitarbeiter, mit Regieaufgaben neben der Sendung betraut sein, z. B. Konferenzgespräche vorbereiten oder kurzfristig eintreffende Beiträge abhören und ggf. schneiden und in den Sendeplan übernehmen. Ein Sendekomplex umfasst in diesem Fall einen Regieraum und, durch schallisolierende Fenster von diesem getrennt, mindestens einen, häufiger jedoch zwei Sprecherräume. In der Senderegie sind sämtliche für die Programmabwicklung benötigten technischen Einrichtungen installiert, wie z. B. das Sendepult, die verschiedenen Bildschirme, Tastaturen und Steuergeräte für Zugriffe auf den Sendeplan und andere Ressourcen des Sendebetriebs, die Geräte für digitale und ggf. analoge Tonträger sowie verschiedene Kommunikationseinrichtungen mit eigenen Bildschirmen und Bediengeräten. Im Sprecherraum sind mindestens ein Mikrofon für den Moderator und zusätzlich mehrere Gästemikrofone angeordnet. Sie alle sind in der Regel als Monomikrofon mit nieren­ förmiger Richtcharakteristik ausgeführt. Das führende Sprechermikrofon kann über eine Räuspertaste kurzzeitig stumm geschaltet werden. Eine Besonderheit stellt die Möglichkeit eines Stereomikrofons mit der Richtcharakteristik eines waagerecht liegenden Torus für

1080 

 16 Digitale Betriebstechnik

Monowiedergabe dar, welches für Gespräche am runden Tisch gut geeignet ist. Dabei werden zwei gekreuzte Achten unter 90° Phasenverschiebung zusammengeschaltet; senkrecht einfallender Schall wird weitgehend ausgeblendet, während waagerechter Schalleinfall aus allen Richtungen aufgenommen wird (s. Kap. 5.6.2.2, Gesprächsrunden). Zum Abhören des laufenden Programms dienen Lautsprecher und Kopfhörer, wobei die Lautsprecher im Sprecherraum bei Öffnen eines beliebigen Mikrofons über den zugehörigen Rotlichtkontakt im Sendepult zur Vermeidung von Rückkopplungen stumm geschaltet werden. Eine Anwahltastatur gestattet ferner das Abhören des Sendesignals und weiterer Quellen. So können bspw. bei Sportsendungen ankommende Leitungen vorgehört oder bei Konferenzschaltungen Vorgespräche geführt werden. Auf Bildschirmen werden der aktuelle Sendeablaufplan angezeigt, aber auch Moderationstexte und Servicemeldungen. Ein Kommandomikrofon mit Sprechtaste dient der Verständigung zwischen Regie- und Sprecherraum, wobei das ankommende Kommando außer auf den Kopfhörer entweder auf einen der Abhörlautsprecher oder auf einen eigenen, im Sprechertisch eingelassenen Kommandolautsprecher gelegt sein kann. Dieser wird dann bei geöffnetem Mikrofon ebenfalls stumm geschaltet.

16.2.4 Selbstfahrerbetrieb Beim Selbstfahrerbetrieb übernimmt der Moderator die Aufgaben von Sendetechniker und Ablaufredakteur in Personalunion. Dies bedeutet zuallererst den Wegfall der räumlichen Trennung zwischen Regie- und Sprecherraum. An die Ergonomie des Arbeitsplatzes sind besondere Anforderungen zu stellen. Alle Bedienelemente müssen in Reichweite des Moderators angeordnet sein, ohne dass dabei die Position zum Mikrofon verlassen wird. Entsprechendes gilt für die Aufstellung der Bildschirme. Selbstfahrerstudios verfügen in der Regel über mehrere Gästemikrofone. Die Dimensionierung des Sendepults sowie Art und Anzahl der Wiedergabegeräte richten sich nach dem vorgesehenen Einsatzspektrum. Es existieren von vorneherein für Selbstfahrerbetrieb ausgelegte Pulte, deren Bedienelemente auf das Wesentliche reduziert sind. Ihr Einsatz ist aber nur dann sinnvoll, wenn das jeweilige Programm dem Sendekomplex dauerhaft zugeordnet ist und innerhalb dieses Komplexes ein vergleichbar ausgestattetes Ausweichstudio für Notfälle vorhanden ist. Häufig wird innerhalb eines Funkhauses eine weitgehend einheitliche technische Ausrüstung angestrebt, zur Erleichterung der Bedienbarkeit für das Personal, zur Ersatzteilhaltung u. a. Ein voll ausgebautes Selbstfahrerstudio ist in seiner technischen Ausstattung mit einer regulären Senderegie vergleichbar. Dennoch ergeben sich aus der Besetzung mit nur einer Person Einschränkungen hinsichtlich der abzudeckenden Betriebsfälle und Sendungsformen. Gelegentlich wird bei komplexen Sendungen, wie z.  B. für die Sportberichterstattung, eine Art Mischbetrieb praktiziert, bei dem eine zweite Person zur technischen oder redaktionellen Unterstützung am Selbstfahrerplatz mit anwesend ist. Eine universelle Lösung für die vielseitigen Anforderungen an den Sendebetrieb stellt die Zusammenfassung einer Senderegie, eines Selbstfahrerstudios und zweier Sprecherräume zu einem Sendekomplex dar.

16.2 Betriebliche Einrichtungen 

 1081

16.2.4.1 Leitungsanbindung Die Signale sämtlicher im Betrieb benötigten Tonquellen müssen im Sendepult auf Pegelstellern verfügbar sein. Umgesetzt wird dies über eine auf der digitalen Signalebene arbeitende digitale Kreuzschiene, die logisch in das Sendepult integriert ist. An ihr sind eingangsseitig die Ausspielwege des Sendeservers, die digitalen Internleitungen aus der Betriebszentrale sowie weitere digitale Quellen über AES/EBU, MADI und IP angeschlossen. Auch können in der Senderegie die Eingänge mit frei wählbaren Leitungen belegt werden, wie z. B. die Ausgänge von Audiocodecs, hausinterne Tonsignale aus einem Vorschalt- oder Selbstfahrerstudio, Leitungen von Außenstudios oder Verteilleitungen des ARD-Sternpunktsystems. Analoge Geräte, wie Mikrofone, sind über entsprechende Wandlerkarten angebunden. Plattenspieler für Vinyl-Schallplatten kommen im digitalen Sendebetrieb nur bei Disc-JockeySendungen zum Einsatz. Die Abwicklung von Konferenzschaltungen erfolgt grundsätzlich unter Verwendung eigentonfreier Rückleitungen. Für dieses Verfahren hat sich auch der Ausdruck „n‑1 Technik“ eingebürgert. Bei einer Konferenz mit n Teilnehmern wird jeder Teilnehmer über die für ihn bestimmte Rückleitung nur mit den Anteilen der anderen Gesprächsteilnehmer versorgt, während das eigene Signal nicht zugespielt wird. War die n-1 Technik bspw. bei Verbindungen über ISDN-Audiocodecs auch im analogen Umfeld bereits notwendig, so ist sie bei ausschließlich digitaler Signalführung unverzichtbar. Die große Zahl aktiver Komponenten im Signalweg führt zu systembedingten Laufzeiten (Latenzen), die sich bei nicht eigentonfreier Rückführung beim entfernten Gesprächspartner im günstigsten Falle als unerwünschte Klangfärbung darstellen, bei längeren Laufzeiten jedoch ein flüssiges Sprechen unmöglich machen. Je nach Ausführung und Konfiguration des Regiepults wird diese Aufgabe unterschiedlich gelöst. Eine komfortable Variante besteht darin, zu jeder von der Betriebszentrale in die Regie geführten Leitung eine zugehörige Rückleitung vorzusehen. Die benötigten eigentonfreien Summensignale werden pultintern gebildet und können an Ausgängen der oben erwähnten Kreuzschiene abgegriffen werden. Zur Übernahme von Telefongesprächen gibt es mehrere Möglichkeiten, angefangen vom Telefon-Anschaltgerät (Telefonhybrid) bis hin zu kompletten Telefonanlagen, die umfangreiche Gestaltungsmöglichkeiten bieten, insbesondere bei Sendungen mit Hörerbeteiligung. Vom Sendeausgang des Regiepults wird das fertig gemischte Tonsignal schließlich über den Sendeschalter in die Betriebszentrale geführt und von dort über das Koppelfeld weiter­ verteilt; übliche Ausstattung sind zwei getrennte Stereo-Endsummen. Der Sendeschalter dient dann dazu, den zugehörigen Sendeweg in Betrieb zu nehmen, das Sendestudio frei­ zuschalten oder ein Havarieprogramm zu übernehmen. Darüber hinaus kann eine weitere Schaltposition bei Wechsel des Studios im laufenden Betrieb vorgesehen sein, bei der die Sendeleitung statt mit der eigenen Sendesumme mit dem Ausgang eines anderen Studios belegt wird. So kann ein und dasselbe Hörfunkprogramm auf einfache Weise abwechselnd in verschiedenen Studios abgewickelt werden. Zum Zeitpunkt der Umschaltung muss lediglich gewährleistet sein, dass das abzulösende und das neu hinzukommende Studio ein identisches Signal abgeben. Dies ist bspw. beim Lesen der Nachrichten aus einem Nachrichtenstudio der Fall, sofern in beiden Sendestudios der Pegelsteller in gleicher Stellung geöffnet ist.

1082 

 16 Digitale Betriebstechnik

Alternativ kann der Wechsel zwischen verschiedenen Sendestudios nicht ablösend, sondern summierend erfolgen. In diesem Fall werden die Signale der beiden Studios zusammen gemischt. An jedes Studio wird ein eigentonfreies Rückprogramm gesendet. Die Übernahme kann dann zum vereinbarten Zeitpunkt oder durch ein Stichwort in der Moderation erfolgen. 16.2.4.2 Weitere Einrichtungen Neben den tontechnischen Standardeinrichtungen in einer Senderegie sind noch weitere technische Einrichtungen zum reibungslosen Ablauf einer Sendung wichtig. Eine Kommando-Sprechstelle ermöglicht rasche und zielgerichtete Betriebsabsprachen sowohl innerhalb des Sendekomplexes, z. B. in die Sprecherräume, als auch mit der Betriebszentrale, den Nachrichtenstudios oder den diversen Außenstudios. Auch finden sich in den Senderegien und Sprecherstudios Tasten zum Auslösen der Verkehrsfunk-Durchsage-Signalisierung sowie zum Anzeigen der Rückmeldung des momentanen Zustandes (Durchsage ein / aus). Sie sind Bestandteil des RDS-Datenstroms, der über Datenleitungen zu den Senderstandorten gelangt (s. Kap. 17.5.3, Datenmanagement). Die Rückmeldung wird durch Auswertung des Schaltausgangs eines entsprechenden Kontrollempfängers in der Betriebszentrale gewonnen und gibt somit Aufschluss über den tatsächlichen Zustand „über Sender”. Als weitere Abhörquellen stehen mindestens die Sendesummen, die Sendewege vor und nach Sendeschalter sowie diverse Kontrollempfänger zur Verfügung. Das früher übliche Abhören des Empfängers während der Sendung ist heute wegen der unterschiedlichen Signallaufzeiten beim Rückempfang nur noch eingeschränkt möglich. Andererseits ist gerade bei einem starken Processing des Sendesignals die auditive Kontrolle des tatsächlichen Sende­ signals hinsichtlich Dynamik und der damit verbundenen Audioqualität wichtig. In diesem Fall besteht eine Abhörmöglichkeit hinter dem Ausgang des jeweiligen Audioprozessors. Nachrichten-, Wetter- und Verkehrsstudios, meist räumlich weit entfernt vom jeweiligen Sendekomplex, können, je nach Anforderung als einfacher Sprecherraum mit nur einem Mikrofon und einer kleinen Abhöreinrichtung ausgeführt sein, aber auch über die flexiblere Ausstattung eines Selbstfahrerplatzes verfügen.

16.2.5 Vorproduktion Zur Herstellung von Beiträgen und vorproduzierten Sendungen befinden sich in einem Funkhaus Technikräume, die sich je nach vorgesehener Produktionsarten im Umfang der tontechnischen Ausstattung unterscheiden. Eine gut ausgebaute Produktionsregie reicht dabei fast an ein Sendestudio heran. Abb. 16/11 zeigt die Einbettung eines universell einsetzbaren Studios in die Signalverteilung des Hörfunks. Weniger aufwändig eingerichtete Produktionsräume dienen vorwiegend dem Bearbeiten von Audiomaterial aus dem digitalen Archiv oder der Aufnahme von kurzen Reporter-OTönen. Auch die Variante eines Selbstfahrer-Produktionsstudios ist heute üblich.

16.2 Betriebliche Einrichtungen 

 1083

Abb. 16/11. Prinzipielle Leitungsanbindung eines Sende- oder Produktionsstudios.

16.2.6 Bearbeitungsräume Sind die Aufnahmen für eine Produktion oder einen Beitrag abgeschlossen, kann die weitere Bearbeitung auch in speziellen Tonbearbeitungsräumen erfolgen. Die Anforderungen bezüglich Raumakustik sind weniger streng als bei Räumen, in denen auch Aufnahmen angefertigt werden. Die Ausgestaltung ist daher auf eine ausreichend gute Abhörsituation ausgerichtet. Eine direkte Anbindung an die zentrale Audioinfrastruktur erfolgt bei klassisch gestalteten Bearbeitungsräumen nicht oder zumindest nicht in dem Umfang wie bei vollwertigen Produktionsstudios. Allerdings erfolgt die Trennung zwischen Büroarbeitsplatz und Produktionsarbeitsplatz zur Nachbearbeitung bis hin zum kleinen Produktionsstudio in modernen Produktionsumgebungen, häufig nicht mehr so strikt. Durch flexible Zuordnung von zentralen Ressourcen können Arbeitsplätze flexibel für die verschiedenen Anforderungen angepasst werden. So können Audioinfrastruktur wie Mischpulte und Rechnertechnik zentral installiert und je nach Bedarf einem Arbeitsplatz oder Raum zugeordnet werden. Auch mit einem fest zugeordneten PC, einer höherwertigen Soundkarte, einem Headset und moderner Softwareausstattung, können einfache Produktionsformate wie Telefoninterviews oder die Aufnahme von Moderationen, auch an Büroarbeitsplätzen oder in einfachen Bearbeitungsräumen erfolgen. Gerade bei nachrichtenbasierten Programmen ist diese Flexibilität sehr willkommen, und entsprechende Abstriche bei der Aufnahme in akustisch nicht perfekten Umgebungen werden unter Umständen in Kauf genommen.

16.2.7 Infrastruktur und Audiosignalverteilung 16.2.7.1 Koppelfelder AES Technisches Herzstück der Signalverteilung im Hörfunk sind die Koppelfelder für digitale Audio- und Videodaten, sowie für Zusatzinformationen (Metadaten wie Titel, Interpret,

1084 

 16 Digitale Betriebstechnik

Slide­show, etc.), welche Studios, Leitungen und Übertragungseinrichtungen aller Art gemäß den betrieblichen Anforderungen rückwirkungsfrei und flexibel miteinander verbinden (s. Kap. 8.4.2, Koppelfelder und Kap.14.1.3, Kreuzschienen). Eine frühe technische Lösung war der von Hand zu bedienende analoge Kreuzschienenverteiler. Die Tonsignale der ankommenden Quellen wurden über die Waagerechte einer rechteckigen Steckmatrix eingespeist, die Senkrechte dienten ihrer Ableitung und Weiterverteilung zu den Senken. An jedem Kreuzungspunkt konnten Waagrechte und Senkrechte durch Setzen eines Steckers miteinander verbunden werden. Diese Bauform gestattete zwar einen raschen und unmittelbaren Zugriff, stieß aber bei umfangreichen oder sich häufig ändernden Schaltungen rasch an ihre Grenzen. Die weitere technische Entwicklung führte dann zu sehr komplexen, aus mehreren kaskadierten Untereinheiten aufgebauten Verteilern, bei denen die Steckverbindungen von Koppelpunkten in Halbleitertechnik abgelöst wurden. Seitdem ist auch eher von Koppelfeldern als von Kreuzschienen die Rede. Die Handhabung erfolgte mit speziellen Bediengeräten, bald aber auch schon über Rechner mit entsprechender Steuerungssoftware. Das allen Koppelfeldern dieser Art zugrunde gelegene Strukturkonzept wurde als Raummultiplex bezeichnet. Eine Vielzahl gleichzeitig anliegender Signale wurde weitergegeben, indem für jedes einzelne Signal ein eigener physischer Übertragungskanal vorhanden war (s. Abb. 16/12).

Abb. 16/12. Prinzipielle Darstellung von Raumund Zeitmultiplex.

Im Gegensatz zur lange Zeit bewährten Analogtechnik, kommen digitale Koppelfelder durch das Zeitmultiplexverfahren ohne real existierende Koppelpunkte aus. Dabei werden die an den Eingängen anliegenden digitalisierten Audiosignale durch zyklische Abtastung zu einem Datenstrom gebündelt, der sämtliche Eingangssignale als zeitliche Abfolge kleinster Datenpakete enthält. Wird dieser Datenstrom zu definierten Zeitpunkten auf die verschiedenen Ausgänge des Koppelfeldes durchgeschaltet, erhält jeder Ausgang ausschließlich Anteile des für ihn bestimmten Eingangssignals, und zwar in seiner ursprünglichen Gestalt. Man spricht hier vom so genannten Zeitschlitzverfahren. Sowohl der geschilderte Mechanismus als auch die eigentliche Signalführung innerhalb des gesamten Koppelfeldes bleiben für den Anwender unsichtbar, da die Funktionalitäten von der in Festwertspeichern abgelegten Betriebssoftware des Systems übernommen werden. Das Schalten von Verbindungen und die Überwachung des Betriebszustands erfolgt über grafik- oder textbasierte PC-Bedienoberflächen. Auch externe Rechnersysteme und deren Bedienfunktionen können über geeignete Schnittstellen Zugriff auf bestimmte Teile des Koppelfeldes erhalten und dort Aktionen auslösen.

16.2 Betriebliche Einrichtungen 

 1085

Abb. 16/13. Dezentraler Aufbau eines modernen Koppelfeldes.

Einrichtungen dieser Art bilden keinen einheitlichen Geräteblock mehr, sondern bestehen aus einzelnen Modulen, die über den gesamten Standort einer Medienanstalt verteilt sein können. Sie sind über eigene, redundant ausgeführte Glasfaserstrecken miteinander verknüpft (s. Abb. 16/13). Durch einen solchen dezentralen Aufbau übernimmt das Koppelfeld heute nicht mehr nur die Verschaltung der Signale, sondern auch deren Transport in Form eines Datenstroms. Die Anbindung digitaler Geräte und Einrichtungen erfolgt dabei über AES/EBU- oder MADI-Schnittstellen. Für die noch wenigen analogen Signale stehen entsprechende Wandlerkarten an den Ein- und Ausgängen zur Verfügung. Die heute im Broadcastbereich gebräuchlichste Signaldarstellung nutzt systemweit eine Auflösung von 24 Bit pro Kanal bei 48 kHz Abtastfrequenz. Eine digitale Koppelfeldinstallation kann mehr als 1500 x 2500 Ein- und Ausgänge verwalten. Die Zahl der gleichzeitig schaltbaren Verbindungen hängt von der Anzahl verfügbarer Zeitschlitze ab und wird im Wesentlichen von der Bestückung und Topologie der einzelnen Module bestimmt. Ein exakter Wert für die Routing-Kapazität kann deshalb nicht ohne nähere Systemspezifikation angegeben werden; dies ist nur bei Koppelfeldern möglich, die aus realen Koppelpunkten aufgebaut sind. Ein großes Koppelfeld umfasst nicht nur die zur täglichen Betriebsabwicklung benötigten Quellen und Senken, sondern ist in der Lage, die gesamte Tonsignalverteilung eines Funkhauses zu übernehmen. Aufwändige, großflächige Rangierverteiler mit ihren fest verdrahteten Verbindungen gehören damit der Vergangenheit an und werden von rein softwaremäßig zu schaltenden Signalwegen abgelöst.

1086 

 16 Digitale Betriebstechnik

16.2.7.2 Übertragung im Netzwerk Neben den Verfahren AES/EBU und MADI wurden in den letzten Jahren eine Vielzahl neuer Standards zur Übertragung von Audiosignalen entwickelt. Ziel war es zunächst, als Verkabelungsinfrastruktur klassische Netzwerkkabel einzusetzen. Dadurch kann für PC-Netzwerke und den Audiosignaltransport die gleiche Verkabelungsinfrastruktur verwendet werden. Bereits bei frühen Varianten der Audionetzwerkstandards, wie z. B. Ethersound, kommt die Netzwerk- / Ethernet-Verkabelung zum Einsatz (s. Kap. 16.3.1). Allerdings unterscheiden sich diese frühen Standards mit ihren Merkmalen auf den höheren OSI-Schichten der IPNetzwerktechnik, so dass der Einsatz von aktiven Switches als Netzwerkkomponenten, bzw. -knoten, nicht möglich ist. Der Vorteil gegenüber einer klassischen Infrastruktur, bestehend aus Audio- und Netzwerkverkabelung, beschränkte sich darauf, dass für Audioverbindungen die gleichen Kabeltypen wie für Netzwerkverbindungen zum Einsatz kommen. Mittlerweile dominieren IP-basierte Systeme den Markt. Durch die Verwendung von standardisierten Switchen können hier Signale nahezu beliebig gebündelt und verteilt werden. Bei Endgeräten sind der Anzahl und Übertragungsbitraten kaum Grenzen gesetzt. So können mit Netzwerktechnik „virtuelle“ Koppelfelder entstehen, die in der Anzahl der Signalquellen und Senken klassische Audiokreuzschienen um Größenordnungen übertreffen. Der Übergang zu, sowie der Transport in Weitverkehrsnetzen (WAN) ist ebenfalls möglich. 16.2.7.2.1 Besonderheiten bei Audio über IP Bei der Verwendung von IP zum Transport von Audiodatenströmen ergeben sich einige grundlegende Unterschiede gegenüber den Systemen AES/EBU und MADI, auf die hier kurz eingegangen wird. Details sind im Kap. 16.3. Audionetzwerke erläutert. Audiokanäle im Stream Die Audioübertragung im Netzwerk erfolgt durch Netzwerkstreams. Ein Netzwerkstream wird durch eine Signalquelle erzeugt und ins Netzwerk abgegeben. Ein Stream kann aus einem oder mehreren Audiosignalen bestehen. Typische Streamkonfigurationen sind zum Beispiel zwei Signale (Stereo), acht Signale (Surround 5.1+Stereo), 64 Signale (MADI Umsetzung). Zu beachten ist an dieser Stelle, dass sowohl Sender als auch Empfänger nota bene die verwendete Streamkonfiguration unterstützen. Multicast Ein Stream kann an eine einzige (unicast) Signalsenke (Empfänger) gesendete werden. Viel häufiger wird jedoch das Multicastverfahren verwendet. Beim Multicastverfahren wird der Stream mit einer Multicast-Adresse ohne konkretes Ziel ins Netzwerk gestreamt. Mit Multi­ cast ist somit eine 1:n-Beziehung zwischen Quelle und Senke(n) möglich. Beliebig viele Empfänger können diesen Stream dann empfangen. Somit entstehen die gleichen Möglichkeiten wie bei klassischen Koppelfeldern. Paketierung Der kontinuierliche Audiodatenstrom einer AES/EBU oder MADI Übertragung muss in einzelne, diskrete Pakete aufgeteilt werden. Der Sender / die Signalquelle sammelt zunächst

16.2 Betriebliche Einrichtungen 

 1087

eine zu definierende Anzahl Audiosamples und bündelt diese in ein Paket. Erst wenn der Sammelvorgang abgeschlossen ist, kann das Paket gesendet werden. Das Absenden an sich dauert, abhängig von der Verbindungsgeschwindigkeit (Ethernet-Link Geschwindigkeit) und der Paketgröße, eine bestimmte Zeit. Beim Transport kommt es zu weiteren Verzögerungen. Diese bestehen aus zwei Komponenten: Einerseits die vernachlässigbare Zeit der Fort­ bewegung auf dem Träger, z. B. beim Cat. 7 Kupfer-Kabel, und der Verarbeitungszeit in den aktiven Netzwerkkomponenten, die das Paket auf dem Weg zwischen Sender und Empfänger passiert. Am Sender angekommen, wird das Paket vollständig im Arbeitsspeicher abgelegt, bevor die Samples weiterverarbeitet werden können. Insgesamt muss gegenüber dedizierten Audioübertragungssystemen wie AES/EBU und MADI meist mit größeren Übertragungszeiten gerechnet werden. Entscheidende Größen sind die Bitraten und Paketzeiten der Verbindungsgeschwindigkeit sowie die Anzahl der aktiven Netzwerkkomponenten, die das Signal zwischen Sender und Empfänger passiert. Redundante Streams Um die Zuverlässigkeit bei der Übertragung von Audiostreams im Netzwerk zu erhöhen, können diese redundant übertagen werden. Das Verfahren ist im Standard [SMPTE ST2022-7] definiert. Im Idealfall sind alle Netzwerk-Komponenten doppelt ausgeführt; der Sender gibt identische Audiosamples über zwei redundante Streams über zwei Netzwerkschnittstellen an das Netzwerk ab. Die Streams werden über zwei separate Netzwerk-Switch-Infrastrukturen bis zum Empfänger übertragen und dort auf zwei verschiedenen Netzwerkschnittstellen empfangen (s.  Abb.  16/14). Auf diese Weise können kleinere Fehler, wie zum Beispiel der Verlust eines einzelnen Pakets kompensiert werden. Die Information des fehlenden Pakets kann aus dem redundanten Strom entnommen werden. Auch der komplette Ausfall eines Netzwerkswitchs kann auf diese Weise kompensiert werden, wenn die redundanten Streams nicht beide über den betreffenden Switch laufen.

Netzwerkschnittstelle A

Netz A

Signalquelle Netzwerkschnittstelle B

Netzwerkschnittstelle A

Signalquelle Netz B

Netzwerkschnittstelle B

Abb. 16/14. Redundante Streams.

Bei größeren Installationen im 24h Sende-Dauerbetrieb ist eine redundante Auslegung der Infrastruktur unerlässlich, da sonst keine Wartung des Netzwerks möglich ist. Im Bereich der Netzwerktechnik muss stets die Möglichkeit gewahrt sein, sicherheitsrelevante Updates einspielen zu können.

1088 

 16 Digitale Betriebstechnik

16.2.8 Synchronisation Alle zentralen Geräte und Einrichtungen der digitalen Audiotechnik in einem Rundfunkbetrieb benötigen zum Betrieb ein präzises Taktsignal. Es entspricht der Abtastrate der gewählten Audiocodierung, die im Rundfunkbetrieb üblicherweise fs = 48 kHz beträgt. Dieses Signal muss technisch bedingt aus einer einzigen Quelle zugeführt werden. Die Verwendung mehrerer Quellen oder interner Taktgeneratoren verbietet sich wegen unvermeidbarer minimaler Frequenz- und Phasenabweichungen der Signale untereinander. Die Folge wären Fehler und Störungen bei der Datenübertragung, die sich als wiederkehrende störende Klickgeräusche bemerkbar machen (s. Kap. 13.1). Zu den Geräten, die über die zentrale Taktversorgung getaktet werden müssen, zählen: –– zentrale Audiokreuzschienen, –– zentrale Videokreuzschienen, –– DSP-Träger der diversen Mischpultsysteme. Da die meisten Mischpulte und Kreuzschienen an den digitalen Eingängen mit SamplerateConvertern (SRC) ausgestattet sind, werden angeschlossene Zuspieler wie CD-Player oder filebasierte Zuspieler nicht extern getaktet, sondern laufen mit dem geräteeigenen Taktgenerator. Durch die SRCs ist gewährleistet, dass auch in diesem Fall das Signal ungestört übertragen werden kann. Ebenso ist hier eine Anpassung von diversen Taktraten auf den zentralen Haustakt möglich. Der Takt wird aus einem hochfrequenten Referenzsignal durch Frequenzteilung gewonnen. Zu dessen Generierung werden meistens Taktsignale aus hochgenauen GPS-Uhren verwendet, die dann durch entsprechende Teilungsverhältnisse sowohl die Video- als auch die Audiosysteme takten. Üblicherweise werden die Taktsysteme redundant ausgeführt, so dass bei Ausfall des Hauptgenerators das Ersatzsystem die Taktversorgung übernehmen kann. Bei einem Totalausfall dieses Systems werden die angeschlossenen Systeme automatisch auf MADI- oder AESTaktung umgeschaltet. Unter Ausnutzung der selbsttaktenden Eigenschaft des MADI- und AES/ EBU-Formatrahmens, kann in diesem Fall ein zentrales Audiokoppelfeld die Taktversorgung der angeschlossenen Subsysteme (Mischpulte, Subkreuzschienen o. ä.) übernehmen. Kommt in der Infrastruktur neben AES/EBU und MADI auch IP zum Einsatz, muss dies auch bei der Taktversorgung berücksichtigt werden. Der Takt für IP muss absolut synchron zum AES-Takt laufen, um störungsfreie Übergänge zu gewährleisten. Dies kann bspw. durch die entsprechende Systemarchitektur sichergestellt werden. Typischerweise kann eine hochpräzise PTP-Versorgung über Satellit aus dem GPS-, GLONASS-, GALILEO- oder BEIDou-Signal abgeleitet und über einen hochstabilen Quarz gegen Ausfall gesichert werden (s. Kap. 16.3.4.1). Aus dem PTP-Signal können dann, je nach Bedarf zentral oder dezentral, Takt­ signale für Audio und Video generiert werden.

16.2 Betriebliche Einrichtungen 

 1089

GP S

Zeit via GPS

Taktzentrale Zeit via PTP

IP-Netzwerk

Takt via Wordclock

Zeit via PTP

AES67 Mischpult

synchron

MADI Kreuzschiene

Abb. 16/15. Synchronisation.

16.2.9 Logik und Steuerung 16.2.9.1 Steuerung Die Bedienung eines digitalen Koppelfeldes orientiert sich im einfachsten Fall am Vorbild der analogen rechteckigen Matrix. In einer entsprechenden Bildschirmgrafik können Quellen und Senken durch Mausklick miteinander verbunden oder voneinander getrennt werden (s.  Abb.  16/16). Diese Darstellung ist zwar anschaulich, aber nur bedingt praxistauglich. Neben der mangelhaften Übersichtlichkeit ist von Nachteil, dass eine Steuerung der Koppelpunkte zu definierten Zeiten nicht möglich ist. Dies schränkt den Workflow für ein modernes Schaltsystems deutlich ein.

1090 

 16 Digitale Betriebstechnik

Abb. 16/16. Matrix zur Koppelfeldbedienung.

Komplexe Koppelfelder werden deshalb heute überwiegend mittels textbasierter Steuerungssoftware ausgerüstet. Mit der namentlichen Eingabe von Quellen und Senken können in verschiedenen Varianten auch zeitgesteuerte Schaltungen ausgeführt werden, sei es einmalig oder wiederholt in frei festlegbaren Zyklen, wie z. B. täglich, jeden zweiten Tag, an einem bestimmten Wochentag, mit oder ohne Kollisionsprüfung usw. Darüber hinaus können mehrere Einzelschaltungen zu Blöcken zusammengefasst und unter frei wählbaren Namen abgespeichert und aufgerufen werden. Diese Funktionalitäten stellen nicht nur eine Vereinfachung der Bedienbarkeit dar, sondern reduzieren auch das Fehlerrisiko bei regelmäßig wiederkehrenden Aufgaben wie z. B. bei Studio- oder Senderkettenumschaltungen. Bereits erwähnt wurde die Möglichkeit, über geeignete Schnittstellen Aktionen auch von anderen Systemen in der Kreuzschiene auslösen zu lassen. Dies kann bspw. eine im Haus eingesetzte Dispositionssoftware sein. Bei Bestellung einer Konferenz mit einem Außenstudio werden dann nicht nur alle Beteiligten über den augenblicklichen Status informiert,

16.2 Betriebliche Einrichtungen 

 1091

sondern die zum Aufbau der Konferenz notwendigen Schaltungen werden auch automatisch zeitgesteuert ausgeführt. 16.2.9.2 Logik und Zustände In den betrieblichen Einrichtungen gibt es neben einer Vielzahl von Audiosignalen auch eine große Anzahl von Betriebszuständen, die zwischen verschiedenen Systemen und Produktionseinheiten ausgetauscht und verarbeitet werden müssen. Die Anforderung wird hier zunächst am Beispiel Rotlichtsignal (auch Raumsperre) grob erläutert: Der Zustand „Rotlicht“ an / aus wird typischerweise am Mischpult abgegriffen. Ist einer der Mikrofonregler geöffnet, wird der Zustand Rotlicht „an“ aktiviert. Dieser Zustand muss nun verschiedene Dinge auslösen. Im Mischpult selbst muss die Lautsprecherabschaltung erfolgen, um eine Rückkopplung zu verhindern. Sollte ein entsprechendes Mitschnittsystem vorhanden sein, muss der Zustandswechsel auch dort signalisiert werden, damit ein automatischer Mitschnitt der Moderation aktiviert werden kann. Weiterhin muss der Zustand ggf. an die Gebäudetechnik übergeben werden, um damit vor dem Raum eine Signalleuchte zu aktivieren, die vor dem Eintreten entsprechend zu warnen. Ist nun die Zuordnung von Sprecherraum und Regie flexibel, muss nicht nur die Zuordnung der Mikrofon- und Abhöraudiosignale korrekt erfolgen, sondern auch der Zustand des Rotlichts, sowie anderer Schalt­ zustände. Die Beziehung zwischen Signalquelle und Signalsenke ist also nicht fix. Ein weiteres, sendenahes Beispiel ist die Gefahrenmeldung für den Straßenverkehr: Zunächst läuft die Gefahrenmeldung der Polizei im Verkehrsredaktionssystem ein. Das System löst nun via Logik im Sendestudio eine optische Signalisierung aus. Der Moderator muss umgehend das laufende Programm unterbrechen. Bevor die Gefahrenmeldung gelesen wird, muss jedoch eine Signalisierung über eine aktive Gefahrenmeldung für die Distri­ butions­­wege UKW und DAB über die Radiozusatzdaten erfolgen (s. Kap. 17.5), damit Auto­ radios die Gefahrenmeldung aufschalten können. Nach der Verkehrsdurchsage muss die Signalisierung über die Zusatzdaten beendet werden und auch die optische Signalisierung im Sendestudio sollte mit dem Start der Verkehrsdurchsage abgeschaltet werden. Auch beim zweiten Beispiel müssen die genannten Schaltzustände flexibel schaltbar sein. Die optische Signalisierung einer neuen Gefahrenmeldung muss in allen Sendestudios signalisiert werden, die Verkehrsfunkdurchsagen durchführen. Die Abschaltung des optischen Hinweises muss dann wiederum separat nach der jeweils erfolgten Durchsage geschehen. Neben den in den Beispielen genannten Logikzuständen („Rotlicht“, „neue Gefahrenmeldung liegt im Verkehrsredaktionssystem vor“, „Gefahrenmeldung on-air“) gibt es eine Vielzahl weiterer Meldungen und Parameter die verteilt und verarbeitet werden müssen. Zur besseren Übersicht ist die Sammlung der Zustände in einem zentralen System angebracht. Einige Anforderungen im Bereich der Steuerung lassen sich jedoch erst durch die logische Verknüpfung (und/oder) von Zuständen erreichen. Somit gibt es im Bereich der Logik und Steuerung drei Aufgaben: –– Sammeln und Verteilen der logischen Zustände, –– Zuordnen von logischen Zuständen zwischen Sender und Empfänger, –– Verknüpfen von logischen Zuständen.

1092 

 16 Digitale Betriebstechnik

Für diese drei Aufgaben können verschiedene Lösungen eingesetzt werden. Früher erfolgte die Verarbeitung in den jeweiligen Mischpulten. Mit zunehmender Komplexität und demzufolge größerer Anzahl an Logikzuständen, kann dieser Ansatz jedoch unübersichtlich werden. Einige der am Markt verfügbaren Broadcaststeuersysteme bieten deshalb eine entsprechende Funktionalität für das gesamte Aufgabenpaket an zentraler Stelle. Sehr flexibel kann das Sammeln und Verteilen von Logikzuständen und anderer Informationen auch mit MQTT (Message Queuing Telemetry Transport) erfolgen. Bei diesem Serversystem können Clients Informationen in einer hierarchischen Struktur als sog. Topic publizieren. Andere Systeme können dieses Topic abonnieren und werden bei Änderungen informiert. Eine große Herausforderung im Bereich Logik und Steuerung ist die Integration von verschiedenen Geräten mit ihren jeweiligen Schnittstellen. Dabei ist die klassische Variante mit geschalteter Niederspannung (Relais / Optokoppler) nur noch selten anzutreffen. Aktuell kommen häufig Ember+ und andere netzwerkbasierte Varianten zum Einsatz. Auch MQTT ist bereits Teil des Broadcaststandards [AMWA IS-07, NMOS] (s. Kap. 17). Mit einer stärkeren Verbreitung in Zukunft ist daher zu rechnen. 16.2.9.3 Broadcaststeuersysteme Mit dem Broadcaststeuersystem werden Audiosignale ergonomisch von der Quelle auf die Senke geschaltet. Die Broadcaststeuerung ist das zentrale Werkzeug in der Betriebszentrale. Das Betriebspersonal kann mittels Tastenstreifen oder Software die für die jeweilige Produktion oder Sendung benötigten Signale und Rückleitungen schalten. Alternativ kann auch eine integrierte Ablaufsteuerung (Scheduler) für automatisierte und ggf. wiederkehrende Schaltungen verwendet werden. In die Broadcaststeuerung sind, neben der Verschaltung von Signalen, auch weitere Funktionalitäten integriert. Codecs können für den Aufbau von Telefonverbindungen durch die Broadcaststeuerung aktiviert werden. Dazu kann, bspw. in der Ablaufsteuerung, ein Eintrag angelegt werden, der zum definierten Zeitpunkt einen Codec anweist, direkt eine Telefonnummer anzurufen und das Signal in der richtigen Regie zur Verfügung zu stellen.

16.2.10 Zentraltechnik 16.2.10.1 Leitungsanbindung Jeder Studiokomplex ist über seine Sendewege meist redundant an das Koppelfeld angebunden. Bei Bündelung der Signale in einem MADI-Strom kann zur Erhöhung der Betriebssicherheit eine der beiden Summen zusätzlich über eine eigene AES/EBU-Verbindung zugeführt werden und als Ersatzweg zur Verfügung stehen. Auch für IP-Systeme kann eine MADI oder AES/EBU-Übertragung als Backup-System zum Einsatz kommen. Darüber hinaus werden in den Studios ankommende und abgehende Leitungen zur Abwicklung von Konferenzen und Programmübernahmen benötigt. Die abgehende Leitung einer Regie ist dabei eigentonfrei, bezogen auf die zugehörige ankommende Leitung. Wegen der unvermeidbaren Signallaufzeiten in der digitalen Audiotechnik, ist diese Forderung bei Konferenzschaltungen, wie bereits erwähnt, zwingend notwendig, da sonst störende Nebengeräusche und Echos entstehen.

16.2 Betriebliche Einrichtungen 

 1093

Auch wenn die routinemäßige Verschaltung von Quellen und Senken im Koppelfeld ausschließlich digital vorgenommen wird, so ist es doch gelegentlich sinnvoll, wichtige ankommende und abgehende Leitungen über diskrete Brückenstecker zu führen. Dies erleichtert den Zugriff bei Umbau- oder Wartungsarbeiten und bietet im Havariefall die Möglichkeit einer provisorischen Signalverteilung. Für Sonderschaltungen stehen in einem Steckfeld außerdem einige frei belegbare digitale und analoge Ein- und Ausgänge zur Verfügung. Sie gestatten die Verschaltung von möglicherweise noch vorhandenen analogen Querverbindungen zu Studios und Betriebsräumen älterer Bauart. Außenstellen Vielfach befinden sich im näheren Einzugsbereich einer Rundfunkanstalt Übertragungsorte, zu denen regelmäßig Verbindungen hergestellt werden müssen, bspw. Konzertsäle, Rathäuser und Sportstätten. Die örtlichen tontechnischen Einrichtungen sind dann zumeist dauerhaft über IP-Strecken mit garantierter und ausreichend großer Bitrate verbunden, um auch Mehrkanalübertragungen abzuwickeln. Für Stereo- oder Monoübertragungen werden Codec-Verbindungen (Voice over IP) benutzt. Vor Ort befindet sich im einfachsten Fall ein Ü-Wagen-Anschlusskasten für mobile Aufnahmeeinrichtungen, bis hin zu fest eingerichteten und vollständig ausgebauten Tonregien in Konzertsälen. Auch Landes- und Regionalstudios sind über IP-Verbindungen angebunden, die Audiosignale mit gesicherter Qualität, wie auch Dateiübertragungen, ermöglichen. Ü-Wagen Bei der aktuellen Berichterstattung besteht in der Regel keine direkte Leitungsverbindung zwischen dem Übertragungswagen und der Betriebszentrale im Funkhaus. Satellit

Mobilfunk

Funkhaus Internet

Abb. 16/17. Audioanbindung Ü-Wagen.

lokaler Anschluss Internet

Übertragungswagen

1094 

 16 Digitale Betriebstechnik

Häufig wird eine Codec-Verbindung verwendet, welche bei Bedarf von der Betriebszentrale aus angewählt wird (s. Kap. 16.2.9.2). Teilweise findet die Übertagung auch über das Mobilfunknetz statt. Bei schlechter Netzabdeckung können Systeme zum Einsatz kommen, die den Datenverkehr parallel über verschiedene Mobilfunknetze übertragen. So können Übertragungsprobleme kompensiert werden, zumindest wenn diese nur ein Netz betreffen. Eine noch weitergehende Unabhängigkeit bei der Standortwahl bietet der Verbindungsaufbau über Satelliten. Dabei richtet sich eine Parabolantenne auf dem Ü-Wagen vollautomatisch auf einen ausgewählten Satelliten aus, bspw. aus der Inmarsat-Gruppe, überprüft die Feldstärkeverhältnisse und leitet den Verbindungsaufbau ein (s. Abb. 16/17). Die eigentliche Datenübertragung erfolgt dann über ISDN-Audiocodecs oder per IP-Codec. Die Satellitenstrecke ermöglicht Übertragungskanäle in beide Richtungen, wobei allerdings nicht zu vernachlässigende Signallaufzeiten anfallen. Da Satellitenüberspielungen teuer sind, beschränkt sich die Anwendung meist auf kurze Aufsager oder das Überspielen von O-Tönen. Hörfunk-Dauerleitungsnetz Jede Rundfunkanstalt in Deutschland ist mit jeweils 32 Monoleitungen an das HörfunkDauerleitungsnetz der ARD angebunden. Damit können Signale im Mono-, Stereo- oder Mehrkanal-Modus verteilt werden. Empfangsseitig liegen alle Leitungen aller anderen 13 angebundenen Standorte ständig an, d. h. insgesamt 416 ankommende Monoleitungen je Rundfunkanstalt. Die Leitungen werden für Live-Übertragung aus anderen Funkhäusern, für Programmübernahmen bzw. -überspielungen und für Konferenzschaltungen benötigt. Sie haben jedoch in jüngerer Zeit durch die Einführung des ARD-weiten Filetransfers an Bedeutung verloren. Der technische Transport von Tonsignalen erfolgt seit Anfang der 2000er-Jahre über das sog. Hybnet. Der frühere zentrale ARD-Leitungsstern mit seinen Zuführungs- und Verteilleitungen (ZLT und VLT) wurde als logisches Konzept 2019 von dem heutigen dezentralen AES67Multicast-Netzwerk abgelöst, wird aber weiter auf der quasi Wagenrad-Struktur des Hybnet abgebildet (s. hierzu Kap. 16.5.7.3). Telefonie und Codecs Die flächendeckende Verfügbarkeit von ISDN-Anschlüssen im In- und Ausland hat in der Vergangenheit dazu geführt, dass hochwertige und kostspielige Rundfunktonleitungen nur noch bei besonderen Ansprüchen an die Übertragungsqualität angemietet und geschaltet werden mussten. Die ISDN-Technik wurde in den letzten Jahren allerdings Schritt für Schritt zurückgebaut. Die Netzbetreiber wickeln heute den Telefoniedienst komplett über ihre IPNetze ab. So verbleiben für die Rundfunkanforderungen nur noch Übertragungen per IPCodec oder die Verwendung der Telefondienste mit entsprechenden Einschränkungen bei der Klangqualität. Die Codecs bedienen sich einer großen Zahl verschiedener, häufig herstellerspezifischer Codierverfahren, die bedauerlicherweise nicht immer miteinander kompatibel sind. Entsprechend bedarf es eines umfangreichen Geräteparks, will man in einer Betriebszentrale zumindest den Großteil der weltweit verbreiteten Übertragungsverfahren abdecken. Vielfach verfügen die Geräte über eine Schnittstelle zu einer Steuersoftware, die bei Anwahl des

16.2 Betriebliche Einrichtungen 

 1095

Teilnehmers automatisch dessen Gerätetyp einschließlich Konfigurationsmerkmale erkennt. Sie ist auch in der Lage, alle Möglichkeiten der Zeitsteuerung ausführen zu können. Kennzeichnend für die Entwicklung der digitalen Verbindungstechnik ist die zunehmende Integration aller peripheren Systeme, verbunden mit einer dichter werdenden Vernetzung. Beispielhaft dafür ist die von einzelnen Rundfunkanstalten realisierte Einrichtung eigener regionaler Netze (RegioNet). Redundant ausgelegte, breitbandige Verbindungen übernehmen hier den gesamten Datentransfer zwischen den Standorten einer Rundfunkanstalt. Leitungen im traditionellen Sinne werden zunehmend von Diensten auf IP-Basis abgelöst. 16.2.10.2 Distribution Die Verteilung von Hörfunkprogrammen einer Rundfunkanstalt erfolgt entweder direkt aus dem Hauptkoppelfeld oder über einen abgesetzten, kleineren Sendeverteiler. Betriebstechnisch sind beide Lösungen gleichwertig, die zweite Variante bietet jedoch mehr Spielraum bei Wartungs- und Umbauarbeiten im Bereich des Intern-Koppelfeldes. In den Zeiten ausschließlich analoger, terrestrischer Programmausstrahlung wurden die Funkhaussignale an einer definierten Schnittstelle im Postübergaberaum an die technischen Anlagen der damaligen Deutsche Bundespost (DBP) zur Weiterleitung an die Senderstandorte übergeben. Die DBP hatte früher das alleinige Leitungsmonopol in Deutschland. Auf Ortssendeleitungen (OSL) gelangte das Signal zum Rundfunkverstärkeramt der DBP und von dort aus über Fernleitungen an die Senderstandorte, die wiederum von den Landesrundfunkanstalten betrieben wurden. Abb. 16/18 stellt die heute üblichen Wege schematisch dar. weitere Programme Sendebegrenzer

VorMultiplexer

Multiplexer DVB-S

weitere Programme Zentrale Audioinfrastruktur

Sendebegrenzer

VorMultiplexer

Multiplexer DAB

Sendebegrenzer

StreamingServer

Sendebegrenzer

Begrenzer Multiplexleistung

Abb. 16/18. Blockdiagramm zur Sendeverteilung.

Internet

UKWModulator UKW

1096 

 16 Digitale Betriebstechnik

Heute erfolgt die Distribution ausschließlich mittels redundanter IP-Ströme für Audio und Zusatzdaten. Signalaufbereitung Distribution Vor der endgültigen Übergabe an die verschiedenen Verbreitungswege wird das Sende­ signal einer zumeist mehrstufigen Signalaufbereitung unterzogen. Die dazu erforderlichen Geräte sind in die Sendewege eingeschleift. Ihre Aufgabe ist es, das Audiomaterial an die Anforderungen des jeweiligen Übertragungskanals anzupassen, wobei technische wie auch geschmackliche Aspekte zum Tragen kommen (s. auch Kap. 6.2.1.3). Im analogen Betrieb waren früher in allen Sendeleitungen Begrenzer zum Schutz vor Übersteuerungen des Sendehubs eingefügt. Heute haben digitale Audioprozessoren diese und zahlreiche weitere Funktionen übernommen. So kann bspw. durch die Anhebung der mittleren Aussteuerung die Leistung des Multiplexsignals erhöht und damit die Reichweite der belegten Bandbreite vergrößert werden, verbunden allerdings mit dem Nachteil der Zunahme von Nachbarkanalstörungen durch den übermodulierten Sender. Dies kann schlimmstenfalls zum Entzug der Betriebserlaubnis seitens der Regulierungsbehörde führen. Die Einhaltung der MPX-Leistung von 0 dBr wird in Deutschland nach internationalem Recht streng und unter Strafandrohung überwacht. Bestrebungen um einen erhöhten Lautheitseindruck sowie um ein eindeutiges akustisches Erscheinungsbild der einzelnen Rundfunkprogramme, haben der Tonsignalauf­ bereitung in den letzten Jahren ein hohes Gewicht zukommen lassen. Hinsichtlich Dynamik­ umfang und Klangfarbe können die eingesetzten Geräte drastische Veränderungen des Programmmaterials beim sog. Sound Processing bewirken, wobei Art und Ausmaß des Eingreifens weniger technisch-funktionalen Notwendigkeiten, als vielmehr klanglich-ästhetischen Vorstellungen seitens der Programmschaffenden entspringen. Die Folge dieses Profilierungsbedarfs ist eine regelrechte Spirale des Sound-Processing, deren Resultate sich zwangsläufig immer weiter vom Klangbild des Originalmaterials entfernen. Vor allem im Pop-Bereich spielt die produktionsseitige klangliche Ausgestaltung, das individuelle künstlerische Sound-Design, eine große Rolle. Eine überzogene Tonsignalaufbereitung kann auf solches Musikmaterial fatale Auswirkungen hinsichtlich eines verzerrten Klangbildes haben. Die Signalverzögerung ist ebenfalls eine Variante der Signalaufbereitung. Sie ist überall dort notwendig, wo Synchronitäten hergestellt werden müssen. So werden bspw. terrestrische Sender zwar meist über Leitungen, gelegentlich aber auch über Satellit versorgt. In angrenzenden Versorgungsgebieten können dann in der Überlappungszone störende Laufzeitunterschiede beim Rundfunkempfang auftreten. Schaltet bspw. ein Autoradio aufgrund sich ändernder Empfangsbedingungen wiederholt zwischen zwei Sendern hin und her, so wird der Zeitversatz von etwa 240 ms jedes Mal deutlich hörbar. Dieser störende Effekt kann durch Verzögerung des terrestrisch abgestrahlten Signals um den Betrag der Satellitenlaufzeit vermieden werden; s. Abb. 16/19.

16.2 Betriebliche Einrichtungen 

 1097

Abb. 16/19. Laufzeitunterschied bei gemischter Senderversorgung.

16.2.10.3 Mitschnitt Eine für eine Rundfunkanstalt wichtige Einrichtung ist das Mitschnittsystem. Aus rechtlichen Gründen müssen sämtliche Programme einer Rundfunkanstalt rund um die Uhr mitgeschnitten und 90 Tage lang archiviert werden. Früher geschah die Dokumentation auf Magnetband oder DAT-Kassetten, heute kommen Rechnersysteme mit Festplatten und schnellem Zugriff zum Einsatz. Neben dem gesetzlichen Mitschnitt gibt es auch für die alternative Verwertung einen Bedarf. So werden die programmlichen Mitschnitte verwendet um bestimmte Programmteile des Liveprogramms, wie Nachrichten, Wetter oder Verkehr zu nutzen oder sogar ganz Sendungen erneut zu verwerten. Den Hörern können die entsprechenden Programmteile z. B. zum zeitunabhängigen Anhören in den Mediatheken zur Verfügung gestellt werden. Eine weitere Anforderung ist ein „trockener“ Mitschnitt der Mikrofonsignale. Dabei sollen die Mikrofone ohne Hintergrundmusik o. ä. zur Verfügung stehen. Um die verschiedenen Anforderungen beim programmlichen Mitschnitt zu erfüllen, wird typischerweise eine Aufnahme-Softwareinstanz pro Mitschnittart reserviert. Diese Instanz wird dann über eine Logiksteuerung aus dem Mischpult gesteuert, um den Mitschnitt ereignisgesteuert zu starten und zu stoppen. Die Schnittstelle zum Mischpult wurde früher typischerweise als Schaltspannung ausgeführt und musste entsprechend direkt zwischen Mischpult Aufnahme-PC verdrahtet werden. Mit der Verbreitung von IP-basierten Schnittstellen (z. B. Ember+) kann zunehmend auf die Schaltspannung als Schnittstelle verzichtet werden. Gleichzeitig können immer mehr Instanzen der Aufnahme-Software auf einem PC parallel betrieben werden, so dass eine starke Bündelung der verschiedenen Mitschnitte möglich ist. 16.2.10.4 Programmverteilung An vielen Stellen in einem Funkhaus ist es erforderlich, dass Sendesignale und Produktionssignale zum Abhören zur Verfügung stehen. Benötigt werden häufig alle Sende- und Regional­­signale der Rundfunkanstalt, sowie bei bestimmten Produktionen weitere Signale, z. B. direkt aus Produktionsregien.

1098 

 16 Digitale Betriebstechnik

Die Versorgung mit diesen Signalen erfolgte klassisch mittels Koaxialverkabelung. An zentraler Stelle werden mit Modulatoren alle gewünschten Signale in die Programmverteilanlage (PVA) eingespeist. Durch eine strukturiertere Verkabelung werden dann alle relevanten Räume erschlossen. In den Räumen kann je nach Art der Einspeisung mit UKW- oder DAB-Empfängern das gewünschte Signal abgehört werden. Alternativ kann die Programmverteilung auch per IP und Multicast erfolgen. Der Empfang erfolgt dann jedoch am komfortabelsten mittels PC. Die Verteilung kann ohne Mehraufwand über ein evtl. bereits vorhandenes Netzwerk erfolgen. Typische Radiogeräte sind für den Empfang von individuellen erzeugten Signalen nicht geeignet.

16.2.11 Intercom Eine moderne Medienanstalt mit seinen komplexen, häufig zeitlich gedrängten Betriebsabläufen, wäre ohne die Möglichkeit der direkten raschen internen und externen Kommunikation nicht denkbar. Das Zusammenwirken der verschiedenen Kommunikationssysteme zeigt Abb. 16/20.

Abb. 16/20. Kommunikationseinrichtungen des Hörfunkbetriebs.

Im alltäglichen Sprachgebrauch steht der Begriff „Kommandoanlage“ für jede Art von Sprechanlage. Sie vereint die drei möglichen Funktionalitäten: –– Kommandoanlage: unidirektionale Sprechverbindungen in nur einer Richtung, der Angesprochene kann nicht antworten, –– Gegensprechanlage: bidirektionale Sprechverbindungen für gleichzeitiges Hören und Sprechen, heute vorherrschende Form einer Kommandoanlage,

16.2 Betriebliche Einrichtungen 

 1099

–– Wechselsprechanlage: bidirektionale Verständigung in beiden Richtungen, es kann immer nur eine Richtung aktiv sein. Die Sprechstellen können frei aufgestellt oder in einem Regietisch, Gerätegestell, etc. fest eingebaut sein. Sie verfügen über einen Lautsprecher, ein Mikrofon und über Tasten, die der Zielanwahl dienen und gleichzeitig als Sprechtasten fungieren. Ein Signalisierungsausgang kann dazu genutzt werden, bei einem an- oder abgehenden Ruf die Abhörlautstärke für die Dauer des Gesprächs abzusenken, um die Verständigung zu erleichtern. Kernstück einer Kommandoanlage ist ein digital angesteuertes Koppelfeld. Die Anbindung der Sprechstellen erfolgt über eine Datenverbindung. Die Audiosignale werden entweder analog über eine eigene Leitung oder seriell übertragen. Frei schaltbare Verbindungen in das Audiokoppelfeld der Betriebszentrale und in die hausinterne Telefonanlage ermöglichen die Einbindung beliebiger Quellen und Senken. Über Telefonhybride können Fernsprechverbindungen mit in das Kommandonetz einbezogen werden, während IP-Codecs nicht nur Sprache, sondern auch Steuerdaten an eine entfernte Sprechstelle übertragen können. Wird die IP-Strecke nicht dauerhaft benötigt, so kann deren Aufbau durch Drücken einer entsprechenden Zieltaste veranlasst werden. Schließlich ist es möglich, über eine Netzwerkverbindung auch komplette Anlagen miteinander zu verknüpfen. Moderne Kommandoanlagen dieser Art sind durch den Anwender in hohem Maße konfigurierbar. Die Eigenschaften jeder einzelnen Sprechstelle, die Belegung der Ruftasten, die Einrichtung von Gruppenrufen oder Antwortfunktionen können teils an den Sprechstellen direkt, überwiegend jedoch am PC durch ein Konfigurationsprogramm festgelegt werden (s. Abb. 16/21). Aufwändig aufgebaute Sprechstellen können mehrere Dutzend Tasten aufweisen, deren Belegung durch ein alphanumerisches Display angezeigt wird.

Abb. 16/21. Beispiel für die Konfigurationsoberfläche einer Kommandoanlage.

1100 

 16 Digitale Betriebstechnik

16.2.12 Dateibasierte Systeme In einem digitalen Funkhaus sind alle an Produktion, Bearbeitung, Verteilung und Speicherung von Audiodaten beteiligten Systeme über ein Netzwerk miteinander verbunden. Es kommt inzwischen flächendeckend Ethernet-Verkabelung zum Einsatz. Die in der allgemeinen IT verwendeten Grundsätze, strukturierte Verkabelung und Client-Server-Systeme, kommen auch hier zur Anwendung. Für die eingesetzten Systeme gibt es keinen einheitlichen Lösungsansatz, vielmehr sind bei den Rundfunkanstalten sehr auf den Bedarf zugeschnittene Systeme in Verwendung. 16.2.12.1 Server Herzstück eines digitalen Hörfunkbetriebs ist ein serverbasierter Massenspeicher für jegliches Audiomaterial. Diese Speicherarchitektur für Audio- und Metadaten bildet den logisch zentralen Mittelpunkt der Gesamtinstallation. Ihm folgt modellhaft der Aufbau einer ClientServer-Struktur. Als Speichermedium dient ein zu einem RAID-Array zusammengeschaltetes großes Festplattensystem. Durch redundante Speicherverfahren reduziert sich dabei die nutzbare Kapazität, die Datensicherheit nimmt allerdings zu. Speicherkapazitäten zwischen 5 bis 100 Terabyte sind dabei heute durchaus üblich. Legt man eine Codierung nach MPEG-1 Layer 2 mit einer Datenrate von 384 kBit/s zugrunde, so ergibt sich eine Audiolaufzeit von beinahe 6000 Stunden pro Terabyte Festplatten-Speicherplatz. Ein auf dem Server installiertes Datenbanksystem verwaltet die Audiobestände und deren programmbegleitende Zusatzinformationen; es bearbeitet ebenfalls die Anfragen der einzelnen Clients und kommuniziert mit den verschiedenen Modulen der Anwendersoftware. Alle Operationen innerhalb des Netzwerkes finden dabei asynchron auf Dateibasis statt. Audiodaten in Echtzeit werden ausschließlich über das Koppelfeld und die daran angeschlossenen Systeme übertragen. Jedes Sendestudio verfügt zusätzlich über einen eigenen Speicherbereich, dessen Aufgabe ausschließlich darin besteht, das für den Programmablauf benötigte Audiomaterial in der Größenordnung von 12 bis 15 Stunden zu speichern und auf Anforderung auszuspielen. Mit Hilfe eines Softwaremoduls zur Sendungsplanung werden Musik, Beiträge und Layout-Elemente zusammen mit ihren beschreibenden Daten vom zentralen Server über das Netzwerk auf den zuständigen Speicherbereich kopiert. In der Senderegie wird der Sendeablaufplan auf einem Bildschirm dargestellt. Mit der Maus oder über eine Bedienkonsole können die Elemente vorgehört sowie ihre Reihenfolge vertauscht werden. Die Ausspielwege des Servers sind im Regiepult auf Regler geführt, über deren Fernstartkontakte die Wiedergabe gestartet wird. Der Einsatz separater Speicherbereiche für Sendungsdokumente bietet zum einen den Vorteil, dass Störungen des Netzwerkes oder der Datenbank keinen unmittelbaren Einfluss auf eine laufende Sendung haben, zum anderen wird der Zentralserver von Ein- und Ausspielvorgängen in Echtzeit entlastet. Der vollständige Workflow einer Senderegie ist ausführlich in Kap. 14.2 beschrieben.

16.2 Betriebliche Einrichtungen 

 1101

16.2.12.2 Produktion Die Client-Server-Struktur ist auch zur Anwendung im Produktionsbetrieb der jeweiligen Programmwellen geeignet. Dabei erfolgen die Aufnahme und die anschließende Audiobearbeitung auf zentralen Produktionsservern, mit Zugriffen von Redaktionsarbeitsplätzen oder hochwertigen Audio-Workstations in Produktionsstudios. Die Rechner verfügen über spezielle Editoren mit zahlreichen Tools zur Bearbeitung und Beschreibung des Audiomaterials. Der fertige Beitrag wird mit einem entsprechenden Eintrag in der Datenbank abgespeichert und als Audiodatei in das Archiv des Zentralservers übertragen. Dort steht der Beitrag augenblicklich auf dem gesamten Campus zur Verfügung, sei es für den Sendeeinsatz oder zur weiteren Verwendung in der Produktion. Vernetzte audiofähige Computerarbeitsplätze kommen in verschiedenen Ausführungen und Ausstattungen in großer Zahl zum Einsatz: Leistungsstarke Audioworkstations im Produktionsstudio, einfache Aufnahme- und Bearbeitungsplätze im Redaktionsbereich incl. Headset-Mikrofon oder schlichte PCs mit Soundkarte, die ausschließlich der Wiedergabe des im Archiv recherchierten Materials dienen. 16.2.12.3 Kontribution von Programmbeiträgen Für das sendenahe Mitschneiden von Signalen über Leitung, Empfängern und anderen Audioquellen stehen spezielle Einspielrechner zur Verfügung, die über das Koppelfeld in der Betriebszentrale beschaltet werden können. Bei dieser Anwendung ist es wichtig, dass die entstehende Audiodatei sofort „on the fly“ in Echtzeit mitgehört und für Ausschnitte sofort markiert werden kann, bspw. beim Livemitschnitt eines Sportereignisses, welches in Ausschnitten kurzfristig gesendet werden soll, während die Berichterstattung noch weiterläuft. Beim laufenden Mitschnitt sendet die Einspielstation zyklisch kleine Datenpakete an den Zentralserver, der diese an die bisher aufgelaufene Datei anfügt und den Datenbankeintrag entsprechend aktualisiert. Dies geschieht zeitlich sehr rasch, so dass durchaus von QuasiEchtzeit gesprochen werden kann. Der Zugriff auf eine noch laufende Aufnahme ist somit jederzeit möglich, da stets eine lokale Kopie angelegt wird, die das bis zu diesem Moment aufgelaufene Audio enthält. Über eine geeignete Anwendersoftware können Einspielungen im Voraus disponiert und automatisch abgewickelt werden, wobei auch hier die Möglichkeit zu wochentag- oder datumsbasierter Wiederholung besteht. Umgekehrt kann aus dem System auch Audiomaterial ausgespielt werden. 16.2.12.4 Programmaustausch Die Verteilung und der Austausch aller Arten von Audiomaterial zwischen den Rundfunkanstalten erfolgen heute überwiegend dateibasiert, wobei der größte Anteil auf den ARD-weiten Filetransfer entfällt, heute mittels weConnect realisiert (s. Kap. 16.5.7). Die technische Grundlage des Datentransports ist das Hybnet, dessen Administration in den Aufgabenbereich des ARD-Sternpunkt in Frankfurt fällt (s. Kap. 16.5.6). Die sukzessive Erweiterung des zunächst nur der aktuellen Berichterstattung vorbehaltenen Systems ermöglicht seit dem Jahr 2005 auch die Übertragung längerer Beiträge in hoher Stereo- bzw. Mehrkanalqualität. Auf internationaler Ebene kommt der breitbandige Filetransfer (BAFT) bei der Verteilung von Konzertaufnahmen im Rahmen der EBU-Kooperation zum Einsatz.

1102 

 16 Digitale Betriebstechnik

Die technische Anbindung an das Hybnet und an das Internet, und vor allem die damit verbundenen Sicherheitsbelange, liegen nicht im Zuständigkeitsbereich des Hörfunks. Sie sind Bestandteil derjenigen Abteilungen einer Rundfunkanstalt, die mit dem Aufbau, dem Betrieb und dem Unterhalt der gesamten Rechner- und Netzwerkinfrastruktur befasst sind. Entsprechend sorgen strikte Sicherheitsmechanismen beim Filetransfer für den kontrollierten Datenaustausch zwischen der Außenwelt und dem Campus-Netzwerk (Firewall). Die einund ausgehende Dateien werden auf Pufferrechnern zwischengespeichert und dort in einer lokalen Datenbank verwaltet. Auf diese Weise entsteht eine Warteschlange von Transfer­ aufträgen, die von einer sog. Replikationssoftware abgearbeitet wird. Abgehende Dateien werden je nach Adressierung an den ARD-Sternpunkt oder an bestimmte Rundfunkanstalten übergeben, in ankommender Richtung wird die Weitergabe an den zentralen Audioserver angestoßen. Dabei wird gleichzeitig ein entsprechender Datenbankeintrag erzeugt, so dass das Audiomaterial gewöhnlich in weniger als einer Minute nach seinem Eintreffen dem Hörfunksystem zur Verfügung steht. Die Beauftragung eines abgehenden Filetransfers erfolgt über entsprechende Masken der im Haus verwendeten Archiv- oder Dispositionssoftware. Für Reporter und Korrespondenten im In- und Ausland besteht schließlich die Möglichkeit, über ein Web-Interface, eine Client-Applikation oder eine Smartphone-App den Zugang zum Audioarchiv einer Rundfunkanstalt zu bekommen. Eine entsprechende Zugriffsberechtigung vorausgesetzt, können dann überall Beiträge ins Funkhaus abgesetzt oder umgekehrt in den dortigen Beständen recherchierte Audiodateien auf den lokalen Rechner heruntergeladen werden. Unter der Bezeichnung Digitale Bemusterung (DigiBemus) sorgt ein eigenes Serversystem für die Bemusterung der ARD-Rundfunkanstalten mit den Neuerscheinungen der Musik­ industrie. Von den Redaktionen aus können Musiktitel in einem von der Tonträgerindustrie bestückten zentralen Serversystem am ARD-Sternpunkt in Frankfurt am Main vorgehört und bei Bedarf heruntergeladen werden. Das Material wird daraufhin in die Audiobestände der bestellenden Rundfunkanstalt übernommen und automatisch ein entsprechender Datenbankeintrag angelegt (DigiBemA). 16.2.12.5 Datensicherheit Zur Gewährleistung höchstmöglicher Betriebssicherheit ist der Zentralserver eines Funkhauses einschließlich seines Massenspeichers redundant ausgeführt. Datentechnisch gesehen werden dabei zwei Server stets auf demselben Stand gebracht. Im Gesamtsystem ist allerdings immer nur eine der Einheiten aktiv. Zusätzliche Sicherheit wird durch eine räumlich getrennte Aufstellung erreicht. Darüber hinaus werden die Gesamtbestände zyklisch auf Bandlaufwerken gesichert, wobei zumindest für den Audioanteil nur die Veränderungen zum jeweils vorigen Sicherungslauf festgehalten werden („inkrementelles Backup“). Nicht mehr benötigte Audiodateien werden nach festlegbaren Kriterien automatisch gelöscht, während zur Langzeitarchivierung vorgesehenes Material auf Magnetband ausgelagert wird. Die Metadaten werden dabei weiterhin in der Datenbank des Zentralservers geführt und bleiben für weitere Recherchen zugänglich. Ist das Archiv mit einem Bandroboter ausgestattet, so können

16.2 Betriebliche Einrichtungen 

 1103

ausgelagerte Audiodateien auf Bedieneranforderung innerhalb kurzer Zeit aus dem Langzeitarchiv zurück auf den Server überführt werden. 16.2.12.6 Anwendungssoftware Ein umfangreiches Paket an installierter Anwendungssoftware auf den digitalen Audioworkstations (AWS) ermöglicht dem Nutzer den Zugriff auf die verschiedenen Funktionen. Die einzelnen Module bilden in ihrer Gesamtheit alle Betriebsabläufe eines Hörfunks ab. Die Leistungsmerkmale einer AWS umfassen im Wesentlichen: –– Aufnahme und Bearbeitung von Audiomaterial, –– Recherche im Audioarchiv, –– Sendeplanung, –– Sendeabwicklung, –– Bestellen und Disponieren von Leitungsschaltungen und Mitschnitten, –– Systembetreuung, –– Agentur-Recherche, –– Moderationstexterfassung und -verwaltung. Die sich daraus ergebende Zusammenführung verschiedenartigster Hard- und Software für rechnergesteuerte Systeme unter einer einheitlichen Benutzeroberfläche ist nur über eine höchst differenzierte Vergabe von Zugriffsrechten möglich (s. Kap. 14.2.1).

16.2.13 Stromversorgung Die Versorgung einer Rundfunkanstalt mit elektrischer Energie erfolgt in der Regel über das öffentliche Stromversorgungsnetz. Die dreiphasig zugeführte Versorgungsspannung, in der Regel Mittelspannung bis 20kV, wird abwärts transformiert und steht mit den üblichen Werten von 400 V zwischen den Leitern und 230 V gegen Null zur Verfügung. Die Weitergabe an die Verbraucher erfolgt über Unterverteilungen in mehrere, nach Verwendungszwecken getrennte Netze. Vor allem die Einrichtungen der Daten- und Studiotechnik sind vor den Spannungsschwankungen und Störimpulsen, wie sie beim Schalten von Verbrauchern hohen Leistungsbedarfs entstehen, durch getrennte Netze zu schützen. Um den Sendebetrieb auch bei einem Ausfall der öffentlichen Stromversorgung gewährleisten zu können, steht in der Regel eine entsprechend dimensionierte Notstromversorgung im Hintergrund „stand by“. Die Energie-Versorgungsnetze, an die sämtliche senderelevanten Verbraucher angeschlossen sind, werden ebenfalls redundant ausgelegt. Im Störungsfall springen selbsttätig Dieselgeneratoren an und sind bereits nach kürzester Zeit in der Lage, die Stromversorgung zu übernehmen; es können dabei Anlaufzeiten von ca. 15 Sekunden erreicht werden. Bei Einrichtungen, die keinerlei Ausfällen oder Schwankungen der Netzversorgung ausgesetzt werden dürfen, erfolgt der Betrieb zusätzlich über eine batteriegepufferte unterbrechungsfreie Stromversorgung (USV). Die elektrische Energie wird dabei den Verbrauchern nicht direkt, sondern über eine Kombination von Gleichrichtersystem und

1104 

 16 Digitale Betriebstechnik

nachgeschaltetem Wechselrichtersystem zugeführt. Zwischen Gleich- und Wechselrichtersystem ist eine Akkumulatorenbatterie geschaltet, die ständig in voll aufgeladenem Zustand gehalten wird. Bei Auftreten einer Netzstörung übernimmt die Batterie über den Wechselrichter automatisch die Versorgung, ohne dass es auf Verbraucherseite zu Unterbrechung kommt (s. Abb. 16/22). Die Batterielaufzeiten können, je nach Dimensionierung zwischen wenigen Minuten und mehreren Stunden variieren. Die Dieselgeneratoren übernehmen nach kurzer Zeit die Stromversorgung und laden dann auch die Akkumulatorenbatterien wieder auf. Sorgfältige Wartung sowie regelmäßige Tests und Probeläufe sind eine wichtige Voraussetzung für das reibungslose Funktionieren einer solchen Anlage.

Abb. 16/22. Prinzip einer unterbrechungsfreien Stromversorgung (USV).

Die analoge Studiotechnik kannte im Wesentlichen zwei Arten der Stromversorgung. Geräte höherer Leistungsaufnahme, wie Bandmaschinen oder Leistungsverstärker, enthielten diskret eingebaute Netzteile und wurden direkt aus dem 230 V-Netz gespeist. Baugruppen mit geringerem Strombedarf, wie z. B. Regietische oder Gerätegestelle, wurden dagegen meist zentral mit einer 24 V-Betriebsgleichspannung versorgt. Die Netzteile waren überwiegend doppelt ausgeführt und derart miteinander verschaltet, dass bei Ausfall einer Einheit die Stromversorgung ohne betriebliche Einschränkungen vom zweiten Netzteil übernommen wurde. Durch die wachsende Vielfalt verfügbarer Geräte und Systeme und deren teils sehr unterschiedliche Anforderungen an die Stromversorgung, hat sich das Bild gewandelt. Die zentrale Gleichspannungsspeisung ist zwar noch in Anwendung, aber die überwiegende Mehrzahl der für freie Aufstellung oder Gestelleinbau vorgesehenen Komponenten ist heute mit eingebautem Netzteil und Kaltgeräteanschluss versehen. Auch die aus der Consumertechnik bekannten Steckernetzteile sind zunehmend im professionellen Bereich anzutreffen, vor allem bei kleineren Geräten der Digitaltechnik mit nur minimalem Leistungsbedarf. Ihr Einsatz gestattet zwar einen einfacheren und von vielen Sicherheitsaspekten unberührten Geräteaufbau, kann aber, je nach Ausführung, zu Einbußen bei der Betriebssicherheit führen. Probleme kann ferner der steigende Einsatz von Schaltnetzteilen bereiten, da sie als sog. „Nicht-lineare-Lasten“ auf Netz- und Verbraucherseite störende Einstreuungen verursachen, die zu hörbaren Störungen in den Audiosignalen führen können. Durch ihre nicht-sinusförmige Stromaufnahme verändern sie, aufgrund von Oberschwingungen, die ursprüngliche Sinusform von Strom- und Spannung.

16.2 Betriebliche Einrichtungen 

 1105

16.2.13.1 EMV-gerechte Stromversorgung Das 230 / 400 VAC / 50 Hz-Energieverteilsystem ist nicht nur die Grundvoraussetzung für elektrisch verstärkte, analog transformierte oder digital gewandelte Audiotechnik, es ist auch häufig Überträger unliebsamer Störungen. Moderne Stromnetze in einem Studio- und Sendebetrieb sollten deshalb so aufgebaut sein, dass keinerlei Störungen von ihnen ausgehen, die andere Geräte in Ihrer Funktion beeinträchtigen. Dabei dürfen nicht nur Geräte mit Anschluss an die Stromversorgung, sondern es müssen auch Geräte im Batteriebetrieb und solche mit Funkschnittstelle berücksichtigt werden. Dabei müssen, je nach Betriebsumgebung, verschiedene Grenzwerte eingehalten werden. Es wird zwischen Wohnraum und industrieller Umgebung unterschieden. Geräte aus dem Bereich der Studiotechnik werden der „ersten Umgebung“ zugeordnet und befinden sich damit in der Klasse C1. In der Klasse C2 befinden sich Geräte im überwiegend industriellen Einsatz. Für den rein industriellen Einsatz gilt die Klasse C3. Je höher die Klasse, umso höher die Grenzwerte für abgegebene Störungen und umso niedriger die Grenzwerte für die Störfestigkeit. Mediengeräte stellen erwiesenermaßen hohe Anforderungen bezüglich elektromagnetischer Störungen in ihrer Umgebung. Zudem zwingen die elektrischen Koppelmechanismen zwischen dem Energieverteilsystem und den Signalleitungen innerhalb eines Audiosystems zu einer getrennten Betrachtung der beteiligten elektromagnetischen Felder. Die Einkopplung von elektrischem Strom in Audiosysteme erfolgt sowohl galvanisch, als auch kapazitiv und induktiv. Probleme ergeben sich dann durch nahe und / oder parallel geführte Spannungswege innerhalb der Strukturen, oder durch Schleifen oder sogar auch bei direkten Verbindungen. Erfahrungsgemäß lassen sich elektromagnetische Unverträglichkeiten nie vollständig vermeiden. Stromnetzformen Für eine EMV-gerechte Stromversorgung kommen nur Netzformen in Frage, bei denen der Schutzleiter konsequent vom Neutralleiter getrennt ist. Dieses ungeerdete IT-Netz (frz. Isolé Terré, nicht zu verwechseln mit Informations-Technik) ist aus Gründen der Betriebssicherheit für Studioequipment empfehlenswert, da der erste Fehler mit Erdberührung nicht zur Abschaltung des Systems führt und durch optisches oder akustisches Signal mittel Isolationsüberwachung gemeldet wird (s. Abb. 16/23). Ein derartiges Netz eignet sich aus Gründen der Fehlersuche und des Personenschutzes jedoch nur für räumlich begrenzte Bereiche. Im Fehlerfall kommt es zu einer Spannungsüberhöhung der Außenleiter gegenüber Erde. In der Praxis wird diese Netzform v. a. in Krankenhäusern eingesetzt, im Rundfunk kommt sie nur in Sonderfällen zum Tragen (s.  auch Kap. 11.2.5.5).

1106 

 16 Digitale Betriebstechnik

Abb. 16/23. IT-Netz.

Abb. 16/24. TNS-Netz.

Besonders günstig aus Sicht der EMV-gerechten Stromversorgung ist das TN-S Netz (s. Abb. 16/24). Die Auftrennung des PEN-Leiters in einen Schutzleiter PE und einen Neutralleiter N erfolgt unmittelbar nach dem Netztrafo in der Hauptverteilung. Nach Definition dürfen die Sternpunkte der Netztrafos und weiterer Erzeugeranlagen, wie bspw. Notstromgeneratoren, nur an einem einzigen zentralen Erdungspunkt geerdet werden. Da keine weiteren Verbindungen zum Neutralleiter vorhanden sind, können keine galvanisch eingekoppelten Betriebsströme auf dem Schutzleiter fließen. Diese Netzform bedarf einer dauerhaften und sorgfältigen Überwachung der Isolation durch Differenzstrommessungen. Durch fehlerhafte Installationen, z. B. durch Vertauschungen von Neutral- und Schutzleiter in Steckdosen oder Leuchtenklemmen, können PEN-Brücken entstehen. Auch durch Alterung der Isolation entstehen häufig Fehlerströme.

Abb. 16/25. TT-Netz.

Nur noch selten in Deutschland anzutreffen ist das TT-Netz (frz. Terre Terre). Die Erdung des Sternpunktes des Netztrafos und die Körper der Betriebsmittel sind vergleichsweise hoch­ ohmig über das Erdreich verbunden (s. Abb. 16/25). Auch diese Netzform genügt nicht den Ansprüchen an eine sachgerechte EMV-Versorgung.

16.2 Betriebliche Einrichtungen 

 1107

Netzumschalter Ist aus betrieblichen Gründen das Umschalten zwischen mehreren Zuleitungen in einem unter EMV-Gesichtspunkten aufgebauten System gefordert, müssen stets auch die Neutralleiter getrennt werden, z. B. durch vierpolige Schalter. Es kommt ansonsten zu einer Aufteilung des Rückstroms auf beide Neutralleiter und somit zu ausgeprägten Magnetfeldern in den jeweiligen Energiekabeln. Leiter Energiekabel sind aus Sicht der EMV meist nicht optimal aufgebaut. Eine paarige Verdrillung von Hin- und Rückleitern, wie in der Informationstechnik Standard, gibt es bei der Energieversorgung nicht. Auch führen Drehstromkabel in aller Regel nur einen gemeinsamen Neutralleiter für alle Außenleiter. Der noch mitgeführte Schutzleiter liegt dann, sofern nicht als Außengewebe ausgeführt, stets über die gesamte Leitungslänge nahe zum Außenleiter. Eine vollständige Kompensation der Magnetfelder im Schutzleiter wird somit verhindert. Der Schutzleiter ist in Stromversorgungsnetzen deshalb stets stromführend. Aus diesem Grund hat sich in Rundfunkanstalten und anderen sensiblen stromverbrauchenden Bereichen vorteilhaft die Verwendung eines separat verlegten Schutzleiters etabliert. Der im Kabel mitgeführte Schutzleiter PE wird nur einseitig bei der Einspeisung aufgelegt und dient als Leitungsschutz. Der zusätzliche Schutzleiter FPE wird separat in einem genügend großen Abstand verlegt. Erdung Der Schutzleiter PE ist zentraler Bestandteil einer elektrischen Schutzmaßnahme i. S. v. „Schutz durch automatische Abschaltung“ (s. Kap. 8.3.5 und 11.2.5.5). Alle berührbaren Körper elektrischer Betriebsmittel (Wasserrohre, Geländer, Armierungen, Klimaanlagen, Gestelle etc.), sofern sie Fremdspannung annehmen können, müssen niederohmig an den Schutzleiter angeschlossen werden. Im Fehlerfall müssen bis zur Abschaltung der Stromversorgung gefährliche Spannungsunterschiede zu metallischen, geerdeten Teilen der Gebäudetechnik vermieden werden. Sie sind konsequent mit dem Schutzleiter als Potenzialausgleich zu verbinden. Diese, für die Personensicherheit notwendige vermaschte Struktur, bildet unter Umständen jedoch unkoordiniert weiträumige Schleifen aus, die wiederum Ströme führen können. In der Folge treten dann in Audiogeräten unliebsame Brummschleifen auf. Abhilfe schafft ein zweites, nicht vermaschtes und streng baumförmig strukturiertes Schutzleitersystem für die Studiotechnik: Der Funktions-Schutzleiter (FPE) wird ab der Haupterdungsschiene isoliert zum Gebäude geführt und kontinuierlich auf Störströme überwacht. Dies führt zu signifikantem Mehraufwand und erfordert große Sorgfalt bei der Installation und Inbetriebnahme. Störeinflüsse auf den Signalleitungen können so aber in den meisten Fällen vermieden oder zumindest frühzeitig erkannt werden. Dieses zusätzliche, unvermaschte aber trotzdem vollwertige Schutzleitersystem wird in den gültigen VDE-Normen nur ansatzweise in Normbereichen wie der [VDE 0800/Fernmeldetechnik] beschrieben, aber im [VDE-Normenreich 0100] der ELT-Installationstechnik nicht berücksichtigt.

1108 

 16 Digitale Betriebstechnik

16.2.14 Klimatechnik In nahezu sämtlichen Systemen der Audio- und IT-Netzwerktechnik geht die elektrische Leistung, die vom Stromnetz oder der USV-Anlage an die Server und Prozessoren abgegeben wird, fast vollständig in Wärme über. Bei Überhitzung in Gestellschränken oder Serverräumen kann es dann rasch zu Datenverlusten und Ausfällen der gesamten IT-Infrastruktur kommen. Eine ausreichende Kühlung der Hardware ist deshalb von hoher Bedeutung für ein Medienunternehmen. Damit die Systemelektronik stets einwandfrei funktioniert, sollten Klimaanlagen rund um die Uhr in Betrieb sein. Deren Energiekosten gehen dann allerdings schnell ins Geld. Die jährlichen Kosten für den Stromverbrauch haben deshalb, neben den Investitionskosten, hohe Priorität bei der Planung. Zur eigentlichen Kühllast (Kälteleistung) in einem Gestellraum addieren sich ggf. auch noch Wärme durch Sonneneinstrahlung, Beleuchtung und Personen. Häufig kommt dann zur sog. „sensiblen Kühlung“, d. i. die messbare Wärme im Raum, noch eine „latente Kühlung“ hinzu, bspw. um den Raum Feuchtigkeit zu entziehen. Diese vielfach zusätzlich aufzubringende Kälteleistung kann kostentreibend sein. Kühlsysteme sollten meist ganzjährig, unabhängig von der vor Ort gerade herrschenden Außenlufttemperatur, in Betrieb gehalten werden, also auch im Winter. Hilfestellung bei der Planung und Berechnung thermischer Lasten und Raumtemperaturen geben die Richtlinien [VDI 2078, Juli 2015]. Im Folgenden werden die gängigsten Methoden zur Kühlung von Rechnergestellen beschrieben. Splitverfahren Kleine Serverräume werden meist mit Umluftkühlgeräten im sog. Splitverfahren gekühlt. Solch ein Kühlsystem besteht aus zwei einzelnen Geräten, die zu einer Einheit kombiniert werden: Das Kaltluftgebläse für den Innenbereich und der außenliegende Kühlkompressor bilden die Funktionseinheit. Sie sind mittels flexibler Schläuche verbunden. Durch den geringen Platzverbrauch des Kaltluftgebläses, kann dieses ohne großen Aufwand zwischen den IT-Schränken positioniert werden. Der Ventilator am Lüfter bläst die gekühlte Luft zielgenau und mit großer Effizienz dort in den Raum, wo die Kühlung benötigt wird. So wird verhindert, dass zu viel Energie verloren geht.  Bei einfachen Raumkühlsystemen mit Deckengeräten entsteht eine Mischung von Raumluft und Zuluft. Es muss deshalb eine deutlich kühlere Zulufttemperatur erzeugt werden. Liegt diese unter dem aktuellen Taupunkt der Raumluft, bspw. bei 10° C, fällt neben der zur Raumkühlung erforderlichen sensiblen Kühlung noch Kälteleistung für die latente Kühlung an. Damit erhöht sich die elektrische Leistungsaufnahme der Kältetechnik und die Stromkosten steigen. Für größere Serverräume oder Klimatisierungen, die viel Kühlleistung erfordern, kann statt dem Split-Klimagerät auch ein luftgekühlter Kaltwassersatz genutzt werden. Die Leistung der Kaltwassersätze reicht von 80 bis 150 kW und können mit einem Kaltluftgebläse nach Bedarf verbunden werden. Über einen Kühlkreis wird eine Flüssigkeit, die sich in der Klimaanlage befindet, auf eine Temperatur von 6 – 7 Grad Celsius gekühlt. Kaltwassersätze sind klimafreundlicher und stoßen weniger C02 aus.

16.2 Betriebliche Einrichtungen 

 1109

Kaltgang- / Warmgangkühlung Bei dieser Kühlmethode werden die Serverracks im Raum so angeordnet, dass der kühle Luftstrom die Gestelle möglichst effizient durchläuft und eine Rückkopplungsschleife der erwärmten Luft zur neuerlichen Kühlung entsteht. Die kalte Luft strömt aus der Klimazentrale in den Serverraum ein, die erwärmte Luft tritt an anderer Stelle im Raum in Richtung Kühlanlage wieder aus. Häufig wird hierbei die Kühlluft unterhalb eines aufgeständerten Doppelbodens an die Serverracks herangeführt. Die Kühlluft dringt dann von unten durch die perforierten Bodenplatten und bildet einen Kaltgang. Die kalte Luft wird zur Kühlung im Gestell genutzt, die warme Abluft wird hinter den Racks in den Warmgang abgegeben. Kühlung dieser Art sorgt für eine konstante Luftzirkulation, Temperatur und Luftfeuchtigkeit im Raum. Ein variables Boden- und Deckenplenum, zielorientiert verlegt, verhindert die Vermischung von Kalt- und Warmluft. Flüssigkühlung Die Flüssigkühlung ist in einigen Bereichen eine etablierte Form der Kühlung geworden. Durch ein geschlossenes System wird mittels Pumpen eine spezielle Kühlflüssigkeit von einer zu kühlenden Komponente zur nächsten transportiert. Dieser Kreislauf enthält zahleiche Bauelemente: Röhren, Schläuche, Pumpen, Kühlblöcke und Radiatoren. In den Kühlblöcken wird dem System die Wärme entzogen, sie funktionieren ähnlich wie herkömmliche Wasserkühler. Als Kühlflüssigkeit kann de-ionisiertes Wasser oder ein elektrisch nicht leitfähiges und nicht-kapazitives künstliches Kühlmittel zum Einsatz kommen. Leitungswasser dagegen lässt sich für die Flüssigkühlung nicht verwenden, da die darin enthaltenen Ionen Korrosion verursachen. Aus demselben Grund ist es auch nicht empfehlenswert, innerhalb eines Kühlkreislaufs unterschiedliche Metalle zu verwenden. Zudem sollte Algen- und Bakterien-Wachstum verhindert werden. Die Flüssigkühlung sorgt für höhere Geschwindigkeiten im System und ist im Betrieb deutlich leiser als die Luftkühlung über Ventilatoren. Früher galt Flüssigkühlung als nahezu exklusiv. Heutige Haupt- und Grafikprozessoren hingegen erzeugen mehr Hitze als je zuvor. Einige Systeme werden daher inzwischen mit entsprechender Flüssigkühlung geliefert. Tauchkühlung Die Tauchkühlung (Immersionskühlung) gilt als eine der modernsten Kühltechnologien für Rerchnersysteme. Hierbei wird die Hardware direkt in eine dielektrische Flüssigkeit getaucht. Diese Flüssigkeit ist wärmeleitfähig und nutzt die Absorptions- und Verdunstungskühlung, um der Hardware die Wärme zu entziehen. Diese Form der Flüssigkühlung weist eine hohe Effizienz auf. Sie benötigt drastisch weniger Strom als herkömmliche Kühlmethoden. Je nachdem, wie viel Kühlflüssigkeit der Anwender verbraucht, kann das aber trotzdem ins Geld gehen. Die meisten solcher Systeme bestehen aus mehreren Komponenten wie Pumpen, Wannen, externe Kühler und Geräte zur Verdunstungskühlung. Systeme mit offenen Wannen, in denen die Hardware komplett in die dielektrische Kühlflüssigkeit eingetaucht ist, sind die kostengünstigste Variante der Tauchkühlung. Ihre Vorteile liegen im nahezu geräuschlosen Betrieb, weniger Bedarf nach Luftzirkulation und einer niedrigen Staubentwicklung im Innenbereich.

1110 

 16 Digitale Betriebstechnik

Freie Kühlung Eine weitere Technologie, mit der die Raumtemperatur reguliert werden kann, ist die freie Kühlung. Anstatt einer mechanischen Kühlung wird gekühlte Luft oder Wasser aus der örtlichen Umgebung genutzt. Diese Systeme pumpen, filtern und befeuchten das Kühlungsmittel, z. B. Wasser, aus einer Quelle im Umfeld. Diese Art der Kühlung ist allerdings nur dann eine Option, wenn entsprechend kühles Wasser oder Umgebungsluft aus natürlichen Ressourcen verfügbar ist. Das System zeichnet sich durch hohe Lebensdauer aus, was die gesamten Wartungskosten und den Energieverbrauch reduziert. Adiabatische Kühlung Die adiabatische Kühlung arbeitet mit dem vor Ort herrschenden Luftdruck. Sie verwendet Verdunstungskühlung, indem sie warme Luft durch feuchte Matten drückt, die solcherart die Raumluft abkühlen. Diese Technik basiert auf dem thermischen Grundgesetz, dass heiße Luft aufgrund ihrer geringeren Dichte über kältere Luft aufsteigt. Die adiabatische Kühlung hilft Luft effektiv zu kühlen und erlaubt die Temperatur stromsparend zu regulieren.

16.3 Audionetzwerke Seit Anfang der 1980er Jahre werden Audiodaten digitalisiert, gespeichert und digital übertragen. Im Gegensatz zur analogen Übertragungstechnik wurde es möglich, Daten verlustfrei von A nach B zu transportieren. Dabei haben sich Normierungen durchgesetzt, die den Austausch digitaler Signale zwischen den Geräten herstellerübergreifend ermöglichen, wie bspw. AES3, AES10 u. v. a. m. Herkömmliche zeitdiskrete Audionetzwerke werden heute global durch moderne Ethernet-basierte Übertragungstechnologien abgelöst. Paketorientierte, verlustfreie Verfahren ermöglichen den Transport von Daten beliebiger Formate und Inhalte. Über die reine Punktzu-Punkt-Verbindung hinaus lassen sich Audiodaten von hoher PCM-Auflösung und Kanalzahl, wie auch Metadaten und Steuerungssignale innerhalb eines IP-basierten Netzwerkes beliebig verteilen und synchron abgreifen. Ein weiterer Vorteil netzwerkbasierter Übertragung ist deren Skalierbarkeit. Mit ihr lassen sich Leistungsfähigkeit und Übertragungsbandbreiten steigern. So kann z. B. eine höhere Bandbreite zu einer Erhöhung der Anzahl gleichzeitig zu übertragender Kanäle führen, wie auch zu einer Reduzierung der Übertragungslatenz beitragen. Allerdings entstehen durch die Verwendung paketvermittelter, inhaltsunabhängiger („inhaltsagnostischer“) Datenübertragung auch Nachteile und neue Funktionsanforderungen. Diese müssen auf der Anwendungsebene der jeweils verwendeten Lösung abgefangen werden. So ist z. B. allein durch den physikalischen Anschluss eines Endgerätes an ein Netzwerk nicht mehr der jeweilige Kommunikationspartner oder -pfad festgelegt. Vielmehr wird nun mittels entsprechender Signalisierungsverfahren zwischen Sender und Empfänger kommuniziert. Nachteilig entstehen durch den Wegfall der leitungsgebundenen Übertragung variable Latenzen, denen am Zielgerät entsprechend entgegengewirkt werden muss. Die Synchronisation der Geräte untereinander muss ebenfalls von einer leitungsgebundenen

16.3 Audionetzwerke 

 1111

Basis auf eine im Netzwerk geeignete Methode umgestellt werden. Alle Datenpakete benötigen deshalb einen eindeutigen und präzisen Zeitstempel.

16.3.1 Einführung Netzwerkbasierte Ebenen und Lösungen lassen sich am einfachsten anhand ihrer Zuordnung zum OSI-Schichtenmodell klassifizieren. Der Ablauf der Kommunikation zwischen Applikationen auf verschiedenen Rechnern wird dazu in sieben aufeinander aufbauende Schichten (layer) modelliert (s. Abb. 16/26). Für jede Schicht existiert eine Beschreibung, in der festgelegt wird, was diese zu leisten hat. Auf jeder einzelnen Schicht setzt jeweils eine Instanz die Anforderungen um. Die Instanzen auf Sender- und Empfängerseite müssen nach festgelegten Regeln arbeiten, damit sie sich einig sind, wie die Daten zu verarbeiten sind. Die Festlegung dieser Regeln wird in einem zugeordneten Protokoll beschrieben, über welches eine virtuelle, horizontale Verbindung zwischen zwei Instanzen derselben Schicht auf den beteiligten Rechnern abgebildet wird. Innerhalb eines Rechners stellt jede Instanz Dienste zur Verfügung, die eine direkt darüber liegende Instanz nutzen kann. Zur Erbringung der Dienstleistung bedient sich eine Instanz selbst der Dienste der unmittelbar darunterliegenden Instanz. Der reale Datenfluss erfolgt daher vertikal. Layer 7

Application

Layer 6

Presentation

protocol-based layers

Layer 5

Session

POP3, Telnet, TCP,

Layer 4

Transport

Layer 3

Network

Internet Protocol (IP)

Network

Layer 2

Data Link

Ethernet, PPP …

Data Link

Layer 1

Physical

Application

Application and Presentation

HTTP, FTP, SMNP, UDP, RTP

Session

Transport

100111011

Physical

Physical Transmission

Abb. 16/26. OSI-Referenzmodell

Die unterste Schicht, Layer 1, ist die physikalische Übertragungsebene, auf der die einzelnen Bits übertragen werden. Sie stellt mechanische, elektrische und weitere funktionale Hilfsmittel zur Verfügung, um physische Verbindungen aufrechtzuerhalten.

1112 

 16 Digitale Betriebstechnik

Im Layer 2, liegt die Sicherungsschicht oder Verbindungsebene (data link), auf der der Zugriff auf das Übertragungsmedium geregelt und eine weitgehend fehlerfreie Übertragung gewährleistet wird. Auf dieser Schicht ist auch das Ethernet mit seinen Übertragungsprotokollen angesiedelt. Die 3. Schicht (Layer 3) wird als Vermittlungsschicht oder Paketebene (network layer) bezeichnet. Zu den wichtigsten Aufgaben der Vermittlungsschicht zählt das Bereitstellen netzwerkübergreifender Adressen, das Routing bzw. der Aufbau und die Aktualisierung von Routingtabellen sowie der Transport einzelner Datenpakete durch das Netzwerk. Basis für alle Protokolle auf dieser Schicht ist das IP-Protokoll (Internet Protocol). Darüber sind noch vier weitere Schichten definiert, die, je nach Applikation, von unterschiedlichen Protokollen bedient werden können: –– Transportschicht (transport layer) –– Sitzungsschicht (session layer) –– Darstellungsschicht (presentation layer) –– Anwendungsschicht (application layer) Für die Klassifizierung bzw. grundlegenden Unterscheidung von Audionetzwerken werden nur die unteren drei Schichten herangezogen, auch wenn eine vollständige Kommunikation auf weiteren, übergeordneten Schichten stattfindet. 16.3.1.1 Layer 1-Anwendungen Es existieren eine Reihe von Anwendungen, die ausschließlich auf dem physikalischen Übertragungs-Layer (Layer 1) basieren. Das sind Anwendungen, die zwar ein standardisiertes physikalisches Übertragungsmedium, z.B. eine Cat5-Leitung oder einen optischen Lichtleiter mit ihren jeweiligen Übertragern nutzen, hierüber aber proprietäre Protokolle und Daten übertragen. Beispiele dafür sind das A-Net, Rocknet, MediorNet, SoundWeb oder OptoCore. Da die einzelnen Lösungen aufgrund ihrer proprietären Protokolle und Mechanismen nicht interoperabel sind, werden diese meistens als Lösungen in geschlossenen Bereichen, durchaus auch in größeren Installationen, eingesetzt. Um Audiosignale zwischen diesen Insellösungen austauschen zu können, muss grundsätzlich immer in die diskrete, d. h. analoge oder digitale Signalebene gewandelt werden. 16.3.1.2 Layer 2-Anwendungen Layer 2-Anwendungen setzen auf dem Data Link Layer auf und verwenden praktisch immer das Ethernet-Protokoll. Dadurch ist es möglich, handelsübliche Ethernet-Switche für den Aufbau eines solchen Netzwerkes zu nutzen. Allerdings sind die transportierten Dateninhalte und ‑formate wiederum überwiegend proprietär, d. h. durch die jeweilige Lösung definiert. Zudem sind nahezu alle Layer 2-Lösungen auf eine bestimmte Ethernet-Technologie, meist Fast-Ethernet (100  MBit/s), beschränkt und beanspruchen meistens auch die gesamte zur Verfügung stehende Bandbreite, so dass auf dem jeweiligen Segment keine anderen Dienste betrieben werden können. Damit ist auch die maximale Kanalanzahl, sowie die max. Anzahl der an ein LAN-Segment anschließbaren Geräte festgelegt. Eine Überbrückung von verschiedenen Netzwerksegmenten ist prinzipbedingt nicht möglich.

16.3 Audionetzwerke 

 1113

Eine Ausnahme bildet hier die sog. AVB-Technologie (Audio Video Bridging), die zwar ebenfalls eine Layer 2-Technologie darstellt, jedoch in allen funktionalen Aspekten als Erweiterung des Ethernet-Protokolls [IEEE 802.1] standardisiert wurde, so dass eine Interoperabilität zwischen Geräten verschiedener Hersteller, welche den AVB-Standard unterstützen, grundsätzlich möglich ist (s. Kap. 16.3.6.1) 16.3.1.3 Layer 3-Anwendungen Layer 3-Anwendungen zeichnen sich dadurch aus, dass zur Datenübertragung die Netzwerkschicht (IP-Schicht) verwendet wird. Hier werden IP-Datagramme zum Transport der Dateninhalte verwendet, weshalb solche Lösungen auch als Audio-over-IP bezeichnet werden. Mit IP-basierten Anwendungen ist, im Gegensatz zu Layer 2-Anwendungen, prinzipiell auch ein netzwerkübergreifendes Routing möglich, auch wenn es hierzu weiterer Spezifikationen bedarf. Bekannte und verbreitete Layer 3-Anwendungen sind z. B. Livewire (Axia), QLAN (QSC) oder Dante (Audinate), die zwar standardisierte Transport- und Kommunikationsprotokolle verwenden, aber deren Dateninhalte überwiegend proprietär sind. Die eigentliche Kerntechnologie ist oft als „Black-Box“ ausgeführt, für deren Anwendung bzw. Integration entsprechend Lizenzgebühren zu entrichten sind. Eine Ausnahme in dieser Hinsicht bietet die RAVENNA-Plattform (ALC NetworX). Sie ist als offene Lösung konzipiert, bei der alle verwendeten Protokolle sowie Dateninhalte in einem White-Paper vollständig beschrieben werden. Die Implementierung unterliegt keiner Lizenzverpflichtung, so dass die Technologie herstellerübergreifend Akzeptanz und breite Verwendung gefunden hat.

OSI Layer

A-Net OptoCore MediorNet

EtherSound

CobraNet

Dante & Livewire

AVB

RAVENNA AES67 SMPTE 2110

Application Presentation Session

RTP

RTP

Transport

UDP

UDP

Network

IP

IP

Data Link Physical

Ethernet Copper / Fiber

Copper / Fiber

Ethernet

Ethernet

Ethernet

Ethernet

Copper / Fiber

Copper / Fiber

Copper / Fiber

Copper / Fiber

Abb. 16/27. Das OSI-Layer Modell mit typischen Netzwerktechnologien und -lösungen

1114 

 16 Digitale Betriebstechnik

Zu den Layer 3-Technologien sind auch die Codec-Anwendungen zu rechnen, die in der Regel nicht dienstgütegesicherte IP-Strecken, also frei verfügbare Internetverbindungen, mit der Zielsetzung nutzen, den Audioinhalt möglichst gut zu übertragen. Eine Interoperabilität zwischen Geräten verschiedener Hersteller wird durch den sog. ACIP-Standard der EBU [Tech3326] ermöglicht. ACIP ist allerdings nur bedingt für eine Echtzeit In-House-Datenübertragung geeignet, weil es nur für eine Punkt-zu-Punkt-Verbindung zwischen zwei Geräten definiert ist. Darüber hinaus arbeiten diese Lösungen in der Regel mit Datenkomprimierung und Fehlerkorrekturverfahren, die typischerweise zu höheren Latenzen führen. Abb. 16/27 zeigt, wie sich die genannten typischen Netzwerktechnologien und -lösungen in das OSI-Schichtenmodell einordnen.

16.3.2 Netzwerktopologien In Medienunternehmen trifft man häufig auf traditionelle Netzwerktopologien, die auf einem dreistufigen Layer-2-Netzwerk basieren. Für einen sicheren Betrieb kommt das „SpanningTree-Protokoll“ (STP) zum Einsatz, welches bei Ausfall einer Verbindung automatisch eine neue Route im Netz auswählt. Zentraler Bestandteil dieser Topologie sind die Core-Switche (Kerne), die auf einer hoch performanten Hardware basieren. Sie stellen die Routingdienste für die anderen Bereiche des Netzwerks sowie zu Bereichen außerhalb der Infrastruktur zur Verfügung. In der Aggregations- oder Verbindungsebene wird die Konnektivität zu den benachbarten Access-Layer-Switchen und der Spitze des STP-Kerns, dem Core, hergestellt (s. Abb. 16/28). Dahinter befindet sich, am unteren Ende des Baums, die Zugriffsebene. Hier werden die physischen oder virtuellen Netzwerkkomponenten angeschlossen und mithilfe verschiedener virtueller oder logischer Netze im Netzwerk, sog. VLANs, segmentiert.

Core (Kern)

Aggregation (Verbindung)

Access (Zugriff)

Abb. 16/28. 3-stufiges Layer-2 Spanning-Tree-basiertes Netzwerk

16.3 Audionetzwerke 

 1115

Die Anwendung von Layer-2 Netzwerken und STP bedeutet, dass auf der Zugriffebene VLANs verwendet werden, die über das gesamte Netzwerk verteilt sind. Bei der Konfiguration des STP ist besonders darauf zu achten, dass keine Loops (Rückkopplungsschleifen) entstehen, die zur völligen Überlastung des Netzwerks führen können. Die Layer-2-Topologie mit STP ist typischerweise für einen Netzwerkverkehr in Nord-SüdRichtung des Netzwerks entwickelt worden. In modernen Netzwerkumgebungen, mit Virtualisierung und hyperkonvergenter Infrastruktur (HCI), also softwarezentrierter Infrastruktur, entwickelt sich massiver Ost-West-Verkehr innerhalb der Netzwerkstruktur. Läuft dieser über die herkömmliche Architektur, entstehen bei Endgeräten, die an denselben Switch-Port angeschlossen sind, allerdings Bandbreitenprobleme. Sie äußern sich in höheren Latenzzeiten für den Benutzer. Abhilfe schafft hier ein modernes Netzwerklayout, die Spine-Leaf-Architektur. Sie basiert entweder auf Layer-2 oder Layer-3-Routing und zeichnet sich durch verbesserte Latenzzeiten, Skalierbarkeit, größere Bandbreite und geringere Engpässe aus. Die Spine-Switche übernehmen das Routing, müssen aber nicht mehr so hoch performant sein wie die Core-Switche und können bei Bedarf durch zusätzliche Spine-Switche ergänzt werden. Die Leaf-Switche stellen den Zugriff für die Endgeräte her: Jeder Leaf-Switch ist mit jedem Spine-Switch verbunden. Somit kann jedes angeschlossene Endgerät mit einem anderen Endgerät kommunizieren, ohne dass mehr als eine Switch-Verbindung zwischen zwei Leaf-Switches besteht (s. Abb. 16/29). Damit werden konstante und niedrige Latenzzeiten im Netzwerk ermöglicht.

Spine

Leave

Abb. 16/29. 2-stufiges Spine-Leaf-basiertes Netzwerk

Für den Einsatz von echter 2-Wege-Führung, wie sie in professionellen Mediennetzen erforderlich ist, bietet das Spine-Leaf-Modell aber im Standard keine sichere Lösung an, außer man setzt auf statisches Routing. Als Lösung wird das Netzwerk gedoppelt aufgebaut und in zwei Bereiche aufgeteilt. Jedes Endgerät, wie bspw. ein digitales Tonmischpult mit redundanter AES67-Schnittstelle nach SMPTE 2022-7 (s. Kap. 16.3.7.3), wird sowohl mit dem einen Leaf-Switch (rot gekennzeichnet), wie auch dem anderen Leaf-Switch (blau gekennzeichnet) verbunden (Abb. 16/30a +b).

1116 

 16 Digitale Betriebstechnik

rotes Netzwerk

Endgerät

blaues Netzwerk

Endgerät

Abb. 16/30 a + b. 2-Wege-Führung Standard mit rot/blau-Netzwerk

16.3.3 Netzwerke - Software-Defined Network Eine Telekommunikationsarchitektur lässt sich in drei integrale Komponenten in Form von Ebenen oder Planes aufteilen: 1. Management Plane: Zugang, Verwaltung und Überwachung der Netzwerkkomponenten. Zur Anwendung kommen verschiedene Netzwerkprotokolle, wie z.B. SNMP, Simple Network Management Protocol, SSH, Secure Shell, TELNET oder NETCONF, Network Configuration Protocol. 2. Control Plane: Austausch von Routinginformationen zwischen benachbarten Systemen oder Routern. Zur Anwendung kommen Routingprotokolle wie z.B. RIP, Routing Information Protocol, BGP, Border Gateway Protocol, OSPF, Open Shortest Path First [RFC 2328]), oder EIGRP, Enhanced Interior Gateway Routing Protocol. 3. Data Plane: Ausführung aller Anweisungen zu Routing und Datenraten-Reservierung. In Routern erfolgt dies über die Routingtabelle und/oder die Weiterleitungstabelle (Forwarding-Plane). In Switchen erfolgt das über die MAC-Adresstabelle und die Vermittlungslogik. In Mediennetzen ist es zwingend erforderlich die Steuerung des Netzwerks von der Datenweiterleitung zu trennen, z. B. um Vorgaben zu Signalwegen oder notwendigen Datenraten an die beteiligten aktiven Netzwerkkomponenten gezielt übermitteln zu können und dies nicht der internen Steuer-Intelligenz der Geräte selbst zu überlassen. Das zugehörige Konzept nennt sich Software-Defined Networking (SDN), welches ermöglicht, das Netzwerkverhalten dynamisch zu verändern. Hierbei werden die beiden zentralen Komponenten eines Switches oder Routers, die Data Plane und die Control Plane, voneinander getrennt. Der NetzwerkController im Switch, der die internen Datenströme auf der Hardware überwacht und regelt, wird für die Steuerung des Netzwerks von außerhalb über ein Application Programming

16.3 Audionetzwerke 

 1117

Interface (API) bedient. Je nach Hersteller kommen auch hier verschiedene API-Protokolle zum Einsatz wie OpenFlow oder sonstige proprietäre Implementationen. Im Gegensatz dazu hat die Firma Cisco ein eigenes Verfahren für Non Blocking Multicast (NBM) entwickelt, welches ohne externe Steuerung auskommt. Dies reduziert die Komplexität bei einer StandAlone-Installation erheblich, bspw. in einem Ü-Wagen mit ausschließlich Cisco-Lawo-Komponenten. Für den Einsatz solcher Switche in gemischten Netzen lässt sich NBM im passiven Modus betreiben und somit auch per SDN steuern (Software-Defined Networking). In geschlossenen Mediennetzen werden die Audio/Video-Daten meistens als MulticastStreams übertragen (s. Kap. 16.3.5.1). Zur Steuerung werden verschiedene Protokolle verwendet, wie z. B. das Protocol Independent Multicast (PIM) oder Interior Gateway Protocol (IGP). In komplexen Broadcastsystemen existieren gleichzeitig viele Audio-, Video- und Metadaten-Streams, die gesteuert und geschaltet werden müssen. Dabei kommt es häufig zu gleichzeitigen Schaltvorgängen mit einer großen Anzahl von Streams zu einem definierten Zeitpunkt, bspw. beim Abruf eines Salvos (vorbereitete Liste von Schaltaufträgen). In diesem Fall wäre eine Steuerung über das Internet Group Management Protocol (IGMP, s. Kap. 16.3.5.4) aus Zeitgründen nicht möglich, weil die Geschwindigkeit des sequenziellen Abarbeitens der Liste, u. a. im IP-Routing, der begrenzende Faktor ist. Der Flaschenhals ist dabei der Switch, bzw. das Endgerät. Die Entwicklung im Open-Source-Projekt OpenFlow hat zur Lösung dieses Problems beigetragen. Es handelt sich dabei um ein Kommunikationsprotokoll auf Basis eines offenen Standards, der von vielen Herstellern unterstützt wird und somit Hardwareunabhängig ist. OpenFlow erlaubt es, mit einer Software den Weg zu bestimmen, den die Pakete durchs Netzwerk nehmen sollen. Die OpenFlow-Software läuft dabei auf Routern und Switchen und hat Zugriff auf die physische und virtuelle Routingebene. Die Routingtabellen werden zentral im OpenFlow-Controller verwaltet, dadurch wird das Netzwerk segmentiert und virtualisiert; der Datenverkehr kann über das gesamte Netzwerk kontrolliert werden.

Open-Flow Controller

OpenFlow-Switch FlowTable Forwarding Plane

OpenFlow-Switch

FlowTable Forwarding Plane

OpenFlow-Switch FlowTable Forwarding Plane

Abb. 16/31. Funktionsweise OpenFlow

1118 

 16 Digitale Betriebstechnik

Im gesamten System übernehmen verschiedene Teilsysteme die Aufgaben vom Anschluss der Endgeräte, bis hin zur Bedienung im Studio.

VSM / KSC / etc.

Orchestrator

Broadcast-Controller Studio-Managament

Orchestrierungs-Layer

SDN / API

SDN: Netzwerk-Steuerung

Netzwerk

Physisches Netzwerk

Abb. 16/32. Orchestriertes SDN-Gesamtsystem

Die Wirkungsweise eines orchestrierten SDN-Gesamtsystem wird im Kap. 16.3.7 näher beschrieben. Im Kapitel 16.2.9.3 wird die Anwendung des Broadcastcontrollers in der betrieblichen Praxis erläutert.

16.3.4 Synchronisation in Mediennetzwerken 16.3.4.1 Precision Time Protocol IEEE-1588 Obwohl Ethernet heutzutage die führende Technologie in Weitverkehrs- und lokalen Netzwerken ist, wurde sie zunächst für Anwendungen entwickelt, die keine gemeinsame Synchronisation erwarten. Durch die Migration von Ethernet-Schnittstellen in Bereiche, die eine hochgenaue Synchronisation im Nano- oder Microsekundenbereichen benötigen, müssen deshalb Änderungen an der bestehenden Hardware und Netzinfrastruktur durchgeführt werden. In zahlreichen Anwendungsbereichen, u. a. auch in der Audiotechnik, übernimmt das Precision Time Protocol (PTP-Protokoll) die Synchronisation verteilter Netzwerkelemente zu einem Master-Takt, wobei Restungenauigkeiten nur noch im Nanosekundenbereich zu finden sind. Der Standard [IEEE-1588 Precision Time Protocol, PTP] beinhaltet ein Protokoll, welches unabhängige Uhren in verschiedenen Netzelementen über ein verteiltes Master-Slave‑Konzept mit hoher Genauigkeit hinsichtlich Frequenz, Phase und Zeit synchronisiert. Um die Aufgaben der Synchronisation durchzuführen, werden zwei Grundkomponenten benötigt:

16.3 Audionetzwerke 

 1119

–– Der Grandmaster-Server liefert einen hochgenauen Referenztakt innerhalb einer PTPDomain. Aus diesem Referenzsignal wird ein Zeitstempel abgeleitet, der kontinuierlich an die PTP-Slaves gesendet wird. –– Im PTP-Slave werden die Zeitpakete herausgefiltert und als Zeitstempel für den Abgleich ihres lokalen Taktes verwendet. Zusätzlich werden in den PTP-Slaves Laufzeitmessungen durchgeführt, um die Laufzeit zwischen Grandmaster und Slave zu ermitteln. Sie wird als Korrekturwert für den Abgleich benötigt. Master und Slave halten ihre Systemuhren synchron, indem in kontinuierlichen Abständen PTP-Nachrichten mit hochgenauen Zeitstempelinformationen untereinander ausgetauscht werden.

GP

S

vorher

GPS

Hochgenaue Zeitstempelgenerierung

Grandmaster Server Master Clock

vorher

nachher

1588 Slave Slave clock

PTP

PTP

UDP

UDP

IP

IP

MAC Physikalischer Layer

Sendet periodisch Timing-Nachrichten an den Slave

Timing Handshake

Netzwerk Daten-Pakete Timing-Pakete

nachher

MAC Physikalischer Layer

Der Slave antwortet mit Nachrichten an den Master

Abb. 16/33. Prinzipieller Aufbau eines Uhrenabgleichs

Um den Einfluss von Betriebssystem und Protokollstack (Protokollstapel) so gering wie möglich zu halten, wird beim Aussenden und beim Empfang von PTP-Nachrichten der hochgenaue Zeitstempel zwischen der Media-Access-Control-Adress (MAC-Schicht) und dem physikalischen Layer eingefügt. Der Takt des Masters wird als Zeitstempelinformation über das Netzwerk an die PTPSlaves übertragen. Die Genauigkeit der Synchronisation wird durch die Netzelemente im Übertragungsweg beeinflusst. Durch die Pufferfähigkeit von Switches und Routern variiert die Paketlaufzeit bei unterschiedlichen Paketlängen. Die Laufzeit und die Schwankung der Laufzeit muss vom PTP-Slave erkannt und korrigiert werden. Die Verifizierung des richtigen Offset- und Laufzeitwertes unterliegt dem Algorithmus des Herstellers und ist nicht standardisiert. Dies ist ein Unterscheidungsmerkmal der verschiedenen Anbieter von PTP-Komponenten. Je genauer die lokale Uhr zur Referenzuhr sein soll, um so ausgefeilter muss der Algorithmus im PTP-Slave sein.

1120 

 16 Digitale Betriebstechnik

Slave Clock

Master Clock PTP

T1

sync

follow_up

GP S

UDP IP

delay_req.

MAC T4

delay_resp.

Server

PTP T2

T3

PTP

UDP IP

IP

MAC Client

1 pps

Abb. 16/34. Grundsätzlicher Nachrichtenaustausch

Der Master sendet Sync-Nachrichten mit der hochgenauen Uhrzeit in zyklischen Intervallen zum PTP-Slave. Um eine Verzögerung beim Senden des Zeitstempels innerhalb des Systems (Protokollstack) zu verhindern, kann auch parallel dazu die exakte Uhrzeit mit einer FollowUp-Nachricht übermittelt werden. Erfolgt das Einfügen der Zeitstempel mit schnellen, kundenspezifisch programmierten Chips (FPGAs), kann der Zeitstempel direkt mit einer SyncNachricht gesendet werden. Es ist dann keine Follow-Up-Nachricht notwendig. Der Slave misst die exakte Ankunftszeit der SYNC-Nachricht und berechnet daraus den Offset zum Master-Takt. Die zeitliche Differenz zwischen Master und Slave wird um den Offset korrigiert. Voraussetzung ist ein symmetrisches Delay. Die Hin- und Rückrichtung der Nachrichtenpakete sollte gleich sein. Die Berechnung des Zeitversatzes erfolgt mit der Formel θ = ½ [(T2 – T1) - (T4 – T3)] θ = Offset T2 – T1 = master to slave delay T4 – T3 = slave to master delay

Um die Verzögerung der Übertragungsstrecke zu ermitteln, werden Delay Request- und Delay Response-Nachrichten ausgetauscht. Die Delaymessung wird kontinuierlich in kurzen Intervallen vom PTP-Slave durchgeführt. Der PTP-Slave sendet seine Delay Request-Nachricht an den Master, zusammen mit der exakten Sendezeit. Der Master ermittelte nun die genaue Empfangszeit und sendet diese an den PTP-Slave mit einer Delay Response-Nachricht zurück. Aus diesen Informationen werden im Slave die Laufzeitverzögerung zwischen Master und Slave berechnet. Bei der Berechnung geht man von einer symmetrischen Übertragungsstrecke aus. Mit den Werten der Offset- und der Delay-Messung korrigiert der Slave seine eigene Uhrzeit.

16.3 Audionetzwerke 

 1121

Die Berechnung der Laufzeit erfolgt mit der Formel: δ = ½ [(T2 – T1) + (T4 – T3)] δ = Mean delay

T2 – T1 = master to slave delay T4 – T3 = slave to master delay

S GP

GP

S

Das PTP-Protokoll setzt hohe technische Anforderungen an die Netzinfrastruktur: –– Durchlaufzeiten durch die Koppelelemente wie Switch und Router bestimmen die Genauig­keit des Zeitabgleichs. –– Laufzeit- und Lastschwankungen, sowie ausgelastete Puffer führen zu Ungenauigkeiten und verschlechtern die Genauigkeit. –– Lastspitzen (Microbursts) können zu Paketverlusten führen, haben aber einen geringeren Einfluss auf die Synchronisationsgenauigkeit. –– Erhöhung der Genauigkeit der Synchronisation wird erreicht bei geringen Netzlasten, beim Einsatz aktiver PTP-Komponenten in der Übertragungsstrecke, mit weniger Netzelementen im Übertragungsweg oder mit einer Segmentierung und Aufteilung aktiver PTP-Komponenten in mehrere, logische PTP-Domains (Gruppe von Taktgeräten, die sich innerhalb ihres Bereichs synchronisieren; eine Synchronisation mit Taktgeräten in anderen Domains ist nicht möglich).

PTP-Domain x

Masterclock 1 (aktiver Master)

PTP-Domain x

Boundary Clock

Masterclock 2 (passiver Master)

PTP-Domain x Boundary Clock PTP-Domain x

PTP-Domain x PTP-Domain x

Transparent Clock PTPSlave

PTPSlave

Transparent Clock PTPSlave

z. B. Mixer, Multiviewer …

PTPSlave

PTPSlave

Transparent Clock PTPSlave

z. B. Kameras, Audioquellen …

Abb. 16/35. Konfigurationsbeispiel mit PTP-Domain x

PTPSlave

PTPSlave

PTPSlave

z. B. Monitor, Media Devices …

1122 

 16 Digitale Betriebstechnik

Sollen Genauigkeiten im Micro- oder Nanosekundenbereich erreicht und diese Genauigkeit noch stabil über einen längeren Zeitraum gehalten werden, müssen aktive Komponenten im Übertragungsweg eingesetzt werden. Aktive Komponenten bedeuten, dass die Koppelelemente auf der Übertragungsstrecke eine eigene PTP-Fähigkeit besitzen. Damit sind sie aktiv am PTP-Nachrichtenaustausch beteiligt und verbessern dadurch die Genauigkeit und Stabilität des Abgleichs. Die dafür entwickelten Netzelemente besitzen zusätzlich zu ihrer Switching- und Routing-Aufgabe eine sog. Boundary- und Transparent-Clockfunktion. Boundary Clock Boundary Clocks sind Netzelemente mit mehreren Ports, die als Master oder Slave innerhalb einer Domain konfiguriert werden können. Sie reduzieren die Anzahl an Netzübergängen und die Durchlaufzeiten über die Switches und Router. Eine Zeitsynchronisation mittels Boundary Clock ist für hierarchische Netzarchitekturen gut geeignet. Gleichzeitig bedient der Master die im Downstream liegenden Slaves. Bei Netzen mit vielen PTP-Slaves wird dadurch zusätzlich eine Entlastung des Grandmaster erreicht.

Timing Nachrichten T

Boundary Switch

Slave Port

Master Port

Timing Nachrichten T

Abb. 16/36. Boundary Clock. Keine Durchlaufzeit der Timingpakete durch das Koppelelement, eigener stabiler Oszillator, Holdover-Funktion wird unterstützt.

Boundary Clocks besitzen eine gute Skalierbarkeit und ermöglichen eine bessere Kontrolle der Timing-Hierarchie. Sie unterbrechen den Ende-zu-Ende-Nachrichtenaustausch und belasten dadurch den Referenzmaster weniger. Zusätzlich stellt eine Boundary Clock eine redundante lokale Mastertaktquelle bei Ausfall der Referenztaktquelle zur Verfügung (Holdover). Transparent Clock Ein weiteres Element in einer Netzarchitektur ist der Transparent Clock. Er kann nicht als Master oder Slave konfiguriert werden. Es gibt zwei Konfigurationsarten, die beide die Paketverzögerungen beim Durchlaufen der Timingpakete durch die Netzelemente kompensieren und die Durchlaufzeit als Korrekturwert zusätzlich in die Timingpakete miteinfügen: –– End-To-End Transparent Clock; alle Netzelemente in der Übertragungsstrecke müssen den Transparent Clock Mode unterstützen. Er ist nicht Teil der Master-Slave-Hierarchie. –– Peer-to-Peer Transparent Clock-Modus; zusätzlich zur Durchlaufzeit durch die Netzelemente wird die Verzögerung der physikalischen Verbindung zwischen den Ports ermittelt. Dieser Wert wird zusätzlich als Korrekturwert mit in die Pakete eingefügt. Best Master Clock Algorithmus Ein Vorteil bei Ausfall des Referenzmasters ist der Best Master Clock-Algorithmus (BMCA). Sollte der aktive Grandmaster seine externe Synchronisation verlieren, oder nicht mehr im

16.3 Audionetzwerke 

 1123

Netzwerk verfügbar sein und mindestens ein zweiter Grandmaster ist als Redundanz verfügbar, wird dieser automatisch zum Referenzmaster. Alle Slaves übernehmen automatisch den Takt des vormals passiven Masters, der jetzt zum Referenzmaster geworden ist. Dieser Mechanismus lässt sich innerhalb einer Domain durch die Parameter „Priorität 1 und 2“in den Announcement-Nachrichten der Grandmasterclocks, sowie über die Intervalle der Announcement-Nachrichten und des zugehörigen Time-Outs steuern. Die verfügbaren Master kommunizieren dabei über die Announcement-Nachrichten auch untereinander und bestimmen den Master mit den besten Synchronisationswerten zum „Best Master“. Das alles muss gewissenhaft für das gesamte Netzwerk konfiguriert werden, damit es nicht zu unerwünschten und instabilen Umschaltvorgängen im Netzwerk kommt. Alle anderen Grandmasterclocks gehen in den Zustand passiver Master.

16.3.5 IT-Transport 16.3.5.1 Einführung in IP-Multicast Das Ethernet- und IP-Protokoll ist in der Regel das Netzwerk der Wahl für die Vernetzung von Rechnern heutzutage. Es ist überall zu finden und hat sich gegen viele andere Protokolle durchgesetzt. Durch die paketorientierte Übertragung werden die Pakete anhand ihrer Adressinformationen durch die Netze vermittelt. Dabei wird versucht, die Übertragung der Informationen mehr und mehr zielgerichtet durchzuführen. Anstatt mit Broadcast die Informationen an alle Teilnehmer des Netzes zu übertragen, werden die Informationen nur noch an diejenigen Teilnehmer gesendet, die diese auch benötigen. Durch die Multicastübertragung greifen mehrere Empfänger auf einen Datenstrom zu und reduzieren dadurch die Auslastung auf den Übertragungsstrecken. Dadurch kann eine Netzwerkinfrastruktur effizienter ausgenützt werden. –– Broadcast-Übertragung: Von der Quelle einmal abgesendet, wird der Transportstrom in jedem Knoten so vervielfacht, dass die Daten an jedem Punkt und an jedem aktiven Anschluss zur Verfügung stehen. Jeder Teilnehmer des Netzes ist Empfänger. Wer die Daten nicht benötigt oder empfangen will, muss diese nach dem Empfang verwerfen. Die Übertragung ist also sehr ineffizient. –– Unicast-Übertragung (Punkt-zu-Punkt): Die Quelle sendet die Pakete in Form eines klar adressierten Transportstroms zum Ziel. Jedes Paket ist nur einmal zwischen den beiden Kommunikationspartnern im Netzwerk vorhanden. Bei vielen Unicast-Verbindungen kann die zur Verfügung stehende Übertragungsstrecke überlastet werden. –– Multicast-Übertragung (Punkt-zu-Mehrpunkt): Die Quelle sendet die Pakete an mehrere Empfänger. Der Transportstrom wird von der Quelle einmal erzeugt und an Verteilpunkten im Netzwerk so vervielfacht, dass nur diejenigen Teilnehmer, die den Strom empfangen wollen, ihn auch erhalten. Alle diese Empfänger sind Mitglieder einer Gruppe. Mit dieser Art der Übertragung kann ein einzelner Datenstrom an viele Teilnehmer übertragen werden, ohne das Netzwerk zu überlasten.

1124 

 16 Digitale Betriebstechnik

16.3.5.2 Multicast-Adressen Multicast-Adressen können statisch oder dynamisch zugewiesen werden und erlauben damit vielseitige Anwendungen. Bei der dynamischen Adressierung erhalten die Teilnehmer eine Multicast Adresse für eine bestimmte Nutzungsdauer geliehen. Nur solange die Adresse gebraucht wird, soll sie der Anwendung zugewiesen werden. Statische Multicast-Adressen Sie sind ständig aktiv. Erfolgt die Kommunikation für diesen Prozess mittels Multicast, so muss die Gruppenadresse einerseits stets verfügbar sein und sollte andererseits auch jedem Teilnehmer bekannt sein. Zu diesem Zweck hat die ICANN (Internet Corporation for Assigned Names and Numbers) sog. „Well Known Multicast Adressen“ definiert. Durch das Reservieren von Adressen kann eine weltweite Eindeutigkeit garantiert werden. Any Source Multicast-Adressen, ASM Sie übertragen die Nutzdaten nur an eine Gruppe mit mehreren Mitgliedern. Die Gruppen können unabhängig vom Standort ihrer Mitglieder sein. Für die Empfänger ist es möglich, Multicast-Streams von allen Sendern zu empfangen. IP-Multicast überträgt die Daten an eine Empfängergruppe, die durch ihre Multicastadresse gekennzeichnet ist. Dies verhindert überflüssigen Verkehr und führt zur effektiven Ausnutzung des Netzwerkes bei gleichzeitiger Übertragung an mehrere Teilnehmer. ASM unterstützt dabei sowohl eine one-to-many-, als auch many-to-many-Gruppenkommunikation. One-to-many-Gruppenkommunikation bedeutet, dass es einen Sender für eine Vielzahl von Empfängern gibt. Bei many-to-manyGruppenkommunikation kann es hingegen eine Vielzahl von Sendern für eine Vielzahl von Empfängern geben. Source-Specific Multicast, SSM Bei Source-Specific Multicast, (SSM, RFC 4607) werden, im Gegensatz zu ASM, die Nutzdaten nur von einem einzigen spezifizierten Sender an eine Gruppe von mehreren Mitgliedern übertragen, es findet also nur eine one-to-many-Gruppenkommunikation statt. Ein MulticastChannel besteht aus einem Sender und einer Gruppe von Empfängern. Dadurch kann sowohl die Last innerhalb des Netzwerks reduziert, als auch die Netzwerksicherheit erhöht werden. Pro Gruppe können auch mehrere Multicast-Channels existieren. In größeren, ge­managten Netzen wird aus diesen Gründen diese Art der Multicast-Übertragung zunehmend wichtiger (s. Kap. 16.5.7.3), gleichwohl nicht immer notwendig. IP-Multicast Sie ist eine Ergänzung der IP-Protokolle und wird im RFC-Protokoll 1112 beschrieben. Multi­ castverbindungen erleichtern die Übertragung von IP-Paketen an Gruppen mit beliebiger Teilnehmerzahl und liefern die IP-Pakete an Gruppenmitglieder unabhängig von deren geographischen Standort. Teilnehmer können während des Betriebs einer Gruppe beitreten und diese auch wieder verlassen. Multicast Anwendungen skalieren sehr gut, da die Quelle theoretisch nur eine Multicast Adresse bedienen muss. In der Praxis ist eine Quelle aber in der Lage viele Gruppenadressen

 1125

16.3 Audionetzwerke 

zu bedienen. Die Anzahl der Empfänger und deren Unicast-Adressen sind der Quelle nicht bekannt. 16.3.5.3 Multicast-Kommunikation Eine Station, die an einer Multicastübertragung teilnehmen soll, muss in der Lage sein, Unicast-, Multicast- und Broadcast-Verkehr zu empfangen. Ist diese Station, wie heute meist üblich, an einem lokalen Ethernet-Netzwerk angeschlossen, so muss die IP-Multicast-Adresse folgerichtig auf eine MAC-Adresse (Media-Access-Control-Adresse) im Layer 2 abgebildet werden, da jedes IP-Paket in einem Ethernetrahmen transportiert werden muss. Eine Ethernet-Netzwerkkarte empfängt über ihre Schicht2-Funktion nur dann einen Rahmen, wenn im Feld „MAC Zieladresse“ eine ihr bekannte Multicastadresse steht. 16.3.5.4 Protokollstack Wird eine Multicastanwendung auf einem System aktiviert, baut das Betriebssystem parallel zum bestehenden Protokollstack (Protokollstapel) einen zusätzlichen Multicast-Protokollstack für die Dauer der Anwendung auf. Dies ermöglicht es dem System gleichzeitig Unicastund Multicastpakete zu empfangen. Über die Protokollzusammensetzung können die empfangenen Daten an die Anwendung weitergereicht werden. Netzwerkstream öffnen

Adresse http://www.Medien-Anbieter.com

Internetbrowser

Unicast Protokoll Stack

Datei

Medienplayersoftware

Medien

Netzwerk

Aufnahmegerät

Netzwerkprotokoll Bitte geben Sie eine Netzwerkadresse ein

rtp://239.0.0.5:1234

MPEG

HTTP Port:80

RTP Port:1234

TCP

UDP

IP 192.168.2.34

IP 239.0.0.5

MAC 00-04-3a-45-fe-0c

MAC 01-00-5e-00-00-05

Multicast Protokoll Stack

IP

MAC

vom IPTV Server

01-00-5e-00-00-05

d4-24-fa-04-e2-1c

239.0.0.5

13.0.0.99

DA

SA

DA

SA

MAC vom Webserver

IP

00-04-3a-45-fe-0c

d4-24-fa-04-e2-1c

192.168.2.34

67.16.223.124

DA

SA

DA

SA

Abb. 16/37. Beispiel eines Hosts mit Unicast- und zusätzlich Multicast Protokollstack für einen Medien-Player

Prinzipiell muss die Multicast-Quelle nicht wissen, wer die Empfänger sind. Streng genommen muss die Quelle noch nicht einmal Mitglied der Multicast-Gruppe sein, die von den Empfängern gebildet wird.

1126 

 16 Digitale Betriebstechnik

Ein Multicast-Empfänger benötigt Informationen, welche Multicastgruppen es im Netz gibt. Ein Host entscheidet selbst, welcher Multicastgruppe er beitreten will und führt den Prozess des Abonnierens durch. Mit dem Join-Prozess beantragt ein Host die Gruppenmitgliedschaft bei den Netzelementen, die für die Verteilung des Multicaststreams zuständig sind. Wird der Beitrittswunsch akzeptiert, so leiten die Netzelemente den Multicastverkehr der gewünschten Gruppe auf das Interface weiter, über den der Join-Prozess empfangen wurde. Aufwendiger wird es, wenn die Multicastverteilung über verschiedene IP-Netze erfolgen soll. Dann müssen die IP-Router in die Verteilung mit einbezogen werden, und die Router müssen entscheiden, auf welchen Ports und in welche Netze sie den Multicastverkehr replizieren. Dies funktioniert nur, wenn die Kommunikationsstruktur multicastfähig ist und Protokolle zum Einsatz kommen, die die Signalisierung, Verteilung und Festlegung der Verteilstruktur durchführen. Dazu ist eine Koordination in den beteiligten Elementen wie Switches und Routern notwendig. Diese benötigen Kenntnis der Gruppen und ihrer Mitglieder, um dann den optimalen Weg zur Festlegung des Verteilungsbaumes zu erstellen. Dabei werden Protokolle eingesetzt, s. Abb. 16/38, wie: –– IGMP, Internet Group Management Protocol; Kommunikationsprotokoll der Internet­ protokollfamilie TCP/IP. –– PIM, Protocol Independent Multicast;  Verfahren in der  Netzwerktechnik, das  dynamisches Routing von Multicast-Paketen im Internet ermöglicht.  –– MOSPF, Multicast Open Shortest Path First; Multicast-Erweiterung zur Abwicklung von Paketversand. –– DVRMP, Distance Vector Multicast Routing Protocol; wird in  Netzwerken  verwendet; Erweiterung einer Netzkopplung, um Multicastpakete an interessierte Hosts zu verteilen. 16.3.5.5 Einsatzbereich Multicast-Protokolle In  Netzwerken  liegt der Vorteil von Multicast darin, das ein Paket nur einmal versendet werden muss. Bei Versand via Unicast an mehrere Empfänger muss jedes Paket einzeln an jeden Empfänger versendet werden. Innerhalb eines Netzwerkes erfolgt bei Multicastbetrieb jeder Versand an ein benachbartes Netzwerkelement nur einmal und nur dann, wenn ein dort angeschlossenes Endgerät diesen Multicast abonniert hat. Ist das nicht oder nicht mehr der Fall, wird der Versand beendet. Somit kann durch den Multicasteinsatz die Netzauslastung sehr viel ökonomischer organisiert werden. Grundlage dafür ist die passende Netzwerk­ infrastruktur. Im öffentlichen Internet ist das z.  B. nur in abgeschlossenen Teilbereichen möglich, z. B. bei Magenta TV. Für die Verbreitung von Streamingdiensten kommt ansonsten überwiegend multiple Unicast zum Einsatz. 16.3.5.6 IP-Multicasting in Layer 2-Switchingumgebung Layer 2-Netzstrukturen besitzen heutzutage eine hohe Popularität. Damit ist ein effizienter IP- Transportmechanismus ohne Routingaufwand möglich. Die Kombination von Layer 2 und Layer 3 ermöglichen die Verwendung von Layer 2-Switching und Layer 3‑Multicasting­

16.3 Audionetzwerke 

 1127

anwendungen in einer gemeinsamen Layer 2-Netzinfrastruktur. Für Multicastkommunikationen sind folgende Parameter notwendig: –– Für die Registrierung wird das IGMP-Protokoll eingesetzt. –– Für die Kontrolle und Steuerung ist ein Querier zur periodischen Abfrage notwendig. –– Ist kein Multicast-Router im Netzwerk vorhanden, übernimmt ein Switch die Aufgabe periodisch IGMP-Nachrichten auszusenden, um die Multicast-Tabellen zu überwachen. –– IGMP-Snooping ist eine Funktion, die der Layer 2-Switch benötigt, um anhand der IGMPNachrichten die Multicast-Empfängeradressen zu erlernen und daraus eine MulticastSwitchingtabelle zu erstellen. Um eine Auswertung der Layer 3-Informationen in den IGMP-Nachrichten durchführen zu können, wird ein multicastfähiger Layer 2-Switch benötigt. Der Switch belauscht den IGMPTraffic an seinen Ports und sobald IGMP-Snooping aktiv ist, werden alle Multicast-Nachrichten überprüft. Join- und Leave-Nachrichten werden dann über den Routerport (Port an dem der Router/Querier angeschlossen ist) weitergeleitet. Sendequelle X

Sendequelle Y

IGMP Router

Switch

IGMP

IGMP

IGMP

Router DVRMP, MOSPF, PIM

Emfpänger Emfpänger

Emfpänger

IGMP

IGMP

Emfpänger Emfpänger

Router IGMP

Multicast Routing Protokolle

Switch IGMP

Switch

IGMP

IGMP-Signalisierung und Kontrolle

Emfpänger Emfpänger Abb. 16/38. Beispiel zum Einsatzbereich Multicastbetrieb.

Sobald der Switch einen IGMP-Multicast Report von einem Host empfängt, fügt er diese Multicast-Gruppenadresse in seine Multicast Adresstabelle ein. Durch eine IGMP-Join GroupNachricht wird die Gruppe in die Multicasttabelle eingetragen. Erkennt der Switch eine Leave Group-Nachricht für die Gruppe, wird diese wieder aus der Tabelle entfernt. Durch die Multicasttabellen wird verhindert, dass der Multicastverkehr das Netzwerk flutet. Die Nutzlast wird nur an diejenigen Ports weitergeleitet, an denen Mitglieder der Gruppe sind.

1128 

 16 Digitale Betriebstechnik

16.3.5.7 Multicast-Routing Das Ziel des Multicast-Routings ist, den optimalen Übertragungsweg in den Multicast-Routingtabellen zu erstellen. Die Multicastpakete werden dann anhand der Multicasttabellen weitergeleitet. Verschiedene Multicastarchitekturen sorgen für einen optimalen Aufbau dieser Verteilstrukturen. Funktionen wie Flooding und Pruning werden dafür eingesetzt. Beim Flooding werden die Multicastpakete von den Routern an allen aktiven Schnittstellen weitergeleitet, außer an denjenigen Schnittstellen, an denen das Multicastpaket empfangen wurde. Es ist keine Routingtabelle notwendig, sondern nur eine Liste der zuletzt weitergeleiteten Pakete. Die Pakete werden überallhin zugestellt. Wer sie nicht haben will, muss sie explizit abbestellen. An den Schnittstellen, an denen keine Multicast Mitglieder vorhanden sind, schickt der Router eine „Prune-Nachricht“ an den übergeordneten Router zurück, der daraufhin das Senden der Multicast-Pakete auf der zugeordneten Schnittstelle einstellt. Als Routingprotokolle sind im Einsatz: –– Distance Vector Multicast Routing Protocol (DVRMP). Hier handelt es sich um ein Dense-Mode-Protokoll, welches ein eigenes Routingprotokoll besitzt. –– Multicast Extension to Open Shortest Path First (MOSPF). Erweiterung des Unicast Protokolls OSPF (RFC1584). MOSFP kann nur mit OSPF genutzten Routern zusammen­arbeiten. Jeder Router kennt alle verfügbaren Verbindungen im Netz. –– PIM-Protocol Independent Multicast (RFC3973, RFC7761). Dieses Protokoll arbeitet mit allen existierenden Unicast-Routing Protokollen zusammen. Es besitzt eine eigene Multi­ cast Routing Information Base (MRIB). Heutzutage ist es das am häufigsten eingesetzte Multicast-Routingprotokoll.

16.3.6 Datenaustausch in Audionetzen Eine Interoperabilität zwischen verschalteten Geräten funktioniert nur dann, wenn die Geräte sich untereinander verstehen. Es gibt die unterschiedlichsten Verfahren, dies zu gewährleisten. Dies schließt neben Lösungen bestimmter Hersteller oder Konsortien auch die in Standards beschriebene Verfahren ein. Die frei zugänglichen Standards, z. B. [AES67], [SMPTE ST 2110], [IEEE 802.1 AVB], dienen dabei als Grundlage zur Definition der Basisfunktionalitäten, wie z. B. Synchronisation, Datenformatierung und -transport etc., stellen aber noch keine eigenständige Lösung dar. Einige Verfahren basieren auf diesen frei zugänglichen Standards, die durch bestimmte Festlegungen funktional zu einer Lösung erweitert werden, wie z. B. von MILAN und RAVENNA. Darüber hinaus gibt es Lösungen von Herstellern, welche meist als geschlossene Technologien ausgeführt sind, die nur die Kommunikation zwischen Geräten ermöglichen, welche die Technologie dieses Herstellers verwenden, wie z.  B. DANTE, LIVEWIRE u. a.. Durch zusätzliche Unterstützung der Interoperabilitätsstandards können die geschlossenen Lösungen auch Geräte anderer Hersteller einbinden, meist jedoch mit begrenztem Funktionsumfang.

16.3 Audionetzwerke 

 1129

16.3.6.1 AVB Übersicht AVB steht für „Audio Video Bridging for real-time sensitive media data“ und ist eine Erweiterung der Ethernet-Spezifikation, die von der [IEEE 802.1-Arbeitsgruppe] erarbeitet worden ist. Dabei stellt AVB an sich noch keine eigenständige Lösung dar, sondern ist vielmehr eine Sammlung von Protokollen auf dem Ethernet-Layer. Sie ermöglichen Echtzeit-sensitive Datenströme mit deterministischen Latenzen gesichert zu übertragen. Hierzu muss die verwendete Ethernet-Infrastruktur diese Protokolle durchgehend unterstützen, also alle beteiligten Netzwerkkomponenten und Endgeräte müssen die entsprechenden AVB-Erweiterungen implementiert haben. Die initial in den Jahren 2010 bis 2013 veröffentlichten AVB-Protokolle bzw. spezifischen Ethernet-Protokollerweiterungen umfassen: –– die AVB Basisprotokolle, die das präzise Timing IEEE 802.1 AS, die Bandbreitenreservierung [IEEE 802.1 Qat] und das Traffic Shaping [IEEE 802.1 Qav] regeln, –– ein Transportprotokoll, mit dem das Format und der Transport der eigentlichen Nutz­ daten festgelegt wird [IEEE 1722], –– und ein Protokoll, mit dem die Erkennung und Konfiguration der angeschlossenen Geräte geregelt wird [IEEE 1722.1]. In den Folgejahren wurden überarbeitete bzw. erweiterte Versionen dieser Protokolle unter dem Überbegriff Time-sensitive Networking (TSN) veröffentlicht, um den spezifischen Anforderungen der zwischenzeitlich erweiterten Anwendungsbereiche mit Schwerpunkten Automotive und Industrial Networking inhaltlich und technisch gerecht zu werden. Da die Festlegungen der AVB-Standards sehr umfangreich und weit gefasst sind, ist eine Interoperabilität zwischen AVB-Geräten verschiedener Hersteller nur sehr schwer bzw. nicht ohne weitere Festlegungen realisierbar. Daher wurden Anstrengungen seitens der AVIndustrie unternommen, die Möglichkeiten der AVB-Protokolle spezifisch zu nutzen und um notwendige Steuerungs- und Managementfunktionen zu ergänzen. Diese herstellerübergreifende Initiative führte dann im Jahr 2018 zur Vorstellung von MILAN (s. Kap. 16.3.6.2), einem speziell für die Bedürfnisse des ProAV-Bereichs entwickelten Protokolls, welches auf den AVB-Protokollen aufsetzt und weitere Festlegungen und Funktionalitäten spezifiziert. Protokolle a) gPTP, generalized Precision Time Protocol [IEEE 802.1 AS] Dieses Protokoll ist ein Timing- und Synchronisations-Protokoll, das auf dem Precision Time Protocol [IEEE 1588-2008] basiert. Dieses aus dem Bereich der industriellen Automatisationssteuerung stammende Protokoll zur hochgenauen Verteilung von absoluter Zeit in Netzwerken, ist in seiner ursprünglichen Form recht komplex. Für die Verwendung im Rahmen von AVB wurde es auf die Verwendung auf Layer 2 reduziert und an einigen Stellen vereinfacht, bleibt jedoch im Wesentlichen mit IEEE 1588-2008 kompatibel. Es ermöglicht die Zeitsynchronisation aller beteiligten Komponenten auf ca. 500 ns genau. Typischerweise werden hierüber die in den Endgeräten implementierten Uhren synchronisiert, so dass eine system-

1130 

 16 Digitale Betriebstechnik

weite, ausreichend genaue Synchronisation zur Verarbeitung von Audio- und Videodaten möglich wird. b) Qat, stream reservation protocol (clause 11 amendment to 802.1Q), [IEEE 802.1] Dieses Protokoll sorgt dafür, dass innerhalb des Netzwerkes garantierte Bandbreiten für reservierte Verbindungen bereitgestellt werden. Wenn bei einem Empfänger ein bestimmter Datenstrom ankommen soll, muss dieser eine sog. Stream Reservation vornehmen. Der Sender informiert über die Bandbreite, die der betreffende Stream benötigt: alle beteiligten Switche müssen die Anforderung zur Bereitstellung der benötigten Bandbreite quittieren. Jeder Switch darf max. 75% seiner verfügbaren Bandbreite für den AVB-Verkehr reservieren, damit andere Dienste auf dem Netz noch laufen können. Falls nicht mehr genügend Bandbreite an einer Stelle des ermittelten Pfades zur Verfügung steht, kommt die Reservierung nicht zustande und der Stream kann nicht aufgesetzt werden. c) Qav – traffic shaping (clause 12 amendment to 802.1 Q), [IEEE 802.1] Dieses Protokoll definiert das Verhalten eines Ausgangsports in Bezug auf die zeitliche Weiterleitung von AVB- und Nicht-AVB-Datenverkehr. Die Weiterleitung von anstehenden Datenpaketen wird so vorgenommen, daß AVB-Daten mit definierter Latenz ihr Ziel erreichen, aber nicht-AVB-Daten auch genügend Platz finden. Innerhalb von AVB gibt es zwei unterschiedliche Latenz-Klassen: in Klasse A beträgt die garantierte max. Latenz zwischen Sender und Empfänger 2 ms, in Klasse B sind es bis zu 10 ms.

Port Eingang

Port Eingang

AVB Klasse A

Shaper

AVB Klasse B

Shaper

nicht AVB

Auswahl Port Ausgang des nächsten Frames

nicht AVB

Queuing

Scheduling

Abb. 16/39. Schematische Darstellung des Traffic Shapings nach IEEE 802.1Qat

d) AVB systems & profiles definitions [IEEE 802.1 BA] In diesem Teilstandard werden Vorgaben und Profile definiert, mittels deren Hersteller von Switches und Endgeräten AVB-konforme Geräte entwickeln können. Im Rahmen der Profildefinitionen werden bestimmte Konfigurations- und Betriebsparameter für die einzelnen AVB-Protokolle vorgegeben, damit die beteiligten Komponenten dann automatisch ein AVBNetzwerk bilden können, in welchem zeitsensitive Audio- und Videodaten transportiert werden können. Dabei können u. a. auch nicht-AVB-fähige Netzwerkkomponenten identifiziert und bei der Bildung der sog. „AVB-Wolken“ ausgeschlossen werden.

16.3 Audionetzwerke 

 1131

e) Layer 2 transport protocol and payload format definition [IEEE 1722] Dieses AVB-spezifische Transportprotokoll (AVTP) beschreibt, wie Audio-/Videodaten auf einem AVB-Netzwerk transportiert werden. Hierfür wurde eine neue Kennung (Ethertype) im Ethernet Frame Header definiert, an der ein AVB-fähiger Switch erkennen kann, daß es sich um ein AVB-Paket handelt und es entsprechend verarbeiten kann. Die Nutzlastdefinition (Payload) ermöglicht die Übertragung einer Reihe verschiedener Audio- und Videoformate. Die Audioformat-Spezifikation basiert auf dem AM824-Format und ist aus dem bekannten Firewire-Format [IEEE 1394] abgeleitet worden; insofern kann man IEEE 1722 vereinfacht auch als „Firewire über AVB“ bezeichnen. f) Configuration & control protocol for IEEE 1722 devices [IEEE 1722.1] Dieses Protokoll definiert die Funktionen Discovery, Enumeration, Connection management and Control (AVDECC) für Geräte, welche das AVTP Protokoll IEEE 1722 zum Transport von Audio-/Videodaten verwenden. Dabei werden die Methoden und Einzelheiten zum Hinzufügen oder Entfernen von Geräten, zum Auslesen ihres spezifischen Entity Models, zum Verbindungsauf- und -abbau und zur Steuerung und Überwachung von Gerätefunktionen und deren Zuständen definiert. Aufbau eines AVB-basierten Systems Grundsätzlich gibt es in einem AVB-System einen Time Grandmaster, es gibt Talker, das sind die Geräte, die einen Datenstrom senden, und es gibt Listener, die Datenströme empfangen. Diese Unterteilung ist rein funktional, auf Geräteebene kann ein Talker auch gleichzeitig für andere Streams ein Listener sein und umgekehrt; ebenso kann ein Endgerät in Abwesenheit eines dedizierten Grandmasters auch diese Rolle übernehmen. Dazu wird eine AVBNetzwerk­­infrastruktur mit entsprechenden Switchen benötigt. Wichtig ist, dass alle Devices, die AVB sprechen wollen - also auch die Switche -, die AVB-Basisprotokolle unterstützen müssen. Diese Devices formen dann per automatischer Erkennung eine so genannte AVBWolke oder AVB-Domain. In Abb. 16/40 sind zwei Wolken mit AVB-fähigen Switches dargestellt. Die in der Abbildung verwendete Terminologie ist auf den ersten Blick ein wenig verwirrend: Was im allgemeinen Sprachgebrauch als „Switch“ bezeichnet wird, ist in der Ethernet-Terminologie eine „Bridge“ (daher stammt auch die Bezeichnung „Audio-Video-Bridging“). Da die beiden automatisch gebildeten AVB-Wolken mit nicht-AVB-fähigen Switches verbunden sind, zerfällt das gesamte Netzwerk in zwei unabhängige AVB-Domains. AVB-Datenströme können aber nur innerhalb einer AVB-Domain transportiert werden; daher ist es nicht möglich, einen AVB-Stream zwischen Domain 1 und Domain 2 auszutauschen, also z.  B. eine gesicherte AVB-Verbindung zwischen Endpunkt-1 und Endpunkt-5 herzustellen. Gleichermaßen bleibt der zentral im Bild dargestellte AVB-Endpunkt isoliert, da er über einen nicht-AVB-fähigen Switch mit er AVB-Domain-2 verbunden ist. Grundsätzlich kann ein AVB-Stream über beliebig viele Hops geführt werden. Ein Hop ist eine Verbindung zwischen einem Gerät und einem Switch (s. Abb. 16/41). Der Standard garantiert auf einem Fast Ethernet-Netzwerk (100 Mbit/s) aber nur für bis zu maximal sieben Hops eine maximale Latenz von 2 ms zwischen einem Sender und einem beliebigen Empfänger.

1132 

 16 Digitale Betriebstechnik

end point

end point

AVB end point 3

nonAVB bridge

AVB bridge Nicht-AVBfähige Switche

AVB bridge AVB end point 1 AVB domain 1

nonAVB bridge

AVB end point 2

end point

AVB end point

AVB domain 2 AVB-Streams innerhalb der Cloud möglich

AVB end point 5

AVB bridge

AVB bridge

AVB end point 4

end point

Nicht-AVBfähiger End-Point

AVB domain boundary port: filtering/retagging active non-AVB link AVB link AVB-fähige und Nicht-AVB-fähige Verbindung von Endpunkt 1 und 3

Abb. 16/40. Darstellung von AVB-Wolken: AVB-Stream zwischen endpoint 1 und endpoint 3 nicht möglich, da nicht-AVB-fähige Links im Verbindungsweg enthalten sind.

Bei dem Beispiel in Abb. 16/41 wird ein Stereo-Stream zu den Lautsprechern geschickt. Der erste Lautsprecher hängt direkt am ersten Switch, der zweite Lautsprecher am letzten Switch, wodurch eine Laufzeitdifferenz im Netzwerk entsteht. Durch die Festlegung einer gewünschten Presentation Time durch den Sender kann eine synchrone Ausspielung erreicht werden, indem die Lautsprecher die Daten unterschiedlich lang puffern, um sie dann zeitgleich auszuspielen. Voreingestellte Ausspielzeit (presentation time): 2 ms 2 Hops

Lautsprecher A und B puffern das einlaufende Audio bis die vorgesehene Ausspielzeit (presentation time) erreicht wird.

7 Hops

Abb. 16/41. AVB-Verbindungsbeispiel

Takterzeugung und Synchronisation Anders als bei AES67, SMPTE ST 2110 oder RAVENNA werden die benötigten Media Clocks nicht direkt aus der gemeinsamen Systemzeit abgeleitet, sondern AVB-Sender (Talker) über-

16.3 Audionetzwerke 

 1133

nehmen die inhärent im zugeführten Audiosignal enthaltene oder ggf. extern (z. B. durch Word Clock) zugeführte Media Clock zum Sampeln des Eingangssignals. Der jeweilige Sample-Zeitpunkt wird von der lokalen, auf die AVB-Wall Clock Time synchronisierte Systemzeit übernommen und zusammen mit dem Audiosample im Sendepuffer abgelegt; wie bei den oben genannten AoIP-Lösungen wird auch hier, analog zum RTP Timestamp, nur der Zeitwert für das erste Sample eines Sendeblocks geschrieben. Als Besonderheit ist in AVB verankert, dass nicht der Entstehungszeitpunkt als Zeitstempel übernommen wird, sondern bereits die berechnete bzw. gewünschte Wiedergabezeit (Presentation Time) für das erste Sample des Datenblocks: Tp= T0 + 2 ms Tp = gewünschte Presentation Time, T0 = Entstehungszeitpunkt des Audiosamples. Outgoing Stream

AVB timestamping & clock recovery system: Talker (sender):

Timestamps

• Das Audiosignal wird mit der extern angelegten Media Clock gesamplet • Die Sample-Zeitpunkte werden mit der 802.1 ASSystemzeit erfasst • N Audiosamples (abhängig von DBC*) werden zusammen mit der gewünschten Presentation Time des ersten Samples (üblicherweise sample time + 2 ms) im Paket abgelegt und verschickt 802.1 AS Wall time

*DBC = Data Block Count

9000000 8833333 8666667 … 7333333 7166667

Data 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

AVBTP timestamp generator

Media clock (local oscillator)

ADC

1722 Data

Incoming analog data

Abb. 16/42. AVB Media Clocking und Timestamp-Generierung (Talker)

Ein AVB-Empfänger (Listener) regeneriert aus den empfangenen Daten im nächsten Schritt die vom Sender verwendete Media Clock: der Zeitstempel der empfangenen Datenblöcke wird ausgelesen und es wird, entsprechend der Anzahl der Samples im Datenblock, eine entsprechende Anzahl von Media Clock-Zyklen neu generiert, bzw. seine bereits laufende

1134 

 16 Digitale Betriebstechnik

Media Clock entsprechend angepasst. Mittels der so regenerierten Media Clock werden die empfangenen Audiosamples zu den vorgesehenen Zeiten anhand der lokalen, ebenfalls auf die AVB Wall Clock Time synchronisierte Systemuhr ausgespielt. Incoming Stream

AVB timestamping & clock recovery system: Listener (receiver):

Timestamps

7166667

• Der Empfänger regeneriert die Media Clock aus dem DBC-Wert und den Timestamps aufeinanderfolgender Pakete (N Clockzyklen zwischen t₂–t₁)

7333333

• Die entpackten Audiosamples werden gepuffert und zur indizierten Presentation Time ausgespielt

… 8666667

802.1 AS Wall time

8833333 9000000

Data 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

AVBTP-timestamp comparator AVBTP timestamps

Clock generator

Generated media clock Outgoing analog data

DAC

Abb. 16/43. AVB Media Clock-Rückgewinnung und Signalausspielung (Listener)

Dieses Verfahren erlaubt den Transport und die frequenzstabile Wiedergabe von beliebigen, zueinander asynchronen Eingangssignalen innerhalb des AVB-Netzwerkes. Die Zeitsynchronisation auf eine gemeinsame Wall-Clock erlaubt dabei auch den Erhalt der zeitlichen Lage der Signale untereinander. Eine systemweite Synchronisation auf eine gemeinsame Media-Clock, wie es in professionellen Umgebungen über eine externe Taktverteilung, z. B. Word-Clock, üblich ist, ist grundsätzlich nicht vorgesehen. Sie muss mit zusätzlichen externen Definitionen und Mitteln realisiert werden, wie bspw. im Folgekapitel MILAN beschrieben wird. 16.3.6.2 MILAN Übersicht Die Audio-Signalverteilung und -Netzwerklösung MILAN (Media Integrated Local Area Networking) setzt auf den Ethernet-AVB-Standards auf und fügt ergänzende Funktionalitäten

16.3 Audionetzwerke 

 1135

und Definitionen, insbesondere im Bereich der Geräteerkennung und -konfiguration, hinzu. MILAN baut auf folgenden Standards auf: [IEEE 802.1AS-2011] Timing and Synchronization for Time-Sensitive Applications in Bridged Local Area Networks Media Access Control (MAC) Bridges and Virtual Bridged Local Area [IEEE 802.1Q-2011] Networks (die für AVB relevanten Sub-Standards Qat und Qav sind als Clause 11 und 12 enthalten) [IEEE 802.1BA-2011] Audio Video Bridging Systems [IEEE 1722-2016] Transport Protocol for Time-Sensitive Applications in Bridged Local Area Networks [IEEE 1722.1-2013] AVDECC Device Discovery, Connection Management, and Control Protocol for IEEE 1722 Based Devices Auf Basis dieser Standards definiert MILAN eine Reihe zusätzlicher Spezifikationen für die folgenden Bereiche: –– Media Clocking –– Stream Format –– Redundanz –– AVDECC Darüber hinaus wird über die AVnu Alliance - einer Dachorganisation für Hersteller, die im Bereich AVB / TSN / MILAN aktiv sind - noch ein Programm zur Zertifizierung von MILAN Geräteimplementierungen angeboten.

MILAN Zertifizierung Redundanz AVDECC IEEE 1722.1

AVTP

IEEE 1722

AVB Basisprotokolle

IEEE 802.1AS IEEE 802.1Q  IEEE 802.1BA

Abb. 16/44. Aufbau der MILAN-Spezifikation

Media Clocking-Spezifikation AVB definiert zwar mit [IEEE 802.1AS], wie die beteiligten Geräte präzise auf eine gemeinsame Systemzeit synchronisiert werden können, nicht jedoch wie eine systemweit identische Media-Clock verteilt bzw. generiert wird. MILAN definiert hierfür die Verteilung eines Referenzdatenstromes, aus dem die Geräte jeweils ihre interne Media-Clock erzeugen. Hierzu wird das in IEEE 1722-2016 speziell definierte CRF (clock reference format) verwendet. Alle

1136 

 16 Digitale Betriebstechnik

MILAN-Geräte müssen dabei mindestens 48 kHz unterstützen; 96 kHz und 192 kHz sind optio­nal definiert. Ein Gerät, welches einen clock reference stream erzeugen kann, muss hierfür eine Toleranz von < +/- 50 ppm einhalten. Stream Format-Spezifikation Während im ursprünglichen [IEEE 1722-2011]-Standard noch AM824 als das alleinige Audioformat festgelegt wurde, wurde im Zuge der Überarbeitung für die [IEEE 1722-2016]-Revision das effizientere und weniger komplexe AAF-Format hinzugenommen. MILAN beschränkt sich auf die Verwendung des AAF-Formats und legt diese drei Varianten fest: Tab. 16/1. Audioformate in MILAN AAF Standard Stream Format (32 bit)

Maximum 8 channels per stream, mandatory on all Milan endpoints

High Capacity 32 bit Format High Capacity 24 bit Format

Maximum 56 channels per stream, optional Maximum 64 channels per stream, optional

Redundanz-Spezifikation Für MILAN-Netzwerke wird Redundanz als optionale Möglichkeit zum Betrieb auf zwei unabhängigen Netzwerken definiert, bei der die Streamdaten unabhängig voneinander auf beiden Netzwerkinterfaces ausgegeben werden bzw. empfangen werden können. Dabei werden nicht nur die eigentlichen Streamdaten redundant abgesichert, sondern auch die Wall-ClockVerteilung. Optional kann auch die Gerätesteuerung via AVDECC redundant ausgeführt sein. AVDECC-Spezifikation für Endgeräte Das für AVB definierte [IEEE 1722.1-2013] AVDECC-Protokoll ist sehr umfangreich und erlaubt sehr viele, teilweise auch widersprüchliche Anwendungsmöglichkeiten. Daher wird für MILAN ein auf diesem Standard basierendes Profil, zugeschnitten auf die typischen Anforderungen und Funktionalitäten im professionellen AV-Bereich, definiert. Diese Festlegungen sind ihrerseits sehr umfangreich, um eine präzise und eindeutige Spezifikation zur Inter­ operabilität zwischen den Geräten verschiedener Hersteller zu erhalten. Dazu wird ein generisches Entity Model definiert, mittels dessen im wesentlichen folgende Funktionsbereiche beschrieben werden können: –– Automatische Erkennung von neu hinzugefügten oder entfernten Geräten –– Erkennung der Geräteklasse und seiner generischen Gerätemerkmale –– Verbindungsmanagement für verfügbare Streams –– Statusüberwachung von Geräten und Verbindungen –– Steuerung der angeschlossenen Geräte, soweit diese vom generischen Entity Model abgedeckt wird Weiterführende Details sind den entsprechenden MILAN-Dokumenten zu entnehmen.

16.3 Audionetzwerke 

 1137

16.3.6.3 AES67 Übersicht [AES67] ist ein Standard für die performante Interoperabilität in Audio-over-IP-Umgebungen (Standard for High-performance Audio-over-IP Interoperability), welcher von der AES initial zur IBC-2013 publiziert wurde. Als Umgebungsvoraussetzung wurde ein gemanagtes lokales Netzwerk (LAN) unter Verwendung von verfügbaren Standard-Netzwerkkomponenten (COTS, Conventional Off-TheShelf Komponenten) definiert. Durch die ausschließliche Verwendung von Protokollen und Methoden auf dem IP-Layer oder darüber, sollte es möglich sein, mittels passender Konfiguration Netzwerke gleichzeitig auch für andere Dienste nutzen zu können, wie z. B. Video, VoIP, Office Dienste u. a. Die Übertragung der Audiodatenströme sollten sich nicht gegenseitig stören und qualitativ beinträchtigen. AES67 basiert auf folgenden, grundlegenden Prinzipien: –– Synchronisation: sie definiert, wie Geräte synchronisiert und wie voneinander unabhängig erzeugte Audiodatenströme zeitlich exakt verarbeitet werden können; –– Pakettransport: er beschreibt, welche Protokolle, Mechanismen und Dienstgütemerkmale (QoS, Quality of Service) für den Transport der Pakete im Netzwerk verwendet werden; –– Paketformatierung; sie definiert die Codierung des Audiosignals und die Zusammenstellung der Paketnutzdaten (audio payload); –– Sitzungsbeschreibung (session information): sie definiert, wie die Systemsynchronisation und der Paketaufbau der einzelnen Audiodatenströme beschrieben wird, so dass ein Empfänger alle relevanten Informationen zum Empfang und zur synchronisierten Weiterverarbeitung bekommt. Die meisten bestehenden AoIP-Lösungen verfügen darüber hinaus noch über weitergehende Funktionalitäten zur automatischen Erkennung von anderen Geräten und Audiodatenströmen (Advertising & Discovery) sowie über spezifische Funktionen zum Verbindungsaufbau (Connection Management). AES67 trifft hierzu absichtlich keine weiteren Festlegungen, da bereits sehr verschiedene Methoden und Standards hierzu existieren, wie bspw. AES70, NMOS u.a., beide Funktionalitäten für eine grundlegende Interoperabilität jedoch nicht zwingend benötigt werden. Synchronisation Die Möglichkeit aller Netzwerkteilnehmer, sich auf eine gemeinsame Referenz-Clock zu synchronisieren, stellt ein wesentliches Unterscheidungsmerkmal von AES67 zu anderen Methoden und Lösungen dar, wie z.B. Internet-Streaming, VoIP oder auch dem EBU‑ACIP-Verfahren. Eine gemeinsame Referenz-Clock ermöglicht nicht nur den bittransparenten Betrieb mit identischen Abtastraten, sondern ermöglicht auch deterministische Latenzen zwischen beliebigen Sendern und Empfängern und somit die exakt zeitgleiche Ausspielung bzw. Weiterverarbeitung von einlaufenden Audiosamples. Dies ist die Voraussetzung für einen hoch performanten, latenzarmen Betrieb in professionellen Umgebungen.

1138 

 16 Digitale Betriebstechnik

Die Synchronisation in AES67 basiert auf dem Precision Time Protocol (PTP), einem bewährten Industriestandard, der seine Wurzeln in der Messtechnik und Industrieautomation hat. AES67 spezifiziert hierbei die Verwendung von PTPv2, welches in [IEEE 1588-2008] definiert wird. PTPv2 beinhaltet einen sog. Best Master Clock Algorithm (BMCA), welcher sicherstellt, dass in einem AES67-System immer das Gerät mit der besten Referenz-Clock die Rolle des Grandmasters übernimmt. Mittels PTP wird ein Endgerät zeitlich präzise auf die Systemzeit des Grandmasters synchronisiert. Aus der lokalen, zur Systemzeit synchronisierten Uhr des Endgeräts, kann nachfolgend jede gewünschte, bzw. benötigte Abtastrate (auch als media clock bezeichnet) lokal generiert werden.

GPS

Master Clock

PTP SlaveClocks Media Clocks Media clock (local oscillator)

Media clock (local oscillator)

Media clock (local oscillator)

Abb. 16/45. Verteilung der Systemzeit und lokale Erzeugung der Media Clocks

Durch die Verknüpfung von Media-Clock und Systemzeit können die unabhängig voneinander erzeugten Audiodatenströme im gesamten System jederzeit samplegenau und phasensynchron korreliert werden (s. Kap.  16.3.6.3, Verbindungslatenz). Pakettransport Alle in AES67 verwendeten Transportprotokolle basieren vollständig auf IPv4 gemäß [RFC 791]. PTP-Pakete werden ebenfalls auf Basis IPv4 transportiert. Da AES67 die Unterstützung des PTP-Default profiles erfordert, ist im Netzwerk zwingend auch die Unterstützung von Multicast notwendig. Der Transport der Audiodaten erfolgt mittels des Real-time-Transport-Protocols (RTP) gemäß [RFC 3550] unter Verwendung des RTP/AVP profiles gemäß [RFC 3551]. Die RTP-Pakete werden ihrerseits mittels User Datagram Protocol (UDP) gemäß [RFC 768] transportiert. Als Transportmodi werden dabei in AES67 sowohl Multicast als auch Unicast festgelegt. Die maximal zulässige Nutzlast orientiert sich dabei an der Forderung, eine Paketfragmentierung zu vermeiden.

 1139

16.3 Audionetzwerke 

Das nachfolgende Diagramm veranschaulicht die Zusammensetzung eines Netzwerk­ pakets mit den verschiedenen Protokollschichten: lAYERERD oAKCI ÄR§P

Layered Packet Encapsulation Bytes

„)?

1518 / 1522

14/18

20

12

12

1460

4

Ethernet Header

IP Header

UDP Header

RTP Header

RTP Payload (PCM Modulated Data)

Ethernet Trailer

Layer 5 (Session Layout) Layer 4 (Transport Layer) Layer 3 (Network Layer) Layer 2 (Link Layer) Abb. 16/46. Aufbau eines Netzwerkpakets mit den verschiedenen Protokollschichten

Multicastunterstützung Da in AES67 die Unterstützung von Multicast zwingend gefordert ist und auch die Audiodatenströme in der überwiegenden Anzahl der Fälle im Multicast-Modus transportiert werden, ist die Verwendung von gemanagten Switches in fast allen Fällen erforderlich. Nur mit Switches, die eine aktive, d. h. gemanagte Unterstützung von Multicast-Transport anbieten, lässt sich das sog. network flooding, bei dem Multicastpakete unkontrolliert ins Netzwerk verteilt werden, verhindern. Nicht-gemangte Switche replizieren alle einlaufenden Multicastpakete und verteilen diese auf alle Ports; dadurch kann es in größeren Netzwerken oder bei sehr vielen Audiodatenströmen schnell zu einer vollständigen Blockade durch Überlastung der Links bzw. der Switche kommen. In gemanagten Switches kann eine Multicast-Unterstützung aktiviert werden, die das Weiterleiten von Multicast-Paketen auf nicht beteiligte Ports unterbindet. Dies wird durch Verwendung des sog. Internet Group Management Protocol (IGMP) erreicht (vgl. Kapitel 16.2.5.6); AES67 fordert hier die Unterstützung von IGMPv2 gemäß [RFC 2236]. Quality of Service In einem Netzwerk, in dem neben Echtzeit-kritischen Daten wie AES67 auch andere, nicht Echtzeit-relevante Daten transportiert werden, wie bspw. Office-Dienste, ist eine Priorisierung des AES67-Verkehrs empfohlen oder sogar zwingend notwendig. Hierzu wird ein Quality of Service-Verfahren (QoS) verwendet. Zum Einsatz kommt das sog. Differentiated ServicesVerfahren (DiffServ) gemäß [RFC 2474]. Dabei werden den einzelnen IP-Paketen in einem speziell dafür im Header vorgesehenen Feld Prioritätswerte - Differentiated Services Code Points (DSCP) – mitgegeben, anhand derer die beteiligten Switche eine bevorzugte Weiterleitung der Pakete durchführen können.

1140 

 16 Digitale Betriebstechnik

QoS – Differentiated Services (DiffServ) Flow 1

BE

Flow 2

EF

Flow 3

CS6

EF CS6

Flow 4

BE

Flow 5 Flow 6 Flow 7

BE AF

AF

Flow 8

Classifier CS6 = q1 EF = q2 AF = q2 BE = q3

Highest Priority Middle Priority EF AF BE

Lowest Priority BE

CS6 EF

Sheduler

AF

Port CS6

BE BE

BE

Abb. 16/47. Veranschaulichung des DiffServ-Verfahrens

Die Unterstützung von DiffServ, sowie ggf. die passende DSCP-Konfiguration, ist bei den meisten Switches explizit zu aktivieren; sie muss bei allen beteiligten Switches durchgängig identisch konfiguriert sein. AES67 definiert die Verwendung von drei Dienstklassen, welche entsprechend vom Netzwerk zu unterstützen sind: Tab. 16/2. AES67 Dienstgüteklassen (QoS) und DiffServ-Zuordnungen Dienstklassenname

Art des Paketes

DiffServ Klassenzuordnung (DSCP Wert)

1) Clock

IEEE 1588-2008 Echtzeit-Telegramme: ANNOUNCE, SYNC, DELAY_REQUEST & DELAY_ RESPONSE

EF (46)

2) Media

RTP und RTCP Pakete

AF41 (34)

3) Best effort

IEEE 1588-2008 allgemeine Telegramme; anderer AES67-Verkehr (z. B. connection management); nicht-AES67-Verkehr (Office etc.)

DF (0)

Paketformatierung Im Zuge der Verwendung des RTP/AVP Protokolls bedarf es der Festlegung weiterer Parameter zur Erreichung einer Interoperabilität: –– Codierung des Audiosignals: Für die Codierung des Audiosignals wird die lineare PCMCodierung festgelegt, dabei müssen sowohl 16 Bit (L16) als auch 24 Bit (L24) unterstützt werden. Alle Geräte müssen mindestens 48 kHz Abtastrate unterstützen. –– Paketzeit (Anzahl der Audiosamples pro Paket): Als Paketzeit (packet time) wird die Dauer des in einem RTP Paket enthaltenen Audioabschnitts, jeweils pro Kanal, definiert. Aus der Paketzeit ergibt sich bei einer bestimmten Abtastrate die in einem Paket enthaltenen Audiosamples pro Kanal. Kleinere Paketzeiten ermöglichen eine kürzere Übertragungslatenz, erfordern aber eine höhere Paketrate, welche meistens mit einer geringeren Bandbreiteneffizienz einhergeht. Die Paketzeit ist immer als ein Kompromiss

16.3 Audionetzwerke 

 1141

zwischen erzielbarer Latenz und Bandbreiteneffizienz zu sehen. Alle AES67-fähigen Geräte müssen eine Paketzeit von 1 ms unterstützen können, d. h. 48 Audiosamples pro Kanal bei 48 kHz Abtastrate). –– Anzahl der Kanäle im Audiodatenstrom: Für die Realisierung einer guten Interoperabilität wird in AES67 festgelegt, dass ein Empfänger Audiodatenströme mit 1 bis 8 Kanälen empfangen können muss; ein AES67-Sender muss dementsprechend mindestens einen solchen Stream erzeugen können. Verbindungslatenz Um eine zeitlich synchronisierte Ausspielung zwischen unterschiedlichen Audiodatenströmen realisieren zu können, müssen entsprechende Referenzpunkte in der Signalverarbeitungskette spezifiziert und eine gewünschte Verbindungslatenz (link offset) konfiguriert werden. Die Verbindungslatenz beschreibt die Zeitdifferenz zwischen der Erfassung eines bestimmtes Audiosamples im Sender (ingress time) und der Ausspielung bzw. Weiterverarbeitung im Empfänger (egress time). Als Referenzpunkte für die Zeitberechnung werden in AES67 die Übergänge zwischen der Audio- und der Netzwerkebene in den beteiligten Geräten definiert. Beim Sender fällt dieser Zeitpunkt (ingress time reference point) typischerweise mit dem Sampling eines Audiowertes zusammen, also die Übernahme eines digitalen Audiosignalwertes in die Netzwerkverarbeitungsschicht. Dieser Zeitpunkt wird auch als origination timestamp bezeichnet und dient als Referenz für die Berechnung des dazugehörigen RTP Zeitstempel-Feldes (RTP timestamp; s. [RFC 3550], Abschnitt 5.1). Analog wird die Ausgabe bzw. Weiterleitung des betreffenden Audiosamples aus der Netzwerkverarbeitungsschicht an die Audiosignalverarbeitung als egress time reference point bezeichnet, der sich rechnerisch aus ingress time reference point + gewünschtem link offset ergibt. Die Zusammenhänge sind im nachfolgenden Diagramm skizziert: RTP Timestamp of (first) sample (in packet)

Desired playout time for sample

Ingress time reference point

RTP offset

SDP (a=mediaclk:direct=)

Egress time reference point

Link offset IEEE 1588 measurement planes

ADC

Sender packet buffer

Network stack and controller Network clock

Mediaclock

Sender network system

IP network

Receiver packet buffer

Network stack and controller Network clock Receiver network system

Mediaclock

Abb. 16/48. Temporäre Referenzpunkte und Link offset in einem AES67-System

DAC

1142 

 16 Digitale Betriebstechnik

In der Praxis wird der gewünschte, bzw. mindestens benötigte link offset am Empfänger konfiguriert. Dieser muss groß genug sein, um die verschiedenen zur Verbindungslatenz beitragenden Faktoren wie Paketzeit, Verarbeitungszeiten in den Netzwerkschichten von Sender und Empfänger und die Transferzeiten innerhalb des Netzwerkes, einschließlich des maximal möglichen Paket-Jitters (auch PDV, packet delay variation genannt), berücksichtigen zu können. Session Description Um sich zu einem verfügbaren Audiodatenstrom verbinden und dessen Daten verarbeiten zu können, benötigt ein Empfänger verschiedene Informationen. Diese Informationen werden als session description data bezeichnet, welche mittels des session description protocols (SDP) gemäß [RFC 4566] übertragen werden. Sämtliche Informationen in einem SDP werden als lesbarer ASCII-Text erfasst. Zu den Informationen, die mit dem SDP aufgeführt werden, gehören u. a. die Multicast-Adresse des betreffenden Audiodatenstroms, Informationen zur Paketformatierung und zur Nutzlast des enthaltenen Signals sowie Synchronisationsinformationen. Ein SDP ist dabei in mehrere Abschnitte gegliedert, in denen bestimmte Parameter enthalten sein müssen. So gibt es einen Abschnitt für allgemeine, mediaübergreifende Parameter (session level) und einen oder mehrere mediaspezifische Abschnitte (media level), in denen die in einer Session zusammengefassten Mediadatenströme beschrieben werden. In AES67 wird festgelegt, dass es für jeden verfügbaren Audiodatenstrom ein eigenes SDP geben muss, in dem dann typischerweise auch nur ein mediaspezifischer Abschnitt enthalten ist. Eine Übersicht über die in einer AES67 session description enthaltenen Parameter zeigt Tab. 16/3: Tab. 16/ 3. AES67 Dienstgüteklassen (QoS) und DiffServ-Zuordnungen Session level v= protocol version

SDP Protokollversion; immer „0“

o= originator and session identifier

Information zum Anbieter des SDP und eine eindeutige Session-ID

s= session name

Klartextname der Session

i=session description

freie Beschreibung der Session

a= session attributes

weitere Session-Attribute

Time description t= session start / stop times

beinhaltet Informationen, wann diese Session aktiv ist; eine permanent aktive Session wird mit einer „0“ für Start- und Stoppzeit gekennzeichnet

16.3 Audionetzwerke 

 1143

Media level m= media description

beschreibt den Mediatyp und das verwendete Format sowie die verwendete Portadresse; eine m-line leitet immer einen neuen medienspezifischen Abschnitt ein und muß daher als erstes in einem media level aufgeführt werden

c= connection information

enthält entweder die Multicast-Adresse des Streams oder bei Unicast die Anbieter IP-Adresse des Streams; dieser Parameter kann alternativ auch im session level des SDP stehen

a= media attributes

weitere Media-Attribute

Nachfolgend ist ein SDP-Beispiel für einen typischen AES67 Multicast-Audiodatenstrom aufgeführt. Der Audiodatenstrom wird an die Multicast-Adresse 239.0.0.1 versendet, ist mit einer Paketzeit von 1 ms bei 48 kHz Abtastrate formatiert und enthält 8 Kanäle linear codiertes PCM Audio mit einer Wortbreite von 24 Bit. Als Referenz-Clock wird ein PTP Grandmaster mit der angegebenen Grandmaster-Kennung (GMID) angegeben, der RTP-Offset für diesen Stream beträgt 963214424: v=0 o=- 1311738121 1311738121 IN IP4 192.168.1.1 s=Stage left I/O t=0 0 m=audio 5004 RTP/AVP 96 i=Channels 1-8 c=IN IP4 239.0.0.1/32 a=rtpmap:96 L24/48000/8 a=recvonly a=ptime:1 a=ts-refclk:ptp=IEEE1588-2008:39-A7-94-FF-FE-07-CB-D0:0 a=mediaclk:direct=963214424

Übertragung der SDP-Informationen Während AES67 die benötigten SDP-Attribute hinreichend spezifiziert, werden zur eigentlichen Übertragung dieser Informationen zwischen Sender und Empfänger bewusst keine weiteren Festlegungen getroffen. Dies vor dem Hintergrund, dass hierfür bereits eine Reihe gängiger Verfahren und Protokolle vorliegen, die von den verschiedenen Lösungen unterstützt werden (wie z. B. manuelle Übertragung, RTSP, SAP, SIP etc.), bzw. im jeweiligen Applikationskontext gefordert werden (z. B. NMOS). Verbindungsaufbau Zum Aufbau einer Multicast-Verbindung wird, wie bereits beschrieben, das IGMP-Protokoll verwendet. Dazu wird lediglich die Multicast-Adresse des betreffenden Audiodatenstroms aus den SDP-Daten benötigt. Für den Aufbau von Unicast-Verbindungen spezifiziert AES67 das session initiation protocol (SIP) gemäß [RFC 3261]. SIP ist ein weitverbreitetes Protokoll im Bereich der IP-basierten

1144 

 16 Digitale Betriebstechnik

Telefonie (VoIP) und wird ebenfalls in ACIP [EBU Tech 3326] verwendet. Die AES67-Arbeitsgruppe hat angenommen, dass AES67 auch in diesen Bereichen Anwendung finden würde und hat daher die Spezifikation von SIP für Unicast-Verbindungen für sinnvoll erachtet. Unicast und SIP werden allerdings von vielen Geräten nicht unterstützt, da in der Praxis überwiegend mit Multicast-Verbindungen gearbeitet wird. Zusammenfassung AES67 wurde mit dem Ziel entwickelt, Interoperabilität zwischen bestehenden IP-basierten Lösungen zu ermöglichen. Es wurde nach größtmöglichen Gemeinsamkeiten gesucht und notwendige Festlegungen für einzelne Funktionsbereiche getroffen, so dass an den einzelnen Lösungen lediglich kleinere Anpassungen bzw. Erweiterungen zur Bereitstellung eines AES67-Kompatibilitätsmodus bereitgestellt werden mussten. Durch ausschließliche Verwendung des IP-Layers und die steigende Leistungsfähigkeit von Netzwerk-Routern konnte sich AES67 auch sehr schnell für die Anwendung in größeren gerouteten Umgebungen von Unternehmensnetzwerken (Corporate LANs) etablieren. Schwierig bis unmöglich wird die direkte Verwendung von AES67 in Netzwerkumgebungen mit Firewalls und Netzwerkadressen-Übersetzung (NAT) oder in nicht gemanagten Umgebungen wie z.B. dem Internet, in denen wichtige Dienstgütemerkmale (Multicast, QoS, etc.) nicht zur Verfügung stehen. In Abb. 16/33 sind die einzelnen Funktionsblöcke sowie die zwingend zu unterstützenden Festlegungen dargestellt: Discovery

Not specified

Connection Management

SIP (unicast), IGMP (multicast)

Session Description

SDP (RFC4566, RFC7273)

Encoding

L16/L24, 1..8 ch, 48 samples

QoS

Differentiated Services (DiffServ w/ 3 CoS)

Transport

RTP / UDP / IP, unicast & multicast

Media Clock

48 kHz

Synchronisation

IEEE 1588-2008 (PTPv2)

Abb. 16/49. AES67 Funktionsblöcke und Festlegungen

16.3.6.4 SMPTE ST 2110 Übersicht [SMPTE ST 2110] ist eine Sammlung von Standards, die von der Society of Motion Picture and Television Engineers definiert wurden, zur Verteilung von Mediadaten über gemanagte IP-Netzwerke im professionellen Umfeld (Professional Media over Managed IP Networks). Die wesentlichen Teile dieses Standards wurden im Jahr 2017 veröffentlicht.

16.3 Audionetzwerke 

 1145

Das Ziel dieses Standards ist die Festschreibung einer Norm zur Übertragung von sog. „elementaren Essenzdaten“. Im Gegensatz zu der in [SMPTE ST 2022-6] beschriebenen Übertragung der Mediadaten eines SDI-Signals in einem gebündelten IP-Datenstrom, werden in SMPTE ST 2110 die jeweiligen Mediaessenzen, also Video, Audio und Metadaten in einzelnen, voneinander unabhängigen IP-Datenströmen übertragen. Audio

Audio Metadata

Embedder

Deembedder

One Stream

Video

Metadata Video

Abb. 16/50. SDI-Signal in einem SMPTE ST 2022-6 Stream

Der größte Vorteil dabei ist, dass Empfänger, die nur einen Teil der Mediaessenzen benötigen, z.B. ein Audiomischer, nicht mehr das komplette, gemultiplexte SDI-Signal empfangen müssen und das Extrahieren nicht benötigter Audioanteile (de-embedding) entfällt. Damit wird der Aufbau entsprechender Produktionsumgebungen vereinfacht und der Bandbreitenbedarf gegenüber SMPTE ST 2022-6 erheblich reduziert. IP Adress #1

Method: SMPTE ST 2110-20 Video

IP Adress #2

Method: SMPTE ST 2110-30 Audio IP Adress #3

weConnect Datenserver

Metadata

Method: SMPTE ST 2110-40

Abb. 16/51. SDI-Essenzdaten in eigenständigen SMPTE ST 2110 Streams

Im Gegensatz zu SMPTE ST 2022-6, welches auf die Übertragung eines SDI-Signals festgelegt ist, können mit SMPTE ST 2110 beliebige existierende und zukünftige Mediaformate übertragen werden, so z.B. SD, HD, 4K, 8K, HDR, usw. Um die einzelnen Datenströme am jeweiligen Empfänger wieder exakt synchronisiert verarbeiten zu können – um z.B. das originale SDI-Ausgangssignal wieder abzubilden oder auch um eine Sample-synchrone Ausspielung einzelner Essenzen auf verschiedenen betei-

1146 

 16 Digitale Betriebstechnik

ligten Geräten zu gewährleisten – werden die aus einer gemeinsamen Referenz-Zeitbasis (Common Reference Clock) gewonnen Zeitmarken der einzelnen Essenzen-Pakete ausgewertet und die Essenzdaten dann entsprechend angeordnet. Der SMPTE ST 2110-Standard umfasst verschiedene Basis-Dokumente, von denen die nachfolgenden für den Audiobereich relevant sind: –– [SMPTE ST 2110-10] - System Timing and Definitions Dieser Teil beschreibt die grundlegenden verwendeten Protokolle und Mechanismen zum Transport und zur Synchronisation und gilt für alle Essenzdaten. Die hier festgelegten Anforderungen sind nahezu identisch mit den entsprechenden Festlegungen in AES67. –– [SMPTE ST 2110-30] – PCM Digital Audio Dieser Teil beschreibt, wie lineare PCM Audiodaten innerhalb des SMPTE ST 2110-Ökosystems formatiert und übertragen werden. Dabei wird festgelegt, dass alle SMPTE ST 2110-30-konformen Audiostreams den Anforderungen von AES67 entsprechen müssen. –– [SMPTE ST 2110-31] - AES3 Transparent Transport Da SMPTE ST 2110-30 nur lineare PCM-codierte Audiodaten übertragen kann, in der Praxis jedoch auch häufig das AES3-Format zur Anwendung kommt, z.B. bei MADI, SDI, Dolby E u. a., wurde ein weiterer Standard für das SMPTE ST 2110-Ökosystem definiert. Der SMPTEVerband wollte nach Möglichkeit keine vollständig neue Formatdefinition einführen, und so wurde nach einem geeigneten, bereits in der Praxis verwendeten Format gesucht. Die RAVENNA-Lösung verfügte über eine entsprechende und gut dokumentierte Formatdefinition [AM824], die dann von [SMPTE ST 2110-31] übernommen wurde. SMPTE ST 2110-30 und AES67 Obwohl SMPTE ST 2110-30 in weiten Teilen den Festlegungen von AES67 entspricht, gibt es einige Abweichungen, die in der Praxis jedoch meist nicht zu größeren Inkompatibilitäten führen. a) Synchronisation: Beide Standards verwenden [IEEE 1588-2008]-PTPv2 als Basis für die Synchronisation. Während jedoch AES67 die Unterstützung des PTP-Default Profils erfordert, verwendet SMPTE ST 2110 das in [SMPTE ST 2059-2] definierte PTP-Profil. AES67 definiert zusätzlich ein AES67 PTP-Media Profile und empfiehlt dessen Unterstützung. Die einzelnen Profile unterscheiden sich aber im Wesentlichen in der Häufigkeit der einzelnen PTP-Telegramme. Um in einem Netzwerk mit gemischtem Betrieb von SMPTE ST 2110 und AES67-konformen Geräten nicht mit zwei verschiedenen PTP-Profilen arbeiten zu müssen, hat die AES einen Report veröffentlicht [AES-R16-2016], in dem die Gemeinsamkeiten zwischen den einzelnen Profilen beschrieben werden. Mittels entsprechender Konfiguration lässt sich der Betrieb mit einer einheitlichen PTP-Konfiguration ermöglichen. In einer weiteren Festlegung verbietet SMPTE ST 2110 die Verwendung von zufälligen Offsets für die Erzeugung der RTP-Timestamps für einzelne Streams, wie sie in RFC 3550 empfohlen und von AES67 auch unterstützt wird. Die entsprechende Signalisierung im SDP lautet also in diesem Fall immer a=mediaclk:direct=0

16.3 Audionetzwerke 

 1147

und muss von einem AES67-Sender in einem SMPTE ST 2110-Umfeld entsprechend berücksichtigt werden. Eine weitere Abweichung in SMPTE ST 2110 ist die Möglichkeit, einen Sender nicht an die systemweite Referenz-Clock zu koppeln, sondern mit einer gerätespezifischen internen oder externen Clock zu betreiben. Dies wird über ein entsprechendes SDP-Attribut signalisiert: a=ts-refclk:localmac=

Diese Möglichkeit ist in AES67 nicht vorgesehen, so dass ein AES67-Empfänger einen solchen Audiodatenstrom nicht oder zumindest nur unsynchronisiert empfangen bzw. verarbeiten kann. b) Transport Beide Standards fordern die Unterstützung von Multicast. Während in AES67 jedoch nur der administratively-scoped Multicast-Adressbereich (239.0.0.0 bis 239.255.255.255) unterstützt wird, ist in SMPTE ST 2110 grundsätzlich der gesamte definierte Multicast Adressbereich zulässig, mit Ausnahme der für Netzwerk-Steuerungsprotokolle definierten Multicast-Adressbereiche von 224.0.0.0 bis 224.0.1.255. Dies könnte bei einigen AES67-konformen Empfängern dazu führen, dass Audiodatenströme außerhalb des 239.x.y.z-Adressbereichs nicht akzeptiert werden. Zum Abonnieren von Multicast Datenströmen wird in beiden Standards die Unterstützung von IGMP (Internet Group Management Protocol) gefordert. Während AES67 lediglich IGMPv2 (RFC 2236) verwendet, fordert SMPTE ST 2110 die Unterstützung von IGMPv3 [RFC 3376]. Dies wirkt sich in der Praxis jedoch kaum beeinträchtigend aus, da in allen IGMP-Versionen jeweils eine automatische Rückfalloption enthalten ist, so dass sich alle Komponenten im Praxisbetrieb eigenständig auf eine gemeinsame Version einigen. Für Unicast-Verbindungen fordert AESA67 die Unterstützung des SIP-Protokolls [RFC 3261] zur Unterstützung des Verbindungsaufbau, SMPTE ST 2110 verzichtet explizit auf diese Unterstützung. In der Praxis hat dies nur wenig einschränkende Auswirkungen, da auch in einer AES67-Umgebung der Aufbau von Unicast-Verbindungen oft über andere Mechanismen erfolgt, z.B. durch manuelle Konfiguration oder unter Mitwirkung eines externen Controllers. c) Paketformatierung SMPTE ST 2110-30 führt hinsichtlich der Audiodatenpaketierung sog. „Conformance Levels“ ein, in denen bestimmte zu unterstützende Paketformatierungen definiert werden. Dabei entspricht der „Conformance Level A“, welcher zwingend zu unterstützen ist, den jeweiligen Mindestanforderungen von AES67. Die in Level B festgelegten Formatierungen sind optional und decken sich weitgehend mit den auch in AES67 beschriebenen optionalen Möglichkeiten. Level C ist ebenfalls optional und ermöglicht die Übertragung eines kompletten MADISignals in einem Stream. Weitere Details sind im entsprechenden White Paper der AIMS [AES67 / SMPTE ST 2110 Commonalities and Constraints] enthalten.

1148 

 16 Digitale Betriebstechnik

16.3.6.5 SMPTE ST 2022-7 Übersicht [SMPTE ST 2022-7] gehört zur Gruppe der SMPTE ST 2022-Standards, mit denen die Übertragung von digitalen Videosignalen über IP-Netzwerke beschrieben wird. Als Videoformate werden dabei MPEG-2 Transport Streams und SDI-Signale unterstützt. Zur Übertragungssicherung werden verschiedene Verfahren wie Forward Error Correction (FEC) und Seamless Protection Switching (SPS) beschrieben. Letzteres ist Bestandteil des SMPTE ST 2022-7-Teilstandards, welcher in der ursprünglichen Fassung von 2013 folgerichtig als „Seamless Protection Switching of SMPTE ST 2022 IP Datagrams“ (SPS) überschrieben wurde. Er beschreibt die Methodik zur redundanten Übertragung eines SMPTE ST 2022-formatierten Signalstroms über zwei oder mehrere unabhängige Netzwerksegmente, so dass der vollständige Datenstrom bei Fehlern oder Störungen auf einem Segment unterbrechungsfrei rekonstruiert werden kann, solange alle benötigten IP-Pakete wenigstens über eines der redundanten Netzwerksegmente empfangen werden können. Im Gegensatz zur FEC-Methode, die eine deutlich erhöhte Latenz nach sich zieht, geht mit dem SPS – abhängig von der Übertragungslatenz auf den einzelnen Netzwerksegmenten – nur eine geringfügige Erhöhung der Gesamtlatenz einher. Im Zuge der Standardisierungsarbeiten an SMPTE ST 2110 wurde erkannt, dass sich SMPTE ST 2022-7 auch hervorragend zur redundanten Übertragung von SMPTE ST 2110-Datenströmen und - in allgemeiner Konsequenz - zur redundanten Absicherung aller RTP-basierten Paketströme eignet. Der originale Standard wurde an einigen Stellen überarbeitet und erweitert und trägt in aktueller Revision von 2019 jetzt den Namen „Seamless Protection Switching of RTP Datagrams“. Funktionsweise Beim Seamless Protection Switching (gen. auch Hitless Merge) werden die beteiligten Geräte über zwei oder mehrere, ggf. physikalisch getrennte Netzwerke miteinander verbunden. Ein Sender kann jetzt auf allen zur Verfügung stehenden Netzwerksegmenten inhaltsgleiche RTP Paketströme versenden.

Path 1

RTP Sender

Path 2 …

Path n Abb. 16/52. Prinzipieller Aufbau von Seamless Protection Switching (SPS)

RTP Receiver w/ SPS

16.3 Audionetzwerke 

 1149

Die einzelnen Pakete werden unabhängig voneinander in den verschiedenen Netzwerken zum Empfänger transportiert. Dabei werden die Pakete in der Regel mit unterschiedlichen Laufzeiten und individuellem Paketjitter (PDV, packet delay variation) beaufschlagt. Ein SPSfähiger Empfänger kann die Paketströme aus den verschiedenen Netzwerken unabhängig voneinander empfangen. Nach dem Entpacken stehen jetzt mehrere identische Kopien für jedes RTP-Paketes zur weiteren Verarbeitung zur Verfügung. Solange für jedes RTP-Paket des originalen Paketstroms mindestens eine Kopie innerhalb der festgesetzten maximalen Latenz (Link Offset oder Playout Delay) beim Empfänger ankommt, kann der originale Paketdatenstrom fehlerfrei rekonstruiert und unterbrechungsfrei ausgespielt bzw. weiterverarbeitet werden. Auf den verschiedenen Netzwerkpfaden können unterschiedliche Latenzen entstehen. Diese sind von mehreren statischen und variablen Faktoren abhängig, u. a. von der zu überbrückende Entfernung, der Netzwerkbandbreite, der Anzahl der Hops auf dem Pfad und natürlich auch der dynamischen Auslastungssituation, verbunden mit den jeweils konfigurierten Dienstgütemerkmalen auf den verschiedenen Netzwerksegmenten. Prinzipiell ist am Empfänger ein auf die jeweils zu erwartende Situation angepasster Link Offset so einzustellen, dass die Pakete vom Netzwerkpfad mit der höchsten Latenz noch regelmäßig rechtzeitig empfangen werden können. Entsprechend groß muss der Empfangspuffer des Empfängers sein, der in diesem Anwendungsfall nicht nur den regelmäßig anfallenden Paketjitter (PDV) ausgleichen können muss, sondern auch die unterschiedlichen Laufzeiten – je stärker die regulär zu erwartenden maximalen Latenzen auf den einzelnen Pfaden auseinander liegen, desto größer muss der Puffer beschaffen sein. Das nachfolgende Diagramm visualisiert die Zusammenhänge: Link Offset MD

SPSReceiver

P1

RTP-Sender

P2

Reconstructed



RTP output

Pₙ

EA

PD

Abb. 16/53. Zeitliche Zusammenhänge SPS Dabei bedeuten: –– Pn: momentane Latenz auf dem Pfad n, inklusive Paketjitter. –– Link Offset: konfigurierte Latenz des gesamten Playout Offset; diese muss genügend groß sein, um den größten zu erwartenden Wert Pn ausgleichen zu können. –– EA: frühestmöglicher Zeitpunkt zum Empfang eines Pakets; minimal verarbeitbare momentane Latenz. –– MD: Größe des Empfangspuffers; entspricht der max. möglichen Differenz zwischen Link Offset und EA. –– PD: maximale Differenz zwischen allen momentanen Latenzen Pn.

1150 

 16 Digitale Betriebstechnik

Toleranzklassen Nach Konfiguration eines passenden Link Offsets und Aufbau aller Verbindungen, können die momentanen Latenzen Pn variieren und damit den Wert der maximalen Differenz PD verändern. SMPTE ST 2022-7 spezifiziert verschiedene Klassen, die angeben, welche Änderungen für maximale Latenzdifferenzen tolerierbar sind: Tab. 16/4. Empfänger-Klassifizierungen für SPS

Klasse / Δ Pn

Anwendungsfall

A / gering B / moderat C / groß D / sehr gering

In-house Verbindungen Kurze WAN-Verbindungen Lange WAN-Verbindungen Für Redundanz in LAN-Netzen

PD SBR Streams

HBR Streams