Relatividad para Futuros Fisicos

Relatividad
para futuros físicos
Saúl Ramos-Sánchez
CopIt-arXives
Publishing Open Access
with an Open Mind
2018
Este libro contiene material protegido por Leyes de Autor
Todos los derechos reservados ©2018

Publicado electrónicamente en México, por CopIt-arXives
Diseño de portada por Adriana Vergara
Obra editada por Octavio Miramontes Vidal
Relatividad para futuros físicos

por Saúl Ramos-Sánchez
CopIt-arXives, México Cd.Mx., 2018
Incluye índice y bibliografía
ISBN: 978-1-938128-18-9 ebook
Derechos y permisos
Todo el contenido de este libro es propiedad intelectual de su autor quien, sin embargo,
otorga permiso al lector para copiar, distribuir e imprimir sus textos libremente, siempre
y cuando se cumpla con lo siguiente: (i) el material no debe ser modificado ni alterado,
(ii) la fuente debe ser citada siempre y los derechos intelectuales deben ser atribuidos a su
autor, (iii) estrictamente prohibido su uso con fines comerciales.
Producido con software libre incluyendo LATEX y Linux. Indexado en el catálogo de publi-
caciones electrónicas de la Universidad Nacional Autónoma de México y en Google Books.
Con el apoyo de DGAPA-UNAM a través del proyecto PAPIIT-IN-100217, del proyecto

CONACyT F-252167, y del Instituto de Física de la UNAM.
ISBN: 978-1-938128-18-9 ebook

http://scifunam.fisica.unam.mx/mir/copit/
Este libro ha pasado por revisión de pares
CopIt-arXives
Cd. de México - Cuernavaca - Madrid - Curitiba
Viçosa - Washington DC - London - Oxford
Con el apoyo de la
Universidad Nacional Autónoma de México
Instituto de Física
A Démian y Adriana
Índice general
Índice general i
Presentación v
Bibliografía ix
Algunos datos y convenciones xi
Introducción xv
1. Fundamentos de la relatividad especial 1

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. El experimento de Michelson–Morley . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Relatividad Galileana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Diagramas de espacio–tiempo en relatividad Galileana . . . . . . . . 7
1.3.2. El intervalo Galileano . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Transformaciones de Lorentz y relatividad especial . . . . . . . . . . . . . . 10
1.5. Invariancia del intervalo y espacio–tiempo . . . . . . . . . . . . . . . . . . . 16
1.6. Dilatación temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7. Un primer vistazo a 4–vectores . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8. Diagramas de espacio–tiempo y efectos relativistas . . . . . . . . . . . . . . 28
1.8.1. Contracción de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8.2. Causalidad en diagramas de espacio–tiempo . . . . . . . . . . . . . . 36
1.9. El grupo de transformaciones de Lorentz . . . . . . . . . . . . . . . . . . . . 39
1.9.1. Boosts de Lorentz en tres dimensiones . . . . . . . . . . . . . . . . . 39
ii ÍNDICE GENERAL
1.9.2. Boosts de Lorentz como rotaciones hiperbólicas . . . . . . . . . . . . 40

1.9.3. Los elementos del grupo de Lorentz . . . . . . . . . . . . . . . . . . 42
1.9.4. Simetrías de Lorentz y constantes de movimiento . . . . . . . . . . . 45
1.10. Aplicaciones ópticas de la relatividad especial . . . . . . . . . . . . . . . . . 48
1.10.1. Efecto Doppler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.10.2. Aberración de luz o aberración estelar . . . . . . . . . . . . . . . . . 51
1.11. Mecánica cuántica relativista de partículas sin espín* . . . . . . . . . . . . . 54
1.11.1. La ecuación de Klein–Gordon . . . . . . . . . . . . . . . . . . . . . . 54
1.11.2. Corrientes conservadas . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.11.3. Causalidad y antipartículas . . . . . . . . . . . . . . . . . . . . . . . 58
2. Geometría en relatividad 69
2.1. Tensores en relatividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.1.1. Algunas propiedades de vectores . . . . . . . . . . . . . . . . . . . . 69
2.1.2. 1–formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.1.3. Gradiente de una función . . . . . . . . . . . . . . . . . . . . . . . . 75
2.1.4. Tensor métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.1.5. El papel del tensor métrico . . . . . . . . . . . . . . . . . . . . . . . 79
2.1.6. La base del tensor métrico . . . . . . . . . . . . . . . . . . . . . . . . 81
2.1.7. Tensores de rango (M, N ) . . . . . . . . . . . . . . . . . . . . . . . . 83
2.1.8. Álgebra tensorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.1.9. Gradiente de un tensor en espacio–tiempo plano . . . . . . . . . . . 89
2.2. Ecuaciones de Maxwell en relatividad especial . . . . . . . . . . . . . . . . . 90
2.2.1. Fuerza de Lorentz y ecuaciones de Maxwell . . . . . . . . . . . . . . 91
2.3. Tensor de energía–momento . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.3.1. Tensor de energía–momento de un fluido perfecto. . . . . . . . . . . 97
2.3.2. Conservación de energía–momento . . . . . . . . . . . . . . . . . . . 100
2.4. Espacio con métrica no trivial . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.4.1. Coordenadas curvilíneas . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.4.2. Vectores y 1–formas base en coordenadas curvilíneas . . . . . . . . . 104
2.4.3. Tensor métrico y gradiente en coordenadas curvilíneas . . . . . . . . 104
2.4.4. Derivadas en coordenadas curvilíneas . . . . . . . . . . . . . . . . . . 106
2.4.5. Derivada covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
ÍNDICE GENERAL iii
2.4.6. Los símbolos de Christoffel no son tensores . . . . . . . . . . . . . . 113

2.5. Sistemas físicos en espacios no triviales y covariancia . . . . . . . . . . . . . 114
2.6. Espacio y espacio–tiempo con curvatura . . . . . . . . . . . . . . . . . . . . 116
2.6.1. Espacio plano contra curvo . . . . . . . . . . . . . . . . . . . . . . . 117
2.6.2. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.6.3. Transporte paralelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.7. Tensor de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
2.7.1. Simetrías del tensor de Riemann . . . . . . . . . . . . . . . . . . . . 133
2.8. Identidades de Bianchi, tensores de Ricci y Einstein . . . . . . . . . . . . . 134
2.9. Vectores de Killing y simetrías del espacio–tiempo* . . . . . . . . . . . . . . 136
2.9.1. Cantidades conservadas en geodésicas . . . . . . . . . . . . . . . . . 138
2.9.2. Simetrías del espacio–tiempo de Minkowski . . . . . . . . . . . . . . 139
2.10. Densidades tensoriales* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3. Relatividad general y sus aplicaciones básicas 153

3.1. Principios de relatividad general . . . . . . . . . . . . . . . . . . . . . . . . 153
3.1.1. Principio de equivalencia . . . . . . . . . . . . . . . . . . . . . . . . 153
3.1.2. Corrimiento al rojo gravitacional . . . . . . . . . . . . . . . . . . . . 156
3.2. Campos gravitacionales débiles: límite Newtoniano . . . . . . . . . . . . . . 158
3.2.1. Unidades naturales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
3.3. Solución de Schwarzschild: estrellas y agujeros negros . . . . . . . . . . . . . 163
3.3.1. Estrella estática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
3.3.2. Corrimiento al rojo en el espacio–tiempo de Schwarzschild . . . . . . 169
3.3.3. Cantidades conservadas . . . . . . . . . . . . . . . . . . . . . . . . . 170
3.3.4. Órbitas de partículas libres en espacio–tiempo de Schwarzschild . . . 171
3.3.5. Singularidades de Schwarzschild y agujeros negros . . . . . . . . . . 175
3.3.6. Formación y tipos de agujeros negros* . . . . . . . . . . . . . . . . . 181
3.4. Pruebas de la relatividad general . . . . . . . . . . . . . . . . . . . . . . . . 184
3.4.1. Desviación de la luz . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.4.2. Precesión “anómala” del perihelio . . . . . . . . . . . . . . . . . . . . 188
3.4.3. Ondas gravitacionales . . . . . . . . . . . . . . . . . . . . . . . . . . 192
3.5. Principios relativistas de cosmología . . . . . . . . . . . . . . . . . . . . . . 198
3.5.1. Espacio–tiempo de Friedmann–Robertson–Walker . . . . . . . . . . 199
iv ÍNDICE GENERAL
3.5.2. Corrimiento al rojo cosmológico y ley de Hubble . . . . . . . . . . . 203

3.5.3. Evolución de un universo plano . . . . . . . . . . . . . . . . . . . . . 205
3.5.4. Radiación cósmica de fondo . . . . . . . . . . . . . . . . . . . . . . . 211
3.5.5. Problema del horizonte cosmológico . . . . . . . . . . . . . . . . . . 216
3.5.6. Inflación cosmológica . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
3.5.7. Breve cronología cosmológica . . . . . . . . . . . . . . . . . . . . . . 221
A. Ecuación de la geodésica utilizando el principio de mínima acción 231
B. Rα βµν es tensor 233
C. Ecuaciones de Einstein y la acción de Einstein-Hilbert 235

Presentación
En repetidas ocasiones se ha dicho que el mundo vive actualmente en la Edad de la

Información; pero también se ha dicho que esta afirmación es inexacta y que lo que actual-
mente se vive es una Economía de la Información. En esta última, cualquier conocimiento
es objeto de comercio que se vende y se paga: una mercancía pues. Como nunca antes, se
hace una defensa legal y punitiva de los derechos de autor. Lo cual en principio no está
mal si no es porque para los autores y creadores intelectuales, salvo algunos pocos casos,
la compensación económica es prácticamente nula.
En el campo científico esto es aún más grave. La generación del conocimiento en ciencias
se paga, es su mayoría, con dinero público. Pero un grupo muy reducido de empresas
internacionales controlan la publicación y difusión de ese conocimiento sin absolutamente
ninguna retribución a sus autores o instituciones, al contrario. Pero la invención de la
internet y la www -paradójicamente- ha venido también acompañada de iniciativas, aún
tímidas, para hacer que ese conocimiento sirva realmente para la formación de los individuos
y en última instancia para que la ciencia sea una verdadera herramienta y motor para el
desarrollo humano. De esta manera ha nacido el llamado movimiento del acceso libre que se
plantea la distribución del conocimiento científico de manera abierta, irrestricta y gratuita
para el público general que, finalmente, es quien con sus impuestos financia la mayor parte
de la actividad científica.
Hace más de 10 años se inició en México el proyecto editorial CopIt-arXives que se
planteó la publicación de textos académicos bajo la filosofía de acceso abierto. Hoy pre-
sentamos con un enorme entusiasmo el libro Relatividad para futuros físicos del Dr. Saúl
Ramos-Sánchez, quien de manera generosa lo ha propuesto para publicación en este proyec-
to académico y para el beneficio de los estudiantes de física en México y en general aquellos
de habla hispana en el mundo entero y que se verán dotados ahora con un texto escrito
con autoridad y exactitud. Con ello, CopIt-arXives celebra además el lanzamiento de una
nueva colección de libros. Esta vez específicamente dedicada a libros de texto y que hemos
titulado Textos contemporáneos en alusión al movimiento literario impulsado por Jaime
Torres-Bodet y quien fuera un intelectual mexicano de gran trayectoria. Torres-Bodet es-
taría al mando de la SEP en el año 1959 cuando estableció el proyecto de libros de texto
vi Presentación
gratuito para enseñanza básica en México. Un prototipo vanguardista del acceso abierto
para la educación pública de México. A casi 60 años de la destacada obra de Torres-Bodet,
nos congratulamos de la publicación en línea de este primer volumen.
Octavio Miramontes Vidal

Editor Jefe, Copit-arXives
CDMX, 29 de mayo del 2018
Palabras del autor

La enseñanza obligatoria de la relatividad en la licenciatura en física en la Facultad
de Ciencias de la Universidad Nacional Autónoma de México (UNAM) tiene menos de 15
años, a pesar de que esta disciplina nació en 1905, con el trabajo seminal de Albert Einstein
sobre relatividad especial. Y sólo hace cuatro años se reconoció que, siendo la relatividad
un elemento tan importante como la mecánica cuántica en nuestra comprensión física del
universo, es necesario que un estudiante de física adquiera a la mitad de su carrera una
visión amplia de uno de los trabajos más importantes de Einstein. Esta situación no es única
en la UNAM, hay varias Universidades latino-americanas en las que sólo recientemente se
comenzó la enseñanza de esta predictiva área de la física y también existen otras que aún
no incluyen cursos sobre relatividad.
Un argumento usual para evitar la enseñanza de la relatividad es que los elementos
matemáticos que se requieren para comprenderla son muy avanzados y que el grado de
madurez necesario en un estudiante para que pueda aprovechar un curso de esta naturaleza
es el de un alumno de posgrado. Contrario a este punto de vista, estoy convencido de que
un estudiante a partir del segundo semestre de su carrera en física posee las herramientas
para apreciar con profundidad los fundamentos de la relatividad especial. Asimismo, un
estudiante con conocimientos sólidos de cálculo diferencial y geometría Euclidiana en varias
dimensiones es capaz de comprender la relatividad general. Proporcionar una guía adecuada
para esos estudiantes es uno de los propósitos de este texto.
Este texto no contiene material original. Los temas discutidos aquí aparecen en muchos
importantes libros sobre la teoría de la relatividad, tales como los recomendados, como
textos auxiliares, en la Bibliografía. La diferencia entre esos libros y el presente trabajo es
que, en mi opinión, ninguno de ellos resulta ideal como una introducción a ambas ramas
de la teoría de la relatividad para ser impartida en un curso semestral de licenciatura o
pregrado, durante apenas tres horas por semana. Además, la mayoría de ellos son encon-
trados sólo en inglés, lo que frecuentemente impide que un estudiante joven adopte esos
libros. Otra diferencia es que, en algunos temas, este texto ofrece discusiones que podrían
hacer más accesibles los conceptos físicos y las consecuencias de la relatividad.
vii
La estructura de este trabajo también es diferente a la de los libros habituales. En lu-

gar de dividir los temas en varios capítulos que pueden consultarse independientemente, los
tres capítulos de este texto están pensados para leerse consecutivamente. Además, varios
temas secundarios, tales como las falsas paradojas de la relatividad, han sido relegados a las
secciones de ejercicios, al final de cada capítulo. Por esta razón, un estudiante cuidadoso,
debería no sólo consultar el desarrollo y contenido conceptuales de este texto, sino ejercitar-
se frecuentemente con la resolución de los ejercicios. Los ejercicios están planeados para que
el estudiante pueda repasar las ideas centrales del texto y, simultáneamente, desarrollar su
propia intuición. Especialmente, las preguntas conceptuales suelen ser de respuesta directa,
pero requieren una comprensión más profunda que los típicos ejercicios algebraicos.
Una última diferencia de este texto con respecto a otros ya disponibles es que está
planeado para que un estudiante interesado en especializarse en física de altas energías lo
encuentre especialmente útil. Esto motiva la elección de algunas convenciones y la inclusión
de secciones y ejemplos que aportan herramientas imprescindibles para esos estudiantes.
No obstante, cualquier estudiante, al concluir la revisión del texto, adquirirá conocimientos
sólidos sobre la teoría de la relatividad, lo que le permitirá desarrollarse en el área de su
interés.
Los tres capítulos de este texto están concebidos para estudiarse en cinco semanas
cada uno, dedicando entre tres y seis horas por semana, incluyendo la resolución de los
ejercicios. El primer capítulo aporta una discusión detallada de los elementos esenciales
de la relatividad especial. Tras discutir su relevancia conceptual, incluyendo una discusión
del grupo de Lorentz y las leyes de conservación, se abordan algunas aplicaciones físicas
de la relatividad especial, incluida la descripción relativista de partículas sin espín. El
segundo capítulo introduce los conceptos matemáticos clave de la relatividad general, tales
como los tensores, las variedades, la métrica y la curvatura, así como los elementos físicos
fundamentales de la relatividad general, tales como el tensor de energía–momento, el tensor
de Einstein y, como ejemplo recurrente, las ecuaciones de Maxwell. El tercer capítulo tiene
como objetivo estudiar la relatividad general como resultado del principio de equivalencia
y el principio relativista en términos del formalismo desarrollado en el segundo capítulo;
esto conduce a un análisis de las principales pruebas de la relatividad general y un análisis
superficial de dos aplicaciones importantes: los agujeros negros y la cosmología moderna.
Este texto constituye una introducción a la teoría de la relatividad, a nivel licenciatura,
por lo que i) en algunos casos, la claridad conceptual física ha sido preferida al rigor
matemático, y ii) existen diversos tópicos que no han sido siquiera mencionados, tales como
aspectos cuánticos de los agujeros negros, relatividad especial en diversas coordenadas,
versiones de gravedad modificada, etc. Sin embargo, el texto contiene suficiente material
para motivar al estudiante interesado a especializarse durante sus estudios de posgrado,
empleando textos más ambiciosos como los enumerados en la Bibliografía.
La profundidad y amplitud con la que se discuten los temas están basadas en mi propia
experiencia impartiendo el curso frente a varios grupos. Es posible que otros docentes
viii Presentación
opinen que se requiere más tiempo o herramientas alternativas para discutir los elementos
de la relatividad aquí presentados. No obstante, estoy convencido de que los temas de este
texto pueden ser transmitidos a estudiantes de licenciatura como se plantea aquí, dado que
ellos también dedican tiempo a repasar los temas y resolver los ejercicios propuestos, y se
evitan en un primera lectura los temas marcados con un asterisco.
Agradecimientos
Deseo agradecer particularmente el trabajo y dedicación que Lartaun Aramis de Icaza
Astiz invirtió en la traducción y captura de este texto como parte de su proceso de ti-
tulación. Asimismo, le agradezco sus sugerencias en distintas partes del texto, las cuales
benefician al lector. En especial, Aramis fue quien hizo notar que este trabajo hubiera
estado incompleto sin incluir una sección dedicada al estudio de las ondas gravitacionales,
recientemente detectadas.
Mi gratitud va además a los muchos estudiantes entusiastas que han participado en
los cursos de relatividad que he impartido en la Facultad de Ciencias de la UNAM. Sus
preguntas continuas y su fascinación por esta área han sido y son una motivación para
escribir y mejorar este texto. También es un placer agradecer a los estudiantes que han
sido ayudantes del curso, quienes, más allá de su deber, han participado en el diseño de
algunos de los ejercicios contenidos en estas notas. Por su invaluable labor, agradezco a
Yessenia Olguín Trejo, Jorge Armando Arroyo Troncoso, Carlos Crispín Espinosa Ponce
y, muy especialmente, a Tupac Bravo Ibarra, quien depositó su talento en ingeniosos y
didácticos ejercicios, diseñados para que sus compañeros más jóvenes compartieran el placer
de entender los vericuetos de la relatividad.
Estoy también en deuda con Iker Loic de Icaza Astiz y Aitor Lander de Icaza Astiz,
quienes invirtieron mucho tiempo trazando cuidadosamente todas las figuras que aparecen
en este texto.
Agradezco el apoyo recibido para el desarrollo de este trabajo mediante los proyectos
CONACyT F-252167 y DGAPA-PAPIIT IN100217, así como el apoyo que me brindó el
Instituto de Física para la publicación de la versión impresa de este trabajo. Además,
agradezco la hospitalidad del ICTP, quien me recibió durante la última etapa de redacción
de este texto. Finalmente, deseo agradecer la cuidadosa revisión realizada por los árbitros,
quienes contribuyeron a mejorar la calidad de esta obra.
S. Ramos-Sánchez
UNAM
2018
Bibliografía
El desarrollo de este texto se ha visto influenciado por muchos trabajos previos. La

mayoría de esos libros discuten los diversos temas de una forma diferente a la de este texto,
por lo que pueden ser empleados como visiones complementarias, en algunos casos, o como
textos de profundización, en otros casos. Cada lista mostrada a continuación agrupa una
selección de textos sobre los temas que titulan las listas; los libros son citados de acuerdo a
la preferencia del autor de este texto, pero el orden no refleja una diferencia en la calidad
de los libros.
Relatividad Especial
E.F. Taylor, J.A. Wheeler, Spacetime physics: Introduction to Special Relativity. Free-
man & Co., 1992.
S. Weinberg, The Quantum Theory of Fields I. Cambridge Univ. Press, 1995 (seccio-
nes 2.2–2.4).
A. Einstein, Relativity. The special and general theory. Methuen & Co Ltd., 1916.
Relatividad General
B.F. Schutz, A first course in general relativity. Cambridge Univ. Press, 1985.
S. Weinberg, Gravitation and cosmology. John Wiley, 1972.
C.W. Misner, K.S. Thorne, J.A. Wheeler, Gravitation. Freeman & Co., 1975.
S. Carroll, Lecture Notes on General Relativity. arXiv:gr-qc/9712019, 1997.
Relatividad Especial y General
W. Rindler, Relativity. Oxford Univ. Press, 2001.
S. Hacyan, Relatividad para estudiantes de física. FCE México, 2013.

x Bibliografía
Cosmología
E.W. Kolb, M.S. Turner, The early universe. Addison-Wesley Pub. Co., 1988.
S. Weinberg, Cosmology. Oxford Univ. Press, 2008.
Divulgativos
S. Hacyan, Relatividad para principiantes. FCE, México, 2009.
R.P. Feynman, Six not-so-easy pieces. Basic Books, 2011.
B. Greene, The fabric of the cosmos. Vintage Books, 2004.
S. Weinberg, The first three minutes. Basic Books, 1988.
S. Hawking, A brief history of time. Bantam Books, 1998.

Algunos datos y convenciones
Se utilizarán las siguientes convenciones y definiciones:
c denota la rapidez de la luz en el vacío, dada por c = 299, 793, 458 m/s. En cálculos
numéricos se utilizará el valor aproximado c ≈ 3 × 108 m/s.
La constante de gravitación universal de Newton: GN ≈ 6.674 × 10−11 N · m2 /kg2 .
La constante de Boltzmann: kB ≈ 1.38 × 10−23 J/K ≈ 8.617 × 10−5 eV/K.
La constante de Planck: h ≈ 6.626 × 10−34 J·s ≈ 4.136 × 10−15 eV·s.
Cuando resulte conveniente, se utilizarán las llamadas unidades naturales, definidas

aquí por la asignación c = GN = 1. Se indicará cuando se empleen.
Las coordenadas espacio–temporales se denotan por el arreglo vertical de 4 compo-

nentes, con unidades de longitud, (ct, x1 , x2 , x3 )T . Comúnmente, la combinación ct es
denotada x0 .
Otra notación útil para las coordenadas espacio–temporales es (xµ ) = (x0 , x1 , x2 , x3 )T .

Análogamente, para otros vectores; por ejemplo, las componentes de momento en un
espacio–tiempo se denotan como (pµ ) = (p0 , p1 , p2 , p3 )T .
Los índices griegos µ, ν, ρ, . . . son llamados índices espacio–temporales con valores

0, . . . , 3. Estos etiquetan las componentes espacio–temporales de posición (xµ ), mo-
mento (pµ ), vector de onda (k µ ), . . ..
Los índices latinos i, j, k, . . . toman los valores 1, 2, 3, de manera que están reservados
para vectores espaciales, habituales, y/o las componentes espaciales de un vector en
espacio–tiempo.
El espacio dual al espacio de vectores se denomina espacio de 1–formas y sus elemen-

tos también tienen 4 componentes, las cuales se denotan con índices inferiores; por
ejemplo, una 1–forma válida tiene las componentes (pµ ) = (p0 , p1 , p2 , p3 ).
xii Algunos datos y convenciones
Se utilizará la llamada convención de sumas de Einstein, de acuerdo a la cual, cuando

un índice es repetido en un monomio, se debe interpretar como la suma de la expresión
en el monomio con todos los valores que puede adquirir el índice. Por ejemplo, si los
valores que puede adquirir un índice son µ = 0, 1, 2, 3, entonces
3
X
x µ pµ ≡ x µ p µ = x 0 p 0 + x 1 p 1 + x 2 p2 + x 3 p 3 .
µ=0
Puede haber más de un índice repetido en una expresión monomial. Por ejemplo,
3 X
X 3
Fµν F µν ≡ Fµν F µν .
µ=0 ν=0
En el caso de índices espaciales (latinos) repetidos, la convención de sumas aplicará

posicionando los índices siempre de la siguiente manera:
3
X
xi xi ≡ xi xi = (x1 )2 + (x2 )2 + (x3 )2 .
i=1
Los vectores espaciales se denotan con letras negritas, e.g. v = (v 1 , v 2 , v 3 )T . Su mag-

nitud se representa como v = |v| y se determina mediante |v|2 = v i v i .
β denota la proporción entre la rapidez de un sistema físico y la de la luz c, β =
|v|/c. β designa frecuentemente la rapidez relativa entre sistemas de referencia con
movimiento rectilíneo uniforme.
−1/2
El factor de Lorentz se denota como γ = 1 − β 2 .
La métrica espacio–temporal de Minkowski (correspondiente a un espacio–tiempo
plano) está dada por la matriz diagonal 4 × 4, η = diag(1, −1, −1, −1).
La métrica de una variedad (Riemanniana o Lorenziana) arbitraria se denota por g;
sus componentes satisfacen gµν = gνµ , es decir, g es simétrica.
El producto escalar de 4–vectores en el espacio–tiempo de Minkowski se denota como
3
X 3
X
µ µ
x · y = xµ y = xµ y ≡ xµ ηµν y ν = xµ ηµν y ν
µ=0 ν,µ=0
   0
1 y 0
 −1   1
x · y = x0 , x 1 , x 2 , x 3   y 
 −1  y 2 
0 −1 y3
= x0 y 0 − xi y i
= x0 y 0 − x · y.
xiii
Debido a que el resultado es un número real y, por tanto, independiente del índice µ,
en la expresión xµ y µ decimos que el índice µ ha sido contraído.
Debido a la convención elegida en la signatura de la métrica, el intervalo diferencial

en espacio–tiempo plano está dado por
ds2 = (dx0 )2 − dxi dxi .
El tiempo propio de un sistema (inercial o no) se denota como τ y satisface instan-

táneamente la relación diferencial c2 dτ 2 = ds2 .
La derivada covariante se denota como D (en lugar de ∇, para evitar confusiones).
Los símbolos de Christoffel (de segundo tipo) se denotan como Γα µν .
El tensor de Ricci se define en términos de las componentes del tensor de Riemann

como la contracción Rµν ≡ Rα µαν .
El escalar de Ricci se define como R ≡ Rµ µ .
En la métrica de Friedmann-Robertson-Walker (ver sección 3.5.1), el llamado factor

de escala a(t) tiene dimensiones de longitud.
! !
El símbolo = denota la imposición de una igualdad. E.g. A = B indica el requeri-
miento de que A sea igual a B.
La conversión entre energía E en GeV y temperatura T en K se establece mediante

la constante de Boltzmann como T = E/kB ≈ 1.16 × 1013 K/GeV.
Puesto que las convenciones aquí definidas no son universales, el lector deberá verificar
qué convenciones se utilizan en los textos auxiliares que decida emplear.
xiv Algunos datos y convenciones
Introducción
La relatividad en el siglo XXI
Es imposible no vincular la teoría de la relatividad con Albert Einstein, su creador, quizá

el ícono científico más grande del siglo pasado. Mediante la versión especial de su teoría,
Einstein logró demostrar que las reglas de la electricidad y el magnetismo no dependen
de cómo se mueva quien la experimente, contrario a lo que la física de Newton concluía.
Mostró también que las ondas electromagnéticas, al contrario de las otras ondas conocidas
en ese tiempo, existen incluso en el vacío. Posteriormente, su relatividad general explicó los
cambios “anómalos” observados en la órbita de Mercurio. Además, sin más herramientas
que la geometría y un axioma de la época de Galileo, predijo correctamente que la luz sufre
de atracción gravitacional, a pesar de que las partículas que la describen no poseen masa,
y que la luz es más azul cuanto más cerca se encuentre de un cuerpo con masa.
Estas predicciones que aparecieron en el artículo original de Einstein fueron confirmadas
paulatinamente hace más de medio siglo en distintos experimentos y observaciones que
catapultaron a Einstein a una fama nunca antes vista en los medios científicos. Para la
sociedad cambiante de inicios del siglo XX, el hecho de que con tan sólo matemáticas se
puedan describir increíbles aspectos de la naturaleza fue una grata sorpresa. Quizá no es
que fuera una experiencia inédita, sino que pocos esperaban un cambio tan revolucionario
en un paradigma que había durado siglos. Antes de Einstein, la descripción Newtoniana
de la gravitación era venerada por su simplicidad y validez universal. Desafiar a semejante
autoridad con el talento con que lo hizo Einstein conquistó a todos.
Muy pronto se descubrió que la relatividad escondía más sorpresas. En 1915, el mismo
año de su presentación en público, la teoría reveló la posible existencia de cuerpos astrofí-
sicos con masas estelares que no dejan escapar ni la luz, los agujeros negros. Estas bestias
devoradoras de materia se convirtieron inmediatamente en las celebridades más seductoras
y enigmáticas de la relatividad entre un amplio público. Poco después, Einstein mostró que
su teoría predice la existencia de ondas gravitacionales, deformaciones del tejido cósmico
que se mueven a la velocidad de la luz, como si fueran velocísimos sismos espaciales. Por
si fuera poco, pronto se observó que es posible obtener una descripción científica detallada
de la historia del universo basada en las ecuaciones de la relatividad.
xvi Introducción
Pese a lo interesante de estas últimas anotaciones, durante varias décadas del siglo
pasado en los círculos científicos más conservadores los estudios de los agujeros negros,
las ondas gravitacionales y la cosmología no eran vistos más que como curiosos trabajos
teóricos. La razón fue y ha sido que es complicado o imposible realizar confirmaciones
directas y que es difícil hacer los cálculos relativistas precisos para poder comparar con
observaciones indirectas.
Sin embargo, ingeniosos (y a veces sólo afortunados) experimentos han acumulado vas-
ta evidencia indirecta. Por ejemplo, sobre cosmología, el descubrimiento de la radiación
cósmica de fondo, predicha y descrita por el modelo cosmológico de la gran explosión como
la radiación remanente de una época temprana en la que el universo era muy caliente, fue
un ladrillo importante en la consolidación de la cosmología. Su descubrimiento fue galardo-
nado con el máximo honor del Premio Nobel en 1978. A pesar de esto, aún existían dudas
sobre si el modelo de la gran explosión, basado en la relatividad general, era el correcto para
describir esta radiación. Por fortuna, una década después fue confirmado que la radiación
no es uniforme en todo el cosmos y que la medición de estas inhomogeneidades coincide
con lo predicho por la teoría. Celebrado con el Premio Nobel en 2006, este descubrimiento
no dejó muchas opciones abiertas. La cosmología descrita por la relatividad es la más apro-
piada. Una medición más detallada de la expansión del universo condujo pronto al último
mayor descubrimiento cosmológico: el universo crece cada vez más rápido (Premio Nobel
2011). Y (casi) todo puede ser ajustado perfectamente a partir de la relatividad general.
La confirmación de la existencia de los agujeros negros y las ondas gravitacionales no
tiene una historia más corta. Por una parte, los agujeros negros siempre han representado
una singular molestia científica. El hecho de que la teoría indique que la fuerza gravitacional
en el corazón de los agujeros negros es infinita indica un grave problema: justamente ahí
la teoría de la relatividad general deja de ser válida. Así, por algún tiempo se consideró
que los agujeros negros son un truco que nos juegan las matemáticas. Sin embargo, los
teóricos plantearon que, al igual que las estrellas compuestas enteramente de neutrones, los
agujeros negros son los cadáveres de estrellas más grandes que la nuestra. La confirmación
de la existencia de las estrellas de neutrones en los 1960s y observaciones indirectas del
movimiento de estrellas alrededor de regiones oscuras condujeron a la certeza de que hay
muchos agujeros negros en el universo, y de que pueden tener masas de millones de veces
la del Sol.
Además, los agujeros negros, aunque no son las típicas aspiradoras cósmicas que nos
pintan, sí absorben grandes cantidades de materia de su vecindario cósmico, creando a
su alrededor un anillo de material incandescente que emite radiación, llamado disco de
acreción. Esta radiación predicha por la teoría ha sido confirmada especialmente en el
centro de galaxias como la nuestra. En la Vía Láctea, el movimiento de un grupo de
estrellas alrededor del centro de la galaxia, “perseguido” por astrónomos desde los 1990s,
ha revelado que ahí habita un cuerpo relativamente pequeño y oscuro con masa de casi 3
millones de veces la del Sol y que emite radiación según las predicciones para un agujero
xvii
negro. Si esto no bastara, en 2011 se observó un disco de acreción con emisión de radiación
X, consistente con las predicciones de agujeros negros con masas de miles de millones de
veces la de nuestra estrella absorbiendo el material de un quásar.
La última serie de observaciones indirectas de los agujeros negros tiene que ver con las
ondas gravitacionales. A pesar de que éstas pueden producirse con cualquier movimiento
acelerado (hasta un aplauso las produce) de acuerdo a la teoría, sólo ondas gravitacionales
generadas por violentos eventos cósmicos son capaces de producir ondas gravitacionales que
podamos detectar en la Tierra con sensores tan sensibles como para medir deformaciones
del espacio de una milésima del tamaño de un protón o menos. La detección de ondas
gravitacionales en 2015, galardonada en 2017 con el Premio Nobel, tuvo el reto de explicar el
origen de la detección. Supercomputadoras con sofisticados programas lograron demostrar
que la señal, de acuerdo con la relatividad, sólo es consistente con la colisión y mezcla de dos
agujeros negros con masas equivalentes a algunas decenas de veces la del Sol. De un golpe,
dos de las predicciones más controversiales de la relatividad fueron comprobadas ¡hace
apenas un par de años! Y la evidencia sigue acumulándose actualmente con la finalidad de
explorar posibles desviaciones de las predicciones de la teoría de Einstein y de encontrar
aplicaciones astronómicas del estudio de las ondas gravitacionales.
No sólo las ondas gravitacionales y los agujeros negros están bajo la lupa de los inves-
tigadores actualmente. Como decíamos, el modelo cosmológico de la gran explosión puede
explicar todas las observaciones de la dinámica del universo bajo suposiciones muy senci-
llas sobre la geometría del espacio–tiempo y una suposición sobre el contenido del cosmos
basada en mediciones recientes: un 5 % es materia como la que hay en nuestro planeta,
un 27 % es un tipo de materia denominado materia oscura que no emite luz, y un 68 %
del contenido cósmico es una forma de energía apodada energía oscura que provoca la
expansión acelerada que observamos.
El mayor misterio es que nadie tiene la menor idea de qué son la materia y la energía
oscuras. No es nada que hayamos podido observar directamente hasta ahora, aunque hay
suficiente evidencia indirecta para afirmar que esas “sustancias” o algo que tiene los mismos
efectos existe. Hay quienes, no obstante, están convencidos de que debemos modificar lige-
ramente las ecuaciones básicas de la relatividad general para percatarnos de la verdadera
naturaleza de esas entidades oscuras. Otros consideran que sólo la inmensamente desafiante
búsqueda de la compatibilidad de la relatividad general y la mecánica cuántica disipará
nuestras dudas.
Y esta mezcla nos conduce hoy de regreso a los agujeros negros. El interior de los
agujeros negros, por ser inobservable, es totalmente desconocido. Lo único que sabemos
es que la gravedad debe ser tan intensa en su interior que podría tener efectos sobre las
partículas más diminutas comparables con los efectos producidos por las fuerzas cuánticas
que, según la física de partículas, rigen su comportamiento. De ser así, es posible que ahí
se manifieste una forma de gravedad cuántica, que debemos teorizar con base en lo que
hemos comprobado en el último siglo.
xviii Introducción
Pero incluso para los menos interesados en los aspectos fundamentales de la gravedad,
la teoría de la relatividad ofrece hoy herramientas modernas importantes. Además de ser
relevante en el sistema de posicionamiento global (GPS), es crucial en las observaciones
astronómicas. La desviación de la luz debida a su paso cerca de formaciones galácticas,
estrellas, planetas, etc. provoca un desplazamiento en la posición real de las estrellas y
galaxias con respecto a la aparente. Pero no es el único efecto. Si detrás de un cuerpo
astrofísico muy masivo habita una galaxia, la desviación de los haces de luz emitidos por
la galaxia en todas direcciones pueden ser desviados hacia nosotros en todo el contorno del
“estorbo” astrofísico. A este efecto se le llama lente gravitacional. Las lentes gravitacionales
no sólo permiten caracterizar lo que hay detrás de los objetos observables que provocan la
desviación de la luz, sino también, cuando se presentan en regiones donde no hay obstáculos
visibles, nos exhiben propiedades de objetos inobservables, como los agujeros negros y
formaciones de materia oscura, que aún no han sido descritos completamente.
La relatividad, a pesar de su edad, sigue siendo un tesoro en desarrollo, cuyas preguntas
y respuestas plantean retos actuales que probablemente se convertirán en la base de los
descubrimientos futuros y de un cambio de paradigma como el que vivieron los testigos de
la osadía de Einstein. La pregunta que podemos formularnos es si queremos ser los futuros
físicos que estarán en el corazón de esa previsible revolución o no.
Capítulo 1
Fundamentos de la relatividad
especial
1.1. Introducción
Desde el siglo XVII, Galileo Galilei introdujo el elemento clave para la relatividad: el
principio de la relatividad. En su versión, establece que todas las leyes físicas son las
mismas en cualquier sistema moviéndose con una velocidad uniforme con respecto a otro
sistema en reposo absoluto (después llamaremos a estos sistemas inerciales).
La mecánica de Newton se desarrolló basada en este principio, encontrando que dos
axiomas adicionales eran necesarios para que las teorías fueran consistentes:
1. el tiempo es absoluto, o sea, es el mismo para todo observador inercial; y
2. las interacciones ocurren instantáneamente, incluso si son a distancia.
Durante dos siglos, estos axiomas fueron considerados correctos. Sin embargo, el descubri-
miento de la electrodinámica y, en particular, el hecho de que E y B satisfacen la ecuación
de onda en el vacío

1 ∂2 2 1 ∂2 2 1
2 2
−∇ E =0= 2 2
− ∇ B, c2 = , (1.1)
c ∂t c ∂t µ0 ǫ 0
produjeron un cambio de paradigma. Primero, para Maxwell esto fue una señal clara de que
la luz era efectivamente una onda electromagnética gobernada por los campos E y B. En
segundo lugar, estas ecuaciones de onda no son invariantes bajo las transformaciones que
Galileo y Newton propusieron para relacionar los puntos de vista de observadores inerciales
(ver problema 1.3 y la sección 1.3).
2 Fundamentos de la relatividad especial
Posteriormente, estos problemas llevaron al principio fundamental en la formulación de

Einstein de la relatividad especial: la velocidad de la luz en el vacío es la misma para todos
los observadores inerciales independientemente de su movimiento.
Antes de entrar en detalles, estudiaremos la observación experimental más importante
que conduce inevitablemente a esta conclusión.
1.2. El experimento de Michelson–Morley

Cuando Hertz confirmó que, como predijo Maxwell, la luz es una onda electromagnética,
la mayoría de los científicos llegaron a la conclusión de que el medio en que estas ondas se
movían debía ser el éter, una sustancia estática de densidad despreciable que llenaba todo
el universo. El éter sería inmóvil con respecto a las estrellas fijas de Newton.
Michelson y Morley reportaron en 1887 un experimento basado en la interferencia
de rayos de luz viajando por diferentes caminos para comprobar la existencia del éter.
El montaje experimental propuesto por ellos se puede observar esquemáticamente en la
figura 1.1. Sobre una mesa circular que permite ser rotada, se coloca al centro un divisor
de haz. En un extremo de la mesa se coloca una fuente de luz colimada dirigida hacia el
divisor de haz. En el extremo opuesto a la fuente hay un espejo. Perpendicularmente a la
rapidez
del éter
v
arrastre
del éter
v L = 11 m
espejo
brazo 2
divisor √
de haz c c2 − v 2
=⇒ L
fuente de luz espejo
c+v
c−v brazo 1
patrón de L
interferencia
Figura 1.1: Interferómetro de Michelson y Morley. Un haz de luz es dividido a lo largo de dos
direcciones perpendiculares (los brazos del interferómetro). Tras recorrer un distancia L, los haces
son reflejados hacia el divisor de haz, que los recombina y dirige hacia un observador. En caso de
que el éter exista y se desplace en la dirección de uno de los brazos, se debería observar un patrón
de interferencia.
1.2 El experimento de Michelson–Morley 3
recta del espejo y la fuente, se colocan otro espejo y una lente donde habrá un observador.
Los caminos perpendiculares por los que se desplazan los haces se conocen como brazos del
interferómetro. Los haces de luz que surgen del divisor de haz recorren la misma distancia
L = 11m hasta los espejos, de ida y regreso, para ser recombinados y proyectados hacia
el punto de observación. Dado que la Tierra se desplaza, se espera que el éter exhiba una
velocidad de arrastre v en la dirección opuesta a la dirección de movimiento del planeta,
a lo largo de la cual deberá ubicarse uno de los brazos del interferómetro. Debido a esta
diferencia, suponiendo que las velocidades del movimiento se componen trivialmente (como
sumas y restas vectoriales), deberíamos observar un patrón de interferencia en el punto de
observación.
Del lado derecho de la figura 1.1, se presenta un diagrama de las velocidades efectivas
del haz a lo largo de los brazos del interferómetro de Michelson-Morley. Calculando el
tiempo de viaje por los brazos, empleando las distintas velocidades, obtenemos
L L 2cL 2Lγ 2 2L 2Lγ

T1 = + = 2 = , T2 = √ = , (1.2)
c+v c−v c − v2 c c2−v 2 c
en donde hemos definido

1
γ≡q . (1.3)
v2
1− c2
Por lo tanto, la diferencia entre los tiempos de viaje de la luz por los brazos del interferó-
metro está dada por
2Lγ
∆T = T1 − T2 = (γ − 1) . (1.4)
c
Dada la diferencia ∆T 6= 0 (debido a que la velocidad de arras-
tre del éter es v 6= 0), la teoría ondulatoria de la luz indica que el v
patrón de interferencia a observar está caracterizado por la cons-
tante c∆T /λ, donde λ denota la longitud de onda del haz de luz.
Sin embargo, Michelson y Morley no detectaron ningún patrón de
interferencia. Es posible concebir que el éter, por alguna razón, Figura 1.2: Dirección del
fluya en una dirección diagonal que iguale la rapidez con la que éter propuesta para jus-
se desplaza la luz a lo largo de ambos brazos del interferómetro, tificar los resultados.
como se muestra en la figura 1.2. En ese caso se obtendría ∆T = 0,
justificando el resultado nulo del experimento. Sin embargo, tras rotar el experimento el
resultado seguía siendo el mismo. El experimento fue confirmado muchas veces, cada vez
con mayor resolución1 .
El irlandés George Francis FitzGerald en 1889 e, independientemente, el holandés Hen-
drik Antoon Lorentz en 1892 propusieron una resolución al resultado nulo de Michelson y
1
Ver e.g. G. Joos. Die Jenaer Wiederholung des Michelsonversuchs. Ann. Phys. 7, 1930.
Morley, insistiendo en la existencia del éter. De alguna manera, esta sustancia contrae los
objetos en la dirección de la corriente etérea, siguiendo la regla
L 2L′ γ 2 2Lγ
L′ = =⇒ T1 = = = T2 . (1.5)
γ c c
Entonces, como se esperaba, el patrón de interferencia no aparecía.
Pero esta propuesta estaba lejos de la respuesta final. Entre otras cosas, aunque intere-
sante, no resolvía el problema de la indetectabilidad del éter. La solución correcta llegaría
con una interpretación radical del resultado de Michelson y Morley: ¡la rapidez de la luz c es
siempre la misma en el vacío! Como veremos en breve, esto condujo a resultados contrain-
tuitivos que, en gran medida, contradecían la dominante física Newtoniana y la relatividad
Galileana.
1.3. Relatividad Galileana

Para comenzar nuestro estudio de la relatividad, formulemos el principio de la rela-
tividad Galileana de una manera ligeramente más general: todas las leyes físicas de la
naturaleza y las ecuaciones que las describen tienen la misma forma en todos los marcos
de referencia admisibles.
El primer aspecto que debemos definir es marco de referencia. Un marco de referencia
es un conjunto de coordenadas espaciales dotado de relojes fijos (lo cual permite definir
velocidad, momento, etc.). Un marco de referencia rígido es aquel en el que las distan-
cias entre puntos permanecen invariante, sin importar las fuerzas externas. Un marco de
referencia inercial es un marco de referencia rígido moviéndose con velocidad constante
respecto a un marco de referencia en reposo absoluto.
El segundo aspecto importante es que el principio de la relatividad puede aplicarse para
diferentes marcos admisibles. Por ejemplo, la física Newtoniana (y la relatividad especial)
requiere marcos de referencia inerciales, pero para otros tipos de física (e.g. en relatividad
general) los marcos de referencia pueden ser más generales (e.g. acelerados, rotatorios).
Los marcos de referencia son tradicionalmente denotados por S, S ′ , S ′′ , etc.. Si con-
sideremos que sólo existen tres dimensiones espaciales y una temporal2 , en el marco de
referencia S podemos denotarlas como xi , con i = 1, 2, 3, y t, respectivamente. Adicio-
nalmente, con la finalidad de que todas las coordenadas tengan las mismas unidades, en
lugar de emplear t como la coordenada temporal, usaremos ct. En los marcos de referencia
primados, las coordenadas se denotan también primadas.
2
No es complicado extender estas nociones a espacios con más dimensiones espaciales, pero es probable-
mente imposible extenderlas a espacios con más de una dimensión temporal porque se viola causalidad, i.e.
se altera la conexión causal entre distintos eventos, conduciendo e.g. a que el futuro provoque efectos en el
pasado.
1.3 Relatividad Galileana 5
Dos marcos de referencia S y S ′ que estén relacionados por el principio de relatividad

deben ser tales que exista una transformación G entre ellos
G ′
ct, xi ←→ ct′ , xi . (1.6)
En los casos donde G es lineal en cuatro dimensiones, podemos escribir
x′ = Gx, (1.7)
donde x denota el arreglo vertical de 4 entradas (ct, x1 , x2 , x3 )T . Supongamos dos marcos

de referencia inerciales S y S ′ , donde S ′ se mueve con velocidad constante en la dirección
x1 , v = (v, 0, 0)T con respecto a S, como se muestra en la figura 1.3.
En la mecánica Newtoniana, las transformaciones que permiten a un observador en S
conocer cómo un observador en S ′ mediría la posición y el tiempo están dadas por las
transformaciones de Galileo:
ct′ = ct,
′ v
x1 = x1 − vt = x1 − (ct), transformación de Galileo
c (1.8)
′
x2 = x2 ,
′
x3 = x3 .
La primera relación es la manifestación de uno de los axiomas de la mecánica Newtoniana:

′
el tiempo es universal. Si xi = xi = 0 al tiempo t′ = t = 0, decimos que el sistema
está en una configuración estándar. Claramente, si un evento sucede en el punto p con
coordenadas (x1 , x2 , x3 ) al tiempo t, entonces es observado desde S ′ ocurriendo en el punto
′ ′ ′
p′ : (x1 , x2 , x3 ) al tiempo t′ .
Como las transformaciones de Galileo se ajustan al principio de relatividad para marcos
de referencia inerciales, las leyes de la naturaleza en S y S ′ deben ser las mismas. Por
′
x2 x2
S S′
v
′
x1 x1
′
x3 x3
Figura 1.3: Marco de referencia S ′ moviéndose con velocidad v con respecto a S.
ejemplo, se puede mostrar fácilmente que la segunda ley de la mecánica no se altera. Para
ello, diferenciamos las coordenadas de los puntos p y p′ , obteniendo
′ v ′ ′ v
x1 = x1 − x0 =⇒ u1 ≡ ẋ1 = u1 − ẋ0 = u1 − v,
c c
2′
x = x2 =⇒ 2′ 2′
u ≡ ẋ = u ,2 (1.9)
′ ′
x2 = x2 =⇒ u3 = u3 ,
donde hemos definido x0 ≡ ct, por conveniencia, y las derivadas temporales pueden con-
siderarse con respecto a t en p y p′ debido a la universalidad del tiempo en la mecánica
Newtoniana. Diferenciando otra vez, hallamos que
′ ′
a1 = u̇1 = a1 ,
′
a2 = a2 , (1.10)
3′
a = a3 ,
i.e. el vector de aceleración es el mismo para observadores inerciales ubicados en S y S ′ .

De aquí se obtiene que el vector de fuerza en el marco de referencia S ′ está dado por
f ′ = ma′ = ma = f , (1.11)
y, por lo tanto, la segunda ley de Newton es invariante relativista en la relatividad Galileana.

Debido a que las transformaciones de Galileo (1.8) son transformaciones lineales, es
posible reescribirlas en forma matricial como
 0  
x 1 0 0 0
 x 1 −v 1 0 0
x′ = Gx, con x =   
x 2  , y G =  0
. (1.12)
0 1 0
x3 0 0 0 1
Las transformaciones descritas por G = G(v) con la operación básica del producto entre
matrices forman un grupo (a veces denominado grupo de Galileo); es decir, el conjunto
de todas las transformaciones que pueden expresarse por medio de (1.12) satisface las
siguientes propiedades:
1. Cerradura: G(v)G(v̄) = G(v + v̄),
2. Existencia del inverso para todo elemento G(v): (G(v))−1 = G(−v),
3. Existencia del elemento neutro: 1 = G(v = 0).
Puesto que det G = 1 ∀ G, el grupo es denominado especial.

1.3.1. Diagramas de espacio–tiempo en relatividad Galileana
Un diagrama de espacio–tiempo consiste en un gráfico coordenado que, adicionalmente

a las coordenadas espaciales, incluye en un eje adicional la coordenada temporal. Así, un
punto en los diagramas de espacio–tiempo se trata de una ubicación espacial a un deter-
minado instante. Entonces, e.g., si una partícula se desplaza a lo largo de una trayectoria,
podemos concebir que describe una curva en un diagrama de espacio–tiempo. Sin embar-
go, también describe una curva en un diagrama de espacio–tiempo si no se desplaza, pues
tendremos la misma posición de la partícula para todos los tiempos, describiendo una recta
paralela al eje temporal. Formalmente, un diagrama de espacio–tiempo es un diagrama en
cuatro dimensiones. Por simplicidad, habitualmente sólo se grafican dos dimensiones, una
espacial y una temporal.
Podemos representar un marco de referencia S mediante un diagrama de espacio–tiempo
con ejes coordenados x1 y x0 , como en la figura 1.4, en donde estos ejes han sido elegidos
perpendiculares debido a que podemos considerar que la posición y el tiempo son indepen-
dientes en la física Newtoniana.
Los diagramas de espacio–tiempo permiten comparar la dinámica de distintos sistemas
desde la perspectiva de diferentes observadores inerciales. Particularmente, es fácil imaginar
que un observador en un marco de referencia inercial S ′ , en movimiento con respecto a S
en la dirección x1 , verá que una partícula en reposo desde la perspectiva de S se mueve
justamente con la misma rapidez con la que se mueve S ′ de acuerdo a S, pero en la
dirección opuesta. Otro ejemplo de esta observación es lo que percibe una persona en
un autobús cuando mira “pasar” las casas y los árboles debido a su movimiento. Esta
situación se puede ilustrar fácilmente en un diagrama de espacio–tiempo, empleando las
transformaciones Galileanas.
′
x0 = ct x0
x1 = x0
arctan vc
′
x1 , x1
Figura 1.4: Diagrama de espacio–tiempo para dos marcos de referencia en configuración estándar.
El marco de referencia S tiene coordenadas (x0 , x1 ). La ecuación que satisface el eje vertical en S
′
es x1 = 0, mientras que en S ′ es x1 = 0 o equivalentemente x1 − vc x0 = 0.
Supongamos que los marcos S y S ′ están en configuración estándar. Esto quiere decir
particularmente que los diagramas de espacio–tiempo de ambos marcos de referencia coin-
′ ′
ciden en el origen, xi = xi = 0 y x0 = x0 = 0. Supongamos también que el marco de
referencia en reposo S es nuestro marco preferencial y que la velocidad de S ′ con respecto a
S es v > 0. Deseamos conocer la percepción de un observador en S ′ acerca de las posiciones
de las partículas en el universo.
En la figura 1.4, además de los ejes x0 y x1 del sistema de referencia S, que satisfacen
′ ′
x0 = 0 para el eje x1 y x1 = 0 para el eje x0 , se presentan los ejes x0 y x1 del sistema
′ ′
de referencia S ′ . Para construir el eje x1 exigimos x0 = 0; vemos que coincide con el
eje x1 debido a que en las transformaciones Galileanas el tiempo es absoluto, o sea, es
′ ′
el mismo en S y S ′ . En cambio, el eje x0 sí cambia. Exigiendo x1 = 0 y aplicando la
transformación de Galileo (1.8), obtenemos x1 = x1 − vc x0 = 0, lo que implica que el eje
′
x0 , en la perspectiva de S, está determinado por la recta x1 = vc x0 . A medida que v crece,

′
′
arctan(v/c) aumenta, incrementando la inclinación de x0 con respecto a x0 . Notamos que
no existe ninguna razón especial por la que arctan(v/c) no pueda tener cualquier valor; en
particular, nada impide que v pueda ser mayor a c (correspondiente a la línea punteada en
la figura). Adicionalmente, si la velocidad de S ′ fuera en la dirección opuesta (v < 0), el
′
eje x0 estaría del lado izquierdo del eje x0 .
Para un observador en S, un objeto en reposo describe una curva vertical, paralela
′
a x0 . Pero, para un observador en S ′ , el reposo se traduce en una curva paralela a x0 .
′ ′
La intersección de cada línea paralela a x0 con el eje x1 define un valor diferente de
posición. Por lo tanto, en general la posición de una partícula medida por un observador en
S no coincide con la posición que otro observador en S ′ obtiene. Entonces, una partícula
en reposo en la perspectiva de S, es una partícula que, a medida que avanza el tiempo,
′
cambia de posición hacia valores cada vez más pequeños (más grandes) de x1 en S ′ si v > 0
(v < 0).
1.3.2. El intervalo Galileano
En las transformaciones Galileanas, el intervalo espacial es invariante. Normalmente,

al intervalo espacial le llamamos simplemente “distancia”. Para mostrar la invariancia del
intervalo Galileano en la relatividad Galileana, consideremos en un marco de referencia en
reposo S una varilla de longitud fija ℓ, cuyos extremos son O1 y O2 , como se muestra en la
figura 1.5. La varilla se mide en cualquier marco de referencia determinando las coordenadas
de los extremos de la varilla y luego calculando la diferencia espacial entre ellas.
Un observador en S encuentra los extremos de la varilla de longitud ℓ en las posiciones
O1 : (x01 , x11 ) , O2 : (x02 , x12 ) . (1.13)

′
x0 x0
O1 O2
′
x1 , x1
Figura 1.5: Varilla de longitud ℓ en S.
Calculando la diferencia espacial entre esas coordenadas, encuentra que

∆x1 = x12 − x11 = ℓ . (1.14)
Por otra parte, un observador en S ′ encuentra los extremos de la varilla en
′ ′ ′ ′
O1 : (x01 , x11 ) , O2 : (x02 , x12 ) . (1.15)
Calculando su diferencia espacial y utilizando las transformaciones de Galileo (1.8) (con

x0 = ct), encontramos que
′ ′ ′
∆x1 = x12 − x11
v v
= x12 − x02 − x11 − x01
c c (1.16)
1 v 0
= ∆x − |{z} ∆x = ℓ,
c
0
es decir, los observadores en S y S ′ miden la misma longitud de la varilla. Así obtenemos

el resultado anunciado: las distancias son preservadas bajo transformaciones Galileanas.
En 3 dimensiones, los puntos O1 y O2 tienen 3 coordenadas espaciales, entonces el
cuadrado de la longitud de la varilla está dado en general por
ℓ2 = (∆x1 )2 + (∆x2 )2 + (∆x3 )2 , (1.17)
que es otra forma de expresar el teorema de Pitágoras, ahora en 3 dimensiones. Para
una transformación de Galileo arbitraria con v = (v 1 , v 2 , v 3 )T , se puede mostrar que la
longitud (1.17) es invariante3 . En matemáticas, las transformaciones que preservan las
3 1 2 3 T
En general una
 transformaciónde Galileo con velocidad
 0 v = (v , v , v ) se denota como el elemento
1 0 0 0 x
−v 1 1 0 0 x 1 
del grupo G(v) =  
−v 2 0 1 0 actuando en x = x2 .
 
−v 3 0 0 1 x3
distancias en un determinado espacio son conocidas como isometrías del espacio. Por lo
tanto, las transformaciones Galileanas son isometrías de nuestro espacio 3-dimensional.
Una pregunta interesante es si esta invariancia puede extenderse a las cuatro dimensio-
′
nes codificadas en (x0 , x1 , x2 , x3 )T . De hecho, como (∆x0 )2 = (∆x0 )2 = 0 por la universa-
lidad del tiempo, se satisface en este caso particular que
ℓ2 = (∆x1 )2 + (∆x2 )2 + (∆x3 )2 ± (∆x0 )2 , (1.18)
es invariante, es decir, los observadores en S y S ′ miden la misma “distancia”. Podríamos

estar tentados a considerar la ecuación (1.18) como la cantidad invariante bajo transfor-
maciones relativistas Galileanas. Sin embargo, es fácil mostrar que para eventos arbitrarios
con coordenadas de espacio–tiempo E1 : (x1 0 , x1 1 , x1 2 , x1 3 ) y E2 : (x2 0 , x2 1 , x2 2 , x2 3 ), la
cantidad
(∆x1 )2 + (∆x2 )2 + (∆x3 )2 ± (∆x0 )2 (1.19)
no es invariante cuando ∆x0 6= 0. Es decir, bajo transformaciones Galileanas, sólo el

intervalo espacial es preservado.
1.4. Transformaciones de Lorentz y relatividad especial
El resultado nulo del experimento de Michelson y Morley y la carencia de la invariancia

de las ecuaciones de Maxwell fueron una señal de que el éter no existe y de que la física
Newtoniana requiere correcciones. Justamente esas correcciones son lo que hoy llamamos
la teoría de la relatividad.
La relatividad especial puede obtenerse a partir de los siguientes postulados:4
1. el principio de relatividad de Galileo es válido para cualquier marco de referencia
inercial;
2. la luz en todos los marcos de referencia inerciales (en el vacío) se mueve con la
misma rapidez; y
3. el espacio es homogéneo, isotrópico y continuo.

En este esquema, buscamos obtener las transformaciones que permiten que un obser-
vador en un marco de referencia en reposo S entienda las mediciones de posición y tiempo
obtenidas por otro observador en un marco de referencia S ′ que se mueve con velocidad
uniforme v = (v, 0, 0)T con respecto a S. A estas transformaciones las llamaremos las
4
Existen versiones que proponen la invariancia del intervalo espacio–temporal en lugar del segundo
postulado. A pesar de que es válido, veremos que la invariancia del intervalo es una consecuencia de las
transformaciones relativistas que surgen a partir de los postulados aquí empleados.
1.4 Transformaciones de Lorentz y relatividad especial 11
transformaciones de Lorentz.5
Supongamos que S y S ′ están en configuración estándar o que, usando el tercer postula-
do, se pueden llevar a esa forma. Consideremos un reloj moviéndose libre y uniformemente
en S a lo largo de la curva
dxi
xi = xi (t) , tal que = cte . (1.20)
dt
Definimos el tiempo propio τ , el cual es el tiempo medido desde la perspectiva del propio
reloj. Como el tiempo es homogéneo (i.e. hay simetría en el tiempo), entonces
dt dx0
= cte =⇒ = cte . (1.21)
dτ dτ
De (1.20) y (1.21), se obtiene la relación
dxµ d2 xµ
= cte =⇒ = 0, (1.22)
dτ dτ 2
la cual debe mantenerse en S ′ por estar asociada a la segunda ley de Newton. La derivada
′
de xµ puede expresarse como
′ 3
X ∂xµ dxν ′ ′
dxµ ∂xµ dxν
= ≡ ,
dτ ∂xν dτ ∂xν dτ
ν=0
en donde la segunda igualdad define la llamada convención de sumas de Einstein, bajo la

cual se hace implícita la suma sobre los índices repetidos. Si diferenciamos nuevamente con
respecto a τ , obtenemos
3
∂xµ d2 xν X ∂ 2 xµ dxσ dxν
′ ′ ′
d2 xµ
= +
dτ 2 ∂xν |dτ 2 σ ν
{z } σ=0 ∂x ∂x dτ dτ
=0
′
∂ 2 xµ dxσ dxν !
= = 0,
∂xσ ∂xν |dτ{zdτ}
=cte por (1.22)
que conduce finalmente a

′
∂ 2 xµ
= 0. (1.23)
∂xσ ∂xν
5
Como veremos, las transformaciones que obtendremos aquí son sólo un tipo de transformaciones de
Lorentz llamadas empujones o boosts de Lorentz. Es tradicional emplear también en castellano la palabra
boost.
′
x0 x0
′
x1 = 0
x1
′
Figura 1.6: Eje x0 del marco de referencia S ′ observado por S, cuando S ′ se mueve con rapidez
v > 0 en la dirección x1 de S.
Esta ecuación es muy importante, pues implica que las transformaciones que surgen de los
postulados de la relatividad especial son lineales, i.e.
′ ′
xµ = B µ ν xν , (1.24)
′
donde B ≡ (B µ ν ) es una matriz 4 × 4 que codifica las transformaciones conocidas como
transformaciones de Lorentz.
′
Como en las transformaciones de Galileo, esperamos que el eje temporal x0 en S ′ esté
descrito por
v
x1 = x0 , (1.25)
c
′
que corresponde a x1 = 0, como se observa en la figura 1.6. Imponemos ahora esta res-
tricción en (1.24) como un siguiente paso en nuestra búsqueda de la expresión de las
transformaciones de Lorentz. A partir de (1.24), se obtiene que
′ ′ ′ ′ ′ ′
x1 = B 1 ν xν = B 1 0 x0 + B 1 1 x1 + B 1 2 x2 + B 1 3 x3
′ v ′ (1.26)
′ ′ !
= B 1 0 + B 1 1 x0 + B 1 2 x2 + B 1 3 x3 = 0,
c
en donde hemos sustituido (1.25) en la segunda igualdad. Esta condición se satisface sólo
si cada componente es nula, i.e.
′ v ′ ′ ′
B1 0 + B1 1 = B1 2 = B1 3 = 0 , (1.27)
c
lo que implica que
′ ′
x1 = (−βx0 + x1 )B 1 1 , (1.28)
′
x0 x0
′
x1
′
Figura 1.7: Eje x0 del marco de referencia S ′ observado por S, cuando S ′ se mueve con rapidez
v < 0 en la dirección x1 de S.
′
con β = v/c, como antes. Notemos que B 1 1 solamente debe depender de la velocidad relati-
va v entre los marcos de referencia porque lo único que distingue a S de S ′ es precisamente
′
v. Además, la isotropía del espacio–tiempo permite que B 1 1 no dependa de la dirección de
v, sino sólo de la rapidez |v|.
Podemos hacer el ejercicio análogo, pero ahora desde el punto de vista de S ′ , es decir,
considerando que S ′ es el marco de referencia en reposo. S es ahora un marco de referencia
en movimiento en la dirección x1 , pero en la dirección opuesta a como S observa que S ′ se
mueve, como se ilustra en el diagrama de espacio–tiempo 1.7. En este escenario, obtenemos
que la exigencia x1 = 0 que describe el eje temporal de S conduce a
′ ′
x1 = B 1 1′ (βx0 + x1 ) . (1.29)
Como en ambos casos el prefactor sólo depende de |v|, podemos suponer que ambos son
iguales a una constante por determinar, i.e.
′
B 1 1′ = B 1 1 ≡ γ. (1.30)
Ahora utilizamos el segundo postulado de la relatividad de Einstein (la universalidad

de c) en la forma
′ ′
x1 = x0 ⇐⇒ x1 = x0 , (1.31)
de donde obtenemos
′ ′ ′
x0 = γ(βx0 + x1 ) = γ(β + 1)x0 ,
′ (1.32)
x0 = γ(−βx0 + x1 ) = γ(−β + 1)x0 .
El producto de estas ecuaciones conduce la relación
′ ′
x0 x0 = γ 2 (1 − β 2 )x0 x0 , (1.33)
que sólo es válida si se satisface

1
γ2 = . (1.34)
1 − β2
′
Al resolver para γ, debemos escoger la raíz positiva porque x1 = x1 para v = 0 (no
′
x1 = −x1 ), con lo que llegamos al famoso factor de Lorentz,
1
γ=p . factor de Lorentz (1.35)
1 − β2
Es interesante observar que el factor de Lorentz obtenido aquí coincide con el obtenido por
FitzGerald y Lorentz, ecuación (1.3), en el contexto de su teoría del éter, también conocida
como electrodinámica Lorentziana. Es esta coincidencia histórica la que condujo al nombre
de esta constante.
′
Ahora, con ayuda de (1.28) y (1.29), reemplazamos x1 = γ(−βx0 + x1 ) en x1 =
′ ′
γ(βx0 + x1 ) y encontramos
′ ′
x1 = γ(βx0 − γβx0 + γx1 ) = γβx0 − γ 2 βx0 + γ 2 x1 , (1.36)
que puede ser reescrita como
′ 1 − γ2 1
x0 = γx0 + x = γ(x0 − βx1 ) . (1.37)
γβ
Esta ecuación es uno de los hallazgos más relevantes de la relatividad especial. En contras-
te con las transformaciones de Galileo, bajo transformaciones de Lorentz, el tiempo no es
absoluto. En dos marcos de referencia inerciales con una rapidez relativa, β 6= 0, las me-
′
diciones del tiempo no son iguales. Consecuentemente, dado que en general ∆x0 6= ∆x0 ,
′
∆x0 = 0 no significa que ∆x0 = 0, por lo que la simultaneidad es relativa. 6
En resumen, hemos encontrado que las transformaciones de Lorentz están dadas por
′
x0 =γ(x0 − βx1 ),
′
x1 =γ(−βx0 + x1 ), boost de Lorentz
2′ 2
(1.38)
x =x ,
′
x3 =x3 ,
6
Como una nota histórica, en la teoría Lorentziana del éter el concepto de tiempo local, definido como
t = t − vt/c2 , también estableció la relatividad de la simultaneidad, como identificó Henri Poincaré desde
′
1900. Aunque el tiempo local fue originalmente introducido como un artefacto matemático, Poincaré fue
quien descubrió que conducía a importantes efectos físicos, como este.
cuando el marco de referencia S ′ se mueve con velocidad uniforme v = (v, 0, 0)T con res-
pecto a S. Las ecuaciones (1.38) definen una transformación de Lorentz en una dimensión,
′
conocida como boost de Lorentz.7 En términos de la matriz B = (B µ ν ), los boosts se pueden
reescribir como  
γ −βγ 0 0
−βγ γ 0 0
x′ = Bx, B=  0
. (1.39)
0 1 0
0 0 0 1
Se puede mostrar directamente que la transformación de Lorentz para una determinada β
satisface B −1 (β) ≡ (B µ ν ′ ) = B(β → −β), tal como lo hacen las transformaciones Galilea-
nas.
Mientras que los boosts de Lorentz dependen del factor de Lorentz (1.35), las transfor-
maciones de Galileo dependen sólo linealmente de β. Esta diferencia es muy importante.
Supongamos que un marco de referencia S ′ se desplaza con una rapidez mayor a c. Clara-
mente, en este caso β 2 > 1 y consecuentemente γ no tiene un valor real. De acuerdo a las
ecuaciones (1.38), un observador en S ′ sería incapaz de definir sus coordenadas espaciales
y temporales, ya que sus mediciones de distancia y tiempo tendrían valores imaginarios.
Estas inconsistencias hacen obligatorio establecer que la rapidez máxima que un marco de
referencia puede tener es justamente la de la luz, i.e. |v| ≤ c siempre. Y, como no existen
marcos de referencia que puedan desplazarse con rapidez por encima de c, no es posible
transmitir información más rápidamente de lo que es posible mediante un haz de luz. Una
consecuencia inmediata de esta observación es que la interacción a distancia de los sistemas
físicos no puede ser instantánea.
′ ′ ′
Por otra parte, notamos que, si se exige que x0 = x0 , entonces x1 + x1 = γ(x1 + x1 ),
lo que implica que γ = 1 y x1 = x1 − vc x0 . Este resultado coincide justamente con las
′
transformaciones de Galileo (1.8). Notamos también que cuando la rapidez con la que S ′
se mueve con respecto a S es despreciable, β ≪ 1, el factor de Lorentz se puede aproximar
como
1
γ ≈ 1 + β 2 + O(β 4 ) . (1.40)
2
Por lo tanto, observamos que e.g. la coordenada espacial puede expresarse como
′ 1
x1 ≈ x1 − βx0 + β 2 x1 + O(β 3 ) . (1.41)
2
Claramente, en la mecánica Newtoniana las velocidades de los sistemas son tales que β 2 →
0. Así, los términos de orden β 2 y menores se pueden considerar correcciones relativistas
a los resultados Newtonianos. En suma, la interpretación de estas observaciones es que las
7
Como veremos en la sección 1.9, las transformaciones de Lorentz forman un grupo que incluye los boost
y las rotaciones en tres dimensiones.
transformaciones de Galileo son un caso especial de los boosts de Lorentz para observadores
inerciales con rapidez relativa muy pequeña con respecto a la rapidez de la luz, v ≪ c.
Otra consecuencia de los boosts de Lorentz (1.38) es que, a diferencia de lo que ocurre
en la mecánica Newtoniana, al considerar la relatividad especial es imposible hablar de
tiempo y espacio independientemente. El espacio y el tiempo se mezclan. El movimiento
relativo de diferentes marcos de referencia inerciales pone de manifiesto que, en realidad,
el tejido que sustenta la dinámica del universo es el espacio–tiempo. Este concepto podría
considerarse la contribución central de la relatividad a la ansiada búsqueda de un teoría
que unifique conceptual y matemáticamente la física en una única descripción.
La existencia del espacio–tiempo revela que el carácter paramétrico (tan especial) que
juega el tiempo en la física Newtoniana debe ahora ser adoptado por todas las coordenadas
del espacio–tiempo xµ si deseamos describir sistemas que se desplazan con una rapidez
suficientemente alta, tal que las correcciones de orden β n , con n ≥ 2, no sean despreciables.
A estos sistemas los llamamos sistemas relativistas. Un claro ejemplo de sistemas relativistas
son las partículas elementales libres. Discutiremos algunos detalles más respecto a esta
observación en la sección 1.11, en donde se abordarán algunos aspectos generales de las
teorías de campos cuánticos.
1.5. Invariancia del intervalo y espacio–tiempo

En relatividad especial, la noción de evento es particularmente útil. Un evento (como
un accidente, la caída de la hoja, o la recepción de un rayo de luz) ocurre en un lugar
del espacio–tiempo, por lo que se le asocia un punto del espacio–tiempo. Entonces, es
conveniente referirse a los puntos de un marco de referencia como eventos.
Claramente, dos eventos que ocurren sucesivamente en un mismo lugar deben estar
relacionados. Probablemente, uno es la causa del otro, estableciendo una relación causal
entre ellos. Es posible establecer una relación causal también entre eventos que ocurran en
lugares diferentes. Un ejemplo típico sería la reacción de un estudiante tras recibir en la
cabeza el objeto que otro le lanzara desde la distancia. Otros ejemplos más interesantes
serían la aparición de chubascos de partículas en nuestra atmósfera debidos a la emisión de
rayos cósmicos en el Sol, o la detección de ondas gravitacionales en la Tierra 1,300 millones
de años después de haber sido producidas por la combinación de dos gigantescos agujeros
negros. Todas estas parejas de eventos tienen en común que, a pesar de la distancia entre
los eventos, el tiempo entre la causa y el efecto es “razonable”, es decir, la rapidez con la
que la causa es comunicada al lugar donde ocurre el efecto es siempre menor o igual a c.
Sin embargo, si dos eventos ocurren en dos lugares diferentes simultáneamente o sepa-
rados por un tiempo que exige que la información de lo que ocurrió en uno de los lugares
sea transmitida al otro en un tiempo menor al que tardaría un haz de luz en viajar de un
lugar a otro, los eventos están desconectados causalmente.
1.5 Invariancia del intervalo y espacio–tiempo 17
Para, entre otras cosas, poder establecer claramente en qué casos un evento tiene in-
fluencia sobre otro, es útil definir el intervalo entre eventos como la separación en espacio–
tiempo entre ellos. En el diagrama de espacio–tiempo 1.8 aparecen tres pares de eventos.
Aquellos conectados por la línea a π/4 se conocen como intervalos luminoides o ‘tipo luz’.
La diferencia en las coordenadas espacio–temporales de eventos conectados por intervalos
luminoides satisfacen ∆x0 = ±∆x1 . Si consideramos que la rapidez con la que la informa-
ción se transmite entre los eventos está dada por c|∆x1 |/|∆x0 |, entonces siempre es c; por
lo tanto, estos eventos tienen siempre una relación causal.
El segundo tipo de eventos se ejemplifica en la figura 1.8 por los eventos conectados
por una línea vertical. En este ejemplo particular, los eventos ocurren en el mismo lugar,
sólo están separados temporalmente. Notamos que se satisface |∆x0 | > |∆x1 | = 0. Es
decir, la velocidad a la que la información entre los eventos debe desplazarse es nula, y,
por lo tanto, claramente el evento del futuro es influenciado por el evento del pasado.
Esta observación es también cierta para eventos que no ocurren en el mismo lugar, pero
satisfacen |∆x0 | > |∆x1 | 6= 0. En ese caso, la rapidez con la que la información de un
evento pasado debe viajar a un evento futuro está dada por c|∆x1 |/|∆x0 | < c y, por lo
tanto, también existe una relación causal entre ellos. Los intervalos de este tipo se conocen
como intervalos temporaloides. Notamos, entonces, que los intervalos temporaloides pueden
representarse en un diagrama de espacio–tiempo como líneas verticales, pero también como
líneas con una pendiente mayor a 1.
Finalmente, los eventos conectados por una línea horizontal en la figura 1.8 son eventos
que ocurren simultáneamente y en lugares diferentes desde la perspectiva de un observador
x0
temporaloide x1 = x0
luminoide
espacialoide
x1
Figura 1.8: Ejemplos de intervalos entre dos eventos en diagramas de espacio–tiempo. Los inter-
valos luminoides o ‘tipo luz’ conectan eventos a lo largo de rectas en las que ∆x0 = ±∆x1 . Los
intervalos temporaloides o ‘tipo tiempo’ conectan eventos que satisfacen |∆x0 | > |∆x1 |, como los
que ocurren en una misma posición espacial (línea vertical). Los intervalos espacialoides o ‘tipo
espacio’ corresponden a eventos que cumplen |∆x0 | < |∆x1 |, como los eventos simultáneos (línea
horizontal).
en reposo. En este caso, notamos que |∆x1 | > |∆x0 | = 0, por lo que la rapidez con la que la
información entre los eventos debe transmitirse para que estén causalmente conectados es
infinita. Esto es una clara indicación de que los eventos en ese ejemplo no están relacionados
causalmente. Lo mismo se puede concluir de eventos que satisfacen simplemente |∆x1 | >
|∆x0 | =
6 0, pues en este caso la rapidez con la que la información de un evento pasado
debe viajar a un evento futuro es c|∆x1 |/|∆x0 | > c, lo cual está prohibido por las reglas
de los boosts de Lorentz. A intervalos que describen eventos como estos se les conoce como
espacialoides.
Frecuentemente, al referirnos a las posiciones de distintos objetos, también nos referi-
remos a intervalos a pesar de que, a primera vista, la posición de un objeto no define un
evento. Sin embargo, el evento al que hacemos referencia es a la medición de la posición
de un objeto, lo cual ocurre en una posición y un momento determinado. Por ejemplo, si
la posición de los dos extremos de una varilla es obtenida simultáneamente, el intervalo
entre los eventos de medición es espacialoide y, por lo tanto, no hay relación causal entre
el resultado de ambas mediciones.
El concepto de intervalo, definido como la separación espacio–temporal entre distintos
eventos, es expresado concretamente (en un espacio–tiempo plano) como
3
X
∆s2 ≡ (∆x0 )2 − (∆xi )2 = (∆x0 )2 − (∆xi )(∆xi ), (1.42)
i=1
en donde el signo menos entre la componente temporal y la contribución espacial8 no

sólo auxilia a distinguir entre los distintos tipo de eventos, sino que tiene importantes
consecuencias geométricas en la estructura del espacio–tiempo, como veremos en el siguiente
capítulo.
La definición del intervalo (1.42) en términos de las diferencias temporal ∆x0 y es-
paciales ∆xi es conveniente cuando estas cantidades son finitas y, además, los marcos de
referencia y/o el movimiento de los sistemas estudiados son inerciales durante un tiempo
medible. Como la mayoría de los sistemas físicos no satisfacen estas cualidades durante un
largo periodo de tiempo, se prefiere considerar el intervalo mediante mediciones instantá-
neas de posición y tiempo, en su formato diferencial
ds2 ≡ (dx0 )2 − dxi dxi . intervalo (1.43)
Claramente, la definición en términos de diferenciales conduce a la ecuación (1.42) para

tiempos largos. En este texto, aunque preferiremos dar ecuaciones generales en términos
8
Aunque la diferencia de signos es universal, que la componente espacial sea la que carga el signo negativo
es una convención, a veces llamada de Landau-Lifshitz porque es la esos autores emplean en sus textos de
física teórica. Es más frecuentemente empleada en textos especializados en física de partículas que en textos
sobre relatividad general.
1.5 Invariancia del intervalo y espacio–tiempo 19
de diferenciales, emplearemos también las diferencias ∆xµ , cuando así convenga en la dis-
cusión.
Mediante estas expresiones para el intervalo entre eventos, podemos clasificar de forma
práctica los pares de eventos. Claramente, de acuerdo a las definiciones de los distintos
tipos de intervalos, estos pueden clasificarse de acuerdo a
ds2 = 0 intervalo luminoide,

ds2 > 0 intervalo temporaloide, (1.44)
2
ds < 0 intervalo espacialoide .
Si la información de un evento debiera ser comunicada a un segundo evento en un intervalo,

las partículas empleadas en semejante comunicación (fotones, electrones u otras) deberían
viajar con una velocidad definida por ui ≡ cdxi /dx0 . Observamos que, en estos términos,
la clasificación de los intervalos puede reexpresarse como

 =1 intervalo luminoide,
|u|2 ui ui dxi dxi
= = <1 intervalo temporaloide, (1.45)
c2 c2 (dx0 )2 
>1 intervalo espacialoide .
Como es imposible que un sistema físico alcance |u|2 > c2 , encontramos nuevamente la
conclusión previa de que no es posible que la información sea comunicada ni que exista
relación causal entre los eventos que forman parte de un intervalo espacialoide. Pero eventos
conectados por intervalos luminoides o temporaloides están vinculados causalmente.
Es interesante que el segundo postulado de la relatividad especial establece que si
∆s2 = 0, inmediatamente se obtiene que (∆s′ )2 = 0. Esto resulta evidente al reescribir la
primera parte de la expresión (1.45) de la forma
′ ′
ui ui = c 2 ⇐⇒ ui ui = c 2 . (1.46)
Los intervalos luminoides se preservan en cualquier marco de referencia inercial. Sorpren-

dentemente, esta observación puede generalizarse para cualquier intervalo, como se puede
mostrar fácilmente9 usando los boosts de Lorentz (1.38), que conducen a las transforma-
ciones de dx dadas por
′ ′
dxµ = B µ ν dxν . (1.47)
9
Se puede obtener la invariancia del intervalo mostrando primero que (ds′ )2 = κ ds2 y después que κ = 1
al exigir isotropía y homogeneidad del espacio–tiempo, así como continuidad de la función ds2 . Ver J.H.
Elton, Indefinite quadratic forms and the invariance of the interval in special relativity. Am. Math. Montly
117, 2010, y Apéndice G de S.T. Thornthon, J.B. Marion, Classical dynamics of particles and systems.
Brooks/Cole, 2004.
La invariancia del intervalo, expresada para cualesquiera dos sistemas de referencia iner-
ciales S y S ′ como
(ds′ )2 = ds2 , invariancia del intervalo (1.48)
es un enunciado crucial en la relatividad especial, con profundas repercusiones físicas. Por

eso es común que se le mencione como postulado en lugar de la universalidad de la velocidad
de la luz.
Una consecuencia inmediata de la invariancia del intervalo es que las propiedades que
vinculan a dos eventos son preservadas para todos los observadores en distintos marcos
de referencia inerciales. La dinámica de radiación electromagnética (como la empleada
en las radiocomunicaciones), o la de ondas gravitacionales (explorada brevemente en la
sección 3.4.3) es la misma desde cualquier marco de referencia inercial. Esto es trivial-
mente esperado porque tanto la radiación electromagnética como las ondas gravitacionales
se desplazan a la velocidad de la luz. Una observación menos trivial es que cualesquiera
dos eventos que están casualmente conectados deben permanecer de la misma forma para
cualquier observador en un marco de referencia inercial. Es decir, eventos descritos por
intervalos luminoides o temporaloides aparecen en el mismo orden temporal para cual-
quier observador inercial. Como veremos en la sección 1.8, esto no ocurre para intervalos
espacialoides.
1.6. Dilatación temporal

Considere dos marcos inerciales S y S ′ en configuración estándar. Estudiemos dos even-
′
tos ocurriendo en la misma posición en S ′ , i.e. ∆xi = 0. Aplicando las transformaciones
de Lorentz (1.38), vemos que
′
∆x0 = γ∆x0 ⇐⇒ ∆t = γ∆t′ . dilatación temporal (1.49)
Como γ > 1 ∀ v 6= 0, encontramos la enunciación de la llamada dilatación temporal: el

tiempo de un marco de referencia en movimiento, medido por un observador en un marco
de referencia en reposo, avanza más lento. Es decir, un observador en S aprecia que los
relojes de S ′ se atrasan.
Uno podría tener la tentación de usar la expresión (1.49) para saber qué tan rápido
(lento) un observador en S ′ ve que las manecillas del reloj de S avanzan, obteniendo
1
∆t′ = ∆t → avanzan más rápido en S, (1.50)
γ
1.6 Dilatación temporal 21
pero, si ahora repetimos el argumento que condujo a (1.49) utilizando la transformación

de Lorentz inversa encontramos que
∆t′ = γ∆t, (1.51)
o sea, un observador en S ′ aprecia que el tiempo corre a un ritmo menor en S. ¿Es esto una
paradoja? La razón de esta aparente “paradoja” es la relatividad del movimiento. Cuando
′
∆xi = 0 en el marco de referencia en movimiento S ′ y medimos tiempos desde el punto
de vista del marco en reposo S, encontramos
′ ′ 1
∆x0 = γ∆x0 ⇐⇒ ∆x0 = ∆x0 , (1.52)
γ
′
donde el tiempo en el marco en movimiento, ∆x0 , parece más corto desde el punto de vista
de S. De manera similar, desde el punto de vista de S ′ es S el que se mueve. Así, si hay
dos eventos tales que ∆xi = 0, entonces
′ 1 ′
∆x0 = γ∆x0 ⇐⇒ ∆x0 = ∆x0 . (1.53)
γ
′
Notemos que los eventos para los cuales ∆xi = 0 y ∆xi = 0 solamente pueden coincidir
para β = 0, es decir, en general son eventos distintos.
¿Realmente significa que el tiempo disminuye su ritmo para sistemas en movimiento?
Desde el punto de vista de sistemas en reposo (llamémosles laboratorio), la respuesta es sí.
Ejemplo 1.1.
Un muón es una partícula elemental inestable que tiene las mismas cargas y espín que el
electrón, pero su masa es aproximadamente 200 veces la masa del electrón. Consideremos
el movimiento de un muón producidos por el impacto de rayos cósmicos en la atmósfera.
Típicamente, los muones son producidos a una altitud de 15 kilómetros con una rapidez de
aproximadamente 0.9997 c. Los muones no son estables y decaen en otras partículas en un
tiempo de 2.2 µs en reposo. Sin dilatación temporal, el muón viajaría aproximadamente
660 metros en la atmósfera. Sin embargo, son detectados en la superficie terrestre.
Como los muones generados por los rayos cósmicos se mueven a velocidades relativistas,
debemos considerar la dilatación temporal (1.49). Con β = 0.9997, vemos que el tiempo de
vida del muón, desde el punto de vista del laboratorio es
′
∆x0 = γ∆x0 ≈ 40.8(2.2 µs) ≈ 89.8 µs. (1.54)
Por lo tanto, el muón puede viajar hasta 27 kilómetros si no es detenido por la materia en
el suelo. Este efecto es suficiente para mostrar que la dilatación temporal sí ocurre.
En el ejemplo anterior supusimos que el muón describe una trayectoria normal con
′
la misma velocidad, pero eso podría no ser cierto en general. En lugar del tiempo x0 en
cada uno de los marcos de referencia que el muón adopte, es más conveniente considerar al
tiempo medido por la partícula en movimiento a lo largo de su línea de universo arbitraria.
A este tiempo es lo que llamamos tiempo propio τ .
Dado que, desde su propia perspectiva, un sistema con tiempo propio τ no está en
movimiento, instantáneamente podemos asegurar que dxi = 0. Así,
c2 dτ 2 = c2 dt2 = (dx0 )2 = (dx0 )2 − dxi dxi = ds2 . (1.55)
Como el intervalo es invariante para cualquier observador inercial, ds2 = ds′2 , a partir de
la ecuación (1.55) concluimos que el tiempo propio también lo es:
c2 dτ 2 = c2 (dτ ′ )2 . invariancia del tiempo propio (1.56)
Esto implica que, aunque el tiempo t no es universal, el tiempo propio τ sí lo es; es decir
todo observador inercial mide el mismo tiempo τ asociado a un sistema en una trayectoria
espacio–temporal arbitraria, pero es diferente al tiempo local t del observador a menos de
que éste se desplace en la misma trayectoria que el sistema observado.
Otra observación importante es que resulta imposible definir el tiempo propio para
intervalos espacialoides, ya que si ds2 < 0 entonces también dτ 2 es negativo y, consecuen-
temente, el tiempo propio es imaginario. Pero esto no es una sorpresa, pues el tiempo propio
está definido como el tiempo de un sistema físico en movimiento medido desde su propio
marco de referencia y, como hemos visto, la imposibilidad de rebasar la rapidez de la luz
impide que exista un sistema físico que se desplace a lo largo de trayectorias espacialoides.
Ahora consideremos el marco de referencia del laboratorio S (en reposo) y el movimiento
(arbitrario) de un sistema con tiempo propio τ . De c2 dτ 2 = ds2 se obtiene que
q
cdτ = (dx0 )2 − dxi dxi
r
0 dxi dxi
= dx 1 − 0 0 (1.57)
r dx dx
|u|2
= dx0 1 − 2 ,
c
i
donde hemos definido ui ≡ dx
dt , que es la i-ésima componente de la velocidad del sistema
en movimiento, medida por un observador en el laboratorio S. Podemos reescribir esta
relación como
1 dτ 1
cdτ = dx0 ⇐⇒ = . (1.58)
γ(u) dt γ(u)
1.7 Un primer vistazo a 4–vectores 23
1.7. Un primer vistazo a 4–vectores

El concepto de tiempo propio τ permite definir cantidades físicas como si fueran medidas
por observadores en su propio marco de referencia. Notemos que nosotros somos ese tipo
de observadores, por lo que las cantidades que definiremos se refieren justamente a las que
medimos en los laboratorios. Con este fin, consideremos la línea de mundo10 de un sistema
descrito por
0
µ 0 1 2 3 T x (τ )
x(τ ) = (x (τ )) = (x (τ ), x (τ ), x (τ ), x (τ )) = , (1.59)
x(τ )
en términos del tiempo propio. Generalizando la definición de velocidad, podemos definir

la 4–velocidad como

dx dx dt dx c dxi
U≡ = = γu = (γu c, γu u1 , γu u2 , γu u3 )T = γu , ui ≡ , (1.60)
dτ dt dτ dt u dt
donde las componentes espaciales U i = γu ui definen la velocidad propia (o celeridad) y

1
empleamos la abreviación γu = γ(u) = (1 − |u|2 /c2 )− 2 .
Resulta conveniente (y geométricamente natural, como veremos detalladamente en la
sección 2.1) introducir el concepto de 4–vectores como todas aquellas cantidades físicas,
dotadas con 4 componentes espacio–temporales que se transformen como las componentes
de dx bajo cualquier transformación de Lorentz.
Para comprobar que la 4–velocidad es un 4–vector basta con, por ejemplo, aplicar un
boost de Lorentz B en sus componentes, aplicando (1.47), lo cual conduce a
d µ′ ν
′
′ dxµ µ′ dx
ν
Uµ = = B ν x = B ν ,
dτ ′ dτ dτ
donde hemos empleado en la segunda igualdad la invariancia de τ , y en la tercera igualdad
′
que dB µ ν /dτ = 0 porque dγ/dτ = γ 4 v · a/c2 = 0 y dβ/dτ = γu · a/uc = 0 para
observadores inerciales con velocidad v con respecto al reposo. Esta ecuación conduce a
′ ′
U µ = B µ ν U ν , que coincide con la transformación de dx debida a un boost de Lorentz.
Por otra parte, la velocidad local (uµ ) del marco de referencia S se transforma como
′ ′ ′
′ dxµ B µ ν dxν B µ ν xν
uµ = = c = c . (1.61)
dt′ dx0′ B 0′ σ x σ
′
De hecho, como ui es una componente de la velocidad u′ medida en S ′ de un cuerpo
en movimiento en S con velocidad u, la ecuación (1.61) representa la regla de adición de
10
La línea de mundo (o worldline) es la trayectoria en el espacio–tiempo que describe un sistema en
movimiento, parametrizada por una variable temporal.
velocidades relativista. Para hacerlo evidente, consideremos que S ′ se mueve con respecto
′
a S con velocidad v = (v, 0, 0)T , entonces uµ está asociada con un boost de uµ a lo largo
de la dirección x1 . Se obtiene, con γ = (1 − β 2 )−1/2 , que para un boost de Lorentz en la
dirección x1 la ecuación (1.61) se expresa en componentes como
1
1′ cγ(dx1 − βdx0 ) c( dx
dx0
− β)
u = 0 1
= dx1
,
γ(dx − βdx ) 1 − β dx 0
i
(1.62)
dx
i′ cdxi c dx 0
u = = 1 , i = 2, 3,
γ(dx0 − βdx1 ) 1 − β dx
dx0
de donde concluimos que la regla de adición de velocidades para un boost en x1 está dada
por
′ u1 − v ′ ui
u1 = vu1
, ui = , i = 2, 3. adición de velocidades (1.63)
1− vu1
c2 γ 1− c2
Notamos que si la velocidad del sistema observado en S es u = (c, 0, 0)T (como un

′ c−v
fotón), entonces u1 = 1− v = c. De hecho, empleando la primera ecuación de (1.63) notamos
c
′
que u1 = c es cierto sólo si

u1 v
1− 1+ =0 ⇐⇒ u1 = c , (1.64)
c c
porque |v| =6 c debido a que es la velocidad relativa entre dos observadores. En conclusión,
las reglas (1.63) para la suma de velocidades reflejan el carácter universal de la rapidez de
la luz.
Otra cantidad útil a definir es la 4–aceleración
dU µ d2 xµ
Aµ = = . (1.65)
dτ dτ 2
Como dτ es invariante bajo transformaciones de Lorentz y d2 xµ se transforma como dxµ (o
lo que es equivalente dU µ se transforma como dxµ ), Aµ también se transforma como dxµ .
Definimos las componentes espaciales Ai como las componentes de la aceleración propia.
Empleando la 4–velocidad y la 4–aceleración, se pueden definir el 4–momento p y la
4–fuerza f , cuyas componentes están dadas por
pµ = mU µ , 4–momento
µ µ (1.66)
f = mA 4–fuerza
en un sistema con masa en reposo m. Con estas definiciones y la ecuación (1.65), nos
percatamos de que la segunda ley de Newton se preserva para 4–vectores, i.e.
dpµ
.fµ = (1.67)
dτ
Por definición, notamos también que ambos, p = (pµ ) y f = (f µ ), se transforman como dx
y, por lo tanto, son 4–vectores.
Se pueden definir cantidades adicionales que son 4–vectores, tales como
p
k = (k µ ) = , 4–vector de onda
~
J = (J µ ) = ρU, 4–corriente (ρ es la densidad de carga en reposo)
A = (Aµ ) = (φ, A)T . 4–potencial electromagnético
Mientras las coordenadas espaciales de los 4–vectores se interpretan como los vectores
propios de sus cantidades correspondientes, la componente 0 requiere una explicación adi-
cional. Consideremos como ejemplo el 4–momento p. Cuando la rapidez u = |u| del sistema
es pequeña comparada con c, es posible expresar p0 como

0 0 1 u2 1 2 1 2
p = mU = mcγ(u) ≈ mc 1 + + ... = mc + mu + . . . , (1.68)
2 c2 c 2
en donde la aproximación resulta de desarrollar γ(u), con u/c ≪ 1, en una serie de Taylor.
Aunque identificamos fácilmente a 21 mu2 como la energía cinética del sistema desde el
punto de vista de S, el primer término es más complicado.
Para u = 0, p0 = 1c mc2 está totalmente determinado por la masa inercial (invariante)
del sistema en su propio marco de referencia. Como mc2 aparece al mismo nivel que 21 mu2 ,
Einstein argumentó que este término debe ser interpretado como la energía inercial de un
sistema en reposo, su propia energía potencial. Los términos restantes son potencias de
u2 , estos pueden ser consideradas correcciones relativistas, sólo relevantes para velocidades
grandes, u2 ≈ c2 , con unidades de energía. Y esta última es una observación crucial.
Para Einstein, esto significaba que
E 1
p0 ≡ = γ(u)mc2 , (1.69)
c c
donde E es la energía total del sistema. Podemos reescribir la interpretación anterior como
E = γ(u)mc2 que, para un partícula en reposo, u = 0, se reduce a la fórmula más conocida
de la física,11 E = mc2 . La ecuación (1.69) fue la conclusión más relevante del artículo de
11
Algunos autores introducen a este nivel el oscuro concepto de masa relativista, M ≡ γ(u)m, mediante el
cual obtienen E = M c2 . Interpretan M como una “masa debida al movimiento” de un sistema. Esto pareciera
indicar que la estructura de una partícula es modificada por su movimiento, lo cual no es correcto. Por esta
razón, no emplearemos ese concepto en este texto.
e− γ
e+ γ
e− + e+ → γ + γ
Figura 1.9: Aniquilación electrón–positrón que resulta en luz con la energía equivalente a la masa
del par.
Einstein en 1905: ¡la energía es equivalente a la masa!

La mejor prueba de la relación entre masa y energía se encuentra quizá en experimentos
que involucran aniquilación de materia y antimateria, como el mostrado esquemáticamente
en la figura 1.9, donde la colisión del par electrón–positrón, cada uno con masa en reposo
m ≈ 511 keV/c2 , produce dos fotones con energía individual E ≈ 511 keV. Esto representa
una pequeña fracción de la energía producida por el Sol. Otro ejemplo quizá más relevante
aun es la masa macroscópica de los cuerpos. Aproximadamente el 99 % de la masa atómica
proviene de la energía de amarre entre las partículas que componen los átomos.
Notemos que (1.69) implica que la masa asociada a una partícula con energía E está
dada por r
2 −1 u2
mc = γ (u)E = 1 − 2 E ,
c
que se anula justo cuando u2 = c2 . Esto significa que las partículas sin masa se mueven
a la velocidad de la luz y todas las partículas que se mueven a esta velocidad carecen de
masa. Observamos también que la rapidez de un sistema de masa m está dada por
s 2 2
u mc
= 1− .
c E
Esto implica que para que u alcance el valor c, el sistema debe tener una energía infinita.
Así establecemos la imposibilidad de que un sistema masivo alcance la rapidez de la luz.
Actualmente, en el acelerador de partículas más poderoso construido, cada par de protones
alcanza (con masa total de casi 2 GeV/c2 ) la enorme energía de 13 TeV. Sustituyendo,
obtenemos que la rapidez de estas partículas es 99.999998 % de la rapidez de la luz.
Volviendo a nuestra discusión sobre el 4–momento, el correspondiente 4–vector puede
ser escrito como T
E
p= ,p ≡ (γ(u)mc, γ(u)mu)T , (1.70)
c
donde hemos empleado (1.69) y definido el momento propio p ≡ γ(u)mu en compatibilidad
con (1.60). En estos términos, encontramos la relación entre el momento propio y la energía
de un sistema relativista
E
u.p= (1.71)
c2
Por otra parte, aplicando la hipótesis de De Broglie al 4–momento, podemos obtener el
4–vector de onda k = (k µ ):

p E p T ~ω k~ T ω T
k= = , = , = ,k . (1.72)
~ c~ ~ c~ ~ c
Hemos usado en la tercera igualdad la hipótesis de los cuantos de Planck, E = ~ω, donde
ω es la frecuencia cuántica de la onda asociada al sistema. La ecuación (1.72) indica que
la componente 0 del 4–vector de onda es la frecuencia de onda.
Como dijimos antes, las componentes V µ de un 4–vector V deben ser transformadas
como las de dx, i.e.
′ ′
V µ = Bµ ν V ν , (1.73)
al ser observadas por distintos observadores inerciales. Sin embargo, como también hemos
visto, no todas las cantidades físicas se pueden codificar en 4–vectores, pues algunas son
invariantes para todos los observadores inerciales o, en términos técnicos, invariantes o
escalares de Lorentz. Además de la masa en reposo m de un sistema y de la rapidez de
la luz c, hemos visto que ds2 y dτ 2 son escalares de Lorentz. Es posible construir otras
cantidades escalares con base en los 4–vectores.
Con esta finalidad, definiremos el producto escalar en el espacio–tiempo. Recordemos
primero que
ds2 = c2 dτ 2 = dx0 dx0 − dxi dxi . (1.74)
Esta expresión se asemeja al producto escalar “típico” salvo por el signo peculiar, el cual
permite la existencia de intervalos espacialoides, para los cuales ds2 < 0. Con estas obser-
vaciones, resulta razonable proponer que el espacio vectorial de cuatro dimensiones de los
marcos de referencia inerciales está dotado con el producto interior indefinido12 dado por
A · B ≡ A0 B 0 − Ai B i , (1.75)
donde A = (Aµ ) y B = (B µ ) son 4–vectores. (Más formalmente, como veremos en el

capítulo 2, el espacio–tiempo construye una variedad pseudo-Riemanniana, dotada con
una forma bilineal simétrica de signatura (+, −, −, −) llamada métrica, lo cual permite
definir el producto interior definido por (1.75).)
Se puede mostrar fácilmente que A · B es un escalar de Lorentz. Consideremos e.g. el
4–momento p y el producto escalar consigo mismo

u2
2 2 2 2 2 2 2 2
p = mU ⇒ p · p = m U · U = m γ (u)(c − u ) = m c γ (u) 1 − 2 = m2 c2 , (1.76)
c
12
El producto interior en un espacio vectorial se llama indefinido cuando permite valores negativos.
lo cual es una constante universal. Además, vemos que de la definición (1.70) obtenemos
E2
p · p = p0 p0 − pi pi = − |p|2 . (1.77)
c2
Comparando (1.76) y (1.77), obtenemos
E2
− |p|2 = m2 c2 ⇐⇒ E 2 = m2 c4 + |p|2 c2 , (1.78)
c2
que se identifica como la relación de energía–momento para partículas en movimiento.

Podemos distinguir tres límites: el reposo |p| = 0, el límite ultrarrelativista |p| ≫ mc, y
el límite no-relativista |p| ≪ mc. Para una partícula en reposo, se recupera E = mc2 .
En el límite ultrarrelativista, (1.78) se simplifica a E = |p|c. Finalmente, en el límite
no-relativista obtenemos
r
|p|2 |p|2
E = mc2 1 + 2 2 ≈ mc2 + , (1.79)
m c 2m
en donde identificamos inmediatamente el segundo término como la energía cinética no
relativista y, por lo tanto, podemos interpretar el primer término como la energía potencial
debida a la masa inercial del sistema.
Un resultado adicional de nuestra definición de producto interior (1.75) es que U ·U = c2 ,
como comprobamos en la ecuación (1.76). Dado que el resultado es un escalar de Lorentz,
su derivada se anula, de donde obtenemos
d(U · U ) dU
= 0 = 2U · = 2U · A ; (1.80)
dτ dτ
es decir, la 4–velocidad U es siempre “perpendicular en el espacio–tiempo” 13 a la 4–
aceleración A, tal como ocurre en la mecánica Newtoniana cuando la velocidad tridimen-
sional satisface v · v =cte. La diferencia es que, mientras que en la mecánica Newtoniana
v·a = 0 sólo para algunos casos (como el movimiento circular uniforme), en espacio–tiempo
U · A = 0 es siempre válida.
1.8. Diagramas de espacio–tiempo y efectos relativistas

Como en la relatividad Galileana, en la relatividad especial los diagramas de espacio–
tiempo son una herramienta útil para representar relaciones entre diferentes marcos de
13
Notamos que V · W = 0 también ocurre si el 4–vector W es múltiplo de V y V · V = 0 debido al signo
− en (1.75), por lo que no denota perpendicularidad. Pero en el caso de la 4–velocidad sí lo hace porque
U · U 6= 0 siempre.
1.8 Diagramas de espacio–tiempo y efectos relativistas 29
x0
′
x0
′
x0 x0 ′
x1 = βx0
arctan β
arctan β
′
x1
x0 = βx1
arctan β
′
x1 arctan β x1
(a) S en reposo (b) S ′ en reposo x1

Figura 1.10: Diagramas de espacio–tiempo para dos marcos de referencia inerciales relacionados por
′ ′
un boost de Lorentz a lo largo de x1 , con β > 0. (a) Los ejes x0 y x1 de S ′ observados desde S
se acercan a la curva luminoide x0 = x1 . (b) Debido a que S ′ observa que S se mueve con rapidez
dada por −β, un observador en S ′ percibe que los ejes de S se alejan de la recta x0 = x1 .
′
referencia. En la sección 1.4 supusimos que el eje x0 de un marco inercial S ′ coincide
en los tratamientos relativistas de Newton y Einstein (ver figura 1.6). Esta suposición,
aunada a la universalidad de la rapidez de la luz, condujo a las transformaciones relativis-
′
tas (1.38). Ahora podemos usar estas transformaciones para encontrar también el eje x1
en la perspectiva de un observador en S:
′ ′
Eje x0 : x1 = γ(x1 − βx0 ) = 0 =⇒ x1 = βx0 ,
′ ′ (1.81)
Eje x1 : x0 = γ(x0 − βx1 ) = 0 =⇒ x0 = βx1 .
En la figura 1.10(a) se muestran las rectas descritas por la ecuación (1.81), correspondientes
′ ′
a los ejes x0 y x1 . La forma de este diagrama es el resultado de la mezcla de espacio y
tiempo por efecto de los boosts de Lorentz, una manifestación de que un observador inercial
no puede tratar al espacio y el tiempo de manera independiente. La comprensión de que el
espacio y el tiempo xi y x0 están inexorablemente mezclados en el espacio–tiempo puede
ser considerada como la contribución de Einstein a la ambiciosa meta de unificación.
Es importante remarcar que el diagrama de espacio–tiempo 1.10(a) es la apreciación de
un observador localizado en S, en su propio sistema de referencia, de un marco de referencia
en movimiento S ′ . Un observador localizado en S ′ ve a S en movimiento con rapidez −β,
′ ′
con los ejes x0 y x1 determinados en términos de x0 y x1 , mediante las ecuaciones
′ ′ ′ ′
Eje x0 : x1 = γ(x1 + βx 0 ) = 0 =⇒ x1 = −βx0 .
′ ′ ′ ′ (1.82)
Eje x1 : x0 = γ(x0 + βx1 ) = 0 =⇒ x0 = −βx1 .
Las curvas descritas por estas ecuaciones son los ejes espacio–temporales mostrados en la
figura 1.10(b).
Observando las diferencias en las figuras 1.10, notamos que, con relación a la curva
luminoide o curva nula x0 = x1 (que coincide para todos los observadores inerciales, como
el lector puede comprobar trivialmente), en los diagramas de espacio–tiempo los ejes de un
marco de referencia que se desplaza con β > 0 se acercan a la curva luminoide mientras
que se alejan si β < 0.
Una vez establecida la forma de los ejes en un diagrama de espacio–tiempo, es preciso
calibrarlos para poder comparar mediciones en los distintos marcos de referencia. Con este
propósito, empleamos la invariancia del intervalo
′ ′
∆s2 = (∆s′ )2 =⇒ (∆x0 )2 − (∆x1 )2 = (∆x0 )2 − (∆x1 )2 , (1.83)
donde supusimos, por simplicidad, ∆x2 = ∆x3 = 0. Además, podemos suponer que uno de
los eventos del intervalo ocurre en xµ = 0, lo que simplifica la invariancia del intervalo a
′ ′
(x0 )2 − (x1 )2 = (x0 )2 − (x1 )2 ≡ K , K = cte . (1.84)
x0
′
x0
1 x1
′
-2 -1 1 2 x1
-1
Figura 1.11: Las curvas hiperbólicas descritas por (1.84) permiten la calibración de los ejes. Para
cada constante positiva, las hipérbolas asignan un valor positivo y uno negativo a los ejes temporales
que intersequen. Cada constante negativa corresponde a una hipérbola que asigna un valor positivo
y otro negativo a los ejes espaciales que interseque.
Cada valor constante de K en la ecuación (1.84) corresponde a una hipérbola diferente.

Valores positivos de K corresponden a hipérboles que “abren” verticalmente, mientras que
K < 0 corresponde a hipérbolas horizontales. Por construcción, las asíntotas de las hipér-
bolas son las rectas x0 = ±x1 . De aquí sigue que las hipérbolas con K > 0 intersecan sólo
ejes temporales (coincidiendo con el hecho de que el intervalo es temporaloide en este caso),
y las hipérbolas con K < 0 intersecan ejes espaciales (y el intervalo es espacialoide).
Con estas observaciones, la calibración de los ejes ocurre como sigue.√ Notamos 1que en la
0 0
intersección del eje x y una hipérbola con K > 0, el valor de x es ± K porque x = 0 a lo
′
largo de√ese eje. Por invariancia del intervalo, la intersección del eje x0 ocurre justamente en
′ ′
x0 = ± K porque x1 = 0 a lo largo del eje. Como se ilustra en la figura 1.11 para β > 0,
cuanto mayor sea la rapidez de S ′ con respecto a S, la diferencia que percibe un observador
inercial entre las mediciones temporales en diferentes marcos de referencia aumenta. Como
veremos en breve, este es el corazón de la dilatación temporal. Análogamente, como en
′
los ejes espaciales de S y S ′ se satisface respectivamente x0 = 0 y x0 √= 0, entonces una
′
hipérbola con K < 0 interseca los ejes espaciales en los valores x1 = ± −K = x1 .
Dilatación temporal. Empleando esta calibración, es fácil explicar la dilatación tem-

poral debido a los boosts de Lorentz. En la figura 1.12 se presentan los ejes temporales de
dos observadores inerciales, tales que, desde la óptica de S, S ′ se mueve con β grande con
′
respecto a S en la dirección positiva de x1 . Un observador en S ′ mide un tiempo ∆x0 .
De acuerdo a la calibración hiperbólica dictada por (1.84), el mismo valor que se mide en
′
S ′ está dado por la intersección de la hipérbola con K = (∆x0 )2 > 0 con el eje temporal
en S. Sin embargo, un observador en S, considera que el tiempo ∆x0 correspondiente a
′
∆x0 es, más bien, el obtenido al intersecar con el eje x0 la línea horizontal (paralela al eje
′ ′
x1 ) que pasa por x0 = ∆x0 . Y este corresponde a un valor mayor (está por encima de la
hipérbola) al reportado por un observador en S ′ .
Es tentador pensar que el observador en S ha cometido un error; sin embargo, la
medición del observador en S es correcta. Todos aquellos eventos que ocurran a lo largo
de líneas paralelas a x1 en su diagrama de espacio–tiempo ocurren al mismo tiempo. Por
lo tanto, el resultado desde la perspectiva de un observador en S,
′
∆x0 > ∆x0 ,
es un resultado físicamente real, la dilatación temporal relativista. Como obtuvimos en la

sección 1.6, el tiempo medido por un observador en movimiento marcha más lentamente
que el de un observador en reposo desde el punto de vista del observador en reposo. La
′
relación exacta entre ∆x0 y ∆x0 está dada por la ecuación (1.49), obtenida previamente.
Como veremos en la sección 1.8.1, algo parecido ocurre con las longitudes, pero debe-
remos analizar los eventos de medición de posiciones con mayor atención. Particularmente,
deberemos cuidar que las mediciones ocurran simultáneamente y esto no es trivial.
Relatividad de la simultaneidad. Como hemos visto, el tiempo afecta al espacio (ver

e.g. ecuación (1.38)) en relatividad especial, por lo que dos eventos que aparentan ser
simultáneos para un observador inercial no lo son para otro observador inercial si existe
una velocidad relativa entre ellos. Esto resulta particularmente relevante al establecer la
posición espacial en la que ocurren dos o más eventos desde la perspectiva de distintos
marcos de referencia. La dificultad es evidente si un observador en reposo desea ubicar las
posiciones de los extremos de un objeto que se encuentra en movimiento. Si no establece
simultáneamente las posiciones de los extremos podría, entre otras cosas, equivocarse en el
tamaño del objeto.
Consideremos dos marcos de referencia inerciales S y S ′ con movimiento relativo a lo
largo de x1 . Un observador en S ′ nota que dos eventos ocurren simultáneamente, i.e. que
′
satisfacen ∆x0 = 0. Esta medición es traducida a una medición en S mediante un boost
de Lorentz, que conduce a
′ !
∆x0 = γ(∆x0 − β∆x1 ) = 0 .
De esta expresión, encontramos que un observador en S mide que el tiempo entre ambos
eventos es proporcional a la distancia que separa a los eventos y a la velocidad relativa del
observador inercial en movimiento, ∆x0 = β∆x1 . Claramente, a menos de que β ≪ 1, los
observadores no estarán de acuerdo en que los eventos ocurrieron al mismo tiempo.
Existe una consecuencia adicional de que la simultaneidad sea relativa: no todos los
observadores inerciales pueden estar de acuerdo en el orden de la secuencia de eventos
(ver ejercicio 1.12). Para ilustrar este fenómeno relativista, consideremos dos eventos que
ocurren simultáneamente en S, en el origen O y E = (0, x1 , 0, 0). Ahora, dos observadores
con rapidez v en direcciones opuestas a lo largo del eje x1 encuentran que, aunque el evento
β grande
′
x0 x0
′
∆x0
∆x0
x1
Figura 1.12: Dilatación temporal. Considerando boosts de Lorentz con β > 0, el tiempo medido en
S ′ es siempre menor al medido por un observador en S.
′′ ′
x0 x0 x0
curva luminoide
o curva nula
′
x1
O
ε x1
′′
∆s2 < 0 x1
Figura 1.13: Secuencia de eventos separados por un intervalo espacialoide, ∆s2 < 0. Mientras que
los eventos O y E son simultáneos para S, para S ′ (S ′′ ), E ocurre antes (después) de O.
en el origen siempre ocurre en el mismo lugar y tiempo, el segundo evento ocurre a distintos
tiempos. Si llamamos S ′ al marco de referencia en movimiento en la dirección positiva de x1
y S ′′ al que se mueve en sentido opuesto, las posiciones del evento E difieren temporalmente
de acuerdo a:
S ′ : E = (−γβx1 , γx1 , 0, 0),
(1.85)
S ′′ : E = (+γβx1 , γx1 , 0, 0),
como se muestra en la figura 1.13.

Es interesante notar que dos eventos simultáneos desde una perspectiva, se desfasan
en el tiempo cuando un observador se mueve a lo largo de la trayectoria que conecta los
eventos. Particularmente, notamos a partir de (1.85) que un observador que se desplaza e.g.
del evento O hacia el evento E, percibe que E ocurrió antes que el evento del que partió. En
cambio, si se desplaza en sentido opuesto, observa que la secuencia de eventos se revierte.
La clave para llegar a esta conclusión en la figura 1.13 es que el tiempo es medido en cada
marco de referencia por medio de líneas paralelas a su respectivo eje espacial, como indican
las líneas punteadas en la imagen.
Relatividad de la posición. Así como la mezcla del espacio y el tiempo provoca que
distintos observadores inerciales sean incapaces de ponerse de acuerdo sobre la secuencia
temporal en la que ocurrieron dos eventos separados por un intervalo espacialoide, es im-
′
x0 x0
′
x1
O x1
Figura 1.14: Eventos localizados en la misma posición para un observador en S ′ . Aunque O y E no
ocurren en la misma posición en S, un observador en S ′ aprecia que ambos ocurren en la misma
posición.
posible determinar universalmente la posición en la que ocurrieron dos eventos separados

por un intervalo temporaloide.
Es fácil notar que para dos eventos arbitrarios separados por un intervalo temporaloide,
con ds2 > 0, siempre es posible escoger un marco de referencia en donde los eventos ocurren
en el mismo lugar. Es decir, siempre podemos elegir un marco de referencia S ′ en el que
′ ′
(∆s′ )2 = (∆x0 )2 > 0 y ∆xi = 0.
Consideremos, por ejemplo, la situación ilustrada en la figura 1.14, en la que se muestra
sólo una dimensión espacial, por simplicidad. Dos eventos ocurren en el origen O y en
E = (x0 , x1 , 0, 0). Si un observador se encuentra en un marco de referencia S ′ que se mueve
con rapidez β > 0 con respecto a S, el evento E sucede

E = γ(x0 − βx1 ), γ(x1 − βx0 ) .
′ !
Exigiendo que x1 = γ(x1 − βx0 ) = 0, encontramos la rapidez a la que el marco de
referencia S ′ debería desplazarse para que los eventos ocurrieran en la misma posición
espacial,
x1
β= . (1.86)
x0
En el diagrama de espacio–tiempo 1.14, el marco de referencia S ′ ha sido elegido justa-

mente para que la componente espacial del evento E sea nula, ubicando a ambos eventos
en la misma posición.
1.8.1. Contracción de Lorentz
En el espacio–tiempo, la única medición de distancias que es invariante bajo toda

transformación de Lorentz es la dictada por el intervalo ∆s2 , ecuación (1.42). La forma
de extraer la información espacial del intervalo es mediante una medición simultánea de
las posiciones entre las que se desea conocer la distancia. Es decir, los eventos de medición
de las posiciones deben ocurrir al mismo tiempo. Esto supone un obstáculo al traducir
mediciones de distancia entre distintos observadores inerciales, ya que la simultaneidad es
relativa.
Para establecer una regla que permita relacionar las distancias en distintos marcos de
referencia, pensemos en una varilla de longitud ℓ′ , medida por un observador en el marco de
referencia propio de la varilla, S ′ . Esta longitud medida por un observador moviéndose con
el objeto, le llamamos longitud propia. Suponemos, como es costumbre, que S ′ se mueve
con respecto a un marco de referencia en reposo total S con rapidez codificada en β > 0.
Consideremos que la medición de los extremos de la varilla en S ′ corresponde a los eventos
x′1 = (0, 0, 0, 0)T ′ ′
=⇒ ∆x1 = ℓ′ y ∆x0 = 0. (1.87)
x′2 = (0, ℓ′ , 0, 0)T
Desde el punto de vista de un observador en S, las mediciones realizadas por el obser-

vador en S ′ no ocurren simultáneamente debido a su movimiento. En S, la posición de los
eventos de medición en el espacio–tiempo se obtienen mediante la aplicación de un boost
de Lorentz (1.38), lo que conduce a
x1 = (0, 0, 0, 0)T
=⇒ ∆x1 = γℓ′ y ∆x0 = γβℓ′ . (1.88)
x2 = (γβℓ′ , γℓ′ , 0, 0)T
x0
longitud de desplazamiento x1
la varilla debido a la
para S no simultaneidad
Figura 1.15: Determinación de la longitud de una varilla en movimiento. Un observador en movi-

miento mide una longitud mayor que uno en reposo, en S, debido a que este último nota que las
mediciones en movimiento no fueron simultáneas.
Al aplicar el boost de Lorentz, hemos tomado en cuenta que S se desplaza con rapidez −β
con respecto a S ′ . El resultado ∆x0 6= 0, confirma que las mediciones de los extremos de la
varilla no son simultáneas para un observador en S. El ajuste debido a la no simultaneidad
de las mediciones realizadas en S ′ se obtiene de notar que el extremo ilustrado a la derecha
en la figura 1.15 se desplazó, debido a la rapidez β de la varilla, una distancia β∆x0 que
debe ser sustraída de la distancia ∆x1 medida en S. De esta forma, encontramos que la
longitud de la varilla en movimiento desde la perspectiva del marco de referencia en reposo
está dada por
ℓ = ∆x1 − β∆x0 = γℓ′ − γβ 2 ℓ′ = γ(1 − β 2 )ℓ′ = ℓ′ /γ, (1.89)
es decir, de acuerdo con un observador en S, la longitud de la varilla en movimiento se
contrae por un factor de γ1 < 1 en la dirección del movimiento:
ℓ = ℓ′ /γ. contracción de Lorentz (1.90)
Notemos que este resultado coincide con la contracción propuesta por FitzGerald y Lorentz,
ecuación (1.5), en su teoría del éter.
Experimentalmente la contracción de la longitud solamente puede ser comprobada en
experimentos que involucran colisiones de átomos o núcleos; o corrientes (súper)rápidas.
1.8.2. Causalidad en diagramas de espacio–tiempo
Los diagramas de espacio–tiempo son muy útiles para estudiar la conexión causal entre
eventos. Recordemos nuestra discusión la sección 1.5. Hemos visto que la invariancia del
intervalo implica que ningún cambio de signo de ds2 es admisible para diferentes obser-
vadores inerciales. A partir de esta observación, concluimos que los eventos relacionados
por intervalos espacialoides, con ds2 < 0, están desconectados causalmente para cualquier
observador inercial debido a que la rapidez con la que una señal emitida en el lugar y mo-
mento de un primer evento para llegar al lugar y momento del segundo es siempre mayor
que la de la luz y, por lo tanto, no existe forma de comunicación que permita que uno
de ellos provoque el otro. Además, hemos visto en la sección 1.8 que es imposible para
distintos observadores inerciales determinar con total certeza cuál evento ocurrió antes y
cuál después si están separados por un intervalo espacialoide.
Por otro lado, eventos que ocurren a lo largo de una curva nula, donde ds2 = 0, son algo
especiales. Primero, notamos que ds2 = 0 implica dτ = 0, lo cual significa que un sistema
moviéndose a la velocidad de la luz, ¡no posee un tiempo propio! Eventos a lo largo de
caminos nulos sólo pueden conectarse por medio de señales que se desplacen a la velocidad
de la luz y son apreciados de la misma manera por cualquier observador inercial. Por lo
tanto, todo evento que haya ocurrido en el pasado de acuerdo a un observador inercial, es
igualmente apreciado en el pasado por otros observadores.
x0
futuro
E
x1
pasado
x2
Figura 1.16: Cono de luz de un evento E.
Finalmente, para eventos con intervalo temporaloide, el tiempo propio τ sí puede ser
definido. Por lo tanto, la línea de mundo de un observador a lo largo de una trayectoria
temporaloide puede ser descrita por los puntos del intervalo y parametrizada por τ . La
condición ds2 = dτ 2 > 0 para los eventos a lo largo de la trayectoria temporaloide y la
invariancia del intervalo establecen que la diferencia temporal entre los eventos se mantiene.
Consecuentemente, un evento que ocurre en el pasado debe ser observado en el pasado desde
cualquier marco de referencia. Como discutimos en la sección 1.5, la causalidad entre los
eventos de este tipo se mantiene debido a que una señal que se desplaza con rapidez menor
a la de la luz desde un evento pasado puede alterar los resultados en un evento futuro.
En resumen, de nuestra discusión encontramos que:
eventos separados especialoidemente están causalmente desconectados;
eventos separados luminoidemente están causalmente conectados; y
eventos separados temporaloidemente están causalmente conectados.
Para eventos separados por un intervalo finito, notamos que sólo están causalmente
vinculados si satisfacen ∆s2 ≥ 0. Por lo tanto, la “superficie” en el espacio–tiempo 4–
dimensional definida por todos los intervalos que satisfacen14 ∆s2 = 0, trazada desde un
primer evento E, establece una frontera entre los eventos que están causalmente conectados
y los causalmente desconectados. Esta “superficie” define el llamado cono de luz del evento
E. Los eventos al interior del cono de luz están causalmente conectados con el evento E,
como se ilustra en la figura 1.16.
Todos los posibles futuros del evento E se localizan en la región superior del cono
de luz, mientras que la región inferior contiene todos los posibles pasados del evento. Si
14
Dado que en cuatro dimensiones la condición elimina una de las variables, la “superficie” es en realidad
un volumen.
futuro común
E1 E2
pasado común
Figura 1.17: Los conos de luz de dos eventos E1 y E2 , simultáneos para un observador en reposo.
La intersección de los conos determina los conjuntos de eventos que pueden corresponder al futuro
y pasado comunes a E1 y E2 .
consideramos un observador inercial arbitrario, este siempre concluirá que el pasado de una
línea de mundo que pasa por E está definitivamente en el interior de la región inferior del
cono de luz.
Usando esta herramienta, es posible averiguar, por ejemplo, el origen de ciertas pro-
piedades comunes a diferentes regiones del universo o la posibilidad de que dos eventos
simultáneos se afecten en el futuro, independientemente del movimiento (inercial) de los
observadores. Como ilustramos en la figura 1.17, los conos de luz de dos eventos que suce-
den simultáneamente para algún observador se traslapan en las dos regiones sombreadas,
una en el pasado y otra en el futuro de los eventos. La región de x0 menor corresponde al
conjunto de eventos pasados que pudo haber influido en ambos eventos, mientras que la
región futura contiene posibles consecuencias de la combinación de los eventos. Un ejemplo
que representa esta situación fácilmente es el interferómetro de Michelson-Morley, donde
los eventos E1 y E2 se identifican con la reflexión de los haces de luz emitidos por una misma
fuente en los extremos de los brazos del interferómetro (ver sección 1.2).
Es importante ser cuidadosos al usar esta lógica en general. Por ejemplo, si considerára-
mos los conos de luz de dos regiones muy distantes en el cosmos y no encontráramos que se
traslaparon durante los últimos 13,800 millones de años 15 , podríamos concebir que no hay
manera de que esas dos regiones observadas hayan tenido un pasado común. Sin embargo,
las observaciones cosmológicas han mostrado que regiones que serían consideradas ajenas
en este análisis tan simple sí debieron estar en contacto causal en algún momento. Como
veremos brevemente en la sección 3.5, los detalles de la expansión del universo alteran
profundamente el resultado más simple.
15
Esta es la edad del universo de acuerdo al modelo cosmológico más acertado hasta ahora, el llamado
ΛCDM o modelo de la gran explosión.
1.9 El grupo de transformaciones de Lorentz 39
1.9. El grupo de transformaciones de Lorentz
Aunque frecuentemente los boosts de Lorentz son llamados transformaciones de Lo-

rentz, como veremos, por sí mismos no forman un grupo porque, particularmente, la ac-
ción de dos o más boosts de Lorentz en el espacio–tiempo con tres dimensiones espacia-
les conduce a una transformación que no puede expresarse como un boost. Es decir, los
boosts de Lorentz son un conjunto incompleto de transformaciones de las coordenadas del
espacio–tiempo. Para encontrar el grupo completo de transformaciones de Lorentz, debe-
mos estudiar cómo actúan los boosts de Lorentz cuando un sistema inercial se encuentra
en movimiento en una dirección arbitraria.
1.9.1. Boosts de Lorentz en tres dimensiones
Es relativamente trivial imaginar la forma de los boosts de Lorentz cuando la velocidad

del marco de referencia S ′ es a lo largo de cualquier dirección espacial xi de S. Bastaría con
sustituir el índice 1 por el índice i en las ecuaciones (1.38). Extender esta idea a cualquier
dirección x también es posible.
Consideremos un sistema de referencia inercial desplazándose con una velocidad v ar-
bitraria. Definimos, en lugar del parámetro de rapidez β, el vector β = v/c. El boost debe
afectar directamente a la dirección de x a lo largo de v. Entonces, es natural proponer
x = xk + x⊥ , (1.91)
tal que v · x = v · xk = |v||xk |, donde las componentes de x paralelas y transversales a v

están dadas por
x·v
xk = v y x⊥ = x − xk . (1.92)
|v|2
Entonces, en general, el factor de Lorentz está dado por
−1/2
γ(v) = 1 − |β|2 . (1.93)
Generalizando las expresiones (1.38), es natural proponer que este boost arbitrario puede
expresarse como
′
x0 = γ(x0 − β · x), (1.94)
′ 0
x = x⊥ + γ(xk − βx ) .
Sustituyendo (1.92) en x′ , encontramos directamente que
x′ = x − xk + γxk − βγx0
x·v
= x − (1 − γ) 2 v − βγx0
|v|
0
γx x·v
=x− + (1 − γ) 2 v
c |v|

0 γ−1
= x + −γx + x · β β. (1.95)
|β|2
Estas ecuaciones se reducen para β = (β, 0, 0)T = (v/c, 0, 0)T a la segunda expresión
en (1.38):

1′ 1 0 γ−1 1
x = x + −γx + βx β = x1 − γβx0 − x1 + γx1
β2 (1.96)
1 0
= γ(x − βx ) .
Las ecuaciones (1.94) y (1.95) pueden ser reescritas en forma matricial como
 
γ −β 1 γ −β 2 γ −β 3 γ
−β 1 γ 1 + γ−12 β 1 β 1 γ−1 1 2
β β γ−1 1 3 
β β 
µ′  |β| |β|2 |β|2
B = (B ν ) =  2 γ−1 1 2 γ−1 2 2 γ−1 2 3  , (1.97)
−β γ |β|2
β β 1 + |β|2 β β |β|2
β β 
3 γ−1 1 3 γ−1 2 3 γ−1 3 3
−β γ |β|2
β β |β|2
β β 1 + |β|2 β β
donde β i denotan las componentes de β (y no potencias). Esta matriz se simplifica para

β = (β, 0, 0)T a  
γ −βγ 0 0
′ −βγ γ 0 0
B1 = (B µ ν ) = 
 0
, (1.98)
0 1 0
0 0 0 1
que coincide con la matriz de transformación obtenida en la ecuación (1.39). El subíndice
1 denota que el boost de Lorentz es aplicado a lo largo de la dirección x1 . Notemos que
det B1 = γ 2 − β 2 γ 2 = 1. Este resultado se preserva para cualquier boost generalizado de
la forma dada en (1.97); por lo tanto, en el lenguaje de grupos, el grupo que contiene
a las transformaciones B es un grupo especial, si todos los elementos del grupo tienen
determinante 1.
1.9.2. Boosts de Lorentz como rotaciones hiperbólicas
Una derivación alternativa de las ecuaciones de Lorentz se obtiene mediante la aplica-

ción de la invariancia de los intervalos luminoides. Consideremos dos marcos de referencia
inerciales S y S ′ en configuración estándar, con S ′ desplazándose en alguna dirección a lo

largo de x1 . (dx0 , dx1 ) son las componentes diferenciales no triviales del intervalo asociado
′ ′
a un fotón en el marco de referencia S, y (dx0 , dx1 ) son las correspondientes componentes
en S ′ .
Como se trata de un intervalo luminoide, se satisface en ambos marcos de referencia
que
′ ′
(dx1 )2 = (dx0 )2 & (dx1 )2 = (dx0 )2 , (1.99)
lo que implica que

′ ′
dx1 = ±dx0 & dx1 = ±dx0 , (1.100)
con los signos iguales en ambas expresiones. Estas relaciones pueden ser combinadas me-
diante
′ ′
dx1 − dx0 = M (dx1 − dx0 ) , (1.101)
1′ 0′ 1 0
dx + dx = N (dx + dx ) ,
donde M y N son dos constantes por determinar. Sumando y restando las ecuaciones (1.101),
llegamos a
′
dx0 = a dx0 + b dx1 , (1.102)
1′
dx = a dx1 + b dx0 ,
donde hemos definido por conveniencia
M +N N −M
a≡ & b≡ . (1.103)
2 2
Sustituyendo las ecuaciones (1.102) en la condición de invariancia del intervalo
′ ′ !
(dx0 )2 − (dx1 )2 = (dx0 )2 − (dx1 )2 ,
encontramos que sólo se satisface si
!
a 2 − b2 = 1 . (1.104)
La condición (1.104) reduce el número de parámetros libres a uno, el cual puede ser con-
venientemente reexpresado, notando que esa relación es similar a la identidad hiperbólica
cosh2 φ − senh2 φ = 1 .
En términos del parámetro hiperbólico φ, un boost de Lorentz a lo largo de la dirección

x1 puede escribirse como
 
cosh φ − senh φ 0 0
− senh φ cosh φ 0 0
B1 = 
, (1.105)
0 0 1 0
0 0 0 1
′
donde la elección de signos busca que xµ crezca a medida que xµ lo haga. Aunque esta es
la elección más conveniente, otras elecciones también son permisibles, como veremos más
adelante. Hemos así encontrado una nueva interpretación para los boosts de Lorentz. Un
boost de Lorentz es una rotación hiperbólica en el espacio–tiempo.
El parámetro hiperbólico, entonces, debe depender de la rapidez v del sistema de refe-
′
rencia S ′ , φ = φ(v). La dependencia precisa se obtiene al exigir que el eje x0 del diagrama
!
de espacio–tiempo de S ′ coincida con la recta x1 − βx0 = 0, tal como exigimos en la sec-
′ ′
ción 1.4. El eje x0 está dado por x1 = 0, por lo que, con base en el boost de Lorentz (1.105),
encontramos que el eje temporal de S ′ en términos del parámetro hiperbólico satisface
− senh φx0 + cosh φx1 = 0 ⇔ x1 − tanh φx0 = 0 ,
lo que conduce finalmente al valor del parámetro hiperbólico
tanh φ = β . (1.106)
La manipulación de algunas identidades hiperbólicas a partir de (1.106) conduce a las

relaciones
cosh φ = γ , senh φ = γβ ,
con las que se obtiene una comparación satisfactoria de (1.39) y (1.105). Adicionalmente,
podemos determinar explícitamente el parámetro hiperbólico en términos de γ y β, como
φ = ln [γ(1 + β)] . (1.107)
1.9.3. Los elementos del grupo de Lorentz
Nuestra discusión de la sección anterior significa que un boost a lo largo de la dirección

x1 es solamente una rotación hiperbólica en el plano x0 – x1 . Esta curiosa observación se
vuelve más relevante cuando nos damos cuenta de que el producto de dos boost a lo largo
de x1 y x2 es equivalente a una rotación Euclidiana en el plano x1 – x2 realizada después

de otro boost16
B2 (β 2 ) B1 (β 1 ) = R(θ)B(β f ) , (1.108)
donde β 1 = (β1 , 0, 0)T , β 2 = (0, β2 , 0)T y β f = (β1 , β2 /γ1 , 0)T . A la rotación R se le llama
rotación de Thomas-Wigner y su presencia indica que los boosts de Lorentz no forman un
grupo por ellos mismos. Debemos incluir otras rotaciones (no hiperbólicas) para conseguir
el grupo de transformaciones de Lorentz.
Como hemos visto, la transformación de Lorentz más general es una transformación
lineal de los 4–vectores, tales como dx, de acuerdo a
′ ′
dxµ = Λµ ν dxν . (1.109)
Para que Λ sea consistente con los postulados de la relatividad especial, debemos exigir
la invariancia del intervalo. Expresando este requerimiento mediante el producto escalar
definido en la ecuación (1.75), tenemos
!
dx · dx = dx′ · dx′ . (1.110)
Con la finalidad de emplear una notación más útil, introducimos el llamado tensor métrico
del espacio–tiempo η = (ηµν ), tal que
dx · dx ≡ ηµν dxµ dxν

(1.111)
= (dx0 )2 − dxi dxi .
Para que la última igualdad se satisfaga, se requiere que η sea una matriz 4 × 4 con las
siguientes entradas no triviales en la diagonal
η = diag(1, −1, −1, −1) . (1.112)
El tensor métrico es un elemento geométrico muy importante de las variedades Riemannia-

nas (y pseudo-Riemannianas), que estudiaremos en el siguiente capítulo. Como veremos, el
espacio–tiempo descrito por el tensor métrico dado por (1.112) es llamado espacio–tiempo
plano o de Minkowski. Por lo pronto, aquí η es considerada simplemente como una ma-
triz 4 × 4 que ayuda a definir el producto escalar (y, por lo tanto, las distancias en el
espacio–tiempo) de una forma compacta.
Discutamos ahora cómo podemos descubrir las propiedades de las transformaciones de
Lorentz con ayuda de η. Empleando el tensor métrico, es posible reformular la invariancia
16
Ver e.g. R. Ferraro, M. Thibeault. Generic composition of boosts: an elementary derivation of the
Wigner rotation. Eur.J.Phys. 20 (1999) [arXiv:physics/0211022].
del intervalo como

′ ′ ′ ′
dx′ · dx′ = ηµ′ ν ′ dxµ dxν = ηµ′ ν ′ Λµ ρ Λν σ dxρ dxσ
!
= ηρσ dxρ dxσ = dx · dx. (1.113)
Comparando la última expresión del primer renglón con la primera del segundo, encontra-
mos la condición
′ ′ !
ηµ′ ν ′ Λµ ρ Λν σ = ηρσ . (1.114)
Reordenando los índices, encontramos que las transformaciones de Lorentz más generales
deben satisfacer
′ ′
(ΛT )ρ µ ηµ′ ν ′ Λν σ = ηρσ (1.115)
que se puede reescribir como
ΛT ηΛ = η. (1.116)
Calculando el determinante de cada lado de la igualdad y recordando que el determinante
de un producto de matrices es el producto de los determinantes, encontramos
(det Λ)2 det η = det η, (1.117)
lo que implica que det Λ = ±1. Además, reescribiendo la ecuación (1.116), encontramos
que
ΛT = ηΛ−1 η −1 , (1.118)
lo que significa que Λ debe ser ortogonal con respecto a η.17
Es posible demostrar que las matrices ortogonales con determinante ±1 Λ asociadas
a las transformaciones de Lorentz forman el grupo de Lie O(3, 1) en el espacio–tiempo
(plano), con 3 dimensiones espaciales y 1 temporal.
A pesar de que todas las transformaciones del grupo O(3, 1) son admisibles, este grupo
contiene tres subgrupos de transformaciones que parecen poco físicas. Notemos que admitir
′
transformaciones con Λ0 0 ≤ −1 y/o det Λ = −1 conduce a transformaciones como las
representadas por las matrices diagonales
T = diag(−1, 1, 1, 1), inversión temporal

(1.119)
P = diag(1, −1, −1, −1), paridad
T P
que actúan como x0 −→ − x0 y x−→ − x, respectivamente. Tratar con estas operaciones
T
representa un reto (note, por ejemplo, que T p = − Ec , p , donde p es el 4–momento; es
17
Habitualmente, las matrices ortogonales tridimensionales M que forman el grupo de Lie O(3) satisfacen
M T = 1M −1 1. Hemos escrito explícitamente la matriz identidad 1 para enfatizar la analogía con la ecua-
ción (1.118), con la diferencia de que la métrica en 3 dimensiones espaciales, siguiendo la lógica de (1.111),
es simplemente la identidad (si el espacio es plano).
decir, la inversión temporal conduce a energías negativas). Se dice que estas transformacio-
nes cambian la orientación del espacio–tiempo y son denominadas impropias. Entonces, nos
′
podemos restringir naturalmente al subgrupo propio (det Λ = +1) y ortócrono18 (Λ0 0 ≥ 1)
SO+ (3, 1), el cual incluye boosts de Lorentz (rotaciones hiperbólicas) y las rotaciones Eu-
clidianas. Frecuentemente, es a este al que le llamamos grupo de Lorentz, aunque el grupo
de Lorentz sea más general.
Debido a la homogeneidad del universo, podemos considerar el conjunto adicional de
transformaciones en el espacio–tiempo formado por las traslaciones espacio–temporales,
definidas por
xµ → xµ + aµ , (1.120)
donde aµ son las componentes de un 4–vector de desplazamiento arbitrario. Las transfor-
maciones de Lorentz y las traslaciones forman el grupo más grande conocido de transfor-
maciones del espacio–tiempo, llamado grupo de Poincaré.
1.9.4. Simetrías de Lorentz y constantes de movimiento
Hemos visto que las transformaciones de Lorentz dejan algunas cantidades invariantes,
que hemos llamado escalares de Lorentz, pese a transformar de forma no trivial a los
4–vectores. No obstante, el formalismo de la relatividad especial permite ver que, como
la ecuación (1.67) muestra, las leyes de la mecánica de Newton también son invariantes
para todos los observadores inerciales en el espacio–tiempo, ajustadas por correcciones
relativistas. Similarmente, aunque de forma más espectacular, las leyes de Maxwell de la
electrodinámica son invariantes bajo las transformaciones de Lorentz (ver ejercicio 1.3 y
sección 2.2). En general, es posible establecer que todas las leyes físicas son invariantes ante
las transformaciones relativistas, como establece el principio de relatividad. Por lo tanto, se
dice que estas transformaciones son transformaciones de simetría o simplemente simetrías
del espacio–tiempo.19
Un resultado espectacular demostrado por la matemática alemana Amalie Emmy Noet-
her es el llamado (primer) teorema de Noether que, de manera informal, puede ser enunciado
de la siguiente forma: toda simetría continua de un sistema conduce a una cantidad cuyo
valor es conservado en el tiempo, llamada constante de movimiento o carga de Noether.
Las simetrías descritas por las transformaciones de Lorentz son continuas porque los
boosts dependen de (las tres componentes de) la velocidad del observador y de los tres
ángulos de rotaciones espaciales, que son cantidades que adoptan cualquier valor continuo.
Por lo tanto, de acuerdo al teorema de Noether, esperamos que existan seis cantidades
conservadas asociadas al grupo de Lorentz.
18
Describe cualquier transformación de Lorentz que preserve la dirección del tiempo.
19
Una analogía que permite entender el uso de la palabra simetría es considerar que una esfera perfecta
es invariante bajo rotaciones y, por lo tanto, goza de una simetría bajo rotaciones.
En mecánica clásica, es bien sabido que un sistema que es simétrico bajo rotaciones
en tres dimensiones espaciales posee tres cantidades conservadas, las tres componentes del
momento angular L. En términos de la matriz antisimétrica (M µν ) con componentes
M µν ≡ xµ pν − pν xν , (1.121)
es posible expresar las componentes del momento angular (espacial) como
L(i) = 12 εijk M jk , i, j, k = 1, 2, 3 , (1.122)
donde hemos etiquetado la componente de L en la dirección xi , i = 1, 2, 3, como L(i) en

lugar de usar índices porque no existe 4–vector que contenga a L. Además, εijk denota el
símbolo de Levi-Civita en tres dimensiones20 y la suma sobre índices repetidos es implícita.
Podemos fácilmente verificar que e.g. la componente de momento angular en la dirección
x1 obtenida a partir de (1.122) está dada por L(1) = M 23 = x2 p3 − x3 p2 , coincidiendo con
el resultado habitual.
Debido a su antisimetría, la matriz 4×4 (M µν ) contiene sólo seis componentes indepen-
dientes no nulas que podemos elegir como M 23 , M 13 , M 12 y M 0i , i = 1, 2, 3. Las primeras
tres corresponden justamente a las componentes del momento angular L y son cantidades
conservadas, es decir, satisfacen
∂0 M 23 = ∂0 M 13 = ∂0 M 12 = 0 .
Mediante el principio de mínima acción o, como veremos en la sección 2.9, mediante el

análisis de vectores de Killing, es posible demostrar que no sólo estas componentes de
(M µν ) son conservadas,21 sino también M 0i .
Los elementos M 0i combinan componentes espaciales con componentes temporales del
momento propio y la posición relativistas, por lo que están asociados a las rotaciones
en espacio–tiempo, los boosts de Lorentz. Las constantes de movimiento correspondientes
dependen del tiempo debido a que los boosts dependen también explícitamente del tiempo.
Dado que M 0i = x0 pi − Exi /c es una constante de movimiento, su derivada con respecto
a x0 conduce a
E dx
p− 2 = 0, (1.123)
c dt
20
En tres dimensiones, el símbolo completamente antisimétrico de Levi-Civita está dado por

+1 si (i, j, k) es permutación par de (1, 2, 3),

ijk
ε = −1 si (i, j, k) es permutación impar de (1, 2, 3),


0 si algún índice es repetido.
21
Se recomienda la lectura de la sección 14 de L.D. Landau, E.M. Lifshitz, The classical theory of fields
(V.2). Butterworth Heinemann, 1994.
que coincide con la relación (1.71), cierta para un sistema de una sola partícula estudiado
por cualquier observador inercial si la partícula se desplaza con velocidad uniforme. Los
tres grados de libertad de la ecuación (1.123) son las constantes de movimiento asociadas
a los boosts de Lorentz.
El resultado (1.123) conduce a una interesante conclusión, pero, para llegar a ella,
consideremos primero las cantidades conservadas asociadas a las traslaciones (1.120) que
complementan el grupo de simetrías del espacio–tiempo para formar el grupo de Poincaré.
Calculando la derivada con respecto al tiempo propio de las traslaciones, encontramos que
la 4–velocidad no es alterada bajo estas transformaciones,
d µ d µ d µ
x → (x + aµ ) = x (1.124)
dτ dτ dτ
debido a que aµ es un 4–vector constante. Dado que el momento de una partícula de masa
m es definido como p = m U , el 4–momento se conserva bajo traslaciones. En términos de
las componentes pµ , encontramos que tanto la energía del sistema E como el momento p
son cantidades conservadas.
Para entender ahora en general el significado de (1.123), consideremos un sistema de
muchas partículas, las cuales, en principio, se mueven en direcciones y con velocidades
arbitrarias. La matriz de cantidades conservadas (1.121) se expresa en este caso como
X
M µν ≡ xµn pνn − pνn xνn , (1.125)
n
donde n etiqueta a cada una de las partículas que componen el sistema. Las componentes
no triviales M ij correspondientes al momento angular sólo reflejan que el momento angular
total, dado por la suma de los momentos angulares individuales, se conserva. Por otra parte,
las componentes M 0i conducen a
X X En
pn t − xn = cte , (1.126)
n n
c2
donde hemos supuesto que todas las mediciones de momentos y posiciones se realizan
simultáneamente desde el punto de vista de un observador inercial, y hemos dividido por
c. Dado que la energía se conserva en un sistema cerrado y en aquellos invariantes bajo
traslaciones, como P
suponemos que es el sistema que analizamos aquí, entonces podemos
dividir (1.126) por n En /c2 = cte:
P P 2
n pn n En xn /c
P 2
t − P 2
= cte . (1.127)
n En /c n En /c
Por otra parte, notando que en el límite no relativista En = γ(un )mn c2 → mn c2 y

pn → mn un , donde un son las velocidades locales de las partículas que componen el
sistema, observamos que, en ese límite, esta expresión se reduce a

P P
n mn un n mn xn
P t− P = cte . (1.128)
n mn n mn
Identificamos directamente al coeficiente de t como la velocidad del centro de inercia y al

segundo término como la posición del centro de inercia no relativista del sistema.
Por lo tanto, definiendo la posición y la velocidad relativistas del centro de inercia del
sistema como P P
2
n En xn /c n pn
X CDI ≡ P 2
, V CDI ≡ P 2
, (1.129)
E
n n /c n n /c
E
respectivamente, la relación (1.123) para un sistema de muchas partículas se puede reex-
presar como
dX CDI
V CDI − = 0. (1.130)
dt
Debido a que V CDI es constante debido a la conservación de momento, el centro de inercia
X CDI se desplaza con velocidad uniforme V CDI . Por medio de esta ecuación, logramos
identificar que las tres constantes de movimiento asociadas a los boosts de Lorentz en las
tres direcciones espaciales corresponden a la uniformidad de las tres componentes de la
velocidad del centro de inercia relativista. Es decir, para cualquier observador inercial, un
sistema relativista de muchas partículas invariante bajo los boosts de Lorentz se comporta,
en conjunto, como un sistema inercial.
1.10. Aplicaciones ópticas de la relatividad especial
Las discusiones hasta este punto han sido generales. En esta sección buscamos aportar
algunos ejemplos que conducen a predicciones únicas de la relatividad especial.
1.10.1. Efecto Doppler
El efecto Doppler le ocurre a cualquier frente de onda cuya fuente se está moviendo
con respecto a un observador inercial. Esto se debe a que las crestas de la onda, desde la
perspectiva del observador, están más o menos separadas dependiendo del movimiento de
la fuente.
Centrémonos en la luz como el frente de onda. La luz es emitida con frecuencia ν ′ desde
una fuente en movimiento con velocidad v a lo largo del eje x1 , pero tal que la línea de
visión hace un ángulo θ con respecto al eje x1 , como se observa en la figura 1.18 (que no
es un diagrama de espacio–tiempo).
1.10 Aplicaciones ópticas de la relatividad especial 49
′
Si el tiempo entre dos crestas consecutivas de una onda de luz emitida es ∆x0 /c,
entonces la frecuencia de la luz está dada por
c
ν′ = . (1.131)
∆x0′
La medición del tiempo ∆x0 /c entre dos crestas consecutivas realizada por un observa-
dor en reposo es afectada por dos efectos: i) el del movimiento de la fuente a lo largo de la
línea de visión (que es el origen del efecto Doppler en la mecánica Newtoniana), y ii) por
la dilatación temporal relativista. La combinación de estos elementos se expresa mediante
′ ′
∆x0 ∆x0 ∆x0
=γ + βℓ γ , (1.132)
c c c
donde βℓ es la componente de β = (β, 0, 0)T a lo largo de la línea de visión,
βℓ = β cos θ. (1.133)
Definiendo la frecuencia de la luz medida por el observador en reposo como ν ≡ c/∆x0 ,

reescribimos (1.132) como
1 1
= ′ γ(1 + β cos θ) . efecto Doppler relativista (1.134)
ν ν
′
x2 x2
v
fuente x1
′
S′
observador x1
S
Figura 1.18: Una fuente de luz en movimiento S ′ emite luz que es observada por un observador en
reposo S a un ángulo θ con respecto a su horizontal.
Claramente, cuando cos θ = 1, la línea de visión es a lo largo del eje x1 , con la fuente
alejándose del observador, como en la figura 1.19. En este caso, tenemos
s
1 1 1+β 1 1+β
= ′p = ′ . (1.135)
ν ν 1 − β2 ν 1−β
Para cos θ = −1, la fuente se acerca al observador y encontramos

s
1 1 1−β
= ′ . (1.136)
ν ν 1+β
A estos dos casos usualmente se les conoce como efecto Doppler longitudinal y en su
límite no relativista corresponden al efecto Doppler Newtoniano. Vemos que para β ≪ 1
las expresiones (1.135) y (1.136) pueden aproximarse por
v
ν ′ = ν(1 ± β) + O(β 2 ) ≈ ν 1 ± , (1.137)
c
dependiendo de si la fuente se acerca (−) o se aleja (+), lo cual corresponde al resultado
de la física Newtoniana. Las correcciones relativistas son proporcionales a β 2 /2, lo que
explica por qué este efecto es principalmente apreciable en fuentes que se desplazan a
grandes velocidades, tales como las estrellas de galaxias distantes. Observamos que, como
en el caso Newtoniano, entre más rápido se aleja (acerca) la fuente, la frecuencia de la luz
emitida es menor (mayor) o, en otras palabras, más roja (azul) se observa su luz. Debido
a que las estrellas típicamente se alejan de nosotros (debido esencialmente a la expansión
cósmica), es frecuente que el efecto Doppler sea llamado simplemente corrimiento al rojo,
′
x2 x2
′
x 1 , x1
Figura 1.19: Una fuente emite luz mientras se aleja en el eje x1 de un observador en reposo.
aunque también existan estrellas con movimiento hacia nosotros y exhiban, por lo tanto,
un corrimiento al azul en su espectro de radiación.
La descripción relativista del efecto Doppler dada por (1.134) revela que hay un caso
que no aparece en la física Newtoniana. Para cos θ = 0, es decir, cuando la línea de visión
es perpendicular al movimiento de la fuente, ocurre el llamado efecto Doppler transversal.
En este caso, la relación entre las frecuencias se simplifica a
ν ′ = νγ, efecto Doppler transversal (1.138)
es decir, la frecuencia recibida es reducida por el factor de Lorentz.

En distintos contextos (ver e.g. sección 3.5.2) es útil definir el corrimiento al rojo por
efecto Doppler longitudinal, para objetos (o fuentes luminosas) alejándose, como
ν′ − ν
z≡ corrimiento al rojo (1.139)
ν
que caracteriza la disminución de la frecuencia observada ν con respecto a la originalmen-

te emitida ν ′ , como consecuencia del movimiento de la fuente. Si z < 0, en realidad se
trata de un corrimiento al azul. A partir de (1.134), vemos que en la relatividad especial,
el corrimiento al rojo está dado por z = γ(1 + β cos θ) − 1. Cuando la fuente se aleja
longitudinalmente del observador, z > 0 y el corrimiento al rojo suele escribirse como
s
1+β
z+1= . (1.140)
1−β
Como veremos en las secciones 3.1.2 y 3.3.2, en el contexto gravitacional hay correc-
ciones adicionales. En conjunto, este corrimiento al rojo es importante para determinar la
edad o comportamiento de estrellas y galaxias. Es, por ejemplo, conocido que las estrellas
lejanas se ven más rojas de lo que realmente son (corrimiento al rojo astrofísico) porque se
están alejando de nosotros.
1.10.2. Aberración de luz o aberración estelar
Las distancias y el tiempo dependen del movimiento del observador o del objeto ob-
servado. Esto implica que otras cantidades se afectan similarmente. Hemos visto cómo
velocidades locales cambian dependiendo del movimiento relativo de observadores. Análo-
gamente, aceleraciones y fuerzas se ven modificadas. Curiosamente, hasta algunos efectos
angulares se vuelven evidentes cuando tenemos involucradas velocidades relativistas; este
es el caso de la percepción del ángulo de incidencia de la luz por diferentes observadores
inerciales.
Considere un rayo de luz observado a un ángulo α respecto del eje x1 de un marco de

referencia S en reposo. Otro observador moviéndose con rapidez v en la dirección x1 mide
un ángulo incidente α′ , como se ilustra en la figura 1.20. La rapidez de la luz en ambos
marcos de referencia es c, pero la rapidez en la dirección x1 no necesariamente es la misma.
Usando la regla de adición de velocidades (1.63) y haciendo las proyecciones angulares
′
u1 = −c cos α′ , u1 = −c cos α,
′ (1.141)
u2 = −c sen α′ , u2 = −c sen α,
encontramos que
cos α + β sen α
cos α′ = , sen α′ = , (1.142)
1 + β cos α γ(1 + β cos α)
que se combinan en la ecuación
1 sen α
tan α′ = . (1.143)
γ cos α + β
Sin embargo, resulta más conveniente expresar este resultado en términos de la identidad
trigonométrica
1 sen α′
tan α′ = , (1.144)
2 1 + cos α′
de donde encontramos
1 sen α
tan α′ =
2 γ(1 + β cos α + cos α + β)
s (1.145)
sen α 1 − β sen α
= = .
γ(1 + β)(1 + cos α) 1 + β 1 + cos α
′
x2 x2
v
α α′
′
x1 x1
Figura 1.20: Ángulo de incidencia de la luz en marcos de referencia inerciales en reposo y en
movimiento.
Empleando nuevamente (1.144), concluimos que
s
1 1−β 1
tan α′ = tan α . aberración relativista (1.146)
2 1+β 2
Vemos que para 0 ≤ α ≤ π, la relación entre los ángulos de observación depende de β de

acuerdo a
1 1
tan α′ < tan α ⇐⇒ α′ < α si β > 0,
2 2 (1.147)
1 ′ 1 ′
tan α > tan α ⇐⇒ α >α si β < 0.
2 2
Este efecto se conoce bien desde finales del siglo XVII; se le llama aberración de la luz o
aberración de Bradley. La aberración de la luz tiene un papel importante en la astronomía
porque este efecto altera la posición aparente de las estrellas a lo largo del día y el año
debido a la rotación y traslación de la Tierra, como se observa esquemáticamente en la
figura 1.21a. Claramente, la aberración anual es más importante. Como se ilustra en la
figura 1.21b, estos efectos producen una variación oscilatoria del ángulo de observación de
cuerpos estelares a lo largo del año.
α′
α posición
aparente
Tierra
α′
marzo septiembre marzo
v
(a) (b)
Figura 1.21: (a) Si un observador terrestre se mueve con la velocidad v indicada con respecto a una
estrella (cercana) debida a la rotación y traslación de la Tierra, la posición aparente de la estrella
tendrá un ángulo menor al que percibiría un observador en reposo. (b) Variación del ángulo de
incidencia a lo largo del año.
1.11. Mecánica cuántica relativista de partículas sin espín*

1.11.1. La ecuación de Klein–Gordon
En la mecánica cuántica, la relación no relativista
p2
E= +V (1.148)
2m
origina la ecuación de Schrödinger (en la representación de posiciones),

∂ψ ~2 2
i~ = − ∇ + V ψ, (1.149)
∂t 2m
tras reemplazar las cantidades físicas E y p por los operadores cuánticos (diferenciales)22
· ∂ ·
E → Ê = i~ , p → p̂ = −i~∇, (1.150)
∂t
y luego aplicar (1.148) sobre la llamada función de onda ψ = ψ(t, x), que caracteriza por
completo a un sistema cuántico. Claramente, la ecuación (1.149) trata de manera diferente
a las coordenadas espaciales y a la temporal, lo que subraya su incompatibilidad con la
relatividad especial.
El primer intento de obtener una ecuación cuántico–relativista fue hecha por el mismo
Schrödinger. Su tratamiento fue el mismo que el anterior, pero empezando con la relación
de energía y momento relativista (1.78),
E 2 = p 2 c2 + m2 c4 . (1.151)
Repitiendo los pasos anteriores, encontramos
∂2φ
− ~2 = −~ 2 2 2
c ∇ + m 2 4
c φ, (1.152)
∂t2
donde la función φ = φ(t, x) aún debe interpretarse. Esta ecuación puede escribirse de
forma más sugerente como

∂2 2 m2 c 2
− ∇ φ + φ = 0, ec. de Klein–Gordon (1.153)
c2 ∂t2 ~2
la cual se conoce como la ecuación de Klein–Gordon. Las derivadas temporales y espaciales

en la ecuación de Klein–Gordon sólo difieren por un signo y el campo φ depende de todas las
22 ·
El símbolo = significa que el lado derecho es una representación del operador del lado izquierdo.
1.11 Mecánica cuántica relativista de partículas sin espín* 55
coordenadas xµ . Por esta razón, se dice que esta ecuación trata al tiempo y las posiciones de
la misma forma. Sin embargo, la diferencia en signo de las derivadas es importante; sugiere
la posibilidad de definir el 4–vector de derivadas (el origen de los signos se explicará en la
sección 2.1.5)

µ ∂ ∂ ∂ ∂ T
∂ ≡ (∂ ) = ,− ,− ,− , (1.154)
∂x0 ∂x1 ∂x2 ∂x3
de manera que podamos escribir la ecuación de Klein–Gordon como
m2 c 2 m2 c 2
∂·∂ φ+ φ= ηµν ∂ µ ∂ ν φ + φ = 0. (1.155)
~2 ~2
Podemos verificar inmediatamente que esta ecuación es invariante de Lorentz porque ∂ · ∂

2 2
y m~2c son escalares de Lorentz; entonces, mientras φ se comporte como escalar bajo
transformaciones de Lorentz, la ecuación de Klein–Gordon es compatible con la relatividad.
Esta observación revela la naturaleza de φ. Así como la función de onda ψ representa el
estado de una partícula, φ = φ(xµ ) está asociada a una partícula en el espacio–tiempo,
pero, para que la ecuación de Klein–Gordon sea relativista, dicha partícula debe tener espín
cero. A φ frecuentemente se le llama campo escalar y se le asocia a partículas libres de masa
m y sin espín.
La ecuación de Klein–Gordon expresada sólo en términos de componentes de 4–vectores
como en (1.155) se dice que se encuentra en notación covariante. Si una ecuación puede
escribirse en notación covariante, en términos de 4–vectores (y cualesquiera otros tensores,
como veremos en el siguiente capítulo), revela que es compatible con la relatividad de
Einstein.23 Es particularmente sencillo, por ejemplo, mostrar que (1.155) es invariante bajo
transformaciones de Lorentz, considerando que las componentes del 4–vector de derivadas
′ ′
se transforma como cualquier 4–vector, ∂ µ = Λµ ν ∂ ν .
Por otra parte, podemos ver también que la ecuación de Klein–Gordon (1.153) es una
ecuación de onda clásica que incluye un término de masa. Usando la relación de energía
relativista (1.151), es sencillo mostrar que el ansatz

i
φ = A exp (p · x − Et) (1.156)
~
provee una solución de la ecuación de Klein–Gordon. Una observación decepcionante para

Schrödinger fue que los niveles de energía predichos por esta ecuación satisfacen
p
E = ± m2 c4 + p 2 c2 , (1.157)
23
Como veremos en la sección 2.5, las leyes físicas escritas en notación covariante no dependen de la
estructura del espacio–tiempo ni de la elección de coordenadas o marcos de referencia.
con ambos signos. Es decir, la ecuación de Klein–Gordon indica que un sistema físico puede
poseer energía negativa.
Este problema es de suma importancia y fue resuelto algún tiempo después de la apari-
ción de la ecuación de Klein–Gordon por Dirac, Feynman y Stückelberg, al interpretar los
estados de energía negativa como estados de energía positiva moviéndose al pasado. Pero
antes de entrar en estos detalles, estudiemos dos aspectos importantes de la ecuación de
Klein–Gordon: el límite no relativista y la definición de la 4–corriente de probabilidad.
1.11.2. Corrientes conservadas
El límite no relativista de (1.157) se obtiene cuando la mayor parte de la energía de la

partícula está contenida en su masa en reposo, es decir
E = E0 + E ′ ≈ E0 ≡ mc2 , E ′ ≪ E0 , (1.158)
donde E0 es la energía en reposo y E ′ la energía debida a la dinámica de las partículas. En

estos términos, podemos reescribir el ansatz (1.156) como
iE0 t
φ = ϕe− ~ , (1.159)
donde ϕ solamente depende de la energía no relativista, satisfaciendo la ecuación de Schrö-

dinger no relativista
∂ϕ
i~ ≈ E ′ ϕ ≪ E0 ϕ. (1.160)
∂t
En este límite, las derivadas temporales de φ están dadas por

∂φ ∂ϕ iE0 iE0 t
= − ϕ e− ~ , (1.161)
∂t ∂t ~
2
∂2φ ∂ ϕ iE0 ∂ϕ E02 iE0 t
2
= 2
−2 − 2 ϕ e− ~
∂t ∂t ~ ∂t ~
2

2iE0 ∂ E0
≈− + 2 φ. (1.162)
~ ∂t ~
Sustituyendo (1.162) en la ecuación de Klein-Gordon (1.153), encontramos

2imc2 ∂ m2 c4 2 m2 c2
− + + ∇ φ + φ = 0, (1.163)
~c2 ∂t h2 c 2 ~2
que se simplifica a
∂ ~2 2
i~ φ=− ∇ φ, límite no relativista de la ec. de Klein–Gordon (1.164)
∂t 2m
lo cual coincide con la ecuación de Schrödinger (1.149) para una partícula libre. Esta es
una observación interesante ya que significa que la ecuación de Klein–Gordon puede ser
considerada como el origen relativista de la ecuación de Schrödinger.24
Aún podemos obtener más información de aquí. Consideremos la ecuación de Schrö-
dinger para una partícula libre en la forma
∂ i~ 2
φ= ∇ φ. (1.165)
∂t 2m
Multiplicando por φ∗ y agregando la ecuación resultante a su conjugado, encontramos
∂ ∂ i~
φ∗ φ + φ φ∗ = φ∗ ∇2 φ − φ∇2 φ∗ , (1.166)
∂t ∂t 2m
que puede reescribirse como

∂ ∗ i~ ∗ ∗
(cφ φ) + ∇ · − (φ ∇φ − φ∇φ ) = 0. (1.167)
∂x0 2m
Recordando que en mecánica cuántica no relativista φ∗ φ define la densidad de probabilidad
ρ de la función de onda φ, y definiendo una corriente de probabilidad
i~
j≡− (φ∗ ∇φ − φ∇φ∗ ) , (1.168)
2m
encontramos la ecuación de continuidad
∂ρ
+ ∇ · j = 0, (1.169)
∂t
la cual expresa la conservación de probabilidad, de la siguiente manera. Si la probabilidad
R 3 no
relativista de que una partícula se encuentre en un volumen Ω se define como P ≡ Ω d x ρ,
entonces Z I
∂P 3
= − d x ∇ · j = − j · n̂dS = 0 . (1.170)
∂t
Ω ∂Ω
La última igualdad se debe al hecho de que j desaparece cuando x → ∞ y el volumen
Ω tiene frontera ∂Ω al infinito. Podemos reescribir la ecuación de continuidad (1.169) en
términos de una 4–corriente
J = (J µ ) ≡ (cρ, j)T , 4–corriente (1.171)
como
∂ · J = ηµν ∂ µ J ν = 0. ecuación de continuidad (1.172)
24
Aunque, como es habitual, los operadores diferenciales y el ansatz para φ son concebidos ad hoc.
Notamos que esta ecuación, de acuerdo con la discusión anterior, expresa la conservación
de J 0 en todo el espacio siempre y cuando j = (J i ) desaparezca en el infinito, como se
espera por ser un límite físico. Las definiciones de ρ y j son típicas de la mecánica cuántica
no relativista y es bien sabido que satisfacen (1.169).
Extendamos este tratamiento a la ecuación de Klein–Gordon. Para lograrlo, multipli-
quemos esta ecuación en su forma (1.155) por φ∗ y restémosle a la ecuación resultante su
conjugada. Obtenemos
m2 c 2 ∗
φ∗ ηµν ∂ µ ∂ ν φ − φηµν ∂ µ ∂ ν φ∗ + (φ φ − φφ∗ ) = ηµν ∂ µ (φ∗ ∂ ν φ − φ∂ ν φ∗ ) = 0 (1.173)
~2
Esta expresión adopta la forma (1.172) si las componentes de la 4–corriente relativista
satisfacen
J ν ∝ φ∗ ∂ ν φ − φ∂ ν φ∗ . (1.174)
Sin embargo, vemos que, en el límite no relativista, las componentes espaciales sólo pueden
compararse con (1.168) si multiplicamos por i~/2m. Por lo tanto, proponemos que la 4–
corriente en el caso relativista esté dada por
i~
Jµ ≡ (φ∗ ∂ µ φ − φ∂ µ φ∗ ) , (1.175)
2m
donde la densidad de probabilidad conservada ρ = J 0 /c ahora está dada por

1 i~ ∂ ∂
ρ = J0 = φ∗ φ − φ φ∗ . (1.176)
c 2m ∂t ∂t
De inmediato notamos que hay un problema. Para valores arbitrarios de φ y ∂φ ∂t , ρ también

puede ser negativa. Es decir, la ecuación de Klein–Gordon no sólo incluye energías negativas,
sino también probabilidades negativas. Esta es una de las razones por las que a esta ecuación
se le conoció durante mucho tiempo como una curiosidad teórica sin sentido.
1.11.3. Causalidad y antipartículas
La solución (1.156) de la ecuación de Klein–Gordon puede formularse en forma cova-

riante (en términos de 4–vectores) como

µ i
φ(x ) = A exp − p · x , p · x = ηµν pµ xν , (1.177)
~
donde la naturaleza escalar de Lorentz de φ se hace evidente una vez más. Por lo tanto,
esta solución es claramente compatible con la relatividad especial. Sin embargo, recordemos
p
que E puede ser tanto positiva o negativa. Para E− ≡ − p2 c2 + m2 c4 < 0, el exponente
pierde su conveniente forma covariante
i i
− p · x = (p · x + |E− |t) , (1.178)
~ ~
pero puede ser corregida si consideramos tiempos negativos
i i
− p · x = (p · x − |E− ||t|) , t < 0. (1.179)
~ ~
Se puede interpretar este resultado como una señal de que soluciones de energía positiva
se mueven temporalmente hacia el futuro, mientras que soluciones de energía negativa se
mueven hacia atrás en el tiempo. A esto se le conoce como la interpretación de Feynman–
Stückelberg.
Para que esta observación tenga sentido, consideremos la dispersión elástica de una
partícula φ con un fotón γ, el cual carece de masa,
φγ → φγ, (1.180)
es decir, originalmente tenemos un φ y un γ, los cuales, después de interactuar, salen con las
propiedades originales (energía, momento, carga, ...). Lo que es importante para nosotros
es la interacción donde diferentes energías para φ podrían surgir.
Consideremos que φ tiene energía E1 > 0 mientras γ tiene energía Eγ . Tendremos dos
casos:
1. Eγ < E1 ,
2. Eγ > E1 .
En ambos casos, como se puede observar esquemáticamente en la figura 1.22, la interacción
ocurre como sigue. En x1 φ emite un fotón con ciertas propiedades25 y en x2 φ absorbe
otro fotón con las mismas propiedades del fotón emitido. La diferencia aparece debido a la
energía restante en φ, E = E1 − Eγ , después de emitir el fotón. Claramente, el primer caso,
ilustrado en 1.22a, es el más sencillo. Como en este caso E = E1 − Eγ > 0, φ se comporta
normalmente perdiendo momento en x1 y recuperándolo tiempo después (x2 0 > x1 0 ) en
x2 .
No obstante, en el segundo caso, ilustrado en 1.22b, después de emitir el fotón en x1 , φ
tiene energía negativa E = E1 − Eγ < 0 y ya no puede desplazarse hacia el futuro. En lugar
de eso, retrocede en el tiempo a x2 , con x2 0 < x1 0 , donde absorbe un fotón con energía Eγ
lo que hace que φ vuelva a su estado original, con energía E1 > 0.
25
Al emitir el fotón, φ altera su 4–momento, satisfaciendo siempre el principio de conservación. Sin
embargo, en una situación como la presentada esquemáticamente en la figura 1.22, el momento lineal espacial
de φ tras la emisión del fotón es mayor que el que tenía antes de emitirlo; esto implica particularmente que,
tras emitir el fotón, no satisface la relación p2 = m2 c2 . A este tipo de partículas se les llama virtuales.
x0 x0
Eγ > E1
φ γ
E1
x02 x01
γ Eγ E = E1 − Eγ < 0
Eγ < E1 E1 φ
φ E1
γ
E = E1 − Eγ > 0
x01 x02
Eγ
φ E1 γ
x11 x12 x1 x11 x12 x1
(a) Eγ < E1 . (b) Eγ > E1 .
Figura 1.22: Interacción de una partícula escalar φ con un fotón γ mediante el intercambio de
partículas virtuales de energía (a) E1 − Eγ > 0 y (b) E1 − Eγ < 0. En (b), la partícula con energía
negativa “viaja al pasado”.
El peculiar “viaje al pasado” provoca escepticismo, pero adquiere sentido si analizamos

nuevamente el caso 1.22b, tratando de evitar ahora la posibilidad de energías negativas.
Leyendo la figura 1.22b desde el lado derecho se obtiene una imagen alternativa: el fotón
entrante crea dos partículas escalares al llegar a x2 , una con energía E1 y la otra con
Eγ − E1 > 0. Esta última es después absorbida junto con el φ entrante, que se aniquilan
en x1 , produciendo el fotón saliente. Como antes, la energía se conserva para cada vértice
de la interacción (de hecho, todo el 4–momento se conserva).
Notemos que en esta interpretación, la partícula creada en el punto x2 con energía
Eγ − E1 , pese a ser escalar, no puede ser completamente idéntica a la partícula φ que
retrocede al pasado por tener energía negativa; debe corresponder a una partícula escalar
con alguna propiedad que la distinga de la partícula φ. Si interpretamos a φ con E < 0
como una partícula diferente φ′ con E ′ = −E > 0, ¿qué es φ′ y qué la distingue de φ?
Para responder esta pregunta, dotemos a φ de una carga eléctrica q. La correspondiente
densidad de carga está dada por

i~q ∗ ∂ ∂ ∗
ρq ≡ ρq = φ φ−φ φ . (1.181)
2mc2 ∂t ∂t
p
Sustituyendo la solución φ = exp ~i (p · x − E± t) , con E± = ± p 2 c2 + m2 c4 , encontra-
mos 
+q E+2 |φ|2
i~q 2iE± E ± mc
ρq = − φ∗ φ = q φ∗ φ = (1.182)
2mc2 ~ mc2 −q |E−2| |φ|2 .
mc
La última expresión permite la siguiente interpretación: partículas escalares de energía ne-

gativa con carga q son equivalentes a partículas de energía positiva y carga −q. Es decir, una
partícula con energía negativa es equivalente a su antipartícula con energía positiva. Esta
es la llamada interpretación de Feynman–Stückelberg de los estados con energía negativa, y
representa un elemento importante de la llamada electrodinámica cuántica, la mejor y más
precisa explicación de los procesos electromagnéticos en la física de partículas elementales.
Vemos que, para una partícula cargada, ρq tiene sentido como densidad de carga. Tam-
bién tiene sentido para partículas sin carga, para lo cual ρq = 0. Sin embargo, es imposible
definir una densidad de probabilidad para la ecuación de Klein–Gordon, dado que ρ también
adopta valores negativos.
Como observación final, mostremos que ρ se reduce a la densidad de probabilidad de
la ecuación de Schrödinger no relativista:

i~ ∗ ∂ ∂ ∗ i~ ∗ i ′ E0 ∗
ρ= φ φ − φ φ = φ 2 − (E + E 0 )φ ≈ φ φ = φ∗ φ ,
2mc2 ∂t ∂t 2mc2 ~ mc2
(1.183)
∂φ ′ ′
donde hemos usado que i~ ∂t = Eφ = (E0 + E )φ y E ≪ E0 .
Ejercicios
1.1 Preguntas conceptuales.
(a) En relatividad especial, el postulado de la universalidad de la rapidez de la luz es esencial
′ ′
para obtener las transformaciones de Lorentz, xµ = B µ ν xν . ¿Son las únicas transformaciones
′
consistentes con ese postulado? Considere, por ejemplo, las transformaciones conformes xµ =
axµ , con a = cte. ¿Qué significa este resultado?
(b) En la relatividad Galileana, el intervalo espacial o distancia ℓ2 ≡ (∆xi )(∆xi ) = |∆x|2 es
invariante ante transformaciones Galileanas entre los marcos de referencia inerciales, es decir,
ℓ2 = (ℓ′ )2 . Sin embargo, al dividir por (∆t)2 6= 0 se llega a que |u|2 = |u − v|2 , en donde v
es la velocidad uniforme a la que se mueve un marco de referencia inercial S ′ con respecto a
otro marco en reposo S. ¿Cuál es la inconsistencia?
1.2 Invariancia del intervalo.
(a) Muestre que el intervalo espacial ℓ2 ≡ (∆xi )(∆xi ) = |∆x|2 es invariante bajo una transfor-
mación tridimensional relativista de Galileo.
(b) Muestre que el intervalo espacial–tiempo ∆s2 = (∆x0 )(∆x0 ) − (∆xi )(∆xi ) es invariante bajo
un boost de Lorentz unidimensional.
(c) Siguiendo la discusión del artículo Indefinite quadratic forms and the invariance of the interval
in Special Relativity de J.H. Elton [arXiv:math.GM/0904.3913], demuestre que el intervalo
espacio–temporal es invariante.
Sugerencia: Es importante comprender el teorema demostrado ahí, antes de aplicarlo, y seguir
la discusión compartida en el apéndice G de la referencia [2] de ese artículo.
1.3 Ecuaciones de Maxwell.

(a) Las ecuaciones de Maxwell en el vacío y sin fuentes están dadas en su forma diferencial por
∂B
∇ · E = 0, ∇×E =− ,
∂t
∂E
∇ · B = 0, ∇ × B = µ0 ǫ 0 ,
∂t
en donde E y B denotan los campos eléctrico y magnético, mientras que µ0 y ǫ0 son res-
pectivamente la permeabilidad magnética y la permitividad eléctrica del vacío, y satisfacen
c2 = (µ0 ǫ0 )−1 . Aplicando relaciones entre el rotacional, el gradiente y la divergencia de un
vector, muestre que las ecuaciones de Maxwell implican que los campos E y B son ondas
con velocidad c.
(b) Muestre que la ecuación de onda para el campo magnético B = (B, 0, 0)T no es invariante
ante transformaciones Galileanas.
(c) Muestre que la ecuación de onda para el campo magnético B = (B, 0, 0)T sí es invariante
bajo boosts de Lorentz.
1.4 Boosts de Lorentz.
En el apéndice I de su libro Relativity. The special and the general theory de 1916, Einstein sugiere
una forma muy simple de obtener los boosts de Lorentz a partir del postulado de la invariancia de
la velocidad de la luz, codificada en
x′ − ct′ = λ(x − ct)

x′ + ct′ = µ(x + ct),
para algunas constantes λ y µ, y el resultado Galileano de que x′ = 0 debe coincidir con la curva
x − vt = 0. Muestre cómo funciona la derivación de Einstein.
(a) ¿Cómo expresaría en términos del 4–momento la conservación de momento y energía? ¿Qué
implicaciones tiene para los 4–vectores f = (f µ ) y p = (pµ ), y para el resultado anterior, la
acción de una fuerza externa sobre el sistema?
(b) Un granjero con conocimientos de relatividad tiene un granero de longitud LG y una escalera
de longitud LE > LG , que quiere guardar en el granero. Planea utilizar la contracción de
Lorentz para guardar la escalera. El granjero le dice a su hijo que corra con la escalera hacia
el granero a una rapidez relativista (uniforme) v hasta que él cierre la puerta del granero
cuando la escalera cruce la puerta. ¿Qué observa su hijo? ¿Logrará el granjero guardar su
escalera?
(c) Un tráiler muy veloz es conducido por un físico. Sabe que su vehículo tiene una altura de 5
m y que el puente de una carretera sólo alcanza los 4 m. Como su tráiler puede lograr una
rapidez de hasta 0.7c, medita sobre la posibilidad de tomar esa carretera. ¿Con qué rapidez
deberá conducir para pasar por debajo del puente?
1.6 4–vectores.
(a) Demuestre que el producto interior de dos 4–vectores x · y = x0 y 0 − xi y i es un invariante de
Lorentz.
(b) Muestre que en el laboratorio las componentes de la 4–fuerza f = (f µ ) son ( γc dE i

dt , γ F ), donde
Fi ≡ dpi /dt = d(mγv i )/dt son las componentes de la 3–fuerza. ¿Cuál es la interpretación de
f 0?
(c) De la definición de la 3–fuerza, muestre que Fi = mγdv i /t + (Fj v j )v i /c2 . Esta expresión
implica que, en general, la aceleración Newtoniana dv i /dt no es paralela a la fuerza que la
produce. ¿En qué casos particulares sí lo es?
(d) Si dos eventos tienen separación espacialoide, ¿existe un marco de referencia inercial en el
cual ambos eventos ocurren en el mismo lugar? Justifique su respuesta.
(e) La sobreaceleración j en física Newtoniana es la derivada temporal de la aceleración. Genera-
lice este concepto a una 4–sobreaceleración j. Para una partícula de masa m, ¿qué significado
físico tiene la componente mj 0 del 4–vector mj?
1.7 Velocidades relativistas.
(a) Tres marcos de referencia inerciales S, S ′ , S ′′ están en configuración estándar entre ellos (el
origen de sus coordenadas coincide y las velocidades están orientadas en la dirección x1 ). S ′
tiene rapidez u con respecto a S, y S ′′ tiene rapidez v con respecto a S ′ . Emplee solamente
los boosts de Lorentz para demostrar que la velocidad de S ′′ con respecto a S es
u+v
.
1 + uv
c2
Explique por qué este método es válido.

(b) Desde un marco de referencia inercial se observan tres partículas alineadas horizontalmente
viajando con velocidades uniformes en la misma dirección. La primera de ellas tiene rapidez
4c/5 mientras que la segunda tiene rapidez 3c/5, ¿cuál es la rapidez de la tercera si, desde
su perspectiva, las otras dos se acercan con la misma rapidez? ¿Cuál sería la respuesta de
acuerdo a la relatividad Galileana?
(c) En un sistema de referencia inercial, dos partículas son lanzadas simultáneamente desde un
punto dado con velocidades iguales a v y en direcciones ortogonales. ¿Cuál es la velocidad de
cada partícula relativa a la otra?
1.8 Composición de velocidades.
Chana observa una partícula de masa m moviéndose con velocidad u = (u, 0, 0)T en el laboratorio.
Al mismo tiempo, Chón, desde una nave que se mueve con velocidad v = (v, 0, 0)T fuera del
laboratorio, mide la velocidad w = (w, 0, 0)T para la partícula.
(a) Escriba w en términos de u y v.

′
(b) ¿Cuáles son las componentes del 4–momento p′ = (pµ ) de la partícula de acuerdo a Chón en
términos de w y en términos de u y v?
(c) ¿Qué relación existe entre los 4–vectores p y p′ en términos solamente de v?
(a) Una dama relativista corre en un microbús relativista. Ambos se mueven con la misma rapi-
dez, pero en direcciones perpendiculares. Chón, desde su cómoda perspectiva en el puesto de
tacos, grita que ella se ve bastante delgada. ¿Miente o dice la verdad?
(b) Describa muy brevemente (si es posible, usando alguna ecuación) por qué no es posible que
un observador inercial viaje con rapidez c.
1.10 La paradoja de los gemelos.
Dos gemelos, Chana y Chón, viven en la Tierra. Chón decide emprender un viaje en su nave
espacial con rapidez constante v < c a Alfa Centauri, mientras que Chana decide quedarse en casa.
En cuanto llega a su destino, Chón da media vuelta y emprende su viaje de regreso a la Tierra con
la misma rapidez v. En el sistema de referencia de Chana, dibuje un diagrama de espacio–tiempo
que describa la trayectoria recorrida por Chón.
1.11 Gedankenexperiment de Einstein.
Sean (a′ , b′ ) y (a′′ , b′′ ) los extremos de dos barras de idéntica longitud propia ℓ. Las barras se mueven
con una rapidez constante de 0.6c en direcciones opuestas con respecto a un observador en reposo
sobre el eje x1 . Tras algún tiempo, el observador en reposo nota que ambos extremos de las barras
coinciden en los puntos (a, b).
(a) Trace un diagrama de espacio–tiempo que muestre la situación descrita.

(b) Muestre analíticamente que b − a < ℓ.
1.12 Orden cronológico.
Tres eventos, E1 , E2 y E3 , mutuamente separados espacialmente, son apreciados por un observador
inercial ocurriendo en el orden temporal E1 , E2 y E3 .
(a) Explique mediante diagramas de espacio–tiempo si es posible que otro observador los vea en
el orden opuesto, E3 , E2 y E1 .
(b) Explique mediante diagramas de espacio–tiempo si es posible que otro observador los vea en
el orden E1 , E3 y E2 .
(c) Una clarividente llora de dolor en el preciso instante en el que su hermano, a 500 km de
12
distancia, se golpea. Un científico observa ambos eventos desde un avión viajando a 13 c desde
el punto donde se encuentra el hermano hacia la clarividente. De acuerdo al científico, ¿qué
evento ocurrió antes? ¿Cuánto tiempo antes ocurrió el primer evento? Dibuje un diagrama
de espacio–tiempo del problema en cuestión. ¿Qué conclusiones obtendría el científico si el
avión viajara en la dirección opuesta?
Sugerencia: puede emplear el artículo “Constraints on chronologies” de A. Shapere y F. Wilczek26 .

1.13 4–vectores en distintos marcos de referencia.
(a) Muestre que cualquier vector temporaloide U µ para el cual U 0 > 0 y ηµν U µ U ν = c2 , es la
4–velocidad de alguna línea de universo.
(b) Use el resultado anterior para mostrar que para cualquier vector temporaloide existe un marco
de Lorentz en el cual las componentes espaciales de U µ son cero.
1.14 Composición de boosts.
Es sabido que el conjunto de boosts de Lorentz no es un grupo debido a que no satisface la propiedad
de cerradura. Para completar el llamado (sub)grupo de Lorentz SO+ (3, 1), se requiere la inclusión
de rotaciones espaciales.
26
http://arxiv.org/abs/1208.3841
(a) Muestre que la composición de boosts de Lorentz en diferentes direcciones no es otro boost.
Para hacerlo, considere un boost B1 en la dirección x1 seguido de un boost B2 en la dirección
x2 .
(b) Suponga que el resultado es un boost Bf en alguna dirección f seguido por una rotación R(θ)
cuyo eje axial es el que no es alterado por los boosts, es decir, B2 B1 = R(θ)Bf , donde
 
1 0 0 0
0 cos θ sen θ 0
R(θ) = 0 − sen θ cos θ 0 .

0 0 0 1
Encuentre el boost Bf en términos de θ y los parámetros β1 , γ1 , β2 y γ2 de B1 y B2 .
(c) Exigiendo que la matriz Bf sea simétrica, encuentre sen θ y cos θ en términos de los parámetros
de B1 y B2 .
(d) Use el resultado del inciso anterior para reescribir explícitamente Bf . ¿En qué plano está la
dirección del boost de Lorentz Bf ?
(e) En el plano de la dirección del boost Bf , hay un vector de cuatro dimensiones ω (con sólo
dos entradas no nulas) perpendicular a la dirección f del boost, es decir, tal que ω · f = 0.
Argumente por qué ω debe satisfacer Bf ω = ω. Usando esta relación, encuentre la dirección
f del boost.
(f) Con base en estos resultados, indique cuál es la estructura de la descomposición de un boost
arbitrario en términos de boosts y rotaciones.
(a) Un experimento moderno ha detectado una partícula con masa en reposo m, que alcanza una
rapidez v > c. ¿Es correcto el resultado experimental? ¿Por qué?
(b) ¿Puede un electrón libre emitir o absorber un solo fotón? Use conservación de energía y
momento para responder.
1.16 Movimiento acelerado en 1 + 1 dimensiones.
(a) En un espacio unidimensional, un cuerpo se mueve con aceleración a = d2 x/dt2 de acuerdo
a un sistema de referencia en reposo S. Demuestre que a′ = d2 x′ /dt′2 en un sistema de
referencia S ′ que se mueve con rapidez v con respecto a S está relacionado con a mediante
a
a′ = 3 ,
γ (1 − uv/c2 )3
en donde u es la rapidez a la que se mueve el cuerpo en S.
(b) Encuentre las componentes de la 4–aceleración A = d2 x/dτ 2 , donde τ es el tiempo propio.
Determine el invariante de Lorentz α = A · A en términos de a.
(c) Si α es constante, encuentre x(t). ¿Qué curva describe un objeto acelerado uniformemente?
(d) Demuestre que el tiempo propio τ de un observador con α constante es

c −1 αt
τ = senh .
α c
Sugerencia: recuerde que dt = γ(u)dτ .
1.17 Reflexión en un espejo.

Un espejo plano se mueve en dirección de su normal con rapidez uniforme v con respecto a un sistema
de referencia S. Un rayo de luz de frecuencia νi golpea el espejo con un ángulo de incidencia θi y
es reflejado con frecuencia νr a un ángulo de reflexión θr . Demuestre los siguientes aspectos:
(a) Los ángulos de incidencia y reflexión satisfacen
tan 12 θi c+v
= .
tan 21 θr c−v
(b) Las frecuencias incidente y reflejada satisfacen
νr c + v cos θi sen θi
= = .
νi c − v cos θr sen θr
Sugerencia: escriba las relaciones ópticas que mide un observador en S ′ que se mueve con el espejo,
y obtenga las observaciones realizadas en S.
1.18 Generadores del grupo de Lorentz propio.
El grupo de Lorentz propio está compuesto por todas las matrices Λ que describen una transfor-
mación de Lorentz propia. Este grupo está formado entonces por los boosts y las rotaciones en 3
dimensiones, por lo que el grupo puede entenderse en términos de 6 parámetros asociados a estas
transformaciones. Se pueden tomar estos parámetros como 3 ángulos de rotación ωi y 3 parámetros
hiperbólicos φi . Cualquier elemento de este grupo puede expresarse en general como
Λ(ω, φ) = e−iω·S−iφ·K ,
en donde ω = (ω1 , ω2 , ω3 )T y φ = (φ1 , φ2 , φ3 )T son los 6 parámetros de la transformación men-

cionados. S y K son 3–vectores de matrices 4 × 4, los cuales son definidos como los generadores
de rotaciones y boosts, respectivamente. Si estudiamos transformaciones continuas, es suficiente
considerar transformaciones infinitesimales, en las que los parámetros de la transformación son
infinitesimalmente pequeños. A este nivel
Λ(δω, δφ) = I − iδω · S − iδφ · K. (1.184)
(a) Considere, por ejemplo, una rotación en el plano x2 – x3 , es decir, alrededor del eje x1 .
Escriba la matriz 4 × 4 Λ que la representa. Considere ahora que el ángulo de rotación
es infinitesimalmente pequeño. Utilizando la forma infinitesimal (1.184) y la forma de Λ,
encuentre S1 . Utilizando la forma infinitesimal de las rotaciones alrededor de los otros ejes
encuentre S2 y S3 .
(b) Recuerde que un boost puede escribirse en términos de los parámetros hiperbólicos φi =
ln(γi (1 + βi )), i = 1, 2, 3, como una rotación hiperbólica. Considere ahora la forma infinite-
simal de los boosts en términos de los parámetros hiperbólicos en las 3 direcciones posibles.
Haciendo lo análogo a lo hecho en el inciso anterior, encuentre los generadores K1 , K2 y K3
de los boosts en las 3 direcciones.
(c) Se define el conmutador como [A, B] = AB − BA. Encuentre las relaciones de conmutación
entre todos los generadores, es decir [Ki , Kj ], [Si , Sj ] y [Ki , Sj ].
(d) Definimos una nueva base como
1
Aj = (Sj + iKj ),
2
1
Bj = (Sj − iKj ).
2
Encuentre los conmutadores [Ai , Aj ], [Bi , Bj ] y [Ai , Bj ]. ¿Qué puede concluir a partir de estos
conmutadores sobre el grupo de Lorentz?
1.19 Grupos de Lorentz y Poincaré.
(a) A partir de la invariancia del intervalo ds2 , aplique transformaciones de Lorentz para demos-
trar que
Λµ α ηµν Λν β = ηαβ .
Escriba la forma matricial de la ecuación anterior.
(b) De la forma matricial que obtuvo en el inciso anterior, demuestre que det Λ = ±1.
(c) De la ecuación del inciso (a) demuestre que |Λ0 0 | ≥ 1. Con este resultado y el del inciso
anterior, ha mostrado que podemos dividir el grupo en 4 sectores (dependiendo del signo de
Λ0 0 y de det Λ).
(d) De los resultados obtenidos en (b) y (c), defina los 4 sectores que componen a O(3, 1). De-
termine a qué sector pertenece el elemento identidad, las rotaciones espaciales y los boosts.
(e) Definimos la inversión temporal como T = diag(−1, 1, 1, 1) y la inversión espacial como P =
diag(1, −1, −1, −1). Demuestre que T y P pertenecen a O(3, 1). Indique a qué componente
conexa pertenecen T , P y su composición T P = PT .
(f) Pruebe o refute que cada componente conexa forma un subgrupo de O(3, 1).
(g) (Grupo de Poincaré) Una generalización de O(3, 1) es el llamado grupo de Poincaré, el
cual considera también traslaciones espacio–temporales y contiene como subgrupo a O(3, 1).
La acción de un elemento general del grupo de Poincaré, que denotaremos como (Λ, a) (donde
Λ ∈ O(3, 1) y a ∈ R(3,1) ), sobre un vector x es x′ = (Λ, a)x = Λx + a, que, en términos de
componentes, es
xµ → Λµ ν xν + aµ . (1.185)
Note que un elemento (Λ, 0), con a = 0 es simplemente un elemento de O(3, 1). Considere
dos elementos del grupo de Poincaré (Λ1 , a1 ) y (Λ2 , a2 ). Use (1.185) para demostrar que la
regla de composición del grupo de Poincaré está dada por
(Λ2 , a2 )(Λ1 , a1 ) = (Λ2 Λ1 , Λ2 a1 + a2 ).
(h) Encuentre la expresión para el inverso a (Λ, a), i.e., el elemento tal que (Λ, a)(Λ, a)−1 = 1.
1.20 Matrices de Dirac.
Suponga que el Hamiltoniano H de una partícula relativista puede ser escrito como un cuadrado
perfecto de una cantidad que es lineal en p
H = (c(α1 p1 + α2 p2 + α3 p3 ) + βmc2 )2 .
(a) Si H es igual a la energía relativista, encuentre las condiciones que deben cumplir los coefi-
cientes α1 , α2 , α3 y β.
(b) Para que se cumplan las condiciones encontradas en (a), se necesita que αi , y β sean matrices.
¿Qué eigenvalores pueden tomar estas matrices?
(c) Demuestre que la traza de las matrices αi y β es cero. ¿Cómo debe ser la dimensión de estas
matrices?
(d) ¿Cuál es la dimensión mínima que deben tener estas matrices? Con base en los resultados
previos, ¿qué estructura tienen los objetos sobre los que actúan estas matrices?
(e) Un álgebra de Clifford (o Dirac) se define mediante el siguiente anticonmutador
{γ µ , γ ν } = γ µ γ ν + γ ν γ µ = 2η µν 1,
en donde γ µ son en general D matrices de dimensión D. η = (ηµν ) es la llamada métrica

de Minkowski D–dimensional, dada por η = (ηµν ) = diag(1, −1, −1, ..., −1) = η −1 = (η µν ).
Utilizando las propiedades que encontró en (a), escriba las matrices γ µ como funciones de αi
y β. A las matrices γ µ se les conoce como matrices de Dirac y son de crucial importancia
para entender la dinámica de partículas relativistas con espín 12 .
Capítulo 2
Geometría en relatividad
2.1. Tensores en relatividad

2.1.1. Algunas propiedades de vectores
En la sección 1.7, introdujimos los 4–vectores como cantidades de cuatro dimensiones

cuyas componentes se transforman como las componentes dxµ , µ = 0, . . . , 3, bajo transfor-
maciones de Lorentz Λ, es decir, tales que
′ ′
Aµ = Λ µ ν Aν , (2.1)
si Aµ , µ = 0, . . . , 3, denota las componentes de un 4–vector A. Además, hemos mostrado

en la sección 1.9.3 que las componentes del tensor métrico satisfacen
′ ′
Λµ ρ Λν σ ηµ′ ν ′ = ηρσ , (2.2)
para preservar la invariancia del producto escalar entre 4–vectores observados por distintos
observadores inerciales. El producto escalar ha sido definido como
A · B ≡ ηµν Aµ B ν , (2.3)
para dos 4–vectores A y B arbitrarios con componentes Aµ y B µ . Como se justificará en

la sección 2.1.5, es conveniente reescribir A · B como
A · B = Aµ B µ = Aµ B µ , (2.4)
donde hemos usado la propiedad del tensor métrico (que demostraremos en la sección 2.1.5)
Aµ = ηµν Aν , Bµ = ηµν B ν . (2.5)
En este contexto, se dice que una de las funciones del tensor métrico es bajar índices.
70 Geometría en relatividad
Los 4–vectores o simplemente vectores forman un espacio vectorial que satisface las pro-
piedades de todo espacio vectorial. Particularmente, si A y B son vectores con componentes
Aµ y B µ , µ = 0, . . . , 3, entonces
(A + B)µ = Aµ + B µ
(2.6)
(aA)µ = aAµ , a∈R
y, en consecuencia, las componentes de la suma de vectores se transforman como
′ ′ ′
(A + B)µ = Λµ ν Aν + Λµ ν B ν (2.7)
bajo una transformación de Lorentz.
Por otro lado, como las transformaciones de Lorentz son transformaciones lineales que
′ ′ ′
relacionan dos sistemas coordenados, los de coordenadas xµ y xµ , mediante xµ = Λµ ν xν y,
′
viceversa, xν = Λν µ′ xµ , en una relación continua y biyectiva, entonces las transformaciones
de Lorentz son difeomorfismos1 que satisfacen
′
µ′ ∂xµ ν ∂xν
Λ ν= y Λ µ ′ = . (2.8)
∂xν ∂xµ′
Escrito de esta forma, notamos que, si Λ es un difeomorfismo arbitrario, tal como una
transformación de coordenadas, tanto (2.8) como (2.7) también se satisfacen. Esta obser-
vación permite notar que las transformaciones de Lorentz, hasta ahora empleadas para
caracterizar los vectores, son sólo un caso especial de las transformaciones generales permi-
tidas en la teoría de la relatividad, las cuales corresponden a todos los difeomorfismos del
espacio–tiempo. Es decir, es posible generalizar las transformaciones de Lorentz a transfor-
maciones que modifiquen radicalmente el espacio–tiempo, transformaciones que relacionen
las coordenadas inerciales con coordenadas asociadas a sistemas acelerados, rotantes, o
cualesquiera otros, siempre que las transformaciones puedan expresarse como (2.8). Este
resultado meramente geométrico es tremendamente poderoso, pues permite generalizar la
relatividad especial a cualquier marco de referencia, como veremos en el capítulo 3. Antes
de llegar a esa generalización, debemos desarrollar algunos elementos que nos serán de gran
utilidad.
En el contexto de la relatividad especial, que es formulada en un espacio–tiempo 4–
dimensional plano, podemos elegir la base del espacio de vectores dada por
e0 = (1, 0, 0, 0)T ,
e1 = (0, 1, 0, 0)T ,
(2.9)
e2 = (0, 0, 1, 0)T ,
e3 = (0, 0, 0, 1)T ,
1
Formalmente, un difeomorfismo es un mapeo diferenciable, biyectivo e invertible que relaciona un
espacio continuo y localmente plano (conocido como variedad) con otro. Las transformaciones de Lorentz
son difeomorfismos del espacio–tiempo plano en sí mismo.
2.1 Tensores en relatividad 71
o eν µ = δνµ en formato breve, donde δνµ es la delta de Kronecker, definida como

(
µ 0 si µ = 6 ν,
δν = (2.10)
1 si µ = ν,
con µ corriendo sobre las componentes de la base y ν sobre los elementos de la base.El
espacio–tiempo plano descrito por la base (2.9) es conocido como espacio–tiempo de Min-
kowski.
En general, dada una base, un vector arbitrario A puede ser escrito como
A = Aµ e µ . (2.11)
Con esta definición, un vector A no tiene índices y, por lo tanto, es invariante ante difeo-
morfismos, incluyendo las transformaciones de Lorentz, es decir,
′
A = Aµ eµ = Aµ eµ′ = A′ . invariancia de vectores (2.12)
Esto significa que, aunque las componentes de un vector sí se transforman, el propio vector
no. Claramente, esto implica que eµ′ 6= eµ , de donde podemos deducir cómo se transforman
′ ′
los vectores base. Empleando Aµ = Λµ ν Aν en (2.12),
′ ′ ′ !
A′ = Aµ eµ′ = Λµ ν Aν eµ′ = Aν (Λµ ν eµ′ ) = Aν eν = A,
encontramos la regla de transformación de los vectores base,

′
e ν = Λ µ ν e µ′ , (2.13)
donde Λ denota algún difeomorfismo.

Consideremos, por ejemplo, que Λ es un boost a lo largo de la dirección x1 , dado
por (1.39). En este caso, los únicos vectores base que se transforman son e0 y e1 , que, de
acuerdo a (2.13), satisfacen
e0 = γe0′ − γβe1′ ,
(2.14)
e1 = γe1′ − γβe0′ ,
lo cual implica que
e0′ = γe0 + γβe1 ,

(2.15)
e1′ = γe1 + γβe0 .
Esta ecuación indica que los vectores base se transforman inversamente a las componentes
de vectores.
Expresemos la transformación inversa a Λ como

Λ−1 = Λν µ′ , (2.16)
compatible con (1.118), como el lector puede comprobar fácilmente (ejercicio 2.1). Entonces,
para obtener la nueva base {eµ′ } en términos de la base no transformada {eν }, utilizamos
la transformación inversa (2.16) en (2.13) y obtenemos
e µ ′ = Λν µ ′ e ν , transformación de vectores base (2.17)
donde hemos usado las identidades

′ ′ ′
Λ ν µ′ Λ µ ρ = δ ν ρ , Λ µ ν Λ ν ρ′ = δ µ ρ′ (2.18)
debidas al producto de Λ con su inversa Λ−1 .
2.1.2. 1–formas
Consideremos ahora una función lineal p que toma como parámetro un vector arbitrario
y devuelve algún escalar. La acción de p sobre un vector A está dada por
p(A) = p(Aµ eµ ) = Aµ p(eµ ) ≡ Aµ pµ , (2.19)
donde hemos definido pµ ≡ p(eµ ). En la segunda igualdad, hemos tomado en cuenta que
las componentes Aµ del vector A son simples escalares y que p es una función lineal. La
expresión (2.19) define la llamada contracción de índices, que se traduce en la suma de las
componentes involucradas sobre los valores que pueden adoptar los índices,
p(A) = Aµ pµ = A0 p0 + A1 p1 + A2 p2 + A3 p3 . (2.20)
Aunque veremos que la contracción de índices está relacionada con el producto escalar,
aquí parecería que no se trata de lo mismo, pues p es una función lineal, no un vector. Por
el momento, lo importante es notar los signos (todos positivos) y también la posición de
los índices empleados en la suma (uno arriba y otro abajo). Los índices repetidos que se
contraen desaparecen en el resultado final, por lo que frecuentemente también son llamados
índices mudos. Es evidente que la elección del símbolo asociado al índice mudo es indife-
rente, por lo que puede sustituirse siempre y cuando el cambio ocurra en los dos lugares
en donde aparece y el nuevo símbolo no aparezca en alguna otra parte de la expresión.
Ahora determinemos cómo cambian las cantidades pµ bajo difeomorfismos. Para lograr-
lo, siguiendo la definición de pµ , esta vez tomamos la acción de p sobre el vector base eµ′
afectado por Λ,
pµ′ ≡ p(eµ′ ) = p(Λν µ′ eν ) = Λν µ′ p(eν ) = Λν µ′ pν . (2.21)
Encontramos que las cantidades pµ se transforman como los vectores base, siguiendo la
regla
p µ′ = Λ ν µ′ p ν , (2.22)
es decir, inversamente a como las componentes de un vector lo hacen. Empleando este
resultado, es directo comprobar que la contracción de índices (2.20) es, por definición, un
escalar y, por lo tanto, un invariante bajo difeomorfismos e invariante de Lorentz:
′ ′
Aµ pµ′ = (Λµ ν Aν )(Λρ µ′ pρ )
′
= Λ ρ µ ′ Λ µ ν Aν p ρ
(2.23)
= δνρ Aν pρ = Aρ pρ
= Aµ p µ ,
donde aplicamos la expresión (2.18) en la tercera igualdad y sustituimos el índice mudo ρ

por µ en el último paso.
Dado que el conjunto de funciones de un espacio vectorial al conjunto de los reales
forman un espacio vectorial, es posible afirmar que p es un objeto similar a un vector,
pero que, según (2.20), es afectado inversamente por los difeomorfismos. Tales objetos son
conocidos como 1–formas.2 Por lo tanto, los números pµ definidos en (2.19) se interpretan
como las componentes de una 1–forma.
En este texto, para evitar confusiones y poder distinguir entre un vector V = V µ eµ y
una 1–forma cuyas componentes sean Vµ , empleamos la notación Ve , tal que
Ve (eµ ) = Vµ . (2.24)
En esta notación, (2.19) puede ser reescrita como
pe(A) = Aµ pµ , con pµ ≡ pe(eµ ) . (2.25)
Como los vectores, las 1–formas construyen un espacio vectorial, por lo que se puede
ω µ } para ellas, tal que
definir una base {e
eµ,
pe = pµ ω pµ ∈ R. (2.26)
Por consiguiente, encontramos que
e µ (A) = pµ ω
pe(A) = pµ ω e µ (Aν eν ) = pµ Aν ω
e µ (eν ) (2.27)
!
= p µ Aµ ,
2
Históricamente, las 1–formas también han sido llamadas vectores covariantes, pero aquí evitaremos ese
lenguaje.
!
donde usamos (2.25) en la última igualdad. Es decir, pµ Aµ = pµ Aν ω
e µ (eν ), lo que implica
e µ (eν ) = δνµ ,
ω µ, ν = 0, ..., 3. (2.28)
Esta es precisamente la definición de la base de un espacio vectorial dual al espacio de

vectores; es decir, las 1–formas pe, w,...
e son vectores duales.
La relación (2.28) aplicada a los vectores base (2.9) conduce a la base del espacio dual
dada por
ω
e0 = (1, 0, 0, 0),
ω
e1 = (0, 1, 0, 0),
(2.29)
ω
e2 = (0, 0, 1, 0),
ω
e3 = (0, 0, 0, 1),
la cual, a pesar de su forma constante, depende del marco de referencia. Esta forma de
los vectores duales base (así como los vectores base {eµ } de la ecuación (2.9)) representa
la elección más sencilla de la base del espacio–tiempo de Minkowski, pero otras elecciones
también son válidas. Particularmente, si aplicamos un simple cambio de coordenadas, las
expresiones de los vectores y 1-formas en términos de sus bases continúan siendo válidas,
aunque sus componentes y los vectores base adquieren formas muy diferentes. Lo mismo es
cierto para otros difeomorfismos que modifiquen la geometría del espacio–tiempo original.
Es importante hacer notar que, debido a que tanto las componentes de un vector como
las de una 1–forma (o vector dual) son números reales, un conjunto de 4 valores no tiene
un significado definido a menos de que se indique a qué tipo de vectores pertenecen.
Veamos ahora cómo se transforman los vectores duales base bajo un difeomorfismo
arbitrario Λ. Empleando (2.26) y (2.21), tenemos
′ ′
eµ .
e µ = Λ ν µ′ p ν ω
pe′ = pµ′ ω (2.30)
′
e µ = pµ ′ ω
Imponiendo la invariancia relativista pµ ω e µ , concluimos que
′ ′
ω eµ.
e ν = Λν µ ω transformación de vectores duales base (2.31)
La ecuación (2.31) representa la transformación bajo difeomorfismos de las componentes

de los vectores duales base. Notamos que siguen las reglas de transformación de las com-
ponentes de vectores.
2.1.3. Gradiente de una función
Suponga que la trayectoria de una partícula está descrita por la función escalar3 para-
métrica φ(τ ), donde τ es el tiempo propio introducido en la sección 1.4. Como xµ = xµ (τ ),
entonces φ puede interpretarse como un campo (escalar) del espacio–tiempo descrito por
las coordenadas {xµ },
φ(τ ) = φ[xµ (τ )].
La derivada paramétrica de φ está dada por
dφ ∂φ dx0 ∂φ dx1 ∂φ dx2 ∂φ dx3

= + 1 + 2 + 3
dτ ∂x0 |{z}
dτ ∂x |{z}
dτ ∂x |{z}
dτ ∂x |{z}
dτ
≡U 0 =U 1 =U 2 =U 3
µ
≡ (∂µ φ)U ,
donde U = (U µ ) es el vector de 4–velocidad definido en la sección 1.7. Las derivadas codi-

ficadas en (∂µ φ) pueden considerarse como las componentes de una 1–forma e dφ que toma
dφ
el vector U y devuelve el escalar dτ , denominada 1–forma gradiente. Las componentes de
la 1–forma edφ son comúnmente denotadas de varias formas equivalentes que emplearemos
en este texto:
∂φ
(e
dφ)µ = ∂µ φ = φ,µ = . (2.32)
∂xµ
Entre estos, φ,µ es de particular utilidad para simplificar mucho la notación en relatividad.
Por tratarse de las componentes de una 1–forma, las componentes de e dφ se transforman
de acuerdo a (2.21) como
φ,µ′ = Λν µ′ φ,ν , (2.33)
donde Λ representa cualquier difeomorfismo. Por lo tanto, podemos reescribir (2.33) tam-
bién como
∂φ ∂xν ∂φ
φ,µ′ = = . (2.34)
∂xµ ′
∂xµ′ ∂xν
Directamente de (2.32), vemos que las componentes de la 1–forma gradiente para φ(τ ) =
xµ (τ ) son
∂xµ
(e
dxµ )ν = xµ,ν = = δνµ . (2.35)
∂xν
Comparando con la ecuación (2.28), podemos identificar las 1–formas base
eµ ≡ e
ω dxµ , 1–formas o vectores duales base (2.36)
3
En general, una función escalar es aquélla que para cada punto de un cierto espacio asigna un valor
real, es decir, para un espacio X N de N dimensiones es una función de X N → R.
las cuales forman una base completa del espacio de vectores duales. Se obtiene que, para
cualquier función escalar φ, podemos escribir la 1–forma gradiente en esta base como
e ∂φ e µ
dφ = (e
dφ)µ e
dxµ = dx , (2.37)
∂xµ
que tiene la estructura usual para los diferenciales de funcionales.
ω µ } y satisfacen
A partir de este resultado, recordando que la base {eµ } es dual a {e
(2.28), encontramos que los vectores base pueden expresarse como
eµ ≡ ∂ µ . vectores base (2.38)
2.1.4. Tensor métrico
La definición del producto escalar (2.3) que hemos aplicado hasta ahora puede describir-
se formalmente en términos de los vectores base. Considere dos vectores en el espacio–tiempo
de Minkowski, tales que
A · B = (Aµ eµ ) · (B ν eν ) = Aµ B ν eµ · eν
!
(2.39)
= Aµ B ν ηµν .
Esto implica que en cualquier marco de referencia inercial de la relatividad especial las
componentes de la métrica pueden obtenerse mediante el producto punto de los vectores
base,
ηµν = eµ · eν . (2.40)
La métrica η establece una regla para relacionar dos vectores A y B con el escalar A · B,
llamado producto escalar. Proponemos entonces que η es una función cuyas entradas son
dos vectores y cuyo resultado es el producto escalar de estos. Claramente, esta función es
bilineal (lineal en ambas entradas). Además, de acuerdo a (2.40), al aplicar η sobre los
vectores base, obtenemos las componentes ηµν de η. Como veremos en la sección 2.1.7, una
función multilineal del espacio de vectores a los reales, como esta, es llamada tensor. Por
lo tanto, η es un tensor llamado tensor métrico de Minkowski.
Frecuentemente, la expresión (2.40) da la impresión de que el producto punto del lado
derecho de esa ecuación es el producto escalar habitual en coordenadas Cartesianas. Eso
es incorrecto. La razón es que los vectores base {eµ } habitan en el espacio–tiempo de
Minkowski, y son los mismos en cualquier punto del espacio–tiempo, como consecuencia
de la constancia de la métrica y los vectores base. Por lo tanto, el lado derecho de (2.40)
debe leerse como eµ · eν = ηαβ eµ α eν β .
El producto escalar determinado por la métrica de Minkowski no es positivo-definido

y, en consecuencia, la métrica tampoco lo es. En el espacio–tiempo que nos es familiar,
se dice que la métrica es no-degenerada4 con signatura (3, 1). En nuestras convenciones,
la signatura de la métrica cuenta el número de sus eigenvalores negativos y positivos,
respectivamente. Las métricas no-degeneradas que tienen sólo un eigenvalor positivo son
llamadas métricas Lorentzianas. Por lo tanto, la métrica de Minkowski y cualquier otra que
busque reproducir observaciones como las de nuestro espacio–tiempo son Lorentzianas.
Hasta ahora, sólo hemos hablado de espacio–tiempo plano con la base especial elegida
en (2.9). Sin embargo, incluso en espacio plano, otras bases son posibles. En esos casos,
las componentes del tensor métrico no son las de la métrica constante de Minkowski, pero
deben satisfacer relaciones similares a (2.39) y (2.40). Proponemos que la generalización de
η es un tensor métrico g que toma dos vectores expresados en alguna base {eµ } y devuelve
su producto escalar,
g(A, B) = A · B . (2.41)
Exigimos adicionalmente que g sea bilineal, es decir, que sea lineal en ambos parámetros:
g(aA + B, C + dD) = ag(A, C) + g(B, C) + adg(A, D) + dg(B, D), a, d ∈ R, (2.42)
para los vectores A, B, C y D.

El tensor métrico general g es compatible con (2.40) si sus componentes gµν están dadas
por los valores escalares que adopta cuando es aplicado a los vectores base {eµ },
gµν ≡ g(eµ , eν ) = eµ · eν . componentes del tensor métrico (2.43)
Esta expresión es una indicación de que, dependiendo de la base elegida, el producto es-
calar adopta distintas estructuras. Pero también es posible concebir que la base {eµ } no
corresponda a un espacio–tiempo plano, es decir, que los vectores base no puedan ser
relacionados con la base de Minkowski (2.9) por medio de difeomorfismos (cambios de
coordenadas) idénticos en todos los puntos del espacio–tiempo generado.
Nuevamente, es preciso hacer un paréntesis para explicar el significado del lado derecho
de (2.43). A partir del hecho de que el producto escalar es invariante bajo difeomorfismos,
′
el producto de dos vectores expresados en la base de Minkowski con coordenadas xα puede
ser relacionado al producto de esos mismos vectores en un espacio–tiempo con coordenadas
xµ arbitrarias mediante
′ ′
α′ β′ α′ β′ µ ν ∂xα ∂xβ µ ν
A · B = η α′ β ′ A B = η α′ β ′ Λ µ Λ ν A B = η α′ β ′ µ A B
∂x ∂xν (2.44)
! µ ν
= gµν A B = A · B ,
4
Una métrica g no-degenerada satisface que, si g(A, B) = 0 ∀B, entonces A = 0. Esta es una condición
más débil que la positividad requerida en espacios más comunes, como el Euclídeo.
′ ′
donde Λα µ = ∂xα /∂xµ denota las componentes del difeomorfismo que permite transi-
tar del espacio de Minkowski al espacio con coordenadas xµ . Esta expresión conduce a
identificar las componentes de la métrica del espacio–tiempo como
′ ′
∂xα ∂xβ
gµν = ηα′ β ′ , (2.45)
∂xµ ∂xν
que coincide con (2.43) sólo si los vectores base del nuevo espacio {eµ } son expresados en
las coordenadas Minkowskianas, tal que
′
′ ∂xα
eµ α = . (2.46)
∂xµ
Con esta información, a partir de la expresión de los vectores en términos de los vectores
base (2.11), encontramos que se satisface
A · B = g(Aµ eµ , B ν eν )
= Aµ B ν g(eµ , eν ) (2.47)
µ ν
= A B gµν
para dos vectores arbitrarios A y B definidos en cualquier sistema de coordenadas y un
espacio arbitrario. Es decir, (2.47) es la expresión más general del producto escalar y se
transforma en (2.3) en un espacio de coordenadas Cartesianas, cuyos vectores base son
elegidos como en (2.9).
Dado que el producto escalar es una operación conmutativa, vemos que, a partir de la
definición del tensor métrico (2.41), se satisface que
g(A, B) = A · B = B · A = g(B, A), (2.48)
es decir, el tensor métrico es simétrico bajo el intercambio de sus entradas. A partir de esta
relación, es posible establecer que las componentes del tensor métrico son simétricas bajo
el intercambio de índices, es decir,
gµν = gνµ , (2.49)
lo cual se verifica trivialmente cuando g = η.
Dado que el tensor métrico define un producto escalar en un determinado espacio–
tiempo (o un espacio) coordenado, como discutimos en la sección 1.9.3, permite establecer
la forma de medir distancias en él mediante el intervalo ds2 . Es directo generalizar la
ecuación (1.111), válida para espacio–tiempo plano en coordenadas Cartesianas, a
ds2 ≡ dx · dx = gµν dxµ dxν , (2.50)
válido en cualquier sistema coordenado. Es decir, dado un intervalo, es posible determinar
las componentes de la métrica, y viceversa. Por esta razón, es frecuente que coloquialmente
se confunda al intervalo con la métrica, aunque sean conceptos diferentes.
2.1.5. El papel del tensor métrico
Más allá de ser una herramienta para calcular el producto escalar entre vectores de-
finidos en un determinado espacio–tiempo, el tensor métrico tiene un papel crucial en la
relación entre vectores y 1–formas. Para describir esta propiedad y justificar la notación
introducida en (2.4), definamos una 1–forma A,e tal que
e
A(B) = A · B, (2.51)
cuyas componentes son, en general,

e µ ) = A · eµ = Aν eν · eµ = Aν (eµ · eν ) = gµν Aν ,
Aµ = A(e
donde hemos empleado (2.43) en la última igualdad. De esta forma, obtenemos la expresión
Aµ = gµν Aν , (2.52)
válida particularmente cuando g = η, caso en el que recuperamos (2.5).

Recordemos que las componentes del vector dual A e son Aµ y las del vector A son Aµ .
Esta expresión, por lo tanto, indica que el tensor métrico g establece el mapeo del espacio
ω µ }, dado por
de vectores, con base {eµ }, al espacio de 1–formas, con base {e
g
A = Aν eν 7−→ gµν Aν ω e.
eµ = A (2.53)
Este mapeo entre vectores y vectores duales puede interpretarse como el mapeo entre los
vectores base y los vectores duales base dado por
g
eµ ,
eν 7−→ gνµ ω (2.54)
donde hemos empleado la simetría del tensor métrico (2.49).

Por otra parte, dado que el espacio de vectores duales es un espacio vectorial, es igual-
mente posible definir un producto escalar entre 1–formas. Con este fin, propongamos que
existe un tensor ge que, a diferencia de los tensores empleados hasta ahora, toma dos 1–
formas, Ae y B,
e y arroja como resultado su producto escalar; es decir,
e B)
ge(A, e =A
e·B
e = Aµ Bν ge(e
ωµ, ω
eν )
(2.55)
≡ Aµ Bν geµν ,
en donde, siguiendo la discusión alrededor de (2.47), hemos definido las componentes del
tensor métrico en el espacio de 1–formas ge por medio de su acción sobre los vectores duales
base. Repitiendo nuestra discusión previa, podemos obtener el análogo a (2.52),
Aµ = geµν Aν , (2.56)
que mapea 1–formas a vectores. Este mapeo se puede interpretar ahora como la relación
entre las bases establecida por
ge
e ν 7−→ geνµ eµ .
ω (2.57)
Para encontrar la relación entre g y ge, podemos mapear un vector arbitrario A a su
e mediante la acción del tensor métrico g, y luego mapear A
dual A e a A mediante ge:
g ge
e µ 7−→ Aν gνµ geµα eα .
Aν eν 7−→ Aν gνµ ω (2.58)
La última expresión debe coincidir con A = Aν eν , por lo que obtenemos que ge está relacio-
nado con el tensor métrico g mediante
gνµ geµα = δνα , (2.59)
es decir, en términos matriciales, ge = g −1 , por lo que frecuentemente es llamado el tensor
métrico inverso o el inverso de la métrica. Es preciso aclarar que g −1 no es el inverso de
g en el sentido de que tome números y arroje un par de vectores (como esperaríamos de
la inversa de la función bilineal g), sino que, al contrario de g, g −1 mapea 1–formas en
vectores. Así, para un vector arbitrario A, encontramos que
g g −1
e −
A 7−→ A 7 → A. (2.60)
Pragmáticamente, observamos a partir de (2.52) que el tensor métrico tiene la función

de bajar índices. Con este razonamiento, podemos actuar dos veces con el tensor métrico
sobre g −1 para bajar sus índices,
gαµ gβν geµν = gαµ δµβ = gαβ , (2.61)
en donde hemos empleado (2.59) en la primera igualdad. Es decir, la doble acción del
tensor métrico sobre g −1 conduce al tensor métrico. Esto motiva simplificar la notación
aun más: podemos denotar las componentes del tensor métrico inverso como g µν . En esta
notación, (2.56) se simplifica a
Aµ = g µν Aν , (2.62)
es decir, el tensor métrico inverso tiene la función de subir índices. Además, podemos
reescribir (2.59) como
gνµ g µα = δνα . (2.63)
Consideremos ahora el tensor métrico de Minkowski, cuyas componentes son (ηµν ) =

diag(1, −1, −1, −1). Dado el vector A = (A0 , A1 , A2 , A3 )T , las componentes de la corres-
pondiente 1–forma son
e = (ηµν Aν ) = (A0 , −A1 , −A2 , −A3 )
A
(2.64)
= (A0 , A1 , A2 , A3 ).
Es decir, en el espacio–tiempo de Minkowski expresado en la base (2.9), las componentes

espaciales de una 1–forma coinciden con las componentes espaciales de su correspondiente
vector, salvo por que el signo es opuesto. Lo mismo es cierto sobre las componentes del
vector si las componentes de la 1–forma son conocidas, dado que están relacionadas por la
métrica inversa representada por la matriz (η µν ) que coincide con la matriz de componentes
de la métrica (ηµν ). Por ejemplo, consideremos la 1–forma gradiente de un campo escalar
e
dφ, cuyas componentes, de acuerdo con (2.32), están dadas por
∂
(e
dφ)µ = φ.
∂xµ
Por lo tanto, las componentes del correspondiente vector están dadas por
T
µ µ ∂ ∂ ∂ ∂
(dφ) ≡ ∂ φ = 0
,− 1,− 2,− 3 φ, (2.65)
∂x ∂x ∂x ∂x
que coincide con (y justifica) nuestra propuesta de 4–vector gradiente (1.154) de un campo
escalar φ.
A partir de la definición de producto escalar entre vectores (2.47) y de la relación (2.52),
obtenemos
A · B = gµν Aµ B ν = Aµ (gµν B ν ) = Aµ Bµ
(2.66)
= (gνµ Aµ )B ν = Aν B ν = Aµ B µ ,
confirmando la expresión (2.4). Esto significa que el producto escalar entre dos vectores se
expresa como el producto de las componentes de uno de los vectores con las de la 1–forma
asociada al otro vector. Análogamente, empleando (2.55) y (2.62), llegamos a
e·B
A e = g µν Aµ Bν = Aµ Bµ = Aµ B µ , (2.67)
e·B
de donde concluimos que A e = A · B.
2.1.6. La base del tensor métrico
Como mencionamos en la sección 2.1.4, g es un tensor por tratarse de una función

lineal en sus entradas que toma vectores y devuelve escalares (números reales). Bajo esta
definición, una 1–forma también es un tensor. La diferencia radica en el número de vectores
que reciben y, por lo tanto, en su número de componentes: una 1–forma acepta un vector
mientras que el tensor métrico acepta dos.
Por otra parte, sabemos que las 1–formas forman un espacio vectorial con base {eω µ },
de forma que si AeyB e son 1–formas, entonces A
e+B e y a A,
e con a ∈ R, también lo son y
sus componentes están dadas por expresiones similares a las de los vectores, (2.6).
Es posible extender el espacio vectorial de las 1–formas, mediante la introducción del

producto tensorial (o exterior) ⊗. Si llamamos V e al espacio vectorial de las 1–formas,
e e
entonces el producto tensorial V ⊗ V también es un espacio vectorial, cuya base está dada
por el producto de las dos bases, es decir, por los elementos denotados como {e ωµ ⊗ ω
e ν }.
eyB
Por lo tanto, si A e son 1–formas, su producto tensorial se expresa como
e⊗B
A e = (Aµ ω
e µ ) ⊗ (Bµ ω
e ν ) = Aµ B ν ω
eµ ⊗ ω
eν (2.68)
e ⊗ V.
y es un elemento del espacio V e
Considerando que V y W son dos vectores, la acción de Ae⊗ B
e en la pareja de vectores
(V, W ) está dada por
e ⊗ B(V,
A e e ) B(W
W ) = A(V e ). (2.69)
Primeramente, notamos que el producto tensorial es una operación no conmutativa, pues
e ⊗ A(V,
B e W ) = B(V
e ) A(W
e ) 6= A(V
e ) B(W
e ). (2.70)
En segundo lugar, y de particular importancia para nuestra discusión, es fácil convencerse

de que Ae⊗B e es una función bilineal que toma dos vectores y arroja el producto de los
e e
escalares A(V ) y B(W e⊗B
), es decir, A e es un tensor. Además, podemos concluir que el
tensor Ae⊗B e y el tensor métrico son elementos del mismo espacio vectorial V
e ⊗ V.
e
Esta observación es muy importante. Quiere decir que el tensor métrico puede expre-
sarse como
eµ ⊗ ω
g = gµν ω eν (2.71)
con sus componentes dadas por gµν = g(eµ , eν ), como se puede verificar trivialmente em-
pleando la relación entre las bases del espacio vectorial y su dual (2.28). Recordando ahora
que los tensores son invariantes y que los vectores duales base se transforman bajo un
difeomorfismo arbitrario de acuerdo a (2.31), notamos que
′ ′ ′ ′ !
e ν = g µ′ ν ′ Λ µ α Λ ν
eµ ⊗ ω
g ′ = g µ′ ν ′ ω β eα ⊗ ω
ω eα ⊗ ω
e β = gαβ ω eβ = g , (2.72)
y, por lo tanto, las componentes del tensor métrico también se transforman no trivialmente
de acuerdo a
∂xα ∂xβ
g µ′ ν ′ = gαβ transformación de la métrica (2.73)
∂xµ′ ∂xν ′
ante cualquier difeomorfismo. Notamos que la expresión (2.43) que relaciona la métrica
de Minkowski con alguna otra métrica es un caso particular de esta propiedad del tensor
métrico.
De nuestra discusión, es evidente que el tensor métrico no puede ser el único elemento
e ⊗ V.
en el espacio V e Podemos concebir que existen varios objetos t de la forma
eµ ⊗ ω
t = tµν ω eν , (2.74)
donde tµν corresponde a las componentes de t, dadas por
tµν = t(eµ , eν ) . (2.75)
Como el resultado (2.73) no depende de las propiedades específicas del tensor métrico, estas
componentes deben transformarse bajo difeomorfismos arbitrarios siguiendo la misma regla,
es decir,
∂xα ∂xβ
tµ′ ν ′ = tαβ . (2.76)
Aunque t debe considerarse como una función que toma dos vectores y regresa un esca-
lar, sus características específicas dependen de las propiedades de la matriz de componentes
(tµν ). Por ejemplo, a diferencia del tensor métrico, las componentes de t podrían satisfacer
la relación antisimétrica tµν = −tνµ o no respetar ninguna relación de simetría. En este
último caso, siempre es posible separar las componentes en dos partes:
simétrica ante intercambio de índices, t(µν) = t(νµ) , y
antisimétrica ante intercambio de índices, t[µν] = −t[νµ] ,
tales que
tµν = t(µν) + t[µν] . (2.77)
Las componentes simétricas pueden obtenerse a partir de las componentes arbitrarias de
t, mediante el proceso de simetrización expresando por
1
t(µν) ≡ [tµν + tνµ ]. (2.78)
2!
De forma similar, podemos antisimetrizar las componentes de t mediante
1
t[µν] ≡ [tµν − tνµ ]. (2.79)
2!
2.1.7. Tensores de rango (M, N )
En la sección 2.1.2, introdujimos las 1–formas como funciones lineales que aceptan vec-
tores y devuelven escalares. Similarmente, el tensor métrico, introducido en la sección 2.1.4,
es una función bilineal que acepta pares de vectores y devuelve el producto escalar de éstos.
Además, tanto las 1–formas como el tensor métrico son invariantes bajo difeomorfismos,
tales como un cambio de coordenadas o una transformación de Lorentz, pese a que sus com-
ponentes sí son alteradas por las transformaciones. Otra propiedad en común es que las
componentes de las 1–formas y del tensor métrico se obtienen de su acción en los vectores
base {eµ }. Finalmente, notamos que la base del tensor métrico es el producto tensorial de
los elementos base de las 1–formas. Estas similitudes revelan que ambos objetos pertenecen
a una clase grande de estructuras conocidas como tensores.
Como generalización, un tensor puede ser considerado una función multilineal que toma
N vectores y arroja algún escalar. Estos tensores son elementos del espacio V eN = V⊗·
e · ·⊗ V,
e
donde Ve es el espacio generado por las 1–formas base y N se conoce como el rango de los
tensores. Notamos que, en este sentido, una cantidad escalar es un tensor de rango 0.
Las componentes tµνρ... de un tensor t arbitrario estarían dadas por su aplicación sobre
los vectores base, t(eµ , eν , eρ , . . .). El número de componentes de los tensores depende del
rango del tensor y de la dimensionalidad del espacio V e en el que son definidos. En 4
N
dimensiones, un tensor de rango N tiene 4 componentes. Por ejemplo, un escalar tiene
40 = 1 componente, una 1–forma tienen 41 = 4 componentes, y un tensor de rango dos,
como el tensor métrico, tiene 42 = 16 componentes, aunque no todas sean independientes
debido a sus relaciones de simetría.
Por otra parte, como el espacio de vectores V comparte muchas propiedades con su dual,
el espacio de 1–formas V, e no es difícil concebir que los vectores también son un tipo de
tensores, y que éstos pueden generalizarse. Recordemos, por ejemplo, que el tensor métrico
inverso g −1 es una función lineal que acepta 1–formas y devuelve el producto escalar de
éstas, como es evidente de (2.55). También ahí es evidente que las componentes g µν de
este tensor se obtienen de la acción del tensor métrico inverso sobre las 1–formas base,
g −1 (e
ωµ, ω
e ν ). En analogía con el caso anterior, podemos considerar que los elementos del
espacio VM son tensores de rango M que toman M 1–formas y devuelven escalares. Si t es
ahora un elemento de VM , sus componentes son el resultado de su acción sobre las 1–formas
base, tµνρ... = t(eωµ, ω
eν , ω
e ρ , . . .).
Podemos generalizar la definición de tensores a objetos multilineales que toman M
1–formas y N vectores, y devuelven escalares,
e B,
t(A, e ...; U, V, ...) ∈ R. (2.80)
eN , tales que si t ∈ VM ⊗ V
Estos tensores son elementos del espacio VM ⊗ V eN ,
e ν1 ⊗ ω
t = tµ1 µ2 ...µM ν1 ν2 ...νN eµ1 ⊗ eµ2 ⊗ · · · ⊗ eµM ⊗ ω e ν2 ⊗ · · · ⊗ ω
e νN , (2.81)
y sus componentes se calculan mediante la aplicación de t sobre las bases de 1–formas y

vectores,
ω µ1 , ω
tµ1 µ2 ...µM ν1 ν2 ...νN = t(e e µ2 , ..., ω
e µM , eν1 , eν2 , ..., eνN ). (2.82)
Un tensor de este espacio

tiene rango (M, N ). Estos tensores también son clasificados como
M
tensores (de tipo) N , enfatizando la cantidad de índices de las componentes que aparecen
arriba y abajo.
A partir de la expresión (2.81), empleando la invariancia de los tensores y las trans-
formaciones ante difeomorfismos generales para los vectores base (2.17) y las 1–formas ba-
se (2.31), se puede mostrar fácilmente que las componentes de un tensor de rango (M, N )
se transforman bajo difeomorfismos arbitrarios como (ver ejercicio 2.2)
′ ′ ′
′ ′ ′ ∂xµ1 ∂xµ2 ∂xµM ∂xν1 ∂xν2 ∂xνN µ1 µ2 ...µM
tµ1 µ2 ...µM ν1′ ν2′ ...νN′ = · · · · · · ′ t ν1 ν2 ...νN . (2.83)
∂xµ1 ∂xµ2 ∂xµM ∂xν1′ ∂xν2′ ∂xνN
El papel del tensor métrico y su inversa discutido en 2.1.5 puede generalizarse

para
tensores. A partir de (2.52) y aceptando que los vectores son tensores 10 y las 1–formas

son tensores 01 , vemos que el tensor métrico mapea vectores a 1–formas,

1 g 0
7−→ . (2.84)
0 1
Inversamente, (2.62) establece un mapeo de 1–formas a vectores a través de la inversa del
tensor métrico, de forma que obtenemos la relación entre tensores

1 g−1 0
7−→ . (2.85)
0 1
Para formalizar estos mapeos, dado un vector A y una 1–forma A, e notamos que g(eµ , A) =
ν ν ν −1
g(eµ , A eν ) = A g(eµ , eν ) = A gµν = Aµ y, análogamente, g (e e = Aµ . Por lo tanto,
ω µ , A)
e = g(eµ , A)e
A ωµ , A = g −1 (e e µ.
ω µ , A)e (2.86)

Para tensores M N , podemos emplear que t
µ1 µ2 ...µM
ν1 ν2 ...νN eµ1 es un vector (con índice
µ1 variable y los demás fijos), por lo que, de acuerdo a (2.86),
eα
ω α = gαµ1 tµ1 µ2 ...µM ν1 ν2 ...νN ω
g(eα , tµ1 µ2 ...µM ν1 ν2 ...νN eµ1 )e (2.87)
es una 1–forma con componentes (de índice α)
tα µ2 ...µM ν1 ν2 ...νN ≡ gαµ1 tµ1 µ2 ...µM ν1 ν2 ...νN ; (2.88)
es decir, el tensor métrico también baja un índice al actuar sobre tensores generales. Inser-
tando (2.87) en la expresión
de un tensor de rango (M, N ), hallamos que el tensor métrico
mapea un tensor M N a un tensor M −1
N +1

M g M −1
7−→ . (2.89)
N N +1
No es difícil convencerse de que la inversa del tensor métrico tiene el efecto opuesto,

M g −1 M +1
7−→ . (2.90)
N N −1
Esta observación explica por qué es necesario definir los tensores mediante productos ten-
e
soriales tanto de V como de su dual, V.
La aplicación repetida del tensor métrico sobre un tensor de rango (M, N ) conduce a
la cadena
M g M −1 g M −2 g M −3 g
7−→ 7−→ 7−→ 7−→ · · · . (2.91)
N N +1 N +2 N +3

Claramente, después de M aplicaciones del tensor métrico sobre el tensor M N , éste se
0

convierte en un tensor M +N . Similarmente, tras N aplicaciones de g −1 , obtenemos un
M +N

tensor 0 . Este resultado nos muestra que un tensor t de rango (M, N ) puede ser
transformado a otro equivalente de rango (M ′ , N ′ ), tal que M ′ + N ′ = M + N por acción
del tensor métrico. Por ejemplo, un tensor F puede ser expresado como tensor de rango
(1, 1) o (2, 0) o (0, 2) al permitir la acción del tensor métrico o su inversa.
El mapeo entre distintos tensores nos ayuda a determinar lo que g −1 es en términos
tensoriales. Si aplicamos dos veces g a las componentes g αβ de g −1 , obtenemos
gµν = gµα gνβ g αβ . (2.92)
2

Entonces, g αβ son las componentes de un tensor 0 . Adicionalmente, notamos que
gµα g αβ = gµ β . (2.93)
Sin embargo, como g αβ son las componentes de la inversa de g, con componentes gαβ ,
entonces
gµ β = δµβ . (2.94)
Por otra parte, así como las componentes de un tensor de rango (0, 2) puede ser sepa-
radas en simétricas y antisimétricas de acuerdo a (2.78) y (2.79), podemos encontrar un
método de hacer lo mismo con tensores arbitrarios. Para lograrlo, podemos reescribir (2.78)
como
1 1 X
t(µ1 µ2 ) = (tµ1 µ2 + tµ2 µ1 ) = tµσ(1) µσ(2) , (2.95)
2! 2!
σ∈Σ2
donde σ es un elemento del conjunto de permutaciones de los elementos y Σ2 = {(1, 2), (2, 1)},
lo que implica que, por ejemplo, para el segundo elemento de Σ2 debemos tomar σ(1) = 2
y σ(2) = 1. Generalizando para tensores de distintos tipos, tenemos

1 X
rango (0, N ) : t(µ1 µ2 ...µN ) = tµσ(1) µσ(2) ...µσ(N ) , (2.96)
N!
σ∈ΣN
1 X µσ(1) µσ(2) ...µσ(M )
rango (M, 0) : t(µ1 µ2 ...µM ) = t , (2.97)
M!
σ∈ΣM
(µ µ ...µ ) 1 X X µσ(1) µσ(2) ...µσ(M )
rango (M, N ) : t 1 2 (ν1 νM2 ...νN ) = t νσe (1) νσe (2) ...νσe (N ) . (2.98)
N !M !
σ∈ΣM σ
e∈ΣN
Por ejemplo, la porción completamente simétrica de un tensor t de rango (2, 2) es

1
t(µν) (αβ) = (tµν αβ + tνµ αβ + tµν βα + tνµ βα ) . (2.99)
2!2!
Adicionalmente, es posible simetrizar un tensor únicamente con respecto a algunas de sus
componentes, aplicando una expresión similar. Por ejemplo, si se desea simetrizar sólo p de
los índices superiores y q de los inferiores de un tensor de rango (M, N ), las componentes
del nuevo tensor están dadas por
(µ µ ...µ )µ ...µM 1 X X µσ(1) µσ(2) ...µσ(p) µp+1 ...µM
t 1 2 p (νp+1 ν ...ν )ν ...ν = t νσe (1) νσe (2) ...νσe (q) νq+1 ...νN (2.100)
1 2 q q+1 N p!q!
σ∈Σp σ
e∈Σq
en términos de las componentes del tensor t.

De forma similar, es posible también obtener expresiones para la porción antisimétrica
de un tensor arbitrario. Reescribimos primero (2.79) para un tensor de rango (0, 2) como
1 1 X
t[µ1 µ2 ] = (tµ1 µ2 − tµ2 µ1 ) = sgn(σ)tµσ(1) µσ(2) , (2.101)
2! 2!
σ∈Σ2
donde, para cualquier número de elementos,

+1 permutaciones pares (núm. par de permutaciones),
sgn(σ) = (2.102)
−1 permutaciones impares (núm. impar permutaciones).
Generalizando este resultado para tensores de rango (0, N ), obtenemos

1 X
t[µ1 µ2 ...µN ] = sgn(σ)tµσ(1) µσ(2) ...µσ(N ) . (2.103)
N!
σ∈ΣN
Entonces, las componentes completamente antisimétricas de un tensor de rango (M, N )

están dadas por
[µ µ ...µM ] 1 X X µ µ ...µσ(M )
t 1 2 [ν ν ...ν ] = σ )t σ(1) σ(2)
sgn(σ)sgn(e νσe (1) νσe (2) ...νσe (N ) . (2.104)
1 2 N N !M !
σ∈ΣM σ
e∈ΣN
Y el análogo antisimétrico de (2.100) es
[µ1 µ2 ...µp ]µp+1 ...µM 1 X X µ µ ...µσ(p) µp+1 ...µM

t [ν1 ν2 ...νq ]νq+1 ...νN = σ )t σ(1) νσ(2)
sgn(σ)sgn(e e (1) νσ
σ e (2) ...νσ
e (q) νq+1 ...νN
. (2.105)
p!q!
σ∈Σp σ
e∈Σq
También es posible combinar la simetrización y antisimetrización de las componentes

de un tensor. Por ejemplo, considere un tensor R de rango (2, 2). Simetrizando los dos
índices superiores y antisimetrizando los dos inferiores, obtenemos
1
R(µν) [αβ] = (Rµν αβ − Rµν βα + Rνµ αβ − Rνµ βα ) . (2.106)
2!2!
2.1.8. Álgebra tensorial
Los espacios vectoriales (sobre el campo de los reales) V de vectores y su dual V e de

1–formas, ambos dotados del operador + que permite sumar elementos dentro de cada
espacio, constituyen los espacios base para la construcción de tensores más generales si
adoptamos el producto tensorial ⊗ definido en 2.1.6. Con estos ingredientes, los espacios
V⊗V, V⊗ V,e V⊗
e V,e V⊗V⊗V, etc. contienen, como elementos, tensores de distintos rangos. El
conjunto de todos estos tensores dotado del producto tensorial define el álgebra tensorial,
que es asociativa y distributiva bajo el producto tensorial ⊗ y bajo la suma + en cada
subespacio vectorial.
Los tensores del álgebra tensorial admiten las siguientes operaciones:
Suma + de tensores del mismo rango. Si A y B son tensores de rango (N, M ), entonces
t = A + B es también un tensor de rango (N, M ) y sus componentes están dadas por
tµ... ν... = Aµ... ν... + B µ... ν... . (2.107)
Producto exterior ⊗ entre tensores. Si A es de rango (M1 , N2 ) y B es de rango

(M2 , N2 ), entonces t = A ⊗ B tiene rango (M1 + M2 , N1 + N2 ) y sus componentes
son
tµ1 ...µM1 ν1 ...νN1 α1 ...αM2 β1 ...βN2 = Aµ1 ...µM1 ν1 ...νN1 B α1 ...αM2 β1 ...βN2 , (2.108)
es decir, consiste en la yuxtaposición de las componentes del tensor original. Frecuen-

temente, en la literatura t = AB se interpreta también como el producto tensorial.
Contracción. La definición formal se trata del emparejamiento natural de las compo-

nentes de un tensor en un subespacio V con sus componentes en el subespacio dual
e Esta intrincada definición se expresa en la práctica como la suma de índices repe-
V.
tidos (uno superior y otro inferior) de un mismo tensor. Si A es un tensor de rango
(M, N ), la contracción de las componentes en el p-ésimo subespacio V con las del

q-ésimo subespacio Ve se expresa como
tµ1 ...µp−1 µp+1 ...µM ν1 ...νq−1 νq+1 νN = Aµ1 ...µp−1 αµp+1 ...µM ν1 ...νq−1 ανq+1 νN , (2.109)
donde t es un tensor diferente de rango (M − 1, N − 1) debido a que el índice α ha
desaparecido (ha sido contraído).
Notemos que la contracción y el producto exterior conducen al producto interior.
Sean A y B e un vector y una 1–forma respectivamente. Entonces t = A ⊗ Be es de
µ µ
rango (1, 1) y componentes t ν = A Bν . Si contraemos los índices,
t µ µ = Aµ B µ , (2.110)
entonces el resultado tiene rango (0, 0), es decir, es un escalar.
2.1.9. Gradiente de un tensor en espacio–tiempo plano
En la sección 2.1.3 hemos determinado que el gradiente de un campo escalar arbitrario

φ(xµ ) es la 1–forma
e
dφ = (e eµ ,
dφ)µ ω (2.111)
∂φ
donde las componentes (e dφ)µ están dadas por (edφ)µ = φ,µ = ∂x µ = ∂µ φ. Si consideramos
que la función escalar φ es un tensor de rango (0, 0), podríamos proponer que la operación
gradiente e
d es tal que incrementa el rango en una unidad, es decir

0 ed 0
7−→ . (2.112)
0 1
Esta idea puede aplicarse a tensores. Consideremos un tensor arbitrario t, tal que
e ν1 ⊗ ω
t = tµ1 µ2 ...µM ν1 ν2 ...νN eµ1 ⊗ eµ2 ⊗ · · · ⊗ eµM ⊗ ω e ν2 ⊗ · · · ⊗ ω
e νN . (2.113)
Consideremos adicionalmente que los vectores y 1–formas base están dados, respectivamen-
te, por las bases constantes (2.9) y (2.29), válidas sólo en el espacio–tiempo de Minkowski.
El gradiente de t es entonces

M N
e e
dt = (dt)α ⊗ ω α
e = t,α ⊗ ω α
e = t µ1 µ2 ...µN
ν1 ν2 ...νN ,α ⊗ eµi ⊗ ω
e νj
eα,
⊗ω (2.114)
i=1 j=1
porque eµi y ω e νj son constantes por lo que eµi ,α = 0 = ω e νj ,α . En un espacio–tiempo

diferente o en otra elección de coordenadas, como veremos en la sección 2.4, los vectores
base pueden no ser constantes y entonces la ecuación (2.114) contiene elementos adicionales.
En el simple espacio–tiempo de Minkowski, obtenemos
M N
e
dt = tµ1 µ2 ...µN ν1 ν2 ...νN ,α ⊗ eµi ⊗ ω eα,
e νj ⊗ ω (2.115)
i=1 j=1
de donde observamos que el gradiente e dt de un tensor t de rango (M, N ) es un tensor

de rango (M, N + 1). De manera similar, vemos que e d2 t ≡ e
d(e
dt) es un tensor de rango
e
(M, N + 2) y la n-ésima aplicación de d sobre t resulta en un tensor de rango (M, N + n).
Por ejemplo, si el tensor al que deseamos calcular el gradiente es el vector A = Aµ eµ ,
obtenemos
e
dA = (Aµ ,α eµ + Aµ eµ,α ) ⊗ ω eα ,
e α = Aµ ,α eµ ⊗ ω (2.116)
donde hemos empleado las definiciones
∂Aµ ∂eµ
Aµ ,α ≡ , eµ,α ≡ =0 (2.117)
∂xα ∂xα
en el espacio–tiempo de Minkowski.
2.2. Ecuaciones de Maxwell en relatividad especial

Como destacamos en la sección 1.11.1, uno de los aspectos más relevantes de los tensores
es que, dado que son invariantes bajo difeomorfismos, entonces la física expresada en tér-
minos tensoriales es invariante particularmente bajo transformaciones de Lorentz, es decir,
es universal para todos los observadores inerciales. Pero es más. Dado que otros difeomor-
fismos incluyen no sólo transformaciones de coordenadas, sino también deformaciones del
espacio–tiempo, como veremos a partir de la sección 2.5, la física expresada en términos
tensoriales también es invariante en marcos de referencia acelerados, lo que conducirá a
la relatividad general. Habitualmente, a la expresión de la física en términos tensoriales
le llamamos notación covariante. Si un formalismo no puede escribirse en esta notación,
entonces no es compatible con la relatividad. Comenzaremos nuestra discusión de la física
en notación covariante con la formulación de las ecuaciones de Maxwell.
El primer paso para reescribir las ecuaciones clave del electromagnetismo es escoger un
conjunto de unidades. Nosotros elegimos unidades Gaussianas o cgs, donde las ecuaciones
de Maxwell en el vacío y con fuentes están dadas por
1 ∂E 4π
∇ · E = 4πρ, ∇×B = + j,
c ∂t c
1 ∂B
∇ · B = 0, ∇×E =− ; (2.118)
c ∂t
y la fuerza de Lorentz se escribe como

u×B
f =q E+ , (2.119)
c
donde E y B son el campo eléctrico y magnético, respectivamente, y ρ y j son sus fuentes,
la densidad de carga y la densidad de corriente.
2.2 Ecuaciones de Maxwell en relatividad especial 91
La fuerza de Lorentz describe el movimiento de una partícula, con carga eléctrica q y

velocidad local u, a causa de los campos. La carga q es un escalar y, por lo tanto, invariante
relativista.
2.2.1. Fuerza de Lorentz y ecuaciones de Maxwell
Vemos que f depende de qc u, por lo que una primera conjetura es que el vector de
fuerza de Lorentz f debe de ser proporcional al vector de velocidad, qc U . Además debe
haber un segundo tensor para agregar la acción del campo. Debido a que U es un vector
y f también, el segundo tensor puede ser de rango (1, 1) y debe presentarse la contracción
de algún índice. La elección más natural, en términos de las componentes, es entonces
q
f µ = F µν U ν . (2.120)
c
Notemos que el índice ν del lado derecho se contrae y el único índice libre es µ en ambos
lados. La introducción del tensor F de rango (1, 1) permite que f tenga la estructura
correcta. Ahora, veamos que, como pµ pµ = m2 c2 , entonces
d µ dpµ
0= (p pµ ) = 2 pµ = 2f µ pµ = 2f µ mUµ ⇐⇒ f µ Uµ = 0, (2.121)
dτ dτ
donde hemos empleado (1.66) y (1.67). Aplicando el tensor métrico para bajar y subir índi-
ces sobre (2.120) y (2.121), expresando F ahora como un tensor de rango (0, 2), obtenemos
fµ U µ = 0 =⇒ Fµν U ν U µ = 0 . (2.122)
Dado que Fµν U ν U µ = Fνµ U µ U ν y que U µ U ν = U ν U µ , podemos descomponer (2.122) en
dos partes como
1 µ ν
U U (Fµν + Fνµ ) = 0 ⇐⇒ Fµν = −Fνµ . (2.123)
2
Este resultado significa que el tensor F es antisimétrico. A F se le conoce como el tensor
de Faraday.
Una elección del tensor de Faraday en representación matricial que conduce a la fuerza
de Lorentz como la conocemos es (ver ejercicio 2.7)
 
0 E(1) E(2) E(3)
−E(1) 0 −B(3) B(2) 
(Fµν ) = 
−E(2) B(3)
, (2.124)
0 −B(1)
−E(3) −B(2) B(1) 0
donde E(i) y B(i) son los campos eléctrico y magnético en la dirección xi con i = 1, 2, 3.
Evitamos usar la notación E1 , . . . para no confundir E con un tensor, ya que E y B son
sólo vectores tridimensionales. Es fácil mostrar que las componentes espaciales de f ,
q
fi = Fiµ U µ , (2.125)
c
determinan la fuerza de Lorentz habitual. Es útil notar que la versión de F de rango (2, 0)
tiene componentes ligeramente diferentes:
 
0 −E(1) −E(2) −E(3)
E(1) 0 −B(3) B(2) 
F µν = η µα η νβ Fαβ =⇒ (F µν ) = 
E(2) B(3)
. (2.126)
0 −B(1)
E(3) −B(2) B(1) 0
Por ejemplo, E(1) = −F 01 = F01 mientras que B(1) = F 32 = F32 .
Ahora consideremos una distribución continua de cargas eléctricas moviéndose a una
velocidad local u. La densidad de carga en su sistema de referencia propio es ρ0 , entonces
la densidad de carga medida en el laboratorio en reposo es
ρ = γ(u)ρ0 porque V = γ(u)−1 V ′ , (2.127)
donde V es el volumen medido en el laboratorio y V ′ está medido en el marco de referencia
en movimiento. Vemos que la relación entre ρ y ρ0 es similar a
dt = γ(u)dτ (2.128)
x0
y, por lo tanto, ρ parece transformarse de la misma manera que c .
Por otra parte, la densidad de corriente en este sistema puede definirse como
j = ρu, (2.129)
la cual está restringida por la ecuación de continuidad,
∂ρ
+ ∇ · j = 0. (2.130)
∂t
Con base en estas observaciones, podemos proponer que la 4–corriente de una carga en
movimiento desde el punto de vista de un observador en reposo está dada por
(J µ ) = (cρ, j)T = (cγ(u)ρ0 , uγ(u)ρ0 )T = (ρ0 U µ ) (2.131)
para representar la generalización de la corriente tridimensional j. Para nuestro sistema,
las componentes J µ se transforman como dxµ porque son proporcionales a U µ . Con esta
definición, la ecuación de continuidad (2.130) puede reexpresarse como
∂µ J µ = J µ ,µ = 0. ecuación de continuidad (2.132)
R
Una consecuencia de esta ecuación es que la carga definida por Q ≡ d3 xJ 0 se conserva
en el tiempo. Para confirmarlo, calculamos la derivada temporal de Q como
Z 0 Z I
∂Q 3 ∂J 3
= d x = − d x∇ · j = j · n̂dS = 0, (2.133)
c∂t c∂t
Ω Ω ∂Ω
donde Ω es un volumen grande que envuelve la carga Q, ∂Ω su frontera y n̂ es un vector

normal a ∂Ω apuntando al exterior de Ω. En la penúltima igualdad usamos el teorema de
Gauss, mientras que la última igualdad es el resultado de que j se desvanece en la frontera
si Ω es suficientemente grande. Por esta razón, a la ecuación (2.132) también se le llama la
ecuación de conservación de carga.
Antes de reescribir las ecuaciones de Maxwell en forma covariante, necesitamos un ingre-
diente más: el 4–potencial electromagnético A = Aµ eµ , al cual podemos llegar recordando
que los campos electromagnéticos pueden escribirse en términos de potenciales.
En electromagnetismo, los campos E y B pueden reescribirse como
∂A
E=− −∇ φ, B = ∇ × A, (2.134)
c∂t
en términos de los llamados potencial escalar electromagnético φ y potencial vectorial
electromagnético A. En componentes, la expresión anterior puede escribirse mediante el
símbolo completamente antisimétrico de Levi-Civita εijk como
E(i) = −∂0 Ai − ∂i φ, B(i) = εijk ∂j Ak . (2.135)
(Es importante la posición de los índices. Nótese que esta notación no es consistente con
la contracción de índices porque ésta no es aún una notación covariante.)
Recordando que ∂ µ φ = η µν ∂ν φ, entonces ∂ i φ = −∂i φ y ∂ 0 φ = ∂0 φ, por lo que
E(i) = −∂ 0 Ai + ∂ i φ, B(i) = −εijk ∂ j Ak . (2.136)
Como las componentes de E y B aparecen como componentes del tensor de Faraday F µν ,

vemos que
−F 0i = −∂ 0 Ai + ∂ i φ,
(2.137)
−F jk = −εijk ∂ j Ak = −∂ j Ak + ∂ k Aj .
Para que la primera de estas ecuaciones sea simétrica, podemos definir el 4–potencial
A como
(Aµ ) = (φ, A1 , A2 , A3 )T . (2.138)
Por lo tanto, en términos de este tensor, las componentes del tensor de Faraday están dadas
por
F µν = ∂ µ Aν − ∂ ν Aµ =⇒ Fµν = ∂µ Aν − ∂ν Aµ = Aν,µ − Aµ,ν . (2.139)
A partir de (2.139), se obtiene la llamada identidad de Bianchi
Fµν,σ + Fνσ,µ + Fσµ,ν = 0, identidad de Bianchi electromagnética (2.140)

debido a que, como por ejemplo Aν,µσ = Aν,σµ (las derivadas conmutan), se satisface
Aν,µσ − Aµ,νσ + Aσ,νµ − Aν,σµ + Aµ,σν − Aσ,µν = 0. (2.141)
Notemos que (2.140) provee una ecuación diferencial no trivial sólo para µ 6= ν 6= σ. Por
ejemplo, si ν = µ, el lado izquierdo de (2.140) no contiene información,
Fµµ,σ + Fµσ,µ + Fσµ,µ = 0 + Fµσ,µ − Fµσ,µ = 0. (2.142)
De hecho, debido a que la identidad de Bianchi (2.140) posee varias simetrías, las únicas
elecciones no triviales de índices son:
µ = 0, ν = 1, σ = 2 → F01,2 + F12,0 + F20,1 = ∂2 E(1) − ∂0 B(3) − ∂1 E(2) = 0

⇐⇒ ∂1 E(2) − ∂2 E(1) = −∂0 B(3)
µ = 0, ν = 2, σ = 3 → F02,3 + F23,0 + F30,2 = ∂3 E(2) − ∂0 B(1) − ∂2 E(3) = 0
⇐⇒ ∂2 E(3) − ∂3 E(2) = −∂0 B(1)
µ = 0, ν = 3, σ = 1 → F03,1 + F31,0 + F10,3 = ∂1 E(3) − ∂0 B(2) − ∂3 E(1) = 0
⇐⇒ ∂3 E(1) − ∂1 E(3) = −∂0 B(2)
µ = 1, ν = 2, σ = 3 → F12,3 + F23,1 + F31,2 = −∂3 B(3) − ∂1 B(1) − ∂2 B(2) = 0
⇐⇒ ∇ · B = 0. (2.143)
La última ecuación en (2.143) es directamente la ley de Gauss magnética que implica la

inexistencia de monopolos magnéticos. Las tres ecuaciones anteriores pueden reescribirse
como ∇ × E = −∂0 B, correspondiente a la ley de Faraday-Lenz. En resumen, de la
definición del tensor de Faraday, hemos obtenido la identidad de Bianchi (2.140), que
corresponde a dos de las ecuaciones de Maxwell, escritas en el formalismo covariante.
Es más directo convencerse de que las otras dos ecuaciones de Maxwell (ver primer
renglón de (2.118)) están contenidas en
4π ν
∂µ F µν = J . (2.144)
c
Por ejemplo, para ν = 0 obtenemos
! 4π 0
∂µ F µ0 = ∂i F i0 = ∇ · E = J = 4πρ. (2.145)
c
Las ecuaciones de Maxwell expresadas en términos de los tensores F y J permiten

identificar fácilmente algunas de las propiedades de la electrodinámica:
Simetría de norma. Diferentes elecciones de potencial electromagnético A conducen a

la misma física debido a que A no es directamente medible. Consideremos que Aµ son
las componentes del 4–potencial asociado a un tensor de Faraday con componentes
F µν que satisfacen las ecuaciones de Maxwell (2.140) y (2.144). Buscamos el efecto
de alterar Aµ por el gradiente de una función escalar arbitraria α = α(x) (tensor de
rango 0) como
Aµ → A µ = Aµ + ∂ µ α . (2.146)
Encontramos que el nuevo tensor de Faraday tiene las componentes ∂ µ Aν − ∂ ν Aµ =
∂ µ Aν − ∂ ν Aµ + ∂ µ ∂ ν α − ∂ ν ∂ µ α = F µν , como antes de la transformación (2.146).
Como las ecuaciones de Maxwell se construyen con base en el tensor de Faraday y
no en el 4–potencial, entonces A y A conducen a la misma física.
Esta libertad en la elección del 4–potencial muestra que la teoría electrodinámica
descrita por las ecuaciones (2.140) y (2.144) posee algunos grados de libertad re-
dundantes que podemos eliminar al elegir para cualquier teoría el mismo tipo de
4–potencial. A este procedimiento se le conoce como elección de norma. Una norma
elegida comúnmente en teorías relativistas es la llamada norma de Lorentz, definida
por la condición ∂µ Aµ = 0.
Toda transformación no trivial de los elementos de una teoría que no modifican la
física que emerge de ésta es llamada simetría. Por lo tanto, la transformación de
norma (2.146) es una simetría de norma.
Invariancia bajo difeomorfismos. La forma covariante de las ecuaciones de Maxwell

permite formular las ecuaciones del electromagnetismo independientemente de la base
de coordenadas empleada. Recordemos que las componentes de un tensor covariante
arbitrario se transforman bajo difeomorfismos de acuerdo a (2.83). En particular,
el gradiente de una función escalar arbitraria φ se transforma como en (2.34). Si F
satisface (2.144), notamos que, al aplicar un difeomorfismo, las componentes trans-
′ ′
formadas F µ ν satisfacen
′ ′ ′
µ′ ν ′ ∂xα ∂xµ ∂xν βγ ∂xα ∂xν
∂ µ′ F = ∂ α F = ∂α F βγ
∂xµ ∂xβ ∂xγ
′
∂xβ ∂xγ
ν′ ∂xν
′
α ∂x βγ
= δβ ∂α F = ∂α F αγ
∂xγ ∂xγ (2.147)
′
∂xν 4π γ
= J
∂xγ c
4π ν ′
= J .
c
Esto indica que las ecuaciones (2.144) son invariantes bajo difeomorfismos.5
5
Es fácil mostrar que las ecuaciones de Maxwell en su forma (2.144) son invariantes sólo si eµ,ν = 0 =
µ
ω
e ,ν . Esta debilidad será corregida en la sección 2.5.
Por último, veamos una manera de simplificar las ecuaciones de Maxwell. Podemos
introducir el dual de Hodge del tensor de Faraday ∗F como el tensor de componentes
1
∗F µν ≡ εµνρσ Fρσ , (2.148)
2
donde εµνρσ es el símbolo de Levi-Civita de rango 4. En forma matricial, el dual de Hodge

de F está dado por
 
0 −B(1) −B(2) −B(3)
B(1) 0 E(3) −E(2)
(∗F µν ) = 
B(2) −E(3)
. (2.149)
0 E(1) 
B(3) E(2) −E(1) 0
Se puede mostrar fácilmente que, en términos de ∗F , la identidad de Bianchi (2.140) se

simplifica a
∗F µν ,µ = 0. (2.150)
Para concluir este ejemplo, identificamos las cantidades escalares (invariantes) que se
pueden construir con F y ∗F . Los invariantes son aquéllos en los que todos los índices
han sido contraídos y, por lo tanto, no se transforman bajo difeomorfismos. Para la teoría
electromagnética, sólo hay dos:

Fµν F µν = 2 |B|2 − |E|2 , (2.151)
µν
Fµν ∗F = −4 B · E.
Formalmente, el segundo invariante es llamado invariante pseudo-escalar porque sí se trans-

forma con un signo negativo bajo las transformaciones impropias de Lorentz (1.119). Las
cantidades escalares son muy importantes porque representan observables universales para
todo tipo de observador. Así, sabemos que todo observador debe medir los mismos resul-
tados para las combinaciones dadas por (2.151).
Otra información muy importante que debemos mencionar aquí es que la densidad de
energía de un medio de carga continua (por ejemplo, de agua con carga eléctrica) está dada
por
1
|E|2 + |B|2 , (2.152)
8π
que, en el formalismo covariante, debe incluirse en el llamado tensor de energía–momento
o tensor de tensión-energía de rango 2, cuyas componentes se denotan por T µν , como
estudiamos a continuación.
2.3 Tensor de energía–momento 97
2.3. Tensor de energía–momento

Para una partícula aislada moviéndose en alguna dirección, p = pµ eµ da una descripción
completa de su momento y energía. Sin embargo, en un medio continuo, el momento puede
“fluir” en diferentes direcciones conduciendo, por ejemplo, a las 3 componentes de esfuerzos
cortantes en 4 dimensiones y a la presión debida al momento de todas las partículas en las
3 direcciones espaciales. Por lo tanto, necesitamos al menos 6 grados de libertad extra para
llegar a la descripción de todas las componentes de energía y momento. Estos 10 grados de
libertad, incluyendo las componentes de p, caben perfectamente en una matriz simétrica
en cuatro dimensiones. Esto conduce a la definición del tensor de energía–momento.
Formalmente, el tensor de energía–momento T , con componentes T µν , es el flujo de las
componentes del 4–momento a través de una superficie de xν constante. Intentemos aclarar
esta definición en el marco de referencia en reposo. La componente (0, 0) de T es el flujo
de p0 = Ec a través de la “superficie” de x0 constante,6 entonces T 00 es densidad de energía
que denotaremos con ρ. T i0 es flujo de pi a través de una superficie de tiempo constante,
entonces T i0 es densidad de momento. T 0i es el flujo de energía a través de una superficie
de xi constante, y T ij es el flujo de pi a través de la superficie a xj constante.
En un marco de referencia en reposo, vemos que el flujo de energía T 0i puede ser
diferente de cero debido a la conducción de calor. Lo mismo aplica para T i0 . De hecho, es
posible mostrar que T es un tensor simétrico (ver apéndice C), por lo que T i0 = T 0i .
Los flujos T ij representan fuerzas entre componentes del sistema adyacentes que pueden
ser perpendiculares (o paralelas) a la superficie que comparten. Las componentes paralelas
son las responsables del esfuerzo cortante y son la razón de T ij 6= 0 para i 6= j. Cuando
las fuerzas son perpendiculares, son solamente presión que aparece en los elementos de la
diagonal T ii (sin suma sobre índices). Recordemos que, formalmente, la presión debe ser
independiente de la dirección. Entonces, debemos usar el término estrés o tensión cuando
T ii 6= T jj .
2.3.1. Tensor de energía–momento de un fluido perfecto.
El tensor de energía–momento T existe para cualquier tipo de materia, como sólidos y

fluidos, que pueden ser caracterizados como medios continuos. El fluido es una categoría
muy general, que incluye todo tipo de materia y es incluso capaz de describir el contenido
de nuestro universo entero.
De entre todos los tipos de fluidos, el fluido perfecto es el más simple. Definimos un fluido
perfecto como un fluido compuesto de partículas que no intercambian momento a través
de conducción de calor ni esfuerzos de corte en el marco de referencia en reposo. Resulta
que, en consecuencia, (a) el fluido es isotrópico en su marco de referencia en reposo, y (b)
6
Una “superficie” de x0 constante corresponde al volumen entero del espacio a un tiempo dado.
x3
x2
∆A
x1
u1 ∆t
superficie de
x1 constante
Figura 2.1: El número de partículas que atraviesan una porción ∆A de la superficie x1 = cte en
un tiempo ∆t es nu1 ∆t∆A para velocidades no relativistas. Entonces, el flujo no relativista por
unidad de área es nu1 .
la matriz de componentes (T µν ) es diagonal. Un fluido perfecto puede ser caracterizado

por su presión P y su densidad de energía ρ.
El ejemplo más sencillo de un fluido perfecto es el polvo. El polvo es una colección de
partículas en reposo con respecto de las otras (partículas del fluido) en algún marco de
referencia (o, alternativamente, un fluido perfecto con presión nula).
Para llegar al tensor T , primero necesitamos definir la densidad de número de partí-
culas n en el marco en reposo, la cual cuenta el número de partículas en un elemento de
volumen del fluido. Podemos generalizar este concepto a un 4–vector llamado vector de
flujo numérico N , cuyas componentes son
N µ = nU µ , (2.153)
y que describe no solamente la densidad de número de partículas, sino también cuenta

el número de partículas que fluyen en la dirección xi cuando el polvo se está moviendo
con 4–velocidad U en la perspectiva de algún marco de referencia; es decir, generaliza n a
cualquier marco de referencia. Observamos que, como N · N = n2 U · U = n2 c2 , entonces n
es un escalar bajo difeomorfismos.
En el marco de referencia en reposo, encontramos
N 0 = nc y N i = 0. (2.154)
Pero en otros marcos de referencia, encontramos
N 0 = γ(u)nc, N i = γ(u)nui , (2.155)

donde N 0 es la densidad numérica como la ve un observador en movimiento, y N i es el

flujo a través de una superficie de xi constante. Esta interpretación de N i puede ilustrarse
fácilmente con el ejemplo más sencillo: considere una caja de polvo moviéndose con velocidad
no relativista u1 , como se muestra en la figura 2.1. En un tiempo ∆t, la caja avanza
una distancia u1 ∆t a lo largo de x1 , por lo que el volumen que atraviesa un área ∆A
perpendicular al movimiento de la caja es u1 ∆t∆A. El número total de partículas que
atraviesan esa superficie se obtiene de multiplicar este volumen a n. Por lo tanto, el flujo
de partículas, dado por el número de partículas por unidad de área y tiempo, es nu1 , que
coincide con N 1 definido por (2.155) para velocidades no relativistas. Para velocidades
relativistas, deberemos tomar en cuenta la contracción de Lorentz que origina el factor
γ(u).
Ahora, como ρ es la densidad de energía y podemos suponer que cada partícula tiene
masa m, entonces encontramos que en el marco de referencia en reposo
T 00 = ρ = mc2 n,
(2.156)
T 0i = T i0 = 0 y T ij = 0 describe un fluido con presión cero.
Dado que N corresponde a un flujo de partículas y T es en general un flujo de momento,

podemos deducir que T corresponde al producto del momento p de cada partícula con N ,
como
ρ
T = p ⊗ N = mU ⊗ nU = 2 U ⊗ U, (2.157)
c
o, en componentes,
ρ µ ν ρ
T µν = ω µ )U (e
U U = 2 U (e ω ν ) = T (e
ωµ, ω
eν ) . (2.158)
c2 c
Por simplicidad, es frecuente utilizar la densidad de masa ρm = mn = cρ2 , tal que T µν =
ρm U µ U ν . Podemos ver que, como esperábamos, el tensor de energía–momento es simétrico,
T µν = T νµ . (2.159)
Un fluido perfecto más general, dotado también de presión, tiene un T cuyas compo-
nentes forman una matriz diagonal en el marco de referencia en reposo,
(T µν ) = diag(ρ, P, P, P ), (2.160)
donde ρ es la densidad de energía y P denota la presión del fluido (no confundir con el
4–vector de momento p). La forma de T se basa en las propiedades del fluido perfecto:
sin conducción de calor =⇒ T 0i = T i0 = 0;
sin fuerzas de corte =⇒ T ij = 0 para i 6= j; e

isotrópico → diagonal en todos los marcos =⇒ T ii = T jj ∀i 6= j.
No es difícil convencernos de que, para que el tensor de energía–momento sea válido para
marcos de referencia en movimiento en espacio–tiempo de Minkowski y que sea compatible
con la expresión para polvo (2.158) con P = 0, las componentes de T deben escribirse como
1
T µν = (ρ + P )U µ U ν − P η µν . energía–momento de fluido ideal (2.161)
c2
Una posible generalización de estas componentes para espacio–tiempo no plano consiste en

reemplazar η por g; por ahora, nos restringiremos al espacio–tiempo plano.
En un fluido perfecto P y ρ no son independientes. La relación entre ellas, conocida
como ecuación de estado en termodinámica, está dada por
P = ωρ, (2.162)
donde ω es una constante adimensional. Algunos ejemplos de fluidos de gran interés en la

física gravitacional están dados por

1/3 radiación o materia relativista (caliente),

ω= 0 polvo o materia no relativista (fría), (2.163)


−1 constante cosmológica o energía del vacío o energía oscura.
La ecuación de estado describe las propiedades más importantes del fluido perfecto.
2.3.2. Conservación de energía–momento
Sabemos que, para una partícula, la conservación de energía–momento se expresa como
∂ 0 pµ = 0 , (2.164)
donde ∂0 denota la derivada parcial con respecto a la coordenada temporaloide x0 . Sin

embargo, en un continuo, la ley de conservación debe ser sustituida.
Para llegar a la expresión que representa la conservación de energía–momento en un
continuo, definimos la cantidad Z
µ
Q ≡ d3 xT µ0 , (2.165)
Ω
dondeRΩ es un volumen µν
0 3 00
R 3 que contiene a todo el sistema, tal0 que T = 0 fuera de Ω. Como
Q = d xT = d xρ, entonces podemos identificar Q con la energía total de sistema
descrito por el tensor T . Por lo tanto, la conservación de energía puede escribirse como
∂0 Q0 = 0, que, en la lógica de la ecuación (2.133), se satisface si
∂µ T µν = T µν ,µ = 0. conservación de energía–momento (2.166)
En estos términos, podríamos afirmar que el tensor T es una especie de corriente de mo-
mento y energía. Como para la carga eléctrica en (2.133), notamos que no sólo para Q0 ,
sino para las 4 cantidades Qµ se satisface
Z Z I
∂Qµ 3 ∂T
µ0
= d x = − d x∂i T = − dST µi n̂i = 0 ,
3 µi
(2.167)
c∂t c∂t
Ω Ω ∂Ω
donde ∂Ω es la frontera de Ω. La penúltima igualdad se debe al teorema de Gauss y la

última se cumple bajo la suposición de que las componentes de T µν son funciones bien
comportadas y de que el sistema está aislado. Entonces, además de la energía total Q0 ,
obtenemos que el momento total Qi , i = 1, 2, 3 también se conserva.
Otra ley de conservación importante es la conservación de partículas, que, en analogía
con las ecuaciones anteriores, puede expresarse como
∂µ N µ = N µ ,µ = 0. (2.168)
R 3 R
Vemos que en este caso, la carga conservada es d xN 0 = c d3 xn, es decir, el número de
partículas.
Concluyamos esta sección haciendo dos observaciones. Primero, definimos el tensor de
energía–momento T como un tensor simétrico. Sin embargo, algunas generalizaciones de
este tensor no son simétricas.7 En este texto nos restringiremos a tensores de energía–
momento simétricos. La segunda observación se refiere al tensor de energía–momento del
electromagnetismo. En el formalismo tensorial de Maxwell, es posible mostrar que las
componentes de T están dadas por
µν 1 1
Tem =− (F µα F ν α − η µν Fαβ F αβ ). (2.169)
4π 4
Vemos que Q0em en este caso es
Z Z
0 3 00 1
Qem = d xTem = d3 x(|E|2 + |B|2 ), (2.170)
8π
que corresponde precisamente a la energía integrada del electromagnetismo. Además, como
i0 1
Tem = (E × B)i = S i , vector de Poynting (2.171)
4π
la conservación de Qiem equivale a la conservación de flujo de energía electromagnética.
7
En especial, la presencia de torsión o, análogamente, campos con espín no nulo (como fuentes de
torsión, altera esta propiedad.
2.4. Espacio con métrica no trivial

Hasta ahora, nuestra discusión de casos específicos ha sido basada en el espacio–
tiempo plano de Minkowski, cuya descripción se puede dar en términos de la base vec-
torial constante (2.9) y el tensor métrico igualmente trivial, de componentes constantes
(ηµν ) = diag(1, −1, −1, −1). Al cambiar de base a una que dependa de las posiciones, ya
sea mediante la elección de una geometría base diferente, o bien, al realizar un difeomor-
fismo no trivial, es previsible que algunas cosas cambien. En especial, nuestra discusión
del gradiente (ver sección 2.1.9) será enormemente enriquecida y conducirá a los elementos
más relevantes para nuestro estudio de espacio–tiempo con curvatura y, por lo tanto, de la
relatividad general.
Antes de comenzar a estudiar los elementos básicos de la relatividad general en el
capítulo 3, discutiremos las consecuencias más relevantes de suponer espacios (no espacios–
tiempo) con métrica no trivial. El caso que emplearemos como guía es el de coordenadas
polares en 2 dimensiones.
2.4.1. Coordenadas curvilíneas
Empecemos estudiando espacios en dos dimensiones. El análogo espacial al espacio–

tiempo de Minkowski es el espacio Euclídeo. La base que se elige más comúnmente para
expresar vectores en espacio Euclídeo recibe el nombre de base Cartesiana que, en dos
dimensiones, se expresa por los vectores base
e1 = (1, 0)T , e2 = (0, 1)T . (2.172)
La métrica del espacio Euclídeo en dos dimensiones tiene las componentes
gµν = eµ · eν = δµν , µ, ν = 1, 2 ,
donde δµν es la delta de Kronecker, definiendo así el producto escalar en estas coordenadas.
En el espacio Euclídeo, las posiciones se determinan con vectores x = xµ eµ = (x1 , x2 )T .
′ ′
Un difeomorfismo general de las coordenadas (x1 , x2 ) a (x1 , x2 ) está parcialmente
codificado en la matriz Jacobiana
! ′ ′!
∂xµ
′
∂x1 ∂x1
1 2
= ∂x2′ ∂x2′ (2.173)
∂xν ∂x
1
∂x
2∂x ∂x
y su inversa, denotada como

∂xν
, µ′ , ν = 1, 2 , (2.174)
∂xµ′
la cual existe para cualquier difeomorfismo.
2.4 Espacio con métrica no trivial 103
La matriz Jacobiana permite escribir la transformación de las componentes de cualquier

vector en el espacio Euclídeo como
′
∂xµ ν
′
Vµ = V . (2.175)
∂xν
Análogamente, las componentes de las respectivas 1–formas en el espacio dual al de los
vectores se transforman como
∂xν
Aµ ′ = Aν , (2.176)
∂xµ′
con la inversa de la matriz Jacobiana.
′ ′ ′
Como las componentes xµ son funciones de las componentes xν , es decir, xµ = xµ (xν ),
entonces las componentes del vector dx se transforman, aplicando la regla de la cadena,
mediante ′
µ′ ∂xµ
dx = dxν , (2.177)
∂xν
que es compatible con (2.176). Además, las componentes de la 1–forma gradiente de una
función escalar, e
dφ, se transforman, de acuerdo a (2.34), como
∂φ ∂xν ∂φ ∂xν e
(e
dφ)µ′ = = = (dφ)ν . (2.178)
∂xµ ′
∂xµ ∂xν
′
∂xµ′
Ejemplo 2.1 Transformación de coordenadas Cartesianas a polares.
A partir de aquí, emplearemos el ejemplo de coordenadas polares para ilustrar los cambios
que sufren los conceptos aprendidos antes cuando la métrica no coincide con la de un
sistema Cartesiano. Las coordenadas polares están definidas por
x ≡ x1 = r cos θ, y ≡ x2 = r sen θ,
p y (2.179)
=⇒ r = x2 + y 2 , θ = arctan ,
x
′ ′
donde r y θ son las nuevas coordenadas x1 y x2 , en la notación habitual, y hemos preferido
la notación (x, y) en lugar de (x1 , x2 ) para evitar confusiones con las potencias. Vemos que
las diferenciales de las nuevas coordenadas se expresan en términos de dx y dy como
∂r ∂r 1 1
dr = dx + dy = 2xdx + 2ydy, (2.180)
∂x ∂y 2r 2r

∂θ ∂θ 1 ydx 1 dy
dθ = dx + dy = y 2 − 2 + y 2
∂x ∂y 1 + x2 x 1 + x2 x
y x
= − 2 dx + 2 dy, (2.181)
r r
lo que implica que la matriz Jacobiana en este caso está dada por
!
′ y
dxµ x
cos θ sen θ
= r r = . (2.182)
dxν − ry2 rx2 − senr θ cosr θ
2.4.2. Vectores y 1–formas base en coordenadas curvilíneas
Recordando que los vectores base {eµ } se transforman con la inversa de la matriz de
transformación para las transformaciones de coordenadas, encontramos
∂xν
e µ′ = eν , (2.183)
∂xµ′
eµ = e
mientras las 1–formas base ω dxµ se transforman como
′
e ′ ∂xµ e ν
dxµ = dx . (2.184)
∂xν
Ejemplo 2.2 Bases en coordenadas polares.
En coordenadas polares tenemos, usando (2.183), que
∂x ∂y
er = ex + ey = cos θex + sen θey ,
∂r ∂r (2.185)
∂x ∂y
eθ = ex + ey = −r sen θex + r cos θey ,
∂θ ∂θ
y para las 1–formas base, aplicando (2.184), obtenemos
e ∂r e ∂r e x y
dr = dx + dy = e dx + edy = cos θe
dx + sen θe
dy,
∂x ∂y r r
(2.186)
e = ∂θ dx
dθ e + ∂θ e 1
dy = − sen θe
1
dx + cos θe dy.
∂x ∂y r r
Notemos que ahora los vectores base dependen de la posición, a pesar del hecho de que
seguimos en espacio plano y ex = (1, 0)T , ey = (0, 1)T . Además, los vectores base no son
paralelos en distintos puntos, como se ilustra en la figura 2.2. Finalmente, la longitud de los
vectores base tampoco es en general constante; por ejemplo, |eθ |2 = r2 sen2 θ+r2 cos2 θ = r2
(aunque |er |2 = 1).
2.4.3. Tensor métrico y gradiente en coordenadas curvilíneas
Ahora discutamos algunos aspectos sobre la métrica, usando las coordenadas polares
desarrolladas en los ejemplos 2.1 y 2.2.
Como estamos en el espacio Euclídeo, sabemos que las componentes de la métrica en
las coordenadas usuales (x, y) forman la matriz identidad, (gµν ) = diag(1, 1). Sin embargo,
adoptando los resultados más importantes de la sección 2.1.4, en coordenadas polares
encontramos que
1 0
g µ′ ν ′ = e µ ′ · e ν ′ =⇒ (gµ′ ν ′ ) = , (2.187)
0 r2
y
eθ
er
eθ
er
x
Figura 2.2: En general, los vectores base en coordenadas polares no son paralelos, y su dirección
depende de su posición en el espacio.
donde hemos empleado (2.43) con el producto escalar Cartesiano. Esta métrica conduce al
intervalo
ds2 = |drer + dθeθ |2 = dr2 + r2 dθ2 = gµ′ ν ′ dxµ dxν .
′ ′
(2.188)
Adicionalmente, la inversa de la métrica es

µ′ ν ′ 1 0
(g )= 1 , (2.189)
0 r2
es decir, g θθ = r12 , g rr = 1 y g µ ν = 0 para µ′ 6= ν ′ . La métrica inversa puede utilizarse

′ ′
para determinar las componentes del (vector) dual de la 1–forma e dφ con componentes φ,ν ′ :
′ ′ ′ ∂φ
φ,µ = g µ ν φ,ν ′ =⇒ φ,r = g rr φ,r + g rθ φ,θ = ,
∂r (2.190)
1 ∂φ
φ,θ = g θr φ,r + g θθ φ,θ = 2 .
r ∂θ
Así, obtenemos que la 1–forma gradiente es e
dφ = (φ,r , φ,θ ) mientras que el correspondiente
vector adopta la forma
1 ∂φ 1 ∂φ
dφ = (φ,r , φ,θ )T = er + 2 eθ , (2.191)
r2 ∂r r ∂θ
que es muy diferente del resultado en las coordenadas usuales: e
dφ = (φ,x , φ,y ) y dφ =
(φ,x , φ,y )T .
Debemos hacer un comentario con respecto a la notación habitual en otros textos. El
gradiente de un vector en coordenadas polares se escribe usualmente como
∂φ 1 ∂φ e ∂φ ê 1 ∂φ ê
dφ = êr + êθ , dφ = dr + dθ. (2.192)
∂r r ∂θ ∂r r ∂θ
Esta es solamente otra forma equivalente de escribir dφ, en donde los vectores base están
normalizados como
er eθ 1
êr = = er , êθ = = eθ . (2.193)
|er | |eθ | r
2.4.4. Derivadas en coordenadas curvilíneas
Ya que conocemos el vector gradiente, podemos vernos tentados a aplicarlo directamente

a otros vectores o tensores. Sin embargo, los tensores son muy diferentes al campo escalar
φ porque están escritos en términos de los vectores base eµ y de las 1–formas ω e µ , que no
son constantes en coordenadas curvilíneas.
Por ejemplo, en coordenadas polares hemos encontrado en (2.185) que er = cos θex +
sen θey y eθ = −r sen θex + r cos θey . Entonces, como ex y ey son constantes, las derivadas
de los vectores base son
∂er
er,r = = 0,
∂r
∂er eθ
er,θ = = − sen θex + cos θey = ,
∂θ r (2.194)
∂eθ eθ
eθ,r = = − sen θex + cos θey = ,
∂r r
∂eθ
eθ,θ = = −r cos θex − r sen θey = −rer .
∂θ
Por medio del ejemplo, aprendemos que, en coordenadas curvilíneas8

∂eµ
eµ,ν = 6= 0. (2.195)
∂xν
De hecho, esta cantidad es tan importante que nos lleva a introducir un ingrediente geomé-
trico adicional para los casos en los que la métrica no es trivial, los símbolos de Christoffel
(de segundo tipo9 ).
Los símbolos de Christoffel Γα µν están definidos mediante
∂eµ
eµ,ν = ≡ Γα µν eα , símbolos de Christoffel (2.196)
∂xν
donde hemos usado el hecho de que, como vimos en el ejemplo de coordenadas pola-
res (2.194), las derivadas de los vectores base son una combinación lineal de los vectores
8
A partir de aquí, omitimos las primas sobre los índices para simplificar la notación.
9
En la literatura, es frecuente encontrar los símbolos de Christoffel de primer tipo, Γαµν = gαλ Γλ µν , que
no emplearemos aquí.
base. Con esta expresión, podríamos interpretar a los símbolos de Christoffel Γα µν como
∂e
la α-ésima componente de ∂xµν . Sin embargo, es importante enfatizar que estas no son
componentes de un tensor, como veremos en la sección 2.4.6.
Para el ejemplo de coordenadas polares, podemos obtener Γα µν directamente de (2.194):
1
Γθ rθ = Γθ θr = , Γr θθ = −r,
r (2.197)
Γr rr = Γθ rr =Γr rθ = Γr θr = Γθ θθ = 0.
En este ejemplo vemos que Γα rθ = Γα θr para α = θ, r. Como estudiaremos en la siguiente

sección, (en ausencia de torsión,) esta es una propiedad general de simetría de los símbolos
de Christoffel, por lo que, en d dimensiones hay d2 (d + 1)/2 símbolos independientes.
2.4.5. Derivada covariante
Como las derivadas eµ,ν 6= 0 en general, entonces los vectores base contribuyen a la
derivada de un vector general V = V µ eµ de la siguiente manera:
∂V
= V µ ,ν eµ + V µ eµ,ν
∂xν
= V µ ,ν eµ + V µ Γα µν eα (2.198)
= V µ ,ν eµ + V α Γµ αν eµ
= (V µ ,ν + V α Γµ αν )eµ .
La primera igualdad se debe a la regla de la cadena; la segunda se debe a la definición de los

símbolos de Christoffel. En la tercera hemos intercambiado los índices α ↔ µ, lo que está
permitido porque son índices contraídos. El resultado (2.198) es similar a V,ν = V µ ,ν eµ ,
obtenido en coordenadas planas, salvo que la derivada de V recibe ahora una corrección
proporcional a Γµ αν debido a la nueva elección de coordenadas. Notando que Γµ αν = 0 en
coordenadas Cartesianas, podemos interpretar el término en paréntesis como la expresión
completa de la derivada de un vector en un sistema coordenado cualquiera. Por lo tanto,
es conveniente definir
V µ ;ν = V µ ,ν + V α Γµ αν , componentes de derivada covariante (2.199)
como las componentes de un tensor de rango (1, 1) llamado derivada covariante de un

vector, tal que
DV = V µ ;ν eµ ⊗ ω
eν . (2.200)
Es evidente que, en una base Cartesiana, V µ ;ν = V µ ,ν . Entonces, la derivada covariante D
es una generalización del gradiente e
d, válida en cualquier sistema coordenado.
Divergencia. Como consecuencia de la introducción de la derivada covariante, la di-

vergencia cambia de forma. En coordenadas Cartesianas, hemos definido las componentes
de la divergencia de V como la contracción V µ ,µ = ∂µ V µ . En coordenadas curvilíneas,
debemos generalizar esto a
D · V = V µ ;µ = V µ ,µ + V α Γµ αµ . (2.201)
Laplaciano. Consideremos una función escalar φ. Su gradiente por componentes está

dado simplemente por
Dµ φ = ∂µ φ, (2.202)
donde el término con los símbolos de Christoffel no aparece porque φ no se expresa en tér-
minos de los vectores base. (De hecho, como veremos a continuación, la derivada covariante
cambia dependiendo de si actúa sobre un escalar, un vector, una 1–forma, un tensor, etc).
El vector dual de la 1–forma gradiente con componentes Dµ φ se define mediante sus
componentes
(Dφ)µ = Dµ φ = g µν Dν φ = g µν ∂ν φ. (2.203)
Para calcular el Laplaciano de φ, podemos aplicar (2.201) a las componentes del vector Dφ
en (2.203), obteniendo
D · D φ = Dµ (Dφ)µ = Dµ (g µν ∂ν φ) = (g µν ∂ν φ),µ + g αν ∂ν φΓµ αµ . (2.204)
Notamos que, si g µν ,µ 6= 0, (2.204) tiene dos términos además del habitual en coordenadas
Cartesianas:
D · D φ = ∂ · ∂φ + ∂ν φg µν ,µ + g αν ∂ν φΓµ αµ , (2.205)
donde ∂ · ∂ = g µν ∂µ ∂ν .
Derivada covariante sobre tensores
La derivada covariante no solamente actúa sobre campos vectoriales y escalares, sino

en cualquier tipo de tensor. Consideremos primero el campo escalar resultado del producto
φ = p µ Aµ , (2.206)
e µ y A = Aµ eµ . Por un lado, aplicando la regla del producto, tenemos que

donde pe = pµ ω
φ;ν = pµ;ν Aµ + pµ Aµ ;ν . (2.207)
Por otro lado, sabemos que φ;ν = φ,ν , lo que implica que
φ;ν = φ,ν = pµ,ν Aµ + pµ Aµ ,ν

= pµ,ν Aµ + pµ Aµ ;ν − Aλ Γµ λν pµ (2.208)
µ λ µ
= (pλ,ν − Γ λν pµ )A + pµ A ;ν ,
donde el segundo renglón proviene de (2.201). De aquí finalmente obtenemos la acción de

la derivada covariante sobre la 1–forma pe
pλ;ν = pλ,ν − Γµ λν pµ . (2.209)
Siguiendo la lógica de nuestra definición de Γµ λν , vemos que esto implica
ω eλ.
e µ ,ν = −Γµ λν ω (2.210)
Estas observaciones son importantes para obtener la forma de la derivada covariante para
cualquier tensor t, tal que
≡B
z }| {
t= tµ1 µ2 ...ν1 ν2 ... eµ1 ⊗ eµ2 ⊗ ... ⊗ ωe ν1 ⊗ ω
e ν2 ⊗ ... . (2.211)
Aplicando la definición de los símbolos de Christoffel y (2.210), encontramos que

∂α t = tµ1 µ2 ...ν1 ν2 ...,α + Γµ1 λα tλµ2 ... ν1 ν2 ... + Γµ2 λα tµ1 λ... ν1 ν2 ... + . . .
(2.212)
− Γρ ν1 α tµ1 µ2 ...ρν2 ... − Γρ ν2 α tµ1 µ2 ...ν1 ρ... − . . . B .
A partir de (2.212), es inmediato definir las componentes de la derivada covariante de

un tensor arbitrario como
Dα tµ1 µ2 ...ν1 ν2 ... ≡ tµ1 µ2 ...ν1 ν2 ...,α + Γµ1 λα tλµ2 ...ν1 ν2 ... + Γµ2 λα tµ1 λ...ν1 ν2 ... + . . .
(2.213)
− Γρ ν1 α tµ1 µ2 ...ρν2 ... − Γρ ν2 α tµ1 µ2 ...ν1 ρ... − . . . ,
que pueden ser también denotadas como tµ1 µ2 ...ν1 ν2 ...;α ≡ Dα tµ1 µ2 ...ν1 ν2 ... . Si t tiene rango
(M, N ), Dt corresponde a un tensor de rango (M, N + 1).
Derivada covariante de la métrica. Primero, es importante recordar que las ecua-
ciones tensoriales son invariantes ante transformaciones (por eso el lenguaje tensorial es
tan conveniente). Esto significa particularmente que, si una ecuación tensorial es válida en
un sistema de coordenadas, debe ser válida para cualquier otro.
Consideremos ahora la derivada covariante de un vector V , con componentes V α ;µ .
Como V α ;µ corresponde a las componentes de un tensor, entonces la aplicación de la
métrica conduce a
Vµ;ν = gµα V α ;ν . (2.214)
Por otro lado, la acción directa de la métrica en V seguida de la derivada covariante,
aplicando la regla de Leibniz, conduce a
Vµ;ν = (gµα V α );ν = gµα V α ;ν + V α gµα;ν . (2.215)

Entonces, comparando (2.214) y (2.215), concluimos que en cualquier sistema de coorde-

nadas
gµα;ν = 0 ⇔ g µα ;ν = 0. (2.216)
Por otra parte, usando la derivada covariante de un tensor de rango (0, 2) de acuerdo
a (2.212), encontramos
!
0 = gµα;ν = gµα,ν − gλα Γλ µν − gµλ Γλ αν ,
(2.217)
⇐⇒ gµα,ν = gλα Γλ µν + gµλ Γλ αν .
Agregando algunas permutaciones a este resultado, encontramos
gµα,ν + gνµ,α − gαν,µ = gλα Γλ µν + gµλ Γλ αν + gλµ Γλ να + gνλ Γλ µα − gλν Γλ αµ − gαλ Γλ νµ

= gαλ (Γλ µν − Γλ νµ ) + gνλ (Γλ µα − Γλ αµ ) + gµλ (Γλ αν + Γλ να ).
(2.218)
Para simplificar esta expresión, recordemos el ejemplo de coordenadas polares, donde

Γλ λ
µν = Γ νµ . Podemos mostrar que esta observación es un resultado general. Con este
propósito, primero veamos que Dµ Dν φ = Dν Dµ φ es una expresión tensorial válida en
coordenadas Cartesianas para todas las funciones escalares φ. Entonces, debe satisfacerse
en cualquier sistema coordenado, es decir,
φ,νµ − φ,λ Γλ νµ = φ,µν − φ,λ Γλ µν , (2.219)
de donde, empleando que φ,νµ = φ,µν , concluimos que10
Γλ µν = Γλ νµ . simetría de símbolos de Christoffel (2.220)
Sustituyendo este resultado en (2.218), vemos que
gµα,ν + gνµ,α − gαν,µ = 2gµλ Γλ αν
y, por lo tanto, obtenemos la expresión
1
Γλ αν = g λµ (gµα,ν + gνµ,α − gαν,µ ). símbolos de Christoffel (sin torsión)
2
(2.221)
10
Es posible concebir espacios en los que Γλ µν 6= Γλ νµ . Se dice que estos espacios están dotados de torsión
λ
y Γ µν − Γλ νµ son las componentes del llamado tensor de torsión asociado (ver ejercicio 2.17).
Esta conclusión resulta muy importante en la práctica para calcular los símbolos de Chris-
toffel en espacios y espacios–tiempo métricos.
Revisitando divergencia y Laplaciano. Ahora podemos simplificar nuestras expre-
siones para la divergencia de un vector V y el Laplaciano de un campo escalar φ.
Un resultado estándar de álgebra lineal basado en la fórmula de Leibniz y Jacobi para
el determinante de una matriz invertible A establece que
∂ det A
= (A−1 )ji det A. (2.222)
∂Aij
Denotando el determinante de la matriz asociada a las componentes del tensor métrico
como |g| ≡ det g, la fórmula (2.222) implica para el determinante de la métrica que
∂|g| ∂xα ∂|g|
= g µν |g| =⇒ = g µν |g|. (2.223)
∂gµν ∂gµν ∂xα
La última ecuación puede reescribirse de la siguiente forma
∂α |g|
= g µν ∂α gµν ⇐⇒ ∂α ln |g| = g µν ∂α gµν = g µν gµν,α . (2.224)
|g|
Empleando los resultados anteriores, es posible reexpresar (2.221), con los índices α y ν
contraídos, en términos de |g| como
1 1
Γµ αµ = g µλ (gαλ,µ + gµλ,α − gαµ,λ ) = (gαλ ,λ + g µλ gµλ,α − gαµ ,µ )
2 2
1 µλ 1 p 1 p (2.225)
= g gµλ,α = ∂α ln |g| = ∂α (ln |g|) = p ∂α |g|.
2 2 |g|
Formalmente, estas ecuaciones son válidas para el valor absoluto del determinante de la
métrica, por lo que las dos últimas igualdades solamente son válidas cuando |g| > 0 (lo
cual no es automático porque |g| denota sólo el determinante de g). En los casos en los que
|g| < 0, como en el espacio–tiempo de Minkowski, |g| debe ser reemplazado por −|g|.
Empleando (2.225) en (2.201), encontramos una nueva expresión para la divergencia
1 p
D · V = V µ ,µ + p V µ ∂µ |g|, (2.226)
|g|
lo que conduce finalmente a
1 p
D · V = p ∂µ V µ |g| . (2.227)
|g|
Como hicimos anteriormente, para obtener el Laplaciano de un campo escalar φ, pode-

mos reemplazar V µ por Dµ φ = g µν ∂ν φ en la expresión para la divergencia de V , obteniendo
1 p
D · D φ = p ∂µ g µν ∂ν φ |g| . (2.228)
|g|
Ejemplo 2.3 Coordenadas polares.

Usemos nuestro ejemplo estándar para verificar algunos de los aspectos discutidos. Primero,
calculemos la divergencia y el Laplaciano.
Para notar las ventajas de las expresiones obtenidas, calcularemos la divergencia me-
diante las dos expresiones (2.201) y (2.226). Para la primera expresión, debemos determinar
Γµ αµ . Usando la expresión explícita de los símbolos de Christoffel (2.197), obtenemos
1
Γµ rµ = Γr rr + Γθ rθ = (2.229)
r
Γµ θµ = Γr θr + Γθ θθ = 0, (2.230)
lo que implica que, de acuerdo a (2.201),
∂V r ∂V θ 1 1 ∂ ∂V θ
D · V = V µ ,µ + V α Γµ αµ = + + Vr = (rV r ) + . (2.231)
∂r ∂θ r r ∂r ∂θ
p
Por otro lado, a partir de (2.226), se obtiene el mismo resultado con |g| = r (ver (2.187)):
1 p 1 1 1
D · V = p ∂µ (V µ |g|) = ∂µ (rV µ ) = ∂r (rV r ) + ∂θ (rV θ ) . (2.232)
|g| r r r
Estos resultados contrastan con la fórmula usualmente encontrada en la literatura para

la divergencia en coordenadas polares,
1 ∂ 1 ∂ V̂ θ
D · V̂ = (rV̂ r ) + , (2.233)
r ∂r r ∂θ
debido a que habitualmente se emplea un vector normalizado V̂ (en lugar de V ) expresado

en términos de los vectores base êµ , que son elegidos ortonormales, es decir, tales que
V̂ = V̂ µ êµ , êµ · êν = δµν . (2.234)
La relación entre las bases {eµ } y {êµ } surge de êµ = eµ /|eµ |, donde |eµ | denota la magnitud
del vector base eµ , como en (2.193). Por lo tanto, como V no debería depender de su base,
!
V̂ = V̂ µ êµ = V̂ µ eµ /|eµ | = V µ eµ = V =⇒ V µ ≡ V̂ µ /|eµ | , (2.235)
lo que para coordenadas polares implica que V̂ r = V r y V̂ θ = rV θ porque |er | = 1 y

|eθ | = r; entonces, las expresiones para D · V y D · V̂ son equivalentes.
Por otro lado, el Laplaciano de un campo escalar φ en coordenadas polares puede
calcularse a partir de (2.228) como sigue:

1 p 1
D · D φ = p ∂µ g µν ∂ν φ |g| = ∂µ (g µν ∂ν φr)
|g| r
1 ∂ rν ∂ θν
= (g ∂ν φr) + (g ∂ν φ)
r ∂r ∂θ (2.236)
1 ∂ rr ∂ θθ
= (g ∂r φr) + (g ∂θ φ)
r ∂r ∂θ
1 ∂ ∂φ 1 ∂2
= r + 2 2φ,
r ∂r ∂r r ∂θ
donde hemos empleado que |g| = r y que la métrica es diagonal.
Para concluir este ejemplo, nos gustaría recuperar la expresión explícita de los símbolos
de Christoffel (2.197) mediante la fórmula obtenida (2.221). Como hemos visto, debido
a la simetría Γλ µν = Γλ νµ , en d dimensiones hay d2 (d + 1)/2 símbolos de Christoffel
independientes. Para d = 2, los 6 símbolos de Christoffel independientes son Γθ rθ , Γr θθ ,
Γθ θθ , Γr rθ , Γr rr y Γθ rr . Por ejemplo,
1 1 1 1 1
Γθ rθ = g θλ (gλr,θ + gθλ,r − grθ,λ ) = g θθ (gθθ,r ) = 2
(2r) = , (2.237)
2 2 2r r
r 1 rλ 1 rr 1
Γ θθ = g (gλθ,θ + gθλ,θ − gθθ,λ ) = − g (gθθ,r ) = − (2r) = −r , (2.238)
2 2 2
que coinciden con nuestro resultado previo, (2.197). El lector también puede convencerse
de que gµν;α = 0 se satisface. Por ejemplo, empleando (2.213), obtenemos
grθ;θ = grθ,θ − gλθ Γλ rθ − grλ Γλ θθ = 0 − r2 /r − (−r) = 0 .
2.4.6. Los símbolos de Christoffel no son tensores
Como V es un vector, entonces esperamos que DV sea un tensor, cuyas componentes

se transforman bajo transformaciones básicas como
′ ′ ′
µ′ ∂xµ ∂xν µ ∂xµ ∂xν µ ∂xµ ∂xν α µ
Dν ′ A = D ν A = ∂ ν A + A Γ αν . (2.239)
∂xµ ∂xν ′ ∂xµ ∂xν ′ ∂xµ ∂xν ′
Por otro lado, también podríamos escribir (DA)′ como
′ ′ ′ ′
Dν ′ Aµ = ∂ν ′ Aµ + Aα Γµ α′ ν ′
′
! ′
∂xν ∂xµ µ ∂xα α µ′
= ∂ ν A + A Γ α′ ν ′
∂xν ′ ∂xµ ∂xα
′ ′ ′
∂xν ∂xµ µ ∂xν µ ∂ 2 xµ ∂xα α µ′
= ∂ ν A + A + A Γ α′ ν ′ , (2.240)
∂xν ′ ∂xµ ∂xν ′ ∂xν ∂xµ ∂xα
′
donde Γµ α′ ν ′ denota los símbolos de Christoffel transformados, que deseamos conocer en
términos de Γµ αν . Comparando (2.239) y (2.240), vemos que el primer término de (2.240)
es idéntico al primero de (2.239), de manera que resulta
′ ′ ′
∂xµ ∂xν α µ α ∂x
ν ∂ 2 xµ ∂xα α µ′
µ ′ A Γ αν = A ν α
+ A Γ α′ ν ′
∂x ∂x ν ν ′
∂x ∂x ∂x ∂xα
y, consecuentemente,
′ ′
µ′ ∂xµ ∂xν ∂xα µ ∂xν ∂xα ∂xµ
⇐⇒ Γ α′ ν ′ = Γ αν − . (2.241)
∂xµ ∂xν ∂xα
′ ′
∂xν ′ ∂xα′ ∂xν ∂xα
Debido a la presencia del segundo término, incompatible de acuerdo a (2.83) con la trans-
formación de un tensor de rango (1, 2), vemos que Γ no puede ser un tensor.
Sin embargo, aunque Γ no es un tensor, cada Γµ sí es un tensor de rango (1, 1), con
componentes (Γµ )λ ν . Esto puede verse sencillamente de la definición de Γλ µν
e e ν = Γλ µν eλ ⊗ ω
deµ = eµ,ν ω eν , (2.242)
donde es claro que para cada vector eµ hay un tensor de rango (1, 1) e
deµ cuyas componentes
son Γλ µν con µ fija.
2.5. Sistemas físicos en espacios no triviales y covariancia

Para poder estudiar sistemas físicos con el formalismo desarrollado en la sección 2.4,
debemos primeramente subrayar que los resultados obtenidos para espacios con métrica
arbitraria se generalizan trivialmente a espacios-tiempo con métrica no trivial. La diferencia
es que, en lugar de comenzar con la métrica Euclidiana, deberemos comenzar con la métrica
de Minkowski y, mediante difeomorfismos, de acuerdo a (2.43), transitar a espacios con
métricas más generales. Salvo por la anotación alrededor de (2.225) en referencia al signo
del determinante de la métrica, todas las expresiones son válidas. Estos nos permite apreciar
el poder de los elementos geométricos desarrollados en la física.
En las secciones 2.2 y 2.3 estudiamos la electrodinámica clásica y la conservación de
energía–momento para fluidos en términos del formalismo covariante, el cual es ideado para
que la física descrita por las ecuaciones en ese formalismo sea invariante bajo difeomorfis-
mos, es decir, que sea la misma para distintos observadores que basen sus mediciones en
diferentes sistemas coordenados.
Sin embargo, debido a que las ecuaciones que contienen las derivadas regulares ∂µ sólo
son invariantes bajo difeomorfismos que conducen a nuevos sistemas coordenados en los
que los símbolos de Christoffel son nulos, el formalismo desarrollado en esas secciones sólo
es válido para cualesquiera observadores con marcos de referencia relacionados por trans-
formaciones que dejen la métrica de Minkowski invariante, es decir, por transformaciones
2.5 Sistemas físicos en espacios no triviales y covariancia 115
de Lorentz. En otras palabras, las expresiones finales obtenidas en las secciones 2.2 y 2.3
son válidas para observadores inerciales, o, en otras palabras, son compatibles sólo con la
relatividad especial.
El origen de este resultado es que la derivada regular no constituye un tensor en un
espacio (o espacio–tiempo) dotado de un tensor métrico no trivial. Como hemos visto en la
sección 2.4.5, la derivada covariante es la única que es compatible con todo difeomorfismo,
constituyendo un tensor, y además se reduce a la derivada regular en el caso en el que la
métrica sea trivial. Por lo tanto, en los sistemas físicos descritos previamente basta con sus-
tituir las derivadas por derivadas covariantes para lograr que sean globalmente covariantes,
como se les denomina a las ecuaciones que son las mismas en los espacios relacionados bajo
cualquier difeomorfismo.
Por lo tanto, las ecuaciones de Maxwell (2.144) y la ecuación de continuidad (2.132) se
expresan en el formalismo covariante como
4π ν
F µν ;µ = J con J µ ;µ = 0 . (2.243)
c
Adicionalmente, las otras ecuaciones de Maxwell descritas por la identidad de Bianchi
electromagnética (2.140) en términos covariantes están dadas por
Fµν;σ + Fνσ;µ + Fσµ;ν = 0, (2.244)
que puede reescribirse en términos de la prescripción de antisimetrización (2.103) como
F[µν;σ] = 0 , (2.245)
considerando que las componentes del tensor de Faraday son antisimétricas, Fµν = −Fνµ .
Por otra parte, también las ecuaciones de conservación de energía–momento (2.166) son
alteradas al formularlas en el formalismo covariante:
T µν ;µ = 0 . (2.246)
Se emplea el término covariancia en lugar de invariancia porque los elementos que

componen las ecuaciones en el formalismo covariante son tensores. Los tensores no son
invariantes bajo difeomorfismos, pero se transforman de forma tal que las ecuaciones ten-
soriales que son válidas en un sistema coordenado son también válidas en otro, si están
relacionados mediante difeomorfismos.
Esta observación conduce al llamado principio de covariancia general que, en física,
establece que las leyes físicas deben adoptar la misma forma matemática en todo sistema
coordenado. El fundamento principal de este principio es que los sistemas coordenados son
solamente estructuras matemáticas que hemos construido los humanos y que nos sirven
para describir nuestras observaciones, pero el universo no está dotado naturalmente de
ningún sistema coordenado específico. Por lo tanto, las leyes físicas no deberían depender
de nuestra elección de coordenadas.
El principio de covariancia no establece explícitamente una conexión con un observador
específico. Sin embargo, recordando que los sistemas de referencia son marcos de referencia
de distintos observadores, notamos que implícitamente los difeomorfismos relacionan las
perspectivas de diferentes observadores. Los difeomorfismos más generales corresponden a
deformaciones del espacio–tiempo que son capaces de alterar su estructura. Por lo tanto,
los marcos de referencia relacionados por distintas transformaciones pueden corresponder
a los de observadores inerciales, rotantes, acelerados, torcidos, etc.. Lo que el principio
de covariancia general significa es que, sin importar el tipo de observadores, si sus mar-
cos de referencia están relacionados mediante difeomorfismos, las ecuaciones en notación
covariante son válidas para todos los observadores.
Evidentemente, entonces, el principio de covariancia general establece una generali-
zación crucial al principio de relatividad, permitiendo que distintos observadores puedan
interpretar y comparar sus mediciones.
2.6. Espacio y espacio–tiempo con curvatura
Como veremos, el logro más importante de la teoría de relatividad de Einstein fue la

identificación del origen del comportamiento de la gravedad descrita por Newton. Einstein
encontró en una “conjetura afortunada” que el campo gravitacional Newtoniano no sólo es
provocado por la presencia de masa, sino que el tensor de energía–momento entero es fuente
de gravedad. A un nivel superior, Einstein descubrió que la geometría del espacio–tiempo
juega un papel fundamental en la descripción de las interacciones gravitacionales. Einstein
notó que su teoría de relatividad especial, válida únicamente para marcos de referencia
inerciales sin gravedad, se trata sólo de un caso particular de la relatividad para un espacio–
tiempo desprovisto de una propiedad importante encontrada regularmente en geometría:
curvatura. La relatividad especial funciona en espacio–tiempo plano, sin curvatura, pero,
tan pronto como el espacio–tiempo exhibe algunas deformaciones, se convierte sólo en
una aproximación (y una muy buena) de la física real. Como hemos visto, existe una
importante relación entre espacio–tiempo plano y observadores inerciales. Entonces, incluir
la gravedad, en donde los observadores son considerados no inerciales, requiere introducir
espacio–tiempo con curvatura y establecer cuál es su conexión con la fuente material de la
gravedad, el tensor de energía–momento.
Para poder discutir los detalles de estos interesantes hallazgos, es preciso comenzar
por definir qué significa que un espacio o espacio–tiempo sean curvos y cómo podemos
determinar el grado de curvatura de éstos.
2.6 Espacio y espacio–tiempo con curvatura 117
Figura 2.3: Dos geodésicas sobre la esfera apuntando hacia el polo norte o sur forman meridianos,
que, por definición, se cruzan en dos puntos. Sin embargo, en una región suficientemente pequeña,
localmente, las líneas pueden parecer paralelas, lo que nos podría hacer creer que el espacio es plano.
2.6.1. Espacio plano contra curvo
En la geometría Euclidiana, como una consecuencia del postulado de paralelismo, dos

líneas paralelas no se cruzan en ningún punto. El espacio–tiempo de Minkowski también
obedece este axioma de paralelismo Euclidiano. Cualquier espacio con esta propiedad se
conoce como plano. Decimos que cualquier espacio que se desvía de ser plano es curvo o
exhibe curvatura. Formalmente, esta propiedad es el resultado de abandonar el axioma de
paralelismo Euclidiano.
Para poder entender cómo sucede la renuncia al axioma de paralelismo, notamos que
las llamadas líneas rectas en geometría Euclideana son las curvas de mínima longitud
que conectan dos puntos del espacio Euclídeo. Intuitivamente, es claro que en un espacio
que consideraríamos curvo, las curvas más cortas que conectan dos puntos de ese espacio,
no son necesariamente lo que conocemos como rectas en espacio Euclídeo. Tales curvas de
mínima longitud son llamadas en espacios más generales curvas geodésicas, si se consideran
únicamente regiones relativamente pequeñas del espacio.11 La descripción detallada de las
geodésicas deberá aguardar a la sección 2.6.3.
El ejemplo más convencional de un espacio curvo es la esfera bidimensional S2 , ilustrada
en la figura 2.3. Como podemos comprobar en nuestra vida cotidiana, en una región pequeña
S2 parece plano. En especial, notamos las líneas más cortas entre dos puntos parecen rectas
y, por lo tanto, parecen obedecer el principio de paralelismo. Entonces, decimos que el
espacio considerado es localmente plano. A pesar de esta propiedad bastante común, al
observar el espacio entero, las curvas se extienden formando grandes círculos sobre S2
(meridianos en la figura), intersecándose en los polos y, por lo tanto, violando el axioma
11
En general, las curvas geodésicas extremizan la longitud entre dos puntos, por lo que frecuentemente
son también llamadas curvas extremales.
espacio tangente TP M
con métrica g(P)
u1 u2 u3 u4 p
u1
(a) (b)
Figura 2.4: (a) Una variedad diferencial M es cubierta por un conjunto de abiertos ui . (b) Una
variedad Riemanniana tiene una métrica asociada a cada espacio tangente TP M a sus puntos P.
de paralelismo. El estudio de espacios como estos es llamado geometría Riemanniana.

Los espacios considerados en geometría Riemanniana son llamados variedades Rieman-
nianas. En general, una variedad m−dimensional M es un espacio cubierto por un conjunto
de subconjuntos abiertos {ui }, tales que ∪i ui = M , donde podemos definir un homeomor-
fismo12 ϕ entre ui y un subconjunto de Rm , como se ilustra en la figura 2.4a. Es decir, toda
variedad es localmente plana y cada localidad es equivalente al espacio Euclídeo. Si, por
su estructura, el espacio permite realizar cálculo diferencial en cada abierto ui , entonces es
una variedad diferenciable.
Una variedad diferenciable M permite definir en cada punto P sobre ella un espacio
tangente TP M , que puede visualizarse como el espacio vectorial de todas las direcciones en
las que es posible pasar tangencialmente por P. Finalmente, una variedad Riemanniana M
es una variedad diferenciable, dotada de un tensor métrico g(P) en cada espacio tangente
TP M de todos sus puntos. La figura 2.4b ilustra el espacio tangente a P, dotado con su
tensor métrico g(P) plano. Debemos destacar que, a pesar de que una variedad Rieman-
niana es localmente plana y, en consecuencia, g(P) es plano, en todos sus puntos P, los
espacios tangentes a cada punto no son los mismos.
2.6.2. Variedades
Como hemos visto en la sección 2.6.1, una variedad es cualquier espacio continuo que
localmente es Rm , aunque la forma (topología) del espacio completo puede ser bastante
diferente a la de la geometría Euclidiana. Algunos ejemplos de variedades son ilustrados
en la figura 2.5.
Es tan general la definición de variedad, que uno podría caer en la tentación de pensar
que un espacio arbitrario es una variedad. Sin embargo, el contraejemplo más simple es
el cono, pues es imposible escoger una región abierta alrededor de su vértice que parezca
localmente un espacio Euclídeo.
12
Un homeomorfismo es una función uno-a-uno, continua e invertible entre dos espacios topológicos.
Sm Tm
Rm
Hiperplano Cilindro Esfera Toro

Figura 2.5: Ejemplos de variedades.
Los ejemplos de variedades mostrados en la figura 2.5 pueden describirse por un conjun-
to de funciones continuas llamadas coordenadas xµ , de manera que las coordenadas de la
variedad son solamente los parámetros libres independientes que parametrizan la variedad.
Las variedades más relevantes para la relatividad son Riemannianas. Sus principales
cualidades son
1. son diferenciables en todas partes, por lo que están dotadas con una conexión; y
2. poseen una métrica localmente plana y compatible con la conexión.
Ambas propiedades requieren una explicación. En espacio plano y coordenadas Cartesianas

estamos acostumbrados a realizar derivadas de, por ejemplo, campos vectoriales tomando
la diferencia del mismo vector evaluado en puntos infinitesimalmente cercanos del espacio.
La diferencia de dos vectores en espacio plano está bien definida. Sin embargo, en espacio
curvo, las derivadas no pueden calcularse de la misma manera. Algo debe hacerse cargo
de la contribución de la curvatura en la derivada. Este es el papel de la conexión: permitir
calcular las derivadas de manera que el formalismo tensorial siga funcionando.
Recordando nuestra discusión en la sección 2.4, hemos aprendido que la derivada co-
rrecta en el lenguaje tensorial es la derivada covariante D, que conserva las propiedades
tensoriales de la 1–forma gradiente e d gracias a los símbolos de Christoffel Γµ λν . Por lo
tanto, son precisamente los símbolos de Christoffel los que juegan el papel de la conexión
en espacio curvo. A este tipo de conexión frecuentemente se le conoce como conexión Rie-
manniana o conexión de Christoffel o conexión de Levi-Civita. Es frecuente en la literatura
encontrar también que la conexión sea identificada con la derivada covariante entera, en
lugar de sólo los símbolos de Christoffel.
Respecto a la segunda propiedad de las variedades Riemannianas, se dice que el tensor
métrico de la variedad, g = gµν ωeµ ⊗ ω
e ν , es localmente plano si en cada punto P de la
variedad se puede elegir un conjunto de coordenadas, tales que g sea equivalente al tensor
métrico del espacio Euclídeo hasta primer orden en sus derivadas, es decir,
gµν (P) = δµν + O((xµ )2 ) ≈ δµν . (2.247)

Espacio localmente con Variedad con con Variedad

(topológico) Variedad
como Rm conexión conexión métrica Riemanniana
Figura 2.6: Las variedades Riemannianas son el subconjunto de todos los espacios topológicos
localmente planos, diferenciables, y dotados de métrica y conexión compatibles.
Es decir, a primera aproximación, gµν (P) = δµν mientras que gµν,ρ (P) = 0. Las segundas
derivadas del tensor métrico pueden ser no nulas, gµν,ρσ (P) 6= 0, lo cual, como veremos,
es una manifestación de la curvatura del espacio. Notemos que todas estas propiedades se
relacionan con un punto P, lo que implica que lejos de P el tensor métrico g(P) puede violar
estas restricciones, pero existirá otro punto en esa región y una elección de coordenadas
para los que se satisfacen.
Por otro lado, la métrica y la conexión son compatibles si13
Dg = 0 ⇐⇒ gµν;ρ = 0, compatibilidad métrica–conexión (2.248)
en todas partes. Vemos que esta sencilla propiedad (que, como vimos en (2.216), es una
propiedad del espacio plano) tiene varias consecuencias para la conexión y la derivada
covariante. En primer lugar, también la derivada covariante del tensor métrico inverso se
anula, Dg −1 = 0; en segundo, la métrica conmuta con la derivada covariante, lo que implica
que
Dµ V µ = Dµ (g µν Vν ) = g µν Dµ Vν = Dν Vν ; (2.249)
y, por último, la conexión puede calcularse mediante la ecuación (2.221).
Dadas las propiedades de la métrica en una variedad Riemanniana, notamos directa-
mente que en un punto P donde la métrica está dada por (2.247) se satisface
Γλ µν = 0 ∀ λ, µ, ν, (2.250)
pero Γλ µν 6= 0 en el resto de la variedad es posible. Más importante, incluso en P, Γλ µν,ρ 6= 0

ocurre siempre si gµν,ρσ 6= 0 para toda elección de coordenadas,14 o sea, si la variedad no
es plana. Entonces podría parecer que una buena y universal señal de curvatura no trivial
de una variedad Riemanniana es que las derivadas de la conexión no sean triviales para
toda elección de coordenadas, es decir,
Γλ µν,ρ 6= 0 ⇐⇒ variedad curva. (2.251)

13
Hay geometrías en las que la conexión y la métrica no son compatibles, estudiadas por vez primera
por Cartan. Ver e.g. W. A. Rodrigues Jr., V. V. Fernandez, A. M. Moya. Metric compatible covariant
derivatives, [arXiv:math/0501561].
14
En espacio plano, es posible encontrar sistemas coordenadas en los que gµν,ρσ 6= 0, pero un simple
cambio de coordenadas conduce a gµν,ρσ = 0 ∀µ, ν, ρ, σ. Esto no ocurre en espacios curvos.
Como veremos, esta conjetura es correcta, pero debemos expresarla en términos de tensores,
que, a diferencia de la conexión de Levi-Civita Γ, son independientes de la base y del marco
de referencia.
Esta discusión se generaliza directamente a variedades pseudo-Riemannianas y Loren-
tzianas. Estas variedades se distinguen de las Riemannianas en que su métrica (y, por lo
tanto, su producto escalar) no es positiva definida. El espacio–tiempo de Minkowski es
la variedad pseudo-Riemanniana más simple, ya que es plana y tiene métrica constante
universal g = η, de signatura (3, 1) en todo punto P, como discutimos en la sección 2.1.4.
Esta observación permite ajustar la definición de planitud local. Una variedad Lorentziana
de signatura (3, 1) es localmente plana si en todos sus puntos P es posible elegir un sistema
de coordenadas en el que
gµν (P) = ηµν + O((xµ )2 ) ≈ ηµν . (2.252)
Todas las afirmaciones sobre la conexión y su compatibilidad con la métrica en una variedad
Riemanniana son igualmente válidas en variedades pseudo-Riemannianas.
2.6.3. Transporte paralelo
El término conexión está íntimamente relacionado con otro concepto importante de la

geometría Riemanniana: el transporte paralelo.
Para entender este concepto, primero recordemos que la introducción intuitiva Rieman-
niana de curvatura se basa en el axioma de paralelismo Euclidiano: si dos líneas rectas no
se cruzan nunca cuando son extendidas, entonces son paralelas. Dichas líneas sólo existen
en espacio plano. Si estas líneas no existen, el espacio debe ser curvo. Entonces vemos
que, sorprendentemente un cilindro es plano mientras que la esfera no, como observamos
esquemáticamente en la figura 2.7.
Pero hemos dicho que la sola idea de una línea recta en espacio curvo es complicada.
¿Cómo podemos estar seguros de que, por ejemplo, las curvas trazadas en la esfera en la
figura 2.7b son lo suficientemente rectas como para poder aplicar el postulado de para-
lelismo? En la figura 2.8 notamos que es posible trazar otras curvas sobre S2 que nunca
perpendicular al ecuador
(b) Como los grandes círculos se intersecan

(a) El axioma de paralelismo se en los polos de S2 , el axioma de paralelismo
cumple en un cilindro. no se satisface y S2 es una variedad curva.
Figura 2.7: Líneas geodésicas en dos variedades Riemannianas.

Figura 2.8: Curvas aparentemente paralelas en S2 . El postulado de paralelismo no se satisface

porque no son geodésicas.
se cruzan. ¿Cómo podemos determinar las curvas que representan la generalización de la

noción de línea recta que tenemos en el espacio plano?
Un método para producir líneas rectas en espacio plano podría consistir en empezar
con un vector T en un punto P y reproducir el mismo vector en su extremo y, seguir así,
como se representa en la figura 2.9. Como T es paralelo a sí mismo en cualquier otro punto
en espacio plano, hemos puesto copias paralelas de T en la curva descrita por T mismo. La
curva puede parametrizarse por un parámetro real λ, mapeando el intervalo λ0 ≤ λ ≤ λ1
a la variedad M (en este caso, el espacio plano), es decir, la curva está dada por
xµ (λ) : R → M, λ0 ≤ λ ≤ λ1 , (2.253)
tal que el vector T tiene las componentes dadas por
dxµ
Tµ = . (2.254)
dλ
Claramente, la línea recta que hemos generado en espacio (o espacio–tiempo) plano

debe satisfacer
d
T = 0, (2.255)
dλ
porque el vector T no debe cambiar a lo largo de la curva. Como T = T µ eµ , podemos
Figura 2.9: Una línea recta en espacio plano mediante transporte paralelo.
reescribir la ecuación (2.255) empleando (2.198) y (2.254) como
d dxν dxν µ dxν µ

T = T,ν = (T eµ ),ν = (T ,ν + T α Γµ αν )eµ
dλ dλ dλ dλ (2.256)
dxν µ
= T ;ν eµ = 0,
dλ
que implica que una línea recta está descrita por
dxν ∂ dxµ µ dxν dxα

+ Γ αν = 0, (2.257)
dλ ∂xν dλ dλ dλ
o bien, por

d dxµ dxν dxα
+ Γµ αν = 0. ecuación de la geodésica (2.258)
dλ dλ dλ dλ
Vemos que en coordenadas Cartesianas la ecuación anterior se traduce a
d2 xµ
=0 =⇒ xµ (λ) = aµ λ + bµ , aµ , bµ = cte, (2.259)
dλ2
que es precisamente la ecuación de una línea recta.
Como no supusimos nada sobre la geometría del espacio en la ecuación (2.255), si
Γµ αν establece la conexión de la variedad, la expresión (2.258) debe describir las curvas
más rectas posibles en espacio curvo. Como hemos dicho antes, precisamente estas curvas
son llamadas geodésicas. Las líneas rectas son las geodésicas del espacio plano. Es posible
mostrar que las curvas trazadas en la figura 2.8 no son geodésicas y, por lo tanto, a pesar
de que aparentan ser paralelas, no nos permiten emplear el postulado de paralelismo para
saber si la esfera es curva o no. Sin embargo las curvas trazadas en la figura 2.7b sí son
geodésicas.
Revisemos nuestro procedimiento de forma más general. Para obtener la ecuación de
dx
la geodésica (2.258), hemos descrito una curva en donde T = dλ se transporta tal que
T permanece paralelo a su instancia previa. Notemos que, por definición, T es un vector
tangente a la curva xµ (λ), como en la figura 2.10.
T (λ1 ) T (λ2 )
xµ (λ 1) xµ (λ 2)
xµ (λ)
Figura 2.10: Transporte paralelo de un vector T a lo largo de la curva xµ (λ).
El parámetro λ ha sido escogido arbitrariamente. Dos parámetros λ y λ′ relacionados

por una transformación afín,
λ′ = aλ + b, a, b ∈ R , (2.260)
conducen a los mismos resultados. A los parámetros con esta relación se les conoce como
afines. Entonces podemos escribir la ecuación de la geodésica en términos de λ′ en lugar
de λ. Esta información es relevante porque resulta que el tiempo propio τ , definido en
la sección 1.4, es uno de esos parámetros afines, el cual puede resultar muy útil en las
situaciones en las que es posible usarlo (para e.g. observadores masivos).
Interesantemente, las geodésicas son curvas muy especiales. En espacio plano, la dis-
tancia más corta entre dos puntos es la línea recta. En espacio curvo, las trayectorias que
minimizan la distancia entre dos puntos están determinadas por el mínimo de la longitud
Z
p
S= ds , ds = gµν dxµ dxν , (2.261)
curva
donde ds es llamado elemento diferencial de línea, claramente relacionado con el intervalo

en la variedad, y la integral es a lo largo de una trayectoria dada. Como mostramos explí-
citamente en el apéndice A, el cálculo variacional permite verificar que la trayectoria que
minimiza (2.261) es justamente (2.258), es decir, una geodésica, siempre que el parámetro
afín empleado sea el tiempo propio τ o, equivalentemente, s.
En términos del tiempo propio, la ecuación de la geodésica (2.258) adopta la forma
d2 xµ µ dxν dxα
= −Γ αν . (2.262)
dτ 2 dτ dτ
Identificamos inmediatamente que el lado izquierdo de la igualdad es la 4–aceleración A
definida en (1.65), que es proporcional a la 4–fuerza con componentes f µ = mA µ . Por esta
razón, al lado derecho de la ecuación anterior se le llama usualmente 4–fuerza inercial.
Este resultado es sorprendente porque significa que hay fuerzas que surgen directamente
a partir de propiedades puramente geométricas del espacio. Si esta fuerza inercial fuera
conservativa, el lado derecho de (2.262) sería el el gradiente de un potencial de la fuerza,
−∂ µ φ. Así que, de alguna forma, la geometría parece funcionar como fuente de un campo
de fuerzas, independientemente de cualquier otro campo potencial que se imponga en esa
geometría. Por lo tanto, es natural concebir que la única fuerza que percibe una partícula
libre inmersa en una geometría dada es la fuerza inercial (2.262) y, en consecuencia, se
mueve en la trayectoria descrita por una geodésica (ver ejercicio 2.379).
Por otra parte, dado que las componentes de la 4–velocidad se definen como U µ =
dxµ /dτ , empleando d/dτ = U α ∂α y la derivada covariante de U según (2.199), podemos
reescribir la ecuación de la geodésica (2.262) como
U α U µ ;α = 0 . ecuación de la geodésica (2.263)

La suma sobre el índice α impide simplificar más esta expresión. Esta forma de la ecuación
de la geodésica será frecuentemente más útil que (2.258).
El procedimiento que hemos empleado para describir las trayectorias geodésicas es lla-
mado transporte paralelo de un vector.Análogamente, podemos transportar paralelamente
a lo largo de una curva xµ (λ) cualquier otro tensor. Para transportar paralelamente un
vector arbitrario V , debemos exigirle que no sea alterado a lo largo de una trayectoria
parametrizada por un parámetro afín λ. Es decir, debe satisfacer (2.255),
dV
=0 (2.264)
dλ
la cual es equivalente a
dxµ ∂V
= T µ V ν ;µ eν = 0 ⇐⇒ T µ V ν ;µ = 0 , (2.265)
dλ ∂xµ
conduciendo finalmente a la llamada ecuación de transporte paralelo para un vector,
dV µ
+ Γµ αν V α T ν = 0, transporte paralelo de V (2.266)
dλ
donde T ν = dxν /dλ.

La ecuación (2.266) es una ecuación diferencial de primer orden soluble. Por lo tanto,
dado un valor para el vector V en λ0 , (2.266) determina V en cualquier valor del parámetro
afín. Para descubrir la solución general de (2.266), definamos W µ α ≡ −Γµ αν T ν y tomemos
el ansatz
V µ (λ) = P µ ρ (λ, λ0 )V ρ (λ0 ), (2.267)
donde P µ ρ es el propagador paralelo de cualquier vector V a lo largo de xµ (λ) de λ0 a λ
(con la condición trivial P µ ρ (λ0 , λ0 ) = 1), vemos que
dV µ d µ
= W µαV α ⇐⇒ P ρ (λ, λ0 ) = W µ α (λ)P α ρ (λ, λ0 ), (2.268)
dλ dλ
cuya solución es (omitiendo índices, para simplificar la notación)
X∞ Z Z Z Z λ2
1 λ λn λn−1
P (λ, λ0 ) = 1 + ··· W(λn )W(λn−1 ) · · · W(λ2 )W(λ1 )dλ1 · · · dλn
n! λ0 λ0 λ0 λ 0
n=1
Z λ
′ ′
≡ exp W(λ )dλ , (2.269)
λ0
mientras que λ ≥ λn ≥ . . . ≥ λ1 . Notemos que esta expresión es bastante parecida a las

series de Dyson que aparecen en la mecánica cuántica.
A
A C Vf C
Vi Vf Vi
(a) Transporte paralelo a lo largo (b) Transporte paralelo en la esfera

de la curva ABC en espacio plano. S2 .
Figura 2.11: Transporte paralelo de un vector V en circuitos. Mientras que en (a) espacio plano el
vector, tras ser transportado paralelamente, no cambia, i.e. Vi = Vf , en (b) la esfera sí, i.e. Vi 6= Vf .
Vemos que la ecuación de la geodésica es realmente un caso particular de la ecuación del

transporte paralelo (2.266) para V µ = T µ , el vector tangente a la trayectoria de transporte.
Para obtener la ecuación que rige el transporte paralelo de un tensor arbitrario t =
tµ1 µν21... e ν1 ⊗ ω
ν2 ... eµ1 ⊗ eµ2 ⊗ · · · ⊗ ω e ν2 · · · , imponemos la condición
dt
= 0, (2.270)
dλ
que se satisface, en analogía con (2.256), cuando
T µ tµ1 µν21...
ν2 ...;µ = 0 (2.271)
y que es equivalente a
dtµ1 µν21...
ν2 ...
+ Γµ1 αν tαµ2ν...
1 ν2 ...
T ν + Γµ2 αν tµ1 α... ν α µ1 µ2 ... ν
ν1 ν2 ... T + . . . − Γ ν1 ν t αν2 ... T − . . . = 0. (2.272)
dλ
Una consecuencia interesante de la curvatura es que el transporte paralelo de un tensor

en circuitos cerrados en general no lleva de regreso al mismo tensor, como se observa en la
figura 2.11 al transportar un vector.
En la figura 2.11a, se muestra que el transporte paralelo de un vector a lo largo de un
triángulo conduce al mismo vector en espacio plano, mientras que, como se muestra en la
figura 2.11b, conduce a uno muy diferente en la 2–esfera S2 . Dado que Vf es el resultado
de actuar sobre Vi , es concebible establecer una relación entre estos tensores de la forma
Vf = AVi , (2.273)
donde A es una matriz de transformación cuya dimensionalidad iguala la de la variedad.

En espacio plano, es claro que A = 1. Sin embargo, en general, A es un elemento no trivial
de un grupo conocido como el grupo de holonomía, denotado Hol(D), donde D se refiere
a la conexión de Levi-Civita, de la variedad. Como mostramos en el siguiente ejemplo, el
grupo de holonomía de S2 es el de rotaciones en dos dimensiones, SO(2), y, por lo tanto,
A puede representarse como una matriz de rotación,

cos ζ sen ζ
A= , (2.274)
− sen ζ cos ζ
para algún ángulo ζ que depende de los detalles de cada circuito cerrado. Claramente, Vf
depende de la curva tomada para transportar paralelamente, incluso si el punto inicial (y
final) no cambian. El conjunto de todos los vectores transportados paralelamente a lo largo
de todas las posibles trayectorias cerradas en un punto P genera el espacio tangente Tp S 2 .
Ejemplo 2.4 Transporte paralelo en S2 .

Parametrizar una esfera de radio R fijo requiere dos coordenadas. Considerando R = 1, las
distancias sobre la esfera S2 se pueden determinar mediante el intervalo
ds2 = dθ2 + sen2 θdϕ2 . (2.275)
A partir de ds2 = gµν dxµ dxν , encontramos que la métrica y su inversa adoptan la forma

1 0 µν 1 0
(gµν ) = , (g ) = , (2.276)
0 sen2 θ 0 sen12 θ
donde θ es el ángulo de latitud, como se muestra en la figura 2.12.
Consideremos el transporte paralelo en S2 de un vector V = V µ eµ a lo largo de una
línea de latitud constante θ0 . La trayectoria está descrita por
(xµ ) = (θ0 , ϕ), (2.277)
0<θ≤π
θ 0 < ϕ ≤ 2π
Figura 2.12: Ángulos θ y ϕ en la esfera.

de donde obtenemos (usando ϕ como parámetro afín)

ν
ν dx
(T ) = = (0, 1)T . (2.278)
dϕ
La ecuación de transporte paralelo para V µ , de acuerdo a (2.265), es
V µ ;ν T ν = 0 (2.279)
que equivale a exigir
V µ ,ϕ + Γµ αϕ V α = 0 ⇐⇒ V µ ,ϕ + Γµ θϕ V θ + Γµ ϕϕ V ϕ = 0. (2.280)
Empleando la métrica, encontramos que los únicos símbolos de Christoffel distintos de cero
son
cos θ
Γθ ϕϕ = − sen θ cos θ, Γϕ θϕ = Γϕ ϕθ = . (2.281)
sen θ
Se obtiene que las ecuaciones diferenciales para V µ ,ϕ a lo largo de una trayectoria de latitud
constante están dadas por el sistema de ecuaciones acopladas
∂ϕ V θ − sen θ0 cos θ0 V ϕ = 0,
cos θ0 θ (2.282)
∂ϕ V ϕ + V = 0.
sen θ0
Diferenciando una vez más y sustituyendo las ecuaciones (2.282), obtenemos
∂ϕ2 V θ − sen θ0 cos θ0 ∂ϕ V ϕ = ∂ϕ2 V θ + cos2 θ0 V θ = 0 ,

cos θ0 (2.283)
∂ϕ2 V ϕ + ∂ϕ V θ = ∂ϕ2 V ϕ + cos2 θ0 V ϕ = 0 .
sen θ0
Las ecuaciones diferenciales resultantes corresponden a ecuaciones de onda desacopladas
de frecuencia cos θ0 , por lo que sus soluciones están dadas por
V θ (ϕ) = A cos(ϕ cos θ0 ) + B sen(ϕ cos θ0 ) ,
(2.284)
V ϕ (ϕ) = C cos(ϕ cos θ0 ) + D sen(ϕ cos θ0 ) ,
donde A, B, C y D son constantes a determinar.
Consideremos la condición inicial en ϕ = 0 dada por
(V µ )|ϕ=0 = (V0θ , V0ϕ )T . (2.285)
Evaluando en la posición inicial las ecuaciones diferenciales acopladas originales (2.282),
obtenemos la condición sobre las derivadas

∂ϕ V θ ϕ=0 = V0ϕ sen θ0 cos θ0 ,
cos θ0 (2.286)
∂ϕ V ϕ ϕ=0 = −V0θ .
sen θ0
Imponiendo estas condiciones, podemos determinar las constantes de la solución propues-

ta (2.284):
!
∂ϕ V θ ϕ=0 = B cos θ0 = V0ϕ sen θ0 cos θ0 , (2.287)
!
V θ (0) = A = V0θ , (2.288)
! cos θ0
∂ϕ V ϕ ϕ=0 = D cos θ0 = −V0θ , (2.289)
sen θ0
!
V ϕ (0) = C = V0ϕ . (2.290)
Por lo tanto, las expresiones finales para V θ y V ϕ son
V θ = V0θ cos(ϕ cos θ0 ) + V0ϕ sen θ0 sen(ϕ cos θ0 ),

V0θ (2.291)
V ϕ = V0ϕ cos(ϕ cos θ0 ) − sen(ϕ cos θ0 ).
sen θ0
Si V0 = eθ (es decir, V0θ = 1 y V0ϕ = 0) en ϕ = 0, las ecuaciones (2.291) adoptan la forma
V θ (ϕ) = cos(ϕ cos θ0 ),

1 (2.292)
V ϕ (ϕ) = − sen(ϕ cos θ0 ).
sen θ0
Claramente, el vector resultante tras un circuito completo, ϕ = 0 → ϕ = 2π, coincide con
el inicial sólo si se satisface
V θ (2π) = cos(2π cos θ0 ) = V0θ = 1,

sen(2π cos θ0 ) (2.293)
V ϕ (2π) = − = V0ϕ = 0,
sen θ0
lo cual sólo ocurre si cos θ0 = 0, es decir, si la trayectoria de la latitud constante es el
ecuador, definido por θ0 = π2 . En general, a partir de la primera igualdad de (2.293),
concluimos que el transporte paralelo de cualquier vector V alrededor de un paralelo con
ángulo θ0 resulta en que V (2π) es una rotación de V (0) por un ángulo cos θ0 sobre el plano
tangente al punto de inicio y fin de la trayectoria.
Reformulando y resolviendo las ecuaciones diferenciales en términos del vector renor-
malizado15 V̂ = (V θ , sen θ V ϕ )T , las soluciones (2.291) por θ = θ0 fijo se pueden reescribir
como
V̂ θ (ϕ) = V̂0θ cos(ϕ cos θ0 ) + V̂0ϕ sen(ϕ cos θ0 ),

(2.294)
V̂ ϕ (ϕ) = V̂0ϕ cos(ϕ cos θ0 ) − V̂0θ sen(ϕ cos θ0 ),
15
El vector renormalizado está dado por (2.234) y (2.235).
de donde observamos que la relación entre V̂ (ϕ = 2π) y V̂ (ϕ = 0) está dada por

θ θ
V̂ cos(2πω) sen(2πω) V̂0
= , ω = cos θ0 ∈ (−1, 1) . (2.295)
V̂ ϕ − sen(2πω) cos(2πω) V̂0ϕ
ϕ=2π
Es decir, la matriz que relaciona V (2π) con V (0) es una representación bidimensional del
grupo de rotaciones SO(2).
2.7. Tensor de Riemann

Como hemos visto, una variedad es curva sólo si Γα βµ,ν 6= 0 en todo sistema coordena-
do. Entonces las derivadas de los símbolos de Christoffel podrían ser una medida útil de
curvatura. Sin embargo, no son tensores y no es obvio cómo generalizarlos a tensores.
Por otro lado, como hemos ilustrado en el ejemplo 2.4, en una variedad con curvatura el
efecto del transporte paralelo sobre tensores a lo largo de un circuito cerrado es no trivial,
por lo que el grupo de holonomía es no trivial cuando existe curvatura.
Podemos combinar ambas observaciones para obtener una medida tensorial de la curva-
tura. Consideremos el transporte paralelo de un vector en el circuito ABCD representado
en la figura 2.13, donde δaµ , δaν se consideran como valores constantes infinitesimalmente
pequeños a lo largo de las direcciones fijas xµ o xν , tales que los tensores casi no cambian
con el transporte paralelo a lo largo de las trayectorias. Consideremos que V = Vi en la
posición inicial A. A partir de la ecuación del transporte paralelo de un vector V ,
ν
dV β β α ν ∂V β β α dx
+ Γ αν V T = 0 =⇒ + Γ αν V = 0, (2.296)
dλ ∂xν dλ
obtenemos la ecuación diferencial a lo largo de xν (para ν fija)
V β ,ν = −Γβ αν V α ∀β (2.297)
para las componentes del vector. Esta expresión es válida sólo si suponemos que la trayec-
toria a lo largo de la que se transporta el vector V depende únicamente de la dirección fija
xν , tal que dxµ /dλ = 0 para µ 6= ν.
Para calcular el cambio en V como un efecto del transporte paralelo a lo largo de la
curva AB en la dirección xν , podemos emplear
Z B Z B
∂V β ν
AB : V β (B) = Viβ + ν
dx = V i
β
− Γβ αν V α dxν , (con ν fija), (2.298)
A ∂x A
donde la integral es a lo largo de la dirección fija xν (entonces, no hay suma sobre ν) y Vi

denota el vector V en su forma original desde A. Podemos usar fórmulas similares para las
2.7 Tensor de Riemann 131
xµ = aµ
xµ = aµ + δaµ
B xν = aν + δaν
C
xν
A xν = aν
D
xµ
Figura 2.13: Circuito ABCD a lo largo del cual un vector V es transportado paralelamente.
trayectorias BC, CD y DA:

Z C
β β
BC : V (C) = V (B) − Γβ αµ V α dxµ , (con µ fija), (2.299)
B
Z D
CD : V β (D) = V β (C) − Γβ αν V α dxν , (con ν fija), (2.300)
C
Z A
β β
DA : Vf = V (D) − Γβ αµ V α dxµ , (con µ fija), (2.301)
D
donde Vf denota la forma final de V después del transporte paralelo en el circuito ABCD.
Si el espacio es curvo, esperamos que
δV β ≡ Vfβ − Viβ 6= 0. (2.302)
En términos de las integrales, δV β se convierte en
Z B Z D Z C Z A
β β α ν β α ν β α µ
δV = − Γ αν V dx − Γ αν V dx − Γ αµ V dx − Γβ αµ V α dxµ . (2.303)
A C B D
Vemos que a lo largo de cada intervalo recorrido, el integrando debe evaluarse en valores
fijos de xµ o xν , dependiendo de la dirección. Por ejemplo, en la trayectoria AB debemos
evaluar el integrando con xµ = aµ , mientras que xµ = aµ + δaµ debe usarse a lo largo CD.
Como δaµ y δaν son pequeños, tenemos que
∂

(Γβ αν V α ) µ µ µ ≈ (Γβ αν V α ) µ µ + δaµ µ (Γβ αν V α ) µ µ (2.304)
x =a +δa x =a ∂x x =a
es una buena aproximación. Con esto en mente, vemos que, por ejemplo,
Z B Z D
β α ν
− Γ αν V dx − Γβ αν V α dxν ≈ (2.305)
A C
Z B Z D Z D
ν β α ν β α µ
− dx (Γ αν V ) µ µ − dx (Γ αν V ) µ µ − δa dxν (Γβ αν V α ),µ µ µ ,
A x =a C x =a C x =a
que, usando Z Z
B D
ν ν
dx = δa y dxν = −δaν (2.306)
A C
y la suposición de que Γβ αν V α y sus derivadas apenas cambian con xν , obtenemos
Z B Z D
β α ν
− Γ αν V dx − Γβ αν V α dxν ≈ δaν (−Γβ αν V α + Γβ αν V α ) + δaµ δaν (Γβ αν V α ),µ .
A C
(2.307)
Repitiendo estos pasos para las integrales restantes en (2.303), conseguimos finalmente
δV β ≈ δaµ δaν (Γβ αν V α ),µ − δaµ δaν (Γβ αµ V α ),ν
= δaµ δaν [Γβ αν,µ V α − Γβ αν Γα γµ V γ − Γβ αµ,ν V α + Γβ αµ Γα γν V γ ] (2.308)
µ ν β β γ β β γ α
= δa δa [Γ αν,µ −Γ γν Γ αµ −Γ αµ,ν +Γ γµ Γ αν ]V ,
(sin sumar sobre µ, ν) donde hemos empleado (2.297) e intercambiamos los índices γ y α en
los dos términos con V γ en el paso intermedio. Es útil definir la cantidad en los corchetes
como el tensor de Riemann o el tensor de curvatura de Riemann
Rβ αµν ≡ Γβ αν,µ − Γβ γν Γγ αµ − Γβ αµ,ν + Γβ γµ Γγ αν . tensor de Riemann (2.309)
Aplicando la definición de derivada covariante, es posible comprobar que el tensor de

Riemann también resulta del conmutador [Dµ , Dν ] ≡ Dµ Dν − Dν Dµ actuando sobre un
vector arbitrario (ejercicio 2.18),
[Dµ , Dν ]V β = Rβ αµν V α . (2.310)
Esta expresión, que en matemáticas es considerada la definición del tensor de Riemann,
significa que también al transportar V a lo largo de las direcciones xµ y xν en ese orden
y luego en el order inverso conduce a distintos resultados, cuya diferencia es caracterizada
por el tensor de Riemann. Además, (2.310) permite hacer una anotación adicional. Debido
a que el lado izquierdo de la expresión es enteramente tensorial (contiene sólo componentes
de tensores), también el lado derecho debe serlo. De esta forma, comprobamos que Rβ αµν
son las componentes de un tensor; por lo tanto, sus componentes se deben transformar
ante difeomorfismos como
′
∂xβ ∂xα ∂xµ ∂xν β
β′
R α ′ µ′ ν ′ = R αµν , (2.311)
∂xβ ∂xα′ ∂xµ′ ∂xν ′
como verificamos usando las propiedades de transformación de la conexión en el apéndice B.
La relación (2.310) puede generalizarse para cualquier tensor empleando (2.213) (ejer-
cicio 2.18) como
[Dµ , Dν ]tµ1 µν21... µ1 αµ2 ... µ2 µ1 α...
ν2 ... = R αµν t ν1 ν2 ... + R αµν t ν1 ν2 ... + . . .
(2.312)
− Rα ν1 µν tµ1 µαν
2 ...
2 ...
− Rα ν2 µν tµ1 µν21...
α... − . . . ,
2.7 Tensor de Riemann 133
lo que implica que, en espacio o espacio–tiempo curvo, las derivadas covariantes no con-
mutan.
Una observación significativa sobre el tensor de Riemann es que la expansión de la
métrica hasta segundo orden en xµ , al centrar el sistema coordenado en cualquier punto
de una variedad Riemanniana, se puede expresar como
1
gµν ≈ δµν − Rµναβ xα xβ , (2.313)
3
donde
Rµναβ = gµλ Rλ ναβ .
La expansión (2.313) muestra que el tensor de Riemann es una forma de “medir” qué tan
grandes son las desviaciones de la métrica curva con respecto a la métrica plana. El mismo
resultado aplica para variedades Lorentzianas, en las que solamente es preciso reemplazar
δµν por ηµν .
2.7.1. Simetrías del tensor de Riemann
El tensor de Riemann tiene un número de propiedades de simetría que podemos observar

fácilmente si consideramos una localidad alrededor de un punto P de la variedad. Como la
variedad es localmente plana, entonces g αβ ,σ = 0 locamente, lo cual implica que alrededor
de cada punto
1
Γα µν,σ = g αβ (gβµ,νσ + gβν,µσ − gµν,βσ ), (2.314)
2
y, como Γα µν = 0 en espacio plano con coordenadas Cartesianas,
1 βγ
Rβ αµν = Γβ αν,µ − Γβ αµ,ν = g (gγα,νµ + gνγ,αµ − gαν,γµ − gγα,νµ − gµγ,αν + gαµ,γν )
2
1 βγ
= g (gνγ,αµ − gαν,γµ + gαµ,γν − gµγ,αν ).
2
(2.315)
Bajando el primer índice mediante el tensor métrico, se obtiene
1
R αβµν = gαλ Rλ βµν = gαλ g λγ (gνγ,βµ − gβν,γµ + gβµ,γν − gµγ,βν )
2 | {z }
=δα γ (2.316)
1
= (gνα,βµ − gβν,αµ + gβµ,αν − gµα,βν ).
2
Como hemos visto, el tensor métrico es simétrico, por lo que podemos verificar las siguientes
relaciones (ejercicio 2.18):
R αβµν = −R βαµν , (2.317)
R αβµν = −R αβνµ , (2.318)
R αβµν = R µναβ . (2.319)
Como estas relaciones son tensoriales, deben ser válidas para cualquier sistema de coorde-
nadas posible sobre los distintos puntos de la variedad; es decir, estas relaciones son válidas
sobre toda la variedad, no sólo localmente. Además, es posible verificar la propiedad cíclica
R αβµν + R ανβµ + R αµνβ = 0. (2.320)
Las propiedades de simetría del tensor de Riemann indican que no todas sus compo-
nentes son independientes. De (2.317) y (2.318) concluimos que cada par de índices es
antisimétrico; en d dimensiones obtenemos 12 d(d − 1) componentes independientes para
cada par, y después, usando la propiedad simétrica (2.319), podemos determinar que el
número de componentes libres es

1 1 1 1
d(d − 1) d(d − 1) + 1 = d(d − 1)(d2 − d + 2) . (2.321)
2 2 2 8
Sin embargo, la propiedad cíclica de los últimos índices, (2.320), impone

d!
(2.322)
(d − 4)! 4!
restricciones, reduciendo el número de grados de libertad del tensor de curvatura a
1 1
Cd = d(d − 1)(d2 − d + 2) − d(d − 1)(d2 − 5d + 6)
8 24
1
= d(d − 1)(3d − 3d + 6 − d2 + 5d − 6)
2 (2.323)
24
1
= d2 (d2 − 1),
12
en d dimensiones. Por lo tanto, en cuatro dimensiones hay solamente C4 = 20 componentes
independientes.
2.8. Identidades de Bianchi, tensores de Ricci y Einstein

De la expresión local (2.316) para R αβµν , vemos que alrededor de cada punto de la
variedad
1
R αβµν,λ = (gνα,βµλ − gβν,αµλ + gβµ,ανλ − gµα,βνλ ). (2.324)
2
Análogamente, para algunas permutaciones de índices, encontramos
1
R αβλµ,ν = (gµα,βλν − gβµ,αλν + gβλ,αµν − gλα,βµν ) (2.325)
2
1
R αβνλ,µ = (gλα,βνµ − gβλ,ανµ + gβν,αλµ − gνα,βλµ ). (2.326)
2
2.8 Identidades de Bianchi, tensores de Ricci y Einstein 135
Al sumar estas tres expresiones, encontramos que localmente (en espacio plano) debe sa-
tisfacerse
R αβµν,λ + R αβλµ,ν + R αβνλ,µ = 0. (2.327)
Esta expresión puede generalizarse para la variedad completa con la ecuación tensorial
R αβµν;λ + R αβλµ;ν + R αβνλ;µ = 0, identidad de Bianchi geométrica (2.328)
que es conocida como identidad de Bianchi geométrica. La identidad de Bianchi puede

escribirse de manera alternativa como R αβ[µν;λ] = 0 usando las propiedades de simetría del
tensor de Riemann.
Para descubrir la importancia de las identidades de Bianchi, definimos algunas contrac-
ciones útiles del tensor de Riemann descubiertas por Ricci:
R αβ ≡ Rµ αµβ = g µν R ναµβ , (2.329)

µν µ µν αβ
R ≡ g R µν = R µ =g g R αµβν . (2.330)
La ecuación (2.329) define las componentes del tensor de Ricci, las cuales pueden expresarse
explícitamente, al reemplazar (2.309) en (2.329), como
Rαβ = Γµ αβ,µ − Γµ γβ Γγ αµ − Γµ αµ,β + Γµ γµ Γγ αβ . (2.331)
Notamos directamente que el tensor de Ricci es simétrico, es decir, R αβ = R βα . La ecua-

ción (2.330) define el llamado escalar de Ricci. Vemos que, como ambos surgen de R αβµν ,
también deben contener información importante acerca de la curvatura del espacio.
Con estas definiciones, podemos ver que la identidad de Bianchi puede contraerse,
obteniendo la identidad de Bianchi contraída16
g αµ (R αβµν;λ + R αβλµ;ν + R αβνλ;µ )
= R βν;λ + Rµ βλµ;ν + Rµ βνλ;µ ) (2.332)
µ
= R βν;λ − R βλ;ν + R βνλ;µ = 0.
Esta identidad establece una relación entre las derivadas de los tensores de Riemann y de
Ricci. Una relación mucho más importante se obtiene al contraer la identidad de Bianchi
una vez más
g βν (R βν;λ − R βλ;ν + Rµ βνλ;µ ) = R;λ − Rν λ;ν + Rµν νλ;µ

= R;λ − Rν λ;ν − Rνµ νλ;µ
= R;λ − 2Rν λ;ν = R;λ − 2gλµ Rνµ ;ν = 0. (2.333)
16
Usamos la compatibilidad de la métrica, g αµ ;λ = 0.
Si definimos el tensor de Einstein como
1
Gµν ≡ Rµν − g µν R tensor de Einstein (2.334)
2
y reescribimos la última igualdad de la ecuación (2.333), encontramos que

1 λµ µν νµ 1 νµ
g R;λ − R ;ν = − R − g R = −Gµν ;ν = 0, (2.335)
2 2 ;ν
donde empleamos la simetría de Rµν y gµν , que implica también que Gµν = Gνµ .
Este es un resultado muy interesante. Vemos que Dµ Gµν = 0 se parece a la ecuación
de conservación energía–momento para un sistema de muchas partículas, Dµ T µν = 0. De
hecho, este parecido es mucho más que eso, como Einstein descubrió. Como discutiremos
en el siguiente capítulo con todo detalle, esta comparación revela que el tensor (geométri-
co) de Einstein y el tensor de energía–momento están relacionados mediante las llamadas
ecuaciones de campo de Einstein
8πGN µν 8πGN
Gµν = T ≡ κT µν , κ≡ , ecs. de campo de Einstein (2.336)
c4 c4
donde GN es la constante gravitacional de Newton. Esto denota las 21 d(d + 1) ecuaciones

de campo de Einstein y, como veremos en breve, son el núcleo de la relatividad general.
2.9. Vectores de Killing y simetrías del espacio–tiempo*

Como hemos visto en el capítulo anterior, las transformaciones de Lorentz son difeo-
morfismos de la métrica de Minkowski que la dejan invariante, es decir, son isometrías
de la métrica de Minkowski. Debido a esta propiedad, cualesquiera marcos de referencia
relacionados por una transformación de Lorentz son equivalentes y, por lo tanto, la física
observada en esos marcos de referencia es la misma. En otras palabras, las transformaciones
de Lorentz son simetrías de sistemas físicos basados en la geometría del espacio–tiempo de
Minkowski.
En general, toda isometría de una métrica dada corresponde a una simetría del espacio–
tiempo correspondiente. En esta sección estudiamos una forma útil de caracterizar las
simetrías del espacio–tiempo y, por lo tanto, las simetrías que deben obedecer los sistemas
físicos en él, por medio de los llamados vectores de Killing.
Comencemos considerando el difeomorfismo infinitesimal dado por
′
xµ = xµ + ǫ ξ µ , ǫ ≪ 1, (2.337)
2.9 Vectores de Killing y simetrías del espacio–tiempo* 137
donde ξ es un vector (o campo vectorial) que caracteriza la transformación. Notamos

directamente que
′
∂xµ
= δαµ + ǫ ξ µ ,α . (2.338)
∂xα
Como consecuencia de este difeomorfismo, las componentes de las métricas en las distintas
coordenadas están relacionadas, de acuerdo a (2.83), por
′ ′
∂xµ ∂xν
gαβ (x) = gµ′ ν ′ (x′ ) . (2.339)
∂xα ∂xβ
Debido a que el difeomorfismo (2.337) es infinitesimal y a su estructura, notamos que las
componentes de la métrica en las coordenadas transformadas se pueden expresar como una
serie alrededor de las coordenadas no transformadas x, dada por
gµ′ ν ′ (x′ ) = gµν (x) + ǫ ξ γ gµν,γ (x) + O(ǫ2 ) . (2.340)
Sustituyendo (2.338) y (2.340) en (2.339), obtenemos
gαβ = (δαµ + ǫ ξ µ ,α )(δβν + ǫ ξ ν ,β )(gµν + ǫ ξ γ gµν,γ + O(ǫ2 ))

≈ gαβ + ǫ ξ µ ,α δβν gµν + δαµ ξ ν ,β gµν + δαµ δβν ξ γ gµν,γ (2.341)
µ µ µ
= gαβ + ǫ (gβµ ξ ,α + gαµ ξ ,β + ξ gαβ,µ ) ,
en donde hemos retenido sólo los términos a orden ǫ en el segundo renglón, y en el último
renglón hemos empleado la simetría de gµν y renombrado el índice γ como µ.
Observando que
gβµ ξ µ ,α = (gβµ ξ µ ),α − gβµ,α ξ µ = ξβ,α − gβµ,α ξ µ ,
los términos en paréntesis en (2.341) pueden simplificarse a
gβµ ξ µ ,α + gαµ ξ µ ,β + ξ µ gαβ,µ = ξβ,α − gβµ,α ξ µ + ξα,β − gαµ,β ξ µ + ξ µ gαβ,µ

= ξβ,α + ξα,β − ξ µ (gβµ,α + gαµ,β − gαβ,µ )
= ξβ,α + ξα,β − ξ µ 2gµλ Γλ αβ
= ξβ,α + ξα,β − 2Γλ αβ ξλ
= ξβ;α + ξα;β , (2.342)
donde la tercera igualdad es consecuencia de la forma de los símbolos de Christoffel (2.221)

en términos de las componentes de la métrica, y en el último paso hemos empleado la
acción de la derivada covariante en 1–formas (2.209). Empleando este resultado en (2.341),
descubrimos que la relación entre las componentes de la métrica antes y después de la
transformación (2.337) se puede reexpresar en la forma compacta
gαβ ≈ gαβ + ǫ (ξβ;α + ξα;β ) , (2.343)

a primer orden en ǫ. Por lo tanto, si (2.337) es una isometría de la métrica g, se debe

satisfacer
2ξ(β;α) = ξβ;α + ξα;β = 0 , ecuación de Killing (2.344)
conocida como la ecuación de Killing. El vector ξ es llamado vector de Killing o campo

de Killing. Dada una métrica, los vectores de Killing ξ = ξ µ eµ asociados a las soluciones
de (2.344) representan simetrías del espacio–tiempo caracterizado por g y son considerados
los generadores de estas simetrías. Consecuentemente, existen tantos vectores de Killing
independientes como simetrías tiene el espacio–tiempo descrito por la métrica.
Un caso particular de isometrías de un espacio–tiempo ocurre cuando el tensor métrico
no depende de una determinada coordenada xµ0 . En este caso, heredando el lenguaje de la
mecánica Newtoniana, se le llama a xµ0 coordenada cíclica. Observando (2.341), notamos
que el difeomorfismo
′
xµ = xµ + ǫ δµµ0 , ǫ≪1 (2.345)
es una isometría, pues gαβ,µ0 = 0 por suposición y la derivada de ξ µ = δµµ0 se anula. Las
componentes ξα = gαµ δµµ0 = gαµ0 satisfacen la ecuación de Killing debido a la compatibili-
dad de la métrica y su conexión.
2.9.1. Cantidades conservadas en geodésicas
Como vimos en la sección 1.9.4, el teorema de Noether establece que la existencia de

una simetría prescribe la aparición de una cantidad conservada. Esto es particularmente
cierto a lo largo de trayectorias geodésicas que, como veremos en el capítulo siguiente,
describen sistemas que pueden interpretarse como inerciales.
Para determinar la estructura de las cantidades conservadas a lo largo de trayectorias
geodésicas, consideremos que la geodésica está descrita por la curva x = x(λ) en términos
del parámetro afín λ. Estudiemos ahora la derivada del producto escalar de un vector (dual)
de Killing con el vector tangente a la trayectoria geodésica,

d dxα dxα dxβ d dxα
ξα = ξα,β + ξα . (2.346)
dλ dλ dλ dλ dλ dλ
A lo largo de una geodésica, de acuerdo a (2.258), el segundo término puede expresarse en
términos de los símbolos de Christoffel, lo que conduce a

d dxα dxα dxβ α dxµ dxβ
ξα = ξα,β + ξα −Γ µβ
dλ dλ dλ dλ dλ dλ
dxα dxβ (2.347)
= (ξα,β − Γγ αβ ξγ )
dλ dλ
dxα dxβ
= ξα;β ,
dλ dλ
en donde la segunda igualdad se obtiene al reemplazar los índices mudos α → γ y µ → α.

Podemos expresar este resultado como la suma de dos términos idénticos salvo por el
intercambio de los índices α ↔ β, lo que, empleando la simetría de las derivadas con
respecto a λ, permite concluir que

d dxα 1 dxα dxβ
ξα = (ξα;β + ξβ;α ) = 0, (2.348)
dλ dλ 2 dλ dλ
porque ξ satisface la ecuación de Killing (2.344).

El resultado (2.348) indica que si x = x(λ) describe una curva geodésica y ξ es un
vector de Killing, entonces a lo largo de la trayectoria existe una cantidad conservada que
está dada por
dxα
ξα = ξα T α = ξ α Tα = cte, (2.349)
dλ
donde T es el vector tangente a la trayectoria geodésica, empleando la notación de la
sección 2.6.3.
Notemos que si lo que se desplaza a lo largo de la geodésica es una partícula con masa
m, es posible definir su tiempo propio τ tal que el parámetro afín esté dado por mλ = τ .
En este caso, (2.349) puede reexpresarse en términos del 4–momento p = mdx/dτ como
ξ α pα = cte . (2.350)
Adicionalmente, si la métrica tiene una coordenada cíclica xµ0 , la cantidad conservada se

simplifica (porque ξ µ = δµµ0 ) a
pµ0 = gµ0 ν pν = cte , (2.351)
conocido como el momento conjugado a la coordenada clásica. A pesar de la forma en la
que hemos obtenido (2.351), es fácil convencerse de que esta expresión es también válida
para partículas no masivas si identificamos pν ≡ T ν .
2.9.2. Simetrías del espacio–tiempo de Minkowski
Como un ejemplo de nuestros resultados, busquemos las simetrías del espacio–tiempo de

Minkowski en coordenadas Cartesianas. Las componentes del tensor métrico pueden repre-
sentarse por la matriz diagonal constante η = diag(1, −1, −1, −1). Debido a que Γλ αβ = 0
para todos los valores de α, β, λ, la ecuación de Killing se simplifica a
ξβ,α + ξα,β = 0 . (2.352)
Derivando esta expresión con respecto a xµ , obtenemos
ξβ,αµ + ξα,βµ = 0. (2.353)

Por permutación de los índices, vemos que también las siguientes ecuaciones son válidas:
ξµ,βα + ξβ,µα = 0, ξα,µβ + ξµ,αβ = 0, (2.354)
de donde conseguimos
ξβ,αµ + ξα,βµ + ξµ,βα + ξβ,µα − ξα,µβ − ξµ,αβ = 2ξβ,αµ = 0. (2.355)
Esta última representación de la ecuación de Killing en el espacio–tiempo plano puede

resolverse fácilmente. Sus soluciones son
ξα = aα + bαλ xλ , aα , bαλ ∈ R . (2.356)
Insertando este resultado en la ecuación de Killing (2.352), encontramos que
bβλ δαλ + bαλ δβλ = bβα + bαβ = 0 , (2.357)
es decir, la matriz de valores (bαλ ) es antisimétrica.

En el espacio–tiempo de Minkowski, el número de vectores de Killing depende del
número de valores independientes de aα y bαλ en (2.356). En 4 dimensiones hay 4 aα y,
debido a su antisimetría, 6 bαλ independientes, por lo que hay 10 vectores de Killing y,
consecuentemente, 10 simetrías asociadas al espacio–tiempo de Minkowski.
Las 4 simetrías expresadas en términos de ξα = aα (con bαλ = 0), α = 0, . . . , 3, están
asociadas a las cuatro coordenadas cíclicas xα (ausentes en la métrica de Minkowski). Nor-
malizando a la unidad, obtenemos que los vectores de Killing asociados a las coordenadas
cíclicas pueden expresarse como
ξ(α) = δαµ eµ = eα = ∂α (2.358)
para cada α, donde hemos empleado en la última igualdad la expresión de los vectores
base (2.38). La letra en paréntesis no denota dependencia alguna de los vectores de Killing;
se trata de una etiqueta para identificarlos.
Los 4 vectores de Killing dados por (2.358) corresponden, de acuerdo a (2.337), a sime-
trías bajo traslaciones espacio–temporales en las 4 coordenadas Cartesianas del espacio–
tiempo de Minkowski. Las cantidades conservadas asociadas a estos vectores de Killing a lo
largo de geodésicas, según (2.351), son p0 = E/c y las componentes del momento espacial
p. La expresión (2.358) aporta una información adicional: los generadores de las trasla-
ciones son los operadores diferenciales ∂α , como es bien sabido en mecánica. Una manera
alternativa de escribir estos 4 vectores de Killing, aunque mucho menos informativa es
ξ(0) = (1, 0, 0, 0)T , ξ(1) = (0, 1, 0, 0)T , ξ(2) = (0, 0, 1, 0)T , ξ(3) = (0, 0, 0, 1)T (2.359)
en la base del espacio de vectores, {eµ }.

Por otro lado, las 6 simetrías asociadas a las soluciones ξα = bαλ xλ (con aα = 0)
corresponden a los 6 valores bαλ independientes. Una elección apropiada de éstos es
{b12 , b13 , b23 , b01 , b02 , b03 },
tales que para cada vector de Killing ξ(α, λ), con α y λ fijos, sólo bαλ = 2 = −bλα (el valor
ha sido elegido con el propósito de simplificar las expresiones) y todos los otros elementos
son nulos. En general, los vectores de Killing pueden escribirse como
ξ(α, λ) = g µα bαλ xλ eµ
1 µα
= g bαλ xλ + g µλ bλα xα eµ (2.360)
2
1
= bαλ g µα xλ − g µλ xα eµ ,
2
donde hemos empleado la antisimetría de bαλ .
Para identificar claramente los vectores de Killing, separamos ahora los valores no nulos
de b en aquéllos con índices puramente espaciales, {b12 , b13 , b23 }, y los que tienen índices
mezclados, {b01 , b02 , b03 }. Denotando los vectores de Killing puramente espaciales como
ξ(i, j), i, j = 1, 2, 3, reemplazando bij = 2 y reescribiendo las componentes espaciales de la
métrica como g µi = −δiµ , vemos que en este caso (2.360) implica
1
ξ(i, j) = bij g µi xj − g µj xi eµ
2
1
= − bij δiµ xj − δjµ xi eµ (2.361)
2
= −xj ei + xi ej
= xi ∂ j − xj ∂ i .
Notamos que la acción de ξ(i, j) sobre xi es ξ(i, j)xi = −xj , y sobre xj es ξ(i, j)xj = xi ,
lo que corresponde a una rotación por π/2 en el plano (i, j) a favor de las manecillas del
reloj. Por lo tanto, identificamos que los 3 vectores de Killing ξ(i, j) asociados a bij 6= 0
corresponden a los generadores de rotaciones espaciales en los 3 planos (i, j). De hecho,
el operador ξ(i, j) = xi ∂j − xj ∂i es conocido en mecánica como el operador de momento
angular. En una notación alternativa, los vectores de Killing pueden escribirse como
ξ(1, 2) = (0, −x2 , x1 , 0)T , ξ(1, 3) = (0, −x3 , 0, x1 )T , ξ(2, 3) = (0, 0, −x3 , x2 )T . (2.362)
En total analogía con estos resultados, encontramos que los generadores de las simetrías
espacio–temporales están dados por
ξ(0, i) = xi e0 + x0 ei = xi ∂0 + x0 ∂i . (2.363)
La diferencia en el signo surge de que, en este caso, deberemos considerar también que
g 0µ = +δ0µ . Las rotaciones espacio–temporales en el espacio–tiempo de Minkowski que lo
dejan invariante son precisamente los boosts de Lorentz, por lo que (2.363) representa a
los generadores de los boosts. Estos vectores de Killing también pueden reescribirse como
ξ(0, 1) = (x1 , x0 , 0, 0)T , ξ(0, 2) = (x2 , 0, x0 , 0)T , ξ(0, 3) = (x3 , 0, 0, x0 )T . (2.364)
Aplicando un cálculo similar al mostrado en (2.361), notamos que, en general, la can-

tidad conservada asociada a ξ(α, λ) a lo largo de una geodésica está dada por
1
ξ(α, λ)µ pµ = bαλ g µα xλ − g µλ xα pµ
2 (2.365)
1
= bαλ pα xλ − pλ xα .
2
Sustituyendo el valor elegido para bαλ = 2, encontramos que la cantidad conservada co-
rresponde a
p α x λ − pλ x α (2.366)
que coincide justamente con los elementos de la matriz (M αλ ) de (1.121), que, según dis-
cutimos en la sección 1.9.4, contiene las cantidades conservadas asociadas con las transfor-
maciones de Lorentz: las componentes del momento angular tridimensional y del momento
lineal del centro de inercia del sistema que se desplaza en la trayectoria geodésica.
Mediante este estudio, hemos mostrado formalmente que las simetrías del espacio de
Minkowski corresponden justamente a las asociadas al grupo de Poincaré, como anticipamos
desde un punto de vista muy diferente en la sección 1.9.4.
2.10. Densidades tensoriales*

Hemos visto que, para describir un sistema en una base y de una manera geométrica-
mente independiente, el formalismo tensorial es una gran herramienta. Desafortunadamen-
te, no todas las cantidades pueden escribirse como tensores (por ejemplo, la conexión de
Levi-Civita no es un tensor). Este es el caso del símbolo de Levi-Civita en d dimensiones,
que se puede expresar en cualquier sistema coordenado como

+1 permutaciones pares

µ1 µ2 ...µd
εe = εeµ1 µ2 ...µd = −1 permutaciones impares (2.367)


0 de otra manera.
El símbolo de Levi-Civita no es una cantidad tensorial. Sin embargo, es posible construir

un tensor a partir de él. Para empezar, recordemos que el determinante |A| de una matriz
A cuadrada d-dimensional con componentes Aij satisface la relación
εei1 i2 ...id Ai1 j1 Ai2 j2 · · · Aid jd = |A|e
εj1 j2 ...jd , (2.368)
2.10 Densidades tensoriales* 143
con suma sobre índices repetidos.17

Aplicando el resultado (2.368) para la matriz Jacobiana de un difeomorfismo, aquí
′
denotada como ∂x
∂x , encontramos que
′ µ1 µ2 µd
∂x
εeµ′1 µ′2 ...µ′d = εeµ µ ...µ ∂x ′ ∂x ′ · · · ∂x ′ . (2.369)
∂x 1 2 d
∂xµ1 ∂xµ2 ∂xµd
Análogamente, para la matriz correspondiente a la inversa del difeomorfismo obtenemos

µ′1 µ′2 ...µ′d
∂x µ µ ...µ ∂xµ′1 ∂xµ′2 ′
∂xµd
εe
= ′ εe 1 2 d
··· µ , (2.370)
∂x ∂xµ1 ∂xµ2 ∂x d
∂x ∂x −1 ′
donde | ∂x ′ | puede ser sustituido por la inversa del determinante Jacobiano | ∂x | debido
a las reglas del determinante. Observamos que las expresiones anteriores se parecen a
las transformaciones ante difeomorfismos de las componentes de un tensor, salvo por la
aparición del determinante Jacobiano.
Cualquier cantidad ρe que se transforma ante difeomorfismos como tensor, excepto por
una potencia ω del determinante Jacobiano como factor se llama densidad tensorial de peso
ω. Por lo tanto, εeµ1 µ2 ...µd es una densidad tensorial de peso ω = +1, mientras que εeµ1 µ2 ...µd
tiene peso ω = −1.
El símbolo del Levi-Civita no es la única densidad tensorial. Es posible mostrar que el
determinante de la métrica |g| se transforma como
′ −2
∂x
|g|′ = |g|, (2.371)
∂x
por lo que |g| es una densidad tensorial de peso ω = −2.
Este último resultado es el que permite, a partir de una densidad tensorial, construir
una cantidad que se transforma como tensor ante difeomorfismos, a la que llamaremos
pseudotensor. El pseudotensor ρ asociado a una densidad tensorial ρe de peso ω se define
como
ρ ≡ |g|ω/2 ρe . (2.372)
Si las componentes de la densidad tensorial ρe exhiben M superíndices y N subíndices,
entonces se transforman bajo difeomorfismos como
′ −ω ′ ω µ′1 ′
µ′1 ...µ′M ∂x

ω/2 ∂x ∂x ∂xµM ∂xν1 ∂xνN µ1 ...µM
ρ ′ ′
ν1 ...νN
= ∂x |g| ∂x ∂xµ1 · · · · · · ′ ρ
e ν1 ...νN , (2.373)
∂xµM ∂xν1
′
∂xνN
lo que puede ser reescrito como una transformación tensorial habitual,
′ ′
µ′ ...µ′ ∂xµ1 ∂xµM ∂xν1 ∂xνN µ1 ...µM
ρ 1 M ν1′ ...νN
′ = · · · · · · ′ ρ ν1 ...νN . (2.374)
∂xµ1 ∂xµM ∂xν1′ ∂xνN
17
Esta expresión de álgebra lineal no es tensorial, razón por la que no se han empleado distintas posiciones
para los índices.
Entonces, concluimos que el pseudotensor para la densidad tensorial de Levi-Civita es

p 1
εµ1 µ2 ...µd = |g|e
εµ1 µ2 ...µd , εµ1 µ2 ...µd = p εeµ1 µ2 ...µd . (2.375)
|g|
El hecho de que necesitamos dos expresiones explica por qué estas cantidades tensoriales
no son realmente tensores, sino solamente pseudotensores.
Otra densidad útil es el elemento de volumen en d dimensiones, que se transforma como
′
∂x d
e
d x =
d ′ ed x, (2.376)
∂x
es decir, es una densidad tensorial de peso ω = 1. Por lo tanto, las integrales covariantes
deben contener p
dd x = |g|dd x , (2.377)
para que se transformen de manera tensorial. Nuevamente, en una variedad Lorentziana
de signatura (3, 1), como el espacio–tiempo de Minkowski, el determinante |g| debe ser
reemplazado por −|g| para que sea positivo definido.
Los pseudotensores son importantes para construir la teoría covariante. Por ejemplo,
en espacio curvo (o, en coordenadas curvilíneas generalizadas), es ε y no εe lo que aparece
en la definición del tensor dual de Hodge del tensor Faraday,
1 1 1
∗ F µν = εµνρσ Fρσ = p εeµνρσ Fρσ , (2.378)
2 2 |g|
que solamente en un espacio plano coincide con la expresión que se usó anteriormente
en (2.148), justificando la notación ahí empleada.
Ejercicios
2.1 Transformación de Lorentz inversa.
(a) Muestre que si Λ−1 es la inversa de un boost de Lorentz a lo largo de la dirección x1 , entonces
satisface (1.118).
(b) Se dice que, así como la métrica de Minkowski η = (ηµν ) se emplea para bajar índices como
en (2.5), la inversa de la métrica η −1 = (η µν ) se emplea para subir índices. Reescriba (1.118)
en términos de componentes (con índices) empleando (2.5).
2.2 Transformaciones de tensores.
(a) A partir de la transformación de las componentes de un vector y la invariancia de tensores,
obtenga la regla de transformación de las componentes de una 1–forma,Ve = Vµ ωeµ.
(b) De la regla de transformación de las componentes de vectores y 1–formas obtenga la regla de
transformación de las componentes de un tensor t definido como en (2.81).
2.3 Operadores de proyección.

Un operador de proyección P es una transformación lineal que mapea un espacio vectorial en sí
mismo y que cumple P 2 = P . Sea P un operador de proyección cuyas componentes están dadas
por P µν = η µν − sµ sν , donde s es un 4–vector temporaloide unitario, es decir, sµ sµ = 1, y η µν son
las componentes del tensor métrico inverso. Suponga que P mapea un vector v a un vector ω, es
decir, P µ ν v ν = ω µ .
(a) Demuestre que ω es ortogonal a s.

(b) Demuestre que P 2 = P , es decir, P α β P β µ v µ = P α µ v µ .
(c) Con base en los incisos anteriores, ¿cómo son las componentes de P si s es ahora espacialoide
y unitario, es decir, sµ sµ = −1, y P preserva sus propiedades?
(a) Suponga que un objeto T con componentes T µν es definido como la suma directa de dos
vectores, tal que T µν = Aµ + B ν . ¿Es T µν un tensor? ¿Por qué?
(b) ¿Son las siguientes expresiones correctas? Justifique su respuesta.
Aµν B να = Aµν B νγ , ηµν Aµα V ν = ηρν Aρα V ν , ηαβ ηγδ Aαµν B γ µ C λδ = η λγ Aβµ ν B δµ Cγδ .
2.5 Parte simétrica y antisimétrica de un tensor.
En general, intercambiar los índices genera un tensor distinto al original. Sin embargo, es posible
definir simetría y antisimetría en un tensor, como se vio en la sección 2.1.7. Emplee las definiciones
para la parte simétrica (2.96) y antisimétrica (2.103) de un tensor para resolver los siguientes
ejercicios.
(a) Aplique las definiciones mencionadas para dar expresiones de T(αβ) , T[αβ] , T(αβγ) y T[αβγ] .
(b) Muestre que un tensor de rango (0, 2) que es antisimétrico en un sistema de referencia es
antisimétrico en todos.
(c) Sean Aµν las componentes de un tensor antisimétrico y sean S µν las componentes de un
tensor simétrico. Muestre que
Aµν S µν = 0.
(d) Muestre que si Vµν son las componentes de un tensor arbitrario, entonces
1 µν
V µν Aµν = (V − V νµ )Aµν ,
2
1
V µν Sµν = (V µν + V νµ )Sµν .
2
donde A y S son los tensores definidos en el inciso anterior.
2.6 Tensor de rango 2.
Suponga que Aµν son las componentes de un tensor simétrico de rango (0, 2).
(a) Muestre que

∂Aµν ∂Aνλ ∂Aλµ
Bλµν =λ
+ µ
+
∂x ∂x ∂xν
son las componentes de un tensor de rango (0, 3).
(b) Muestre que B es un tensor completamente simétrico.

(c) Determine el número de componentes independientes que tiene este tensor.
2.7 Tensor de Faraday y electromagnetismo.
Considere que Aµ denota las componentes de una 1–forma (correspondiente al 4–potencial electro-
magnético).
(a) Muestre que la elección del tensor de Faraday (2.124) conduce a la fuerza de Lorentz habi-
tual (2.119) al sustituirlo en la relación tensorial (2.120).
(b) Muestre que la ecuación (2.139) corresponde a las componentes de un tensor de rango dos.
Sugerencia: las componentes de un tensor se transforman de una forma precisa bajo la acción
del grupo de Lorentz.
(c) Muestre que se cumple la ecuación (2.140).
(d) Encuentre todas las simetrías bajo intercambio de índices de la identidad de Bianchi (2.140).
Sugerencia: hay simetrías bajo intercambio de dos o tres índices.
(e) Muestre que la relación (2.144) conduce a dos de las ecuaciones de Maxwell (2.118).
2.8 Símbolo de Levi-Civita y delta de Kronecker.
Se definen las componentes del símbolo de Levi-Civita de rango 4 (es espacio–tiempo plano) como

+1 permutaciones de (µ1 µ2 µ3 µ4 ) pares,

µ1 µ2 µ3 µ 4
ε = −1 permutaciones de (µ1 µ2 µ3 µ4 ) impares,


0 índices repetidos.
Se definen también las componentes del tensor δ como

 ν1 
δµ1 · · · δµνn1
ν1 ...νn  .. .. ..  .
δµ1 ...µn = det  . . . 
δµν1n ··· δµνnn
Con base en las definiciones anteriores, resuelva lo siguiente:
(a) Muestre que en el espacio–tiempo de Minkowski εαβγλ = −εαβγλ .

(b) Evalúe εαβγλ εαβγλ .
(c) Muestre que la delta de Kronecker con componentes δµν es un tensor.
µν
(d) Tome δλγ y muestre que es antisimétrica tanto en los índices superiores como en los inferiores.
µν
(e) Muestre que δλγ = − 12 εµναβ ελγαβ .
2.9 Operador estrella de Hodge y electromagnetismo en espacio–tiempo plano.
De manera superficial, una r-forma se puede entender como un tensor de rango r completamente
antisimetrizado. Por ejemplo, el tensor de Faraday es una 2-forma. El espacio vectorial de r-formas
es isomorfo al espacio de (d − r)-formas en una variedad d-dimensional. Es natural entonces definir
un isomorfismo entre estos espacios mediante el operador estrella ∗ (o dual de Hodge). De esta
forma a un tensor antisimétrico t de rango r se le asigna un tensor antisimétrico ∗t de rango d − r

de la siguiente manera:
1
∗tµ1 ...µd−r = εµ1 ...µd−r ν1 ...νr tν1 ...νr ,
(d − r)!
en donde εµ1 ...µd−r ν1 ...νr es la generalización de rango d del símbolo de Levi-Civita.
(a) Muestre que las componentes del tensor dual de Faraday en 4 dimensiones, ∗F µν , coinciden
con las de F µν tras realizar las sustituciones E → −B y B → E.
(b) Demuestre que las identidades de Bianchi son equivalentes a la ecuación ∂µ ∗ F µν = ∗F µν,µ =
0. (Sugerencia: contraiga las identidades de Bianchi con un símbolo de Levi-Civita.)
(c) Muestre que ∗(∗F ) = −F .
2.10 Electromagnetismo y relatividad especial.
(a) Suponga que un observador viaja a la velocidad relativista u = (u, 0, 0)T . ¿Cuál sería la
forma de los campos E ′ y B ′ medidos por este observador?
(b) Calcule de manera explícita en términos de E y B las cantidades Fαβ F αβ y ∗Fαβ F αβ . ¿Cómo
se transforman estas cantidades bajo el grupo de Lorentz?
(c) Utilice el resultado anterior para indicar si, dado un marco de referencia donde E 6= 0 y
B = 0, es posible encontrar otro marco de referencia (o una transformación de Lorentz)
donde E = 0 y B 6= 0.
2.11 Ecuaciones de Maxwell y transformaciones generales de coordenadas.
Como hemos visto, dos ecuaciones de Maxwell son obtenidas de (2.144). Bajo difeomorfismos, los
elementos que aparecen en esa ecuación se transforman como
′ ′ ′
′ ′ ′ ∂xµ µ ′ ′ ∂xµ ∂xν µν
xµ → xµ = f µ (x), Jµ → Jµ = J , F µν → F µ ν = F ,
∂xµ ∂xµ ∂xν
para un conjunto de funciones f = (f µ ) con Jacobiano diferente de cero.
(a) Muestre explícitamente que (2.144) es invariante bajo transformaciones de Lorentz.

(b) Muestre que (2.144) no es invariante bajo difeomorfismos más generales que las transforma-
ciones de Lorentz.
(c) Ante una transformación de coordenadas, las componentes del tensor métrico se transforman
como
∂xµ ∂xν
g µ′ ν ′ = gµν .
Utilizando la transformación anterior para las componentes de g, obtenga la métrica en
coordenadas cilíndricas y esféricas.
(d) Considere el cambio de coordenadas (ct, x, y, z) → (ct, r, ϕ, z). Utilizando los incisos anterio-
res, encuentre el tensor electromagnético F µν en estas nuevas coordenadas.
(e) Calcule Fαβ F αβ en las coordenadas definidas en (d) y compare con el resultado del ejerci-
cio 2.10. ¿Cómo se transforman estas cantidades bajo el grupo de Lorentz?
(f) ¿Qué tendrá que satisfacer el operador ∂µ para que (2.144) mantenga su forma ante alguna
transformación general de coordenadas?
2.12 Fluido perfecto.

Considere el tensor de energía–momento de un fluido perfecto, incluyendo su energía interna,
1
T µν = ρ0 hU µ U ν − P η µν ,
c2
con ρ0 la densidad de energía en reposo, h la entalpía por unidad de energía definida como h =
1 + ǫ + P/ρ0 , ǫ la energía interna por unidad de energía y P la presión.
(a) Demuestre que

Uµ Uν
Tµν = ρ0 (1 + ǫ),
c c
lo cual define una forma covariante de la densidad de energía ρ ≡ (1 + ǫ)ρ0 .
(b) Muestre que en un sistema de referencia que se mueve junto con el fluido, el tensor de energía–
momento del fluido perfecto es
T µ ν = diag(ρ, −P, −P, −P ).

(a) Suponga que las trayectorias de dos partículas libres en algún lugar del universo se interse-
can varias veces. ¿Qué propiedad geométrica tendrá el espacio? Físicamente, ¿con qué está
relacionada esa propiedad?
(b) Dado el tensor de esfuerzos electromagnético

µν 1 µα ν 1 µν αβ
T =− F F α − η Fαβ F ,
4π 4
¿bajo qué condiciones, en caso de ser posible, esperaría que el fluido electromagnético pudiera
considerarse un fluido perfecto? (Sugerencia: use la forma explícita de F µν , F µ α y Fµν .)
2.14 Tensor de energía–momento para un campo de Klein-Gordon.
El tensor de energía–momento para un campo escalar con masa m en espacio–tiempo plano está
dado por
1
Tµν = ∂µ φ∂ν φ − ηµν (∂α φ∂ α φ − m2 φ2 ).
2
(a) Encuentre la densidad de energía ρ y la presión P .
(b) Muestre que ∂µ T µν = 0 implica la ecuación de Klein-Gordon,
(∂ µ ∂µ + m2 )φ = 0.
(c) Suponga ahora que φ no depende de la posición, es decir, sólo depende de x0 . Sin emplear los
resultados anteriores, compare con el tensor de energía–momento para un fluido perfecto de
acuerdo al ejercicio 2.12 con ε = 0 y encuentre U µ , P y ρ. ¿Son compatibles estos resultados
con lo que encontró en (a)?
2.15 Transformaciones de coordenadas.

Considere un sistema de coordenadas parabólicas (p, q). La transformación de coordenadas Carte-
sianas (x, y) a coordenadas parabólicas está dada por
p(x, y) = x y q(x, y) = y − cx2 ,
donde c es una constante.
(a) Obtenga la transformación inversa y, a partir de esta, obtenga la métrica para el sistema p,
q.
(b) Sea V un vector en el sistema parabólico con componentes Ap = 1 y Aq = 0, encuentre las
componentes de A en el sistema Cartesiano.
(c) De igual forma, es posible definir coordenadas sinusoidales en el espacio plano 2–dimensional
u y w por medio de las relaciones u = x y w = y − a sen(bx), con a y b constantes. ¿Cuál es
la métrica en el sistema sinusoidal?
(d) Suponga que un observador se mueve con velocidad constante v, cuyas componentes son
v x = v y v y = 0. ¿Cuál es la velocidad del observador en el sistema (u, w)?
(e) Muestre que la componente de la velocidad v w no es independiente del tiempo a pesar de que
la magnitud de v es constante. Explique por qué v w no es constante a pesar de que el vector
v siempre apunta en la misma dirección y su magnitud es constante.
(f) Concluya que dv w /dt no puede ser la componente aw del vector de aceleración del observador.
¿Esto se relaciona con la derivada que hemos considerado?
2.16 Derivada covariante.
En coordenadas curvilíneas, la derivada usual debe ser sustituida por la derivada covariante, que
captura la naturaleza tensorial del gradiente e
d. El gradiente de un vector arbitrario V en una base
coordenada curvilínea está dado por
∂µ V = ∂µ (V ν eν ) = (∂µ V ν )eν + V ν ∂µ eν = (V λ ,µ + Γλ µν V ν )eλ ≡ (Dµ V λ )eλ .
Por lo tanto, Dµ V λ define las componentes de la derivada covariante de V . La expresión de la deri-

vada covariante es independiente de la elección del sistema de coordenadas y se reduce a la derivada
usual cuando se trabaja con coordenadas Euclidianas (porque los vectores base son constantes). Así,
las expresiones comunes vectoriales que conocíamos anteriormente pueden generalizarse a coorde-
nadas curvilíneas por medio de la derivada covariante. Por ejemplo, la divergencia de un vector es
de· V = Dµ V µ , la derivada en la dirección de U (derivada direccional) es U µ Dµ V α , y el Laplaciano
de una función escalar está dado por de2 φ = Dµ (Dµ φ). Cabe resaltar que la derivada covariante,
así como la derivada usual, sigue la regla de Leibniz: Dµ (V α Wβ ) = (Dµ V α )Wβ + V α (Dµ Wβ ). Otra
notación conveniente para la derivada covariante es Dµ V α ≡ V α ;µ (en analogía con la derivada
usual).
(a) Demuestre que la derivada covariante de las componentes de una 1–forma está dada por
Dµ qα = qα,µ − Γν αµ qν . (Sugerencia: Considere la expresión Dµ (qα V α ). Por un lado utilice la
regla de Leibniz para la derivada covariante y por otro lado recuerde que la derivada covariante
de una función escalar es Dµ φ = ∂µ φ). ¿Cómo calcularía las componentes de la derivada
covariante de un tensor de rango (1, 1), es decir, Dµ T α β ?
(b) Encuentre cómo se transforman V α ,β y Γα µβ por separado bajo un cambio de coordenadas.

Muestre que ninguna de las dos expresiones se transforma como un tensor, pero que su suma
sí lo hace. Para poder comprobar que la expresión Γα µβ no se transforma como un tensor,
es necesario encontrar una expresión en términos de objetos conocidos para los símbolos
de Christoffel. Con este fin, podemos hacer actuar la 1-forma ω e α sobre ∂µ eβ = Γλ µβ eλ .
Recordando que las 1–formas son funciones (multi-)lineales y que ω e α (eµ ) = δµα , tenemos

e α (∂µ eβ ) = ω
ω e α Γλ µβ eλ = Γλ µβ ω
e α (eλ ) = Γλ µβ δλα .
Así, hemos obtenido una expresión útil para los símbolos de Christoffel
Γα µβ = ω
e α (∂µ eβ ).
(c) Con base en los resultados del inciso anterior, ¿los símbolos de Christoffel son tensores? ¿Por
qué?
2.17 Símbolos de Christoffel.
(a) Muestre que si los símbolos de Christoffel no son simétricos, es decir, Γλ µν 6= Γλ νµ , entonces
Γλ µν − Γλ νµ son las componentes de un tensor de rango (1, 2). Este tensor es llamado tensor
de torsión asociado.
(b) Muestre las siguientes identidades:
a) g αβ ,γ = −Γα µγ g µβ − Γβ µγ g µα .
b) V ν µ;ν = −|g|−1/2 (|g|1/2 V ν µ ),ν − Γλ µσ V σ λ .
c) gµν,α = Γ µνα + Γ νµα .
donde |g| = det g y los símbolos de Christoffel están dados por (2.221).
2.18 Tensor de Riemann.
Una forma de describir la curvatura de una variedad Riemanniana en dimensión n es mediante un
tensor de rango (1, 3) conocido como tensor de curvatura de Riemann. Este tensor se puede entender
como la medida de qué tanto difiere la métrica del espacio de una métrica plana. Se definen las
componentes del tensor de Riemann como en (2.309), en términos de los símbolos de Christoffel.
(a) Muestre que el tensor de Riemann satisface las relaciones de simetría
R αβµν = −R αβνµ ,
R αβµν = −R βαµν ,
R αβµν = +R µναβ ,
R αβµν + R ανβµ + R αµνβ = 0,
Rα αµν = 0.
(b) ¿Cuántas componentes independientes tiene el tensor de Riemann en 4 dimensiones?

(c) Usando la definición de la aplicación de la derivada covariante sobre tensores arbitrarios,
demuestre que para las componentes v α de un vector arbitrario se satisface que
(Dµ Dν − Dν Dµ )v α = Rα βµν v β .
(d) Empleando la definición de la derivada covariante (2.213), muestre que para un tensor arbi-
trario con componentes tµ1 µν21···
ν2 ··· se satisface (2.312).
2.19 Lagrangiano de una partícula libre.

Una geodésica es la generalización en espacio–tiempo curvo de una línea recta en espacio Euclídeo.
Ésta define la trayectoria más corta entre dos puntos y corresponde a la trayectoria que siguen
partículas no aceleradas. La ecuación de una geodésica es
d2 xµ µ dxγ dxν
+ Γ γν = 0, (2.379)
dλ2 dλ dλ
en donde λ es el parámetro de la trayectoria y es un parámetro afín, es decir, se relaciona con el
tiempo propio τ mediante λ = aτ + b, con a y b constantes. Cualquier parámetro afín (incluyendo
al tiempo propio) puede parametrizar una geodésica.
(a) Adoptando λ = τ , muestre que en espacio–tiempo plano (2.379) es la generalización de la

segunda ley de Newton. Generalizando esta observación para un espacio–tiempo no plano,
exprese la 4–fuerza percibida por una partícula con masa m.
El Lagrangiano de una partícula libre en relatividad está dado por

m
L= gµν U µ U ν , (2.380)
2
en donde U µ = dxµ /dτ es la 4–velocidad de la partícula. En el formalismo Lagrangiano, las ecua-
ciones de movimiento para xµ están dadas por las ecuaciones de Euler-Lagrange expresadas como

d ∂L ∂L
µ
− = 0. (2.381)
dτ ∂U ∂xµ
(b) Muestre que cuando se inserta el Lagrangiano de una partícula libre en la ecuación (2.381)
se obtiene la ecuación geodésica (2.379) en la forma U ν Dν U µ = 0.
Sugerencia: recuerde que en el formalismo Lagrangiano xµ y U µ son variables independien-
tes, y que las derivadas de gµν son no triviales en general. Emplee también gµν,ρ U ν U ρ =
1 ν ρ ρ ν
2 (gµν,ρ U U + gµρ,ν U U ).
Este resultado es de suma relevancia. Dado que las ecuaciones de Euler–Lagrange de una
partícula libre conducen a la ecuación de las geodésicas, obtenemos que las partículas libres
en un espacio–tiempo arbitrario siguen las trayectorias descritas por estas curvas.
(a) Sobre la superficie de la 2–esfera de radio 1 descrita por el elemento de línea ds2 = dθ2 +
sen2 θdφ2 , un vector V es igual a eθ en θ = π/4, φ = φ0 . ¿Cómo se ve V después del transporte
paralelo alrededor del círculo φ = φ0 ? ¿Cuál es la magnitud de V ?
(b) Sabemos que si el tensor de Riemann es cero, entonces el espacio es plano, y viceversa.
Suponga ahora que sólo se sabe que la contracción conocida como tensor de Ricci Rµ αµβ =
g µν R ναµβ es cero. ¿Es plano el espacio en cuestión?
(c) ¿Qué es una geodésica?
(d) Si dos observadores A y B siguen la misma trayectoria geodésica (sin importar el espacio
en cuestión) y se ubican en puntos diferentes, ¿existe algún método para que A conozca las
mediciones desde el punto de vista de B?
2.21 Transporte paralelo y la 2–esfera.
Considere nuevamente la 2–esfera con elemento de línea ds2 = dθ2 + sen2 θdφ2 (0 ≤ θ ≤ π, 0 ≤ φ ≤
2π), donde θ = 0 es el polo norte y θ = π el sur.
(a) Escriba la métrica y calcule los símbolos de Christoffel para la 2–esfera.

(b) Escriba las ecuaciones de transporte paralelo de un vector V = (V θ , V φ )T en la 2–esfera a lo
largo de un paralelo θ = θ0 = cte, es decir, en la trayectoria descrita por (xµ ) = (θ0 , φ)T y
encuentre V (φ). Suponga la condición inicial V (φ = 0) = (V0θ , V0φ )T . Sugerencia: considere
como parámetro afín a φ y busque que el sistema obtenido de ecuaciones acopladas adopte la
forma de dos osciladores armónicos desacoplados.
(c) Considere el resultado del inciso anterior. Si se escribe V̂ = AV̂0 , en donde V̂ es el vector
normalizado con V̂ µ = V µ |eµ | (sin suma sobre µ). ¿Cuál es la forma de la matriz A?, ¿cuál
es el determinante de A?
(d) Considere ahora el vector V = eθ en φ = 0. ¿Cómo es V después de ser transportado
paralelamente a lo largo del paralelo θ = π/3?
(e) Escriba las dos ecuaciones de la geodésica para la 2–esfera con los símbolos de Christoffel que
obtuvo en el primer inciso y el parámetro afín τ (tiempo propio). Dadas algunas condiciones
iniciales, describa cualitativamente algún posible método de resolver para θ(τ ) y φ(τ ).
(f) Muestre que las ecuaciones para el transporte paralelo en la 2–esfera a lo largo de un meridiano
con φ = φ0 = cte se reducen a
V θ ,θ = 0 y V φ ,θ + cot θV φ = 0.
Encuentre las componentes de V = V (θ) dada la condición inicial V (θ = ϑ0 ) = (V0θ , V0φ )T .

Usando ϑ0 = π/2 y V (ϑ0 ) = eφ , describa el comportamiento de V (θ) al ser transportado
paralelamente a lo largo de un meridiano.
(g) Calcule las componentes independientes Rµ ναβ del tensor de Riemann en la 2–esfera. Suge-
rencia: emplee el resultado de (b) del ejercicio 2.18.
Capítulo 3
Relatividad general y sus

aplicaciones básicas
3.1. Principios de relatividad general

La relatividad especial es válida únicamente para marcos (globalmente) inerciales. La
pregunta que Einstein se formuló fue cómo extender la relatividad a sistemas no inerciales
sujetos a fuerzas. Quizá la fuerza más simple de todas es la gravitacional porque, en su
presencia, todos los cuerpos con la misma velocidad inercial y posición siguen trayectorias
idénticas.
Un buen punto de partida son los marcos de referencia no inerciales que, al menos
como primera aproximación, pueden tratarse como marcos inerciales, dejándonos aplicar la
relatividad especial hasta cierto punto. Como veremos, es posible encontrar dichos sistemas
en el contexto de la gravedad.
3.1.1. Principio de equivalencia
Un concepto crucial que nos ayudará a extender la relatividad especial es un antiguo

postulado todavía algo polémico: el principio de equivalencia. Este principio fue primera-
mente aplicado por Galileo y Newton. En su forma débil afirma que la masa inercial mi y la
masa gravitacional mg son equivalentes. Esta asignación es un tanto sorprendente porque
la masa inercial, que aparece en la segunda ley de Newton,
f = mi a, (3.1)
es una cantidad universal independientemente de la naturaleza de f , mientras mg que
aparece en
f = −mg ∇φ, (3.2)
154 Relatividad general y sus aplicaciones básicas
mg mi
g g
planeta
Figura 3.1: Principio de equivalencia. El movimiento de partículas en una caja debido a un campo
gravitacional y al movimiento acelerado de la caja son indistinguibles para un observador dentro
de una caja pequeña.
donde φ es el potencial gravitacional, es particular a la fuerza gravitacional. Sin embargo,

diversos experimentos han demostrado que no hay ninguna desviación de
mi = mg . (3.3)
Una consecuencia inmediata del principio de equivalencia débil es que
a = ẍ = −∇φ(x) (3.4)
describe el movimiento de cualquier partícula sujeta a un campo gravitacional, independien-

temente de su masa, carga o cualquier otra propiedad que tenga. Es decir, el movimiento
de las partículas en caída libre es universal.
Una forma alternativa de expresar el principio de equivalencia surge del Gedankenex-
periment1 en el que un físico observa la caída libre de una partícula dentro de una caja
pequeña y (visualmente) sellada. Si se satisface el principio de equivalencia, el observador
dentro de la caja no sería capaz de decir si el movimiento de la partícula se debe a un
campo gravitacional influyendo sobre la caja o si se debe al movimiento acelerado de la
caja, como se observa esquemáticamente en la figura 3.1.
1
Le llamamos Gedankenexperiment a los experimentos pensados porque así les llamaba Einstein en ale-
mán. La utilidad de éstos es que nos permiten comprender ciertos aspectos de la física en un escenario que
concibe las consecuencias de una acción de acuerdo a su fenomenología.
3.1 Principios de relatividad general 155
m1 m2 m1 m2
g g
planeta
Figura 3.2: Movimiento de partículas aceleradas debido a un campo gravitacional y al movimiento

acelerado de la caja, observadas dentro de una caja suficientemente grande. Notamos diferencias al
comparar ambas cajas.
Vemos, sin embargo, que si la caja es suficientemente grande, las partículas que caen
debido al efecto de un campo gravitacional pueden distinguirse de otras que están sujetas
a una aceleración constante, como se observa esquemáticamente en la figura 3.2.
Se deduce entonces que una forma alternativa de expresar el principio de equivalencia
(débil) es que el movimiento de partículas libres en un campo gravitacional es equivalente
a que las mismas partículas estén en un marco de referencia uniformemente acelerado,
siempre y cuando sólo pequeñas regiones del espacio–tiempo sean consideradas.
Una interesante consecuencia de esta interpretación se expresa en otro Gedankenexpe-
riment de Einstein. Imaginemos de nuevo nuestro experimento encerrado en una caja, pero
esta vez la caja cae por acción del campo gravitacional mientras que una partícula en la
caja también cae libremente. Como la caja y la partícula caen con la misma aceleración
uniforme, un observador no nota ningún movimiento de la partícula dentro de la caja, como
se observa esquemáticamente en la figura 3.3. Este mismo experimento puede realizarse con
dos o más partículas, y el observador podría describir la caja como un marco de referencia
no acelerado, siempre y cuando la caja sea suficientemente pequeña (y la caja no haga con-
tacto con el piso). Impresionantemente, antes de su inevitable muerte, el observador en la
caja podría afirmar que en ese marco de referencia las leyes de la física pueden describirse
con la relatividad especial.
Entonces, hemos encontrado que en regiones pequeñas alrededor de cada punto del
espacio–tiempo dotado con un campo gravitacional, hay un marco de referencia especial
(localmente inercial) en el cual las leyes de la naturaleza toman la forma de aquéllas en un
marco de referencia inercial.
Curiosamente, la definición de una variedad es muy similar a la afirmación anterior:
en una región pequeña alrededor de cada punto de una variedad Riemanniana existe un
espacio en el cual la métrica es plana. Esto conduce a una sorprendente interpretación
m m
g
planeta
Figura 3.3: Cuando la caja también está acelerada por el campo gravitacional, un observador no
puede notar ningún movimiento de la partícula.
geométrica del principio de equivalencia: el movimiento de una partícula sometida a un

campo gravitacional es el mismo que observa una partícula libre al desplazarse sobre un
espacio–tiempo con curvatura.
3.1.2. Corrimiento al rojo gravitacional
En nuestro estudio del efecto Doppler relativista en la sección 1.10.1, encontramos que
para velocidades Newtonianas (no relativistas), la frecuencia ν ′ de la luz emitida por una
fuente que se aproxima a un observador no coincide con la frecuencia observada ν de
acuerdo a
ν′ ∆v ∆v
≈1− , ≪ 1, (3.5)
ν c c
donde ∆v corresponde a la diferencia entre la velocidad v ′ de la fuente cuando un fotón con
energía hν ′ se emite al tiempo tE y la velocidad v del receptor cuando el fotón es detectado
al tiempo tD con energía hν. En marcos de referencia inerciales v y v ′ son constantes, y
entonces v y v ′ pueden medirse simultáneamente, es decir

∆v ≡ v ′ (tE ) − v(tD ) = v ′ (tE ) − v(tE ) . (3.6)
En marcos de referencia no inerciales la diferencia en el tiempo es relevante.

Consideremos dos partículas originalmente (al tiempo t0 ) en reposo que se aceleran
repentinamente durante ∆t con aceleración constante g a lo largo de una dirección, como
3.1 Principios de relatividad general 157
y
g g
t0 :
hν
t0 + ∆t :
y
Figura 3.4: Emisión y recepción de luz de partículas en movimiento con una aceleración g y separadas
una distancia y.
se representa en la figura 3.4. Si están separadas por una distancia y en t0 , en t0 + ∆t la

distancia será la misma, pero la velocidad de ambas partículas habrá cambiado por g∆t.
Supongamos ahora que la primera partícula emite un fotón con energía hν ′ al tiempo t0 ,
que es detectado por la segunda partícula al tiempo t0 + ∆t.
De acuerdo con nuestra descripción de ∆v en el efecto Doppler Newtoniano, tenemos
gy
∆v = v ′ (t0 ) − v(t0 + ∆t) = |v(t0 ) − v(t0 + ∆t)| = |0 − g∆t| = g∆t = . (3.7)
c
Por consiguiente, de acuerdo a (3.5), las frecuencias de la luz emitida y detectada difieren
por
ν′ gy gy
≈1− 2, ≪ 1. (3.8)
ν c c2
Debido al principio de equivalencia, este resultado debe ser válido si las partículas
están sujetas a un campo gravitacional. En este caso, dada la dirección de la aceleración
gravitacional, la frecuencia menor es observada más lejos del origen de esa aceleración; es
decir, un fotón pierde energía a medida que sube un campo gravitacional. Por ejemplo, si
g = GN M/R2 es la aceleración inducida por un planeta de masa M y radio R, entonces,
encontramos que el fotón detectado a una altitud y en el planeta debe tener un corrimiento
al rojo dado por
ν′ GN M y
≈1− 2 2 . corrimiento al rojo gravitacional (3.9)
ν c R
Por construcción, la expresión anterior sólo es válida para R2 /y ≫ GN M/c2 y debe ser
reemplazada en casos más generales, como será discutido en la sección 3.3.2. Es preciso
destacar que el corrimiento al rojo gravitacional no corresponde a un simple cambio de
perspectiva. A diferencia del corrimiento al rojo longitudinal de la relatividad especial (en
el que la luz emitida por una fuente que se aleja del observador es apreciada con menor
frecuencia), en este caso la radiación electromagnética pierde energía al alejarse de una

fuente gravitacional.
Este corrimiento al rojo gravitacional fue predicho por Einstein en su artículo de 1911
On the Influence of Gravitation on the Propagation of Light, pero ganó fuerza sólo después
del desarrollo final de la teoría de la relatividad general en 1915. Se confirmó experimen-
talmente por Pound y Rebka en 1959, usando la emisión y absorción de rayos γ del 57 F e.
Esta predicción codifica otra observación interesante: como ν ′ < ν, entonces ∆t′ > ∆t,
es decir, los relojes avanzan más lentamente cerca de una fuente de campo gravitacional,
y entre más fuerte es el campo, más lento avanza el reloj. Sin embargo, Einstein notó que
esta observación no es consistente con el postulado de la universalidad de la velocidad de
la luz c, a menos de que la luz se curve por acción de la gravedad.
3.2. Campos gravitacionales débiles: límite Newtoniano

Aunque la observación anterior podría ser suficiente para relacionar fuerzas gravitacio-
nales con la curvatura del espacio–tiempo, no hemos proporcionado un tratamiento formal
a esta conclusión. Particularmente, la curvatura ha estado ausente en nuestra discusión.
Para llegar a una descripción razonable, empecemos estudiando el escenario gravitacional
más simple, uno donde el campo gravitacional sea muy débil (como en nuestro planeta).
Si hay alguna conexión entre gravitación y curvatura, un campo gravitacional débil
podría ser descrito en términos de un espacio con muy poca curvatura. Impongamos las
siguientes suposiciones sobre el espacio–tiempo:
1. Las partículas en el espacio–tiempo se mueven lentamente, es decir, |ui | ≪ c;

2. El espacio–tiempo es prácticamente plano, por lo que podemos aproximar la métrica
como
gµν = ηµν + hµν con |hµν | ≪ 1; (3.10)
3. La métrica y la conexión del espacio–tiempo son compatibles; además, suponemos

que el campo débil es estático, entonces las componentes de la métrica no pueden
depender del tiempo
gµν,0 = 0. (3.11)
Como consecuencia de nuestra segunda suposición, la métrica es casi diagonal.

Nuestra labor ahora es estudiar el comportamiento de partículas libres en dicho espacio–
tiempo, prestando especial atención a las desviaciones de su movimiento en espacio–tiempo
plano. Con este propósito, consideremos la ecuación de la geodésica (2.258)
d2 xµ µ dxα dxβ
+ Γ αβ = 0. (3.12)
dτ 2 dτ dτ
3.2 Campos gravitacionales débiles: límite Newtoniano 159
El segundo término de esta ecuación, al ser desarrollado, puede reescribirse como

0 2
µ dxα dxβ µ dx dx0 dxi dxi dxj
Γ αβ = Γ 00 + 2Γµ 0i + Γµ ij
dτ dτ dτ dτ dτ dτ dτ
i i j
0 2
∂x ∂x ∂x dx
= Γµ 00 + 2Γµ 0i 0 + Γµ ij 0 0 (3.13)
∂x ∂x ∂x dτ
2
ui ui uj dx0
= Γµ 00 + 2Γµ 0i + Γµ ij 2 ,
c c dτ
donde hemos definido las componentes de la velocidad local, ui = ∂xi /∂t. Como, por
suposición, |ui | ≪ c, entonces (3.13) se reduce en este límite a
2
µ dxα dxβ dx0
Γ αβ ≈ Γµ 00 . (3.14)
dτ dτ dτ
Usando la expresión de los símbolos de Christoffel en términos de la métrica (2.221), obte-

nemos
1 1
Γµ 00 = g µλ (2g0λ,0 − g00,λ ) = − g µλ g00,λ , (3.15)
2 2
donde hemos empleado (3.11). Como hemos supuesto la expansión de la métrica (3.10), para
satisfacer la condición g µλ gλν = δνµ , vemos que, tomando η µλ hλν = ηλν hµλ , las componentes
de la métrica son, a primer orden en h,
g µλ ≈ η µλ − hµλ , |hµλ | ≪ 1. (3.16)
Por lo tanto, en esta aproximación,

1 1
Γµ 00 ≈ − (η µλ − hµλ )(η00 + h00 ),λ ≈ − η µλ h00,λ , (3.17)
2 2
y, por consiguiente, la ecuación geodésica se convierte en
2
d2 xµ 1 dx0
≈ η µλ h00,λ . (3.18)
dτ 2 2 dτ
Para la componente µ = 0, encontramos el resultado trivial
2
d2 x0 1 dx0
2
≈ η 0λ h00,λ = 0, (3.19)
dτ 2 dτ
debido a que gµν,0 = hµν,0 = 0. Este resultado tiene una interpretación física directa. Ya
que, de acuerdo a (1.67),
d2 x0 1 dp0
= , (3.20)
dτ 2 m dτ
entonces gµν,0 = 0 asegura la conservación de la energía, es decir, como supusimos, el

sistema dinámico es estático. Una consecuencia directa es que
dx0 dt
=c = cte. (3.21)
dτ dτ
Para las componentes espaciales µ = i, encontramos la ecuación (no tensorial)
0 2 2
d2 xi 1 dx 1 2 dt
2
≈ − h00,i = − h00,i c , (3.22)
dτ 2 dτ 2 dτ
que, multiplicando por (dτ /dt)2 , conduce a
d2 xi 1
2
≈ − c2 h00,i . (3.23)
dt 2
Este resultado es similar a la relación Newtoniana (3.4), para un campo (potencial) gravi-
tacional φ. De hecho, si elegimos
2φ
h00 = 2 , (3.24)
c
(3.4) y (3.23) coinciden. En otras palabras, notamos que para un espacio–tiempo estático,
es posible relacionar un campo gravitacional con la métrica. Empleando (3.10) y (3.24),
identificamos que el intervalo adopta la estructura

2φ
ds2 = 1 + 2 (dx0 )2 − (1 − hii )(dxi )2 . (3.25)
c
Si suponemos que el espacio–tiempo descrito por este intervalo es homogéneo e isotrópico,
es posible mostrar que hii = 2φ/c2 .
A la luz de estas observaciones, nuestra suposición adquiere una interpretación física
|hµν | ≪ 1 =⇒ φ ≪ 1,
gµν,0 = 0 =⇒ φ,0 = 0,
es decir, el campo gravitacional es débil y estático. Esto establece una relación clara entre
la geometría y la gravitación.
Para establecer la relación general entre geometría y gravitación, ahora debemos descri-
bir la relación entre las ecuaciones de campo de Einstein (2.336) y las ecuaciones de Newton
para φ. Recordemos primero que en la gravedad Newtoniana, φ satisface la ecuación de
Poisson
∇2 φ = 4πGN ρm , (3.26)
donde ρm es la densidad de masa. Para una distribución de masa esférica puntual, sabemos
que Z
GN M
φ=− , M ≡ d3 xρm . (3.27)
r
3.2 Campos gravitacionales débiles: límite Newtoniano 161
Entonces, en el límite Newtoniano, encontramos que el intervalo está dado por

2GN M 2GN M
ds2 = 1 + (dx 0 2
) − 1 − (dxi )2 . (3.28)
rc2 rc2
La primera pregunta es cómo escribir la ecuación (3.26) en forma tensorial. Vemos que,
en términos de h00 = 2φ/c2 y T00 = ρm c2 = ρ, (3.26) se convierte en
2 2 8πGN 8πGN
∇2 h00 = ∇ φ= ρm = T00 , (3.29)
c2 c2 c4
donde T00 se ha tomado en el marco del centro de masa, como en (2.156). En cualquier otro
marco, debemos considerar todas las componentes de Tµν y gµν . Por lo tanto, la ecuación
tensorial que estamos buscando depende de gµν del lado izquierdo y Tµν del lado derecho.
Considerando el posible origen del Laplaciano espacial asociado al Laplaciano en tér-
minos de la derivada covariante, hacemos una primera conjetura:
8πGN
Dµ Dµ gαβ = Tαβ . (3.30)
c4
Desafortunadamente, notamos de inmediato que esto no puede ser correcto porque, en
general, gαβ;µ = 0 y Tαβ 6= 0. No obstante, es claro que requerimos segundas derivadas
de la métrica para llegar a la ecuación de Poisson. Entonces, proponemos una segunda
conjetura en la que, en lugar del Laplaciano covariante, empleamos directamente el tensor
Rαβ como el origen de ∇2 h00 . Dado que
1 1
R00 ≈ Γi 00,i ≈ − η iλ h00,λi = ∇2 h00 , (3.31)
2 2
entonces podemos conjeturar que
4πGN
Rµν = Tµν . (3.32)
c4
Pero sabemos que, en general, Dµ Rµν 6= 0 mientras Dµ Tµν = 0.
Una conjetura más interesante es considerar del lado izquierdo el operador tensorial
más general de rango 2 que dependa de las segundas derivadas de la métrica gµλ,νβ y de
gµν . Proponemos
Oµν = Rµν + Ag µν R − Λg µν , A, Λ = cte, (3.33)
tal que
Oµν = κT µν , κ = cte, (3.34)
y Dµ T µν = 0. Juntas, estas condiciones implican Dµ Oµν = 0, lo que conduce a
Dµ Oµν = Dµ (Rµν + Ag µν R − Λg µν ) = Dµ (Rµν + Ag µν R) = 0, (3.35)

que, comparando con (2.335), sólo se satisface en general si A = − 21 con base en argu-
mentos meramente geométricos. Consecuentemente, salvo por el término (covariantemen-
te) constante −Λg µν , O coincide con el tensor de Einstein G, cuyas componentes Gµν =
Rµν − 12 g µν R satisfacen Dµ Gµν = 0. Entonces, encontramos que, escogiendo κ = 8πG c4
N
para obtener (3.29) en el límite Newtoniano, la relación tensorial más general que conduce
a la ecuación gravitacional de Poisson es
Gµν − Λg µν = κT µν , ecuaciones de campo de Einstein (3.36)
conocida como las ecuaciones de campo de Einstein. Por razones que serán exploradas más
tarde, la constante Λ es conocida como constante cosmológica y típicamente se asocia a la
energía intrínseca del vacío cuántico. Como mostramos detalladamente en el apéndice C, las
ecuaciones de campo de Einstein pueden ser obtenidas directamente mediante el principio
variacional a partir de la llamada acción de Einstein-Hilbert. Sin embargo, no existe manera
de obtener, de primeros principios, esa acción. Es decir, así como la segunda ley de Newton
y la ecuación de Schrödinger de la mecánica cuántica, las ecuaciones de campo de Einstein
son leyes empíricas basadas en nuestras observaciones.
Dado que la ecuación de Poisson se puede obtener a partir de (3.36) con constante
cosmológica nula, en el límite Newtoniano, las ecuaciones de Einstein establecen la conexión
entre materia/energía y geometría que sugiere el principio de equivalencia. El lado izquierdo
de (3.36) sólo contiene elementos geométricos, mientras que el lado derecho contiene la
descripción del contenido que habita en el espacio–tiempo expresado por la geometría. Por
lo tanto, la dinámica del contenido del universo, de acuerdo a las ecuaciones de campo de
Einstein, está regida por la estructura geométrica del espacio–tiempo y, al mismo tiempo,
el contenido del universo es fuente de las deformaciones (topología, curvatura, conexión,
etc.) del espacio–tiempo.
En especial, la dinámica de partículas libres (y radiación), de acuerdo a las ecuaciones
de Einstein, está completamente determinada por la métrica y, según nuestra discusión
de la sección 2.6.3, corresponde al movimiento a lo largo de las geodésicas de la geome-
tría. Por otra parte, hemos identificado que, al menos en el límite Newtoniano, la métrica
corresponde al campo gravitacional; por lo tanto, una partícula libre sometida a un cam-
po gravitacional sigue la trayectoria regida por la métrica del espacio–tiempo, es decir,
una geodésica. Notamos que, en efecto, la gravedad desaparece para un observador que
se desplaza junto a la partícula en caída libre porque, localmente, la métrica es plana
en los espacios–tiempo Lorentzianos de la relatividad general y, por lo tanto, el campo
gravitacional es el mismo reinante en la relatividad especial.
Einstein propuso esta generalización de su teoría de la relatividad como una descripción
de las interacciones gravitacionales. Entonces no sólo caracteriza el movimiento de los
objetos en caída libre que están sometidos a una forma local de la relatividad compatible
con la teoría especial de Einstein, sino que debería ser capaz de proveer reglas para el
3.3 Solución de Schwarzschild: estrellas y agujeros negros 163
movimiento de cuerpos masivos, rotantes, con carga eléctrica, acelerados por algún efecto
adicional de cualquier origen.
Las ecuaciones de campo de Einstein corresponden a una ley física sólo si es posible
comprobar que todas sus consecuencias pueden ser verificadas experimentalmente, y ob-
tener esas consecuencias requiere resolver las ecuaciones de Einstein. Y resolverlas no es
asunto menor. Debido a las simetrías de Rµν y Tµν , (3.36) contiene 10 ecuaciones diferen-
ciales parciales acopladas y cuadráticas en gµν y sus derivadas. Resolver esas ecuaciones
significa frecuentemente encontrar el tensor métrico que mejor se adapta a la dinámica
de un sistema físico que experimenta interacciones gravitacionales. Pero también significa
encontrar la dinámica del contenido de un espacio–tiempo dada una métrica de interés.
El resto del capítulo está dedicado a identificar las consecuencias de la relatividad general
dadas dos importantes métricas para nuestra existencia, la correspondiente a estrellas y la
que describiría el universo como un todo.
3.2.1. Unidades naturales
Antes de comenzar a trabajar con la solución más sencilla de las ecuaciones de Eins-
tein (3.36), es preciso introducir una simplificación a la notación. A partir de esta sección,
emplearemos las llamadas unidades naturales, definidas por
GN = c = ~ = 1, (3.37)
donde ~ corresponde a la constantes de Planck.

Estas unidades, además de simplificar considerablemente las expresiones algebraicas que
obtendremos, desconectan de todo tipo de prototipos de medición a las propiedades físicas.
Es, de cierta forma, más natural suponer que los valores precisos elegidos por la naturaleza
de las constantes universales en (3.37) es la unidad, en lugar de los valores artificiales que
hemos aprendido a usar por razones históricas.
Notamos que, por ejemplo, en estas unidades, las ecuaciones de campo de Einstein
adoptan la forma
Gµν = 8πT µν . (3.38)
Adicionalmente, notamos a partir del intervalo de Minkowski con c = 1 (adimensional),
ds2 = dt2 − dxi dxi , que las unidades de tiempo y longitud ahora coinciden. Además, la
razón β ahora coincide con la rapidez de un sistema.
3.3. Solución de Schwarzschild: estrellas y agujeros negros

El campo gravitacional del Sol, de los planetas del sistema solar, e incluso de algunas
galaxias puede ser modelado por la aproximación de campo débil, es decir, por la gravi-
tación Newtoniana. Sin embargo, las observaciones indican que en los núcleos galácticos y
otras estructuras cósmicas reinan campos gravitacionales intensos, incluso probablemente
responsables de las enormes energías que los rayos cósmicos alcanzan. Comprender la física
gravitacional en general requiere obtener soluciones exactas de las ecuaciones de Einstein.
La solución de Schwarzschild se considera la solución más sencilla y útil de las ecuaciones
de campo de Einstein. Esta solución corresponde a la descripción de un sistema con las
siguientes propiedades:
(i) está dotado de simetría esférica,

(ii) es estático e invariante bajo inversión temporal (t → −t), y
(iii) ocurre en el vacío.
La segunda propiedad implica que la métrica debe satisfacer gµν,0 = 0, como supusimos
en el límite de campo débil, mientras que la tercera suposición exige que el tensor de
energía-momento y la constante cosmológica se anulen, Tµν = 0 = Λ.
Obtener una solución a las ecuaciones de Einstein consiste, en este caso, en obtener la
expresión más general de la métrica o, análogamente, del elemento de línea (o intervalo) que
se ajusta a las cualidades buscadas. Para obtener la métrica de Schwarzschild, recordemos
primero que en coordenadas esféricas tridimensionales el elemento de línea del espacio plano
está dado por
s2 = dr2 + r2 (dθ2 + sen2 θdϕ2 ) ≡ dr2 + r2 dΩ2 ,
de (3.39)
donde dΩ2 es el diferencial de ángulo sólido. El término r2 dΩ2 corresponde al elemento
de línea bidimensional para una 2-esfera de radio r fijo, y su estructura hace evidente la
simetría esférica. A partir de la expresión (3.39), proponemos el siguiente intervalo en un
espacio–tiempo con simetría esférica:
ds2 = dt2 − de
s2 = dt2 − dr2 − r2 dΩ2 . (3.40)
En general, una métrica con simetría esférica podría tener términos no diagonales y
coeficientes no triviales, conduciendo a una expresión como
ds2 = g00 dt2 + 2g0r dtdr + grr dr2 − r2 dΩ2 + 2g0θ dtdθ + 2g0ϕ dtdϕ. (3.41)
La componente de ángulo sólido permanece invariante, suponiendo que r y grr podrán

absorber toda dependencia en las otras variables. La simetría esférica implica invariancia
bajo rotaciones, tales como dθ → −dθ y dϕ → −dϕ, lo cual se satisface sólo si g0θ =
g0ϕ = 0. Como también exigimos invariancia bajo inversión temporal, es decir, bajo dt →
−dt, entonces g0r = 0 también. Por lo tanto, la estructura más general del intervalo que
reproduce los requerimientos de Schwarzschild es
ds2 = g00 dt2 + grr dr2 − r2 dΩ2 . (3.42)

Para encontrar las expresiones precisas de las componentes g00 y grr de la métrica que
conducen a una solución de las ecuaciones de Einstein, es preciso introducir la métrica
obtenida hasta aquí,
(gµν ) = diag(g00 , grr , −r2 , −r2 sen2 θ) , (3.43)
en las ecuaciones de Einstein, y resolver las ecuaciones diferenciales resultantes. Para un
sistema arbitrario, esto no es posible de manera exacta; afortunadamente, sí lo es para
nuestro sistema.
Propongamos un ansatz para las componentes desconocidas de la métrica:
g00 = e2T (r) , grr = −e2R(r) (3.44)
con2 T (r), R(r) > 0 ∀ r y las condiciones de frontera lı́mr→∞ T (r) = lı́mr→∞ R(r) = 0, tal
que el intervalo adopta la forma
2 2
ds2 = eT (r) dt − eR(r) dr − r2 dΩ2 . (3.45)
Con la métrica propuesta, podemos calcular directamente el tensor de Einstein Gµν en

términos de la función de masa
1
m(r) ≡ r(1 − e−2R ), función de masa (3.46)
2
introducida aquí de forma auxiliar. Como veremos en breve, la elección de la notación no es

arbitraria, ya que esta función auxiliar jugará el papel de masa. En términos de la función
de masa, encontramos que las componentes no nulas del tensor de Einstein están dadas
por
1 2(T −R) 2R
G00 = e (e + 2rR′ − 1)
r2
1 d 2 dm
= 2 e2T r(1 − e−2R ) = 2 e2T , (3.47)
r dr r dr
1 2m 2T ′
Grr = 2 (1 − e2R + 2rT ′ ) = − 3 e2R + , (3.48)
r r r
2 −2R ′ 2 ′ ′ ′′ 1 ′ 1 ′
Gθθ =r e (T ) − R T − T + T − R , (3.49)
r r
Gϕϕ = Gθθ sen2 θ, (3.50)
donde T ′ = dT /dr.
2
Como veremos, estas condiciones se violan en el interior de un agujero negro, donde ambas funciones
cambian de signo.
3.3.1. Estrella estática
Supongamos por un momento que el tensor de energía–momento no es trivial. En una

estrella estática, el movimiento de las partículas debe anularse, es decir, U i = 0. Calculemos
Tµν suponiendo que una estrella puede modelarse como un fluido perfecto, para el cual, de
acuerdo a (2.161),
Tµν = (ρ + P )Uµ Uν − P gµν , (3.51)
donde ρ es densidad de energía y P es presión. Sólo las componentes diagonales son rele-
vantes porque es un fluido perfecto. La primera componente está dada por
T00 = (ρ + P )(U0 )2 − P g00 . (3.52)
Podemos calcular (U0 )2 de U · U = 1 (en unidades naturales)
U · U = g00 (U 0 )2 − 0 = e2T (U 0 )2 = 1 ⇐⇒ U 0 = e−T

(3.53)
=⇒ U0 = g00 e−T = e2T e−T = eT .
Usando este resultado en (3.52), obtenemos
T00 = (ρ + P )e2T − P e2T = ρe2T . (3.54)
Como Ui = 0 para i = r, θ, ϕ, las demás componentes del tensor de energía–momento están

dadas por
Trr = −P grr = P e2R , (3.55)

2
Tθθ = −P gθθ = P r , (3.56)
Tϕϕ = −P gϕϕ = P r2 sen2 θ = Tθθ sen2 θ . (3.57)
Sustituyendo las componentes (0, 0) del tensor de Einstein (3.47) y del tensor de energía–
momento (3.54) en la ecuación de campo de Einstein,
G00 = κT00 , κ = 8π , (3.58)
llegamos a la ecuación diferencial

2 2T dm
e = κρm e2T , (3.59)
r2 dr
en donde ρ = ρm (densidad de energía equivalente a densidad de masa) en unidades natu-
rales. Simplificando, encontramos
dm
= 4πρm r2 . (3.60)
dr
Recordando que en la teoría de Newton la masa de un sistema gravitacional esféricamente

simétrico puede expresarse como (comparar con (3.27))
Z Z
M = d xρm = dr4πr2 ρm ,
3
(3.61)
identificamos a m = m(r) como la función de masa, justo como anticipamos.

De la definición de m(r) (3.46), podemos resolver para obtener una expresión para grr
−1
2R 2m
− grr = e = 1− , (3.62)
r
la cual podemos usar en la ecuación de Einstein con µ = ν = r, Grr = κTrr . Sustituyen-

do (3.62) en (3.55) y (3.48), obtenemos
−1 −1
2m 2m 2T ′ 2m
− 3 1− + = 8πP 1− , (3.63)
r r r r
de donde obtenemos que

−1 h
T′ 2m m i 4πP r3 + m
= 1− 4πP + = 3 . (3.64)
r r r3 r 1 − 2mr
Por lo tanto, la última ecuación diferencial a resolver es
4πP r3 + m(r)
T′ = . (3.65)
r(r − 2m)
Las otras dos ecuaciones de campo de Einstein para µ = ν = θ y µ = ν = ϕ son

equivalentes a
Gθθ = 8πP r2 . (3.66)
En lugar de entrar en los detalles para resolver las ecuaciones diferenciales obtenidas,
recordemos que queremos resolver un sistema con Tµν = 0. Esto, por supuesto, solamente
es válido en el exterior de la estrella, en donde
dm
ρm = P = 0 =⇒ =0 =⇒ m(r) = M = cte. (3.67)
dr
En esta región, (3.65) adopta la forma
dT M 1 1
T′ = = =− + , (3.68)
dr r(r − 2M ) 2r 2(r − 2M )
que conduce a la solución

2M
2T (r) = − ln r + ln(r − 2M ) = ln 1 − . (3.69)
r
Finalmente, sustituimos en nuestro ansatz (3.44) para obtener
2M
g00 = e2T = 1 − = e−2R , (3.70)
r
donde la última igualdad es consecuencia de (3.62) con (3.67). Empleando el resulta-
do (3.70) en el intervalo propuesto (3.42), encontramos la solución buscada para una estrella
de Schwarzschild
−1
2 2M 2 2M
ds = 1 − dt − 1 − dr2 − r2 dΩ2 . intervalo de Schwarzschild (3.71)
r r
Como estudiaremos en detalle en la sección 3.3.5, el llamado radio de Schwarzschild, defi-

nido por3
r = rs ≡ 2M, radio de Schwarzschild (3.72)
corresponde a un punto interesante. Notamos especialmente que el intervalo parece singular

en r = rs . A pesar de que esto es más bien una manifestación de nuestra elección de
coordenadas, sí existen observaciones interesantes en torno al valor rs , como veremos en la
sección 3.3.4.
Notemos que en el límite de campo lejano, r ≫ rs , recuperamos el intervalo en el límite
Newtoniano (3.28),
rs 2 rs 2
ds2 = 1 − dt − 1 + dr − r2 dΩ2 . (3.73)
r r
Mientras que la métrica de Schwarzschild, codificada en (3.71), es válida para todas las
intensidades del campo φ, el límite Newtoniano solamente es válido para campos gravita-
cionales débiles. Es decir, como en la relatividad especial, las expresiones gravitacionales
Newtonianas son sólo una aproximación de los resultados relativistas.
La solución de Schwarzschild es particularmente especial debido al llamado teorema de
Birkhoff. George David Birkhoff demostró en 1923 que toda solución con simetría esférica
de las ecuaciones de Einstein en el vacío (Tµν = 0) debe ser estática y asintóticamente
plana. La solución de Schwarzschild ha sido construida exigiendo que el espacio–tiempo
sea esféricamente simétrico, estático y en el vacío. Adicionalmente, no es difícil convencerse
3
Incluyendo las constantes c y GN , el radio de Schwarzschild se expresa como rs = 2GN M/c2 .
de que el espacio–tiempo en la frontera (o fuera) del espacio–tiempo de Schwarzschild debe

ser el de Minkowski, es decir, debe ser asintóticamente plano. Consecuentemente, como la
solución de Minkowski satisface todas las condiciones anotadas por Birkhoff, la solución de
Schwarzschild no sólo es simple y elegante, sino también única.
3.3.2. Corrimiento al rojo en el espacio–tiempo de Schwarzschild
En la sección 3.1.2 hemos estimado el corrimiento al rojo en el límite de campo débil

al aplicar el principio de equivalencia. Lejos de este límite, podemos calcular exactamente
este efecto empleando la geometría de Schwarzschild.
La ecuación de movimiento de un observador o partícula masiva (incapaz de moverse
con la rapidez de la luz) puede calcularse usando el intervalo y su relación con el tiempo
propio,
ds2
ds2 = dτ 2 6= 0 ⇐⇒ = 1. (3.74)
dτ 2
Utilizando el intervalo de Schwarzschild (3.71), obtenemos
2
rs dt 2 rs −1 dr 2 2 dΩ
1− − 1− −r = 1, (3.75)
r dτ r dτ dτ
donde t es el tiempo coordenado que, a diferencia del tiempo propio τ , no depende de
cada observador. La trayectoria descrita por (3.75) es una geodésica, como se muestra en
d d2 s
el apéndice A, porque se satisface que dτ dτ 2
= 0.
En su propio marco de referencia, un observador tiene dr = dΩ = 0, por lo que, si se
encuentra en la posición r, su tiempo propio y el tiempo coordenado satisfacen
2
dt rs −1 rs −1/2
= 1− =⇒ ∆t = 1 − ∆τ . (3.76)
dτ r r
Supongamos que una partícula emite un fotón con periodo ∆t. Cuando ese periodo es
medido por dos observadores con tiempos propios τ1 y τ2 , ubicados en las posiciones r1 y
r2 , estos encuentran los periodos

rs 1/2 rs 1/2
∆τ1 = 1 − ∆t, ∆τ2 = 1 − ∆t , (3.77)
r1 r2
lo cual conduce a una relación entre las posiciones de los observadores y las frecuencias de
la luz que ellos observan:
s
∆τ1 ν2 1 − rs /r1
= = . corrimiento al rojo gravitacional (3.78)
∆τ2 ν1 1 − rs /r2
Para ri ≫ rs (como es el caso en cualquier planeta o estrella), esto implica que

rs rs
ν2 ≈ 1 − + ν1 . (3.79)
2r1 2r2
Suponiendo que r2 > r1 e incluyendo unidades para comparar con resultados previos,
encontramos que (3.79) puede reescribirse como

ν2 GN M 1 1 G N M r 2 − r1 y
≈1− − =1− ≈ 1 − g 2 < 1, (3.80)
ν1 c2 r1 r2 r1 r2 c2 c
GN M
donde identificamos y ≡ r2 − r1 > 0 y la aceleración gravitacional con g ≈ r 1 r2 , lo cual es
consistente con el resultado previo (3.8) y (3.9).
Como antes, debemos enfatizar que el corrimiento al rojo descrito por (3.78) corresponde
a un efecto enteramente físico. Un observador ubicado en r2 > r1 observa que la luz
detectada en esa posición es más roja (tiene menos energía) que cuando es detectada por
otro observador ubicado en r1 , i.e. ν2 < ν1 . La luz pierde energía a medida que se aleja de
la fuente del campo gravitacional.
3.3.3. Cantidades conservadas
Como hemos visto en la sección 2.9.1, las simetrías de la geometría del espacio–tiempo
conducen a la conservación de cantidades físicas. Es posible obtener ese mismo resultado
directamente de la ecuación de la geodésica que describe el movimiento de una partícula
libre en espacio–tiempo con curvatura (ver ejercicio 2.19).
Sabemos que el movimiento de las partículas libres es regido por la ecuación de la
geodésica (2.263),
U α U µ ;α = 0 . (3.81)
Esta ecuación no está bien definida para partículas no masivas porque no es posible definir
su tiempo propio τ y, consecuentemente, su 4–velocidad U . Considerando que la relación
de dispersión relativista (1.78) es válida para todo sistema relativista, es correcto genera-
lizar (3.81) en términos del 4–momento como
pα pµ ;α = 0 . (3.82)
Multiplicando por gνµ y luego sustituyendo µ ↔ ν en (3.82), encontramos
pα pµ;α = pα pµ,α − Γβ µα pα pβ = 0 , (3.83)
de donde
pα pµ,α = Γβ µα pα pβ . (3.84)
Sustituyendo la expresión de los símbolos de Christoffel (2.221), simplificamos el lado de-

recho de esta ecuación:
1
Γβ µα pα pβ = g βγ (gγµ,α + gαγ,µ − gµα,γ )pα pβ
2
1
= (gγµ,α + gαγ,µ − gαµ,γ )pα pγ (3.85)
2
1
= gαγ,µ pα pγ ,
2
donde la tercera igualdad es consecuencia de que el producto pα pγ (gγµ,α − gαµ,γ ), bajo el
intercambio de índices mudos α ↔ γ, se convierte en −pα pγ (gγµ,α − gαµ,γ ) y, por lo tanto,
es cero. En consecuencia, la ecuación de la geodésica (3.84) se simplifica a
1
pα pµ,α = gαγ,µ pα pγ . (3.86)
2
La ecuación (3.86) nos indica qué cantidades se conservan y bajo qué condiciones. En
caso de que la métrica no dependa de xµ , i.e. si gαγ,µ = 0, encontramos que pα pµ,α = 0, lo
cual para una partícula masiva se puede escribir como
dxα ∂
pα pµ,α = m pµ = 0 . (3.87)
dτ ∂xα
Una forma más sugerente y útil de esta última expresión es
d
m pµ = 0 =⇒ pµ = gµν pν = cte , (3.88)
dτ
es decir, una partícula libre conserva la componente pµ de su 4–momento en un espacio–
tiempo con coordenada cíclica xµ . Esta información puede ser empleada, entre otras cosas,
para determinar las trayectorias de las partículas libres (con o sin masa) en cualquier
espacio–tiempo, como haremos en la siguiente sección.
Un resultado menor adicional es que, dado que gαγ,µ = 0 siempre es válido localmente,
en el marco de referencia de una partícula libre un observador siempre mide que se conservan
la energía y el momento. Este resultado no es soprendente, ya que, como discutimos en
la sección 3.1.1, para partículas libres en caída libre, el principio de equivalencia establece
que un observador que se mueve con ellas las observa en estado inercial y, por lo tanto, se
satisfacen los principios de conservación que son válidos en la relatividad especial.
3.3.4. Órbitas de partículas libres en espacio–tiempo de Schwarzschild
Debido a la simetría esférica del espacio–tiempo de Schwarzschild, es posible verifi-

car que la trayectoria geodésica que siguen las partículas libres ocurre en un plano. Por
simplicidad, elegimos el movimiento en el plano ecuatorial (θ = π/2).
Además, en lugar de usar la ecuación geodésica, podemos aplicar nuestro conocimiento

sobre cantidades conservadas, de acuerdo a lo discutido en la sección anterior y en la
sección 2.9.1. Como la métrica es independiente de t y ϕ, para partículas masivas podemos
definir dos cantidades conservadas:
rs dt
p0 = g00 p0 = 1 − m ≡ ε = cte, m 6= 0 , (3.89)
r dτ
dϕ dϕ
pϕ = gϕϕ pϕ = −r2 sen2 θm = −r2 m ≡ ℓ = cte , (3.90)
dτ dτ
donde hemos adoptado el plano ecuatorial (θ = π/2), ε es la energía por unidad de masa
y ℓ es el momento angular. Una simplificación adicional es considerar m = 1. Aquí usamos
nuevamente expresiones en términos de M para llegar a justificar lo especial del radio de
Schwarzschild, rs = 2M . Notemos que para ℓ constante, la ecuación (3.90) corresponde a
la segunda ley de Kepler: se barren áreas iguales en tiempos iguales. Esta regla revela que
el movimiento libre de cuerpos sujetos a un campo gravitacional esféricamente simétrico es
precisamente el de los planetas alrededor de estrellas.
Debido a la invariancia del intervalo, es directo mostrar que también la cantidad
dxµ dxν
e ≡ gµν (3.91)
dλ dλ
es una constante a lo largo de las geodésicas para un parámetro afín λ. Esta ecuación es
válida para partículas masivas y sin masa. Claramente, para partículas masivas podemos
elegir λ = τ /m = τ , lo que implica que e = gµν U µ U ν = 1, mientras que para un fotón
e = 0 debido a que el intervalo siempre es nulo en cualquier marco de referencia y λ 6= τ
porque es imposible definir τ . Con esto, reescribimos (3.91) en general como
2 2
2M dt 2M −1 dr 2 2 dϕ
1− − 1− −r = e. (3.92)
r dλ r dλ dλ
Si reemplazamos τ → mλ en las expresiones (3.89) y (3.90), se vuelven válidas para todo

tipo de partículas. Con ayuda de esas ecuaciones y multiplicando (3.92) por 1 − 2M r ,
encontramos que para toda partícula se satisface
2
2 dr 2M ℓ2 2M
ε − − 1− =e 1− , (3.93)
dλ r r2 r
o, equivalentemente,
2
1 dr 1
+ V (r) = ε2 , (3.94)
2 dλ 2
donde hemos definido el potencial efectivo V (r), dado por

1 2M ℓ2
V (r) ≡ 1− e+ 2 . (3.95)
2 r r
V (r) ℓ4 V (r)
T ℓ3
E3 ℓ 1 < ℓ2 < ℓ3 < ℓ4
ℓ3 ℓ 1 < ℓ2 < ℓ3
E2 T T
ℓ2
E1 C
T
ℓ2 ℓ21 < 12M 2
E0 ℓ1
ℓ22 = 12M 2
ℓ1
ℓ23,4 > 12M 2
2M rc+ > 6M r 2M 3M r
(a) Partículas masivas, e = 1 (b) Partículas sin masa, e = 0
Figura 3.5: Potencial efectivo para partículas con masa (a) y sin masa (b) para diferentes valores
de ℓ. Una partícula masiva libre con energía E “rebota” en los puntos de retorno T o permanece en
los puntos fijos C, en órbitas circulares estables de radio rc+ . Las partículas sin masa no orbitan.
Consecuentemente, a partir de (3.94) obtenemos trivialmente la ecuación de movimiento

de partículas masivas:

1 dr 2 1
+ V (r) = ε2 . (3.96)
2 dτ 2
Notamos que, si E ≡ 12 ε2 en (3.95) es identificado como la energía total del sistema, esta
ecuación describe clásicamente el movimiento de una partícula en un potencial V (r), como
podemos verificar fácilmente tomando la derivada de la ecuación de movimiento (3.96):

d h 1 dr 2 1 i d2 r dr dr
+ V (r) − ε2 = 0 ⇐⇒ 2
+ V ′ (r) =0
dτ 2 dτ 2 dτ dτ dτ
(3.97)
d2 r
=⇒ = −V ′ (r) ,
dτ 2
que es equivalente a f = −∇V para el movimiento radial de una partícula con m = 1.
Las trayectorias radiales de las partículas de prueba dependen de sus energías E = 21 ε2
y de los valores específicos de M y ℓ. Por supuesto, el tipo de partículas también es crucial
ya que establece el valor de e en el potencial efectivo.
En las gráficas de la figura 3.5 se presentan las formas del potencial efectivo, para
diferentes valores de ℓ, M y e fijos. La trayectoria de partículas masivas (e = 1) provenientes
de r ≫ 2M con energía E puede comportarse de las siguientes maneras:
1. Arriba de cierto valor de E (muy por encima de E3 en la figura 3.5a), la partícula

inevitablemente colisiona con la fuente del campo, en r = 0.
2. Puede encontrar la barrera de potencial y reflejarse de regreso a r grandes, después

de alcanzar un punto de retorno T (ver E = E3 en la figura 3.5a).
3. Puede quedar atrapada entre dos puntos de retorno, oscilando en órbitas que, bajo
ciertas condiciones, pueden ser aproximadamente elípticas (ver E = E2 ).
4. Puede confinarse a un punto fijo C en r, de manera que describe órbitas circulares.
Si una partícula empieza en r < 2M y con relativamente poca energía, vemos que
golpea una barrera que impide que se escape. Esta barrera se sitúa alrededor del radio de
Schwarzschild y aparece también para partículas sin masa, como los fotones. Como veremos
en la sección 3.3.5, esto es en parte el corazón de la física de los agujeros negros. Sin embargo,
debemos notar que este comportamiento clásico no puede ser la historia completa, pues
sospechamos que a distancias pequeñas los efectos cuánticos deben ser importantes.
Retomando las órbitas circulares del comportamiento 4, encontramos que estas ocurren
cuando
dV d2 r
− =0= , (3.98)
dr r=rc dτ 2 r=rc
donde rc es el radio orbital. Calculando V ′ y multiplicando por r4 , encontramos que esta
condición es equivalente a la ecuación cuadrática
M erc2 − ℓ2 rc + 3M ℓ2 = 0 , (3.99)
cuyas soluciones para e = 1 son
p
ℓ2 ± ℓ2 1 − 12M 2 /ℓ2
rc±
= . (3.100)
2M
Calculando ahora V ′′ (r) y evaluando en r = rc , notamos que no existen órbitas circulares si
ℓ2 < 12M 2 ; para ℓ2 = 12M 2 , ambas soluciones coinciden en rc = 6M y corresponden a una
órbita inestable por tratarse de un punto de inflexión de V ; finalmente, para ℓ2 > 12M 2 ,
rc+ > 6M (rc− < 6M ) corresponde a una órbita circular estable (inestable) por ser un
mínimo (máximo) de V . Además, en el límite con ℓ2 ≫ 12M 2 la solución inestable se
convierte en
− ℓ2 1 12M 2
rc ≈ 1− 1− + . . . = 3M , (3.101)
2M 2 ℓ2
y rc+ → ∞. Este límite coincide con la solución de (3.99) para e = 0 ilustrada con los
máximos de la figura 3.5b, lo que significa que la trayectoria de las partículas con masa y
sin masa coinciden en este límite. Es decir, las órbitas circulares de fotones y partículas
masivas son las mismas, pero son inestables.
Finalmente, para partículas sin masa (e = 0), como se ilustra en la figura 3.5b, la
barrera de potencial no solamente evita que la luz penetre estrellas más allá de cierta
r > 3M , sino que también evita que ésta escape por encima de r = 2M . Es debido a estas
propiedades que hemos definido antes el llamado radio de Schwarzschild, rs = 2M .
3.3.5. Singularidades de Schwarzschild y agujeros negros
Hemos visto que r = rs es un punto especial más allá del cual una partícula entrante
no tiene oportunidad de escapar. Esta observación está relacionada con la estructura de la
métrica de Schwarzschild codificada en (3.71). El intervalo y, por lo tanto, la métrica de
Schwarzschild presentan dos singularidades radiales:4
r=0 conocida como la singularidad,

r = rs conocida también como horizonte de eventos.
Aunque ambos puntos son considerados importantes físicamente, sólo uno de ellos corres-
ponde a una singularidad física del espacio–tiempo de Schwarzschild.
En general, en variedades Riemannianas descritas por métricas en cierto sistema coor-
denado, la métrica exhibe dos tipos de singularidades:
Singularidades del espacio: puntos donde la curvatura diverge.
Singularidades de coordenadas: singularidades aparentes que desaparecen con un

cambio de coordenadas apropiado. El ejemplo básico de este tipo de singularida-
des es r = 0 en coordenadas polares, donde g θθ = 1/r2 diverge, aún cuando en r = 0
el espacio Euclídeo no tiene propiedades especiales.
Lo mismo ocurre en una variedad pseudo-Riemanniana o Lorentziana como la descrita por

la métrica de Schwarzschild.
Podemos identificar las singularidades físicas al verificar si una combinación escalar del
tensor de Riemann o Ricci diverge. Las combinaciones escalares incluyen las siguientes
R, Rµν Rµν , Rµναβ Rµναβ , Rµναβ Rµν Rαβ .
Para la solución de Schwarzschild, encontramos por ejemplo que
12rs2
Rµναβ Rµναβ = , (3.102)
r6
lo cual diverge solamente para r = 0. De hecho, se puede mostrar que no diverge ningún
escalar de curvatura en r = rs , lo que significa que el espacio–tiempo de Schwarzschild no
exhibe divergencias en este punto. Sin embargo, como veremos en breve, r = rs tiene alguna
importancia física en los pocos objetos que aún pueden describirse por este espacio–tiempo
en esa posición, es decir, aquéllos para los que T µν = 0 en r = rs . Notemos que la mayoría
de los objetos astrofísicos no satisfacen esta condición. Por ejemplo, para el Sol (y estrellas
4
Existen otras singularidades no radiales. Por ejemplo, al invertir la métrica, encontramos que θ = 0 es
una singularidad. Como r = rs , θ = 0 es sólo una singularidad de coordenadas.
trayectoria
de la
partícula
trayectoria
prohibida
rs = 2M r
Figura 3.6: Conos de luz de partículas a distintas distancias del radio de Schwarzschild. Desde
la perspectiva de un observador distante, una partícula tarda más tiempo en recorrer una cierta
distancia a medida que se aproxima a r = rs .
similares) R⊙ ≈ 106 M⊙ ≫ 2M⊙ = rs , donde R⊙ y M⊙ son el radio y la masa del Sol,

respectivamente.
Los objetos estelares que pueden ser descritos por la métrica de Schwarzschild, tal que
T µν = 0 incluso a r ≤ rs , son llamados agujeros negros de Schwarzschild. Estos agujeros
negros corresponden a los más simples: son estructuras esféricamente simétricas, estáticas,
sin momento angular ni carga eléctrica, que, desde un punto de vista clásico, concentran
toda su masa en la singularidad, r = 0.
Exploremos la estructura causal de tales agujeros negros. Los conos de luz pueden
determinarse fijando dθ = dϕ = 0 en el intervalo, tal que
rs 2 rs −1 2 dt rs −1
ds2 = 0 = 1 − dt − 1 − dr =⇒ =± 1− , (3.103)
r r dr r
lo que corresponde a las pendientes en el plano t − r de las fronteras del cono de luz. Estas
pendientes crecen a medida que r se aproxima desde r grande hacia r = rs , divergiendo en
este punto, como se ilustra en la figura 3.6. Las trayectorias permitidas de las partículas
viven en el cono de luz. Entonces, a medida que una partícula se aproxima a r = rs , tarda
más tiempo en (casi) alcanzar rs desde la perspectiva de un observador en reposo. Para
entender mejor este comportamiento, podemos utilizar la ecuación de movimiento para una
partícula masiva (3.96) con ℓ = 0 (y e = 1)
2
2 dr rs
ε − =1− . (3.104)
dτ r
dr
Reexpresando dτ = dr dt
dt dτ en términos del tiempo t medido por un observador distante, y
empleando (3.89), obtenemos la ecuación diferencial
dt rs −1 2 rs −1/2
=ε 1− ε −1+ , (3.105)
dr r r
cuya integral indefinida (para ε2 < 1) en la región rs < r < rs /1 − ε2 es
p r
εr ε2 − 1 + rs /r εrs (3 − 2ε2 ) ε2 − 1 + rs /r
t(r) = − arctan
ε2 − 1 (1 − ε2 )3/2 1 − ε2
p (3.106)
ε2 − 1 + rs /r
− 2rs arctanh .
ε
Claramente, el tercer término diverge cuando r se aproxima a rs . Esto significa que un
observador distante en reposo nunca ve que la partícula que cae alcanza rs .
Además, debido al corrimiento al rojo (3.78) asociado al campo gravitacional
s
1 − rs /r
ν obs (r) = ν emit , (3.107)
1 − rs /R
un observador distante localizado en R > rs observa que la luz emitida con frecuencia ν emit
desde la posición r por un cuerpo que se aproxima a r = rs sufre un corrimiento al rojo
hasta que ν obs → 0.
Sin embargo, la historia de acuerdo a la partícula que cae en el agujero negro es bastante
diferente. Usando la ecuación de movimiento (3.104) para una partícula masiva que se
aproxima al agujero negro, obtenemos
r
dr rs
= − ε2 − 1 + , (3.108)
dτ r
(el signo menos se debe a que la partícula se aproxima y, por lo tanto, r disminuye a medida
que τ aumenta) que conduce a
 √2 q
 r ε −1+rs /r + rs
arctan ε2 −1+rs /r
para ε2 < 1 ,
1−ε 2 (1−ε 2 )3/2 1−ε2
τ= q (3.109)
−r 2 r para ε2 = 1 .
3 rs
Estos resultados son finitos. Esto muestra que r = rs no es un punto donde la física falla,
relacionado a una singularidad del espacio–tiempo, aunque algunas características inusuales
aparezcan ahí para observadores distantes.
Ahora, nos gustaría explorar qué sucede al interior de un agujero negro, es decir, para
r < rs . Usemos la variable ρ = rs − r, tal que
rs > r ≥ 0 =⇒ 0 < ρ ≤ rs (3.110)

rs r
Figura 3.7: Las direcciones radial y temporal son intercambiadas al interior del agujero negro, por lo
que el futuro de toda partícula ahí siempre es la singularidad r = 0. Este comportamiento peculiar
puede ser eliminado mediante un cambio de coordenadas.
y ρ crece a partir de r = rs . Con esta variable, el intervalo adopta la forma

ρ rs − ρ 2
ds2 = − dt2 + dρ − (rs − ρ)2 dΩ2 . (3.111)
rs − ρ ρ
Nos damos cuenta de que este cambio de variable provoca un cambio de signo en los
coeficientes de dt2 y dρ2 , por lo que ρ se convierte en una coordenada temporaloide mientras
que t se convierte en una espacialoide, como se representa en los conos de luz de la figura 3.7.
Por consiguiente, para ir al futuro debemos incrementar ρ, que se traduce en reducir r.
De esta manera, todas las trayectorias llevan inevitablemente a r = 0. Incluso los fotones
tienen el mismo comportamiento, independientemente de la dirección en la que haya sido
emitido. Los eventos que suceden en r < rs son atrapados en el agujero negro. Esta es la
razón por la cual r = rs se le conoce como el horizonte de eventos y, simultáneamente, el
origen del carácter oscuro de los agujeros negros de Schwarzschild: ni siquiera la luz puede
escapar, incluso si una fuerza externa intenta extraerla.
Como r = rs es solamente una singularidad de coordenadas, debemos poder removerla
al hacer un cambio de coordenadas apropiado. Usar las coordenadas de Kruskal–Szekeres
resulta ser la mejor elección. Estas coordenadas se definen para r > rs como5
1/2 1/2
r t r t
X= −1 er/2rs cosh , T = −1 er/2rs senh , (3.112)
rs 2rs rs 2rs
5
La elección de las letras X y T hace más intuitiva la naturaleza de las coordenadas, pero la convención
más aceptada en la literatura es u y v.
y para r < rs como

1/2 1/2
r r/2rs t r r/2rs t
X= 1− e senh , T = 1− e cosh . (3.113)
rs 2rs rs 2rs
En estas coordenadas, el intervalo de Schwarzschild es reescrito como

3
2 4rs
ds = e−r/rs (dT 2 − dX 2 ) − r2 dΩ2 . (3.114)
r
La primera observación es que la superficie r = rs ya no es singular; sólo r = 0 es una

singularidad del espacio de Schwarzschild. Además, notamos que, en estas coordenadas, X
es espacialoide mientras que T es temporaloide. También encontramos que las curvas nulas
de los conos de luz están dadas por
dT = ±dX ,
como en el espacio–tiempo de Minkowski y, entonces, no sucede ninguna conversión peculiar

de los conos de luz.
En estas coordenadas, una superficie con r constante está dada por la hipérbola

2 2 r
X −T = − 1 er/rs = cte, (3.115)
rs
mientras que la superficie con t constante está dada por las líneas rectas

T t
= tanh = cte (para r > rs ). (3.116)
X 2rs
Observamos que la singularidad r = 0 corresponde a la hipérbola
X 2 − T 2 = −1 .
Adicionalmente, el horizonte de eventos está descrito por
X2 − T 2 = 0 =⇒ T = ±X ,
que coincide con la superficie de tiempo para t → ±∞, indicando, como se esperaba, que
un observador en reposo observa que una partícula nunca alcanza el horizonte.
Con esta información, podemos trazar el diagrama de Kruskal de la figura 3.8, en el
que se omiten las coordenadas angulares, por lo que cada punto representa los eventos
que ocurren en una esfera de radio r. Formalmente, las coordenadas de Kruskal–Szekeres
describen correctamente sólo las regiones I y II. Vemos que si trazamos un cono de luz en
cualquier punto de la región I, el futuro de una partícula puede incluir hipérbolas asociadas
r = rs agujero negro T r = rs
0 rs
r= r<
< r cte
0
rs
r>
∞
t>0
t=
X
t<0
t=
t cte
−
∞
rs
r>
rs
r<
0< 0
r= agujero negro
con tiempo invertido
= agujero blanco
Figura 3.8: Espacio-tiempo de Schwarzschild en coordenadas de Kruskal–Szekeres. Debido a que
no se muestran las coordenadas θ y ϕ, cada punto es una esfera de radio r. Las regiones I y II
corresponden al exterior e interior de un agujero negro, respectivamente, mientras que las regiones
III y IV, al exterior e interior de un “agujero blanco”. Las líneas punteadas corresponden al horizonte
de eventos. Los únicos “bordes” del espacio–tiempo permitidos son los asociados a la singularidad.
a menores valores de r, hasta cruzar el horizonte de eventos, representado por la recta

punteada, y llegar a la región II. Pero, lo que es más relevante es que el futuro del cono
de luz de una partícula en la región II, debido al cambio de dirección de las hipérbolas,
incluye sólo hipérbolas correspondientes a r más pequeños, impidiendo que la partícula
escape del horizonte de eventos y provocando que concluya su travesía inevitablemente en
la singularidad, donde el espacio–tiempo de Schwarzschild acaba. La región II corresponde
al interior del agujero negro. Esta descripción coincide con nuestras observaciones en las
coordenadas habituales y, por lo tanto, es una descripción completa del espacio–tiempo de
Schwarzschild.
Las regiones III y IV representan una extensión (máxima) del espacio–tiempo de Sch-
warzschild, en donde el comportamiento de las partículas difiere al que exhiben en el agujero
negro. En especial, el cono de luz de una partícula que comienza en la singularidad, en la
región IV, conduce inevitablemente a valores de r cada vez mayores, hasta que es expulsada
a través del horizonte de eventos, en la región III. Dado que, al contrario del agujero negro
de la región II, la región IV expulsa toda partícula e información ahí contenida, es común
llamarla agujero blanco.
La composición agujero blanco/agujero negro del diagrama de Kruskal revela una ca-
racterística interesante. Si suponemos que las singularidades en III y en II son indepen-
dientes, entonces el universo descrito por el agujero negro y su exterior es independiente
del descrito por el agujero blanco y su exterior. Pero, si consideramos que sólo existe una
singularidad y que las parábolas correspondientes en las regiones II y III son el mismo
lugar del espacio–tiempo, entonces existe una conexión entre las dos regiones del universo
denotadas por I y III a través de la singularidad, convirtiendo el agujero negro (y el blanco)
en un agujero de gusano. Este tipo de conexiones son más formalmente conocidas como
puentes de Einstein–Rosen y corresponden a las extensiones máximas del espacio–tiempo
de Schwarzschild que garantizan que toda partícula tenga una trayectoria futura, incluso
tras caer en la singularidad del agujero negro.
Los agujeros de gusano de Schwarzschild o puentes de Einstein–Rosen no pueden existir
en nuestro universo, pues las singularidades de este tipo se desintegrarían mucho antes de
que cualquier partícula, incluso un fotón, sea capaz de atraversarlo, si la conexión ocurre
entre dos regiones del mismo universo.6 Una posibilidad de lograr la estabilidad de este
tipo de conexiones, primeramente explorada por K. Thorne, es incluir materia formada de
partículas con masa o energía negativas, aún no observada. Otra forma de que los puentes de
Einstein–Rosen puedan existir es si éstos conectan dos universos diferentes, en un escenario
en el que nuestro universo es sólo uno de muchos en un multiverso. Desafortunadamente,
dado que la información no puede salir de un agujero negro, no es posible confirmar o
descartar esta conjetura. Por lo tanto, por el momento, aunque los agujeros de gusano son
una posibilidad interesante, se les considera una simple curiosidad teórica.
3.3.6. Formación y tipos de agujeros negros*
Se considera que los agujeros negros surgen del colapso de una estrella vieja. Cuando la
fusión nuclear del hidrógeno de una estrella ha llegado a su etapa final debido a la escasez
de protones libres, la presión producida por la fusión deja de ser suficiente para soportar
la fuerza gravitacional. Este desequilibrio provoca primeramente la expulsión violenta de
la capa exterior de la estrella, dejando el resto en forma de un denso cuerpo celeste (con
densidades de entre 103 y 1011 kg/cm3 ), el cual puede ser una enana blanca o una estrella
de neutrones, dependiendo de la masa de la estrella original.
Las enanas blancas están casi enteramente compuestas de electrones degenerados (con
las mismas propiedades cuánticas) mientras que las estrellas de neutrones contienen casi
6
Ver e.g. R.W. Fuller, J.A. Wheeler, Causality and multiply-connected space–time, Phys.Rev.128, 1962.
sólo neutrones degenerados. Es la degeneración cuántica de esas partículas la que impide,

mediante el principio de exclusión de Pauli, el colapso total del material de las estrellas
en r = 0. Sin embargo, esta estabilidad no es sostenible cuando la masa total es mayor
al llamado límite de Chandrasekhar, equivalente a 1.44 masas solares M⊙ , donde M⊙ ≈
1.99 × 1030 kg. Si la masa de la enana blanca o la estrella de neutrones rebasa ese límite,
el destino de la estrella es el colapso total en un agujero negro.
Considerando el origen de los agujeros negros, uno podría pensar que la estructura
interna, la composición exacta, la presión de plasma, etc. de una estrella pueden contribuir
a la naturaleza del agujero negro. Así, intuitivamente, habría tantos tipos de agujeros
negros como diversidad de estrellas y de contenido en las estrellas hay en el universo. Pero
no es así.
El (entre físicos) llamado teorema sin pelo o de no pelo limita el número de cantidades
físicas que son necesarias para describir un agujero negro. Este teorema es en realidad
una conjetura matemática que sugiere que, bajo la suposición de que el espacio–tiempo
de un agujero negro es asintóticamente plano (es decir, que es descrito por la métrica de
Minkowski para valores grandes de las variables espacio–temporales), las soluciones a las
ecuaciones de Einstein–Maxwell,7

µν 1 κ 1 µν
R − g µν (R + 2Λ) = − F µα ν
F α − g Fαβ F αβ
, (3.117)
2 4π 4
están completamente caracterizadas por tres propiedades de un agujero negro que un ob-
servador externo puede medir: su masa M , su carga eléctrica Q y su momento angular
(también llamado espín por los astrofísicos) J. Por supuesto que, antes de colapsar, una
estrella posee más información (como el espín cuántico, números bariónico y leptónico,
cargas de color y sabor, etc.), pero esta información, que es lo que algunos llaman el “pelo”
del agujero negro, desaparece dentro del horizonte de eventos para un observador externo
una vez que la estrella colapsa y se configura el agujero negro. Se dice entonces que un
agujero negro no tiene pelo para un observador externo, como nosotros.
El “teorema” o, más bien, la conjetura de no pelo solamente ha sido probada parcial-
mente en algunos casos, bajo condiciones precisas del tipo de “pelo” o de los valores de la
carga eléctrica del agujero negro.8 La obtención de una demostración general o para casos
específicos complejos representa aún un área de investigación en progreso.
De ser correcta la conjetura de no pelo, sólo existen cuatro tensores métricos posibles
para los agujeros negros, los cuales se clasifican de acuerdo con sus propiedades básicas de
momento angular J y carga Q, empleando los nombres de sus descubridores:
7
Las ecuaciones de Einstein–Maxwell (3.117) son las ecuaciones de campo de Einstein aplicadas al caso
de un tensor de energía–momento en espacio curvo, resultado de generalizar el introducido en (2.169).
8
Ver e.g. P.O. Mazur. Black hole uniqueness theorems, [arXiv:hep-th/0101012], y sus referencias.
J =0 J 6= 0
Q=0 Schwarzschild Kerr
Q 6= 0 Reissner–Nordström Kerr–Newman
↓ ↓
Simetría esférica Simetría axial
A pesar de que estos tensores comparten algunas propiedades, tales como las simetrías
geométricas (esférica o axial) que determinan la forma de los agujeros negros, su estructura
está definida por los detalles de cada caso. Como un ejemplo y sin discutirlo en detalle, la
métrica de Kerr conduce al siguiente intervalo en coordenadas esférico–polares:
rrs 2 2rrs a sen2 θ
ds2 = 1 − dt + dtdϕ
Σ Σ
Σ 2 2 2 2 rrs a2 sen2 θ
− dr − Σdθ − r + a + sen2 θdϕ2 , (3.118)
∆ Σ
donde rs es el radio de Schwarzschild, a = J/M parametriza el momento angular del

agujero negro de Kerr, Σ = r2 + a2 cos2 θ y ∆ = r2 − rrs + a2 .
Es directo notar que recuperamos el intervalo de Schwarzschild (3.71) a partir del
intervalo de Kerr (3.118) en ausencia de momento angular, cuando a = 0. Sin embargo,
para a 6= 0, ambas geometrías son muy diferentes.
Notamos que en un agujero negro de Kerr existen cuatro singularidades de coordenadas,
en las que grr o gtt divergen.
p Hay dos horizontes de eventos, correspondientes a las esferas
± 1
de radios rh = 2 (rs ± rs − 4a2 ), en las que grr diverge. Además, existen dos superficies
2
p
delimitadas por re± = 21 (rs ± rs2 − 4a2 cos2 θ), que coinciden con los horizontes de eventos
en los polos, pero están abultadas en el ecuador, y en las que 1/gtt = 0. El volumen entre
un horizonte y estas superficies corresponde a las llamadas ergósferas, en las que todas las
partículas ahí encontradas sufren una aceleración debida al arrastre que ejerce sobre ellas
la rotación del propio espacio–tiempo.
No todos estos agujeros negros son estables. De hecho, se considera que la configuración
más estable para agujeros negros es esféricamente simétrica, como las soluciones de Sch-
warzschild y Reissner–Nordström. Se sospecha que, en ausencia de interacciones adicionales
con la materia cósmica, los agujeros negros con simetría axial pierden momento angular
mientras sirven como aceleradores naturales de la materia que los rodea, terminando como
agujeros negros esféricos no rotatorios.
Aunque es imposible observar directamente a los agujeros negros porque (casi) no emi-
ten radiación electromagnética9 , típicamente se identifican por la detección de radiación
9
Cerca del horizonte del agujero negro, como en todas partes, fluctuaciones cuánticas del vacío permiten
la creación de partículas y antipartículas, emitidas hacia adentro y hacia afuera del agujero negro. Hawking
mostró en 1974 que la radiación emitida de esta manera puede causar la evaporación del agujero negro tras
algún tiempo.
emitida por intensos discos de acreción de materia (caliente y densa) tragada por el agujero
negro. En contraste con los discos de acreción de estrellas jóvenes, que emiten radiación
infrarroja, estos agujeros negros emiten en la región de rayos X del espectro.
3.4. Pruebas de la relatividad general

Las estrellas comunes tienen, en buena aproximación, simetría esférica. Aunque están
rotando, también pueden ser modeladas por medio de la métrica de Schwarzschild. Para
comprobar la fortaleza de la relatividad general, dado que no vivimos atrapados en un
agujero negro, consideramos lo que sucede alrededor de una estrella de Schwarzschild en la
región con r > rs .
La mayoría de nuestras pruebas de la relatividad general involucran el movimiento de
nuestras partículas de prueba favoritas, los planetas, en la vecindad de un campo gravita-
cional esféricamente simétrico producido por el Sol.
Cuando Einstein concibió su teoría de la relatividad general, sugirió tres pruebas rela-
tivamente sencillas:
1. el corrimiento al rojo gravitacional, que hemos estudiado en las secciones 3.1.2 y 3.3.2,
primero como una consecuencia inmediata del principio de equivalencia;
2. la desviación de la luz por una fuente gravitacional, que es una buena prueba de la
relatividad general, aunque es detectable incluso en el límite de campo débil (New-
toniano); y
3. la precesión de los perihelios, la cual constituye la mejor prueba temprana de la rela-

tividad general puesto que la mecánica Newtoniana no puede explicarla con precisión.
Una predicción adicional, usualmente ignorada en los textos, es la existencia de ondas

gravitacionales, finalmente descubiertas un siglo después de la predicción por la colabo-
ración LIGO en la probable coalescencia de agujeros negros distantes,10 y posteriormente
detectadas con comprobación óptica por la colaboración LIGO-Virgo y diversos observa-
torios astronómicos11 en la coalescencia de estrellas de neutrones.
A continuación estudiamos algunos aspectos de las predicciones de la relatividad general
aún no discutidas hasta este punto, importantes para entender las razones por las que la
relatividad general fue aceptada como una teoría física.
10
Ver B.P. Abbott et al. (LIGO Scientific and Virgo Collaborations), Observation of Gravitational Waves
from a Binary Black Hole Merger. Phys. Rev. Lett. 116 (2016) no.6, 061102 [arXiv:1602.03837 [gr-qc]].
11
Ver B.P. Abbott et al. (LIGO Scientific and Virgo Collaborations), GW170817: Observation of Gra-
vitational Waves from a Binary Neutron Star Inspiral. Phys. Rev. Lett. 119 (2017) no.16, 161101 [ar-
Xiv:1710.05832 [gr-qc]].
3.4 Pruebas de la relatividad general 185
3.4.1. Desviación de la luz
Consideremos que el campo gravitacional del Sol (y otras estrellas) está descrito por
la solución de Schwarzschild y estudiemos el movimiento de fotones en el plano θ = π/2,
regido por las ecuaciones de movimiento (3.94) y (3.90) (con e = 0),
2
dr 2 ℓ2 2M
= ε − 2V (r), V (r) = 2 1 − ,
dλ 2r r (3.119)
dϕ ℓ
=± 2,
dλ r
donde los signos en la segunda ecuación provienen de restringir ℓ > 0. Combinando la
ecuación radial y angular, obtenemos
s
dϕ ℓ2 /r4 1
=± ℓ2 2M
=± q , (3.120)
dr 2
ε − 2 1− r2 1 − 1 1 − 2M
r r b2 r2 r
donde hemos definido el parámetro b como

ℓ
b≡ . (3.121)
ε
Para simplificar la ecuación de movimiento (3.120), aplicamos el cambio de variable
1
u≡ ,
r
que conduce a
dϕ 1
= ∓q . (3.122)
du 1
− u 2 (1 − 2M u)
b 2
El límite de Newtoniano estricto se obtiene despreciando 2M u. Si consideramos un

fotón llegando desde un punto muy lejano (donde r → ∞ y u → 0), escogemos el signo
positivo para una partícula entrante, obteniendo
dϕ 1
≈q =⇒ ϕ − ϕ0 ≈ arc sen(bu), (3.123)
du 1
− u2
b2
suponiendo que la dirección original del fotón es ϕ0 . Vemos primero que esta ecuación
puede reescribirse de una manera más sugerente, como
r sen(ϕ − ϕ0 ) = b, (3.124)
lo que se parece a la ecuación de una línea recta en coordenadas polares. Para apreciar
esto, consideremos qué sucede cerca de la estrella. La distancia de acercamiento máximo,
1 2
2 ε =V(r)
1 2
2ε
2M r
ϕ′ ϕ0
b
Figura 3.9: Distancia de máximo acercamiento a una estrella esférica y estática para una partícula
no masiva con energía ε2 /2. Dado que se trata de movimientos clásicos sometidos al potencial estelar
V (r), la luz proveniente de r → ∞ se acerca hasta que se satisface V (r) = ε2 /2, que es su punto
de retorno. Cuando la energía de la luz está por encima del máximo del potencial, penetra hasta la
estrella.
!
como se ilustra en la figura 3.9, está determinada por 12 ε2 = V (r), que en términos de u y
despreciando 2M u, como antes, conduce a
1
u2 ≈ , (3.125)
b2
de donde observamos que b corresponde al parámetro de impacto. Sustituyendo este resul-
tado en (3.123), encontramos
π
ϕ − ϕ0 ≈ . (3.126)
2
Esto, por supuesto, no es el resultado completo porque un fotón debe experimentar una
desviación idéntica cuando se aleja, tal que
ϕ′ − ϕ0 = (ϕ′ − ϕ) + (ϕ − ϕ0 ) ≈ π, (3.127)
donde ϕ′ denota la dirección del fotón que se aleja. Esto es, por supuesto, el resultado
Newtoniano, suponiendo que la masa de los fotones es nula.12
12
Se obtienen resultados diferentes si se supone incorrectamente que los fotones tienen un masa pequeña.
Sin embargo, esto se basa fuertemente en nuestra suposición de que 2M u es enteramente

despreciable, pero cerca de una estrella como la nuestra 2M u ≪ 1 puede tener un efecto.
Por lo tanto, propongamos un cambio de variable distinto
y ≡ u(1 − M u), M u ≪ 1, (3.128)
lo que implica que

y My
u= ≈ y(1 + M u) = y 1 + ≈ y(1 + M y), (3.129)
1 − Mu 1 − Mu
despreciando términos de orden O(M 2 u2 ). Entonces la ecuación de movimiento (3.122)

puede recibirse como
dϕ 1 + 2M y
≈q , (3.130)
dy 1
− y2
b2
donde hemos usado que y 2 = u2 (1 − 2M u + M 2 u2 ) ≈ u2 (1 − 2M u). La solución de esta

ecuación está dada por
r y
1
ϕ − ϕ0 ≈ arc sen(by) − 2M − y 2
b2
r 0 (3.131)
1 2M
= arc sen(by) − 2M − y2 + .
b2 b
Repitiendo los pasos del límite Newtoniano estricto, encontramos que la menor distancia a
la que un fotón con energía 12 ε2 se acerca a una estrella está dada por
1
y≈ . (3.132)
b
Sustituyendo este resultado en (3.131) se obtiene
π 2M
ϕ − ϕ0 ≈ + , (3.133)
2 b
que, aplicando la misma lógica que en (3.127), conduce al resultado final
4M
ϕ′ − ϕ 0 ≈ π + . (3.134)
b
Este resultado difiere del Newtoniano por 4M b , lo que implica que la luz se desvía
gravitacionalmente. Podemos ver este efecto ilustrado en la figura 3.10.
ϕ − ϕ0
ϕ0
4M b
b
ϕ′
Figura 3.10: Ángulo de deflexión de la luz provocado por el campo gravitacional de una estrella
modelada por la métrica de Schwarzschild.
Para el Sol, suponiendo que la distancia más cercana es b = R⊙ ≈ 6.96 × 105 km y

M⊙ = 1.47 km (en unidades naturales), encontramos que
4M⊙
= 8.45 × 10−6 rad ≈ 1.74′′ . (3.135)
R⊙
Este resultado fue confirmado primeramente por Arthur Eddington en 1919, quien reportó
(utilizando una representación moderna de los datos), el valor13
∆ϕ = ϕ′ − ϕ0 − π = 1.98′′ ± 0.178′′ , (3.136)
compatible en un intervalo de 2σ con el valor predicho. Posteriormente, se ha comprobado

varias veces esta medición, de las cuales una de las más destacables es la observación de
Texas Mauritanian Eclipse Team de 1973, en la que lograron determinar ∆ϕ = 1.66′′ ±
0.19′′ , en coincidencia con los resultados teóricos.14
Quizá la mejor aplicación de esto son las lentes gravitacionales, una herramienta que
ha revelado que hay más materia que interactúa gravitacionalmente de la que podemos
observar con un telescopio; a esta materia extra se le conoce como materia oscura.
3.4.2. Precesión “anómala” del perihelio
Mercurio es el planeta más cercano al Sol y, por lo tanto, el más afectado por el campo
gravitacional de nuestra estrella. Desde una perspectiva Newtoniana, no obstante, esto no
puede alterar la forma elíptica de la órbita de Mercurio. A pesar de esto, se ha observado
que el perihelio15 de Mercurio cambia de posición a una tasa de ∼ 43′′ /siglo. Esto puede
explicarse si las órbitas planetarias precesan, causando un desplazamiento precesional ∆
del perihelio, como se ilustra en la figura 3.11.
13
Ver M. Niaz, Critical appraisal of physical science as a human enterprise, cap 9. Springer, 2009.
14
Texas Mauritanian Eclipse Team, Gravitational deflection of light: solar eclipse of 30 June 1973 I.
Description of procedures and final results., Astronomical Journal 81 p.452, 1976.
15
El perihelio es la posición de máximo acercamiento de un planeta a su estrella.
∆
planeta
Sol
Figura 3.11: Desplazamiento precesional ∆ del perihelio de un planeta.
Para calcular el desplazamiento ∆, consideremos la razón de las ecuaciones de movi-

miento (3.90) y (3.96) para una partícula masiva (con e = 1),
2
dr 2 1 2M ℓ2
= ε − 2V (r), V (r) = 1− 1+ 2 ,
dτ 2 r r
2 (3.137)
dϕ ℓ 2
= 4,
dτ r
que conduce a
2 2M
ℓ2

dr ε2 − 1 − r 1+ r2
= r4 . (3.138)
dϕ ℓ2
En términos de la variable u = 1r , esta ecuación adopta la forma
2 2
du 1 dr ε2 1 2M
= 4 = 2
− 2 + 2 u − u2 + 2M u3 . (3.139)
dϕ r dϕ ℓ ℓ ℓ
Con la finalidad de simplificar esta ecuación, diferenciamos con respecto a ϕ, lo que resulta
en
du d2 u 2M du du du
2 = 2 − 2u + 6M u2 , (3.140)
dϕ dϕ2 ℓ dϕ dϕ dϕ
que para una u(ϕ) no trivial equivale a
d2 u M
+ u = 2 + 3M u2 . (3.141)
dϕ2 ℓ
Incluso Mercurio, el planeta más rápido (para el cual ℓ es grande), se puede mostrar que el
cociente 3M u2 /(M/ℓ2 ) es del orden 10−7 y entonces podemos despreciar el segundo término
del lado derecho de (3.141). Despreciar este término corresponde al límite Newtoniano
estricto. Por lo tanto, tenemos que la ecuación de movimiento se reduce (en este límite) a
d 2 u0 M
2
+ u0 ≈ 2 , (3.142)
dϕ ℓ
cuya solución es
M M
u0 (ϕ) ≈ (1 − λ cos(ϕ − ϕ0 )) = 2 (1 − λ cos ϕ), (3.143)
ℓ2 ℓ
en donde la última igualdad resulta de tomar ϕ0 = 0 por simplicidad. La solución (3.143)
describe una elipse con excentricidad λ, es decir, hemos recuperado el resultado Newto-
niano. Sustituyendo en la ecuación original (3.139), omitiendo el término 2M u3 , podemos
verificar que la excentricidad está dada por
r
ℓ2
λ = 1 + 2 (ε2 − 1). (3.144)
M
Para averiguar la corrección relativista a la solución Newtoniana u0 (ϕ), podemos usar un
2
método perturbativo. Definiendo η ≡ 3M ℓ2
≪ 1, podemos reescribir (3.141) como
d2 u M ℓ 2 u2
+ u = + η . (3.145)
dϕ2 ℓ2 M
Proponemos un primer ansatz
u = u0 + ηu1 + O(η 2 ), (3.146)
que, tras reemplazarlo en (3.141), resulta en
d 2 u0 d 2 u1 M ℓ2 2
+ u 0 + η + ηu 1 = + η (u + 2ηu0 u1 + η 2 u21 ). (3.147)
dϕ2 dϕ2 ℓ2 M 0
Recordando (3.142), los primeros dos términos del lado izquierdo cancelan el primero del
lado derecho. Entonces, a primer orden de η, encontramos
d 2 u1 ℓ2 2 M M
+ u 1 ≈ u = 2 (1 − λ cos ϕ)2 = 2 (1 − 2λ cos ϕ + λ2 cos2 ϕ)
dϕ2 M 0 ℓ ℓ
(3.148)
M 1 2λM M λ2
= 2 1 + λ2 − 2 cos ϕ + cos 2ϕ,
ℓ 2 ℓ 2ℓ2
donde usamos cos2 ϕ = 12 (1 + cos 2ϕ). Para esta ecuación, proponemos un segundo ansatz
u1 = A + Bϕ sen ϕ + C cos 2ϕ, (3.149)

lo que nos lleva a

d 2 u1
+ u1 = A + 2B cos ϕ − 3C cos 2ϕ. (3.150)
dϕ2
Comparando este resultado con (3.148), encontramos

M 1 2 λM M λ2
A= 2 1+ λ , B =− 2 , C=− , (3.151)
ℓ 2 ℓ 6ℓ2
La solución final a orden η está dada por

M M 1 2 λ2
u ≈ 2 (1 − λ cos ϕ) + η 2 1 + λ − λϕ sen ϕ − cos 2ϕ . (3.152)
ℓ ℓ 2 6
Observamos que el primero y tercer términos en el paréntesis cuadrado son pequeñas co-
rrecciones al resultado Newtoniano, mientras que el segundo término crece con ϕ y se
convierte en una corrección dominante. Por lo tanto, podemos aproximar nuestra solución
por
M
u≈ (1 − λ cos ϕ − ληϕ sen ϕ)
ℓ2 (3.153)
M
≈ 2 (1 − λ cos[ϕ(1 − η)]), η ≪ 1.
ℓ
Los términos omitidos de (3.152) cambian el foco de la solución elíptica y su amplitud de
oscilación. Sin embargo, de (3.153) vemos que los términos que conservamos cambian el
periodo de oscilación siempre y cuando η 6= 0, de manera que de un perihelio al siguiente
2π
∆ϕ = ≈ 2π(1 + η). (3.154)
1−η
La diferencia respecto al resultado Newtoniano se identifica con el desplazamiento prece-
sional de la órbita
6πM 2
∆ ≡ ∆ϕ − 2π ≈ 2πη = rad/órbita. (3.155)
ℓ2
Para reescribir este resultado en términos del radio rc de una órbita casi circular (como la
de Mercurio), debemos recordar que en una órbita estable se satisface (3.99). Resulta que
M rc
ℓ2 = ≈ M rc (3.156)
1 − 3M
rc
y, así, para órbitas casi circulares,16

6πM
∆≈ . (3.157)
rc
16
Para facilitar los cálculos, este resultado, al incluir las constantes que omitimos al usar unidades natu-
rales, se expresa como 6πGN M/rc c2 .
Sustituyendo los datos de Mercurio y el Sol (con M⊙ → 1.989 × 1030 kg GN /c2 ≈ 1.47 km,
rc ≈ 5.5 × 107 km), obtenemos
6π · 1.47 km
∆≈ ≈ 5 × 10−7 rad/órbita. (3.158)
5.5 × 107 km
Considerando un periodo orbital de Mercurio de 87.97 días ≈ 0.24 años, calculamos
∆ ≈ 43′′ /siglo, (3.159)
que, comparado con el valor medido ∆ = 42.98′′ ±0.04′′ , exhibe una precisión sobresaliente.
3.4.3. Ondas gravitacionales
Para apreciar la aparición y propiedades de las ondas gravitacionales, deberemos hacer

una serie de simplificaciones de las ecuaciones de Einstein que permitirán identificar la
dinámica del propio espacio tiempo, codificada en la dinámica de hµν en la aproximación
de campo débil (3.10), debida a la presencia de materia en movimiento.
En la aproximación de campo débil, es posible obtener una linealización de las ecua-
ciones de campo de Einstein, frecuentemente llamada gravedad linealizada. Con este fin,
retenemos los términos lineales en hµν de los elementos de las ecuaciones. Consideremos,
para empezar, los símbolos de Christoffel (2.221). Empleando que ηαν,β = 0, por lo que
gαν,β ≈ hαν,β a orden lineal en h, encontramos
1
Γµ αβ = g µν (gαν,β + gβν,α − gαβ,ν )
2
1
≈ η µν (hαν,β + hβν,α − hαβ,ν ) (3.160)
2
1
= (hα µ ,β + hβ µ ,α − hαβ ,µ ).
2
Por otro lado, las únicas contribuciones lineales al tensor de Ricci (2.331) son las lineales
en Γ, puesto que los otros términos son cuadráticos en h. Por lo tanto,
Rµν ≈ Γα µν,α − Γα µα,ν

1
≈ (hµ α ,να + hν α ,µα − hµν ,α α − hµ α ,αν − hα α ,µν + hµα ,α ν ) (3.161)
2
1
= (hµ α ,να + hν α ,µα − hµν ,α α − h,µν ),
2
donde hemos definido
h ≡ hα α = η αβ hαβ . (3.162)
El escalar de Ricci linealizado está dado por

1
R ≈ η µν Rµν ≈ η µν (hµ α ,να + hν α ,µα − hµν ,α α − h,µν )
2
1 (3.163)
= (hµ α,µ α + hµα ,µα − hµ µ,α α − h,µ µ )
2
= hαβ ,αβ − h,β β .
Las ecuaciones de Einstein linealizadas pueden expresarse como Rµν − 21 ηµν R ≈ 8πTµν .
Por lo tanto,
hµα,ν α + hνα,µ α − hµν ,α α − h,µν − ηµν (hαβ ,αβ − h,α α ) = 16πTµν . (3.164)
Ahora, para simplificar esta expresión, definimos el operador barra actuando sobre las
componentes del tensor hµν como
1
hµν ≡ hµν − ηµν h. (3.165)
2
Se utilizará la barra para implicar la misma operación para cualquier otro tensor simétrico.
Entonces Gµν = Rµν a primer orden en hµν y hµν = hµν , es decir hµν = hµν − 21 ηµν h. Con
esta notación, las ecuaciones de Einstein linealizadas (3.164) se convierten en
− hµν,α α − ηµν hαβ ,αβ + hµα ,α ν + hνα ,α µ = 16πTµν . (3.166)
El primer término de esta ecuación es el usual d’Alembertiano en espacio plano, mientras

que los otros términos se vuelven irrelevantes si e.g. se impone la condición de norma de
Hilbert,
µα
h ,α = 0. (3.167)
Estas condiciones de norma son las análogas tensoriales a la norma de Lorentz Aα ,α = 0
de la teoría electromagnética. Esta condición que imponemos no afecta la física, solamente
es una elección para simplificar el álgebra. De esta manera, la ecuación (3.166) se convierte
en
−hµν,α α = 16πTµν . ecs. de Einstein linealizadas (3.168)
Escribiendo esta ecuación de manera que resulte más familiar, encontramos
hµν = ∂ α ∂α hµν = −16πTµν , (3.169)
que en el vacío se reduce a

hµν = 0. (3.170)
Como el espacio es plano, el d’Alembertiano tiene la forma = ∂t2 −∇2 , es decir, la ecuación
de campo tiene la forma de una ecuación de onda para hµν . En otras palabras, la dinámica
de las fluctuaciones del espacio–tiempo es ondulatoria. Se propone una solución de onda

plana en la forma de exponencial compleja para la solución de esta ecuación diferencial,
σ
hµν = Aµν eikσ x , (3.171)
donde Aµν es la amplitud de la onda plana, que corresponde a las componentes de un

tensor constante simétrico de rango (0, 2), y k σ son las componentes de un vector de onda
constante. Sustituyendo el ansatz (3.171) en (3.170) es fácil demostrar que para que (3.171)
sea una solución válida se requiere que
kσ k σ = 0 . (3.172)
Por lo tanto, la onda plana (3.171) es una solución de la ecuación linealizada si el vector
de onda es nulo o luminoide. Esto significa que las perturbaciones a la métrica plana
codificadas en h se propagan a la velocidad de la luz. La componente temporal del vector
de onda se refiere a la frecuencia de la onda, y escribimos (k σ ) = (ω, k 1 , k 2 , k 3 )T .
Imponemos la condición de norma de Hilbert (3.167) en términos del ansatz (3.171),
µν σ σ !
∂µ h = ∂µ (Aµν eikσ x ) = iAµν kµ eikσ x = 0, (3.173)
que implica que

kµ Aµν = 0 . (3.174)
Esta condición significa que el vector de onda con componentes kµ es ortogonal al tensor
con componentes Aµν en la norma de Hilbert.
Para simplificar aun más este tratamiento, proponemos la llamada transformación de
norma gravitacional
hµν → hµν − ξµ,ν − ξν,µ , (3.175)
donde ξ es un vector arbitrario suficientemente pequeño para no afectar la condición de
campo débil, |hµν | ≪ 1. Si determinamos las cantidades físicas que aparecen en las ecua-
ciones de campo de Einstein, podemos comprobar que tanto el tensor de Riemann como
los tensores de Einstein y de energía–momento son invariantes bajo la transformación de
norma (3.175). Esta cualidad de las ecuaciones linealizadas es evidencia de una cualidad
general de la relatividad general: es una teoría de norma.
Habiendo impuesto la condición de vector de onda nulo (3.172), la ortogonalidad del
vector de onda con la amplitud de la onda (3.174), y usando las transformaciones de
norma (3.175) en (3.171), obtenemos que el tensor Aµν solamente tiene dos componentes
independientes, que en su representación matricial aparecen como
 
0 0 0 0
0 A11 A12 0
(Aµν ) = 
0 A12 −A11 0 .
 (3.176)
0 0 0 0
Entonces, para una onda plana con esta norma, que viaja en la dirección x3 , sus compo-
nentes A11 y A12 (junto con su frecuencia ω) caracterizan completamente la onda.
Para obtener los efectos de la onda, se considera el movimiento relativo de un anillo
de partículas cercanas. Resulta que las componentes A11 y A12 corresponden a las dos
polarizaciones de la onda gravitacional. Como se justifica a continuación, renombramos
estas componentes independientes como A+ = A11 y A× = A12 .
Si empezamos con un anillo de partículas estacionario en el plano x1 –x2 , a medida que
pase la onda con polarización A+ , estas oscilan horizontal y verticalmente con la forma de
“+”, como se representa en la figura 3.12. Para el caso de la polarización correspondiente a
A× , el anillo de partículas oscila con la forma de “×”, como se representa en la figura 3.13.
Estas perturbaciones ondulatorias que se desplazan mediante vectores de onda luminoides
son las que llamamos ondas gravitacionales.
Detección de ondas gravitacionales
La existencia de las ondas gravitacionales es, como la de los agujeros negros, una ines-
perada predicción de la relatividad general. Einstein notó en 1916 que su teoría indica que
cualquier cuerpo es capaz de producir deformaciones ondulatorias en el espacio si sufre
una aceleración repentina. Esto ocurre, por ejemplo, cuando dos objetos cuerpos colisio-
nan, o cuando dos masas similares forman un sistema gravitacional binario, como el de los
planetoides Plutón-Carionte.
Como hemos visto, las ondas gravitaciones, al desplazarse, alargan y contraen repetiti-
vamente el espacio por el que transitan gracias a la energía que transportan. Desafortuna-
damente, debido a que la gravedad es la fuerza más débil de las fuerzas de la naturaleza,
a pesar de que todo cuerpo puede producir ondas gravitacionales, son prácticamente inde-
x2
x1
Figura 3.12: Movimientos de un anillo de partículas libres en el plano x1 − x2 provocados por una
onda con polarización A+ . En el gráfico, la dirección horizontal es x1 ; sin embargo, las figuras a la
derecha corresponden a configuraciones que ocurren en tiempos posteriores a las de la izquierda.
x2
x1
Figura 3.13: Movimientos de un anillo de partículas libres en el plano x1 − x2 producidos por una
onda con polarización A× .
tectables a menos de que sean producidas por fuentes gravitatorias inmensamente masivas
o energéticas, tales como estrellas de neutrones o agujeros negros. Por si fuera poco, como
la intensidad de las ondas es atenuada con la distancia recorrida y las posibles fuentes
supermasivas no son cercanas a la Tierra, incluso en un caso óptimo, una onda que llegara
a nosotros causaría deformaciones espaciales mucho más pequeñas que un núcleo atómico.
Uno de los pioneros en la búsqueda de las ondas gravitacionales fue el físico estadou-
nidense Joseph Weber, quien diseño cilindros de aluminio, de 2m de longitud y 1m de
diámetro, que podrían absorber la energía de una onda gravitacional y resonar con la onda
detectada. A pesar de que en 1968 Weber afirmó haber observado lo que esperaba, sus re-
sultados fueron controvertidos porque no podían ser replicados y porque, entre otras cosas,
describían la existencia de fuentes relativamente pequeñas y tan masivas como miles de
galaxias juntas. Desde la predicción y hasta entonces, las ondas gravitacionales eran tan
controversiales que muchos, incluyendo al mismo Einstein, dudaron de su existencia.
Poco después, entre 1974 y 1978, llegaría la reivindicación de las ondas gravitacionales.
En 1974, los astrónomos Joseph H. Taylor Jr. y su ex-estudiante Russell A. Hulse descubrie-
ron un sistema rotante de dos estrellas de neutrones separadas apenas por algunas veces la
distancia entre la Luna y la Tierra. Cuatro años después de descubrir este sistema, Taylor
notó que el sistema rotaba cada vez más rápido, pero en una órbita cada vez más pequeña.
La única explicación consistente con los datos es que el sistema está en ruta de colisión
porque pierde energía en forma de ondas gravitacionales. Esta constituyó la primera prue-
ba indirecta de la existencia de las ondas gravitacionales. Tras el merecido premio Nobel
de 1993 a Taylor y Hulse, se convirtió en consenso que las ondas gravitacionales existen,
aunque nuestra tecnología debería aún desarrollarse para poder detectarlas directamente.
La colaboración LIGO fue fundada entre 1983 y 1992, en Estados Unidos, por los
físicos experimentales Ronald Drever y Rainer Weiss y el teórico Kip Thorne con la misión
de detectar directamente ondas gravitacionales mediante el uso de dos interferómetros,
similares al empleado por Michelson y Morley para descartar la hipótesis del éter, uno en
Livingston, Louisiana, y otro en Hanford, Washington, a 3002 km de distancia.
Los interferómetros usados para medir ondas gravitacionales constan de dos túneles
de la misma longitud formando una “L”, dotados con sofisticados sistemas para aislarlos
lo mejor posible de las vibraciones ambientales. En ausencia de ondas gravitacionales los
haces de luz empleados en los interferómetros no producen ninguna señal. Cuando una
onda gravitacional atraviesa el interferómetro, contrae el espacio en una dirección mientras
que lo expande en la dirección perpendicular. En el caso ideal en que las ondas llueven
verticalmente sobre los interferómetros, uno de los brazos se encoje mientras el otro se
alarga. Esto provoca que los haces de luz emerjan desincronizados porque uno viajó mayor
distancia que el otro, y produzcan una señal oscilatoria de frecuencia compatible con la de
la onda gravitacional que provocó la deformación del interferómetro.
Este mecanismo sería muy sencillo si las deformaciones del interferómetro fueran per-
ceptibles a simple vista. Desafortunadamente, lo que LIGO y otros experimentos similares,
como el de la colaboración Virgo en Italia, habían demostrado hasta 2010 es que las ondas
gravitacionales deforman los brazos de los interferómetros por un factor menor a 10−21 ,
razón por la que los brazos de los detectores de LIGO miden 4 km de longitud. Y LIGO
construyó dos interferómetros tan distantes para confirmar toda señal detectada.
Los gigantescos interferómetros de LIGO son capaces de detectar alteraciones en la
longitud de los brazos de hasta 10−19 m. Con tal precisión, que rebasa la de todos los
experimentos similares, finalmente el pasado 14 de septiembre de 2015 apareció una señal
con duración de aproximadamente 0.2 s. La señal fue detectada por ambos detectores, con
6 ms de diferencia. Más allá de esta diferencia, que es consistente con la velocidad a la
que se desplazan las ondas gravitacionales, las señales son idénticas, un breve pero notorio
pulso oscilatorio con una amplitud de apenas 10−18 m. La señal tiene una certidumbre de
5.1 σ. Y con una certeza del 90 %, la señal se debe a la coalescencia de dos agujeros negros
ocurrida hace aproximadamente 1,300 millones de años en algún lugar del universo. Se
trataría de un sistema binario compuesto por agujeros negros de Kerr, con masas de 36 y
29 M⊙ , y que, al mezclarse, produjeron un agujero negro rotante con una masa equivalente
a 62M⊙ . La energía liberada en forma de ondas gravitacionales durante esta colisión sería
la equivalente a 3M⊙ .
Por este descubrimiento, Kip Thorne, Rainer Weiss y Barry C. Barish han sido galar-
donados con el premio Nobel en física 2017. Es posible que su descubrimiento, comparable
con el descubrimiento del bosón de Higgs, permita el descubrimiento de distintos aspec-
tos de la naturaleza que han sido invisibles a los observatorios astronómicos basados en
telescopios electromagnéticos.
3.5. Principios relativistas de cosmología

La cosmología es el estudio del espacio–tiempo del universo: su origen, evolución, com-
posición, estructuras, dinámica y las leyes físicas que la rigen. Este estudio se basa en los
datos observacionales obtenidos a escalas tan grandes como 100 Megaparsecs o más.17
Una de las observaciones básicas es el antiguo descubrimiento de que, a esas grandes
escalas, el contenido del cosmos que emite o refleja radiación electromagnética parece estar
distribuido de manera uniforme en todo el universo. Es decir, las observaciones indican que
la porción observable del universo es:
Isotrópica: produce la misma evidencia observacional en cualquier dirección; y
Homogénea: todo observador tiene la misma evidencia observacional independiente-

mente de donde se encuentre.
Esta observación da lugar al llamado principio cosmológico, en el que, a pesar de que

sabemos que sólo observamos una fracción del universo, se supone que todo el universo es
isotrópico y homogéneo.
Si el principio cosmológico es válido, resulta fácil concebir la posible geometría del
espacio–tiempo a grandes escalas. Adicionalmente, dada la velocidad finita de la luz, en-
tendemos que las observaciones de e.g. las galaxias revelan datos de cómo era el universo
cuando la luz detectada fue emitida y, por lo tanto, es posible establecer con cierta precisión
aspectos de la dinámica del espacio–tiempo. Esta información es codificada en una métrica,
sobre la que se coloca un tensor de energía–momento que contenga la información sobre el
contenido del universo, el cual es modelado como un fluido ideal para lograr consistencia
con el principio cosmológico.
Con esta información y estas suposiciones básicas, se consigue determinar la historia
de la evolución de la fracción del universo que podemos observar, prácticamente desde
su nacimiento hasta nuestros días, en una continua expansión que hoy llamamos la gran
explosión. Desafortunadamente, también surgen preguntas que forzan la introducción de
elementos adicionales. Una de las observaciones más intrigantes es precisamente la unifor-
midad del universo. Dado que lo más lejano que hemos podido observar se encuentra a
una distancia de 14.25 Gpc en todas direcciones y dada la velocidad finita de la luz, la luz
proveniente de, por ejemplo, nuestra izquierda aún no ha llegado al extremo del universo
que observamos a la derecha. Sin embargo, a pesar de no haber tenido contacto causal,
ambas regiones del universo son “iguales”. La única explicación posible es que sí han te-
nido contacto causal en algún momento de la historia del universo, por lo que se requiere
algún mecanismo que permita esta aparente contradicción. Otro problema está relaciona-
do con el hecho de que no observamos regiones del universo dominadas por antimateria.
17
Un parsec (denotado pc) equivale aproximadamente a 3.26 años luz o 3.08 × 1013 km.
3.5 Principios relativistas de cosmología 199
En un universo uniforme, que lo haya sido durante toda su historia, podemos concebir
que la simetría materia–antimateria debería haber sido respetada siempre. La solución a
este problema exige un contacto entre la física de partículas, la dinámica relativista y la
termodinámica del universo en evolución.
3.5.1. Espacio–tiempo de Friedmann–Robertson–Walker
La métrica de Friedmann–Robertson–Walker (FRW) representa la geometría que mejor

se adapta al principio cosmológico y a las observaciones de la expansión del universo. El
intervalo correspondiente está dado por

2 2 2 dr2 2 2 2 2 2
ds = dt − a (t) + r dθ + r sen θdϕ , (3.177)
1 − kr2
donde a(t) es conocido como el factor de escala y aquí tiene dimensiones de longitud,18
por lo que la coordenada radial r no tiene unidades. El factor de escala, por lo tanto, es
una medida de la tasa de crecimiento de las distancias en (o expansión de) el universo y
no una medida del tamaño del universo. La constante k representa el tipo de curvatura del
espacio, y puede adquirir los siguientes valores:

 +1 universo cerrado,
k= 0 universo plano, (3.178)

−1 universo abierto.
Estos valores son independientes del tamaño del universo; sin embargo, resulta claro que
si nuestro universo es plano o abierto, puede ser infinitamente grande, mientras que, si
k = +1, es fácil mostrar que la métrica de FRW corresponde a la métrica de una esfera
y que, por lo tanto, vivimos en un universo con un tamaño preciso que aún no podemos
medir porque no hemos alcanzado a observar los objetos celestes que habitan en los límites
de la esfera.19
Supongamos ahora que la dinámica del universo está gobernada por las ecuaciones de
Einstein,
1
Rµν − gµν R = 8πTµν , (3.179)
2
y que el contenido del universo puede ser modelado como un fluido perfecto, por lo que
el tensor de energía–momento tiene la estructura (2.160) y satisface la ecuación de esta-
do (2.162), P = ωρ. En principio, ω puede variar en el tiempo, pero suponemos aquí que
18
En otras convenciones, el factor de escala es adimensional.
19
Sin embargo, mediciones indirectas de k arrojan que la descripción más aceptable del universo observable
corresponde a k = 0. Esta observación no descarta del todo las otras opciones porque cabe la posibilidad
de que la porción observable del universo tenga k = 0 mientras que el universo entero (mucho más grande)
posea otro tipo de geometría.
se trata de una constante adimensional, cuyos valores dependen del contenido del universo,
de acuerdo a (2.163). Por lo tanto, el tensor de energía–momento adopta la forma
(T µ ν ) = diag(ρ, −P, −P, −P ) , (3.180)
donde ρ y P corresponden respectivamente a la densidad de energía y presión del fluido

que modela el contenido del universo. Como el lector puede mostrar fácilmente (ver ejerci-
cio 3.12), las componentes no nulas del tensor de Ricci y del escalar de Ricci están dadas
por
" 2 #
ä ä ȧ k
R00 = − 3 , Rij = − +2 + 2 2 gij ,
a a a a
" 2 # (3.181)
ä ȧ k
R = −6 + + 2 .
a a a
Empleando (3.181), la componente (µ, ν) = (0, 0) de las ecuaciones de campo de Eins-

tein (3.179) conduce a
" 2 #
ä 1 ä ȧ k
−3 + 6 + + 2 = 8πρ, (3.182)
a 2 a a a
que, al simplificarse, puede escribirse como
ȧ2 k 8π
2
+ 2 = ρ. (3.183)
a a 3
Definiendo el parámetro de Hubble al tiempo t como
ȧ(t)
H(t) ≡ , (3.184)
a(t)
y sustituyendo en (3.183), llegamos a la llamada ecuación de Friedmann
k 8π
H2 + 2
= ρ. ecuación de Friedmann (3.185)
a 3
La ecuación de Friedmann es también expresada en la forma

k 8π ρ
2 2
= 2
ρ−1≡ − 1, (3.186)
H a 3H ρc
donde la llamada densidad crítica ρc = 3H 2 /8π define el valor que la densidad de energía
ρ debe tomar a un tiempo t para que el lado derecho de (3.186) se anule y, por lo tanto, el
espacio–tiempo (al tiempo t) sea plano, es decir, k = 0. Por ejemplo, al tiempo actual t0 ,
con el valor medido del parámetro de Hubble
H0 ≡ H(t0 ) ≈ 67.8 km/s Mpc, (3.187)
obtenemos que la densidad crítica presente es ρ0,c ≡ ρc (t0 ) = 3H02 /8π ≈ 4.844 keV/cm3 .
Definimos ahora el parámetro de densidad o abundancia20 Ω ≡ ρ/ρc , que permite rees-
cribir la versión (3.186) de la ecuación de Friedmann como
k
= Ω − 1. (3.188)
a2 H 2
Con estos elementos, es posible obtener algunas consecuencias importantes para la diná-
mica y forma de nuestro universo a todo tiempo. Primero, la ecuación de Friedmann (3.188)
es una relación entre la curvatura del espacio y el contenido del universo parametrizado
por Ω, de donde observamos que
sgn(k) = sgn(Ω − 1). (3.189)
Consecuentemente,
k = +1 =⇒ Ω > 1,
k=0 =⇒ Ω = 1,
k = −1 =⇒ Ω < 1.
Segundo, reescribiendo la ecuación de Friedmann como
8π 2
ȧ2 =
ρa − k, (3.190)
3
notamos que, si la densidad de energía ρ es positiva, la expansión del universo, codificada
en el crecimiento de a con el tiempo, sólo puede cesar si k = +1.
Por otra parte, debido a la homogeneidad del espacio–tiempo de FRW, las componentes
espaciales (µ, ν) = (i, i) de las ecuaciones de campo de Einstein (3.179) bajo la métrica de
FRW conducen a la misma ecuación. Por ejemplo, tomando µ = ν = 2 encontramos
" 2 # " 2 #
ä ȧ k 2 2 ä ȧ k
+2 +2 2 r a −3 + + 2 r2 a2 = 8π(−P )(−a2 r2 ) , (3.191)
a a a a a a
que, tras un poco de álgebra, conduce a la ecuación de aceleración cosmológica

ä 1 2 k ä 4π
= −4πP − H + 2 =⇒ = − (ρ + 3P ) , ec. de aceleración (3.192)
a 2 a a 3
20
En la literatura, es habitual que Ω sólo se refiera a la fracción actual de energía con respecto a la
densidad crítica. Aquí, la abundancia actual se denota como Ω0 ≡ Ω(t = t0 ).
donde hemos usado la definición del parámetro de Hubble y la última igualdad surge al
sustituir la ecuación de Friedmann (3.185). Notamos que si ρ + 3P > 0, la expansión del
universo se desacelera, mientras que si P < −ρ/3, el universo se expande cada vez más
velozmente.
Dependiendo del tipo de sustancia que es descrita por el fluido perfecto, la ecuación de
estado P = ωρ puede tener

1/3 radiación,

ω= 0 materia,


−1 energía del vacío.
Por lo tanto, observamos que un universo poblado solamente de materia y radiación tiene
una expansión que se ralentiza. Por lo tanto, si k = +1 y el universo contiene sólo materia
y radiación, tras alcanzar su tamaño máximo, comienza a contraerse hasta reducirse a
una singularidad con a = 0. Por el contrario, si el universo está vacío pero posee una
cantidad de energía intrínseca (probablemente de naturaleza cuántica), la correspondiente
ecuación de estado es P = −ρ (ver ejercicio 3.2) y el universo se expande aceleradamente.
Esta misteriosa energía de presión negativa es habitualmente denominada energía oscura;
su existencia es conjeturada debido a la observación de que el universo se expande hoy
aceleradamente.
Combinando la ecuación de Friedmann y (3.192), o bien, empleando Dµ T µ 0 = 0, obte-
nemos la expresión de la ecuación de continuidad o conservación de energía en el universo
de FRW,
Dµ T µ 0 = T µ 0,µ + Γµ λµ T λ 0 − Γλ µ0 T µ λ
= ρ̇ + 3H(ρ + P ) = 0, ec. de continuidad de FRW (3.193)
donde hemos utilizado (3.180) y que Γµ 0ν = Hδ µ ν para µ 6= 0 y se anula para µ = 0.

Reemplazando ahora la ecuación de estado (2.162), obtenemos
ρ̇ ȧ
= −3(1 + ω) . (3.194)
ρ a
Integrando (3.194) con ω 6= −1, obtenemos21
ρ ∝ a−3(1+ω) , (3.195)
y ρ es constante para ω = −1. Entonces, para los distintos tipos de contenido del universo
(ver (2.163)), obtenemos
 −4
 a radiación,
ρ∝ a −3 materia, (3.196)

cte energía oscura ,
21
La solución para ρ, considerando ρ0 y a0 como valores dados, es ρ = ρ0 (a/a0 )−3(1+ω) .
donde la constante de proporcionalidad se determina midiendo, por ejemplo, las densidades

de radiación, materia y energía oscura actuales (i.e. a t0 ).
La relación entre la densidad de energía del universo y el factor de escala (3.196) indica
que la densidad de energía disminuye a medida que el universo se expande a menos de
que esté dominado por energía de vacío. Aunque este comportamiento es típico de un
sistema termodinámico en expansión, es destacable que ρ(t) disminuye más rápido cuando
el universo contiene sólo radiación que cuando contiene sólo materia. Consecuentemente,
si la densidad de energía del universo está distribuida en una parte de radiación, otra de
materia y otra de energía oscura (etiquetada ρΛ ),
ρ = ρr + ρm + ρΛ , (3.197)
la radiación desaparecerá antes que la materia, pero la energía oscura persistirá, condu-
ciendo, como discutimos antes, a un periodo de expansión acelerada sin límites. Notemos
también que una curiosa consecuencia de (3.196) es que, para un determinado volumen, la
energía no se conserva durante la evolución del universo.
3.5.2. Corrimiento al rojo cosmológico y ley de Hubble
Como hemos discutido en el contexto de la relatividad especial en la sección 1.10.1,

la luz emitida por una fuente que se aleja de un observador es detectada con frecuencia
corrida al rojo. Dadas las frecuencias de la luz emitida νemit y observada νobs , el efecto
Doppler es caracterizado por el parámetro de corrimiento al rojo z, definido en (1.139)
como
νemit
z+1≡ . (3.198)
νobs
Un resultado adicional de la relatividad especial es que, cuando las fuentes se alejan con
una velocidad de recesión pequeña, β ≪ 1, el corrimiento al rojo puede aproximarse como
z ≈ β (ver (1.140)). Es decir, z puede interpretarse como la velocidad de recesión de las
fuentes cuando el corrimiento al rojo no es grande.
En un universo en expansión, las fuentes luminosas para observadores actuales son
estrellas, galaxias, cúmulos y otros cuerpos celestes que se alejan de nosotros. Por lo tan-
to, es natural que ocurra un corrimiento al rojo gravitacional, basado en la métrica de
FRW. Para determinar este corrimiento al rojo, consideremos que la luz proveniente de
una determinada dirección, dΩ = 0, satisface
dr2
ds2 = dt2 − a2 (t) = 0. (3.199)
1 − kr2
Considerando que la luz se aproxima desde la posición r hacia la posición de un observador
ubicado en r = 0, notamos que r decrece a medida que t aumenta, por lo que (3.199)
conduce a
dt dr
= −√ . (3.200)
a(t) 1 − kr2
Si un rayo de luz es emitido por una fuente en la posición r al tiempo t y detectado en
r = 0 al tiempo t = t0 , entonces se satisface
Z t0 Z r
dt′ dr′
= √ . (3.201)
t a(t′ ) 0 1 − kr′2
Por otra parte, considerando la luz como una onda clásica, podemos imaginar que dos
crestas consecutivas son emitidas a los tiempos t y t + ∆t, pero son detectadas a los
tiempos t0 y t0 + ∆t0 . Dado que el lado derecho de (3.201) es fijo para una misma fuente,
tenemos que Z t0 Z t0 +∆t0
dt′ dt′
= , (3.202)
t a(t′ ) t+∆t a(t′ )
que es equivalente a
Z t+∆t Z t0 Z t0 Z t0 +∆t0
dt′ dt′ dt′ dt′
+ = + (3.203)
t a(t′ ) t+∆t a(t′ ) t+∆t a(t′ ) t0 a(t′ )
Por lo tanto, si el periodo de la onda asociada a la luz es tan corto como para que el factor
de escala sea constante durante la emisión de la luz, obtenemos
∆t ∆t0
= , (3.204)
a(t) a(t0 )
que establece una relación entre la frecuencia de la luz al ser emitida y cuando es observada
∆t0 νemit a0
= = . (3.205)
∆t νobs a(t)
De esta forma, concluimos que el corrimiento al rojo en la cosmología de FRW está dado
por
a(t0 )
z+1= . corrimiento al rojo cosmológico (3.206)
a(t)
Observamos que si los objetos celestes están relativamente cerca, la luz que permite detec-
tarlos fue emitida alrededor de t = t0 y, por lo tanto, z = 0.
Es interesante notar que para objetos celestes un poco más distantes, cuya luz es emitida
al tiempo t < t0 , tal que la distancia que los separa de nosotros se puede aproximar por
d ≈ t0 − t (en unidades naturales) y es menor a algunos cientos de Megaparsecs, es posible
expresar el corrimiento al rojo (3.206) como
1 a(t) a0 + ȧ0 (t − t0 )
= ≈ ≈ 1 − H0 d . (3.207)
z+1 a0 a0
Dado que z también es pequeño en este caso, tenemos que 1/z + 1 ≈ 1 − z, lo que permite
concluir que, para objetos celestes no tan distantes se satisface
z ≈ H0 d , ley de Hubble (3.208)
conocida como la ley de Hubble, que establece una relación lineal entre la velocidad de
recesión de las galaxias cercanas codificada en z y su distancia (propia) a la Tierra d a través
de la constante H0 . Fue precisamente Hubble, quien en 1929 descubrió y luego confirmó
observacionalmente la relación cuasi-lineal (3.208), razón por la que H0 es conocida como
la constante de Hubble.22
3.5.3. Evolución de un universo plano
Al analizar el lado derecho de la ecuación de Friedmann (3.190) con las soluciones para
la densidad de energía (3.196), vemos que, cuando a → 0, ρa2 tiende a infinito como a−2 o
a−1 dependiendo de si el universo está dominado por radiación o materia, respectivamente.
Dado que en el pasado remoto el factor de escala debió tener valores minúsculos, para
esa época el valor de k resulta irrelevante y la densidad de energía del universo es, en
buena aproximación, la densidad crítica, ρ ≈ 3H 2 /8π. Es decir, en sus orígenes, el universo
puede ser considerado plano si su contenido se puede caracterizar como materia o radiación,
como se supone habitualmente. Curiosamente, diversas mediciones astrofísicas conducen a
la conclusión de que la densidad de energía del universo actual es también muy cercana
a la crítica, por lo que nuestro universo hoy puede modelarse por la métrica de FRW con
k = 0.
La observación de que el universo puede ser considerado como plano tanto en sus pri-
meros instantes como en el presente representa una interrogante conocida como el problema
de planitud. Una posible solución a esta cuestión es simplemente adoptar k = 0 como una
propiedad de la geometría de nuestro espacio–tiempo, para todo tiempo. Aunque, como
estudiaremos en esta sección, esta es una excelente aproximación para muchos propósitos,
no es necesario en general suponer que k = 0 si se acepta que el universo experimentó hace
casi 14, 000 millones de años un proceso de expansión exponencial con duración de alrede-
dor de 10−34 s, que permitió que la región observable del universo escalara su tamaño entre
1025 y 1030 veces. La hipótesis de la existencia de este periodo de expansión acelerada del
universo temprano, conocido como inflación cosmológica, será discutido con mayor detalle
en la sección 3.5.6 y se encuentra actualmente bajo constante escrutinio experimental y
teórico.
22
La ley de Hubble (3.208) sólo es válida para corrimientos al rojo en el intervalo 0.01 . z . 0.1, pues
para valores menores, las estrellas y galaxias también son afectadas por los campos gravitacionales cercanos,
y para valores mayores las aproximaciones dejan de ser válidas.
Supongamos ahora que el universo es plano. En este escenario, la ecuación de Fried-

mann (3.185) se simplifica a
8π
H2 = ρ, (3.209)
3
que con (3.195) conduce a la ecuación diferencial para el factor de escala a(t)
2
ȧ
∝ a−3(1+ω) , (3.210)
a
cuyas soluciones para ω 6= −1 están dadas por23
a(t) ∝ t2/3(ω+1) . (3.211)
Como ρ = ρc = cte para un universo plano repleto de energía de vacío, con ω = −1,
el parámetro de Hubble es constante y, por lo tanto, a(t) escala exponencialmente. Por
lo tanto, en resumen, obtenemos que el factor de escala para los distintos contenidos del
universo se expresa en función del tiempo como
 1

 t2 radiación,
2
a(t) ∝ t3 materia, (3.212)

 eH∗ t p
energía oscura, H∗ = 8πρc /3 = cte.
Es interesante notar que el universo crece más rápidamente cuando contiene materia que
cuando sólo contiene radiación; pero, si H∗ es lo suficientemente grande, la energía oscura
provoca la expansión más veloz. Además, confirmamos que la expansión es acelerada, ä > 0,
sólo en el caso de la energía oscura.
Por otra parte, si dividimos la ecuación de Friedmann en un universo plano (3.209) por
H02 , obtenemos la relación
H2 8π ρ
2 = 2 ρ= . (3.213)
H0 3H0 ρ0,c
Igualmente, podemos reexpresar la ecuación de aceleración (3.192) como

ä 4π ρ 1 ρ
2 =− 2 (3ω + 1) = − (3ω + 1) , (3.214)
aH0 3 H0 2 ρ0,c
donde la primera igualdad resulta de sustituir la ecuación de estado, mientras que la se-
gunda de la definición de densidad crítica actual.
Como mencionamos antes, es razonable suponer que el tipo de contenido del universo
no es único, sino que está distribuido, como en (3.197), en tres especies distintas de fluidos
perfectos,
ρ = ρr + ρm + ρΛ ,
23
De forma exacta, en un universo plano, a(t) = a0 (H0 t)2/3(ω+1) , considerando a(t = 0) = 0.
con ρr = ρ0,r a−4 , ρm = ρ0,m a−3 y ρΛ = ρ0,Λ , de acuerdo con (3.196), donde ρ0,i denota la
densidad de energía actual correspondiente a la especie i, con i = r, m, Λ, y hemos adoptado
la normalización a0 = 1. En este caso, (3.213) se debe reescribir como
H 2 X ρi ρ0,r −4 ρ0,m −3 ρ0,Λ

= = a + a +
H02 i
ρ0,c ρ0,c ρ0,c ρ0,c (3.215)
−4 −3
= Ω0,r a + Ω0,m a + Ω0,Λ ,
en términos de los parámetros de densidad de las distintas especies. De manera similar, es

posible mostrar que la ecuación de aceleración (3.214) en la época actual adopta la forma24
ä0 1X 1
2 =− Ω0,i (3ωi + 1) = − (2Ω0,r + Ω0,m − 2Ω0,Λ ) (3.216)
a 0 H0 2 2
i
para un contenido no único en el universo. De (3.216), notamos que, como anticipamos, la

aceleración puede ser positiva hoy (es decir, ä0 /a0 H02 > 0) sólo si 2Ω0,Λ > 2Ω0,r + Ω0,m ,
es decir, si la energía oscura domina hoy el contenido del universo. Dado que la evidencia
indica que en el pasado ρΛ no dominaba el contenido del universo, la cosmología busca
explicar por qué justamente en la época que nos tocó existir se presenta esta situación.
Frecuentemente, esta cuestión es denominada el problema de ¿por qué hoy?
Las observaciones más recientes realizadas por la sonda Planck25 han revelado que las
abundancias actuales de las especies que nuestro universo contiene, codificadas en Ω0,i ,
tienen los valores
Ω0,r ≈ 5.38 × 10−5 , Ω0,Λ ≈ 0.692 ± 0.012, Ω0,m ≈ 0.308 ± 0.012 . (3.217)
Asimismo, mediciones de luminosidades de rayos X de cúmulos de galaxias han permitido

notar que sólo un 16 % de Ω0,m puede vincularse con la materia que nos es familiar y que,
en particular, emite y refleja luz. Esta observación (entre muchas otras) constituye una
prueba indirecta de que existe una enorme cantidad de materia que no podemos observar
mediante telescopios, por lo que, además de la materia ordinaria, típicamente apodada
materia bariónica con abundancia Ω0,b , debe existir materia oscura con abundancia Ω0,DM ,
tales que
Ω0,b ≈ 0.0484, Ω0,DM ≈ 0.258 . (3.218)
Una de las mayores incógnitas de la cosmología es el origen y la naturaleza de esa materia
oscura. Las propuestas actuales incluyen partículas elementales con masas frecuentemente
24
Por razones históricas, q0 ≡ −ä0 /a0 H02 es conocido como parámetro de desaceleración y mide qué tanto
se desacelera la expansión del universo actualmente. Las observaciones reportadas en 1998 de la velocidad de
recesión de supernovas tipo IA probaron que q0 < 0 y, por lo tanto, el universo se expande aceleradamente
hoy. Estas observaciones merecieron la distinción del Premio Nobel 2011 en Física.
25
C. Patrignani et al. [Particle Data Group], Review of Particle Physics, Chin. Phys. C 40 (2016), página
120: Astrophysical constants and parameters.
por encima de las de todas las partículas elementales conocidas. Desafortunadamente, nin-
guno de los varios observatorios configurados para la detección de las hipotéticas partículas
ha conseguido una detección directa.
Edad del universo
Suponiendo que el universo es plano, las abundancias de materia y energía determinan

la edad del universo observable. Para calcularla, basta con resolver la ecuación diferen-
cial (3.215) para el factor de escala, tomando como condición inicial a = 0. Con este
propósito, tomamos la raíz cuadrada de (3.215), que conduce a
q
da
= aH0 Ω0,r a−4 + Ω0,m a−3 + Ω0,Λ (3.219)
dt
con Ω0,r + Ω0,m + Ω0,Λ = 1 y Ω0,m = Ω0,DM + Ω0,b . Invirtiendo (3.219) e integrando desde
el valor inicial a = 0 hasta un valor posterior del factor de escala, conseguimos una fórmula
para el tiempo transcurrido desde el inicio del universo en función del valor final del factor
de escala,
Z a
da′
t(a) = p . (3.220)
′ ′−4 + Ω ′−3 + Ω
0 a H0 Ω0,r a 0,m a 0,Λ
Debido a que el factor de escala a no es una cantidad que podamos medir directamente, al
contrario del corrimiento al rojo z, resulta más conveniente expresar la integral en (3.220)
en términos de la variable x ≡ a/a0 = (z + 1)−1 como
Z (z+1)−1
dx
t(z) = p . (3.221)
0 H0 Ω0,r x + Ω0,m x−1 + Ω0,Λ x2
−2
Una estrella que emite su luz en nuestra época (como e.g. el Sol y Alfa Centauri)
no exhibe ningún corrimiento al rojo debido a la expansión del universo, de donde sigue
que z0 = 0. Por lo tanto, empleando los datos observacionales del parámetro de Hubble
actual (3.187) y las abundancias presentes (3.217), la edad del universo hasta el día de hoy
resulta ser el conocido valor t0 ≡ t(z0 = 0) ≈ 13.8 × 109 años.
La expresión para la edad del universo (3.221) permite determinar la edad posible de
una estrella, galaxia, cúmulo o cualquier otro objeto astrofísico, cuyo espectro de emisión
(y absorción) sea medido. Si, al compararla con el espectro asociado al objeto identificado,
la medición resulta con un corrimiento al rojo z 6= 0 ajeno al movimiento del objeto,
concluimos que éste no pudo haber existido antes del tiempo t(z). Sabemos, por ejemplo,
que muchas de las estrellas más antiguas tienen corrimientos al rojo de z ∼ 11. Esto indica
que las primeras estrellas pudieron haber aparecido cuando el universo tenía apenas como
4 × 108 años.
10 10
10 9
10 8
t(z)/años
10 7
10 6
10 5
0.01 0.10 1 10 100 1000

z
Figura 3.14: Edad en años del universo para distintos valores de corrimiento al rojo z. La época
actual corresponde a z0 = 0 y t(z0 ) ≈ 1.38 × 1010 años. El máximo corrimiento al rojo posiblemente
detectable es alrededor de z = 3, 500, cuando el universo observable habría existido por alrededor
de 60,000 años.
En la figura 3.14 se muestra el comportamiento de t(z) para valores de corrimiento al

rojo 3, 500 > z ≥ 0, que son los únicos observables por medios astrofísicos actualmente.
Es decir, nos es imposible conocer mediante observaciones astrofísicas cómo era el universo
cuando tenía una edad menor a t(3, 500) ≈ 60, 000 años. La principal razón de esta limita-
ción es que la radiación generada en épocas anteriores a esa época era absorbida y reemitida
por la enorme masa de partículas ultra-energéticas que poblaban el universo, impidiendo
que la luz se desplazara libremente en nuestra dirección. Salvo por una pequeña fracción, la
única radiación que logró escapar y hoy detectamos es conocida como radiación cósmica de
fondo o CMB (por Cosmic Microwave Background) y representa hoy la fuente más rica de
información sobre el universo temprano. Desafortunadamente, esta radiación fue emitida
en la época correspondiente a z ∼ 1, 100, como discutiremos en la sección 3.5.4.
Dinámica con curvatura
La suposición de que el universo es plano, como hemos discutido, no es arbitraria. Sin

embargo, es posible relajarla y hacer una serie de observaciones relevantes que, entre otras
cosas, nos permiten justificar esa suposición.
Considerando la ecuación de Friedmann (3.188) con k =
6 0, notamos que para todo
tiempo se debe satisfacer
X k
Ωi + Ωk = 1, con Ωk ≡ − 2 2 , (3.222)
a H
i
donde hemos definido la “densidad de curvatura” Ωk para k constante. Observamos que,

dada la normalización a0 = 1, la densidad de curvatura actualmente toma el valor

k
Ω0,k = − . (3.223)
H02
Dividiendo la ecuación de Friedmann general por H02 , como en (3.215), obtenemos
H 2 X ρi k
2 = − 2 2 = Ω0,r a−4 + Ω0,m a−3 + Ω0,Λ + Ω0,k a−2 (3.224)
H0 ρ0,c H0 a
i
donde hemos sustituido la densidad de curvatura (3.223).

De la definición de la densidad de curvatura y las dos ecuaciones anteriores, obtenemos
que
H02 −2 Ω0,k a−2
Ωk = Ω 0,k a = . (3.225)
H2 Ω0,r a−4 + Ω0,m a−3 + Ω0,Λ + Ω0,k a−2
Esta ecuación describe la dinámica de la densidad de curvatura en términos de los valores
observados de las densidades de energía actuales del contenido del universo. Notamos par-
ticularmente que si el universo es perfectamente plano actualmente, Ω0,k = 0, el universo
debió haber sido plano en el pasado y siempre lo será. El valor medido de la densidad de
curvatura presente de acuerdo a los datos más recientes de Planck es
+0.016
Ω0,k = −0.005−0.017 , (3.226)
pequeño y consistente con cero, pero posiblemente no nulo.

En caso de que k 6= 0, la dinámica de la densidad de curvatura (3.225) muestra que
para valores cercanos a a = 0, la densidad de curvatura Ωk ≈ Ω0,k /Ω0,m a−1 + Ω0,r a−2
prácticamente se anula. Es decir, tanto en el pasado remoto como actualmente la curvatura
es cercana a cero. Sin embargo, dadas la estructura de (3.225) y el signo en la definición
de Ωk , la curvatura debe exhibir un máximo (correspondiente a un mínimo de Ωk ) para
algún valor a = amax entre 0 y 1. Observamos que amax está determinado por la condición

dΩk !
∝ −Ω0,m − 2Ω0,r a−1 3
max + 2Ω0,Λ amax = 0 , (3.227)
da amax
lo que, con las abundancias observadas (3.217) y (3.226), conduce a amax ≈ 0.606 y con-
secuentemente a Ωmax,k ≈ −0.006+0.021
−0.023 . Es interesante notar a partir de la ecuación de
aceleración (3.214) que, considerando las especies que llenan el universo, el valor del factor
de escala al que la expansión del universo comenzó la etapa de aceleración presente está
dado por la condición
ä 1 X ρi 1 !
=− (3ωi + 1) = − 2Ω0,r a−4 + Ω0,m a−3 − 2Ω0,Λ = 0, (3.228)
aH0 2 ρ0,i 2
i
que, comparando con (3.227), conduce a que el inicio de la expansión acelerada del universo
coincide con amax . A partir de estos resultados llegamos a una importante conclusión: el
universo siempre ha sido casi plano, como supusimos antes, y el momento en el que se alejó
más de esta descripción está determinado por el instante en el que se inició la expansión
acelerada que hoy observamos.
Esta conclusión, no obstante, no explica por qué, dados todos los eventos cósmicos
que el universo ha sufrido, las mediciones indican que hoy el universo es plano, Ω0,tot =
Ω0,r +Ω0,m +Ω0,Λ +Ω0,k ≈ 1. Esta observación tiene poco sentido porque, a partir de (3.196),
notamos que en el universo temprano la energía oscura fue despreciable en el contenido del
universo, y por lo tanto, de la definición de la densidad de curvatura (3.222), la curvatura
del universo crece con el tiempo como
|k| |k|
|Ωk | = = 2 ∝ t(6ω+2)/3(ω+1) (3.229)
a2 H 2 ȧ
con ω = 0, 1/3. Es decir, si k 6= 0, no importa qué tan cercano a cero haya sido Ωk (t = 0),
la curvatura debería ser hoy muy diferente. Esta es una forma más precisa de establecer el
llamado problema de planitud.
Finalmente, discutamos la edad de nuestro universo en el caso de que k 6= 0. A partir
de (3.224) y repitiendo los pasos que conducen a (3.221), obtenemos
Z (z+1)−1
dx
t(z) = p (3.230)
0 H0 Ω0,r x + Ω0,m x−1 + Ω0,Λ x2 + Ω0,k
−2
con x = a/a0 . Incluyendo la información de la densidad de curvatura (3.226), encontramos

entonces que la edad del universo actualmente está en el intervalo 13.7×109 < t0 < 14×109
años, estableciendo el intervalo de error de la edad del universo calculada previamente.
3.5.4. Radiación cósmica de fondo
Hasta antes del descubrimiento de las ondas gravitacionales y desde la invención del
telescopio, el único método para explorar el cosmos a distancias cosmológicas ha sido la
radiación electromagnética que detectamos en nuestro planeta. La mayor cantidad de la
radiación detectada proviene de planetas, estrellas, (super)novas, galaxias, cúmulos y otros
fenómenos como la acreción de materia en agujeros negros.
Sin embargo, en 1964 los radioastrónomos estadounidenses Arno Penzias y Robert Wil-
son, quienes hacían experimentos de radiocomunicación satelital para los laboratorios Bell
con una gigantesca antena enfriada con helio líquido, notaron que es posible detectar a
cualquier hora del día radiación isotrópica (proveniente de todas direcciones), ajena a toda
fuente observable, en el canal de microondas con frecuencia de 4, 080 MHz, equivalente a
longitud de onda de 7.35 cm. Aunque pensaron al principio que se trataba de algún tipo de
“ruido” experimental, lograron identificar que se trata de un fondo de radiación cósmica.
Pronto, otros telescopios terrestres, satelitales y a bordo de globos aerostáticos con-

firmaron la existencia de radiación como la descubierta por Penzias y Wilson en otras
frecuencias de microondas, conduciendo a una distribución espectral similar a la que emite
un cuerpo negro con una temperatura de T = 2.726 K.
De acuerdo a la descripción cuántica de un cuerpo negro caliente, éste emite radiación
en todas las frecuencias. La densidad de energía de radiación de cuerpo negro depende de
la frecuencia ν de la radiación emitida y de la temperatura T del cuerpo. La distribución
espectral de energía por unidad de frecuencia está dada por la llamada ley de Planck
8πh ν3
u(ν) = , (3.231)
c3 exp(hν/kB T ) − 1
donde h y kB son respectivamente las constantes de Planck y Boltzmann y hemos incluido
todas las constantes para mayor claridad.26
En la figura 3.15a se muestra la distribución espectral asociada a un cuerpo negro
con T = 2.726 K, que coincide con la de la radiación observada por distintos detectores.
El máximo del espectro corresponde a la frecuencia que concentra la mayor cantidad de
radiación emitida. En el espectro de la radiación de fondo detectada, el máximo ocurre
en la frecuencia 160.24 GHz, en la región de microondas. Por esta razón y porque su
origen no se puede asociar a ninguna fuente puntual terrestre o astrofísica, esta radiación
es llamada radiación cósmica de fondo o radiación de fondo de microondas (CMB). Por
su descubrimiento, Penzias y Wilson fueron galardonados en 1978 con el premio Nobel en
Física.
Afortunadamente, trabajos teóricos especialmente de Robert Dicke y Yakov Zel’dovich
habían ya mostrado que la cosmología predice la existencia de la CMB. Para empezar,
consideremos que la radiación del universo puede ser descrita como radiación de cuerpo
negro con temperatura T . Entonces, la densidad de energía (total) independiente de las
frecuencias está dada por
Z ∞
8π 5 kB
4
ρr = dνu(ν) = αT 4 , con α ≡ 3 c3
≈ 4.72 × 10−6 GeV K−4 m−3 (3.232)
0 15h
donde α es llamada constante de densidad de radiación. Como, por otra parte, la ecuación
de Friedmann conduce a ρr = ρ0,r (a/a0 )−4 , encontramos la relación
ρ 1/4 1 T0
0,r
a = a0 ≡ a0 , (3.233)
α T T
entre el factor de escala y la temperatura, donde T0 ≡ (ρ0,r /α)1/4 ≈ 2.726 K define la tem-
peratura de la radiación en nuestra época que, como esperamos, coincide con la medición
de la CMB.
26
En esta sección evitamos el uso de unidades naturales para evitar confusiones.
λ /cm λ / μm
7.35 0.6 0.3 0.19 0.15 0.12 0.1 10 3 1.67 1.2 0.94 0.75
u (ν )
u (ν )
50 100 150 200 250 300 100 200 300 400
ν /GHz ν /THz
(a) (b)
Figura 3.15: Distribución espectral de radiación de cuerpo negro (a) en microondas con T = 2.726
K y (b) en el infrarrojo distante con T = 3, 090 K.
La primera consecuencia de (3.233) es la confirmación de que, a medida de que el

universo se expande, también se enfría. Pero además aprendemos que la radiación se enfría
en la misma proporción que el universo crece. Si reexpresamos la relación (3.233) en función
del corrimiento al rojo como T = T0 (z + 1), basta con conocer el valor de la temperatura
a la que fue emitida para saber con precisión cuándo fue emitida.
Para conseguir una estimación de la temperatura a la que la CMB fue emitida, consi-
deremos primero la información contenida en la estructura de ρ para las distintas especies,
de acuerdo a (3.196) con los valores medidos hoy (3.217). Es fácil notar que para valo-
res pequeños del factor de escala a . 3 × 10−4 a0 (o, en términos del corrimiento al rojo,
z & 3, 500), ρr domina el contenido del universo. A esa época temprana del universo la
llamamos época de radiación. A medida que el factor de escala crece (y ρr decrece), ρm
domina el contenido del universo, conduciendo a la llamada época de materia para valores
del factor de escala en el intervalo 3 × 10−4 a0 . a . 0.7a0 (o 3, 500 & z & 0.42). Poste-
riormente, ρΛ domina el contenido del universo, iniciando la época de energía oscura, en la
que se formó nuestro sistema solar.
En la época de radiación, la temperatura es superior a 16, 000 K, aproximadamen-
te equivalentes a 1.4 eV. Si consideramos temperaturas un millón de veces más altas, la
energía de los fotones es suficiente para crear electrones, que tienen energía en reposo de
me c2 ≈ 511 keV. Temperaturas 2, 000 veces aún más altas permitirían la creación de pro-
tones. En consecuencia, podemos concebir que en la época de radiación la interacción y las
conversiones entre fotones y materia eran constantes. Una vez que la temperatura disminu-
yó lo suficiente como para que los fotones fueran incapaces de crear electrones y protones,
los electrones y protones sobrevivientes (y en igual número) interactuaron electromagné-
ticamente para comenzar a formar átomos simples, empezando por el hidrógeno, en un

proceso conocido como recombinación. Durante algún tiempo debió suceder la siguiente
reacción en ambas direcciones:
e + p ←→ H + γ , (3.234)
donde γ denota un fotón arbitrario. Este equilibrio termodinámico es roto cuando la tem-
peratura desciende lo suficiente para impedir que los fotones libres ionicen los átomos de
hidrógeno recién formados. Si consideramos que la energía de ionización del hidrógeno (en
su estado base) es Ei ≈ 13.6 eV, esto requeriría temperaturas tan altas como 160, 000 K. No
obstante, es claro que los primeros átomos formados deben haberse encontrado en estados
excitados, por lo que la energía requerida para ionizarlos fue considerablemente menor,
incluso menor que el umbral de 16, 000 K que establece el inicio de la época de materia.
Si definimos la fracción de hidrógeno ionizado xe como la fracción de número de átomos
ionizados (electrones o protones libres) por número de átomos de hidrógeno ionizados o no
ionizados,27 vemos que durante el proceso de recombinación xe debió disminuir paulatina-
mente hasta que el número de electrones y protones libres se redujo tanto que imposibilitó
la formación de nuevos átomos. Es al final de la recombinación que quedan algunos fo-
tones producto de la reacción (3.234) completamente libres. Estos fotones, cuyo camino
libre medio de interacción es compatible con la distancia que recorrerían en la edad del
universo, son los que hoy llamamos CMB. De forma un tanto arbitraria, típicamente se
define que el tiempo en el que esta radiación fue emitida coincide con el tiempo al que xe
se redujo a un 10 % de su valor original, es decir, xe = 0.1. A la época del nacimiento de la
CMB se le conoce como periodo de última dispersión o desacoplamiento de los fotones, pues
corresponde al tiempo en el que esta radiación interactuó por última vez, desacoplándose
de la materia.
La evolución de xe como función de la temperatura T puede determinarse mediante
la llamada termodinámica en equilibrio, a partir de las reglas de conservación en el pro-
ceso (3.234) y de las distribuciones estadísticas (cuánticas) de los protones, electrones y
átomos de hidrógeno. La relación exacta es muy complicada. Sin embargo, suponiendo en-
tre otras cosas que el único estado en el que se forma el hidrógeno es el estado base, la
dinámica de la fracción de hidrógeno ionizado está determinada por la llamada ecuación
de Saha cosmológica,28
3/2
x2e 1 2πme kB T
= e−Ei /kB T , ec. de Saha (3.235)
1 − xe 0.76nb h2
27
Formalmente, xe ≡ np /(np + nH ), donde np es la densidad de número de protones (o electrones) y nH
la densidad de número de átomos de hidrógeno.
28
Una derivación detallada y confiable de (3.235) puede encontrarse en la sección 2.3 de S. Weinberg,
Cosmology. Oxford Univ. Press, 2008. Esta ecuación es una aplicación de la ecuación general de Saha, válida
para todos los procesos de ionización en equilibrio.
donde la densidad de bariones en el universo está dada por nb = n0,b (T /T0 )3 ya que escala
con la temperatura como la densidad de materia (ver (3.196) y (3.233)) y la densidad actual
observada es n0,b ≈ 0.2503 m−3 .
La ecuación de Saha (3.235) sólo puede ser resuelta numéricamente. Sustituyendo xe =
0.1, encontramos que la temperatura de la CMB al tiempo de última dispersión es Trec ≈
3, 090 K, correspondiente mediante (3.233) a zrec ≈ 1, 133 y, de acuerdo a (3.230), a la
época en la que el universo tenía la edad t(zrec ) ≈ 380, 000 años. En la figura (3.15b) se
presenta el espectro de la CMB en el infrarrojo distante, correspondiente al tiempo cuando
fue emitida.
A partir de los datos obtenidos, notamos que zrec < 3, 500 y, por lo tanto, la emisión
de la CMB ocurrió durante la época de dominio de la materia. Por otra parte, dado que
la luz existente antes de esta época desapareció debido a las grandes interacciones que
mantenía con la materia, la CMB es la luz más vieja que podemos observar hoy. Esta
radiación isotrópica forma una esfera alrededor de nosotros llamada la superficie de última
dispersión, delimitando los puntos más distantes que nos es posible observar. Esta es la
información astrofísica más antigua que podemos emplear para entender la evolución de
nuestro universo.
Los valores obtenidos para la temperatura, corrimiento al rojo y tiempo de emisión de
la CMB son del orden de magnitud correcto, pero son sólo valores aproximados. La razón
es que hemos hecho un número de suposiciones. La primera es que el régimen de equilibrio
del proceso (3.234) es válido durante todo el periodo de recombinación, lo cual ciertamente
se viola fuertemente sobre todo al final de esta época. Es decir, la ecuación de Saha (3.235)
debe ser sustituida por una descripción que tome en cuenta las desviaciones del equilibrio.
La segunda es que consideramos que el hidrógeno no tiene estados excitados, de tal forma
que los protones y electrones se combinan directamente en el estado base del hidrógeno, lo
cual tampoco es totalmente correcto.
Un último pero crucial aspecto de la verdadera naturaleza de la CMB es que, contrario
a nuestra suposición, no es del todo isotrópica y homogénea. De hecho, la dinámica cósmica
durante la época de última dispersión es registrada por la CMB, produciendo pequeñas
anisotropías (de una parte en cien mil) que revelan diminutas acumulaciones de materia
aquí y allá, consideradas hoy las semillas de la formación de la estructura (estelar, galáctica,
etc.). El estudio de las anisotropías, por lo tanto, puede revelarnos aspectos de la época de
materia, posterior a la formación de los primeros átomos de hidrógeno. Pero además puede
revelar aspectos del universo anterior a ese tiempo, pues si, por ejemplo, había algún tipo
de ondas gravitacionales primigenias en el plasma de hidrógeno ionizado de los últimos
años de la época de radiación, éstas podrían haber tenido un efecto en la CMB. El estudio
de estos aspectos es, al momento de escribir este texto, investigación en progreso y tema
de grandes debates.
3.5.5. Problema del horizonte cosmológico
Como hemos mencionado, las mediciones de la CMB han mostrado que es bastante
homogénea. Para lograr esta homogeneidad, sería preciso que, si bien hoy distintas regiones
del cosmos no se encuentran en contacto causal, debieron haber estado en contacto causal en
algún momento del pasado. Por lo tanto, una pregunta natural es ¿qué región del espacio–
tiempo de FRW pudo haber estado en contacto causal antes de la emisión de la radiación
cósmica de fondo al tiempo trec ?
Una pregunta similar es la que resolvimos para el espacio–tiempo de Minkowski en el
contexto de la relatividad especial, en la sección 1.8.2. En ese caso, entendimos que si los
conos de luz de dos puntos del espacio–tiempo se intersecan, entonces los puntos han estado
en contacto causal.
Para repetir este procedimiento en el espacio–tiempo de FRW, es conveniente definir el
tiempo conforme τ por medio de (retomando unidades naturales)
dτ ≡ dt/a(t) . tiempo conforme (3.236)
Lo especial acerca del tiempo conforme es que permite reescribir el intervalo de FRW (3.177)
como (eligiendo dΩ = 0 sin pérdida de generalidad, por la isotropía del espacio–tiempo)29
dr2
ds2 = a2 dτ 2 − dχ2 , con, dχ2 ≡ (3.237)
1 − kr2
que es conformemente equivalente al intervalo de Minkowski, es decir, es equivalente al
intervalo de Minkowski salvo por un factor conforme que, en este caso, es el factor de
escala. Una consecuencia de la forma del intervalo (3.237) es que la trayectoria de la luz
está regida por
dτ = ±dχ , (3.238)
donde el signo + (−) es para rayos de luz que se alejan (acercan). Por lo tanto, los conos de
luz en el plano τ − χ están delimitados por rectas, como en el espacio–tiempo de Minkows-
ki.30 Con esta información, sabemos que, por ejemplo, todos los eventos dentro del cono
de luz sombreado por debajo del punto o en la figura 3.16 están relacionados causalmente
con él.
Llamemos horizonte cosmológico u horizonte de partícula h a la mayor distancia a partir
de la cual un observador puede recibir un rayo de luz emitido en el universo de FRW. Para
un observador al tiempo t, esta distancia está dada por el tiempo conforme total τ (t)
multiplicado por el factor conforme, es decir,
Z τ (t) Z t Z a(t) ′
dt′ da
h(t) ≡ a(t) dτ ′ = a(t) = a(t) , horizonte cosmológico (3.239)
0 0 a(t′ ) 0 a ′2 H ′
29
χ es conocido como coordenada comóvil.
30
En el plano t − r, las trayectorias luminoides son curvas.
z
1100 10 0.5 0 0.5 10 1100
aquí y ahora
14 1
o
12 0.6
τ /10 9 10
a/a0
8 p q
horizonte actual
6
0.1
4
2 0.01
recombinación
0 0.001
-15 -10 -5 0 5 10 15
χ/10 9
Figura 3.16: Ilustración del problema del horizonte cosmológico. Al momento de su emisión, la CMB
pudo haber sido afectada sólo por los eventos en su horizonte cosmológico. Debido a que la CMB fue
emitida cuando el universo tenía apenas 380, 000 años (z ∼ 1, 100), correspondiente a τ ∼ 0.4 × 109 ,
fotones que nos alcancen desde dos posiciones opuestas en nuestro horizonte cosmológico actual,
χ = p, q, no pudieron haber tenido un pasado común. Por lo tanto, resulta inexplicable que tengan
las mismas propiedades.
donde hemos empleado la definición del parámetro de Hubble, H = ȧ/a. De esta definición,
observamos que h(t) es la mayor distancia entre una partícula y su entorno desde la que
los eventos pueden afectarla al tiempo t. En especial, eventos más allá del horizonte h(t)
al tiempo t no pueden ser observados a ese tiempo, aunque podrían ser observados en el
futuro. Entonces, si o en la figura 3.16 corresponde a nuestra posición en el tiempo pre-
sente, podemos observar todas las partículas y eventos en una esfera con radio h0 ≡ h(t0 ),
pero otro observador distante podría observar otras partículas y eventos. Cada observador
tiene su propio horizonte de eventos. Sólo en la medida en que las observaciones de dos
observadores distantes coincidan aunque sea en una pequeña región (cuando los horizontes
se intersecan) pueden ambos tener una conexión causal.
Por otra parte, conforme pasa el tiempo, incluso horizontes cosmológicos que no se inter-
secan pueden aparecer en el horizonte cosmológico de un observador futuro. Consideremos
con más detalle la situación descrita en la figura 3.16. Dos haces de luz emitidos durante
el periodo de recombinación desde puntos opuestos p y q en la esfera de nuestro horizonte
cosmológico actual pudieron haber sido afectados sólo por los eventos contenidos en sus res-
pectivos horizontes cosmológicos. Debido a que la CMB fue emitida en t = trec ≈ 380, 000
años y arec ≈ 10−3 , entonces τrec ≈ 0.38 × 109 . Como se muestra en la figura, ese tiempo
conforme no es suficiente para que los conos de luz asociados a sus horizontes cosmológicos
se intersequen. Por esta razón, uno esperaría de forma natural que la radiación emitida
desde p y q tenga e.g. temperaturas diferentes. Peor aún: dado que entre p y q hay un
número grande de regiones que no sostienen relación causal, se esperaría un número gran-
de de temperaturas diferentes en la CMB, contrastando con las observaciones. Este es el
problema del horizonte, probablemente el mayor de los problemas del modelo de la gran
explosión.
Para cuantificar este problema, podemos medir cuántas veces cabe el horizonte de la
CMB, medido al día de hoy, en nuestro horizonte cosmológico presente. Dado que dχ no
depende del tiempo en el que se mida, su integral hasta r = rrec tiene el mismo valor que
tuvo durante la época de recombinación. Por lo tanto, escalando ese tamaño con el factor
de escala, encontramos que el horizonte cosmológico de la CMB al tiempo t está dado por
Z χrec Z τrec
h(trec )
hrec (t) = a(t) dχ = a(t) dτ = a(t) . (3.240)
0 0 a(trec )
Expresiones análogas son válidas para otros horizontes cosmológicos antiguos. Claramente,
el horizonte cosmológico actual es mucho más grande que el horizonte cosmológico de
recombinación escalado al día de hoy, tal que h(t0 )/hrec (t0 ) cuenta el número de regiones
en el horizonte actual que estuvieron causalmente desconectadas durante el periodo de
recombinación.
Estimemos el número de regiones que, desde la perspectiva actual, estuvieron desconec-
tadas durante la emisión de la CMB. Para conseguirlo, (sobre)simplificaremos la evolución
del cosmos, suponiendo que hasta que se completó la recombinación el universo estaba
enteramente dominado por radiación y que la evolución posterior se efectuó en un universo
dominado por materia. Además, supondremos que nuestro espacio–tiempo es plano y que la
época de dominio de la energía oscura ha sido tan breve que no ha afectado mucho nuestra
apreciación del pasado (lo cual es falso). Bajo estas suposiciones, el horizonte cosmológico
actual está dado por
Z t0 Z t0
dt 2/3
h(t0 ) = a(t0 ) ≈ t0 t−2/3 dt = 3t0 . (3.241)
0 a(t) 0
Por otra parte, el horizonte cosmológico durante recombinación escalado al día de hoy de
acuerdo a (3.240) está dado por
Z trec r
mat dt 2/3 trec 1/6 2/3
hrec (t0 ) ≈ a (t0 ) rad (t)
= (H0 t0 ) 2 = 2H0 t0 trec 1/2 , (3.242)
0 a H 0
√
donde hemos tomado a = arad ∝ t entre t = 0 y t = trec , mientras que a = amat ∝
t2/3 después de trec . Entonces, el número de regiones desconectadas causalmente durante
recombinación es en nuestra perspectiva
h(t0 ) 3t0
≈ 1/6 2/3
∼ 300 , (3.243)
hrec (t0 ) 2H0 t0 trec 1/2
en donde hemos reemplazado los valores obtenidos para la edad del universo hoy y cuando
ocurrió la recombinación. Este resultado es problemático porque implica que deberíamos
observar al menos 300 temperaturas diferentes en el CMB que no son detectadas.
Analicemos ahora la fórmula para el horizonte cosmológico (3.239). Al considerar a ∝
t2/3(ω+1)
con 1 − 3ω ≥ 0, notamos que (los factores de proporcionalidad se cancelan y)
3ω + 1 2/3(ω+1) +1−2/3(ω+1) 3ω + 1
h(t) = t t = t. (3.244)
3(ω + 1) 3(ω + 1)
Por otro lado, el inverso del parámetro de Hubble, frecuentemente llamado radio de Hubble
u horizonte de Hubble, para los mismos casos es
3(ω + 1)
H −1 (t) = t. (3.245)
2
Comparando ambos resultados, notamos la interesante relación entre el horizonte cosmo-
lógico y el horizonte de Hubble
h(t) ≈ H −1 (t) . (3.246)
Esta relación conduce a que ambos horizontes sean usualmente empleados de forma in-
tercambiable; sin embargo, esto es incorrecto porque sólo coinciden cuando 1 + 3ω > 0.
Particularmente, difieren para el caso ω = −1 que estudiaremos en la siguiente sección,
cuando a crece de forma exponencial en el tiempo.
En términos de la relación (3.246), podemos reexpresar el problema del horizonte. El
número de veces que cabe hoy el horizonte cosmológico de recombinación en nuestro hori-
zonte actual está dado por
h(t0 ) h(t0 )arec (H0 a0 )−1
= ≈ ≫ 1. (3.247)
hrec (t0 ) a0 h(trec ) (arec Hrec )−1
Es decir, el problema del horizonte es resultado de que (aH)−1 crezca con el tiempo.
3.5.6. Inflación cosmológica
El problema de planitud está relacionado con la imposibilidad de explicar que hoy

nuestro espacio–tiempo sea prácticamente plano sin considerar que siempre ha sido plano,
dado que la curvatura del universo tiene la tendencia natural de crecer con el tiempo. En
términos de la ecuación de Friedmann (3.222) con densidad de curvatura no trivial, vemos
que se satisface
X |k| |k|

Ω i − 1 = 2 2 = 2 , (3.248)
a H ȧ
i
donde Ωi denota las abundancias de las distintas especies de contenido en el universo y k
es el parámetro de curvatura.
Como la curvatura siempre crece, entonces tenemos en estos términos que (3.248) sa-
tisface
d X
d d ä
Ωi − 1 = |k| (aH)−2 = |k| ȧ−2 = −2|k| 3 > 0 . (3.249)
dt dt dt ȧ
i
Dado que en un universo en expansión ȧ > 0, entonces encontramos que el crecimiento de
la curvatura está asociado a la desaceleración de la expansión, ä < 0. Asimismo, a partir de
la primera igualdad, notamos que el problema de planitud se relaciona con el crecimiento
de (aH)−1 con el tiempo. Coincidentemente, este es el origen también del problema de
horizonte, como discutimos al final de la sección previa.
Una propuesta para resolver los problemas de planitud y de horizonte a la vez es
incluir, durante la época de radiación (z > 3, 500), una fase de expansión acelerada en el
universo temprano llamada inflación cosmológica. La primera consecuencia de tal periodo
sería que (aH)−1 decrezca, de tal forma que la curvatura del universo inicial sea diluida.
Simultáneamente, si (aH)−1 decrece, sería posible lograr que las regiones que aparentan hoy
siempre haber estado en desconexión causal hayan tenido un traslape durante el periodo
de expansión acelerada.
Como hemos visto, una forma de satisfacer ä > 0 es permitir que la ecuación de es-
tado del fluido perfecto que describe el contenido del universo esté regida por ω ≈ −1.
Hemos discutido que esta situación ocurre de manera exacta cuando la energía oscura o de
vacío domina el contenido del universo, pero no es la única opción. Desafortunadamente,
por requerir elementos de teoría cuántica de campos, no discutiremos los detalles de los
mecanismos inflacionarios en este texto. Baste decir que es requerido que el universo en
los primeros instantes esté dominado por un campo cuántico llamado inflatón, el que sólo
evoluciona en el tiempo, produciendo una expansión exponencial del universo, a ∝ eHinf t
con Hinf ≈cte, y reduciendo los problemas de planitud y horizonte (entre otros) por un
factor e−Hinf ∆tinf , donde ∆tinf = tfin −tini es la duración de la fase inflacionaria del universo.
Existen diversos modelos de inflación cosmológica, actualmente contrastados con las
observaciones, pero todos conducen a ciertas propiedades comunes. Para resolver los pro-
blemas cosmológicos, la duración de inflación debe satisfacer
Z tfin
a(tend )
Ninf ≡ ln = Hinf dt ≈ 50 − 70 , (3.250)
a(tini ) tini
donde Ninf es conocido como el número de e − f olios de inflación y corresponde a un creci-

miento de aproximadamente 1026 veces en el factor de escala, iniciando cuando la edad del
universo era alrededor de 10−34 s. Durante la duración de la inflación cosmológica, en caso
de considerar que el universo estuvo caliente en sus inicios, éste se enfría de forma exponen-
cial y el inflatón acumula una enorme cantidad de energía debido a su evolución. Al término
de la inflación, toda la energía acumulada en el inflatón es liberada en forma de partículas
elementales (conocidas) con energías ultrarrelativistas, que calientan nuevamente el uni-
verso, completando la época de radiación. Este periodo es conocido como recalentamiento.
Los detalles de esta fase también son tema de investigación moderna. Durante el periodo
de inflación, pequeñas fluctuaciones de campos cuánticos pudieron haber sido magnificadas
a tamaños clásicos, produciendo las pequeñas anisotropías de la CMB y las semillas de la
estructura a grandes escalas que observamos.
3.5.7. Breve cronología cosmológica
En esta sección, hemos estudiado algunos de los aspectos más relevantes de la cosmología
directamente a partir de la relatividad general, sin incorporar muchos elementos adicionales
de física estadística y física de partículas. Sin embargo, un tratamiento exhaustivo de
esta área de investigación moderna rebasa los objetivos de este texto. Con la finalidad
de complementar nuestra discusión y como referencia, en la tabla 3.1 se presentan los
principales eventos cosmológicos que, con base en diversos tipos de evidencia (teórica y
experimental), hoy consideramos parte de la historia del cosmos.
La cronología puede dividirse en tres etapas con base en la forma en la que la eviden-
cia ha sido acumulada. La primera etapa comprende el universo temprano, entre t = 0
y t ≈ 10−10 s. En esta etapa es donde existe mayor incertidumbre, ya que hasta ahora
ningún experimento ni observación ha sido capaz de confirmar alguna de las hipótesis y
conjeturas planteadas. Por esta razón, es adecuado decir que es la etapa con más incógnitas
y también la más activa de la cosmología. Todos los eventos de este periodo son conside-
raciones emanadas de modelos de física más allá de la física convencional, aún bajo diseño
e investigación. Salvo por le fase inflacionaria, se cree que la dinámica de la evolución del
universo está dominada por la radiación.
Para
p empezar, se sospecha que la física por debajo del llamado tiempo de Planck,
tP l ≡ ~GN /c5 ∼ 10−43 (que es la unidad de tiempo que se puede formar al combinar
las constantes fundamentales de la naturaleza conocidas), es una mezcla de la relatividad
general con la mecánica cuántica, proveyendo una forma de gravedad cuántica que aún no
es posible descifrar completamente. En esta época, llamada frecuentemente era de Planck,
algunos sospechan que el contenido del universo sostenía una dinámica similar a la descrita
por la teoría de cuerdas o la gravedad cuántica por lazos. Por encima de este tiempo y
hasta aproximadamente 10−36 s, se conjetura que el universo pudo haber evolucionado en
un estado de vacío regido probablemente por campos de una teoría de gran unificación,
en la que todas las fuerzas fundamentales de la naturaleza se comportan como una sola
gran fuerza. El campo del inflatón comienza a tener un peso importante en la evolución
del universo alrededor de 10−34 s, cuando su energía cinética y potencial se combinan para
dar lugar a una expansión cuasi-exponencial. Al término de la inflación, cuando el universo
multiplicó su tamaño por un factor ∼ 1026 en apenas 10−32 s, los valores del campo del
inflatón comienzan a oscilar, acumulando una enorme energía que es finalmente emitida
al universo en forma de radiación ultra-energética. La radiación eleva la temperatura del
universo hasta temperaturas tan altas como 1026 K, por lo que denominamos a este proceso
evento tiempo energía ρ

época de Planck < 10−43 s > 1018 GeV ?
gran unificación ∼ 10−36 s ∼ 1016 GeV ?
inflación ≥ 10−34 s ≤ 1015 GeV ρinf
recalentamiento ≥ 10−32 s ≤ 1013 GeV ρr
rompimiento de supersimetría ≤ 10−10 s > 4 TeV
bariogénesis ≤ 10−10 s > 1 TeV
rompimiento electrodébil ∼ 10−10 s ∼ 100 GeV ρr
confinamiento ∼ 10−4 s ∼ 100 MeV
enfriamiento nucleónico ∼ 10−2 s ∼ 10 MeV
desacoplamiento de neutrinos ∼1s ∼ 1 MeV
nucleosíntesis ∼ 3 min ∼ 100 keV
z
igualdad materia-radiación ∼ 104 años ∼ 1 eV ρm = ρr ∼ 3, 365
recombinación (CMB) ∼ 380, 000 años ∼ 0.1 eV ρm ∼ 1, 100
época oscura 4 × 105 − 108 años > 11
reionización 108 − 109 años 6 − 11
formación de galaxias ∼ 109 años ∼6
dominio de energía oscura ∼ 8 × 109 años ρΛ ∼ 0.5
formación del sistema solar ∼ 9 × 109 años ∼ 0.45
hoy ∼ 13.8 × 109 años ∼ 1 meV 0
Cuadro 3.1: Cronología de eventos según el modelo ΛCDM o de la gran explosión. Los eventos del
recuadro superior son hipotéticos y están basados en diversos modelos más allá del modelo estándar
de partículas. Los eventos en el segundo recuadro se basan en la física de partículas ya verificada.
Los eventos del recuadro inferior están basados en observaciones astrofísicas. ρ indica la especie
que domina cada época: inflatón ρinf , materia ρm , radiación ρr y energía oscura ρΛ . z se refiere al
corrimiento al rojo gravitacional debido a la expansión del universo.
recalentamiento. Las transformaciones continuas entre fotones y materia dan, a su vez, lugar
a todas las partículas (y antipartículas) del modelo estándar de partículas elementales y,
en caso de confirmarse, de los modelos supersimétricos. El universo continúa su expansión
dominado por esa radiación, enfriándose paulatinamente. Poco antes de que el universo
tenga 10−10 s de edad, ocurre el proceso de bariogénesis, en el que la violación del equilibrio
termodinámico combinada con una mínima violación de conservación de carga eléctrica,
paridad y de cantidad de materia, conduce al dominio de la materia sobre la antimateria.
La segunda etapa de evolución cosmológica está basada en la física de partículas cono-
cida; esta etapa seguramente ocurrió cuando el universo tenía entre t ≈ 10−10 s y t ≈ 200 s,
y está dominada por partículas ultrarrelativistas, descritas como radiación. Entendemos los
eventos de esta época bastante bien gracias a experimentos en colisionadores de partículas
que permiten conocer la dinámica de las partículas elementales a muy altas temperaturas.
Suponiendo que la dinámica a altas energías no ha cambiado en la historia del universo,

llegamos a una descripción precisa de lo que ocurrió.
Tras el proceso de bariogénesis, las abundantes partículas elementales continuaron sin
masa hasta que el universo se enfrió lo suficiente para alcanzar una temperatura de alre-
dedor de 1015 K a los 10−10 s de haberse iniciado la gran explosión. A esa temperatura
ocurre el llamado mecanismo de Higgs, responsable de dotar con masa a todas las partícu-
las elementales, salvo el fotón y los mediadores de las interacciones fuertes. Ya con masa,
los quarks comienzan a combinarse hasta que, a los 10−4 s, con una temperatura de 1012
K, les es imposible aparecer libremente fuera de los llamados hadrones, entre los que domi-
nan esencialmente una enorme cantidad de protones y neutrones. Las interacciones entre
fotones, protones, neutrones, electrones y neutrinos son muy constantes, produciendo con-
versión de unas partículas en otras. Cuando el universo alcanza la edad de 1 s, la distancia
entre una partícula y otra ya es lo suficientemente grande como para que los ligerísimos
neutrinos escapen, dejando de interactuar con el resto del contenido del universo. Parte de
esos neutrinos deberían ser detectables en nuestra época. Entre este momento y los 200
s, los protones y neutrones del universo se combinan para formar los primeros núcleos;
además del hidrógeno, se forman los núcleos del deuterio, del 3 He, del 4 He y 7 Li en el pro-
ceso conocido como nucleosíntesis de la gran explosión. La radiación de este tipo, poblada
de los primeros núcleos, electrones, neutrones libres y luz, sigue dominando todavía algún
tiempo, hasta que el universo alcanza una edad de aproximadamente 10, 000 años.
La última etapa en la historia cosmológica es la que conocemos gracias a las observa-
ciones astrofísicas. Esta corresponde al periodo entre t = 10, 000 años y t0 ∼ 13.8 × 109
años. En esta etapa dos transiciones ocurren: la transición del dominio de la radiación a la
materia y la transición de materia a energía oscura. La temperatura disminuye de 104 K a
2.73 K, haciendo de nuestro universo el lugar frío y casi vacío que conocemos hoy.
Alrededor de los 10, 000 años, la radiación se ha enfriado hasta 104 K y la cantidad
de materia ha aumentado tanto que se equilibra su contribución en la dinámica cosmoló-
gica. A esta fase se le llama periodo de igualdad radiación–materia y marca el inicio del
dominio de la materia, un periodo en el que la expansión del universo es ligeramente más
veloz que antes. Aún abundan protones, electrones y fotones en interacciones continuas,
situación que dura hasta que el universo alcanza la edad de 380, 000, en la que los protones
y electrones se combinan para formar los primeros átomos de hidrógeno (recombinación),
dejando escapar la radiación cósmica de fondo (CMB) con las propiedades de los fotones
de ese momento. Son estos fotones la luz más vieja que somos capaces de detectar, la cual
es descrita en el espectro de microondas como radiación de cuerpo negro, según discutimos
en la sección 3.5.4.
Tras la liberación de la CMB, no hubo ninguna fuente de luz más que los átomos de
hidrógeno. La luz emitida por las transiciones entre niveles de energía del hidrógeno es muy
poco energética, por lo que es prácticamente inobservable. Debido a la ausencia de luz hasta
que se empiezan a formar las primeras estrellas, al periodo que dura entre 380, 000 y 150 ×
106 años se le llama época oscura. Las primeras estrellas y cuásares se forman al concluir la
época oscura mediante la acumulación gravitacional de grandes cantidades de hidrógeno,
emitiendo fotones con suficiente energía para ionizar los átomos de hidrógeno libres en
las cercanías de los astros. Como resultado de este proceso conocido como reionización,
el contenido del universo se convierte en un plasma que perdura hasta que el universo
alcanza la edad de 109 años. A esa edad cosmológica, las diferentes estrellas, regidas por
concentraciones de materia oscura, comienzan a formar galaxias que poseen en sus núcleos
las primeras estrellas muertas convertidas en agujeros negros. Las galaxias se expanden y
distribuyen, atrayendo polvo estelar que formará cuerpos celestes sin brillo propio, tales
como los planetas, planetoides, asteroides, etc. Hace casi 6 × 109 años, la disminución
continua de ρm consiguió que la energía oscura comience a dominar; desde entonces la
expansión del universo es cada vez más veloz. Aproximadamente mil millones de años más
tarde se formó nuestro sistema solar y otros parecidos.
Ejercicios
3.1 Límite Newtoniano.
Suponga un espacio–tiempo Newtoniano con coordenadas cartesianas xa = (t, xi ). En el formalismo
Newtoniano la métrica es plana, pero las partículas masivas sienten una fuerza generada por el
potencial gravitacional φ(x) y la aceleración de una partícula masiva está dada por a = −∇φ.
(a) Muestre que una partícula masiva en caída libre se mueve a lo largo de una curva xa = xa (λ)
que satisface
2
d2 t d2 xi ∂φ dt
= 0, + = 0.
dλ2 dλ2 ∂xi dλ
(b) De las ecuaciones anteriores identifique las componentes de la conexión Newtoniana (símbolos
de Christoffel).
(c) Utilizando los resultados del inciso anterior, deduzca que
∂2φ
Rj 0k0 = −Rj 00k =
∂xj ∂xk
y todas las demás componentes se anulan.
(d) Analice las simetrías que deberían tener las componentes de R abcd . ¿Puede la conexión New-
toniana ser obtenida a partir de una métrica?
3.2 Ecuaciones de Einstein y constante cosmológica.
La forma más general de las ecuaciones de campo de Einstein
Gµν − Λgµν = 8πTµν . (3.251)
(a) Si reescribimos (3.251) de la forma Gµν = Λgµν +8πTµν , podemos definir un tensor de energía–
Λ
momento efectivo asociado a la constante cosmológica como Tµν ≡ Λgµν /8π. Muestre que
en ese caso la constante cosmológica se puede interpretar como un “fluido perfecto” uniforme
con densidad de energía ρ = Λ/8π y ecuación de estado P = −ρ. Es decir, la constante
cosmológica se puede asociar con la energía del vacío.
(b) ¿Qué significa físicamente que la presión del vacío P sea negativa?
Considere dos observadores fijos localizados cerca de un agujero negro de Schwarzschild de masa
M . Un observador localizado en r1 = 3M , emite un pulso de luz violeta (λ = 400 nm) a un segundo
observador localizado en r2 = 8M . ¿De qué color es el pulso para el observador localizado en r2 ?
¿Qué tipo de corrimiento al rojo se observaría si el segundo observador se localizara en el radio de
Schwarzschild?
3.4 Solución de Schwarzschild.
La solución de Schwarzschild es una solución exacta de las ecuaciones de Einstein en el vacío que
es estática y esféricamente simétrica. El elemento de línea está dado por
" −1 #
2M 2M
ds2 = 1 − dt2 − 1− dr2 + r2 dθ2 + r2 sen2 θdϕ2 .
r r
(a) Para la métrica anterior, encuentre (con un cálculo explícito) los 9 símbolos de Christoffel
diferentes de cero.
(b) Muestre que para una métrica gµν cuyas componentes son independientes de la coordenada
µ
x0 , entonces q0 ≡ g0µ dx
dτ es constante a lo largo de una trayectoria geodésica, i.e. muestre
que se satisface
dq0
= 0.
dτ
(c) Considere nuevamente el caso particular de la métrica de Schwarzschild. Muestre que en el
límite no relativista y para movimiento radial en un plano, en el punto θ = π/2 y ϕ = ϕ0 =
cte, la cantidad conservada adopta la forma
2
dxµ M m m dr
m g0µ ≈m− + + ··· .
dτ r 2 dt
¿Puede identificar la cantidad física que se conserva?

(d) Existe otra coordenada xi de la que no dependen los elementos de la métrica de Schwarzschild.
De acuerdo con los incisos anteriores, proponga la forma general de la cantidad conservada qi
(para algún i). Calcule explícitamente la expresión de qi para la solución de Schwarzschild.
¿Con qué cantidad física está relacionada?
3.5 Vectores de Killing.
Un vector de Killing o campo vectorial de Killing ξ µ es un vector sobre una variedad (pseudo-
)Riemanniana que define un grupo de isometrías de la variedad, i.e. define transformaciones en la
variedad que dejan invariante el intervalo y, por lo tanto, la métrica. Dada esta definición, cada ξ µ
corresponde a una simetría de la métrica. Un vector de Killing satisface la ecuación de Killing
ξµ;ν + ξν;µ = 0,
de donde es posible concluir que a lo largo de curvas geodésicas la siguiente cantidad se conserva
pµ ξµ = cte.
Consecuentemente, en relatividad general, los vectores de Killing permiten definir leyes de conser-
vación (asociadas a simetrías del espacio–tiempo).
Determine los vectores de Killing para las cantidades conservadas del problema anterior.
(a) ¿En qué sistemas sometidos a la acción gravitacional es válida la relatividad especial?
(b) Un astrofísico reporta en un artículo con datos bastante precisos que la teoría de Einstein
tiene un grave error porque predice resultados incorrectos para un objeto estelar cónico. Lo
eligieron a usted como árbitro del artículo. ¿Considera que es un artículo aceptable o no?
Justifique.
(c) ¿Cuáles son las diferencias principales entre un agujero negro de Schwarzschild y uno de Kerr?
3.7 Agujero negro de Schwarzschild.
de Schwarzschild está determinada por el intervalo (3.71). Definimos aquí A(r) =
La métrica
1 − 2M
r .
(a) Como se determinó en el ejercicio 3.5, las cantidades ǫ = A(r)dt/dτ y ℓ = −r2 sen2 θ dϕ/dτ
son constantes de movimiento. Debido a una simetría adicional, el movimiento está confinado
a un plano, que puede ser elegido como el plano ecuatorial θ = π/2. Escriba ds2 en términos
de ǫ, ℓ, A(r), (dr/dτ )2 y dτ .
ν
dxµ
(b) Muestre que e ≡ gµν dx
dτ dτ es constante a lo largo de una geodésica.
(c) Un observador cae radialmente hacia un agujero negro de Schwarzschild con velocidad inicial
dr/dτ = u0 a una distancia R del centro del agujero negro. Exprese la constante ǫ en esa
trayectoria en términos de M , R y u0 .
(d) Calcule la 4–velocidad U µ del observador cayendo, como función de ǫ, R y M .
(e) ¿Cuál es el tiempo propio que le toma al observador alcanzar el horizonte en r = 2M ? (Por
simplicidad, considere ǫ = 1.)
3.8 Órbitas luminosas en un agujero negro de Schwarzschild.
El movimiento de fotones en las cercanías de un agujero negro estático puede determinarse a partir
del intervalo de Schwarzschild (3.71), imponiendo ds2 = dτ 2 = 0, y analizando las ecuaciones
de conservación, como hemos hecho en el texto, o las trayectorias geodésicas. Exploremos aquí la
segunda opción.
1. Muestre que la ecuación radial de la geodésica para una órbita circular en el espacio–tiempo
de Schwarzschild conduce a la dinámica angular dada por
2
dϕ rs
= ,
dt 2r3 sen2 θ
donde rs = 2M denota el llamado radio de Schwarzschild.

2. A partir de dτ = 0, muestre que se satisface

2
dϕ 1 rs
= 1− .
dt r2 2
sen θ r
Concluya que el radio de las órbitas circulares tienen radio 3rs /2.
3.9 Movimiento uniformemente acelerado, coordenadas de Rindler y agujeros negros.
Chana se sube a una nave espacial y parte de la Tierra desplazándose rectilíneamente con aceleración
propia α ∼ 10 m/s2 .
(a) Encuentre cuánto tiempo medirá un observador terrestre que le toma a la nave alcanzar la
velocidad 0.999c. ¿Cuánto tiempo mide Chana?
(b) ¿Cuánto tiempo tardará la nave en viajar 30,000 años luz para un observador terrestre y
para Chana? ¿Qué tanto envejecería Chana si viajara a la galaxia Andrómeda, a 2 millones
de años luz de la Tierra?
(c) Con base en las ecuaciones obtenidas para los tiempos y la posición de objetos acelerados, se
definen las coordenadas de Rindler en dimensión 1 + 1 como
1
t= ρ senh(αξ), x = ρ cosh(αξ), coordenadas de Rindler (3.252)
c
las cuales representan el sistema coordenado usado por un observador acelerado con acelera-
ción propia α.
Demuestre que el elemento de línea de las coordenadas de Rindler es
ds2 = α2 ρ2 dξ 2 − dρ2 . (3.253)
(d) Considere trayectorias puramente radiales en un espacio de Schwarzschild (con dθ2 = dϕ2 =
0). Demuestre que muy cerca del horizonte de sucesos de un agujero negro de Schwarzschild,
i.e. cuando r ≈ 2M , las coordenadas de Rindler son una buena aproximación a las coordena-
das de Schwarzschild. ¿Cuánto vale la aceleración propia en este caso? (Sugerencia: realice el
cambio de variable σ 2 /8M = r − 2M , de tal manera que cuando r → 2M , entonces σ → 0.
Quizá le sea útil la aproximación (Ax)2 /(1 + (Ax)2 ) ≈ (Ax)2 .)
3.10 Solución de De Sitter.
Considere las ecuaciones de Einstein en el vacío con constante cosmológica distinta de cero, tal que
1
R µν − Rgµν − Λgµν = 0.
2
(a) Encuentre el escalar de curvatura R en este caso.
(b) En unidades naturales, considere una métrica con simetría esférica, i.e. una métrica de la
forma
ds2 = a(r)dt2 − b(r)dr2 − r2 dθ2 − r2 sen2 θdφ2 .
Encuentre las cuatro componentes diferentes de cero del tensor de Einstein Gµν .
(c) Resuelva las ecuaciones de Einstein con constante cosmológica y muestre que
ds2 = (1 − Λr2 /3)dt2 − (1 − Λr2 /3)−1 dr2 − r2 dθ2 − r2 sen2 θdφ2 . (3.254)
A esta solución se le conoce como espacio–tiempo de De Sitter.

3.11 Dualidad ds4 /M5 .
La métrica (o espacio–tiempo) de De Sitter para dimensión d = 3 + 1, cuyo elemento de línea está
dado por la ecuación (3.254), representa un espacio–tiempo esféricamente simétrico que satisface
las ecuaciones de campo de Einstein en el vacío con constante cosmológica Λ y que tiene centro en
r = 0 (aquí denotaremos la coordenada temporal por T ).
Considere ahora una hipersuperficie 4–dimensional Σ descrita por la ecuación
x2 + y 2 + z 2 + u2 + v 2 = a2 , (3.255)
e inmersa en un espacio Euclídeo 5–dimensional con elemento de línea
ds2 = dx2 + dy 2 + dz 2 + du2 + dv 2 . (3.256)
(a) ¿Qué objeto geométrico es la hipersuperficie Σ?

(b) Aplique la rotación de Wick v → it seguida de la inversión métrica gµν → −gµν en el
elemento de línea (3.256). ¿Qué espacio representa este elemento de línea? Claramente, la
inversión métrica no afecta la superficie Σ. ¿Cuál es el efecto de la rotación de Wick en Σ?
(c) Considere ahora adicionalmente el cambio (parcial) de coordenadas (y, z, u) a coordenadas
esféricas (r, θ, φ), i.e. e.g. y = r sen θ cos φ, etc.. ¿Cómo cambia la ecuación de la hipersuper-
ficie (3.255) bajo este cambio de coordenadas? ¿Cuál es ahora el elemento de línea?
(d) Por último, sustituya a2 − r2 = X 2 , de tal manera que dX 2 = (a2 − r2 )−1 r2 dr2 , y aplique el
cambio de coordenadas x = X cosh(T /a) y t = X senh(T /a) (es sencillo verificar que, salvo
por un renombramiento de las constantes, estas son las coordenadas de Rindler, mencionadas
en el ejercicio 3.9. Verifique que el elemento de línea obtenido es el mismo que el presentado
en (3.254). ¿Cuál es el valor de la constante a en este caso? Sugerencia: calcule dt2 − dx2 en
términos de T , X, dT 2 y dX 2 .
3.12 Métrica de Friedmann–Robertson–Walker y ecuación de Friedmann.
El elemento de línea de Friedmann–Robertson–Walker (FRW) se emplea para describir modelos
cosmológicos simples (homogéneos e isotrópicos) y está dado por la ecuación (3.177), donde a(t)
que es una función que depende sólo del tiempo es el llamado factor de escala y tiene unidades de
longitud. k es una constante que determina si el universo es cerrado (k = +1), plano (k = 0) o
abierto (k = −1). Claramente, las coordenadas usadas son {x0 = t, x1 = r, x2 = θ, x3 = φ}.
Suponga que el contenido del universo está dado por el tensor de energía–momento (3.180),
donde la densidad de energía ρ y la presión P dependen sólo de t y satisfacen la ecuación de
estado (2.162).
(a) Utilizando la expresión genérica para el elemento de línea, ds2 = gµν dxµ dxν , halle a partir
de la métrica de FRW las componentes de la métrica.
(b) Determine los símbolos de Christoffel. Para simplificar la notación, a las derivadas de a con
respecto a t denótelas como ȧ.
(c) Muestre que las componentes no nulas del tensor de Ricci son R00 y Rij (donde i, j = 1, 2, 3)
y que éstas están dadas por

ä ä ȧ2 k
R00 = −3 , Rij = − + 2 2 + 2 2 gij ,
a a a a
donde ä denota la segunda derivada de a respecto a t.
(d) Utilizando las expresiones del inciso anterior y la métrica, muestre que el escalar de curvatura,
o escalar de Ricci, está dado por

ä ȧ2 k
R = −6 + 2+ 2 .
a a a
(e) Con los resultados anteriores halle las componentes no nulas del tensor de Einstein Gµν =
Rµν − 21 gµν R.
(f) Escriba explícitamente las ecuaciones de Einstein Gµν = 8πTµν .
(g) Una de las ecuaciones de Einstein que debió obtener en el inciso anterior es
ȧ2 k 8π
+ 2 = ρ.
a2 a 3
Muestre que en términos del parámetro de Hubble, definido como H ≡ ȧ/a y del cociente
Ω ≡ ρ/ρc , donde ρ es la densidad energética del contenido del universo y ρc ≡ 3H 2 /(8π) la
llamada densidad crítica del universo, la ecuación anterior se puede escribir como
k
= Ω − 1,
H 2 a2
que es conocida como la ecuación de Friedmann.
3.13 Fluido perfecto en el límite Newtoniano.
Como se vio en un problema anterior, la ecuación de la geodésica se puede considerar como una
generalización de la segunda ley de Newton. No obstante, podemos preguntarnos qué es lo que ocurre
en el sentido contrario, es decir, ¿qué ocurre con la ecuación geodésica en el límite Newtoniano?
(a) Para λ = τ , reescriba la ecuación de la geodésica en términos de la velocidad propia U y

utilice la regla de la cadena para obtener la forma covariante de la ecuación geodésica
(U µ ,λ + Γµ αλ U α )U λ = 0. (3.257)
(b) En el límite Newtoniano (con rapidez local u ≪ c y τ = t), obtenga la expresión para
dxα dxβ
Γµ αβ .
dτ dτ
(c) Utilice la aproximación de campo débil,
gµν = ηµν + εhµν ,
donde hµν es una pequeña desviación de la métrica independiente del tiempo y ε ≪ 1 para
mostrar que (3.257) se reduce a
(U µ ,t + U µ ,i v i ) + εη µσ (φ),σ = 0.
(d) Muestre en este límite para la componente espacial µ = i que la ecuación anterior implica la
ecuación de Euler para un fluido en presencia del potencial gravitacional φ.
∂t v + v · ∇v + ∇(εφ) = 0.
3.14 Propiedades de las ondas gravitacionales.

Existen muchas similitudes entre el electromagnetismo y la gravedad. En particular, las ecuaciones
que relacionan al campo con sus fuentes, son ecuaciones de Poisson; para el electromagnetismo se
tiene
Aν = 4πJ ν ,
donde J ν es la 4–corriente electromagnética. En el caso gravitacional se tiene, en el límite de campo
débil,
1
φµν = −16πT µν o ∂α ∂ α (hµν − η µν h) = −16πT µν .
2
Recuerde que la métrica es gµν = ηµν + hµν , con η la métrica de Minkowski y el campo φµν está
definido por
1 1
φµν ≡ hµν − η µν h → hµν = φµν − η µν φ,
2 2
donde φ y h representan las trazas de φ y h . El campo satisface la condición de norma ∂µ φµν = 0.
µν µν
Tanto las ecuaciones de Maxwell como las ecuaciones linealizadas de Einstein tienen soluciones
dadas como ondas propagándose a la velocidad de la luz. La solución de onda plana en el vacío es
φµν = Aµν cos kα xα ,
donde Aµν y kα son las componentes de un tensor y un vector constante, respectivamente, llamados
tensor de polarización y vector de onda.
(a) Muestre que la solución de onda plana es solución a φµν = 0 siempre y cuando
kα k α = 0 y Aµν kµ = 0. (3.258)
p
Esto quiere decir que k 0 = ω = k, donde k = k12 + k22 + k32 , lo que nos dice que la onda
gravitacional se propaga a la velocidad de la luz.
(b) Sin pérdida de generalidad, suponga que la onda se mueve en la dirección x3 , es decir (k α ) =
(ω, 0, 0, ω). Muestre que la condición (3.258) y el requisito de que hµν sea simétrico implica
que sólo existen 6 polarizaciones independientes.
(c) Dos de las polarizaciones independientes pueden ser
   
0 0 0 0 0 0 0 0
0 1 0 0  0
(Aµν 
+ ) = 0 0 −1 0 ,
 (Aµν 0
× ) = 0
0 1 .
1 0 0
0 0 0 0 0 0 0 0
Muestre que estas polarizaciones no tienen traza y son transversales a la dirección de propaga-
ción. La afirmación aquí es que estas dos polarizaciones son las únicas entre las polarizaciones
independientes que pueden transportar energía y momento.
Apéndice A
Ecuación de la geodésica utilizando

el principio de mínima acción
Consideremos la curva xµ (λ) en un espacio–tiempo arbitrario, con tiempo propio defi-

nido como
c2 dτ 2 = gµν dxµ dxν . (A.1)
La 4-velocidad a lo largo de la curva está dada por
dxµ
Uµ = , (A.2)
dτ
µ
y en una parametrización (afín) arbitraria, la tangente es T µ = dx
dλ . El tiempo propio a lo
largo de la curva está dado por
Z τ Z τr
p dxµ dxν
cτ = gµν dxµ dxν = gµν dλ. (A.3)
0 0 dλ dλ
Las curvas a lo largo de las cuales cτ o, equivalentemente, la longitud propia s = cτ , es
δτ
extremal pueden encontrarse fijando δτ = 0, es decir, calculando la derivada funcional δx α
y extremizándola.
Z τ
δτ 1 δ dxµ dxν
c α = q α
g µν dλ
δx 0 2 g dxµ dxν δx dλ dλ
µν dλ dλ
Z τ
1 δgµν dxµ dxν d δxµ dxν dxµ d δxν
= q + gµν + gµν dλ
0 2 g dxµ dxν δxα dλ dλ dλ δxα dλ dλ dλ δxα
µν dλ dλ
Z τ
1 δxβ dxµ dxν d δxµ dxν dxµ d δxν
= q gµν,β α + gµν + gµν dλ.
0 2 g dxµ dxν δx dλ dλ dλ δxα dλ dλ dλ δxα
µν dλ dλ
(A.4)
232 Ecuación de la geodésica utilizando el principio de mínima acción
Integrando por partes los últimos dos términos, bajo la suposición de que xµ y gµν se anulan
para λ muy grande (en las fronteras de λ), encontramos
 
Z τ µ ν β Z τ
δτ dλ dx dx δx d  1 ν
dx  δxµ
c α = q gµν,β − dλ q g µν
δx 0 2 g dxµ dxν dλ dλ δxα 0 dλ 2 g dxµ dxν dλ δxα
µν dλ dλ µν dλ dλ
 
Z τ
d  1 dxµ  δxν
− dλ q gµν .
0 dλ 2 g dxµ dxν dλ δxα
µν dλ dλ
(A.5)
q p
µ dxν
Escogemos ahora λ = τ =⇒ gµν dx
dλ dλ = gµν U µ U ν = c, lo que implica
Z
δτ 1 τ ′ µ ν δx
β d ν δx
µ d µ δx
ν
c α = dτ gµν,β U U − (gµν U ) α − ′ (gµν U ) α
δx 2c 0 δxα dτ ′ δx dτ δx
Z τ β
1 d d δx
= dτ ′ gµν,β U µ U ν − (gβν U ν ) − (gµβ U µ )
2c 0 dτ dτ δxα
Z
1 τ ′ µ ν µ ν dU ν ν µ dU µ δxβ
= dτ gµν,β U U − gβν,µ U U − gβν − gµβ,ν U U − gµβ
2c 0 dτ dτ δxα
!
= 0.
(A.6)
Para extremizar esta derivada, el integrando debe ser cero, lo cual ocurre para
1 1 dU ν 1 dU µ
(−gνµ,β + gβν,µ + gµβ,ν ) U µ U ν + gβν + gµβ =0
2 2 dτ 2 dτ
dU µ 1
⇐⇒ g αβ gβµ + (gµβ,ν + gβν,µ − gµβ,ν ) U µ U ν =0
dτ 2 (A.7)
dU α 1 αβ
⇐⇒ + g (gµβ,ν + gβν,µ − gµβ,ν ) U µ U ν =0
dτ 2
U µ U α ,µ + Γα µν U µ U ν =0.
La última ecuación coincide con la ecuación de la geodésica. Entonces, hemos obtenido que
la ecuación de la geodésica describe la trayectoria a lo largo de la cual el tiempo y longitud
propia son extremales.
Apéndice B
Rαβµν es tensor
Como se dijo anteriormente, Rα βµν son las componentes de un tensor y, por lo tanto,
deben transformarse apropiadamente bajo difeomorfismos, de acuerdo a
′
α′ ∂xα ∂xβ ∂xµ ∂xν α
R β ′ µ′ ν ′ = R βµν .
∂xα ∂xβ ′ ∂xµ′ ∂xν ′
Para demostrar que es así, empecemos por la propiedad de transformación de la conexión
afín, ecuación (2.241),
′ ′
µ′ ∂xµ ∂xα ∂xν µ ∂xα ∂xν ∂ 2 xµ
Γ α′ ν ′ = Γ αν − , (B.1)
∂xµ ∂xα ∂xν
′ ′
∂xα′ ∂xν ′ ∂xν ∂xα
lo que puede resolverse para la segunda derivada como
′ ′ ′ ′
∂ 2 xµ ∂xα ∂xν µ′ ∂xµ µ
= − Γ α ′ν′ + Γ αν , (B.2)
∂xν ∂xα ∂xα ∂xν ∂xµ
′ ′
∂xα ∂xν
donde hemos multiplicado por ∂xα y ∂xν en la izquierda y realizado las sumas de (B.1).
Ahora podemos obtener una derivada de (B.2) con respecto de xλ
′ ′ ′
∂ 3 xµ ∂ 2 xµ µ ∂xµ γ
= Γ αν + Γ αν,λ
∂xλ ∂xν ∂xα ∂xλ ∂xµ ∂xγ !
′ ′ ′ ′ ′ ′ ′
∂ 2 xα ∂xν ∂xα ∂ 2 xν µ′ ∂xα ∂xν ∂xλ µ′
− + Γ α′ ν ′ − Γ α′ ν ′ ,λ′ .
∂xλ ∂xα ∂xν ∂xα ∂xλ ∂xν ∂xα ∂xν ∂xλ
(B.3)
El último término se obtuvo usando la regla de la cadena porque Γ µ′ solamente depende

α′ ν ′
de las componentes primadas; por lo tanto,
′
∂ µ′ ∂xβ ∂ µ′
Γ α ′ν′ = Γ α′ ν ′ . (B.4)
∂xλ ∂λ ∂xβ ′
234 Rα βµν es tensor
La ecuación (B.3) puede reescribirse usando (B.2) como

′ ′ ′ ′
! ′
∂ 3 xµ ∂xµ β ∂xα ∂xν µ′ γ ∂xµ γ
= Γ λγ − Γ αν
′ ′ Γ αν + Γ αν,λ
∂xλ ∂xν ∂xα ∂xβ ∂xγ ∂xλ ∂xγ
′ ′ ′ ′ ′ ′ ′ ′ ′ ′
!
∂xα β ∂xν ∂xλ ∂xτ α′ ∂xν ∂xα ∂xν β ∂xα ∂xλ ∂xγ ν ′ ′
− Γ λα − Γ λ ′τ ′ + Γ λν − Γ λ′ γ ′ Γµ α′ ν ′
∂xβ ∂xν ∂xα ∂xλ ∂xν ∂xα ∂xβ ∂xα ∂xν ∂xλ
′ ′ ′
∂xα ∂xν ∂xλ µ′
− Γ α′ ν ′ ,λ′ .
∂xα ∂xν ∂xλ
(B.5)
Renombrando índices contraídos en (B.5) y factorizando términos similares, encontramos
′ ′ ′ ′ ′
∂ 3 xµ ∂xµ ρ γ ρ γ′ µ′ γ′ µ′
= (Γ λγ Γ αν + Γ αν,λ ) − Γ α ν ,λ
′ ′ ′ − Γ αλ
′ ′ Γ γν
′ ′ − Γ ν λ
′ ′ Γ αγ
′ ′
∂xλ ∂xν ∂xα ∂xρ ∂xα ∂xν ∂x !
λ
′ ′ ′ ′
∂xν γ ∂xν γ ∂xν γ ∂xα µ′
− Γ αν + Γ λα + Γ λν Γ α′ ν ′ .
∂xλ ∂xν ∂xα ∂xγ
(B.6)
Permutando los índices λ y α de (B.6), el lado izquierdo no cambia, pero el lado derecho
se ve ligeramente modificado a
∂xλ ∂xν ∂xα µ′
′ ′ ′ ′ ′
∂ 3 xµ ∂xµ ρ γ ρ γ′ µ′ γ′ µ′
= (Γ αγ Γ λν + Γ λν,α ) − Γ λ ′ ν ′ ,α′ − Γ λ′ α′ Γ γ ′ ν ′ − Γ ν ′ α′ Γ λ′ γ ′
∂xα ∂xν ∂xλ ∂xρ ∂xλ ∂xν ∂x !
α
′ ′ ′ ′
∂xν γ ∂xν γ ∂xν γ ∂xα µ′
− Γ λν + Γ αλ + Γ αν Γ α′ ν ′ .
∂xα ∂xν ∂xλ ∂xγ
(B.7)
Restando (B.6)−(B.7) obtenemos
′
∂xµ
0= (Γρ λγ Γγ αν + Γρ αν,λ − Γρ αγ Γγ λν − Γρ λν,α )
∂xρ
′ ′ ′
γ′ µ′ γ′ µ′ µ′ γ′ µ′ γ′ µ′
− α Γ α ν ,λ −Γ α λ Γ γ ν − Γ ν λ Γ α γ − Γ λ ν ,α +Γ α λ Γ γ ν + Γ ν α Γ λ γ ,
′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′
∂x ∂xν ∂xλ
(B.8)
donde los términos subrayados se cancelan. Notemos que los términos en (B.6) y (B.7) con
productos de Γ y Γ′ también se cancelan. Finalmente reescribiendo el último paréntesis y
multiplicando por los factores apropiados de la inversa de la matriz Jacobiana, obtenemos
′ ′ ′ µ′ ′ ′ µ′
Rµ ν ′ λ′ α′ = Γµ α′ ν ′ ,λ′ − Γγ ν ′ λ ′ Γ α′ γ ′ − Γµ λ′ ν ′ ,α′ + Γγ ν ′ α′ Γ λ ′ γ ′
′
∂xµ ∂xα ∂xν ∂xλ µ (B.9)
= R νλα ,
∂xµ ∂xα′ ∂xν ′ ∂xλ′
que es justo lo que se quería demostrar.
Apéndice C
Ecuaciones de Einstein y la acción

de Einstein-Hilbert
Las ecuaciones de campo de Einstein pueden obtenerse mediante el principio variacional,

como en el apéndice A, a partir de la llamada acción de Einstein-Hilbert, dada por
Z p Z p
1
S=− dx4 −|g| g αβ Rαβ + 2Λ − dx4 −|g|LM , (C.1)
2κ
con constante cosmológica Λ. Aquí Rαβ denota las componentes del tensor de Ricci (2.329)
y g αβ las componentes del tensor métrico inverso; κ = 8π en unidades naturales, |g| es
el determinante de la métrica, y LM es la densidad Lagrangiana que describe la materia
del sistema que depende, en general, de campos p que no aparecen en la primera integral.
Como explicamos en la sección 2.10, el término −|g| es requerido para que la integral sea
covariante relativista, donde el signo negativo surge del hecho de que, en el espacio–tiempo,
la métrica corresponde a un producto escalar que no es positivo-definido.
El principio variacional establece que las ecuaciones de movimiento pueden obtenerse
extremizando la acción, es decir, cuando se satisface
δS = 0 . (C.2)
Aplicando esta condición a la acción de Einstein-Hilbert (C.1) y considerando que la parte

relevante de la variación de la acción es la proporcional a la del campo gravitacional, δgµν ,
obtenemos
Z " p #
4
p 1 δ −|g| δg αβ αβ δRαβ µν
dx −|g|δgµν p (R + 2Λ) + Rαβ + g + κT = 0 , (C.3)
−|g| δgµν δgµν δgµν
donde hemos usado la definición del escalar de Ricci (2.330) y la de las componentes del
236 Ecuaciones de Einstein y la acción de Einstein-Hilbert
tensor de energía–momento, en términos de la densidad Lagrangiana,

p
µν 2 δ( −|g|LM )
T ≡p . (C.4)
−|g| δgµν
Empleando el resultado (2.223) para la derivada del determinante de la métrica, obte-

nemos que la variación en el primer sumando está dada por
p
δ −|g| 1 δ|g| |g|g µν 1 p
=− p =− p = g µν −|g| . (C.5)
δgµν 2 −|g| δgµν 2 −|g| 2
Por otra parte, variando la identidad (2.63), g αβ gβγ = δβα , encontramos que
δ(g αβ gβγ ) = δg αβ gβγ + g αβ δgβγ = 0 , (C.6)
lo que conduce a
δg αβ
δg αη = −g αβ δgβγ g γη =⇒ = −g αµ g νβ . (C.7)
δgµν
Sustituyendo nuestros resultados (C.5) y (C.7) en (C.3) y (C.4), podemos simplificar

la variación de la acción,
Z
4
p 1 µν µν αβ δRαβ µν
dx −|g|δgµν g (R + 2Λ) − R + g + κT = 0, (C.8)
2 δgµν
y la expresión del tensor de energía–momento,
δLM
T µν = 2 − g µν LM . (C.9)
δgµν
Por último, calculamos la variación del tensor de Ricci. Para lograrlo, lo expresamos en
términos de las componentes del tensor de Riemann, mediante Rαβ = Rγ αγβ , y empleamos
la expresión de las componentes del tensor de Riemann en términos de la conexión de
Christoffel (2.309). De esta forma, encontramos que
γ
δRαβ δΓ αβ δΓγ ηβ η δΓη αγ
= − Γ αγ − Γγ ηβ
δgµν δgµν ,γ δgµν δgµν
γ (C.10)
δΓ αγ γ
δΓ ηγ η γ δΓη αβ
− + Γ αβ + Γ ηγ .
δgµν ,β δgµν δgµν
237
Por otro lado, las derivadas covariantes de las variaciones δΓγ αβ y δΓγ αγ se pueden escribir
mediante (2.213) como
δΓγ αβ ;γ = δΓγ αβ ,γ + Γγ ηγ δΓη αβ − Γη αγ δΓγ ηβ − Γη γβ δΓγ αη ,

(C.11)
δΓγ αγ ;β = δΓγ αγ ,β + Γγ ηβ δΓη αγ − Γη αβ δΓγ ηγ − Γη γβ δΓγ αη .
Recordando que la métrica conmuta con la derivada covariante, entonces

γ
αβ γ αβ γ αβ δΓ αβ
g δΓ αβ ;γ = Dγ g δΓ αβ = Dγ g δgµν . (C.12)
δgµν
Esta información aplicada a ambas variaciones en (C.11) y combinada con la variación del
tensor de Ricci (C.10), conduce a
δRαβ
g αβ δgµν = Dγ g αβ δΓγ αβ − Dβ g αβ δΓγ αγ = Dγ g αβ δΓγ αβ − g αγ δΓβ αβ . (C.13)
δgµν
Esta expresión implica que el tercer término de (C.8) se anula,

Z p δRαβ
dx4 −|g|δgµν g αβ = 0, (C.14)
δgµν
porque se trata de una derivada total y, como tal, de un término de superficie que se anula
si consideramos la frontera del espacio–tiempo al infinito.
Finalmente, notamos que para que la variación de la acción (C.8) sea cero para cualquier
δgµν , es preciso que se satisfaga
1
Rµν − g µν (R + 2Λ) = κT µν , ecuaciones de campo de Einstein (C.15)
2
con T µν dado por (C.9), que coincide justamente con las ecuaciones de campo de Einstein.
238 Ecuaciones de Einstein y la acción de Einstein-Hilbert
Índice alfabético
1–forma, 73 Christoffel, símbolos de, 106

componentes de, 73 como función de la métrica, 110
gradiente, 75 simetría, 110
4–fuerza, 24 CMB, 209, 211, 212, 214
inercial, 124 conexión, 119
4–momento, 24 conexión de Levi-Civita, 119
4–vector de onda, 26 configuración estándar, 5
4–vectores, 23 conservación de energía–momento, 101, 115
4–velocidad, 23 constante de Hubble, 205
continuidad, ecuación de, 57, 92
aberración de Bradley, 53 en cosmología, 202
acción de Einstein-Hilbert, 235 contracción de índices, 72, 88
aceleración propia, 24 contracción de Lorentz, 36
adición relativista de velocidades, 23, 24 contracción de Lorentz-FitzGerald, 4
afín coordenada cíclica, 138, 171
parámetro, 124 coordenadas de Kruskal–Szekeres, 178
transformación, 124 coordenadas de Rindler, 227
agujero blanco, 181 corrimiento al rojo, 51
agujero de gusano, 181 cosmológico, 204
agujero negro gravitacional, 156, 157, 169
de Kerr, 183 cosmología, 198
de Schwarzschild, 176 covariante
derivada de un vector, 107
Bianchi, identidad de, 93, 96 divergencia de un vector, 107
geométrica, 135 ecuación, 115
big bang, 198 Laplaciano de un vector, 108
Birkhoff, teorema de, 168 notación, 55, 90, 115
Bradley, aberración de, 53 cuerpo negro, radiación de, 212
curva geodésica, 117, 123
campo escalar, 75
causalidad, 16, 36 De Sitter, espacio–tiempo de, 228
centro de inercia, 47 deflexión gravitacional de la luz, 185
Chandrasekhar, límite de, 182 delta de Kronecker, 71
240 ÍNDICE ALFABÉTICO
densidad crítica, 200 energía oscura, 202

densidad de carga, 60 energía–momento
densidad de curvatura, 209 conservación de, 62, 101, 115
densidad de masa, 99 tensor de, 99, 236
densidad tensorial, 143 tensor electromagnético de, 101
derivada covariante época de materia, 213
de vectores, 107 época de radiación, 213
desaceleración, parámetro de, 207 ergośfera, 183
diagrama de Kruskal, 179 escalar de Lorentz, 27
difeomorfismo, 70 escalar de Ricci, 135
dilatación temporal, 20 espacio Euclídeo, 102
diagrama de espacio–tiempo, 31 espacio tangente, 118
Doppler, efecto espacio–tiempo de De Sitter, 228
longitudinal, 50 espacio-tiempo, 16
transversal, 51 diagramas Galileanos, 7
dual de Hodge, 96, 144, 146 estrella de neutrones, 182
éter, 2
ecuación de continuidad, 57, 92 Euler-Lagrange, ecuaciones de, 151
en cosmología, 202 experimento de Michelson-Morley, 2
ecuación de estado de fluido perfecto, 100
ecuación de Friedmann, 200, 229 factor de escala, 199
ecuación de Killing, 138 factor de Lorentz, 3, 14
ecuación de Klein–Gordon, 54 Faraday, tensor de, 91
ecuación de Poisson, 160 Feynman–Stückelberg, interpretación de, 59,
ecuación de Saha, 214 61
ecuación de Schrödinger, 54 fluido perfecto, 97, 148
ecuaciones de campo de Einstein, 136, 162, ecuación de estado, 100
237 Friedmann, ecuación de, 200, 229
ecuaciones de Einstein–Maxwell, 182 Friedmann–Robertson–Walker, espacio–tiempo
ecuaciones de Euler-Lagrange, 151 de, 199, 228
edad del universo, 208, 211 función de masa, 165, 167
efecto Doppler
longitudinal, 50 Galileo
transversal, 51 grupo de, 6
Einstein principio de relatividad, 1, 4
ecuaciones de campo de, 237 geodésica, 117, 123
Einstein, ecuaciones de campo de, 136, 162 ecuación, 123, 170
Einstein–Maxwell, ecuaciones de, 182 gradiente, 75
Einstein–Rosen, puentes de, 181 gran explosión, 198
Einstein-Hilbert, acción de, 235 gravedad linealizada, 192
enana blanca, 182 grupo de Galileo, 6
ÍNDICE ALFABÉTICO 241
grupo de holonomía, 127 Levi-Civita, símbolo de, 45, 142

grupo de Poincaré, 45, 142 ley de Hubble, 205
ley de Planck, 212
Hilbert, norma de, 193 límite de Chandrasekhar, 182
Hodge, dual de, 96, 144, 146 límite Newtoniano, 158
holonomía, grupo de, 127 intervalo, 161
horizonte Lorentz
cosmológico, 216 boosts de, 14
de eventos (agujeros negros), 175, 178 cantidades conservadas del grupo de, 45,
horizonte de Hubble, 219 140
Hubble contracción de, 4, 36
constante de, 205 derivación de boosts de, 11–13
horizonte de, 219 escalar de, 27
ley de, 205 factor de, 3, 14
parámetro de, 200 grupo de, 42
radio de, 219 invariante de, 27
norma de, 95
identidad de Bianchi, 93, 96
rotaciones hiperbólicas de, 40
geométrica, 135
índice mudo, 72 marco de referencia, 4
inflación cosmológica, 205, 219 masa gravitacional, 153
integral covariante, 144 masa inercial, 153
intervalo, 18, 43, 78 materia bariónica, 207
invariancia, 20 materia oscura, 207
tipos, 19 métrica, 43, 76, 82
intervalo de Schwarzschild, 168 de Kerr, 183
isometría, 136 de Minkowski, 43
de Schwarzschild, 168
Kerr, métrica de, 183
inverso de la, 80
Killing
transformación de, 82
ecuación de, 138
métrica de Kerr, 183
vector de, 138
métrica de Schwarzschild, 168
Killing, vector de
Michelson-Morley, experimento de, 2
en espacio–tiempo plano, 139
Minkowski
Klein–Gordon, ecuación, 54
espacio–tiempo, 43, 71
límite no relativista, 56
métrica, 76
notación covariante, 55
métrica, 43
Kronecker, delta de, 71
momento propio, 26
Kruskal
multiverso, 181
coordenadas de, 178
muón, 21
diagrama de, 179
Kruskal–Szekeres, coordenadas de, 178 Noether, teorema de, 45
242 ÍNDICE ALFABÉTICO
norma, 95 radio de Schwarzschild, 168, 174, 176

transformación de, 95 rango, 84
norma de Hilbert, 193 recombinación, 214
notación covariante, 55, 90 Ricci
escalar de, 135
O(3,1), grupo de Lorentz, 44 tensor de, 135
ondas gravitacionales, 184, 192, 230 Riemann, tensor de, 132
operador estrella, 144, 146 Riemanniana, variedad, 118
paralelismo, postulado de, 117 Rindler, coordenadas de, 227
parámetro afín, 124 rotación de Wigner, 43
parámetro de densidad, 201
símbolo de Levi-Civita, 45
parámetro de desaceleración, 207
símbolos de Christoffel, 106
parámetro de Hubble, 200
Saha, ecuación de, 214
parámetro hiperbólico, 42
Schrödinger, ecuación diferencial de, 54
partícula virtual, 59
perihelio, 188 Schwarzschild
Planck, tiempo de, 221 agujeros negros de, 176
planitud, problema de, 205 intervalo de, 168
Poincaré, grupo de, 45, 142 métrica de, 168
Poisson, ecuación de, 160 radio de, 168, 174, 176
postulado de paralelismo, 117 simetría, 45
postulados de norma, 95
relatividad especial, 10 simultaneidad, 31
Poynting, vector de, 101 singularidades, 175
precesión de perihelia, 188 SO(3,1), grupo de Lorentz, 45
principio cosmológico, 198
tensor, 84
principio de covariancia, 115
componentes, 84
principio de equivalencia, 153
componentes antisimétricas, 87
principio de relatividad, 1, 4
principio variacional, 235 componentes simétricas, 86
problema de planitud, 205, 211, 219 rango, 84
problema del horizonte, 218, 219 tensor de Einstein, 136
producto escalar, 27, 76 tensor de energía–momento, 99, 236
producto tensorial, 82 tensor de Faraday, 91
pseudotensor, 143 tensor de Ricci, 135
puentes de Einstein–Rosen, 181 tensor de Riemann, 132
componentes independientes, 134
radiación cósmica de fondo, 209, 211, 212, definición covariante, 132
214 relaciones de simetría, 133
radiación de cuerpo negro, 212 tensor de torsión, 150
radio de Hubble, 219 tensor métrico, 82
ÍNDICE ALFABÉTICO 243
tensor métrico, 43, 76

inverso, 80
teorema de Birkhoff, 168
teorema de Noether, 45
tiempo conforme, 216
tiempo de Planck, 221
tiempo propio, 11, 21, 124
torsión, 110, 150
transformación afín, 124
transformaciones de Galileo, 5, 6
transformaciones de Lorentz
boosts, 14
derivación, 11–14, 40, 42
rotaciones hiperbólicas, 41
transporte paralelo, 125
última dispersión, 214

unidades naturales, 163
variedad, 118
pseudo-Riemanniana, 121
Riemanniana, 118
vector de Killing, 138
en espacio–tiempo plano, 139
vector de Poynting, 101
vectores, 69
invariancia, 71
propiedades de, 69
vectores duales, 74
velocidad de recesión, 203
velocidad propia, 23
virtual, partícula, 59

Relatividad para Futuros Fisicos

Cargado por

Copyright:

Formatos disponibles

Relatividad para Futuros Fisicos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Relatividad para Futuros Fisicos

Cargado por

Copyright:

Formatos disponibles

Relatividad

para futuros físicos

Todos los derechos reservados ©2018

Relatividad para futuros físicos

Con el apoyo de DGAPA-UNAM a través del proyecto PAPIIT-IN-100217, del proyecto

ISBN: 978-1-938128-18-9 ebook

Este libro ha pasado por revisión de pares

Algunos datos y convenciones xi

1. Fundamentos de la relatividad especial 1

1.9.2. Boosts de Lorentz como rotaciones hiperbólicas . . . . . . . . . . . . 40

2.4.6. Los símbolos de Christoﬀel no son tensores . . . . . . . . . . . . . . 113

3. Relatividad general y sus aplicaciones básicas 153

3.5.2. Corrimiento al rojo cosmológico y ley de Hubble . . . . . . . . . . . 203

A. Ecuación de la geodésica utilizando el principio de mínima acción 231

B. Rα βµν es tensor 233

C. Ecuaciones de Einstein y la acción de Einstein-Hilbert 235

En repetidas ocasiones se ha dicho que el mundo vive actualmente en la Edad de la

Octavio Miramontes Vidal

Palabras del autor

La estructura de este trabajo también es diferente a la de los libros habituales. En lu-

El desarrollo de este texto se ha visto inﬂuenciado por muchos trabajos previos. La

S. Weinberg, Gravitation and cosmology. John Wiley, 1972.

S. Carroll, Lecture Notes on General Relativity. arXiv:gr-qc/9712019, 1997.

Relatividad Especial y General

W. Rindler, Relativity. Oxford Univ. Press, 2001.

S. Hacyan, Relatividad para estudiantes de física. FCE México, 2013.

S. Weinberg, Cosmology. Oxford Univ. Press, 2008.

S. Hacyan, Relatividad para principiantes. FCE, México, 2009.

R.P. Feynman, Six not-so-easy pieces. Basic Books, 2011.

B. Greene, The fabric of the cosmos. Vintage Books, 2004.

S. Weinberg, The first three minutes. Basic Books, 1988.

S. Hawking, A brief history of time. Bantam Books, 1998.

Se utilizarán las siguientes convenciones y deﬁniciones:

La constante de gravitación universal de Newton: GN ≈ 6.674 × 10−11 N · m2 /kg2 .

La constante de Boltzmann: kB ≈ 1.38 × 10−23 J/K ≈ 8.617 × 10−5 eV/K.

La constante de Planck: h ≈ 6.626 × 10−34 J·s ≈ 4.136 × 10−15 eV·s.

Cuando resulte conveniente, se utilizarán las llamadas unidades naturales, deﬁnidas

Las coordenadas espacio–temporales se denotan por el arreglo vertical de 4 compo-

Otra notación útil para las coordenadas espacio–temporales es (xµ ) = (x0 , x1 , x2 , x3 )T .

Los índices griegos µ, ν, ρ, . . . son llamados índices espacio–temporales con valores

El espacio dual al espacio de vectores se denomina espacio de 1–formas y sus elemen-

Se utilizará la llamada convención de sumas de Einstein, de acuerdo a la cual, cuando

En el caso de índices espaciales (latinos) repetidos, la convención de sumas aplicará

Los vectores espaciales se denotan con letras negritas, e.g. v = (v 1 , v 2 , v 3 )T . Su mag-

Debido a la convención elegida en la signatura de la métrica, el intervalo diferencial

ds2 = (dx0 )2 − dxi dxi .

El tiempo propio de un sistema (inercial o no) se denota como τ y satisface instan-

La derivada covariante se denota como D (en lugar de ∇, para evitar confusiones).

Los símbolos de Christoﬀel (de segundo tipo) se denotan como Γα µν .

El tensor de Ricci se deﬁne en términos de las componentes del tensor de Riemann

El escalar de Ricci se deﬁne como R ≡ Rµ µ .

En la métrica de Friedmann-Robertson-Walker (ver sección 3.5.1), el llamado factor

La conversión entre energía E en GeV y temperatura T en K se establece mediante

Es imposible no vincular la teoría de la relatividad con Albert Einstein, su creador, quizá

1. el tiempo es absoluto, o sea, es el mismo para todo observador inercial; y

2. las interacciones ocurren instantáneamente, incluso si son a distancia.

Posteriormente, estos problemas llevaron al principio fundamental en la formulación de

1.2. El experimento de Michelson–Morley

L L 2cL 2Lγ 2 2L 2Lγ