Resultados de Nuestro Análisis
Utilizando el código en el archivo scrape.py
, analizamos diversas fuentes electrónicas de noticias de México (por ejemplo, El Universal), Argentina (por ejemplo, La Nación) y España (por ejemplo, El País). Este código realiza las siguientes tareas:
- Visita la página principal del sitio de cada periódico.
- Explora las páginas de todos los enlaces que aparecen en esta página principal.
- Accede a todas las páginas vinculadas desde los enlaces anteriores.
El objetivo es contar la cantidad de anglicismos utilizados y calcular la proporción de anglicismos en relación al total de palabras en las fuentes de cada país. Los resultados obtenidos son los siguientes:
-
México:
- web: 40
- digital: 10
- internet: 7
- app: 6
- blog: 2
- ecommerce: 2
- link: 2
- malware: 1
- phishing: 1
- software: 1
- online: 1
- login: 1
-
Argentina:
- email: 89
- web: 87
- app: 21
- digital: 18
- software: 14
- streaming: 12
- internet: 11
- analytics: 8
- online: 5
- data: 4
- hashtag: 3
- cloud: 3
- blog: 3
- hardware: 2
- offline: 2
- cyber: 1
-
España:
- web: 159
- online: 45
- digital: 40
- internet: 22
- email: 10
- data: 8
- server: 5
- software: 4
- app: 4
- streaming: 4
- blog: 4
- bot: 4
- smartphone: 2
- network: 2
- offline: 2
- link: 1
- hashtag: 1
- platform: 1
- cyber: 1
- hardware: 1
Prueba Chi-Cuadrado para Proporciones de Anglicismos
Suposiciones
- Los datos son independientes entre los tres grupos (México, Argentina y España).
- El tamaño muestral es suficientemente grande para garantizar que los valores esperados en cada celda de la tabla de contingencia sean al menos 5.
Datos Observados
Los datos observados corresponden al número de anglicismos y palabras totales en la prensa de cada país:
País |
Anglicismos (Frecuencia) |
Total de Palabras |
México |
74 |
58788 |
Argentina |
283 |
127932 |
España |
320 |
362149 |
Proporciones Observadas
Las proporciones de anglicismos son las siguientes:
- México: \( p_1 = \frac{74}{58788} \approx 0.00126 \)
- Argentina: \( p_2 = \frac{283}{127932} \approx 0.00221 \)
- España: \( p_3 = \frac{320}{362149} \approx 0.00088 \)
Hipótesis
- Hipótesis Nula (\( H_0 \)): Las proporciones de anglicismos son iguales en los tres países.
- Hipótesis Alternativa (\( H_A \)): Al menos un país tiene una proporción diferente.
Cálculo del Valor Esperado
El número esperado de anglicismos en cada país se calcula como:
\[
E_{ij} = \frac{(\text{Total de Anglicismos}) \times (\text{Palabras Totales en el País})}{\text{Palabras Totales}}
\]
Cálculo de valores esperados:
- Total de anglicismos: \( 74 + 283 + 320 = 677 \)
- Total de palabras: \( 58788 + 127932 + 362149 = 548869 \)
País |
Palabras Totales |
Valor Esperado |
México |
58788 |
\( E_1 = \frac{677 \times 58788}{548869} \approx 72.58 \) |
Argentina |
127932 |
\( E_2 = \frac{677 \times 127932}{548869} \approx 157.84 \) |
España |
362149 |
\( E_3 = \frac{677 \times 362149}{548869} \approx 446.58 \) |
Cálculo del Estadístico Chi-Cuadrado
\[
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}
\]
Donde:
- \( O_i \): Observado
- \( E_i \): Esperado
Resultado:
\[
\chi^2 \approx \frac{(74 - 72.58)^2}{72.58} + \frac{(283 - 157.84)^2}{157.84} + \frac{(320 - 446.58)^2}{446.58} \approx 122.71
\]
Grados de Libertad
\( df = k - 1 = 3 - 1 = 2 \)
Valor Crítico
Para \( \alpha = 0.05 \) y \( df = 2 \), el valor crítico es \( \chi^2_{0.05, 2} = 5.99 \).
Conclusión
Dado que \( \chi^2 = 122.71 \) es mayor que el valor crítico (\( 5.99 \)), rechazamos la hipótesis nula. Esto indica que las proporciones de anglicismos difieren significativamente entre los tres países.
Prueba de Hipótesis Z-Test
1. Argentina vs México
Queremos verificar si la proporción de anglicismos en Argentina es mayor que la de México:
- Hipótesis Nula (\( H_0 \)): \( p_2 \leq p_1 \)
- Hipótesis Alternativa (\( H_A \)): \( p_2 > p_1 \)
El estadístico de prueba para comparar proporciones es:
\[
Z = \frac{(p_2 - p_1)}{\sqrt{\hat{p}(1 - \hat{p}) \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}
\]
Donde:
- \( \hat{p} = \frac{x_1 + x_2}{n_1 + n_2} = \frac{74 + 283}{58788 + 127932} \approx 0.00194 \)
- \( Z = \frac{(0.00221 - 0.00126)}{\sqrt{0.00194(1 - 0.00194) \left(\frac{1}{58788} + \frac{1}{127932}\right)}} \)
Calculamos que:
\[
Z \approx 4.14
\]
Con un nivel de significancia \( \alpha = 0.05 \), el valor crítico es \( Z_{0.05} = 1.645 \). Dado que \( Z > 1.645 \), rechazamos \( H_0 \). Esto indica que la proporción de anglicismos en Argentina es significativamente mayor que en México.
2. México vs España
Queremos verificar si la proporción de anglicismos en México es mayor que la de España:
- Hipótesis Nula (\( H_0 \)): \( p_1 \leq p_3 \)
- Hipótesis Alternativa (\( H_A \)): \( p_1 > p_3 \)
El estadístico de prueba es el mismo que en el caso anterior:
\[
Z = \frac{(p_1 - p_3)}{\sqrt{\hat{p}(1 - \hat{p}) \left(\frac{1}{n_1} + \frac{1}{n_3}\right)}}
\]
Donde:
- \( \hat{p} = \frac{x_1 + x_3}{n_1 + n_3} = \frac{74 + 320}{58788 + 362149} \approx 0.00096 \)
- \( Z = \frac{(0.00126 - 0.00088)}{\sqrt{0.00096(1 - 0.00096) \left(\frac{1}{58788} + \frac{1}{362149}\right)}} \)
Calculamos que:
\[
Z \approx 2.49
\]
Con un nivel de significancia \( \alpha = 0.05 \), el valor crítico es \( Z_{0.05} = 1.645 \). Dado que \( Z > 1.645 \), rechazamos \( H_0 \). Esto indica que la proporción de anglicismos en México es significativamente mayor que en España.