# Procesar Datos de Tablas y Matrices

In [34]:
# Procesar Datos de Tablas/Matrices
# Que son las librerias y para que se usan
# Seleccionar valores específicos de una matriz
# Leer archivos netcdf
# Realizar operaciones matemáticas/estadísticas en matrices/tablas

In [73]:
import numpy as np # numerical python
import netCDF4 as nc

#  Numpy arrays

In [36]:
# Ver presentación

In [37]:
spy = np.array([1, 4, 5.0, 6])

In [75]:
type(spy) # variable es un numpy arrray pero no dice que hay dentro de spy

numpy.ndarray

In [39]:
# Podemos utilizar el punto spy.dtype ya que dtype es una función de numpy

In [76]:
print(spy.dtype) # Tipo de datos dentro del array spy

float64


In [79]:
print(spy.shape) # tamaño de variable spy
print(np.shape(spy))
print(spy[3])
print(spy[-1])

(4,)
(4,)
6.0
6.0


In [80]:
print('primer valor en los datos:', spy[0]) # 0 es el indice 1 en Python


primer valor en los datos: 1.0


# Slicing data

Podemos seleccionar un indíce o una sección del vector

In [83]:
print(spy)

[1. 4. 5. 6.]


In [81]:
print(spy[2:]) # empieza en el índice 2 hasta el final
print(spy[1:3]) # empieza en el índice 1 pero no incluye el 3

[5. 6.]
[4. 5.]


In [44]:
# No tenemos que incluir el límite inferior ni superior
print(spy[:2]) # significa desde el índice 0 hasta el 4

[1. 4.]


In [84]:
print(np.mean(spy)) # numpy tiene funciones que realizan operaciones en el vector

4.0


In [87]:
print(spy.mean())
print(spy.std())

4.0
1.8708286933869707


# Reading netCDF

In [46]:
# Ahora utilizemos datos atmósfericos para algo más complicado

In [47]:
fileobj = nc.Dataset('shared/ERA5/ERA5_Coarse.nc') # Lee el archivo netcdf nc la extension

In [67]:
# netCDF network Common Data Form formato que guarda datos MULTIDIMENSIONALES

In [88]:
print(fileobj)

<class 'netCDF4._netCDF4.Dataset'>
root group (NETCDF4 data model, file format HDF5):
    dimensions(sizes): time(756), latitude(180), longitude(360)
    variables(dimensions): int16 u10(time, latitude, longitude), int16 v10(time, latitude, longitude), int16 sst(time, latitude, longitude), int16 sp(time, latitude, longitude), int16 t2m(time, latitude, longitude), int16 tp(time, latitude, longitude), float32 t2m_F(time, latitude, longitude), float32 longitude(longitude), float32 latitude(latitude), int32 time(time)
    groups: 


In [91]:
print(fileobj.variables.keys())

dict_keys(['u10', 'v10', 'sst', 'sp', 't2m', 'tp', 't2m_F', 'longitude', 'latitude', 'time'])


In [49]:
print(fileobj.variables.keys()) # siempre revisar que variables hay en el archivo

dict_keys(['u10', 'v10', 'sst', 'sp', 't2m', 'tp', 't2m_F', 'longitude', 'latitude', 'time'])


In [92]:
# Guarda en la memoria virtual estas variables
lon = fileobj['longitude']
lat = fileobj['latitude']
time = fileobj['time']

In [93]:
print(lon)

<class 'netCDF4._netCDF4.Variable'>
float32 longitude(longitude)
    _FillValue: nan
    units: degrees_east
    long_name: longitude
unlimited dimensions: 
current shape = (360,)
filling on


In [51]:
print(lat) # nos da una explicación sobre la variable

<class 'netCDF4._netCDF4.Variable'>
float32 latitude(latitude)
    _FillValue: nan
    units: degrees_north
    long_name: latitude
unlimited dimensions: 
current shape = (180,)
filling on


In [94]:
sst = fileobj['sst'] 

In [95]:
print(sst) # cuantas dimensiones tiene esta variable

<class 'netCDF4._netCDF4.Variable'>
int16 sst(time, latitude, longitude)
    _FillValue: -32767
    units: K
    long_name: Sea surface temperature
    add_offset: 289.4649014722902
    scale_factor: 0.0006169772945977599
    missing_value: -32767
unlimited dimensions: 
current shape = (756, 180, 360)
filling on


In [97]:
sst = fileobj['sst'][:] # que son los dos puntitos

In [99]:
print(np.shape(sst))

(756, 180, 360)


In [55]:
print(sst.shape) # cuantas dimensiones tiene esta variable

(756, 180, 360)


Numpy tiene funciones útiles para analizar datos!

In [100]:
print(sst.std())
print(np.std(sst))

11.668331290394544
11.668331290394544


In [61]:
print(sst.mean()) # Si quieres el promedio de todos los datos

286.63940498273524


In [101]:
sst_C = sst - 273.15

In [63]:
print(sst_C.mean())

13.489404982734603


In [102]:
maxval, minval, stdval = np.max(sst_C), np.min(sst_C), np.std(sst_C)


In [103]:
print('Max SST:', maxval)
print('Min SST:', minval)
print('Desviación Standard:', stdval)

Max SST: 36.185889199400265
Min SST: -3.7553699209748856
Desviación Standard: 11.668331290394526


Como saber que funciones tiene numpy. Escribir np y después tab. Intentálo!

Cuando analizamos datos oceanográficos generalmente queremos saber el promedio sobre un area o tiempo específico

In [68]:
# Ir a la presentación

In [104]:
print(np.mean(sst_C, axis=0))

[[-1.690020472943193 -1.690020472943193 -1.690020472943193 ...
  -1.690020472943193 -1.690020472943193 -1.690020472943193]
 [-1.6900188407281278 -1.6900196568356602 -1.6900196568356602 ...
  -1.6900172085130627 -1.6900180246205951 -1.6900188407281278]
 [-1.6900188407281278 -1.6900188407281278 -1.6900188407281278 ...
  -1.69001639240553 -1.6900180246205951 -1.6900188407281278]
 ...
 [-- -- -- ... -- -- --]
 [-- -- -- ... -- -- --]
 [-- -- -- ... -- -- --]]


In [57]:
# El promedio de la temperatura en cada lat y lon de todo el tiempo
print(np.mean(sst_C, axis=0).shape)  # axis =0 es sobre dimensión 0 (tiempo)

(180, 360)


In [58]:
# El promedio de la temperatura sobre todos los renglones (latitud)
print(np.mean(sst_C, axis=1).shape) # axis = 1 es sobre dimensión renglones (rows latitud)

(756, 360)


In [108]:
np.mean(sst_C, axis=0).mean(axis=1)

masked_array(data=[-1.6900181379688635, -1.690006760069681,
                   -1.6899877243614847, -1.6899144991131279,
                   -1.6899064513860709, -1.6896772067801817,
                   -1.6884178440431403, -1.6823770204799693,
                   -1.6489731771821603, -1.5816772256881508,
                   -1.4771803220097532, -1.3479930015591848,
                   -1.182235642307473, -0.9939801886754818,
                   -0.7373676366667153, -0.5040172492606008,
                   -0.26965351854671754, 0.09446895101639383,
                   0.4336198428509824, 0.8837989185510522,
                   1.0174925322963926, 1.1327164454932175,
                   1.6139704045547965, 2.1984112278902455,
                   2.718583477733101, 3.1846600108358323,
                   3.919262133697807, 3.9705070618289255,
                   4.317240345330061, 4.673977128405407,
                   5.0296964536867925, 5.5145073541889404,
                   5.818161982028872, 6.122

y que es axis=2?

In [70]:
a = np.array([[1, 2], [3, 4]], float) # crear una matriz de dos dimensiones tipo float
b = np.array([[5, 6], [7,8]], float)

print('Matrix A')
print(a)
print('Matrix B')
print(b)

Matrix A
[[1. 2.]
 [3. 4.]]
Matrix B
[[5. 6.]
 [7. 8.]]


In [71]:
np.concatenate((a,b)) # unir las dos matrices

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [72]:
np.concatenate((a,b), axis=1) # unir las dos matrices


array([[1., 2., 5., 6.],
       [3., 4., 7., 8.]])

In [109]:
import xarray as xr # Libreria para procesar datos de gran tamaño