Technologia CUDA w języku Python

Tensorflow
1. Mnożenie dwóch dużych macierzy (4096x4096) i pomiar czasu na GPU. Zbadać różnicę wydajności względem CPU.
2. Implementacja iloczynu skalarnego dwóch wektorów.
3. Wyznaczenie normy Frobeniusa dużej macierzy (np. 10000x10000).
4. Symulacja 1000 mnożeń macierzy i agregacja wyników w jedną macierz sumaryczną.
PyTorch
1. Implementacja warunkowego mnożenia macierzy – tylko tam, gdzie suma elementów w wierszu > próg.
2. Porównanie GPU vs CPU dla operacji: A^T * A, gdzie A to duża macierz pseudolosowa.
JAX
1. Wektoryzacja operacji podnoszenia do potęgi i sumowania dla wektora zawierającego milion liczb.
2. Porównanie efektywności funkcji jax.vmap z pętlą for dla sumowania wektorów.
Numba
1. Implementacja funkcji CUDA do równoległego mnożenia wektorów i porównanie jej z biblioteką NumPy.