SQL: Import danych - BULK INSERT

BULK INSERT:

● Opcja BULK INSERT umożliwia importowanie danych z heterogenicznych źródeł. W tym temacie zajmiemy się formatem plików płaskich, do których należą pliki tekstowe, czyli np. „.txt” czy „.csv”.
● Należy zachować szczególną ostrożność podczas importowania danych do tabeli, w której istnieją już inne dane, ponieważ może dojść do błędnej konwersji dotyczącej zazwyczaj danych liczbowych i ich zaokrąglania czy traktowania kropek i przecinków. Mało tego, że zaimportujemy błędne wartości, to istniejące skrypty działając na błędnie zaimportowanych danych będą generowały dalsze błędne wyliczenia.
● Za pomocą tej opcji można importować pliki z maksymalną liczbą pól wynoszącą 1024.

Argumenty opcji: BULK INSERT
BATCHSIZE = BATCH_SIZE	Określenie liczby wierszy partii. Partia to ilość danych objętych transakcją. Wystąpienie błędu importu powoduje wycofanie transakcji.
CHECK_CONSTRAINTS	Oznacza konieczność sprawdzania ograniczeń CHECK oraz FOREIGN KEY podczas importu danych. Bez użycia tej opcji ograniczenia te są ignorowane a następnie oznaczane jako niezaufane. Natomiast ograniczenia UNIQUE oraz PRIMARY KEY zawsze są sprawdzane. Jeżeli kolumna znakowa ma ograniczenie NOT NULL, a plik nie będzie zawierał danych to zostanie wstawiony pusty łańcuch.
CODEPAGE	Określenie strony kodowej danych w pliku: ACP – dotyczy danych typu CHAR i VARCHAR, konwertuje dane z pliku ANSI, ISO 1252. OEM – domyślnie, dotyczy danych typu CHAR i VARCHAR, konwertuje dane z pliku OEM. RAW – brak konwersji, najszybsze działanie. CODE_PAGE – dotyczy określonego numeru strony kodowej, np. 850. Brak obsługi strony kodowej 65001 (UTF-8).
‘DATA_FILE’	Pełna ścieżka do pliku.
DATABASE_NAME	Nazwa bazy danych.
DATAFILETYPE	Określenie typu pliku: CHAR – domyślnie, format znakowy. NATIVE – plik z tożsamymi typami danych jak w SQL Server. Opcja ta jest bardziej wydajna od opcji CHAR. WIDECHAR – format znaków unicode. WIDENATIVE – plik z tożsamymi typami danych jak w SQL Server, ale poza CHAR i VARCHAR z danymi unicode.
ERRORFILE = ‘FILE_NAME’	Określa nazwę pliku z błędami importu. Plik ten zawiera wiersze z importowanego pliku, których ze względu na błędy nie udało się zaimportować.
FIELDTERMINATOR = FIELD_TERMINATOR	Określenie terminatora, czyli znaku jakim oddzielane są pola w pliku.
FIRE_TRIGGERS	Powoduje uruchomienie wyzwalaczy.
FIRSTROW = FIRST_ROW	Określenie numeru wiersza, od którego mają być ładowane dane.
FORMATFILE = FORMAT_FILE_PATH	Pełna ścieżka do pliku formatu. Pliku formatu należy używać w sytuacji, gdy ilość lub kolejność danych w pliku jest różna od miejsca docelowego importowanych danych.
KEEPIDENTITY	Określa, czy będą importowane wartości identyfikujące (ID).
KEEPNULLS	Określa, że w przypadku braku danych w pliku importując je do kolumn z wartościami domyślnymi mają być zachowane NULL’e.
KILOBYTES_PER_BATCH = KILOBYTES_PER_BATCH	Określenie przybliżonej liczby kilobajtów (KB) danych w partii.
LASTROW = LAST_ROW	Określenie liczby ostatniego wiersza do załadowania danych. Domyślnie jest 0, co oznacza wiersz ostatni.
MAXERRORS = MAX_ERRORS	Określenie maksymalnej liczby błędów, gdzie 1 wiersz = 1 ewentualny błąd. Domyślne ustawienie to 10.
ORDER	Określa sposób sortowania danych: ASC (Ascending) – rosnąco. DESC (Descending) – malejąco.
ROWS_PER_BATCH = ROWS_PER_BATCH	Określenie przybliżonej liczby wierszy danych w pliku. Podanie tej wartości pozwala zoptymalizować import, ale pod warunkiem, że liczba ta będzie przybliżona do faktycznej liczby wierszy.
ROWTERMINATOR = ROW_TERMINATOR	Określa terminator wiersza w plikach danych typu CHAR i WIDECHAR. Domyślnym terminatorem wiersza jest \ r \ n, czyli znak nowego wiersza.
SCHEMA_NAME	Nazwa schematu.
TABLE_NAME	Nazwa tabeli.
TABLOCK	Zablokowanie tabeli na czas importu.
VIEW_NAME	Nazwa widoku.

W SQL Server mamy kilka opcji umożliwiających importowanie (także eksportowanie, jest ono omówione w odrębnej lekcji tego kursu) danych z heterogenicznych źródeł.
Poza opcją BULK INSERT są jeszcze dostępne dwie podobne funkcjonalności:
• OPENROWSET
Za pomocą tej opcji można także zaimportować płaski plik, ale funkcjonalność OPENROWSET jest zdecydowanie bardziej rozbudowana i została omówiona w odrębnej lekcji kursu na poziomie zaawansowanym.
• BCP (Bulk Copy)
Jest to narzędzie dostępne z linii poleceń (CMD) umożliwiające zarówno importowanie jak i eksportowanie danych z SQL Server’a do plików i odwrotnie. W tym temacie skupimy się jednak na rozwiązaniach związanych bezpośrednio z SSMS.

Import danych z pliku płaskiego za pomocą SSMS – krok po kroku:

Jest to sposób bez implementowania kodu, czyli za pomocą „wyklikania”.
Temat ten jest dokładnie opracowany w pełnym kursie zaawansowanym.

PLIKI DO ŚCIĄGNIĘCIA:

1. 013_Import_Danych_Z_Pliku.sql
2. 013_Import_Danych_Z_Pliku_Nazwiska.txt
3. 013_Import_Danych_Z_Pliku_Miasta.txt

KURSY SQL ONLINE

BULK INSERT:

Argumenty opcji: BULK INSERT

PLIKI DO ŚCIĄGNIĘCIA: