✅ The environment is cleared and ready.

/Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assignment
> s/01-assignment
📁 Base directory: /Users/casparm4/Github/rsm-data-analytics-in-finance-private
> /private/assignments/01-assignment
📁 Raw data folder: /Users/casparm4/Github/rsm-data-analytics-in-finance-privat
> e/private/assignments/01-assignment/data/raw
📁 Processed data folder: /Users/casparm4/Github/rsm-data-analytics-in-finance-
> private/private/assignments/01-assignment/data/processed
📁 Output directory: /Users/casparm4/Github/rsm-data-analytics-in-finance-priva
> te/private/assignments/01-assignment/output
📁 Tables folder: /Users/casparm4/Github/rsm-data-analytics-in-finance-private/
> private/assignments/01-assignment/output/tables
📁 Figures folder: /Users/casparm4/Github/rsm-data-analytics-in-finance-private
> /private/assignments/01-assignment/output/figures

(encoding automatically selected: ISO-8859-1)
(7 vars, 7 obs)

Contains data
 Observations:             7                  
    Variables:             7                  
-------------------------------------------------------------------------------
Variable      Storage   Display    Value
    name         type    format    label      Variable label
-------------------------------------------------------------------------------
gvkey           long    %12.0g                
conm            str28   %28s                  
sic             int     %8.0g                 
naics           long    %12.0g                
fic             str3    %9s                   
isin            str12   %12s                  
sedol           str7    %9s                   
-------------------------------------------------------------------------------
Sorted by: 
     Note: Dataset has changed since last saved.

     +-------------------------------------------------------------+
  1. |  gvkey |                         conm |  sic |  naics | fic |
     |  17828 |       MERCEDES BENZ GROUP AG | 3711 | 336110 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE0007100000          |          5529027           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  2. |  gvkey |                         conm |  sic |  naics | fic |
     | 100022 | BAYERISCHE MOTOREN WERKE AKT | 3711 | 336111 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE0005190003          |          5756029           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  3. |  gvkey |                         conm |  sic |  naics | fic |
     | 100042 |                       MAN SE | 3711 | 336120 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE0005937007          |          5563520           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  4. |  gvkey |                         conm |  sic |  naics | fic |
     | 100737 |                VOLKSWAGEN AG | 3711 | 336110 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE0007664039          |          5497168           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  5. |  gvkey |                         conm |  sic |  naics | fic |
     | 101120 |                      AUDI AG | 3711 | 336111 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE0006757008          |          5761498           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  6. |  gvkey |                         conm |  sic |  naics | fic |
     | 102187 | PORSCHE AUTOMOBIL HOLDING SE | 3711 | 336111 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE000PAH0038          |          7101069           |
     +-------------------------------------------------------------+

     +-------------------------------------------------------------+
  7. |  gvkey |                         conm |  sic |  naics | fic |
     | 284390 |                       HWA AG | 3711 |   3361 | DEU |
     |-------------------------------------------------------------|
     |                  isin          |            sedol           |
     |          DE000A0LR4P1          |          B1W6080           |
     +-------------------------------------------------------------+
  7
---- CHECKPOINT: header data loaded ----
Number of firms: 7

✅ Test passed: Header data loaded correctly with 7 firms.

(1 observation deleted)
(1 observation deleted)
(1 observation deleted)

     +---------------------------------------+
     |  gvkey                           conm |
     |---------------------------------------|
  1. |  17828         MERCEDES BENZ GROUP AG |
  2. | 100022   BAYERISCHE MOTOREN WERKE AKT |
  3. | 100042                         MAN SE |
  4. | 100737                  VOLKSWAGEN AG |
     +---------------------------------------+
---- CHECKPOINT: firm filtering ----
Remaining firms: 4

     +---------------------------------------+
     |  gvkey                           conm |
     |---------------------------------------|
  1. |  17828         MERCEDES BENZ GROUP AG |
  2. | 100022   BAYERISCHE MOTOREN WERKE AKT |
  3. | 100042                         MAN SE |
  4. | 100737                  VOLKSWAGEN AG |
     +---------------------------------------+
✅ Test passed: 4 independent firms retained after filtering.

(file
    /Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assi
    > gnments/01-assignment/data/processed/temp_header.dta not found)
file
    /Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assi
    > gnments/01-assignment/data/processed/temp_header.dta saved
---- CHECKPOINT: header data prepared ----
Header data filtered and saved with 4 firms

✅ Test passed: File saved successfully in processed folder.

(encoding automatically selected: ISO-8859-2)
(4 vars, 9,128 obs)

Contains data
 Observations:         9,128                  
    Variables:             4                  
-------------------------------------------------------------------------------
Variable      Storage   Display    Value
    name         type    format    label      Variable label
-------------------------------------------------------------------------------
gvkey           long    %12.0g                
datadate        str10   %10s                  
prccd           float   %9.0g                 
ajexdi          float   %9.0g                 
-------------------------------------------------------------------------------
Sorted by: 
     Note: Dataset has changed since last saved.

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
       gvkey |      9,128    115189.4    74783.26      17828     284390
    datadate |          0
       prccd |      9,128    162.3696    207.5795     12.975        861
      ajexdi |      9,128    1.026389    .0646436          1   1.184724

     +--------------------------------------+
     | gvkey     datadate    prccd   ajexdi |
     |--------------------------------------|
  1. | 17828   2013-01-01    41.32        1 |
  2. | 17828   2013-01-02     42.6        1 |
  3. | 17828   2013-01-03   42.455        1 |
  4. | 17828   2013-01-04    42.63        1 |
  5. | 17828   2013-01-07    43.06        1 |
     |--------------------------------------|
  6. | 17828   2013-01-08     42.5        1 |
  7. | 17828   2013-01-09   42.705        1 |
  8. | 17828   2013-01-10    42.89        1 |
  9. | 17828   2013-01-11    43.09        1 |
 10. | 17828   2013-01-14   43.655        1 |
     |--------------------------------------|
 11. | 17828   2013-01-15   43.785        1 |
 12. | 17828   2013-01-16   43.715        1 |
 13. | 17828   2013-01-17   43.885        1 |
 14. | 17828   2013-01-18   43.345        1 |
 15. | 17828   2013-01-21   43.195        1 |
     |--------------------------------------|
 16. | 17828   2013-01-22    43.01        1 |
 17. | 17828   2013-01-23   43.155        1 |
 18. | 17828   2013-01-24   43.255        1 |
 19. | 17828   2013-01-25   43.805        1 |
 20. | 17828   2013-01-28    43.95        1 |
     +--------------------------------------+
---- CHECKPOINT: price data loaded ----
Number of observations: 9128

✅ Test passed: Price data loaded with 9128 observations.

     +----------------------------+
     | gvkey        date    prccd |
     |----------------------------|
  1. | 17828   01jan2013    41.32 |
  2. | 17828   02jan2013     42.6 |
  3. | 17828   03jan2013   42.455 |
  4. | 17828   04jan2013    42.63 |
  5. | 17828   07jan2013    43.06 |
     |----------------------------|
  6. | 17828   08jan2013     42.5 |
  7. | 17828   09jan2013   42.705 |
  8. | 17828   10jan2013    42.89 |
  9. | 17828   11jan2013    43.09 |
 10. | 17828   14jan2013   43.655 |
     +----------------------------+
---- CHECKPOINT: date conversion ----
Date variable created and formatted

✅ Test passed: Date variable is in proper Stata format.

(variables nonmissing or string)
  0
---- CHECKPOINT: missing value check ----
Missing prices: 0

(0 observations deleted)
---- CHECKPOINT: data cleaning ----
Observations after removing missing prices: 9128

✅ Test passed: No missing values in price data.

(file
    /Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assi
    > gnments/01-assignment/data/processed/temp_prices.dta not found)
file
    /Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assi
    > gnments/01-assignment/data/processed/temp_prices.dta saved
---- CHECKPOINT: price data saved ----
Cleaned price data saved temporarily

use "$processed/temp_prices.dta", clear
merge m:1 gvkey using "$processed/temp_header.dta"
tab _merge

    Result                      Number of obs
    -----------------------------------------
    Not matched                         3,912
        from master                     3,912  (_merge==1)
        from using                          0  (_merge==2)

    Matched                             5,216  (_merge==3)
    -----------------------------------------

   Matching result from |
                  merge |      Freq.     Percent        Cum.
------------------------+-----------------------------------
        Master only (1) |      3,912       42.86       42.86
            Matched (3) |      5,216       57.14      100.00
------------------------+-----------------------------------
                  Total |      9,128      100.00
---- CHECKPOINT: merge completed ----
Merge results displayed above; temporary files deleted

(3,912 observations deleted)
---- CHECKPOINT: matched observations retained ----
Final observation count: 5216

✅ Test passed: Datasets merged successfully.

Panel variable: gvkey (strongly balanced)
 Time variable: date, 01jan2013 to 29dec2017, but with gaps
         Delta: 1 day

   gvkey:  17828, 100022, ..., 100737                        n =          4
    date:  01jan2013, 02jan2013, ..., 29dec2017              T =       1304
           Delta(date) = 1 day
           Span(date)  = 1824 periods
           (gvkey*date uniquely identifies each observation)

Distribution of T_i:   min      5%     25%       50%       75%     95%     max
                      1304    1304    1304      1304      1304    1304    1304

     Freq.  Percent    Cum. |  Pattern*
 ---------------------------+--------------------------------------------------
> ------------------------------------------------------
        4    100.00  100.00 |  XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX5
 ---------------------------+--------------------------------------------------
> ------------------------------------------------------
        4    100.00         |  XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 ------------------------------------------------------------------------------
> ------------------------------------------------------
 *Each column represents 18 periods.

---- CHECKPOINT: panel structure declared ----
Panel data structure set with gvkey as panel variable and date as time variable

✅ Test passed: Panel structure correctly declared.

(1,044 missing values generated)

                             ret
-------------------------------------------------------------
      Percentiles      Smallest
 1%    -.0398459      -.1842681
 5%    -.0236866      -.0857544
10%    -.0152512      -.0782709       Obs               4,172
25%    -.0057539      -.0727594       Sum of wgt.       4,172

50%            0                      Mean           .0003003
                        Largest       Std. dev.      .0144726
75%     .0062713       .0669525
90%     .0161934       .0703134       Variance       .0002095
95%     .0248292       .0721684       Skewness      -.4896224
99%     .0403118       .0801751       Kurtosis       12.09002
---- CHECKPOINT: returns created ----
Returns variable created successfully using L. operator

✅ Test passed: Returns variable created.

✅ Test passed: Returns are in reasonable range for daily data.

       year |      Freq.     Percent        Cum.
------------+-----------------------------------
       2013 |      1,044       20.02       20.02
       2014 |      1,044       20.02       40.03
       2015 |      1,044       20.02       60.05
       2016 |      1,044       20.02       80.06
       2017 |      1,040       19.94      100.00
------------+-----------------------------------
      Total |      5,216      100.00
---- CHECKPOINT: time variables created ----
Year and month variables created

✅ Test passed: Year variable created.

✅ Test passed: Month variable created.

Contains data from /Users/casparm4/Github/rsm-data-analytics-in-finance-private
> /private/assignments/01-assignment/data/processed/temp_prices.dta
 Observations:         5,216                  
    Variables:            13                  10 Feb 2026 09:26
-------------------------------------------------------------------------------
Variable      Storage   Display    Value
    name         type    format    label      Variable label
-------------------------------------------------------------------------------
gvkey           long    %12.0g                Compustat company identifier
prccd           float   %9.0g                 Closing price (local currency)
ajexdi          float   %9.0g                 
date            float   %td                   Trading date
conm            str28   %28s                  Company name
sic             int     %8.0g                 
naics           long    %12.0g                
fic             str3    %9s                   
isin            str12   %12s                  
sedol           str7    %9s                   
ret             float   %9.0g                 Daily log return
year            float   %9.0g                 Year
month           float   %9.0g                 Month
-------------------------------------------------------------------------------
Sorted by: gvkey  date
     Note: Dataset has changed since last saved.
---- CHECKPOINT: variables labeled ----
Variable labels applied

✅ Test passed: Variables are properly labeled.

               Closing price (local currency)
-------------------------------------------------------------
      Percentiles      Smallest
 1%       43.625         38.645
 5%        58.83         38.725
10%         63.1          38.84       Obs               5,216
25%        73.97         39.435       Sum of wgt.       5,216

50%           90                      Mean           100.8507
                        Largest       Std. dev.      39.92719
75%       115.45          242.3
90%       168.65          244.8       Variance       1594.181
95%        185.8          247.5       Skewness       1.286392
99%       224.85         247.55       Kurtosis       4.045226

                      Daily log return
-------------------------------------------------------------
      Percentiles      Smallest
 1%    -.0398459      -.1842681
 5%    -.0236866      -.0857544
10%    -.0152512      -.0782709       Obs               4,172
25%    -.0057539      -.0727594       Sum of wgt.       4,172

50%            0                      Mean           .0003003
                        Largest       Std. dev.      .0144726
75%     .0062713       .0669525
90%     .0161934       .0703134       Variance       .0002095
95%     .0248292       .0721684       Skewness      -.4896224
99%     .0403118       .0801751       Kurtosis       12.09002
---- CHECKPOINT: summary statistics ----
Overall summary statistics displayed

Summary statistics: N, Mean, SD, Min, Max
Group variable: conm (Company name)

            conm |     prccd       ret
-----------------+--------------------
BAYERISCHE MOTOR |      1304      1043
                 |  84.62069   .000237
                 |  10.50599  .0155601
                 |     63.93 -.0782709
                 |     122.6  .0703134
-----------------+--------------------
          MAN SE |      1304      1043
                 |  92.20431  .0002268
                 |  3.441024  .0047124
                 |     80.75 -.0352965
                 |     99.02  .0340444
-----------------+--------------------
MERCEDES BENZ GR |      1304      1043
                 |  65.24918  .0005072
                 |  10.82731  .0156527
                 |    38.645 -.0857544
                 |     95.79   .059825
-----------------+--------------------
   VOLKSWAGEN AG |      1304      1043
                 |  161.3286  .0002301
                 |  29.55823  .0181396
                 |    101.15 -.1842681
                 |    247.55  .0801751
-----------------+--------------------
           Total |      5216      4172
                 |  100.8507  .0003003
                 |  39.92719  .0144726
                 |    38.645 -.1842681
                 |    247.55  .0801751
--------------------------------------
---- CHECKPOINT: by-firm statistics ----
Firm-level summary statistics displayed

✅ Test passed: Summary statistics generated successfully.

---- CHECKPOINT: data organized ----
Dataset ordered and sorted

✅ Test passed: Data is properly sorted.

file
    /Users/casparm4/Github/rsm-data-analytics-in-finance-private/private/assi
    > gnments/01-assignment/data/processed/auto_firms_g_daily_clean.dta saved
---- CHECKPOINT: data saved ----
Dataset saved to: /Users/casparm4/Github/rsm-data-analytics-in-finance-private/
> private/assignments/01-assignment/data/processed/auto_firms_g_daily_clean.dta
Final dataset contains 5216 observations and 13 variables

✅ Test passed: File saved successfully in processed folder.

✅ Test passed: Final dataset has 5216 observations (expected range).

Data Analytics for Finance

Data Wrangling

Learning Objectives¶

Context: The Volkswagen Dieselgate Scandal¶

Exercises¶

Setup¶

Clear Environment¶

Set File Paths¶

Section 1: Load and Examine Header Data¶

Task 1.1: Import Company Identifiers¶

Task 1.2: Examine the Data Structure¶

Task 1.3: Filter Firms for Analysis¶

Task 1.4: Save the Cleaned Header Data¶

Section 2: Load and Examine Price Data¶

Task 2.1: Import Daily Stock Prices¶

Task 2.2: Examine Price Data¶

Task 2.3: Convert Date Variable¶

Section 3: Data Cleaning¶

Task 3.1: Identify Missing Values (if any)¶

Task 3.2: Remove Missing Prices¶

Task 4.1: Understanding Stata's Data Model¶

Task 4.2: Save Price Data Temporarily¶

Task 4.3: Reload Price Data and Merge¶

Task 4.4: Keep Only Matched Observations¶

Section 5: Declare Panel Structure and Create Variables¶

Task 5.1: Declare Panel Data Structure with xtset¶

Task 5.2: Generate Daily Returns Using L. Operator¶

Task 5.3: Create Year and Month Variables¶

Task 5.4: Label Variables¶

Section 6: Summary Statistics¶

Task 6.1: Overall Summary Statistics¶

Task 6.2: Summary Statistics by Firm¶

Section 7: Save Processed Data¶

Task 7.1: Order Variables and Sort Data¶

Task 7.2: Save as Stata Dataset¶

Summary¶

Key Concepts Learned¶

References¶