Parallel Neural Network (GPU)

// excluded accessor/helper functions
....
@compute @workgroup_size(1)
fn main(@builtin(global_invocation_id) global_id: vec3<u32>) {

    // single thread

    // Hidden to hidden layers (last one is the output layer)
    for (var g:u32=0; g<arrayLength( &layers ); g++)
    {
        if ( g==0)
        {
            // Input to first hidden layer
            for (var k:u32=0; k<layers[0]; k++)
            {
                // input has no bias
                setLayerOutput( 0, k,  inputs[k] );
            }
        }
        else
        {
            for (var n0:u32=0; n0<layers[g]; n0++)
            {
                var sum = getBias( g, n0 );
                for (var n1:u32=0; n1<layers[g-1]; n1++)
                {
                    sum += getLayerOutput( g-1, n1 ) * getWeight( g-1, n1, n0 );
                }
                setLayerOutput( g, n0, sigmoid(sum) );
            }
        }

        if ( g==arrayLength( &layers )-1 )
        {
            // Last hidden layer is the output layer
            for (var k:u32=0; k<arrayLength( &outputs ); k++)
            {
                outputs[k] = getLayerOutput( arrayLength(&layers)-1 , k );
            }
        }
    }
}

@compute @workgroup_size(4) // >= MAX_NEURONS_PER_LAYER (round it to power of 2)
fn main(@builtin(global_invocation_id) global_id: vec3<u32>) {


    let k = global_id.x;

    // Input to hidden layers (last one is the output layer)
    let g:u32 = currentLayer;

    //for (var g:u32=0; g<arrayLength( &layers ); g++)
    {
        if ( g==0)
        {
            // Input to first hidden layer
            //for (var k:u32=0; k<layers[0]; k++)
            {
                // input has no bias
                setLayerOutput( 0, k,  inputs[k] );
            }
        }
        else
        {
            //for (var k:u32=0; k<layers[g]; k++)
            {
                var sum = getBias( g, k );
                for (var n1:u32=0; n1<layers[g-1]; n1++)
                {
                    sum += getLayerOutput( g-1, n1 ) * getWeight( g-1, n1, k );
                }
                setLayerOutput( g, k, sigmoid(sum) );
            }
        }

        if ( g==arrayLength( &layers )-1 )
        {
            // Last hidden layer is the output layer
            //for (var k:u32=0; k<arrayLength( &outputs ); k++)
            {
                outputs[k] = getLayerOutput( arrayLength(&layers)-1 , k );
            }
        }
    }
}

@compute @workgroup_size(1)
fn main(@builtin(global_invocation_id) global_id: vec3<u32>) {
    // single thread

    // *1* Output Errors

    // Backpropagate errors from output through hidden layers and store them
    for ( var g:u32=arrayLength(&layers)-1; g>0; g-- )
    {
        // Output layer (last one)
        if ( g == arrayLength(&layers)-1 )
        {
            for ( var k:u32=0; k<layers[ g ]; k++ )
            {
                let output = getLayerOutput( g, k );
                let error = ( output - expected[k] ) * sigmoidDerivative( getLayerOutput( g, k ) );
                setError( g, k, error );
            }
        }
        // All hidden layers
        else
        {
            for (var n0:u32=0; n0<layers[g]; n0++)
            {
                var error = 0.0;
                for (var n1:u32=0; n1<layers[g+1]; n1++)
                {
                    let weight = getWeight(g, n0, n1 );
                    error += weight * getError( g+1, n1 );
                }
                error = error * sigmoidDerivative( getLayerOutput( g, n0 ) );
                setError( g, n0, error );
            }
        }
    }

    // *2* Update Weights and Biases

    // Update weights and biases for each layer using the error
    for (var k:u32=0; k<arrayLength( &layers )-1; k++)
    {
        for (var n0:u32=0; n0<layers[k]; n0++)
        {
            // Update the bias
            var bias = getBias( k, n0 );
            bias -= LEARNING_RATE * getError( k, n0 );
            setBias( k, n0, bias );

            for (var n1:u32=0; n1<layers[k]; n1++)
            {
                var weight = getWeight( k, n0, n1 );
                weight -= LEARNING_RATE * getError( k+1, n1 ) * getLayerOutput( k, n0 );
                setWeight( k, n0, n1, weight );
            }
        }
    }
}

async function propogate( outputs )
{
    device.queue.writeBuffer( expectedBuffer,   0, new Float32Array( outputs ) );
    await device.queue.onSubmittedWorkDone();

    // Propogate Error
    for (var l=layers.length-1; l>0; l--)
    {
        device.queue.writeBuffer( currentLayerBuffer,     0, new Uint32Array( [l] ) );
        await device.queue.onSubmittedWorkDone();

        await runComputePipeline(backwardShaderCode, [
              { binding: 0, resource: { buffer: layersBuffer       } },
              { binding: 1, resource: { buffer: weightsBuffer      } },
              { binding: 2, resource: { buffer: biasesBuffer       } },
              { binding: 3, resource: { buffer: inputsBuffer       } },
              { binding: 4, resource: { buffer: layerOutputsBuffer } },
              { binding: 5, resource: { buffer: expectedBuffer     } },
              { binding: 6, resource: { buffer: errorsBuffer       } },
              { binding: 7, resource: { buffer: currentLayerBuffer  } },
        ], 1 , 'main1' );
    }

    // Update Weights/Biases (using Error)
    for (var l=0; l<layers.length-1; l++)
    {
        device.queue.writeBuffer( currentLayerBuffer,     0, new Uint32Array( [l] ) );
        await device.queue.onSubmittedWorkDone();

        await runComputePipeline(backwardShaderCode, [
              { binding: 0, resource: { buffer: layersBuffer       } },
              { binding: 1, resource: { buffer: weightsBuffer      } },
              { binding: 2, resource: { buffer: biasesBuffer       } },
              { binding: 3, resource: { buffer: inputsBuffer       } },
              { binding: 4, resource: { buffer: layerOutputsBuffer } },
              { binding: 5, resource: { buffer: expectedBuffer     } },
              { binding: 6, resource: { buffer: errorsBuffer       } },
              { binding: 7, resource: { buffer: currentLayerBuffer  } },
        ], 1 , 'main2' );
    }
}

@compute @workgroup_size(4) // >= than MAX_NEURONS_PER_LAYER
fn main1(@builtin(global_invocation_id) global_id: vec3<u32>) {

    let k = global_id.x;

    // *1* Output Errors

    // Backpropagate errors from output through hidden layers and store them
    //for ( var g:u32=arrayLength(&layers)-1; g>0; g-- ) // shift to layer by layer compute processing
    let g:u32 = currentLayer;
    {
        // Output layer (last one)
        if ( g == arrayLength(&layers)-1 )
        {
            //for ( var k:u32=0; k<layers[ g ]; k++ ) // shift to threads
            if ( k < layers[ g ] )
            {
                let output = getLayerOutput( g, k );
                let error = ( output - expected[k] ) * sigmoidDerivative( getLayerOutput( g, k ) );
                setError( g, k, error );
            }
        }
        // All hidden layers
        else
        {
            //for (var k:u32=0; k<layers[g]; k++) // -> shift to threads
            if ( k < layers[g] )
            {
                var error = 0.0;
                for (var n1:u32=0; n1<layers[g+1]; n1++)
                {
                    let weight = getWeight(g, k, n1 );
                    error += weight * getError( g+1, n1 );
                }
                error = error * sigmoidDerivative( getLayerOutput( g, k ) );
                setError( g, k, error );
            }
        }
    }
}// end main1

@compute @workgroup_size(4) // >= than MAX_NEURONS_PER_LAYER
fn main2(@builtin(global_invocation_id) global_id: vec3<u32>) {

    let g = global_id.x;

    // *2* Update Weights and Biases

    // Update weights and biases for each layer using the error
    //for (var k:u32=0; k<arrayLength( &layers )-1; k++) // -> shift to layer-by-layer compute calls
    let k:u32 = currentLayer;
    {
        //for (var g:u32=0; g<layers[k]; g++) // -> shift to threads
        if ( g < layers[k] )
        {
            // Update the bias
            var bias = getBias( k, g );
            bias -= LEARNING_RATE * getError( k, g );
            setBias( k, g, bias );

            for (var n1:u32=0; n1<layers[k]; n1++)
            {
                var weight = getWeight( k, g, n1 );
                weight -= LEARNING_RATE * getError( k+1, n1 ) * getLayerOutput( k, g );
                setWeight( k, g, n1, weight );
            }
        }
    }
}// end main2

More Threads? (Multiple Workgroups)

@compute @workgroup_size( MAX_NEURONS_PER_LAYER ) // >= than MAX_NEURONS_PER_LAYER
fn main2(@builtin(global_invocation_id) global_id: vec3<u32>,
         @builtin(local_invocation_id) local_id: vec3<u32>,
         @builtin(workgroup_id) workgroupId: vec3<u32> ) {

    let g  = local_id.x;

    let k:u32 = workgroupId.x; // workgroup for each layer

    // *2* Update Weights and Biases

    // Update weights and biases for each layer using the error
    //for (var k:u32=0; k<arrayLength( &layers )-1; k++) // -> shift to layer-by-layer compute calls
    //let k:u32 = currentLayer;
    {
        //for (var g:u32=0; g<layers[k]; g++) // -> shift to threads
        if ( g < layers[k] )
        {
            // Update the bias
            var bias = getBias( k, g );
            bias -= LEARNING_RATE * getError( k, g );
            setBias( k, g, bias );

            for (var n1:u32=0; n1<layers[k]; n1++)
            //if ( n1 < layers[k] )
            {
                var weight = getWeight( k, g, n1 );
                weight -= LEARNING_RATE * getError( k+1, n1 ) * getLayerOutput( k, g );
                setWeight( k, g, n1, weight );
            }
        }
    }
}// end main2

Forward phase (activation) - Single to Multiple Threads

Backward Phase (Propogation) - Single to Multiple Threads

More Threads? (Multiple Workgroups)

Reducing GPU Queue Stalls

Resources and Links