Cualquier instrucción del procesador tiene múltiples etapas para su operación. Cada una de estas etapas requiere un solo ciclo de CPU para completarse. Estas etapas son la obtención de instrucciones, la decodificación de instrucciones, la ejecución, el acceso a la memoria y la reescritura. Respectivamente, estos obtienen la instrucción que debe completarse, separan la operación de los valores que se operan on, ejecute el proceso, abra el registro en el que se escribirá el resultado y escriba el resultado en el Registrarse.
Procesadores históricos en orden
En las primeras computadoras, la CPU no usaba una canalización de instrucciones. En estas CPU, cada operación de ciclo único debía ocurrir para cada instrucción. Esto significaba que se necesitaban cinco ciclos de reloj para que la instrucción promedio se procesara por completo antes de que se pudiera iniciar la siguiente. Es posible que algunas operaciones no necesiten escribir ningún resultado en un registro, lo que significa que se pueden omitir las etapas de acceso a la memoria y escritura diferida.
Sin embargo, hay un problema al acecho cuando se ejecuta una instrucción completa en orden antes de poder pasar a la siguiente instrucción. El problema es la falta de caché. La CPU almacena datos que está procesando activamente en el registro. Esto se puede acceder con una latencia de un ciclo. El problema es que el registro es pequeño porque está integrado en el núcleo del procesador. La CPU debe ir a la memoria caché L1 más grande pero más lenta si los datos aún no se han cargado. Si no está allí, debe volver a la caché L2 más grande y más lenta. El siguiente paso es el caché L3; la última opción es la RAM del sistema. Cada una de estas opciones requiere más y más ciclos de CPU para verificar.
Ahora bien, esta latencia adicional añadida puede ser un gran problema en un sistema que debe completar cada instrucción en orden en su totalidad antes de iniciar la siguiente instrucción. Lo que había sido un procesador de 5 ciclos por instrucción, de repente puede detenerse en una instrucción durante docenas o cientos de ciclos de reloj. Mientras tanto, nada más puede suceder en la computadora. Técnicamente, esto se puede aliviar un poco al tener dos núcleos independientes. Sin embargo, nada les impide a ambos hacer lo mismo, potencialmente simultáneamente. Entonces, seguir la ruta de múltiples núcleos no soluciona esto.
El oleoducto RISC clásico
RISC significa computadora con conjunto de instrucciones reducido. Es un estilo de diseño de procesador que optimiza el rendimiento al facilitar la decodificación de cada instrucción. Esto es en comparación con CISC o Complex Instruction Set Computer, que diseña conjuntos de instrucciones más complejos que permiten que se necesiten menos instrucciones para realizar las mismas tareas.
El diseño clásico de RISC incluye una canalización de instrucciones. En lugar de ejecutar cualquiera de las cinco etapas de instrucción en un ciclo dado, la canalización permite que se realicen las cinco etapas. Por supuesto, no puede ejecutar las cinco etapas de una instrucción en un ciclo. Pero puede poner en cola cinco instrucciones consecutivas con un desplazamiento de una etapa cada una. De esta forma, se puede completar una nueva instrucción en cada ciclo de reloj. Ofreciendo un aumento potencial de rendimiento de 5x para un aumento relativamente bajo en la complejidad del núcleo.
Los procesadores que no tienen una canalización solo pueden ser subescalares, ya que no pueden ejecutar una instrucción completa por ciclo. Con esta canalización principal de cinco etapas, puede crear una CPU escalar que pueda completar una instrucción para cada proceso. Al crear canalizaciones de mayor alcance, puede crear CPU superescalares que pueden ejecutar más de una instrucción por ciclo de reloj. Por supuesto, todavía hay problemas potenciales.
todavía secuencial
Nada de esto resuelve el problema de esperar muchos ciclos para obtener una respuesta cuando se necesita consultar los diferentes niveles de caché y RAM. También introduce un nuevo problema. ¿Qué sucede si una instrucción se basa en la salida de la instrucción anterior? Estos problemas se resuelven de forma independiente con un despachador avanzado. Planifica cuidadosamente el orden de ejecución para que ninguna instrucción que dependa de la salida de otra esté demasiado cerca. También maneja errores de caché al estacionar una instrucción y reemplazarla en la canalización con otra instrucciones que están listas para ejecutarse y no requieren su resultado, reanudando la instrucción cuando está Listo.
Estas soluciones pueden funcionar en procesadores no canalizados, pero son necesarias para un procesador superescalar que ejecuta más de una instrucción por reloj. Un predictor de bifurcación también es muy útil, ya que puede intentar predecir el resultado de una instrucción con más de un resultado potencial y continuar asumiendo que es correcto a menos que se demuestre lo contrario.
Conclusión
Una tubería permite que todas las capacidades distintas del procesador se utilicen en cada ciclo. Lo hace ejecutando diferentes etapas de diferentes instrucciones simultáneamente. Esto ni siquiera agrega mucha complejidad al diseño de la CPU. También allana el camino para permitir que más de una instrucción realice una sola etapa por ciclo.