2500+ OverClock

XtreamZ

Veamos, tengo un Barton 2500+ @ 2000 (166x12.0) refrigerado por un TT V11 + DuctingMod (sin rejilla) que me deja el "Bartoncito" con OC ahora mismo a unos 42-45ºC (con NAV2003 ZoAlarm MSN IE, nVidiaSSTray), una ABIT NF7-S Rev.2 y un modulo de 512 DDR 333 Kingston, PSU de 300W de calidad, con los amperajes que siempre esta pidiendo H :)

Mi pregunta es:

Es mejor subirle el FSB a mi Micro ? si es asi, a cuanto lo subiriais para que rindiera bien, y a cuanto tendria que tener el multiplicador ?

Ah ya que no lo puedo hacer un 3200+ (me dijo un conocido del foro que me ayudo con el OC que por las memorias no podria) a cuanto el multiplicador para que se quede como un 3000+ ?

Gracias, responded seriamente a mis preguntas, no sea que me vaya a chamuscar, o a quedar sin energia en la PSU ... xd

ESE FORO DE HW ! EL MEJOR DE TODOS !!!

ach3chin0

El Barton 3200+ rula a 200x11 = 2200Mhz

Pues bien, depende de la calidad de tu memoria podras ir trasteando con ella hasta un limite concreto.

Gosub tiene uno como el tuyo.

IO todos los q he tenido los he dejado rulando sobre los 2400-2500Mhz sin mayores problemas. Claro esta con un buen disipador y memoria de calidad.

Tienes multiplicadores para trastear, asi q usalos. No te bloquees si uno de ellos te da problemas, usa otro. En los multiplicadores de AMD hay muxo tema de signaling asi que dejalo y ve a por otro.

Ya nos iras contando :)

H

PD: Van a molar los foros de Overclock de 1/2 vida eeeeeeeeeeh :)

XtreamZ

yo ahora voy a probar a ver si lo puedo hacer 3200 como dice H, lo hago ?

O simplemente toqueteo los mulitplicadores un poco y probando ?

Deseando Sub-Foro de OC ... gggg (babeos)

ach3chin0

No se con que memoria rulas la verdad.....

H

E

"En los multiplicadores de AMD hay muxo tema de signaling"

¿Qué es eso? puede ser cuando al intertar hacer OC el ordenador se queda "muerto", es decir, le pasa corriente pero la pantalla se queda negra i no hace nada?
A mi me pasa eso cuando pongo un multiplicador por debajo de 13...

Un saludo.

XtreamZ

ahora lo tengo a 200x11 a 46.5-47ºC en idle, me va de PM, ME ENCANTA EL BARTON !!!! :)

Gracias H, tambien probé 166x13.0 pero me gusta mas ahora, me fijé en el de Gosub, ya probaré sus 220 de FSB.

Gracias H :)

G

mi bartolillo esta ahora a 3200+ vcore nominal.

una gozada de cacharro para tenerlo refrigerado con un disipador de aluminio de 7€ :)

ahora no le meto 220 de fsb mas ke nada pq mi cutre grafica no aguanta tanto empuje de agp ( viva el agp lock del nforce2..)

ach3chin0

Esta esplendido 2500@3200+ vcore nominal :)

H

ach3chin0

Pues si Elgor el tema de los mutiplicadores en los Tbred, Barton y Thorton son complejos.

Como explique en su momento, el factor multiplicador es el paso ultimo en la logica de la PLL. Es algo mas complejo en la realidad pero ahi es donde reside.

Si bien para que tengamos todos los multiplicadores libres es necesario que el micro nos de full access a ellos.

Pues bien:

EN ppio hay q enteder los circuitos usados para fijar y resetear los multiplicadores ( o señales de multiplicacion).

En las CPUŽs de AMD tenemos 4 circuitos basicos que nos cuentan como AMD fija los estados de OPEN y CLOSE los puentes de los multiplicadores (L1, L5) y sus resistencias en combinacion con la resistencia interna fijada, que desarrolla las señales HI, LO de los voltajes de la señal de BUS. Para valores superiores a la mitad del vcore fijan uns bits HI que definen el multiplicador, para valores menores 1/2vcore (VDD) resetean los BIT LO. Estas descripiciones explican el ROL del Comparador decodificando los settings de los puentes en los deseados multiplicadores. Estos puentes abiertos/cerrados fijan una señal de resistencia de los circuitos que posteriormente se decodifican como Signal BUS voltajes que los comparadores lo decodifican en BITS HI-LO a traves de un codigo de multiplicacion correspondiente el que el Modulo Multiplicador traduce en un Multiplicador sobre el System CLOCK (FSB).

*Codigo de Multiplicacion de AMD:

A verrr, como os puedo explicar esto, Tenemos 5 cartulinas, con 5 numeros diferentes: 5,1,2,4,8. Imaginad q el multiplicador responde a la suma de los numeros en las cartulinas. Pues bien, es sencillo ver que podriais fijar el multiplicador 14, dejando hacia arriba(HI bit) la cartulina 8, la 4 y la 2 y las demas boca abajo (LO bit).

Pues es asi como se gestiona el codigo multiplicador. Obviamente hay un codigo binario ya que cada Cartulina tiene solo 2 valores. Ved el multiplicador por lo tanto como el sumatorio de los numeros hacia arriba +3. Esta constante 3 se denominal Remapping Offset.

Me cuesta bastante explicar estos profundos detalles de la señal de multiplicacion la verdad :)

Los TBRED tienen 5 puentes L3 individuales:
5X 1X 2X 4X 8X, CLosed=LO, OPen=HI.

Ya me ireis contando :)

H

TaMy

Te estas refiriendo a como realiza el tema del multiplicador pb<->Cpu, osea voy a explicarlo a mi forma para ver si lo he entendido bien: 5 valores de multiplicador 5x 1x 2x 4x 8x + el offset de 3. La suma de los que estén activados realiza el multipliador que esta siendo usado, osea un 1 0 1 1 0 seria un multiplicador 14x no?? más o menos asi va el tema? y quizá un 0 1 1 1 0 va peor pese a ser inferior al 1 0 0 0 1... te refieres a algo asi???

PD: Lo de que las Nforce2 el FSB no afecta al AGP y a los PCI, es algo falso y verdadero a medias... la gráfica si es buena lo acepta perfectamente cosa que en un chipset KT 333 - KT400 peta directametne, osea el Nforce2 algo hace pero no mantiene los 66 que deveria si te quieres referir a eso xD

PD2: Mi SB Audigy dejo de funcionar en una puesta a 225 de FSB xD pero asi por el morro y para mi que esta quemada totalmente, me la detecta pero me da error en HardWare desde ese dia... osea para tirar a la basura... Por eso cuando le decis a la gente que suba de 200 el FSB en una Nforce2 yo prefiero recomendar que NO LO HAGAN hasta 200 de FSB el limitador de 66 y 33 de AGP y PCI de las nforce2 funciona de fabula, a partir de 200 no lo hace TAN de FABULA... y pasan estas cosas, por eso no lo recomiendo yo nunca... a paritr de ponerte el FSB a 200 sube multiplicador...

PD3: Subir multiplicador en lugar de FSB significa usar más procesador pero el sistema sigue siendo = de rápido (excepto CPU) con lo que ganas más rendimiento subiendo FSB... Por lo que tengo entendido las ATI aguantan bien estas subidas de AGP, las Nvidia no tengo constancia ni de que aguanten ni de que no... eso si... os aviso las SB Audigy no las aguantan xDDDDD

PD4: Te recomiendo primero CAMBIAR si estas a tiempo la obsoleta Kingston 333 (no te permitira tener FSB y DDR sincronizado y la Ram hará un gran cuello de botella. Por almenos una DDR a 3200(400) o mejor a 3500(433) pero nunca a 2600(333) pq eso significa que el máximo FSB que puedes poner sincronizado a tu DDR es de 166 osease menos de lo estrictamente deseable...

  • Una vez tengas 2 DDR a 400 puestas en DUAL, pon por defecto tu micro (166 x Multiplicador) y ahora haz la multiplicación XD te saldrán los mhz reales de tu CPU... Apuntalos.

  • Cuando tengas dicho número cambia el FSB a 200 cambias el Voltaje del chipset de 1.6(fsb 166) a 1.7(fsb 200) luego divide el nº de Mhz reales de tu cpu entre 200 te dará un número que seria el multiplicador necesario para que tu CPU siga puesta como si estuviera por defecto osease sin estar overclockeado. Pones dicho multiplicador en la p.b. (seguramente no da exacto te vas a justo el siguiente superior, ejemplo: si te da 10.33 pues te pones 10.5). Esto sube la temperatura de tu chipset más o menos 1º-2º que no tiene importancia, y deja la temperatura de tu CPU igual ya que no has subido el Vcore. Asi mismo sabes que tu CPU no la tienes practicamente overclockeada.

  • Simplemente haciendo esto ya has ganado un gran paso, 1º Sincronizas la DDR 3200 con tu FSB y haces que el ancho de banda de todo el sistema sea mayor, aunque notes bastante mejoria piensa q tu CPU sigue igual de rápida que antes.

  • Lo puedes dejar asi perfectamente, ya que esto seria lo más indicado si no tienes buena refrigeración o te da miedo hacer oc. etc...etc...

  • Si quieres subir Mhz de CPU, entonces viene el momento de tirar de multiplicador. Ves subiendo de 0.5x en 0.5x el multiplicador hasta que no te pase el test de estabilidad( puedes bajarte uno de los muchos que existen )...

  • Cuando tu ordenador Deja de ser estable... Sube el Vcore en 0.05 una vez y repite el test. Si sigue sin ser estable sube otros 0.05 de nuevo y repite el test.

  • Si lo pasa completamente pues hora de volver a subir el multiplicador (asi hasta que la temperatura por culpa de subir el Vcore tan alto sea tan alta que tu CPU pete directamente (hasta 2400-2500 Mhz reales se llega facilmente)

  • Si ves que subiendo 0.1 de Vcore el test sigue sin pasarse, quiza es un multiplicador "cachondo" xD, suda de el y ver al inmediatamente superior y prueba suerte con el, vuelves a poner el Vcore tal y como estaba antes (osea 0.1 menos) y continuas con lo del test, si vuelve a fallar incluso subiendole 0.1 o como mucho 0.15 puede ser que ya hayas llegado al límite y tu silicio no tire más o que sea otro mult. "cachondo" algo que es poco probable pero posible.

Pregunta para H: Cuando os referis a Vcore nominal de un 2500+ puesto a 3200+ os referis al Vcore que lleva por defecto el 3200+ cierto no??? o os referis al Vcore del 2500+ que es creo que algo inferior al del 3200+ ?

  • Esto ni te
Cretu

me llama la atencion ke con las memorias ddr333 alcanzes sin problemas mas de 200fsb... kuales usas?

ach3chin0

Ajam TaMy :)

NO hermano, IO me refiero al vcore del 2500+ default.
Debido al complejo tema del signaling hay multiplicadores q sencillamente NO rulan decentemente. Por eso NO hay q bloquearse, se pasa a otro y a funcionar...

Os incluyo un mapa de multiplicadores que seguro lo encontrareis interesante ;)

*Puentes L3 de izda a dcha; C=Cerrado=LO, O=Abierto=HI

5X 1X 2X 4X 8X = Bit Values activos en HI = Puente Abierto
3.0X--C--C--C--C--O Para Moviles, ahorro de bateria en modo de Reserva Power NO [INTEL homonimo SpeedStep)
3.5X--O--C--C--C--O Reserved (Remapeado 19X)
4.0X--C--O--C--C--O Para Moviles, ahorro de bateria en modo de Reserva Power NO [INTEL homonimo SpeedStep)
4.5X--O--O--C--C--O Reserved (Remapeado 20x)
5.0X--C--C--O--C--C Multiplicadores 5X, 6X NO estan disponibles en todos los procesadores
5.5X--O--C--O--C--C .
6.0X--C--O--O--C--C
6.5X--O--O--O--C--C
7.0X--C--C--C--O--C
7.5X--O--C--C--O--C
8.0X--C--O--C--O--C
8.5X--O--O--C--O--C
9.0X--C--C--O--O--C
9.5X--O--C--O--O--C
10.0X--C--O--O--O--C 1500+
10.5X--O--O--O--O--C 1600+

11.0X--C--C--C--C--C 1700+
11.5X--O--C--C--C--C 1800+
12.0X--C--O--C--C--C 1900+
12.5X--O--O--C--C--C 2000+, 2600+/166MHz

13.0X--C--C--O--C--O 2100+, 2700+/166MHz
13.5X--O--C--O--C--O 2200+, 2800+/166MHz
14.0X--C--O--O--C--O 2900+/166MHz
14.5X--O--O--O--C--O Reservado (Remapeado 21X)**
15.0X--C--C--C--O--O 2400+
15.5X--O--C--C--O--O Reserved (Remapeado 22X)
16.0X--C--O--C--O--O 2600+
16.5X--O--O--C--O--O
17.0X--C--C--O--O--O
17.5X--O--C--O--O--O AMD Documented Remap To 18X
18.0X--C--O--O--O--O Reserved (Remapeado 23X)
18.5X--O--O--O--O--O Reserved (Remapeado 24X)

Realmente se pueden trastear con todos los multiplicadoresy con los voltajes igualmente :)

Estas son las señales de BUS que se implican en el tema de la multiplicacion:

FID Multiplier ID y BP_FID FSB

Esto nos puede ayudar a entender el modelo fisico y electrico del K7, en concreto del TBRED que tiene una politica de señal multiplicadora diferente del Tbird y a su vez diferente del Palomino.

Se descubrio una correlacion entre los patrones OPEN/CLOSED de los puentes L5 en los chips y los patrones del FID FSB Multiplier ID y VID vcore HI/LO, esto esta en los datasheets de AMD, es decir algo veridico.
Finalmente se descubrio que el bloque del multiplicador mediante el puente L5 y viendo una serie de enlaces entre un pin no mapeado (BP_FID) y su señal de Multiplicacion del BUS

H

TaMy

Osea con VCore nominal de 2500+ tenerlo a 3200+ (2200 reales), io aviso, con el 2600+ (T.B.) que tengo no pasa esto, si subo multiplicador con el Vcore nominal, a 2300 Reales (recordemos que va a 2066 en default 166/12.5) deja de ser estable... XD (tengo que hacerme con un Barton en mi PC para trastear con el más xD

Respecto a los multiplicadores gracias por la explicación, miraré a ver si encuentro uno cercano al que tengo para bajarle mi Vcore (ya que está ahora mismo a 0.15 subido del Vcore nominal) aparte hay una curiosidad que me fastidia en parte, que pese yo ponerlo a 1.75 con el tester me marca 1.71 más o menos, osea siempre me da MENOS, incluso en nominal que es 1.6 (si no recuerdo mal) me da 1.57 más o menos, osea siempre me da menos de los que le indico, es algo comun esto?

Por cierto sobre la SB. Audigy petada puede haber sido perfectamente por poner el FSB a 225 no? (es que fue ponerlo, funcionar y no detectarla ya, luego por mucho que baje al FSB que suelo tener (200) no se recupero xD), por eso le aviso a gosub que 220 de fsb puede petarle alguna cosa)...

PD: Pq siempre se habla más de OC hablando de AMD que de P4??? Achechino haznos un textos de estos que aunque yo no tenga P4 me interesaria saber los pasos que utilizas para oc un p4 (devido a que de vez en cuando monto alguno y me gustaria saber la forma correcta de hacerle oc)...

PD2: ( contestación al post siguiente de H ) Mercy a ver si para dentro de unos dias que cobro el mes (xD) me busco por toda Barcelona dicho modelo de 2500+ que ahora va sobre los 90 Euros y el 2600+ este siempre se lo puedo dar a mi hermano que será mazo feliz con el xD...

ach3chin0

TaMy:

Trastea mas con tus multiplicadores, realmente el axioma es "Encontrar la mejor combinacion FSBxSeñal multiplicadora que impulse tu micro mas lejos y con vcore minimo"

Aquí se queda resumido toooooda la filosofia del OC (a mi modo de ver), hay otras tendencias que propugnan unos altos valores de vcore en todo momento para evitar los ruidos electromagneticos. IO indico unos valores del VID (voltaje Identity) mas modestos ya que unos valores tan severos de voltaje inciden MUY negativamente sobre la vida de nuestros integrados.

A ver si te apañas un BUEN Barton 2500+, dile a GOSUB que te pase todas las referencias del suyo..., si no recuerdo mal era asi:

2500+ KV4D ; AXQEA ; No recuerdo el lote ni la posicion relativa en el waffer, eso q te lo diga el :)

H

E

emmm TAMY & ACH3...

AMD 2500+ BARTON. De mejor a peor:

AQZCA
AQXDA
AQXEA
AQXCA
AQUEA
AQUCA
AQUBA

El que ciertos factores de multiplicación no sean aceptados por el procesador, hace lo que alguna vez he comentado de que la máquina no llegue a arrancar ni la bios siguiera y que haya que hacer un CMOS para que vuelva a funcionar????

Un saludo.

Editado: Este post se merece la calificación de guía solo por la información que lleva ya acumulada :)...

Wax

ya de paso , tengo una Abit nf7-s y barton 2500+(AQZCA)y si lo pongo a 2200 reales la temperatura me suele estar sobre 51º.
Es una temperatura optima?

XtreamZ

pues yo cuando lo pongo a 2200 (200x11 o 166x13)
Me da temperaturas de 42-50ºC

Y cuando abro la caja, me baja 3-4ºC

T

k post mas interesante :D. Justamente me acabo de pillar la abit7s-2.0 un barton 2500+ y memorias 2x 256 (400) ;). Yo ahora mismo lo tengo puesto a 2.3 y con temperatura de 40ºC, voy con slk900u.

Creeis k puedo subirle aun mas? lo tengo puesto a 200*11.5 y el vcore por defecto 1.65. Si le pongo multiplicador *12 se me inicia el pc, pero no arranca win xp :. k aconsejais?

TaMy

TRaGiC esta bien la Temp, con un T.B. y el mismo Disipador tengo 44-45 Grados en full a 2500 reales, (a 2200 si que tengo algo menos pq ya tengo el Vcore nominal, pero a 2300, 2400, 2500 que tengo que subirle el Vcore ya sube hasta los 45 que he dicho antes en full, estoy viendo que Barton se calienta incluso menos que T.B.

ach3chin0

Mira la pral diferencia entre AMD e INTEL es la arquitectura de la pipeline.

En muxos foros especializados donde se discute de arquitecturas de procesadores hay una palabra que se repite constantemente y es esta:

PIPELINE: Pues bien, la definicion es sencilla y se podria comparar con una analogia de una pizzeria.

Hay una cadena de pizzeros y cada uno con un trabajo especializado:

1) Hacen la masa de la pizza
2) Dan la masa de pan , aspecto de pizza (COn el rodillo)
3) Echan ingredientes determinados (Jamon, Queso, Champiñones, Pepperoni, etc...
4) Encargados del Horno
5) "Moteros" encargados de las entregas de las pizzas.

Una vez completadas cada tarea, hecha por un grupo en concreto pasa a la otra y asi sucesivamente, cuando la pizza se entrega, Otra vez se reinicia el proceso y asi sucesivamente...

La pregunta q os hareis ( IO me la hacia tb) seria:

Porque no tienen a una sola persona haciendo todas las tareas?, serian 4 sueldos menos claramente, ?¿

Pues bien, esto es debido que para cada tarea de la "cadena" hacen falta unas habilidades concretas. No todos tienen carnet de moto, ni tienen habilidad para amasar y estirar la pizza, ni soportan bien las altas temperaturas del horno, etc...

Asi que es una manera mas eficiente la de tener a 5 tipos trabajadores haciendo bien su trabajo.

Si podemos tener nuestra cadena llena constantemente y mantener a nuestros empleados trabajando a la vez, podemos sacar muxas pizzas de nuestra factoria. Asi que esto nos daria una idea de lo q es una pipeline de 5 pasos. En concreto y en argot seria una Fully Pipelined of 5 stages. Es porque todos los pasos estan llenos a la vez y NO HAY DELAYS entre ellos.

Una vez entendido el concepto de pipeline, volvamos a nuestro mundo de los ordenadores, donde la cosa se complica ciertamente. Como explique en otro post mio de Intel vs AMD, los procesadores repiten 4 pasos basicos una y otra vez para poder ejecutar un codigo.

1) Fetching (Agarrado de 1 instruccion desde su direccionamiento concreto)
2) Almacenado de instruccion y decodificacion
3) Ejecucion de la instruccion [Paso d Ejecucion].
4) Repiten los pasos 1-3

EL paso de ejecucion en caso de que sea de un ADD seria:
1) Leer contenidos del registro A y B
2) Suma logica de A + B
3) Escritura de la Adicion (ADD) en el registro A.

Asi que hay 4 pasos claves: FETCHING, DECODING, EXECUTING y escritura de los resultados de la instruccion desde la ALU a sus registro de destino.

En procesadores modernos estos 4 pasos se repiten de manera ciclica para poder ejecutar un programa. SON LOS 4 PASOS BASICOS de la Pipeline RISC.

Volviendo a la pizzeria. Cada unos de estos pasos representan uno de nuestros pasos. Los primeros procesadores lo hacian de forma ineficiente, es decir como nuestra cadena de la pizzeria, solo hay una instruccion en la pipeline y esa instruccion va moviendose por todos los pasos de la pipeline y hace que todos los pasos anteriores esten esperando a que se termine para poder empezar a trabajar de nuevo (Estados IDLE de la pipeline). Este resultado nos lleva a que haya un retardo de 10ms en nuestra pipeline en cada paso y por tanto que el tiempo en penalizaciones se acumule. 10x4=40ms

Esto se arreglo cuando se introdujo el termino: ***Pipelined Execution
Este concepto hace que la pipeline del micro trabaje de forma constante y que la pipeline pueda trabajar con una instruccion y luego otra y asi sucesivamente sin tener que estar esperando a los siguentes pasos anteriores. Esto es que si cada paso dura 10ms, una pipeline FULL procesa 1 instruccion cada 10 ms y NO 40.

La division de Front-END y Back-END es por todos vosotros conocida, como todos sabeis ya, las instrucciones fetched de la DRAM o el CACHE tiene q ser decodificada para ser ejecutada. La tarea de Fetching y Decoding se realiza en el FRONT-end , posteriormente se ejecuta en el BACK-end, que alberga unidades funcionales de ejecucion (LSU. IEU, FPU).

Pues bien, todas las partes integrantes de la CPU, trabajan con un delay de 1 clock (INTEL Nwood 0,5clk). Asi que cuanto mas intern clock trabaje un micro, mas rapido trabaja esta pipeline y mas rapido puede moverse las instrucciones en nuestra pipeline.

Cada paso de la pipeline le cuesta 1 CLK. En nuestra pizzeria, podemos pensar que tenemos a nuestros empleados trabajando y que en cada paso de la cadena debe hacerse en 10 minutos JUSTOS.

Debido a esta Naturaleza de la pipeline, una de las mayores dificultades de los Diseñadores de CPU es ese "equilibrio" dinamico entre los pasos de la pipeline y que 1 paso no tenga que hacer mas trabajo q otro. Debe haber un proceso distribuido de la carga del proceso de esa informacion y que no hay por lo tanto retardos o burbujas en nuestra pipeline.

La esencia te todo esto es claramente, q la PIPELINE permite a la CPU procesar multiples instrucciones al mismo tiempo. El modelo de antes q os he explicado seria un modelo obsoleto de una CPU antigua. Ahora podeis entender que se pueden introducir varias instrucciones en la pipeline. Esto es el SUPERSCALAR EXECUTING.

Como todos sabreis, no todas las pipelines son de 4 pasos, ya que estos 4 representan la minima labor de computacion o proceso de instrucciones. La mayoria de los micros actuales, tienen esas 4 pipelines sub-divididas en pasos mas pequeños. Debida a la relacion de q cuantos mas pasos y mas cortos sean esos pasos de pipeline, podemos conseguir una intern clock (clock speed) mas rapida.

NO hara muxo que las DIEŽs no podian mas que contener unos pocos integrados la verdad, muxas de las partes intimamente ligadas al Back-END estaban distribuidas en circuitos separados. 1 chip contenia el ALU, otro los GPRŽs, otro la Unidad de Control, etc...

Estas maquinas eran claramente lentas y MUY caras ya que tenian muxos xips y cada uno con un coste de implementacion. Con la llegada del INTEL 4004 en 1973 todo cambio. Este 4004 fue el primer microprocesador en 1 solo xip. Este 4004 tenia 16 registros de 4bit, 1 ALU, 1 unidad de decodificacion de instrucciones y 1 Unidad de Control. Durante las decadas posteriores al 4004, las densidades de los transistores han aumentado ENORMEMENTE. Una de estas razones es la q les impulso a integrar varias ALUŽs trabajando en paralelo, asi que podian trabajar con mas de 1 Escalar (o Entero para nuestros propositos) y se les denomino Maquinas Superescalares. INtel en 1993 introdujo el Pentium con sus 2 ALUŽs impulsando la arquitectura x86 al standard Superescalar. Por lo tanto, AMD e INTEL sin superescalares los dos [ No recuerdo quien me preguntaba esta duda].

El procesador SUperescalar añade complejidad a nuestro flujo de datos en el micro. Ahora la unidad de control de la CPU tiene q reordenar la instruccion lineal para que algunas de sus instrucciones se puedan ejecutar en paralelo (BAck-END ALUx2).

Recordad que la DRAM solo ve 1 solo flujo de codigo y 1 solo flujo de datos y q posteriormente estos 2 flujos se unen en la CPU y son inyectados hacia las 2xALU en paralelo (INTEL).

En un diseño SUPERESCALAR necesitaremos gran cantidad de Hardwiring para poder conectar 1 ALU con su gemela.

Volviendo al modelo de BACK END del micro, que tenia integrado el ALU, este tiene un solo paso de pipeline ya que las operaciones aritmetico-logicas son las mas sencillas y necesitan 1 solo paso de pipeline. Sin embargo la FPU, tiene 4 pasos de pipeline ya que las operaciones de coma flotante son mas complejas y tardan mas CLK en completarse, para tal efecto los diseñadores dividen la FPU en multiples pasos de 1 solo ciclo.

Si pensamos en el K7 hemos de saber que implementan Out Of Order execution, Vector Processing y cada uno tiene un diseño Superescalar. El K7 cuenta con unos 22 millones de transistores. K7 es sin duda una bestia de CPU con una pipeline realmente optimizada y unas unidades funcionales realmente alucinantes. El Back end del K7 cuenta con unas Unidades de ejecucion de enteros increibles, una FPUx3 muy poderosa y una Unidad de procesamiento vectorial Altivec + 3DNow!

El esquema de decodificacion del K7 (Front-End recordad) tiene q verselas con el x86 ISA. Sin duda el K7 paga un gran precio en terminos de recursos de transistores y de unos Ciclos de Reloj perdidos para poder asegurarse de una compatibilidad con ISA-CLOCK, cosa q me parece excelente ya que asi se evitan problemas de "traduccion" q conllevaria a probs d compatibilidad que a su vez llevarian al poderoso K7 a la derrota comercial.

AMD añade un cache precodigo para poder trabajar con los tamaños variables de las instrucciones x86 y las decodifica en MacroOps, estas estan compuestas a su vez de 1 o 2 instrucciones mas pequeñas , como pueden ser un LOAD, un STORE, estas se llaman OPS. De esta manera el K7 emula el x86 ISA usando tecnicas RISC claramente

Para ello el K7 usa 2 pipelines separadas de decodificacion. TIene un Hardware decoder que hace lo suyo con las instrucciones mas pequeñas x86 y un decodificador de microcodes para hacer lo suyo con instrucciones x86 mas largas y complejas. Las instrucciones complejas son pocas y el Hardware decoder es el q lleva la batuta en el tema de compatibilidad del ISA x86. Asi que vemos las penalizaciones del K7 a la hora de la compatibilidad con ISAx86. Esto afecta por lo tanto a la profundidad de la pipeline, exactamente 3 pasos mas son introducidos...

La gran cuestion es que, como este lastre del x86 afecta al rendimiento del K7-----> Pues para eso tenemos q explicar otra unidad funcional:

*Unidad de Branch Prediction:

[Esto esta REALMENTE MUY MUY interesante :) ]

Como sabeis, tener una pipeline profunda es algo bueno (Puedes obtener mayores frecuencias de reloj) pero conlleva ciertos riesgos. Actualmente los FRONT-END de los procesadores pueden encontrarse un construccion condicional llamada "IF-THEN-ELSE". Esta puede cambiar el flujo de datos dependiendo del resultado de un calculo. Las CPUŽs mas antiguas tenian q estar esperando hasta que esta condicion era evaluada para ver sencillamente por donde "inclinarse"
y las pipelines estaban esperando y como no entrando en IDLE.

Ahi es donde entra la unidad de prediccion de Branch [Lo siento pero no tengo una traduccion para este termino]. El Branch prediction es sin duda el encargado de predecir que THEN sera cogido e inmediatamente ejecutar las instrucciones branch mientras el IF es evaluado. Es decir se adelanta al problema del THEN mientras evalua el IF.

El Branch prediction ayuda por lo tanto a mantener la pipeline llena y que los ciclos de reloj NO se malgasten, ni que en la pipeline incurra una burbuja. La pipeline del K7 es de 10-15 pasos, imaginaos una burbuja de 15 ciclos, BUFFF, desperdicio de tarea, asi que entendereis q AMD gaste MUUXOS integrados en su unidad de Prediccion Branch, ya q es clave en su brutal rendimiento :)

El K7 puede "escupir" 3 MacroOps por ciclo hacia cualquiera de sus 9 unidades de ejecucion (Front-End)

El Back-END del K7 tiene caracteristicas Superescalares y de Ejecucion Fuera de Rango (OOO)
Estas Out-Of-Order requieren gran cantidad de transistores y una adicion MUY MUY seria a la arquitectura de la CPU. Os resumo lo q es el OOO.

Los micros modernos tienen una serie de recursos limitados, estos son 2:

*Registros limitados (Almacenamiento de Datos)
*Unidades de Ejecucion (Mastica y escupe datos)

Para mantener al micro trabajando a maximo rendimiento, tenemos q tener la pipeline FULL-Working es decir asegurar un flujo de datos constantes hacia las unidades de ejecucion. Esto conlleva una reorganizacion profunda de este flujo de instrucciones de diferente manera a la forma natural de su llegada. El micro ha de ser inteligente y tiene que tener MUXOS buffers para poder ejecutar las instrucciones de la manera mas eficiente.

Asi que la ilusion de un flujo IN-ORDER conlleva un retirado de instrucciones IN-ORDER tb. Es decir del mismo modo que entran desde la DRAM o cache y se vuelven a reescribir ahi. Esto quiere decir q una CPU con core Out-Of-Order tiene q recordar todas las instrucciones y sus fases correspondientes de ejecucion para que pueda utilizarlas y retirarlas (rewrite) de la manera mas eficiente.

Cuando hablamos de Unidades de Ejecucion de Enteros, el K7 es la gran bestia!!!

Con sus 3 IEU full pipelined es como decir q tiene mas caballos para procesar enteros q iNTEL. Asi que el K7 tiene tb gran cantidad de transistores dedicados a sus FPUŽs. Cada unidad son FADD,FMUL y FStore. Cada una especializada y puede realizar calculos de coma flotante muy criticos y por supuesto en paralelo :)

El K7 usa una circuiteria en concreto para realizar sus calculos vectoriales 3DNow! y MMX, especificamente si no recuerdo mal 7 registros de 64bit...

...Y ya no se me ocurre contaros nada mas del K7. Son muxas las cosas q me dejo, pero espero que el proximo dia leais "full pipelined" entendais lo q significa y os acordeis de mi texto

Espero haber aclarado tus dudas, mirate el otro post de arquitectura del pIV en el thread AMD vs INTEL :)

H

THEPERRY

Yo tengo una pregunta y es la siguiente:
Si tienes el FSB a 166 para subirlo a 200 pues lo q haces es bajar el multiplicador ,hasta ahi correcto.Si luego quieres hacer OC tendras q ir subiendo el multiplicador,correcto tb.Pero la cuestion es q si hay q subir el vcore para poner el multiplicador hasta como lo tenias antes de bajarlo para poner el FSB a 200.QUiero decir q si antes ya rulaba mucho mas alto despues de q pongas el fsb y lo bajes no habra problemas en subir el multiplier hasta ponerlo como lo tenias cuando el FSB era 166 no???Oh aunq lo pongas como cuando tenias el FSB a 166 hay q subirlo????

XtreamZ

H, dado la GRAN informacion de Micros que aqui nos brindas (junto con TaMy), estaria bien, que incluyeras esto como FAQ en el supuesto caso de que abrais un nuevo sub-foro de OC.

Y no es porque lo haya puesto yo xddd, que la informacion de profesionales y técnicos la poneis H y TaMy :)

TaMy

Yo no, la info la pone H, yo solo le hago preguntas :)

THEPERRY: #21 Si conservas los mismos Mhz o muy similares el Vcore nominal (osea el que viene por defecto deveria bastarse y sobrarse para funcionar correctamente)...

Usuarios habituales