Direct Connect ExpressRoute : Guide Complet 2024 | Ciro Cloud

Comparatif Direct Connect vs ExpressRoute : optimisez votre connectivité cloud hybride. Latence 2-5ms, SLA 99,95%. Guide technique gratuit.

Une entreprise de e-commerce européen a perdu 2,3 millions d'euros en 72 heures parce qu'un pic de latence de 180 ms sur sa liaison Internet avait mis hors ligne son moteur de recommandations hébergé sur AWS. Ce n'est pas un cas isolé. Selon Flexera 2024, 76 % des entreprises industrielles signalent des problèmes de performance réseau comme obstacle majeur à l'adoption cloud. En tant qu'architecte ayant migré plus de 40 workloads critiques vers AWS et Azure, je peux affirmer sans hésitation : la connectivité cloud conditionne directement le succès ou l'échec d'une stratégie hybride.

Le Problème Fondamental de la Connectivité Cloud Publique

Pourquoi l'Internet public ne suffit plus

Le trafic Internet standard traverse des réseaux autonomes multiples, chacun appliquant ses propres politiques de routage, ses limitations de bande passante et ses points de congestion. Pour une application nécessitant 99,99 % de disponibilité avec une latence prévisible, cette approche devient un facteur de risque critique. La gigue (variance de latence) sur une connexion Internet partagée peut varier de 5 ms à 400 ms en fonction de la charge réseau régionale.

Les conséquences opérationnelles sont mesurables :

Dégradation des performances applicatives : les API REST dépassant 150 ms de round-trip déclenchent des timeouts dans les microservices Java Spring Boot configurés avec Hystrix
Incapacité à respecter les SLA internes : les engagements contractuels de 99,95 % deviennent impossibles à tenir sans chemin réseau dédié
Exposition aux fuites de données : le trafic non chiffré traverse des segments réseau non maîtrisés, posant des problèmes de conformité RGPD pour les données personnelles

Les limites spécifiques pour chaque cloud provider

AWS Direct Connect** offre des speeds de 50 Mbps à 100 Gbps via des partenaires de colocalisation ou des emplacements dédiés. La latence typique est de 2 à 5 ms vers les services d'une même région, contre 20 à 50 ms via Internet public. Le modèle de tarification comprend des frais de port horaire (à partir de 0,03 $/heure pour un port 1 Gbps) plus des frais de transfert par Go.

Azure ExpressRoute propose des vitesses de 50 Mbps à 100 Gbps avec des options de redondance native via le modèle "Active-Active". La latence interne est comparable à Direct Connect, mais ExpressRoute inclut nativement le chiffrement MACsec au niveau 2 pour les connexions 10 Gbps et supérieures. Les frais commencent à 0,025 $/heure pour un port 1 Gbps, avec des tarifs dégressifs selon le volume.

Google Cloud Interconnect complète l'offre avec des options de colocalisation et de partenaire, ciblant particulièrement les workloads Anthos et les architectures Kubernetes multi-régions.

Architecture Technique des Liaisons Dédiées

Comprendre les Virtual Interfaces (VIF)

Une Virtual Interface est le canal logique qui achemine votre trafic VLAN-taggué vers les ressources cloud. La configuration correcte du VLAN ID est critique : un identifiant mal configuré provoque des tempêtes de broadcast et une saturation du MTU à 1522 octets (contre 1500 standard).

Types de Virtual Interfaces :

Private VIF : accède aux ressources VPC/VNet privées (EC2, S3 via VPC Endpoint, Azure Virtual Machines). Le trafic ne traverse jamais l'Internet public.
Public VIF : permet d'accéder aux services AWS/Azure publics avec des adresses IP publiques, tout en évitant les frais de transfert Internet pour les gros volumes
Transit VIF (AWS uniquement) : route le trafic via Direct Connect Gateway vers plusieurs régions ou comptes AWS

Protocole BGP : configuration et bonnes pratiques

Le Border Gateway Protocol établit le peering dynamique entre votre routeur on-premises et le routeur cloud. Une session BGP mal configurée peut propager des routes incorrectes et black-holer le trafic de production.

Configuration type pour un routeur Cisco IOS-XE :

router bgp 65001
 neighbor 169.254.255.1 remote-as 7224
 neighbor 169.254.255.1 description "AWS Direct Connect"
 neighbor 169.254.255.1 activate
 !
 address-family ipv4 unicast
  neighbor 169.254.255.1 default-originate
  network 10.0.0.0/8
  network 172.16.0.0/12
 exit-address-family

Pour Azure ExpressRoute avec routeur Juniper MX :

protocols bgp {
    group azure-peer {
        type external;
        local-address 169.254.255.2;
        peer-as 12076;
        neighbor 169.254.255.1 {
            description "Azure ExpressRoute Primary";
            export export-policy;
            import import-policy;
        }
    }
}

Points critiques de configuration :

Le MD5 password entre votre routeur et le routeur cloud doit correspondre exactement, sinon la session TCP ne s'établit pas
Le MTU doit être configuré à 1540 ou 1548 octets pour accommoder les headers VLAN et encapsulation
La limitation de prefics BGP (par défaut 100, modifiable) évite une surcharge de la table de routage

Topologie de redondance : Active-Active vs Active-Passive

Pour les workloads production, la redondance n'est pas négociable. L'architecture recommandée utilise deux circuits Direct Connect ou ExpressRoute vers des emplacements différents, avec des AS paths prepending pour préférés le circuit principal.

La configuration Active-Active multiplie la bande passante effective mais requiert une configuration ECMP (Equal-Cost Multi-Path) stricte. L'Active-Passive offre une simplicité opérationnelle supérieure au prix d'une sous-utilisation du circuit secondaire.

Guide d'Implémentation Pratique

Étape 1 : Dimensionnement et choix de l'emplacement

Avant de commander un circuit, calculez vos besoins réels avec un monitoring d'au moins 30 jours. L'erreur fréquente consiste à sur-dimensionner "pour la croissance", ce qui génère des coûts inutiles. Un port 10 Gbps en ExpressRoute coûte environ 180 $/mois en frais de port, plus 0,02 $/Go au-delà de 10 To inclus.

Outils de diagnostic recommandés :

AWS CloudWatch Network Insights : mesure la latence et le throughput de vos flux applicatifs
Azure Network Watcher : fournit des topology maps et des traces de paquets pour diagnostiquer les problèmes de connectivité
SolarWinds Network Performance Monitor : corrélation entre latence applicative et métriques réseau

Étape 2 : Provisioning via Infrastructure as Code

L'automatisation garantit la répétabilité et réduit les erreurs de configuration manuelle. Voici un module Terraform pour AWS Direct Connect :

resource "aws_dx_connection" "primary" {
  name          = "production-dx-primary"
  location      = "EqDC2"
  bandwidth     = "1Gbps"
  provider_name = "aws"
  tags = {
    Environment = "production"
    CostCenter  = "infrastructure"
  }
}

resource "aws_dx_private_virtual_interface" "main" {
  connection_id = aws_dx_connection.primary.id
  vlan          = 100
  bgp_asn       = 65001
  customer_address    = "169.254.255.2/30"
  amazon_address      = "169.254.255.1/30"
  virtual_interface_name = "prod-private-vif"
  vpn_gateway_id      = aws_vpn_gateway.main.id
  
  bgp_auth_key = var.dx_bgp_password
}

resource "aws_dx_gateway" "main" {
  name = "main-gateway"
  amazon_side_asn = "64512"
}

Pour Azure, la configuration ARM Template ou BICEP equivalente :

{
  "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
  "contentVersion": "1.0.0.0",
  "resources": [
    {
      "type": "Microsoft.Network/expressRouteCircuits",
      "apiVersion": "2023-04-01",
      "name": "prod-expressroute",
      "location": "westeurope",
      "sku": {
        "family": "UnlimitedData",
        "tier": "Standard",
        "name": "Standard_1_Gbps"
      },
      "properties": {
        "authorizations": [],
        "circuitProvisioningState": "Enabled",
        "serviceProviderProperties": {
          "serviceProviderName": "Equinix",
          "peeringLocation": "Amsterdam",
          "bandwidthInMbps": 1000
        }
      }
    }
  ]
}

Étape 3 : Validation et tests de performance

Après le provisioning, une séquence de tests systématiques est indispensable. L'outil iPerf3 mesure le throughput effectif entre vos endpoints. Pour une liaison 1 Gbps, visez au moins 950 Mbps de throughput TCP bidirectionnel avec des bursts de 60 secondes.

Commandes de validation critiques :

# Test de latence via ICMP
ping -c 100 10.0.1.5

# Test de throughput avec iPerf3
# Côté serveur (on-premises)
iperf3 -s -i 1

# Côté client (VPC)
iperf3 -c 10.0.1.5 -P 4 -t 60 -R

# Validation de la MTU avec jumbo frames
tracepath -l 1500 target_ip
tracepath -l 9000 target_ip

La perte de paquets ne doit pas dépasser 0,01 % en conditions normales. Une perte supérieure indique un problème de duplex ou de configuration de QoS.

Les Pièges Courants et Comment les Éviter

Piège 1 : Négliger la symétrie du trafic et la QoS

Beaucoup d'architectes se concentrent sur le download depuis le cloud mais oublient le trafic upload. Un système de backup intensif vers S3 ou Azure Blob Storage peut saturer la liaison entrante si les windows size TCP ne sont pas correctement dimensionnés.

Solution : implémentez une politique QoS avec 4 classes de service minimum. Le trafic voix/vidéo temps-réel (DSCP 46) doit être prioritaire sur le trafic batch (DSCP 0). Sur les routeurs Cisco, la configuration ressemble à :

class-map match-any REALTIME
 match dscp ef
! 
policy-map QOS-POLICY
 class REALTIME
  priority percent 30
 class class-default
  fair-queue

Piège 2 : Sous-estimer les coûts de transfert de données

Les frais de sortie Internet depuis AWS peuvent atteindre 0,09 $/Go (zone UE). Une migration de base de données de 10 To vers le cloud génère potentiellement 900 $ de frais de sortie, hors coût de la bande passante elle-même.

Solution : utilisez une Public VIF pour les transferts massifs vers S3 ou Azure Storage. Les données sortantes vers les services AWS publics via Direct Connect sont facturées à 0,02 $/Go (réduction de 77 % par rapport au tarif Internet).

Piège 3 : Configurer BGP avec des TTL trop bas

Par défaut, le BGP utilise un TTL de 255. Certains routeurs on-premises mal configurés diminuent ce TTL à chaque hop, causant l'expiration du paquet avant d'atteindre le neighbor cloud.

Solution : vérifiez la configuration neighbor <ip> ttl-security hops <value> et comparez avec le requirement minimum de 3 hops pour AWS Direct Connect.

Piège 4 : Ignorer le peering private entre régions

Si vous avez des workloads cross-region (par exemple, EC2 en Irlande et S3 en Francfort), le trafic inter-régional traverse l'Internet public par défaut. Les frais de transfert inter-région AWS (0,02 $/Go) s'appliquent, et la latence peut atteindre 30 ms.

Solution : configurez une DX Gateway avec Transit VIF ou utilisez Azure Virtual WAN pour router le trafic inter-région via le backbone privé du cloud provider.

Piège 5 : Ne pas planifier la capacité pour les pics

Un circuit Direct Connect de 1 Gbps coûte environ 0,30 $/heure. Doubler la capacité à 2 Gbps ne coûte que 0,60 $/heure. Pourtant, beaucoup d'équipes ne prévoient pas de burst capacity pour les événements de scaling soudain.

Solution : utilisez AWS SiteLink ou Azure Route Server avec une bande passante secondaire lower-cost comme failover automatique. Configurez des alertes CloudWatch sur l'utilisation de la Virtual Interface :

aws cloudwatch put-metric-alarm \
  --alarm-name "DX-Utilization-High" \
  --alarm-actions "arn:aws:sns:eu-west-1:123456789:ops-alerts" \
  --metric-name "ConnectionBpsIngress" \
  --namespace AWS/DX \
  --threshold 800000000 \
  --period 300 \
  --evaluation-periods 2 \
  --statistic Average

Recommandations Stratégiques et Feuille de Route

Use Direct Connect quand :

Votre workload exige une latence stable inférieure à 10 ms (bases de données transactionnelles, systèmes de trading, applications de réalité augmentée)
Vous transférez régulièrement plus de 5 To/mois vers les services de stockage objet
Vos exigences de conformité (SOC 2, HIPAA, PCI-DSS) interdisent le transit par l'Internet public
Vous exploitez des services，专 pour des workloads de HPC ou de machine learning distribuée

Use ExpressRoute quand :

votre environnement est principalement Azure-centric avec forte dépendance à Microsoft 365, Dynamics 365 ou Azure AD
Vous nécessite le chiffrement MACsec natif sans configuration additionnelle
Vous utilisez des services SAP sur Azure nécessitant une bande passante garantie
Votre topology inclut des Hybrid Runs avec System Center et Active Directory Federation Services

Plan d'action sur 90 jours

Jours 1-30 : Audit et monitoring

Déployer un monitoring de référence avec au minimum 30 jours de données de trafic
Identifier les applications critiques sensibles à la latence (seuil : 50 ms RTT)
Documenter les exigences de conformité réseau

Jours 31-60 : Proof of Concept

Commander un circuit 1 Gbps via un partenaire CSP (Equinix, Megaport, Console Connect)
Configurer une Private VIF de test avec un VPC /19 ou VNet équivalent
Valider les métriques de performance contre votre baseline Internet

Jours 61-90 : Migration et cutover

Migrer le trafic des applications les moins critiques en premier
Implémenter le monitoring de service-level avec CloudWatch ou Azure Monitor
Configurer les alertes et runbooks d'escalation automatisés

La liaison hybride n'est plus un luxe d'entreprise mais un prérequis pour toute architecture cloud sérieuse. Les frais mensuels d'une connexion dédiée se justifient dès que votre organisation dépasse 500 Go de transfert mensuel ou opère des workloads à latence critique. Le retour sur investissement se mesure en réduction des incidents, en amélioration des SLA et en élimination des surprises budgétaires sur les factures de bande passante Internet.

Insights cloud hebdomadaires — gratuit

Guides pratiques sur les coûts cloud, la sécurité et la stratégie. Sans spam.