Quelle sera la taille de la base de données MySQL, Si je sauvegarde le titre et URL Toutes les pages Web?

À des fins académiques, je souhaite créer un indexeur Web simple qui analyse Internet et enregistre toutes les pages trouvées de la base de données. MySQL avec leurs titres et les URL utilisant cette table (Le contenu de la page n'est pas enregistré):

id: entier AUTO_INCREMENT PRI

Nom: varchar (100)

url: varchar (500)

Quelle sera la taille de cette base de données environ? Est-ce d'environ des centaines de MB, GB ou environ TB? Remercier.
Invité:

Hannah

Confirmation de:

Pour obtenir une réponse rapide et sale, faites défiler le bas. Sinon, lisez mon histoire pour comprendre comment je suis arrivé à ces chiffres.

DANS 2008 an Google Publié plusieurs numéros pouvant vous intéresser. A cette époque araignées Google connaissait plus

1 mille milliards (c'est 1000000000000) Unique URL

. Il convient de noter que

pas tous ces URL index

. Dans votre cas, nous allons ressembler à nous

sommes

Je vais tout indexer. Vous pouvez lire cette annonce ici:
http://googleblog.blogspot.com ... .html
Taille actuelle votre

id

La colonne ne permet que

2000000000

URL dans l'index. Si tu le fais

unsigned int

Vous pouvez serrer

4 milliard

, Mais, en supposant presque une échelle sans fin, vous voulez utiliser

unsigned bigint

En fait, vous voulez utiliser uuid ou quelque chose comme ça, vous pouvez générer des identifiants en même temps (et de plusieurs hôtes), Mais pour cet exercice, nous supposons que nous utilisons

unsigned bigint

.

Donc, théoriquement, nous avons cette table infiniment évolutive MySQL, qui est défini comme suit:

Identifiant:

unsigned bigint AUTO_INCREMENT

Titre:

varchar(100)

URL:

varchar(500)

Conditions requises pour le référentiel pour chacune de ces colonnes:

id: 8 octet

title: 100 + 1 = 101 octet

url: 500 + 2 = 502 Octet

La taille de la ligne *: 502 + 101 + 8 =

611 octet

(Excluant les frais généraux, les titres de tables, index, etc.)

Lien:
http://dev.mysql.com/doc/refma ... .html
Maintenant, pour obtenir la taille théorique de la table, nous le multiplierons simplement sur notre

1 mille milliards

Unique URL:

611 octet * 1 000 000 000 000 URLS = 611 000 000 000 000 octet = ~

555,7 Téraoctet.

C'est tout. 1 Les URL de billions multipliées par la taille de l'installation de stockage que nous définissons, prendra presque 556 Données téraoctet. Nous devrons également ajouter des données pour des index, des frais généraux aux tables et d'autres choses. De même, nous pourrions

soustraire

données parce que pour notre exercice, j'ai supposé que chacun

varchar

La colonne a été remplie à un maximum. J'espère que cela aidera.

(En outre, juste une brève explication: je sais que les colonnes bigint ne sont pas presque infiniques, mais la mathématique est plus facile lorsque vous ne vous inquiétez pas de la logistique)

Pour répondre aux questions, connectez-vous ou registre