7.3.2 Preparación de los Datos

Nativamente Weka trabaja con un formato denominado arff, acrónimo de Attribute-Relation File Format.

Este formato está compuesto por una estructura claramente diferenciada en tres partes:
 

  • Cabecera: Se define el nombre de la relación. Su formato es el siguiente:

@relation <nombre-de-la-relación>

  • Declaraciones de atributos: En esta sección se declaran los atributos que compondrán el archivo junto a su tipo. La sintaxis es la siguiente:

@attribute <nombre-del-atributo> <tipo>

Donde:

<nombre-del-atributo> es de tipo string.

<tipo> acepta diversos tipos, estos son:

NUMERIC Expresa números reales.

— INTEGER Expresa números enteros.

— DATE Expresa fechas.

— STRING Expresa cadenas de texto.

  • Sección de datos: Se declaran los datos que componen la relación separando con comas los atributos y con saltos de línea las relaciones.

La sintaxis es la siguiente:

@data

4,3.2

Una vez conocido el formato de los datos soportado por el Weka, se pasará al confeccionado del archivo con extensión arff.

Los mismo se pueden convertir ficheros de texto conteniendo un registro por línea con los atributos separados por comas (formato csv) a ficheror arff mediante el uso de un filtro convertidor.

Con la información recolectada a través de la EPH (Encuesta Permanente de Hogares) se han generado una base de datos Microsoft Access.

La información será recabada en una planilla de hoja de cálculos Microsoft Excel, luego se la convertirá a un documento de texto plano (.txt, .doc, etc.) para su posterior transformación a un archivo de formato específico de datos legible por el Weka, el formato .arff (ver fig. 7.16).