Find Jobs
Hire Freelancers

[ES] WebPage for elaborate automatically thousand of html pages (spider)

$100-500 USD

Cancelado
Publicado hace más de 12 años

$100-500 USD

Pagado a la entrega
Worker for this project HAVE TO KNOW spanish language. This Description will be continue in this language. Hola, estoy necesitando una aplicaci?n LAMP que pueda elaborar automaticamente cientos de paginas online, provenientes del sitio [login to view URL] Cada pagina contiene edictos de concursos publicos, en particular subastas de terrenos, viviendas. Los textos NO siguen un esquema fijo en su redacci?n, son editados por diferentes autores, por lo tanto es imposible poder programar un simple spider que extraiga automaticamente las informaciones. Por lo tanto, necesito que la aplicaci?n ejecute dos funciones: interprete cada texto automaticamente para sacar la mayor cantidad de datos; la segunda funcion es permitir a un "humano", atrav?s de una pagina PHP/Ajax, solucionar las ambiguidades del texto. Por ejemplo cuando NO se puede ubicar un dato, o cuando existen varios importes y hay que elegir uno, etc. ...Sigue en los detalles de proyecto ## Deliverables Worker for this project HAVE TO KNOW spanish language. This Description will be continue in this language. Hola, estoy necesitando una aplicaci?n LAMP que pueda elaborar automaticamente cientos de paginas online, provenientes del sitio [login to view URL] Cada pagina contiene edictos de concursos publicos, en particular subastas de terrenos, viviendas. Los textos NO siguen un esquema fijo en su redacci?n, son editados por diferentes autores, por lo tanto es imposible poder programar un simple spider que extraiga automaticamente las informaciones. Por lo tanto, necesito que la aplicaci?n ejecute dos funciones: interprete cada texto automaticamente para sacar la mayor cantidad de datos; la segunda funcion es permitir a un "humano", atrav?s de una pagina PHP/Ajax, solucionar las ambiguidades del texto. Por ejemplo cuando NO se puede ubicar un dato, o cuando existen varios importes y hay que elegir uno, etc. La pagina de ejemplo, que contiene 4000 enlaces a los textos de edictos, es [login to view URL] Los datos que necesito son: 1. Referencia catastral, es un codigo de referencia que tiene siempre el mismo formato 2. Calle, numero,codigo postal, municipio y provincia del inmueble subastato 3. Numero de finca registral 4. Tipo inmueble: vivienda, terreno, plaza de parking, etc 5. Valor del inmueble en la primera subasta (puede aparecer en numero o letras), hay que calcular ambos campos 6. Fechas de la subastas, la primera y las siguientes 7. Tipo Subasta: judicial o notarial (el primero si el edicto es de un juzgado, el segundo si es de una comunidad autonoma) 8. PDF del edicto (creo que todos los edictos tienen un proprio enlace a los PDF) caso contrario generarlo con FPDF Al respecto de la pagina PHP/Ajax, que utilizar? un operador, para solucionar ambiguidades, seleccionar datos no ubicados por el spider o controlar el resultado de la extracci?n, necesitar?a una pagina como la que describo: en la mitad derecha aparecer? el texto completo del edicto; en la parte izquierda los campos extraidos por el spider, marcando en amarillo los que el operador tiene que definir. Por ejemplo, si en el texto de una subasta aparecen dos importes, por ejemplo 23.000 y 120.000 euros, el operador tendr? una ListBox y podr? seleccionar el dato correcto. Por cada selecci?n (evento onchange de la ListBox) se marcar? automaticamente en el texto el dato seleccionado, en color, de modo que el operador pueda leer el contexto del dato. Se utilizar? la siguiente tabla MySql (son bienvenidas modificaciones): TB Boletines: id, fecha, url (del boletin), referencia_Catastral, calle, numero, codigo_postal, municipio, provincia, finca, tipo_inmueble, valor_inmueble, fecha_subasta1, fecha_subasta2, fecha_subasta3, tipo_subasta. Habr? DOS paginas, dibujadas con una grafica simple (ya que ser?n paginas para un operador, no para los clientes): 1. Pagina Lista_Boletines 2. PAgina Editar_Boletin Los pasos a seguir por cada nuevo boletin ser?n los siguientes: 1. el "spider" o en "conjunto de funciones para extraer datos" elabora el documento de la URL, insertando un nuevo registro en la tabla de boletines, colmpletando los datos que puede ubicar y dejando en blanco los que no puede encontrar. Esta ser? una primera fase, es MUY, importante que el "spider" sea optimizado lo m?s posible, al fin de que el operador tenga que corregir la menor cantidad de boletines manualmente. 2. El operador, periodicamente, visitar? la lista de boletines, pagina lista_boletines. En la lista aparecer?n estos campos fecha, URL, porcentaje de elaboraci?n automatica. este ultimo campo tendr? que dar una idea al operador de cuanto "bien" trabaj? el spider. 3. En caso de que el "porcentaje de elaboraci?n automatica" sea muy insatisfactorio, el operador podr? hacer click en un enlace y editar el edicto manualmente. 4. Se utilizar? la pagina "editar boletin", por medio de la cual el operador terminar? de definir los campos manualmente, ayudado por la Javascript y/o Ajax de modo que la operaci?n sea la m?s rapida posible. Presionando el bot?n GUARDAR, se actualizar? la tabla de boletines, con los ultimos datos. Nota final 1: es posible que en un mismo edicto aparezcan subastas para varios inmuebles. En este caso el sistema tendr? que generar una entrada por cada uno Nota final 2: TODO lo descripto es "hipotetico"; si usted tiene mejores ideas de analisis para mejorar u optimizar ele funcionamiento dle sistema, acepto propuestas de modificaci?n. Aguardo dudas, ya que el texto descriptivo es muy amplios y puedo haberme olvidado de algo.
ID del proyecto: 2708680

Información sobre el proyecto

Proyecto remoto
Activo hace 12 años

¿Buscas ganar dinero?

Beneficios de presentar ofertas en Freelancer

Fija tu plazo y presupuesto
Cobra por tu trabajo
Describe tu propuesta
Es gratis registrarse y presentar ofertas en los trabajos

Sobre este cliente

Bandera de ARGENTINA
Río Tercero, Argentina
5,0
4
Forma de pago verificada
Miembro desde nov 11, 2010

Verificación del cliente

¡Gracias! Te hemos enviado un enlace para reclamar tu crédito gratuito.
Algo salió mal al enviar tu correo electrónico. Por favor, intenta de nuevo.
Usuarios registrados Total de empleos publicados
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Cargando visualización previa
Permiso concedido para Geolocalización.
Tu sesión de acceso ha expirado y has sido desconectado. Por favor, inica sesión nuevamente.