Completado

Data Mining - RegEx | Spanish Website | Python

ENGLISH

** Update: I just uploaded a small xlsx file with the desired output for you to have a better understanding of the problem. Note that I'd like every scraped field to be corrected. **

I have a Scrapy spider that collects data from a classifieds website like craiglist, where people post properties for sale or lease.

I need help cleaning the gathered data because unfortunately the website doesn't force data types when posting the listings, which leads to a fair chunk of messy data. Not only that, but also people doesn't fully complete the forms when posting the listings, but rather include the information in the description box.

There are 2 things that I need to get done:

- Clean the data that has been filled on each field of the listing form

- Extract from the description the remaining data and fill in the values to the corresponding field.

I can upload my python script if you require it, if you fancy using regular expressions for problem 1. Extracted data will be uploaded so you get an idea of the work required.

I believe that it would be preferably for you to speak spanish in order to understand the data posted in the description.

------------------------------------------------------------------------------------------------------------------------------------------------------

ESPAÑOL

** Actualización: Acabo de subir un archivo xlsx con los resultados que me gustaría obtener para que tengan una idea más clara del problema. Tengan en cuenta que prácticamente todas las variables que aparecen en el archivo necesitan corrección. **

Tengo un script en Scrapy que recolecta datos de avisos publicados en un sitio web similar a craiglist, donde la gente publica inmuebles a la venta o en alquiler.

Necesito ayuda para limpiar los datos recolectados, ya que lamentablemente el sitio no fuerza el uso de ciertos tipos de datos al momento de cargar los avisos, lo que deja un montón de datos sucios. Además, la gente no completa todos los campos cuando carga su aviso, aunque suelen incluirla en la descripción.

Hay dos tareas que necesito que haga el nuevo script:

- Limpiar los datos que fueron cargados correctamente en el formulario de forma heterogénea

- Extraer de la descripción la información faltante y completar los campos que no fueron completados.

Si lo necesitas, puedo subir mi script de Python para que utilices expresiones regulares para resolver el primer problema. Los datos que dispongo actualmente serán cargados para que puedas analizar el problema.

Creo que conviene que hables español para que puedas interpretar el texto incluido en la descripción de los avisos.

Habilidades: Extracción de datos, Python, Expresiones regulares, Scrapy, Extracción de datos web

Ver más: regex trie python, regex nlp python, regex dictionary python, python regex aho corasick, regex data science, python re vs regex speed, python startswith vs regex, faster regex python, translation english spanish website review, data mining spanish, website programming english spanish, data mining translate spanish, automated data mining specific website, read data website python, rate website translation english spanish, phot website templates english spanish, data mining wiki website developer, website translate english essay spanish, website data mining, website conversion english spanish free

Información del empleador:
( 2 comentarios ) San Juan, Argentina

Nº del proyecto: #19231870

Adjudicado a:

zekovicm

Hello Franco,I am Python expert from Bosnia & Herzegovina,Europe. I have carefully gone through with your requirements and I would like to help you with this project ! I can start immediately and finish it within the Más

$222 USD en 3 días
(99 comentarios)
7.2

13 freelancers están ofertando el promedio de $174 para este trabajo

edecena75

Hola Ché, ¿qué tal?... Tal vez yo pueda ayudarte, soy programador certificado en Python, hablemos de tu proyecto por chat. Gracias :)

$150 USD en 2 días
(84 comentarios)
6.4
polarjin2017

I have seen the project - Data Mining - RegEx | Spanish Website | Python. I have been working in these fields((Data Mining, Python, Regular Expressions, Scrapy, Web Scraping)) for 7 yrs as a freelancer. I will never Más

$150 USD en 3 días
(53 comentarios)
6.5
yesikov1224

[login to view URL] Credit is my motto. I am expert web scraping. I can do your job with BS4 ,Perl script,Scrapy Seleinum framework of python. And You can know my skill as u see my profile. I can do any project in your demand Más

$155 USD en 3 días
(48 comentarios)
6.0
elbruninh

Hola estoy interesado en tu proyecto supongo que la informacion que necesitas es la que esta en el excel adjunto, cierto? cual es el website? puedes darme unos ejemplos? quieres hacer data mining de todo el websi Más

$200 USD en 3 días
(57 comentarios)
5.8
FedericoRiva

Qué tal! Soy de Argentina, tengo experiencia haciendo scrapings y si a veces la info en algunos sitios sale media rara asi que entiendo tu problema. Se podría encarar de diversas formas, si te interesa escribime y co Más

$111 USD en 7 días
(26 comentarios)
4.9
adey665

“Python-Regular Exp” I have worked on similar projects to what you are looking for, and I am confident I can exceed your expectations. I can start your work right away. Please message me. Thanks

$150 USD en 1 día
(29 comentarios)
4.2
QualityRenny

Greetings! I am an experienced work at home bilingual (Spanish/English) agent, native in both languages who for the past four (4) years worked as a Quality Assurance Manager at a Lead-Generation company in San Franc Más

$250 USD en 3 días
(1 comentario)
3.0
teamapp

Estimado cliente, Aquí hemos leído tu proyecto "Data Mining - RegEx | Spanish Website | Python He leído cuidadosamente tus requerimientos y entiendo el proyecto. Tenemos algunas preguntas más, por favor envíenos Más

$155 USD en 3 días
(1 comentario)
2.0
IronencodersUSA

Estimado cliente, Por medio de la presente queremos expresarle nuestro interés en brindarle nuestros servicios de diseño y desarrollo de sistemas, plataformas, sistemas automatizados, aplicaciones móviles y página Más

$188 USD en 2 días
(0 comentarios)
0.0
halaidesigns

Hi to Argentina, EXPERT HERE :) okay I have 6 + years experience in this field. Please visit My profile and see the previous project's reviews, I am interested and ready to start, lets discuss with details. lo Más

$200 USD en 1 día
(0 comentarios)
0.0
elibertocarvarg7

Hola soy estudiante de ING civil en busca de empleo y nuevos conocimientos tengo buenas habilidades en excel

$111 USD en 10 días
(0 comentarios)
0.0
PincHo3141592

Tengo una gran soltura con el teclado y amplia experiencia con excel; mi capacidad para procesar grandes volumenes de datos y tablas, asi como una velocidad con el teclado superior a las 400 pulsaciones por minuto, hac Más

$222 USD en 4 días
(0 comentarios)
0.0