Find Jobs
Hire Freelancers

Obtener datos con Scrapy

€30-250 EUR

Cerrado
Publicado hace alrededor de 1 año

€30-250 EUR

Pagado a la entrega
Actualmente tenemos un proyecto desarrollado con Python y Scrapy en el que tenemos una serie de actividades de las que hay que extraer cierta información en una página web haciendo scraping. Para ello primero se detecta el nº de registros totales en la primera página y posteriormente el nº de paginas. De cada página se obtiene un determinado nº de enlaces fijo, excepto en la última página que puede tener ese nº o menos. Esto es lo que llamo nivel 1. El nivel 1 hay que ejecutarlo varias veces ya que la página web en cuestión va rotando los enlaces en cada página, y después de una rotación no tiene porque haberse obtenido todos los enlaces. En el nivel 2 con todos los enlaces obtenidos obtenemos la información que hay en cada página. Los datos se obtienen usando para la conexión un proxy. Actualmente ya tenemos hecho este proyecto, pero querría mejorarlo ya que no tenemos ningún tipo de información para tomar decisiones. En la configuración actual en scrapy hay arañas que van obteniendo tanto enlaces del nivel 1 como la información de nivel 2. Lo que querría es por un lado cambiar la ejecución de forma que ahora primero se obtengan todos los enlaces del nivel 1, y una vez terminado ese proceso se empiece con el nivel 2. Por otra parte también querría modificar la información que se obtiene en cada paso para ver si el fallo estuvo en que la página no se cargó bien, que bloquearon la ip…. Querríamos obtener datos que nos sirvan para encontrar dónde se ha producido el fallo, el proceso para encontrarlos sería ir guardando el html de todas las páginas de nivel 1 en una carpeta separada y una vez se acaben de recoger todas las páginas de nivel 1, entrar en esa carpeta e ir recorriendo uno a uno cada archivo html, obteniendo distinta información tales como los enlaces que hay dentro y un recuento de estos que deberían ser obligatoriamente 30 excepto en la última página, el número de rotación por el que vamos, el número de página… Con esto conseguiríamos detectar el fallo en cada ejecución, ya que si con este Excel vemos que tenemos en una página intermedia por ejemplo 28 enlaces, vemos que ha habido algún error ya que debería haber 30, y así ya entraríamos en el html de la página de nivel 1 que ha dado este error y podríamos detectar el problema. El código haría varias comprobaciones, primero nos fijaríamos si el conteo por cada página. Si es mayor a 30 debe saltar un error en nuestra terminal. Si es la última página podría tener menos de 30 registros, pero si es una página intermedia debería tener 30 y en caso de no obtener 30 también debería saltar un error. Para acabar comprobaríamos, quitando duplicados, que el número total de enlaces obtenidos (listos para el nivel 2) sea igual al número total de enlaces a obtener +- un diferencial (número que obtenemos al principio del scrapeo). El diferencial se usa porque a veces nos pueden decir que hay 298 registros y dos minutos mas tarde que hay 296. La información que se fuera recopilando se llevaría a un dataframe y finalmente a un Excel (me refiero a la información sobre la extracción de cada url). Los enlaces de nivel 1 recopilados al final de todo el proceso se irían llevando a una tabla mysql. Si todas las comprobaciones están bien, borraríamos esta carpeta ya que la ejecución ha sido un éxito, si no, lanzaríamos otra iteración para ver si recoge más datos de forma correcta. Si ha leído el proyecto escriba LEIDO en su oferta. Otra parte del proyecto será explicarnos exactamente como funciona el proyecto, ya que somos programadores en Python, pero no tenemos muchos conocimientos de scrapy, así como en la configuración correcta de nuestro servidor Ubuntu para interactuar con nuestro código de una manera ágil. Para el proyecto queremos alguien que hable ESPAÑOL.
ID del proyecto: 35938366

Información sobre el proyecto

14 propuestas
Proyecto remoto
Activo hace 1 año

¿Buscas ganar dinero?

Beneficios de presentar ofertas en Freelancer

Fija tu plazo y presupuesto
Cobra por tu trabajo
Describe tu propuesta
Es gratis registrarse y presentar ofertas en los trabajos
14 freelancers están ofertando un promedio de €143 EUR por este trabajo
Avatar del usuario
Hello, I’m an expert in data scraping across multi languages sites and can provide accurate data throughout all sites. I can chat in Espanol to facilitate you more. Kindly message me to discuss your project and we can start working together. Thank you, I’m looking forward to your response.
€140 EUR en 7 días
5,0 (27 comentarios)
5,8
5,8
Avatar del usuario
Hello sir , I have 2 years of experience in scrapy. I can scrap anything you want. Greetings, I have gone through your project description. I find myself as a perfect fit for this job. I am working as a Python Developer from last 2 year. Some of my expertise is in the fields: 1. Web Scraping/Web Automation - Selenium, Scrapy, Requests, Beautifulsoup 2. AI and ML 3. Web Designing 4. Wordpress 5. Data Science 6. C/C++ 7. SQL I will be available 24/7 to assist you during the project. So lets discuss more about it over chat. Yours Faithfully, Jaibhan Singh Gaur,
€30 EUR en 2 días
5,0 (63 comentarios)
5,1
5,1
Avatar del usuario
I can do it. As 9+ years experiences in these field. I can give good quality work. I have read the guidelines of your work.I believe that i can provide you the best quality works you are anticipating from this platfrom give me a chance to show you the best i can do at your service.
€200 EUR en 3 días
4,8 (43 comentarios)
5,4
5,4
Avatar del usuario
Obtener datos con Scrapy Good evening Jaime C. , Hi I am a very experienced statistician, data scientist and academic writer. I have completed several PhD level thesis projects involving advanced statistical analysis of data. I have worked with data from several companies and have done projects involving high level quantitative analysis and data interpretation skills to study the trends, time behaviour and compare the variables in the data. I can do advanced level analysis in SPSS, R, PYTHON, OPENCV, WEKA, TABLEAU, POWER BI, and EXCEL tools like image processing, machine learning, deep learning, AI, NLP, hypothesis testing, forecasting, T-test, ANOVA etc. Looking forward to discussion, Best Regards, Suyash
€250 EUR en 5 días
4,0 (30 comentarios)
6,0
6,0
Avatar del usuario
Hi, Dear Employer, I am Al.A. I am a Ph.D. backgrounder and professional Excel and data scraper with over 12+ years of experience. I will provide you high-quality Excel file. I have worked on similar projects of /Excel /Web Scraping /Data Mining/,Excel Macros/ Excel VBA/ Capabilities,/ CSV,/ and can deliver professional excel to tight deadlines.
€110 EUR en 2 días
4,2 (25 comentarios)
5,2
5,2
Avatar del usuario
Hi. I can do this using Python. I have scraped lots of complex websites till now. You can check demo on my profile or ping me. I can deliver the perfect result on time. Looking forward to hearing from you soon. Regards :)
€140 EUR en 7 días
5,0 (4 comentarios)
3,3
3,3
Avatar del usuario
Podemos hacer este proyecto para usted de manera eficiente, rápida y económica. Por favor, póngase en contacto con nosotros si tiene alguna pregunta. Esperamos ser elegidos. Saludos. PD: ¡Podemos empezar ahora mismo!
€150 EUR en 3 días
5,0 (3 comentarios)
2,4
2,4
Avatar del usuario
Hello, Nice meet you! I have read your project requirements and then I am sure I can complete that project. I can help you. Thank you
€140 EUR en 7 días
0,0 (0 comentarios)
0,0
0,0
Avatar del usuario
Hi, Friend. I read your job description and got you are seeking a web scraping expert. I have vast experience in web scraping with 5 years of experience for trading. Knowledges/Experiences/Favorites: • Python(Scrapy) - request, selenium, beautifulsoup • JavaScript(Node.js) -request • Xpath • Data Entry • Excel processing with Pandas of python • Data Structures • Competitive Programming • Data Mining & Visualization • Web Security •PHP & MYSQL DB management skills (MySQL, PostgreSQL, MongoDB, MS Access) and Cloud computing experience such as AWS, Azure DevOps, Google Cloud will be helpful for the success of this project. My main development tool is GitHub, I am an expert in Slack, Agile, Scrum, Trello. I am innovative and strategic thinking professional with a proven track record of consistently going above and beyond in meeting customer needs and providing more value to the product than what the customer is paying for. For this very reason, they always get back to us again and again with promising ideas and projects. Thanks for this job posting. Regards.
€140 EUR en 7 días
0,0 (0 comentarios)
0,0
0,0
Avatar del usuario
LEÍDO hola me llamo andres soy programador de python me dedico netamente a scrapy tengo experiencia con los módulos de selenium y el módulo de scrapy por lo que me hablas estás teniendo problemas con el modulo de scrapy al momento de tu extracción si me cuentas mas en detalle podemos ver que pasa con tu script y resolver el problema
€140 EUR en 7 días
0,0 (0 comentarios)
0,0
0,0
Avatar del usuario
Buenas. Aún no he tratado con Scrapy, pero por la descripción del proyecto seguro en un par de días se puede desarrollar.
€200 EUR en 2 días
0,0 (0 comentarios)
0,0
0,0
Avatar del usuario
Buen dia, mi nombre es Diego, tengo conocimientos y experiencia desarrollando scripts Scraping con Selenium y BeautifulSoup, ademas de conocimientos en programacion, base de datos con Python y SQL y experiencia desarrollando para empresas y particulares. Puedo desarrollar los cambios requeridos y dar una garantia de 1 mes para comprobar que los cambios esten bien echos. Saludos
€150 EUR en 7 días
0,0 (0 comentarios)
0,0
0,0

Sobre este cliente

Bandera de SPAIN
sevilla, Spain
5,0
21
Forma de pago verificada
Miembro desde oct 20, 2011

Verificación del cliente

¡Gracias! Te hemos enviado un enlace para reclamar tu crédito gratuito.
Algo salió mal al enviar tu correo electrónico. Por favor, intenta de nuevo.
Usuarios registrados Total de empleos publicados
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Cargando visualización previa
Permiso concedido para Geolocalización.
Tu sesión de acceso ha expirado y has sido desconectado. Por favor, inica sesión nuevamente.