Spaces:

Alejo760
/

Microcurriculum-UdeA

Sleeping

App Files Files Community

Alejo760 commited on Nov 5, 2024

Commit

2648dd0

verified ·

1 Parent(s): 0ad5dcb

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -2

app.py CHANGED Viewed

@@ -16,6 +16,8 @@ from docx import Document
 from docx.shared import Inches, Pt, RGBColor
 from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
 from io import BytesIO
 # Verificar que la clave de API se ha cargado
 api_key= os.environ.get("API_KEY")
@@ -27,6 +29,10 @@ vectordb_guia = Chroma(persist_directory="./vector_db_guia2", embedding_function
 # Prepare the list of vector databases
 vectordb_list = [vectordb_PEI, vectordb_guia]
 client = Groq(api_key=api_key)
 # Inicializar el modelo de chat
@@ -46,6 +52,56 @@ st.sidebar.write("Equipo GIE Inclusión y Tecnología")
 st.title("PROGRAMA OFICIAL DE CURSO")
 st.write("Aplica para Pregrado y Posgrado")
 def mejorar_texto_con_IA(var_name, var_value, vectordb_list, nombre_curso):
     context_docs = []
@@ -546,7 +602,6 @@ with st.expander("COMUNIDAD ACADÉMICA QUE PARTICIPÓ EN LA ELABORACIÓN DEL MIC
 # Suponiendo que st.session_state ya contiene las variables necesarias
 variables = st.session_state.to_dict()
 variables['estrategias_didacticas'] = ', '.join(variables.get('estrategias_didacticas', []))
@@ -564,4 +619,3 @@ st.download_button(
     mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
 )

 from docx.shared import Inches, Pt, RGBColor
 from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
 from io import BytesIO
+from PyPDF2 import PdfReader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 # Verificar que la clave de API se ha cargado
 api_key= os.environ.get("API_KEY")
 # Prepare the list of vector databases
 vectordb_list = [vectordb_PEI, vectordb_guia]
+# Si el usuario ha subido documentos personalizados, incluir su base de datos vectorial
+if 'vectordb_custom' in st.session_state:
+    vectordb_list.append(st.session_state['vectordb_custom'])
 client = Groq(api_key=api_key)
 # Inicializar el modelo de chat
 st.title("PROGRAMA OFICIAL DE CURSO")
 st.write("Aplica para Pregrado y Posgrado")
+# Sección para subir documentos adicionales
+st.write("### Añadir Documentos Adicionales")
+st.write("Ya están incluidos el PEI y el manual para la creación de microcurrículo. Puedes añadir documentos específicos del programa. Tamaño máximo por archivo: 50 MB.")
+uploaded_files = st.file_uploader(
+    "Subir documentos en formato PDF",
+    type="pdf",
+    accept_multiple_files=True,
+    key="uploaded_files",
+    help="Puedes subir múltiples archivos PDF."
+)
+if uploaded_files:
+    total_size = sum([file.size for file in uploaded_files])
+    if any(file.size > 50 * 1024 * 1024 for file in uploaded_files):
+        st.error("Uno o más archivos exceden el tamaño máximo de 50 MB. Por favor, sube archivos más pequeños.")
+    else:
+        if st.button("Añadir"):
+            with st.spinner("Procesando documentos..."):
+                # Crear una base de datos vectorial en memoria
+                vectordb_custom = Chroma(
+                    embedding_function=embeddings,
+                    in_memory=True
+                )
+                # Procesar cada archivo subido
+                for uploaded_file in uploaded_files:
+                    # Leer el contenido del archivo PDF
+                    pdf_reader = PdfReader(uploaded_file)
+                    text = ""
+                    for page in pdf_reader.pages:
+                        text += page.extract_text()
+                    # Dividir el texto en fragmentos
+                    text_splitter = RecursiveCharacterTextSplitter(
+                        chunk_size=1000,
+                        chunk_overlap=200,
+                        length_function=len
+                    )
+                    texts = text_splitter.split_text(text)
+                    # Añadir los textos a la base de datos vectorial
+                    vectordb_custom.add_texts(texts)
+                st.success("Documentos añadidos y procesados correctamente.")
+                # Guardar la base de datos vectorial en la sesión
+                st.session_state['vectordb_custom'] = vectordb_custom
 def mejorar_texto_con_IA(var_name, var_value, vectordb_list, nombre_curso):
     context_docs = []
 # Suponiendo que st.session_state ya contiene las variables necesarias
 variables = st.session_state.to_dict()
 variables['estrategias_didacticas'] = ', '.join(variables.get('estrategias_didacticas', []))
     mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
 )