ServiceNow · recursix · Oct 2, 2024 · Sep 11, 2024 · Sep 13, 2024 · Sep 17, 2024
diff --git a/requirements.txt b/requirements.txt
@@ -9,8 +9,6 @@ distributed
 browsergym>=0.7.1
 joblib>=1.2.0
 openai>=1.7,<2
-langchain>=0.1,<1
-langchain_openai
 langchain_community
 tiktoken
 huggingface_hub
@@ -20,3 +18,4 @@ pyyaml>=6
 pandas
 gradio
 gitpython # for the reproducibility script
+requests
diff --git a/src/agentlab/agents/dynamic_prompting.py b/src/agentlab/agents/dynamic_prompting.py
@@ -245,9 +245,7 @@ def fit_tokens(
         additional_prompts = [additional_prompts]
 
     for prompt in additional_prompts:
-        max_prompt_tokens -= (
-            count_tokens(prompt, model=model_name) + 1
-        )  # +1 accounts for LangChain token
+        max_prompt_tokens -= count_tokens(prompt, model=model_name) + 1  # +1 because why not ?
 
     for _ in range(max_iterations):
         prompt = shrinkable.prompt

diff --git a/src/agentlab/agents/generic_agent/generic_agent.py b/src/agentlab/agents/generic_agent/generic_agent.py
@@ -3,12 +3,11 @@
 from warnings import warn
 
 from browsergym.experiments.agent import Agent, AgentInfo
-from langchain.schema import HumanMessage, SystemMessage
 
 from agentlab.agents import dynamic_prompting as dp
 from agentlab.agents.agent_args import AgentArgs
-from agentlab.llm.chat_api import BaseModelArgs
-from agentlab.llm.llm_utils import RetryError, retry_raise
+from agentlab.llm.chat_api import BaseModelArgs, make_system_message, make_user_message
+from agentlab.llm.llm_utils import ParseError, retry
 from agentlab.llm.tracking import cost_tracker_decorator
 
 from .generic_agent_prompt import GenericPromptFlags, MainPrompt
@@ -92,30 +91,33 @@ def get_action(self, obs):
             max_iterations=max_trunc_itr,
             additional_prompts=system_prompt,
         )
-
-        stats = {}
         try:
             # TODO, we would need to further shrink the prompt if the retry
             # cause it to be too long
 
             chat_messages = [
-                SystemMessage(content=system_prompt),
-                HumanMessage(content=prompt),
+                make_system_message(system_prompt),
+                make_user_message(prompt),
             ]
-            ans_dict = retry_raise(
+            ans_dict = retry(
                 self.chat_llm,
                 chat_messages,
                 n_retry=self.max_retry,
                 parser=main_prompt._parse_answer,
             )
+            ans_dict["busted_retry"] = 0
             # inferring the number of retries, TODO: make this less hacky
-            stats["n_retry"] = (len(chat_messages) - 3) / 2
-            stats["busted_retry"] = 0
-        except RetryError as e:
-            ans_dict = {"action": None}
-            stats["busted_retry"] = 1
+            ans_dict["n_retry"] = (len(chat_messages) - 3) / 2
+        except ParseError as e:
+            ans_dict = dict(
+                action=None,
+                n_retry=self.max_retry + 1,
+                busted_retry=1,
+            )
 
-            stats["n_retry"] = self.max_retry + 1
+        stats = self.chat_llm.get_stats()
+        stats["n_retry"] = ans_dict["n_retry"]
+        stats["busted_retry"] = ans_dict["busted_retry"]
 
         self.plan = ans_dict.get("plan", self.plan)
         self.plan_step = ans_dict.get("step", self.plan_step)

diff --git a/src/agentlab/agents/generic_agent/reproducibility_agent.py b/src/agentlab/agents/generic_agent/reproducibility_agent.py
@@ -10,22 +10,22 @@
 answers. Load the this reproducibility study in agent-xray to compare the results.
 """
 
+import difflib
+import logging
+import time
 from copy import copy
 from dataclasses import dataclass
-import logging
 from pathlib import Path
-import time
 
+from browsergym.experiments.agent import AgentInfo
+from browsergym.experiments.loop import ExpArgs, ExpResult, yield_all_exp_results
 from bs4 import BeautifulSoup
 
 from agentlab.agents.agent_args import AgentArgs
-from .generic_agent import GenericAgentArgs, GenericAgent
-from browsergym.experiments.loop import ExpResult, ExpArgs, yield_all_exp_results
-from browsergym.experiments.agent import AgentInfo
-import difflib
+from agentlab.llm.chat_api import make_assistant_message
+from agentlab.llm.llm_utils import messages_to_dict
 
-from langchain.schema import BaseMessage, AIMessage
-from langchain_community.adapters.openai import convert_message_to_dict
+from .generic_agent import GenericAgent, GenericAgentArgs
 
 
 class ReproChatModel:
@@ -45,8 +45,7 @@ def invoke(self, messages: list):
 
         if len(messages) >= len(self.old_messages):
             # if for some reason the llm response was not saved
-            # TODO(thibault): convert this to dict instead of AIMessage in the bye langchain PR.
-            return AIMessage(content="""<action>None</action>""")
+            return make_assistant_message("""<action>None</action>""")
 
         old_response = self.old_messages[len(messages)]
         self.new_messages.append(old_response)
@@ -108,21 +107,6 @@ def get_action(self, obs):
         )
 
 
-# TODO(thibault): move this to llm utils in bye langchain PR.
-def messages_to_dict(messages: list[dict] | list[BaseMessage]) -> dict:
-    new_messages = []
-    for m in messages:
-        if isinstance(m, dict):
-            new_messages.append(m)
-        elif isinstance(m, str):
-            new_messages.append({"role": "<unknown role>", "content": m})
-        elif isinstance(m, BaseMessage):
-            new_messages.append(convert_message_to_dict(m))
-        else:
-            raise ValueError(f"Unknown message type: {type(m)}")
-    return new_messages
-
-
 def _make_agent_stats(action, agent_info, step_info, old_chat_messages, new_chat_messages):
     if isinstance(agent_info, dict):
         agent_info = AgentInfo(**agent_info)

diff --git a/src/agentlab/agents/most_basic_agent/most_basic_agent.py b/src/agentlab/agents/most_basic_agent/most_basic_agent.py
@@ -7,10 +7,10 @@
 from browsergym.core.action.highlevel import HighLevelActionSet
 from browsergym.experiments.agent import Agent, AgentInfo
 from browsergym.experiments.loop import AbstractAgentArgs, EnvArgs, ExpArgs
-from langchain.schema import AIMessage, HumanMessage, SystemMessage
 
+from agentlab.llm.chat_api import make_system_message, make_user_message
 from agentlab.llm.llm_configs import CHAT_MODEL_ARGS_DICT
-from agentlab.llm.llm_utils import ParseError, extract_code_blocks, retry_raise
+from agentlab.llm.llm_utils import ParseError, extract_code_blocks, retry
 from agentlab.llm.tracking import cost_tracker_decorator
 
 if TYPE_CHECKING:
@@ -84,7 +84,10 @@ def get_action(self, obs: Any) -> tuple[str, dict]:
 Provide a chain of thoughts reasoning to decompose the task into smaller steps. And execute only the next step.
 """
 
-        messages = [SystemMessage(content=system_prompt), HumanMessage(content=prompt)]
+        messages = [
+            make_system_message(system_prompt),
+            make_user_message(prompt),
+        ]
 
         def parser(response: str) -> tuple[dict, bool, str]:
             blocks = extract_code_blocks(response)
@@ -94,7 +97,7 @@ def parser(response: str) -> tuple[dict, bool, str]:
             thought = response
             return {"action": action, "think": thought}
 
-        ans_dict = retry_raise(self.chat, messages, n_retry=3, parser=parser)
+        ans_dict = retry(self.chat, messages, n_retry=3, parser=parser)
 
         action = ans_dict.get("action", None)
         thought = ans_dict.get("think", None)

diff --git a/src/agentlab/agents/utils.py b/src/agentlab/agents/utils.py
diff --git a/src/agentlab/analyze/agent_xray.py b/src/agentlab/analyze/agent_xray.py
@@ -12,12 +12,13 @@
 import pandas as pd
 from attr import dataclass
 from browsergym.experiments.loop import ExpResult, StepInfo
-from langchain.schema import BaseMessage
-from langchain_openai import ChatOpenAI
+from langchain.schema import BaseMessage, HumanMessage
+from openai import OpenAI
 from PIL import Image
 
 from agentlab.analyze import inspect_results
 from agentlab.experiments.exp_utils import RESULTS_DIR
+from agentlab.llm.chat_api import make_system_message, make_user_message
 from agentlab.llm.llm_utils import image_to_jpg_base64_url
 
 select_dir_instructions = "Select Experiment Directory"
@@ -569,7 +570,7 @@ def update_chat_messages():
     chat_messages = agent_info.get("chat_messages", ["No Chat Messages"])
     messages = []
     for i, m in enumerate(chat_messages):
-        if isinstance(m, BaseMessage):
+        if isinstance(m, BaseMessage):  # TODO remove once langchain is deprecated
             m = m.content
         elif isinstance(m, dict):
             m = m.get("content", "No Content")
@@ -653,11 +654,24 @@ def submit_action(input_text):
     global info
     agent_info = info.exp_result.steps_info[info.step].agent_info
     chat_messages = deepcopy(agent_info.get("chat_messages", ["No Chat Messages"])[:2])
-    assert isinstance(chat_messages[1], BaseMessage), "Messages should be langchain messages"
+    if isinstance(chat_messages[1], BaseMessage):  # TODO remove once langchain is deprecated
+        assert isinstance(chat_messages[1], HumanMessage), "Second message should be user"
+        chat_messages = [
+            make_system_message(chat_messages[0].content),
+            make_user_message(chat_messages[1].content),
+        ]
+    elif isinstance(chat_messages[1], dict):
+        assert chat_messages[1].get("role", None) == "user", "Second message should be user"
+    else:
+        raise ValueError("Chat messages should be a list of BaseMessage or dict")
 
-    chat = ChatOpenAI(name="gpt-4o-mini")
-    chat_messages[1].content = input_text
-    result_text = chat(chat_messages).content
+    client = OpenAI()
+    chat_messages[1]["content"] = input_text
+    completion = client.chat.completions.create(
+        model="gpt-4o-mini",
+        messages=chat_messages,
+    )
+    result_text = completion.choices[0].message.content
     return result_text
 
 
@@ -666,9 +680,7 @@ def update_prompt_tests():
     agent_info = info.exp_result.steps_info[info.step].agent_info
     chat_messages = agent_info.get("chat_messages", ["No Chat Messages"])
     prompt = chat_messages[1]
-    if isinstance(prompt, BaseMessage):
-        prompt = prompt.content
-    elif isinstance(prompt, dict):
+    if isinstance(prompt, dict):
         prompt = prompt.get("content", "No Content")
     return prompt, prompt
 

diff --git a/src/agentlab/analyze/inspect_results.py b/src/agentlab/analyze/inspect_results.py
@@ -302,9 +302,9 @@ def summarize_stats(sub_df):
             key_ = key.split(".")[1]
             op = key_.split("_")[0]
             if op == "cum":
-                record[key_] = sub_df[key].sum(skipna=True).round(3)
+                record[key_] = sub_df[key].sum(skipna=True)
             elif op == "max":
-                record[key_] = sub_df[key].max(skipna=True).round(3)
+                record[key_] = sub_df[key].max(skipna=True)
             else:
                 raise ValueError(f"Unknown stats operation: {op}")
     return pd.Series(record)

diff --git a/src/agentlab/llm/README.md b/src/agentlab/llm/README.md
@@ -95,12 +95,6 @@ TODO
     - in their demo, they queried the SNOW UI!
 
 
-
-## Relevant agentic tools
-
-- [Langchain Agents](https://python.langchain.com/docs/modules/agents/)
-
-
 ## Relevant Benchmarks
 
 - [bigcode/bigcode-models-leaderboard](https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard)